数据挖掘智慧树知到期末考试答案2024年

上传人：题*** IP属地：浙江上传时间：2024-04-23 格式：DOCX 页数：23 大小：27.73KB 积分：7.2 举报 版权申诉

已阅读5页，还剩18页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据挖掘智慧树知到期末考试答案2024年数据挖掘给定由两次运行K均值产生的两个不同的簇集，误差的平方和最大的那个应该被视为较优。（）

A:对B:错答案:错一维空间的7个点123891025，根据划分方法聚类质量评价准则，设置k为2时，(1,2,3)(8,9,10,25)聚类的系数E值为34.5。（）

A:对B:错答案:错所谓特征选择，是指从数据中，选择有代表性的属性。（）

A:对B:错答案:对假设两只股票A和B具有在1个星期的以下值：（2，5），（3，8），（5，10），（4，11），（6，14）。如果股票都受到同行业的趋势，他们的价格协方差是1.2。（）

A:错B:对答案:错数据挖掘的目标不在于数据采集策略，而在于对于已经存在的数据进行模式的发掘。（）

A:对B:错答案:对数据库中某属性缺失值比较多时，数据清理可以采用忽略元组的方法。()

A:错B:对答案:错样品是数据对象的别名。()

A:错B:对答案:对数据清洗即将来自多个数据源的数据组合成一个连贯的数据源。（）

A:对B:错答案:错对于决策树，某一属性划分的一个分支中包含C1类别的数据有3条，C2类别的数据有3条，请计算该属性划分时，该分支的数据基尼GINI值为0.5。（）

A:错B:对答案:对对于决策树，某一属性划分的一个分支中包含C1类别的数据有0条，C2类别的数据有6条，请计算该属性划分时，该分支的数据基尼GINI值为0.5。（）

A:对B:错答案:错序数类型数据的可以计算其均值。（）

A:对B:错答案:错一所学校里面有60%的男生(boy)，40%的女生(girl)。男生总是穿长裤(pants)，女生则一半穿长裤一半穿裙子。随机选取一个穿长裤的学生，他（她）是女生的概率是0.5。（）

A:错B:对答案:错属性的别名也可称为实例。（）

A:错B:对答案:错数据预处理主要包括数据清洗、数据集成、数据规约、数据变换和离散化四个步骤。（）

A:错B:对答案:对对于决策树，某一属性划分的一个分支中包含C1类别的数据有0条，C2类别的数据有6条，请计算该属性划分时，该分支的数据信息熵值为0。（）

A:错B:对答案:对在logistic分类中，L1正则化和L2正则化的引入为了解决训练过拟合的问题。（）

A:对B:错答案:对将原始数据进行维度规约，数值规约属于频繁模式挖掘步骤的任务。()

A:错B:对答案:错在决策树中，随着树中结点数变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题。（）

A:错B:对答案:错数据可视化方法主要包括直方图、柱状图、箱线图、散点图等方法。（）

A:错B:对答案:对关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。（）

A:对B:错答案:错那种数据变换的方法将数据沿概念分层向上汇总(

)

A:数据概化B:规范化C:平滑D:聚集答案:数据概化哪种图形显示方法常用于描述两个变量间的依赖模式？(

)

A:分位数图B:LOESS曲线C:散布图D:直方图答案:LOESS曲线下列哪一种操作实现了和神经网络中Dropout类似的效果？(

)

A:堆叠（Stacking）B:BoostingC:其余选项都不正确D:Bagging答案:Bagging分析顾客消费行业，以便有针对性的向其推荐感兴趣的服务，属于（

）问题。

A:关联规则挖掘B:分类与回归C:时序预测D:聚类分析答案:关联规则挖掘下列哪一项属于特征学习算法（representation

learning

algorithm）？(

)

A:都不属于B:神经网络C:K近邻算法D:随机森林答案:神经网络增加卷积核的大小对于改进卷积神经网络的效果是必要的吗？(

)

A:不知道B:没听说过C:是D:否答案:否（

）的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。

A:数据归约B:数据变换C:数据清洗D:数据集成答案:数据归约下列几种数据挖掘功能中，（

）被广泛的应用于股票价格走势分析(

)

A:关联分析B:演变分析C:分类和预测D:聚类分析答案:演变分析下列哪个描述是正确的？（

）

A:分类是无指导的学习，聚类是有指导的学习B:分类和聚类都是无指导的学习C:分类和聚类都是有指导的学习

D:分类是有指导的学习，聚类是无指导的学习答案:分类是有指导的学习，聚类是无指导的学习购物篮分析的核心是(

)

A:挖掘关联规则B:统计热销商品C:收集购物篮数据D:优化商品摆放位置答案:挖掘关联规则设X={1，2，3}是频繁项集，则可由X产生(

)个关联规则。(

)

A:5B:4C:6D:7答案:6以下哪个指标不是表示对象间的相似度和相异度。(

)

A:Manhattan距离B:Minkowski距离C:Eula距离D:Euclidean距离答案:Eula距离下面哪种数据预处理技术可以用来平滑数据，消除数据噪声？

(

)

A:数据清理B:数据集成C:数据归约D:数据变换答案:数据归约聚类质量评估系数仅衡量“覆盖面”的度量指标是（

）。

A:轮廓系数B:召回率C:F值D:正确率答案:召回率下面关于数据粒度的描述不正确的是:

（

）

A:粒度是指数据仓库小数据单元的详细程度和级别;B:粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.分析和处理更灵活,且没有固定的模式C:数据综合度越高,粒度也就越大,级别也就越高;D:数据越详细,粒度就越小,级别也就越高;答案:数据综合度越高,粒度也就越大,级别也就越高;检测一元正态分布中的离群点,属于异常检测中的基于（

）的离群点检测。

A:统计方法B:邻近度C:聚类技术D:密度答案:统计方法对于分类任务，我们不是将神经网络中的随机权重初始化，而是将所有权重设为零。下列哪项是正确的？(

)

A:神经网络模型可以训练，但所有的神经元最终将识别同样的事情B:没有任何问题，神经网络模型将正常训练C:神经网络模型不会进行训练，因为没有净梯度变化D:这些均不会发生答案:神经网络模型可以训练，但所有的神经元最终将识别同样的事情下面关于支持向量机（SVM）的描述错误的是？（

）

A:是一种监督式学习的方法B:可用于多分类的问题C:支持非线性的核函数D:是一种生成式模型答案:是一种生成式模型如果我们使用的学习率太大该怎么办？(

)

A:不确定B:网络将收敛C:网络将无法收敛答案:网络将无法收敛根据顾客的收入和职业情况，预测他们在计算机设备上的花费，所使用的相应数据挖掘功能是(

)

A:分类和预测B:演变分析C:关联分析D:概念描述答案:分类和预测可用作数据挖掘分析中的关联规则算法有（

）。

A:决策树、对数回归、关联模式

B:K均值法、SOM神经网络

C:Apriori算法、FP-Tree算法

D:RBF神经网络、K均值法、决策树答案:Apriori算法下面那种数据挖掘方法可以用来检测孤立点？(

)

A:分类和预测B:演变分析C:概念描述D:聚类分析答案:聚类分析根据关联分析中所涉及的抽象层，可以将关联规则分类为：

(

)

A:单层关联规则B:布尔关联规则C:多层关联规则D:多维关联规则答案:单层关联规则###多层关联规则什么是影响神经网络的深度选择的因素？（

）

A:神经网络的类型，例如：多层感知机(Multi-Layer

Perceptrons,

MLP)，卷积神经网络(Convolutional

Neural

Networks,

CNN)B:输入数据C:输出函数映射D:学习率E:计算能力，即硬件和软件能力答案:学习率###神经网络的类型###计算能力，即硬件和软件能力###输入数据基本的聚类方法可以分为（

）

A:密度方法B:划分方法C:层次方法D:网格方法答案:层次方法神经网络模型（Neural

Network）因受人类大脑的启发而得名，神经网络由许多神经元（Neuron）组成，每个神经元接受一个输入，对输入进行处理后给出一个输出。请问下列关于神经元的描述中，哪几项是正确的？（

）

A:每个神经元可以有多个输入和多个输出B:每个神经元可以有多个输入和一个输出C:每个神经元可以有一个输入和多个输出D:每个神经元可以有一个输入和一个输出答案:每个神经元可以有一个输入和一个输出###每个神经元可以有一个输入和多个输出###每个神经元可以有多个输入和一个输出###每个神经元可以有多个输入和多个输出Apriori算法所面临的主要的挑战包括：

(

)

A:会产生大量的候选项集B:会消耗大量的内存C:对候选项集的支持度计算非常繁琐D:要对数据进行多次扫描答案:会产生大量的候选项集###要对数据进行多次扫描二元变量可以使用（

）来衡量相异度。

A:欧氏距离B:Jaccard系数C:简单匹配系数D:平均偏差答案:简单匹配系数###Jaccard系数数据清理的目的是处理数据中的（

）

A:空缺值B:不一致数据C:敏感数据D:噪声数据答案:不一致数据###噪声数据###空缺值增大卷积核的大小必然会提高卷积神经网络的性能。（

）

A:对B:错答案:错数据规范化指将数据按比例缩放(如更换大单位)，使之落入一个特定的区域（如0-1）以提高数据挖掘效率的方法。规范化的常用方法有：最大-最小规范化、零-均值规范化、小数定标规范化。（

）

A:对B:错答案:对1`、如果增加多层感知机（Multilayer

Perceptron）的隐层层数，测试集的分类错误会减小。（

）

A:错B:对答案:错在监督学习任务中，输出层中的神经元的数量应该与类的数量（其中类的数量大于2）匹配。（

）

A:错B:对答案:错DIANA算法是典型的分裂层次聚类方法。（

）

A:错B:对答案:对支持向量机的准确率一定没有神经网络的好。（

）

A:对B:错答案:错提升卷积核(convolutional

kernel)的大小会显著提升卷积神经网络的性能。（

）

A:错B:对答案:错聚类分析可以看作是一种非监督的分类。（

）

A:对B:错答案:对轮廓系数衡量聚类质量好坏的思想是比较数据点的簇内和簇间距离。（

）

A:对B:错答案:对K-Medians聚类过程中初始质心是随机选取的。（

）

A:错B:对答案:对相异性矩阵反应了数据项之间的相似性。（

）

A:错B:对答案:对聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。

（

）

A:错误B:正确答案:正确孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。

（

）

A:正确B:错误答案:错误Y

ax^2

c（二次多项式）这个方程可以用具有线性阈值的单个隐层的神经网络表示。（

）

A:正确B:错误答案:错误决策树方法通常用于关联规则挖掘。（

）

A:对B:错答案:错InceptionV2版本修改Inception的内部计算逻辑提高网络的表达能力。

A:对B:错答案:对两个点之间的距离可以计算，而簇之间的距离不能计算。

A:错B:对答案:错ID采用整数表示时，不能看作分类属性。

A:错误B:正确答案:错误贝叶斯网络不能用于分类。

A:错B:对答案:错在聚类分析中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。

A:对B:错答案:错密度聚类算法对半径参数是敏感的。

A:正确B:错误答案:正确支持度小于等于置信度。

A:错误B:正确答案:正确星型模型和雪花型模型仅包括一个事实表。

A:错B:对答案:错聚类探索数据的内在结构，而分类是建立属性和类别之间的映射关系。

A:正确B:错误答案:正确支持度和置信度均大于指定阈值的关联规则一定是有意义的。

A:错误B:正确答案:错误贝叶斯网络是一种定性描述变量间依赖关系的模型。

A:对B:错答案:错K-中心点算法使用簇间中心距离，而不是最大距离。

A:错B:对答案:错贝叶斯网络中每个节点的条件概率定量描述了变量间的依赖程度。

A:对B:错答案:对离群点可能是有意义的数据。

A:对B:错答案:错信息熵为0时，不确定性最大。

A:错B:对答案:错数据划分是决策树分类的重要思想，信息增益度量了属性节点对样本的划分效果。

A:对B:错答案:对FP算法中构建FP树的目的是存储候选项集。

A:错误B:正确答案:错误关联规则的前项和后项组成的项集可以是不频繁的。

A:错B:对答案:错K-Means算法使用簇间均值距离，而不是中心距离。

A:正确B:错误答案:错误与划分聚类相比，K-means算法对离群点是不敏感的。

A:错误B:正确答案:错误某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？

A:关联规则发现

B:聚类C:自然语言处理D:分类答案:关联规则发现设3项集是{a,b,c}是频繁项集，则下列一定是频繁项集的是

A:{c,d}B:{a,b}C:{a,d}D:{b,d}答案:{a,b}在ID3算法中信息增益是指

A:条件熵减少的程度最大B:信息的增加效益C:熵增加的程度最大D:信息的溢出程度答案:信息的增加效益设有一个回归方程为y=3-2x，则变量x增加一个单位时

A:y平均减少2.5个单位B:y平均减少2个单位C:y平均增加2.5个单位D:y平均增加2个单位答案:y平均减少2个单位Apriori算法Hash树中存储的是

A:剪枝后的候选项集合B:剪枝前的候选项集合C:所有3项集D:频繁项集答案:剪枝后的候选项集合选出如下是OLAP多维数据分析的操作

A:钻取B:转换C:旋转D:切片和切块答案:钻取###切片和切块###旋转CF树的参数--空间阈值τ用于限制（）。

A:叶节点的大小B:非叶节点的大小C:叶节点里的子簇的大小答案:叶节点里的子簇的大小下列哪个算法属于密度聚类算法？（）。

A:K-modesB:DIANAC:DBSCAND:PAM答案:DBSCAN下面哪种情况不会影响K-means聚类的效果？（）

A:数据点密度分布不均B:数据点呈非凸形状分布C:数据中有异常点存在D:数据点呈圆形状分布答案:数据点呈圆形状分布一组数据的最小值为12,000，最大值为98,000，利用最小最大规范化将数据规范到[0,1]，则73,000规范化的值为：（）

A:0.845B:0.716C:0.612D:0.513答案:0.716数据库中某属性缺失值比较多时，数据清理采用的方法()

A:各项说法均有误B:盒状图法C:忽略元组D:平均值填充答案:平均值填充假定用于分析的数据包含属性age。数据元组中age的值如下（按递增序）：13，15，16，16，19，20，20，21，22，22，25，25，25，30，33，33，35，35，36，40，45，46，52，70,问题：使用按箱平均值平滑方法对上述数据进行平滑，箱的深度为3。第二个箱子值为：()

A:26.8B:27.9C:22.6D:18.3答案:3运用云计算、数据挖掘以及模糊识别等人工智能技术，对海量的数据和信息进行分析和处理，对物体实施智能化的控制，指的是（）

A:互联网B:全面感知C:可靠传递D:智能处理答案:智能处理身高和体重分别是什么类型（）

A:身高离散、体重离散B:身高离散、体重连续C:身高连续、体重连续D:身高连续、体重离散答案:身高连续、体重连续数据挖掘算法主要有聚类算法、关联算法、决策树算法和回归分析等，各种算法用于解决不同的实际问题，某分行拟通过对县域机构数量与存款市场竞争力的相关性分析，进而建立两者之间的函数表达式，用新思维拓展县域市场，提升县域存款的市场竞争力。则可以采用的是：（）

A:决策树算法B:关联算法C:聚类分析D:回归分析答案:回归分析哪一项是一个观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。（）

A:质心B:离群点C:边界点D:核心点答案:离群点NaveBayes是一种特殊的Bayes分类器，特征变量是X，类别标签是C，它的一个假定是:（）

A:各类别的先验概率P是相等的B:特征变量X的各个维度是类别条件独立随机变量C:以0为均值，sqr(2)/2为标准差的正态分布D:P(X|C)是高斯分布答案:特征变量X的各个维度是类别条件独立随机变量标称类型数据的可以实现数学计算()

A:均值B:众数C:中位数D:方差答案:众数印度电影《宝莱坞机器人之恋》中的机器人七弟采用的智能算法最有可能是以下哪一种（）

A:穷举算法B:神经网络C:遗传算法D:模拟退火答案:神经网络“飞机必须飞得比山高”表示（）

A:知识B:信息C:数据D:智慧答案:智慧在无人驾驶时，希望程序能够根据路况决策汽车的方向盘的旋转角度，那么该任务是？（）

A:分类B:聚类C:回归D:降维答案:回归某超市研究销售纪录数据后发现，买面包的人很大概率也会购买牛奶，这种属于数据挖掘的哪类问题：（）

A:聚类B:关联规则发现C:自然语言处理D:分类答案:关联规则发现将原始数据进行维度规约，数值规约是在以下哪个步骤的任务？（）

A:分类与预测B:频繁模式挖掘C:数据流挖掘D:数据预处理答案:数据预处理时间序列合适的建模方法有：（）。

A:一元时间序列B:离散型时间序列C:序列的分布规律D:多元时间序列E:连续型时间序列答案:一元时间序列###多元时间序列###序列的分布规律###离散型时间序列###连续型时间序列下列哪些算法属于层次聚类算法？（）。

A:CUREB:AgnesC:BIRCHD:DIANA答案:Agnes###BIRCH###CURE###DIANABIRCH算法的主要缺点有（）。

A:聚类的结果可能和真实的类别分布不同B:对高维特征的数据聚类效果不好C:无法识别噪声数据D:BIRCH算法在整个过程中一旦中断，一切必须从头再来答案:BIRCH算法AprioriSome算法的优缺点（）。

A:适用于任何数据集B:AprioriSome会产生比较多的候选，可能在回溯阶段前就占满内存。C:AprioriSome跳跃式计算候选，会在某种程度上减少遍历数据集次数D:对于较低的支持度，数据集中有较长的大序列的情况下，采用AprioriSome比较好。答案:AprioriSome跳跃式计算候选,会在某种程度上减少遍历数据集次数###AprioriSome会产生比较多的候选,可能在回溯阶段前就占满内存###对于较低的支持度,数据集中有较长的大序列的情况下,采用AprioriSome比较好GSP算法存在的问题（）。

A:只适用于小规模数据集B:对长序列模式的处理效率比较低C:需要对序列数据集进行多次扫描D:当序列数据集比较大时，容易生成庞大的候选序列答案:对长序列模式的处理效率比较低###当序列数据集比较大时，容易生成庞大的候选序列###需要对序列数据集进行多次扫描DBSCAN算法的优点有（）。

A:能够识别出噪声点B:可以发现任意形状的簇C:对于数据集中样本的顺序不敏感D:不需要事先知道要形成的簇的数量答案:不需要事先知道要形成的簇的数量;可以发现任意形状的簇;能够识别出噪声点;对于数据集中样本的顺序不敏感噪声数据（不正确的值）的成因有（）。

A:数据收集工具的问题B:数据输入时的人为/计算机错误C:其他D:数据传输中产生的错误答案:数据传输中产生的错误###数据收集工具的问题###数据输入时的人为/计算机错误下列哪些是分类算法？（）。

A:ID3B:DIANAC:C4.5D:KNN答案:C4.5###ID3###KNN多维数据模型最典型的数据模式包括（）。

A:星型模式B:雪花模式C:网状模式D:事实星座模式答案:事实星座模式###星型模式###雪花模式可以用来刻画簇间距离的有（）（）。

A:最大距离B:平均距离C:中心距离D:最小距离答案:最小距离###最大距离###平均距离###中心距离处理空缺值的主要方法有（）。

A:使用一个全局常量填补空缺值B:使用与给定元组属同一类的所有样本的平均值。C:使用属性的平均值填补空缺值。D:忽略元组答案:忽略元组;使用一个全局常量填补空缺值;使用属性的平均值填补空缺值。;使用与给定元组属同一类的所有样本的平均值。朴素贝叶斯分类器对什么数据具有较好的分类效果（）。

A:离散数据B:连续数据C:函数依赖的数据D:完全独立的数据答案:函数依赖的数据###完全独立的数据数据挖掘是从具有什么特点的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。（）

A:海量的B:模糊的C:不完全的D:有噪声的答案:有噪声的可以用来刻画簇内距离的有（）（）。

A:簇的内径B:簇的直径C:簇的中心距离和D:簇的平均距离答案:簇的中心距离和###簇的内径###簇的平均距离###簇的直径AprioriSome算法可以看作是AprioriAll算法的改进，具体过程分为两个阶段：（）。

A:凝聚B:分裂C:回溯阶段D:前推阶段答案:前推阶段###回溯阶段分箱方法有（）。

A:按箱中值平滑B:按箱平均值平滑C:按箱边界平滑D:聚类答案:按箱平均值平滑;按箱中值平滑;按箱边界平滑数据不一致性的成因：（）。

A:人为B:机器C:不同的数据源D:违反了函数依赖性答案:不同的数据源###违反了函数依赖性数据归约的策略有（）。

A:数据立方体聚集B:维归约C:数据压缩D:数值归约答案:数值归约###数据压缩###数据立方体聚集###维归约KNN算法的优缺点（）。

A:KNN对于随机分布的数据集分类效果较差，对于类内间距小，类间间距大的数据集分类效果好，而且对于边界不规则的数据效果较好。B:K值的选取非常重要C:KNN对于样本不均衡的数据效果不好，需要进行改进D:KNN算法是最简单有效的分类算法，且容易实现答案:KNN算法是最简单有效的分类算法，且容易实现;KNN对于随机分布的数据集分类效果较差，对于类内间距小，类间间距大的数据集分类效果好，而且对于边界不规则的数据效果较好。;KNN对于样本不均衡的数据效果不好，需要进行改进;K值的选取非常重要互联网本身具有什么样的特征，这种属性特征给数据搜集、整理、研究带来了革命性的突破。（）

A:互动性B:数字化C:共享D:快速性答案:互动性###数字化人从出生到长大的过程中，是如何认识事物的，下列说法错误的是（）

A:聚类过程B:先分类，后聚类C:先聚类，后分类D:分类过程答案:先聚类，后分类下面哪个属于数据的属性类型：()

A:区间B:序数C:相异D:标称答案:相异下面哪种情况会影响K-means聚类的效果？（）

A:数据点呈圆形状分布B:数据中有异常点存在C:数据点呈非凸形状分布D:数据点密度分布不均答案:数据点呈圆形状分布数据挖掘的预测建模任务主要包括哪几大类问题？()

A:模式匹配B:回归C:模式发现D:分类答案:分类数据缩减主要包括如下()

A:降数据B:降维C:数据压缩D:分类答案:降维###降数据###数据压缩决策树的父节点和子节点的熵的大小关系是什么，下列说法错误的是（）

A:决策树的父节点更大B:两者相等C:子节点的熵更大D:根据具体情况而定答案:两者相等###决策树的父节点更大###根据具体情况而定下面哪些数据挖掘算法不需要做数据归一化处理：（）

A:线性回归B:决策树C:朴素贝叶斯D:K均值答案:决策树###朴素贝叶斯下面哪些属于基于划分的聚类算法。（）

A:K-meansB:K-modesC:K中心点D:K-means++答案:K-means;K-modes;K-means++;K中心点简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，下列哪些不属于这种聚类类型（）

A:非互斥聚类B:划分聚类C:模糊聚类D:层次聚类答案:层次聚类###模糊聚类###非互斥聚类在现实世界的数据中，元组在某些属性上缺少值是常有的。描述处理该问题的各种方法有（）

A:使用属性的平均值填充空缺值B:忽略元组C:使用最可能的值填充空缺值D:使用与给定元组属同一类的所有样本的平均值E:使用一个全局常量填充空缺值答案:使用与给定元组属同一类的所有样本的平均值###使用属性的平均值填充空缺值###使用最可能的值填充空缺值###忽略元组数据清理中，处理缺失值的方法是（）

A:成对删除B:整例删除C:估算D:变量删除答案:估算###变量删除###成对删除###整例删除DBSCAN算法对噪声和离群点非常敏感。（）

A:对B:错答案:对OLAP就是数据挖掘。（）

A:错误B:正确答案:错误数据挖掘的对象可以是任何类型的数据源。（）

A:错误B:正确答案:正确分裂的层次聚类算法采用自顶向下的策略，它首先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇，直到达到了某个终结条件。（）

A:错B:对答案:对分类阶段要做的工作是分类规则的评估和分类规则的应用。（）

A:错误B:正确答案:正确数据挖掘就是从数据集中识别出有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程。（）

A:错B:对答案:对数据挖掘只能应用在数据库上。（）

A:对B:错答案:错即使是同一个数据集，如果k选择不同，k-means算法聚类结果可能完全不一样。（）

A:错误B:正确答案:正确数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。（）

A:错误B:正确答案:正确给定全局项集I和交易数据集D，对于I的非空项集I1，若其支持度小于或等于最小支持度阈值，则称I1为频繁项集。（）

A:错误B:正确答案:错误AGNES算法仅可用于规模相对较小的数据集。（）

A:错B:对答案:对凝聚的层次聚类算法代表算法是DIANA算法。（）

A:正确B:错误答案:错误k-prototype算法可以对离散与数值属性两种混合的数据进行聚类。（）

A:错误B:正确答案:正确CF树是随着数据点的插入而动态创建的，因此该方法是增量的。（）

A:错B:对答案:对特征提取要兼顾特征的全面性和独立性。（）

A:错误B:正确答案:正确噪声和离群点给聚类过程带来的影响之一，是会产生空簇。（）

A:错误B:正确答案:正确可以把数据分析分为以下4个层次：数据统计，OLAP，数据挖掘，大数据。（）

A:正确B:错误答案:正确凝聚的层次聚类算法是一种自底向上的策略，初始时先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到某个终结条件被满足。（）

A:错B:对答案:对k-modes算法实现了对离散数据的快速聚类。（）

A:对B:错答案:对数据挖掘所得到的信息应具有先知，有效和实用三个特征。（）

A:错B:对答案:对对于神经网络的说法,

下面正确的是：

(

)

(1)增加神经网络层数,

可能会增加测试数据集的分类错误率

(2)

减少神经网络层数,

总是能减小测试数据集的分类错误率

(3)

增加神经网络层数,

总是能减小训练数据集的分类错误率

A:（1）和

（3）B:（1）C:（2）D:（1）和

（2）答案:AI参考:正确答案是：（A）和（3）。\n\n解释：神经网络是一种复杂模型，可以有很多不同的变种，层数是其最重要的特性之一。当增加神经网络层数时，可以提高模型的表现能力，因此在理论上会降低训练数据集的分类错误率，而有些情况下，虽然可能不会明显改善分类效果，但是也能够减少测试数据集的分类错误率。因此，（1）和（3）都是正确的。而减少神经网络层数可能会降低模型的表现能力，因此不能总是减小测试数据集的分类错误率，（2）不正确。所以答案为A。'关于数据的属性，下列说法错误的是

A:所有员工的ID是标称型的属性B:长度是比率型的数值属性C:区间型的数值属性的差值是有意义的D:区间型的数值属性的比率是有意义的答案:AI参考:关于数据的属性，下列说法错误的是B:长度是比率型的数值属性。\n\n比率型数值属性通常用于描述数值之间的相对大小关系，如员工工资的差距等。而长度属性通常用于描述数值的绝对大小，如员工人数、年龄范围等。因此，选项B中的“长度是比率型的数值属性”是不正确的。其他选项A、C、D都是正确的，其中A和D描述了区间型数值属性的特点和意义，C则说明了区间型数值属性的差值是有意义的。'有关多元线性回归分析的叙述中正确的是

A:各选项都不对B:因变量与多个自变量呈现多项式关系C:自变量与多个因变量呈现线性关系D:因变量与多个自变量呈现线性关系答案:AI参考:有关多元线性回归分析的叙述中正确的是：D:因变量与多个自变量呈现线性关系。\n\n多元线性回归分析是一种统计方法，用于分析因变量与多个自变量之间的线性关系。在这个过程中，因变量与多个自变量呈现线性关系，即它们之间的函数关系是线性的。虽然自变量和因变量之间可能存在非线性的关系，但在多元线性回归分析中，我们通常假设它们是线性的。因此，选项D是正确的描述。'下列哪个描述是正确的？

A:分类和聚类都是无指导的学习B:分类是有指导的学习，聚类是无指导的学习C:分类和聚类都是有指导的学习D:分类是无指导的学习，聚类是有指导的学习答案:AI参考:答案是B：分类是有指导的学习，聚类是无指导的学习。\n\n分类是有指导的学习，需要明确的目标和已知的类别标签，通过观察样本的特征进行学习并分类到相应的类别中。而聚类是无指导的学习，不需要明确的类别标签，通过观察样本的特征自动将其归到相似的群体中。因此，B选项是正确的。'如果用hash树存储3-项集{abc},{bde},{def},采用hash函数h(p)=pmod3，那么哪两个项集能存储在同一个分支？

A:{abc}{bde}B:{abc}{def}C:{bde}{def}答案:AI参考:选项C：{bde}{def}能够存储在同一个分支。\n\n原因如下：\n\n假设将所有项集存储在一个Hash树的根节点下，节点i的位置是由该节点的所有子节点的Hash值计算出来的，这些子节点的位置关系会随着父节点的递归，使得父子节点的Hash值不断增大，即：每个节点只会沿着同一侧路径继续插入下去。因此，只要父子节点的Hash值相同，它们就一定会在同一侧。\n\n对于题目中的三个项集，它们的Hash值分别为0、2和3。对于项集{abc}和{bde}，它们的Hash值都在父节点的右侧（2>0），所以它们能够存储在同一个分支；而对于项集{def}和{bde}，它们的Hash值在父节点的左侧（3<2），所以它们无法存储在同一个分支。\n\n因此，正确答案是选项C：{bde}{def}能够存储在同一个分支。'在一次试验中，测得（x，y）的四组值分别是（1，2），（2，3），（3，4），（4，5），则y与x之间的回归方程是

A:y=2x+1B:y=x+1C:y=x+2D:y=x-1答案:AI参考:答案选B，因为在一组试验中，值之间的数量比较多，但具体的数在研究的意义不是很大，此时我们需要观察数字变化的规律。题干中的（1，2），（2，3），（3，4），（4，5）两两成对，所研究的量分别处于相对的量级，满足回归直线方程研究的意义，只有选项B中的斜率为正。其他的均不能很好表达两者的关系。\n即在这四组值当中我们就可以看出来选B：y=x+1。因为这些数里面，第一个数字都比第二个数字大一所以整体来说的话y都会比x大一也就是加了1的关系。'对于决策树，下列说法正确的是

A:信息增益用于建立决策树时没有任何缺陷B:当应用不平衡样本建立决策树时，不但要关注准确率，还要关注灵敏度C:对样本不平衡问题建立决策树时，不需要关注所有样本的准确率D:过拟合的决策树不影响分类性能答案:AI参考:正确选项是B:当应用不平衡样本建立决策树时，不但要关注准确率，还要关注灵敏度。\n\n决策树是一种常用的分类算法，其优点包括易于理解和实现，并且能够直观地展示分类结果。然而，决策树也存在一些缺点，如过度拟合和欠拟合，以及样本不平衡问题。\n\n对于选项A，信息增益是决策树算法中常用的一个特征选择方法，但在某些情况下，它可能会导致决策树过于简单或过于复杂，从而导致过度拟合或欠拟合。\n\n对于选项C，对样本不平衡问题建立决策树时，也需要关注所有样本的准确率，尤其是少数类样本的准确率。\n\n对于选项D，过拟合的决策树会影响分类性能，因为它可能导致模型对训练数据和测试数据的分类性能都较差。\n\n只有选项B是正确的，因为它强调了在应用不平衡样本建立决策树时，需要同时关注准确率和灵敏度。这是因为不平衡样本可能会导致某些类别在决策树中的生长速度过快，从而影响分类性能。为了解决这个问题，需要同时关注准确率和灵敏度，以确保决策树的分类性能更加稳定和可靠。'以下是4对频繁2项集，找出不能连接的项集对

A:{ad}{ce}B:{ad}{ae}C:{cd}{ce}D:{be}{bf}答案:AI参考:这个问题的答案是C:{cd}{ce}。因为选项A和B中的项集对{ad}和{ce}和{ad}和{ae}都是可以连接的，而选项D中的项集对{be}和{bf}也是可以连接的。然而，选项C中的项集对{cd}和{ce}是不能连接的，因为它们包含相同的元素c，重复的元素是不能连接的。因此，选项C是唯一不能连接的项集对。'下列关于属性类别描述正确的是？

A:用于描述ID的值是1，2，3等数值时，该ID是数值属性B:标称属性含有序数信息C:区间属性的比率是没有意义的D:数值属性可以离散成分类属性答案:AI参考:正确选项是：A:用于描述ID的值是1，2，3等数值时，该ID是数值属性；D:数值属性可以离散成分类属性。\n\n解释：\n\nA选项描述的是数值属性，即属性值是数值类型的，例如ID的值是1，2，3等数值时。B选项描述的是标称属性，标称属性包含有序数信息，比如性别标签"男","女","其他"。C选项描述的是区间属性，区间属性的比率是有意义的，描述了不同区间之间数值的比例关系。所以不正确。\n\n对于D选项，数值属性可以被离散化或者分类化，例如年龄可以被离散化为几个不同的年龄段。所以D选项是正确的。\n\n因此，A和D是本题中的正确选项。'下面是构成卷积神经网络的组成部分的是？

A:n个卷积层和池化层的组合组成B:输出：一个全连结的多层感知机分类器构成C:输入层答案:AI参考:正确选项是A:n个卷积层和池化层的组合组成。\n\n卷积神经网络（ConvolutionalNeuralNetworks，简称CNN）是一种深度学习模型，主要由卷积层、池化层（或叫下采样层）和全连接层（或叫密集层）组成。其中，卷积层用于提取输入数据的局部特征，池化层用于降低数据的维度，提高模型的泛化能力。因此，选项A中的n个卷积层和池化层的组合组成是构成卷积神经网络的正确组成部分。选项B中的多层感知机分类器是输出层的一种，而选项C中的输入层是所有神经网络模型都有的组成部分，但不是卷积神经网络的组成部分。'下列哪些是序数属性？

A:成绩{优，良，中，差}B:矿石硬度{高，中，低}C:性别{男，女}D:产品类别{电子产品，非电子产品}答案:AI参考:正确选项是：\n\nA:成绩{优，良，中，差}和B:矿石硬度{高，中，低}\n\n序数属性是对事物进行排序的属性，也就是每个元素都有一个确定的顺序编号。A选项中的成绩是按照学生的表现进行排序的，B选项中的矿石硬度也是按照矿物的硬度和等级进行排序的。而C选项中的性别是一种分类属性，不属于序数属性；D选项的产品类别是一种分类属性，也不属于序数属性。'卷积网与循环网可以实现的功能包括

A:行为预测B:机器翻译C:看图说话D:预测答案:AI参考:正确选项为BCD，卷积网与循环网可以实现的功能包括机器翻译、看图说话、预测等。卷积网和循环网都是深度学习中的重要技术，其中卷积网主要用于图像识别、语音识别等任务，循环网主要用于自然语言处理等任务。因此，选项BCD都是卷积网和循环网可以实现的功能。选项A行为预测是深度学习的一个应用领域，但并不是卷积网和循环网所特有的功能。'CF树的参数--空间阈值越大，树越（）。

A:小B:不受影响C:大答案:AI参考:在CF树中，空间阈值越大，树的规模就越小。因此，正确答案是A：小。CF树是一种自平衡的搜索树，它能够有效地在磁盘上进行搜索和排序操作。空间阈值是CF树的一个重要参数，它决定了树的最大规模。当空间阈值增大时，树的规模会相应减小，因为较大的空间阈值会导致树的高度增加，从而使得树的规模减小。因此，选项B“不受影响”是不正确的。选项C“大”虽然与实际情况相符，但并非正确答案。'为建立分类模型而被分析的数据对象组成的（）。

A:数据表B:训练数据集C:测试数据集D:数据库答案:AI参考:正确选项是【B:训练数据集】。\n\n训练数据集是用于建立分类模型而被分析的数据对象组成的集合。在建立分类模型的过程中，需要使用训练数据集来训练模型，以便对新的数据对象进行分类预测。测试数据集则用于评估模型的性能和准确性，通常不用于模型的训练。数据表、数据库和测试数据集虽然都可能包含用于分析的数据对象，但它们不是为了建立分类模型而被使用的。因此，B选项是正确答案。'聚类特征CF有个特性，即可以（）。

A:求和B:求差值C

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘智慧树知到期末考试答案2024年

文档简介

温馨提示

最新文档

评论

数据挖掘智慧树知到期末考试答案2024年

文档简介

温馨提示

最新文档

评论

相关文档