【MOOC期末】《数据仓库与数据挖掘》(北京理工大学)期末测试中国大学慕课答案_第1页
【MOOC期末】《数据仓库与数据挖掘》(北京理工大学)期末测试中国大学慕课答案_第2页
【MOOC期末】《数据仓库与数据挖掘》(北京理工大学)期末测试中国大学慕课答案_第3页
【MOOC期末】《数据仓库与数据挖掘》(北京理工大学)期末测试中国大学慕课答案_第4页
【MOOC期末】《数据仓库与数据挖掘》(北京理工大学)期末测试中国大学慕课答案_第5页
免费预览已结束,剩余4页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

【MOOC期末】《数据仓库与数据挖掘》(北京理工大学)期末测试中国大学慕课答案

有些题目顺序不一致,下载后按键盘ctrl+F进行搜索数据仓库与数据挖掘期末1.单选题:关于K均值和DBSCAN的比较,以下说法不正确的是()。

选项:

A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。

B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。

C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。

D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。

答案:【K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。】2.单选题:以下哪些算法是分类算法

选项:

A、DBSCAN

B、C4.5

C、K-Mean

D、EM

答案:【C4.5】3.单选题:下面购物篮能够提取的3-项集的最大数量是多少()ID购买项1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿布8啤酒,尿布9牛奶,尿布,面包,黄油10啤酒,饼干

选项:

A、1

B、2

C、3

D、4

答案:【3】4.单选题:检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。

选项:

A、统计方法

B、邻近度

C、密度

D、聚类技术

答案:【统计方法】5.单选题:以下不属于异常的是()

选项:

A、噪声

B、全局离群点

C、情境离群点

D、群体异常

答案:【噪声】6.单选题:通过聚集多个分类器的预测来提高分类准确率的技术称为()

选项:

A、集成(ensemble)

B、聚集(aggregate)

C、合并(combination)

D、投票(voting)

答案:【集成(ensemble)】7.单选题:以下哪项关于决策树的说法是错误的()

选项:

A、冗余属性不会对决策树的准确率造成不利的影响

B、子树可能在决策树中重复多次

C、决策树算法对于噪声的干扰非常敏感

D、寻找最佳决策树是NP完全问题

答案:【决策树算法对于噪声的干扰非常敏感】8.单选题:假定你现在训练了一个线性SVM并推断出这个模型出现了欠拟合现象。在下一次训练时,应该采取下列什么措施?()

选项:

A、增加数据点

B、减少数据点

C、增加特征

D、减少特征

答案:【增加特征】9.单选题:下面哪一项关于CART的说法是错误的()

选项:

A、分类回归树CART是一种典型的二叉决策树。

B、CART输出变量只能是离散型。

C、CART用“成本复杂性”标准(cost-complexitypruning)来剪枝。

D、CART使用的分裂准则是Gini系数。

答案:【CART输出变量只能是离散型。】10.单选题:()将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。

选项:

A、MIN(单链)

B、MAX(全链)

C、组平均

D、Ward方法

答案:【Ward方法】11.单选题:()将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。

选项:

A、MIN(单链)

B、MAX(全链)

C、组平均

D、Ward方法

答案:【组平均】12.单选题:()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。

选项:

A、边界点

B、质心

C、离群点

D、核心点

答案:【离群点】13.单选题:在基本K均值算法里,当邻近度函数采用()的时候,合适的质心是簇中各点的中位数。

选项:

A、曼哈顿距离

B、平方欧几里德距离

C、余弦距离

D、Bregman散度

答案:【曼哈顿距离】14.单选题:在训练分类器时出现了欠拟合现象。在下一次训练时,应该采取什么措施?()

选项:

A、增加数据点

B、减少数据点

C、增加特征

D、减少特征

答案:【增加特征】15.单选题:以下哪些算法是基于规则的分类器()

选项:

A、C4.5

B、KNN

C、NaiveBayes

D、ANN

答案:【C4.5】16.单选题:以下()属于无参数的异常检测方法

选项:

A、卡方检验

B、最大标准残差检验Grubb’sTest

C、直方图

D、3σ原则

答案:【直方图】17.单选题:以下哪项关于决策树的说法是错误的()

选项:

A、冗余属性不会对决策树的准确率造成不利的影响

B、子树可能在决策树中重复多次

C、决策树算法对于噪声的干扰非常敏感

D、寻找最佳决策树是NP完全问题

答案:【决策树算法对于噪声的干扰非常敏感】18.单选题:下面不属于数据集特征的是:()

选项:

A、连续性

B、维度

C、稀疏性

D、分辨率

答案:【连续性】19.单选题:属性Hair_color={auburn,black,blond,brown,grey,red,white},该属性属于()类型

选项:

A、标称

B、二分

C、序数

D、数值

答案:【标称】20.单选题:将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?

选项:

A、频繁模式挖掘

B、分类和预测

C、数据预处理

D、数据流挖掘

答案:【数据预处理】21.单选题:以下两种描述分别对应哪两种对分类算法的评价标准?(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。

选项:

A、Precision,Recall

B、Recall,Precision

C、Precision,ROC

D、Recall,ROC

答案:【Precision,Recall】22.单选题:某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?

选项:

A、关联规则发现

B、聚类

C、分类

D、自然语言处理

答案:【关联规则发现】23.单选题:以下哪种方法不是常用的数据约减方法()

选项:

A、抽样

B、回归

C、聚类

D、关联规则挖掘

答案:【关联规则挖掘】24.单选题:假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?()

选项:

A、第一个

B、第二个

C、第三个

D、第四个

答案:【第二个】25.单选题:考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()

选项:

A、1,2,3,4

B、1,2,3,5

C、1,2,4,5

D、1,3,4,5

答案:【1,2,4,5】26.单选题:设X={1,2,3}是频繁项集,则可由X产生__()__个关联规则。

选项:

A、4

B、5

C、6

D、7

答案:【6】27.单选题:一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:()

选项:

A、一年级

B、二年级

C、三年级

D、四年级

答案:【一年级】28.单选题:假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:()

选项:

A、0.821

B、1.224

C、1.458

D、0.716

答案:【0.716】29.单选题:只有非零值才重要的二元属性被称作:()

选项:

A、计数属性

B、离散属性

C、非对称的二元属性

D、对称属性

答案:【非对称的二元属性】30.单选题:当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()

选项:

A、分类

B、聚类

C、关联分析

D、隐马尔可夫链

答案:【聚类】31.CART采用Gini指数来度量分裂时的不纯度。_____越大,样本集合的不确定性程度越高。

答案:【gini指数/Gini指数/GINI指数/基尼指数】32.C4.5算法采用基于_____作为选择分裂属性的度量标准。

答案:【信息增益率】33.考虑值集{12243324556826},其四分位数极差是:____

答案:【31】34.使用DBSCAN进行异常点检测时,异常点被定义为________的数据对象。

答案:【不属于任何簇】35.KNN算法是一种典型的______学习器

答案:【消极】36.数据挖掘任务主要包括描述性和_____任务。

答案:【预测性】37.从数据仓库的角度可以将数据挖掘过程划分为_______、数据集成、数据选择与变换、数据挖掘及知识评估等阶段。

答案:【数据清理/数据清洗】38.数据挖掘是从大量数据中挖掘重要、隐含的、以前未知、______的模式或知识。

答案:【潜在有用】39.局部异常因子计算中,样本p的第k邻域内点到p的平均可达距离的倒数成为样本p的____

答案:【局部可达密度】40.DBSCAN算法时间复杂性O(__)

答案:【n2】41.关联规则挖掘问题可以划分成两个子问题:发现频繁项目集和生成______。

答案:【关联规则】42.大于或等于min-support的非空子集,称为____。

答案:【频繁项目集】43.异常点类型包括全局异常、上下文异常和______

答案:【群体异常】44.聚类中不属于任何簇的数据对象可以被认为是_____

答案:【异常点/离群点】45.通过数据集成可以维护数据源整体上的数据______

答案:【一致性】46.样本p的局部异常因子值接近____,说明p与其邻域点密度差不多,p可能和邻域点属于同一簇。

答案:【1】47.通过离散化操作可以将连续属性转化为____属性

答案:【序数】48.数据集的属性可以划分为_

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论