大学数据挖掘期末考试题_第1页
大学数据挖掘期末考试题_第2页
大学数据挖掘期末考试题_第3页
大学数据挖掘期末考试题_第4页
大学数据挖掘期末考试题_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、、判断题(每题1分,10分)号学 Z:名姓班业专数据挖掘试卷课程代码:C0204413 课程: 数据挖掘A卷院学院学学科息信与学数题目-一-二二三四五六七八九十总成绩复核得分阅卷教师1. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。()2. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。()3. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。()4. 当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。()5. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。()6. 属性的性质不必

2、与用来度量他的值的性质相同。()7. 全链对噪声点和离群点很敏感。()8. 对于非对称的属性,只有非零值才是重要的。()9. K均值可以很好的处理不同密度的数据。()10. 单链技术擅长处理椭圆形状的簇。()二、选择题(每题2分,30分)1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()A.分类B.聚类C.关联分析D.主成分分析2. ()将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。A.MIN(单链)B.MAX(全链) C.组平均 D.Ward方法3. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了()数据挖掘

3、方法。A分类B预测C关联规则分析D聚类4关于K均值和DBSCAN的比较,以下说法不正确的是 ()A. K均值丢弃被它识别为噪声的对象,而DBSCAN 一般聚类所有对象。B. K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。C. K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D. K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇5.下列关于 Ward Method说法错误的是:()第-4 -页共4页TID项集1面包,牛奶2面包,尿布,啤酒,鸡蛋 3牛奶,尿布,啤酒,可乐4面包,牛奶,尿布,啤酒 5面包,牛奶

4、,尿布,可乐C.0.4,0.67D.0.67,0.4A.在 和1,2合并 B.3和4,5合并 C.2,3和4,5合并 D. 2,3和4,5形成簇和3合并11. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘12. 决策树中不包含一下哪种结点()A,根结点(root node) B,内部结点(internal node)C,外部结点(external node) D,叶结点(leaf node)13. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?()C.预测建模D.寻找

5、模式和规则B、分类和聚类都是无指导的学习D、分类是无指导的学习,聚类是有指导的学习)ID购买项1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿布8啤酒,尿布9牛奶,尿布,面包,黄油10啤酒,饼干15.下面购物篮能够提取的3-项集的最大数量是多少A.1B.2C.3D 4A. 对噪声点和离群点敏感度比较小B. 擅长处理球状的簇C对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似6下列关于层次聚类存在的问题说法正确的是:()A.

6、具有全局优化目标函数B. Group Average擅长处理球状的簇C. 可以处理不同大小簇的能力D. Max对噪声点和离群点很敏感7. 下列关于凝聚层次聚类的说法中,说法错误的事:()A. 一旦两个簇合并,该操作就不能撤销B. 算法的终止条件是仅剩下一个簇C. 空间复杂度为0 m2D. 具有全局优化目标函数8. 规则牛奶,尿布 t 啤酒的支持度和置信度分别为:()A.0.4,0.4B.0.67,0.679. 下列()是属于分裂层次聚类的方法。A.Mi nB.MaxC.Group AverageD.MST10. 对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:()1

7、1I2I3I4I511too0,900.100.650.20I20.901.000.700.600.50I30.100701.000.400.30I40.650.600.401.000.80I50.200.500300.80tooA.根据内容检索 B.建模描述14.下列哪个描述是正确的?()A、分类和聚类都是有指导的学习C、分类是有指导的学习,聚类是无指导的学习三、简答题(每题8分,40分)i.何谓数据挖掘?它有哪些方面的功能?5.简述ID3算法的基本思想及其主算法的基本步骤2.简述数据预处理方法和内容。3何谓聚类?它与分类有什么异同?四、算法题(每题10分,20分)1.由下图已给出的距离矩阵,将 Max用于6个点样本数据集,画出层次聚类的树状图?P1P2P3P4P5P6P1:0.000.240.220.370.34 :0.23P20.240.000.140.200.130.25P3r 0.220.140.000.150.28 10.11P40.370.200.150.000.290.22P5:0.340.130.280.290.00 :0.39P60.230.250.110.220.390.004.什么是决策树?如何用决策树进行分类?2.假设数据挖掘的任务是将如下的 8个点(用 (x,y)代表位置)聚类为3个类:X1(2,10)、X2(2,5)、X3(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论