大学数据挖掘期末考试题_第1页
大学数据挖掘期末考试题_第2页
大学数据挖掘期末考试题_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大学数学专业毕业论文答辩问题模版封-:-号-学-:-名-姓-班-级业密专-院-学。-题题-院试试-学试试-学考考-科末末-息期期-期期-信学学-与季季-学春春-数年年-学学-4 4-1 1-0 0-2 2-3 3-1 10 0-2 2-数据挖掘试卷数据挖掘试卷a 分类 b 预测 c 关联规则分析 d 聚类课程代码:课程代码: c0204413 c0204413课程:课程: 数据挖掘数据挖掘 a a 卷卷4.关于 k 均值和 dbscan 的比较,以下说法不正确的是( )a.k 均值丢弃被它识别为噪声的对象,而dbscan 一般聚类所有对象。题目一二三四五六七八九十总成绩复核b.k 均值使用簇的

2、基于原型的概念,dbscan 使用基于密度的概念。得分c.k 均值很难处理非球形的簇和不同大小的簇,dbscan 可以处理不同大小和不同形状的簇阅卷教师d.k 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是dbscan 会合并有重叠的簇5.下列关于 wards method 说法错误的是:( )一、判断题(每题一、判断题(每题 1 1 分,分,1010 分)分)a.对噪声点和离群点敏感度比较小1. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。 ( )b.擅长处理球状的簇2. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。 (

3、)c.对于 ward 方法,两个簇的邻近度定义为两个簇合并时导致的平方误差3. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。 ( )d.当两个点之间的邻近度取它们之间距离的平方时,ward 方法与组平均非常相似4. 当两个点之间的邻近度取它们之间距离的平方时,ward 方法与组平均非常相似。 ( )6.下列关于层次聚类存在的问题说法正确的是:( )5. dbscan 是相对抗噪声的,并且能够处理任意形状和大小的簇。 ( )a.具有全局优化目标函数6. 属性的性质不必与用来度量他的值的性质相同。 ( )b.group average 擅长处理球状的簇7. 全链对噪声点和离

4、群点很敏感。 ( )c.可以处理不同大小簇的能力8. 对于非对称的属性,只有非零值才是重要的。 ( )d.max 对噪声点和离群点很敏感9. k 均值可以很好的处理不同密度的数据。 ( )7.下列关于凝聚层次聚类的说法中,说法错误的事:( )10. 单链技术擅长处理椭圆形状的簇。 ( )a.一旦两个簇合并,该操作就不能撤销二、选择题(每题二、选择题(每题 2 2 分,分,3030 分)分)b.算法的终止条件是仅剩下一个簇c.空间复杂度为om21. 当不知道数据所带标签时, 可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )d.具有全局优化目标函数a.分类 b.聚类 c.关联分

5、析 d.主成分分析8.规则牛奶,尿布啤酒的支持度和置信度分别为:( )2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值, 它是一种凝聚层次聚类技术。a.min(单链) b.max(全链) c.组平均 d.ward 方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。页脚内容- 3 -大学数学专业毕业论文答辩问题模版tid12345项集面包,牛奶面包,尿布,啤酒,鸡蛋牛奶,尿布,啤酒,可乐面包,牛奶,尿布,啤酒面包,牛奶,尿布,可乐a、分类和聚类都是有指导的学习 b、分类和聚类都是无指导的学习c、分类是有指导的学习,聚类是无指导的学习 d、分类是无指导的

6、学习,聚类是有指导的学习15. 下面购物篮能够提取的 3-项集的最大数量是多少()id 购买项1 牛奶,啤酒,尿布 2 面包,黄油,牛奶 3 牛奶,尿布,饼干4 面包,黄油,饼干 5 啤酒,饼干,尿布 6 牛奶,尿布,面包,黄油7 面包,黄油,尿布 8 啤酒,尿布 9 牛奶,尿布,面包,黄油10 啤酒,饼干a.1 b.2 c.3 d 4a.0.4,0.4 b.0.67,0.67 c.0.4,0.67 d.0.67,0.49.下列( )是属于分裂层次聚类的方法。a.min b.max c.group averaged.mst10.对下图数据进行凝聚聚类操作,簇间相似度使用max 计算,第二步是哪

7、两个簇合并:( )三、简答题(每题三、简答题(每题 8 8 分,分,4040 分)分)1.何谓数据挖掘?它有哪些方面的功能?a.在3和l,2合并 b.3和4,5合并 c.2,3和4,5合并 d. 2,3和4,5形成簇和3合并11.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( )a. 频繁模式挖掘 b. 分类和预测 c. 数据预处理 d. 数据流挖掘12.决策树中不包含一下哪种结点( )2.简述数据预处理方法和内容。3. 何谓聚类?它与分类有什么异同?a,根结点(root node) b,内部结点(internal node) c,外部结点(external node)

8、 d,叶结点(leafnode)13.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( )a. 根据内容检索 b. 建模描述 c. 预测建模 d. 寻找模式和规则14. 下列哪个描述是正确的?()页脚内容- 3 -大学数学专业毕业论文答辩问题模版4.什么是决策树?如何用决策树进行分类?5.简述 id3 算法的基本思想及其主算法的基本步骤p5p60.340.230.130.250.280.110.290.220.000.390.390.002.假设数据挖掘的任务是将如下的 8 个点 (用 (x,y) 代表位置) 聚类为 3 个类: x1(2,10)、 x2(2,5)、x3(8,4)、x4(5,8)、x5(7,5)、x6(6,4)、x7(1,2)、x8(4,9),距离选择欧几里德距离。假设初始选择 x1(2,10)、x4(5,8)、x7(1,2)为每个聚类的中心,请用 k-means 算法来计算:四、四、算算法题(每题法题(每题 1010 分,分,2020 分)分)1.由下图已给出的距离矩阵,将 max 用于 6 个点样本数据集,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论