版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、D.Wa d 方法( ) 数据挖掘方法、A 分类B 预测 C 关联规则分析 D 聚类数据挖掘考试题一选择题。 当不知道数据所带标签时 ,可以使用哪种技术促使带同类标签得数据与带其她标签得数据相分离 ?( )A. 分类B、聚类C.关联分析。主成分分析2. ( )将两个簇得邻近度定义为不同簇得所有点对邻近度得平均值,它就是一种凝聚层次聚类技术。A。MIN( 单链)B。MAX( 全链 )C、组平均 3、数据挖掘得经典案例“啤酒与尿布试验”最主要就是应用了4。关于 K 均值与 DB CAN 得比较 ,以下说法不正确得就是 ( )A. K 均值丢弃被它识别为噪声得对象 ,而DBS N 一般聚类所有对象。
2、B、均值使用簇得基于原型得概念 ,DBSC 使用基于密度得概念。 K 均值很难处理非球形得簇与不同大小得簇 ,DBSCAN 可以处理不同大小与不同形状得.K 均值可以发现不就是明显分离得簇 ,即便簇有重叠也可以发现 ,但就是 DBSCAN 会合并 有重叠得簇 、下列关于 War 's ethod 说法错误得就是 :( )A 、对噪声点与离群点敏感度比较小B、擅长处理球状得簇C。对于 Ward 方法 ,两个簇得邻近度定义为两个簇合并时导致得平方误差D。当两个点之间得邻近度取它们之间距离得平方时,Wad 方法与组平均非常相似6. 下列关于层次聚类存在得问题说法正确得就是:( )A. 具有全
3、局优化目标函数B. Grou verage 擅长处理球状得簇C. 可以处理不同大小簇得能力D. Ma 对噪声点与离群点很敏感。下列关于凝聚层次聚类得说法中,说法错误得事 :( )A 。一旦两个簇合并 ,该操作就不能撤销B、算法得终止条件就是仅剩下一个簇C. 空间复杂度为D。具有全局优化目标函数8。规则牛奶 ,尿布啤酒 得支持度与置信度分别为 :( )TID项集1面包 ,牛奶 面包 ,尿布,啤酒 ,鸡蛋3 牛奶 ,尿布 ,啤酒 ,可乐 4 面包 ,牛奶 ,尿布 ,啤酒5面包 ,牛奶,尿布 ,可乐A。 4,.4B。 0.6 ,0、 7 。 0。 4,0、 67D、0。6,0、49、下列 ( )就是
4、属于分裂层次聚类得方法。A. in? .Ma ? 、 Grou A ag ?D 、 MST10。对下图数据进行凝聚聚类操作,簇间相似度使用 MA 计算 , 第二步就是哪两个簇合并:( )A、在 3与l,2 合并 、 3 与 4,5合并 .2,3与4,合并D、 2,3与 ,5形成簇与 3 合并二填空题 :1. 属性包括得四种类型 : 、 、 、 。2. 就是两个簇得邻近度定义为不同簇得所有点对邻近度得平均值、 基本凝聚层次聚类算法空间复杂度,时间复杂度,如果某个簇到其她所有簇得距离存放在一个有序表或堆中 ,层次聚类所需要得时间复杂度将为。. 聚 类 中 , 定 义 簇间得相似度得方法有(写出四个
5、):、。、层次聚类技术就是第二类重要得聚类方法、两种层次聚类得基本方法:、6、组平均就是一种界于与之间得折中方法。7。相似度矩阵可以用相识度表示还可以用表示。. 全链在处理大小不同得簇时 ,可能使破裂 ,并且偏好。9。 单链技术擅长于处理,但对与 很敏感。10、 聚类分析可以瞧做就是一种得分类、 (有监督、无监督 )三、判断题1. 从点作为个体簇开始 ,每一步合并两个最接近得簇 ,这就是一种分裂得层次聚类方法。 ( )2. 数据挖掘得目标不在于数据采集策略 ,而在于对已经存在得数据进行模式得发掘。( )3. 在聚类分析当中 ,簇内得相似性越大 ,簇间得差别越大 ,聚类得效果就越差、 ( )4.
6、 当两个点之间得邻近度取它们之间距离得平方时 ,Ward方法与组平均非常相似。 ( )5. DBSCAN 就是相对抗噪声得 ,并且能够处理任意形状与大小得簇。 ( )6. 属性得性质不必与用来度量她得值得性质相同。 ( )7. 全链对噪声点与离群点很敏感。 ( )8. 对于非对称得属性 ,只有非零值才就是重要得、 ( )9. K 均值可以很好得处理不同密度得数据、 ( )10. 单链技术擅长处理椭圆形状得簇。 ( )四。综合题1. 何为层次聚类?它用哪两种图表示?2。两种层次聚类得基本方法?两种方法得定义?3. 分别写出 Mi、Max 与组平均得优缺点?4. 写出基本凝聚层次聚类得算法 ?5.
7、由下图已给出得距离矩阵 ,将 Ma用于 6 个点样本数据集 ,画出层次聚类得树状 图?PP2P4P5P6P10。000、20、0.0、30.2320。40。000。40.200。 0。2530、2、10。000、50。20.1P40.37、200.10.00.290、22P5.340、10.280、20。00。39P60。0。250、110、20、0、00考试题+答案、选择题1、 当不知道数据所带标签时 ,可以使用哪种技术促使带同类标签得数据与带其她标签得数 据相分离? (B)A 。分类 .聚类C、关联分析D. 主成分分析2。 ()将两个簇得邻近度定义为不同簇得所有点对邻近度得平均值,它就是一
8、种凝聚层次聚类技术。、 MI (单链 )B.MAX( 全链 )C.组平均。 Ward 方法3、数据挖掘得经典案例“啤酒与尿布试验"最主要就是应用了()数据挖掘方法。A 分类B 预测C 关联规则分析聚类.关于 K 均值与 DBSC N 得比较 ,以下说法不正确得就是 (A).K 均值丢弃被它识别为噪声得对象 ,而 B AN 一般聚类所有对象。B、K 均值使用簇得基于原型得概念 ,DBSCAN 使用基于密度得概念。、均值很难处理非球形得簇与不同大小得簇 ,DB 可以处理不同大小与不同形状 得簇D、K 均值可以发现不就是明显分离得簇 ,即便簇有重叠也可以发现 ,但就是 DBSCA 会合并
9、有重叠得簇5、下列关于 Ward's et od 说法错误得就是 :()A 、对噪声点与离群点敏感度比较小、擅长处理球状得簇C。对于 ar方法 ,两个簇得邻近度定义为两个簇合并时导致得平方误差。当两个点之间得邻近度取它们之间距离得平方时,ad 方法与组平均非常相似7.下列关于层次聚类存在得问题说法正确得就是:(B)A 具有全局优化目标函数.Goup Average 擅长处理球状得簇C。可以处理不同大小簇得能力。Max 对噪声点与离群点很敏感 。下列关于凝聚层次聚类得说法中 ,说法错误得事 :(D)A 、一旦两个簇合并 ,该操作就不能撤销、算法得终止条件就是仅剩下一个簇、空间复杂度为D.
10、 具有全局优化目标函数8、规则牛奶 ,尿布 啤酒得支持度与置信度分别为:()ID项集1面包 ,牛奶 2 面包 ,尿布 ,啤酒 ,鸡蛋 3牛奶 ,尿布,啤酒 ,可乐4 面包 ,牛奶 ,尿布 ,啤酒面包 ,牛奶,尿布 ,可乐。 0。 4,0、B。 0.67,0 。 67C、 4,0。 7D 。 ,0.4.下列( D )就是属于分裂层次聚类得方法。A。Mi ? B。Ma? 。 Gro Average?D 。 S 10.对下图数据进行凝聚聚类操作 ,簇间相似度使用 MAX 计算 ,第二步就是哪两个簇合并 :( )A、在3与 ,2合并B. 与 4,5合并C。 2,3与 ,5合并D、2, 与 4,5形成簇
11、与 合并二。填空题 :1。属性包括得四种类型 :标称 、序数、区间、比率。2。 组平均 就是两个簇得邻近度定义为不同簇得所有点对邻近度得平均值。 . 基本凝聚层次聚类算法空间复杂度 ,时间复杂度 ,如果某个簇到其她所有簇得距离存放在 一个有序表或堆中 ,层次聚类所需要得时间复杂度将为。 聚类中 ,定义簇间得相似度得方法有 (写出四个 ):MIN( 单链)、AX( 全链 )、组平均 、Ward 方法 。 层次聚类技术就是第二类重要得聚类方法。 两种层次聚类得基本方法 :凝聚层次聚类 、 分裂层次聚类 、6. 组平均就是一种界于单链 与 全链 之间得折中方法。7、相似度矩阵可以用相识度表示还可以用
12、距离 表示。8. 全链在处理大小不同得簇时 ,可能使大得簇破裂,并且偏好 球形。9、单链技术擅长于处理 非椭圆形状得簇,但对 噪声点 与 离群点 很敏感。1。 聚类分析可以瞧做就是一种 无监督 得分类。 (有监督、无监督 )三。判断题 :1。 从点作为个体簇开始 ,每一步合并两个最接近得簇 ,这就是一种分裂得层次聚类方法、 (×)2、 数据挖掘得目标不在于数据采集策略 ,而在于对已经存在得数据进行模式得发掘。( )3。在聚类分析当中 ,簇内得相似性越大 ,簇间得差别越大 ,聚类得效果就越差、 (× )4。当两个点之间得邻近度取它们之间距离得平方时,Wad方法与组平均非常相似
13、、 ( )。 DBSCAN 就是相对抗噪声得 ,并且能够处理任意形状与大小得簇。 ( )6、 属性得性质不必与用来度量她得值得性质相同。( )7、 全链对噪声点与离群点很敏感、 (× )8。 对于非对称得属性 ,只有非零值才就是重要得、 ( )9、K 均值可以很好得处理不同密度得数据。( ×)10、单链技术擅长处理椭圆形状得簇。(× )四. 综合题、 何为层次聚类?它用哪两种图表示? 层次聚类为嵌套簇得聚集 ,组成一棵层次数、两种主要图得表示 :树状图与嵌套簇图。、 两种层次聚类得基本方法 ?两种方法得定义 ? 凝聚层次聚类与分裂层次聚类凝聚得 :从点作为个体簇开
14、始 ,每一步合并两个最接近得簇。分裂得 :从包含所有点得某个簇开始 ,每一步分裂一个簇 ,直到仅剩下单点簇、3.分别写出 Min 、Ma 与组平均得优缺点 ?定义方式优点缺点M n能处理非椭圆形状对噪声与离群点很敏感Max对噪声点与离群点敏感度较小1.当处理簇大小不同时 ,较大得簇容易破裂2.偏好处理球状得簇组平均对噪声点与离群点敏感度较小偏好处理球状得簇4。写出基本凝聚层次聚类得算法算法步骤 :(1)计算邻近度矩阵(2)Repeat(3)合并最邻近得两个簇(4)更新邻近度矩阵 ,以反映新得簇与原来得簇之间得邻近度(5)Unt l 仅剩下一个簇5。由下图已给出得距离矩阵 ,将 ax用于 6 个
15、点样本数据集 ,画出层次聚类得树 状图?123P4P5P6P1。000、240.220.370、340.3P2.40.000.140.20。1。2530。20。140。000.50。280。11P40。370。00、50、290、2P50、30、130.280。290、000、9P0。23、250.0。220。.这就是告诉您得计算过程 ,现在不要写了、P3与 P6最近所以 36结合,P2与 P5较近,所以25结合,现在就是3, 、2, 、 1与,D st(3,6,4) = max(dist(3,),dis (6, ) m x(0、 15,0.2)= 、 22 Dist(3, ,2,5) = max(dis(,2),dist(,2),dist(3,5),dit(,) max(0.14,0。 2,0。 8,、 3)=0、 3Dist( 3, ,1 )=ma( ist(3,1),dist(6,)= ax(0、 2,、 23) 0、23 所以 ,6与 结合。现在还剩 3,6,4、 ,5与 1 Dst(,6,4,5)=max
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖北第二师范学院《中级财务会计Ⅰ》2022-2023学年第一学期期末试卷
- 湖北第二师范学院《田径Ⅲ》2022-2023学年第一学期期末试卷
- 2024【合同范本】砂石运输合同范本
- 《护士礼仪与沟通》课件
- 湖北大学知行学院《广播电视采访与写作》2023-2024学年第一学期期末试卷
- 2024工厂用工合同样本
- 心理健康教育主题活动
- 2024店铺转让合同
- 2024新版抵押借款合同样本
- 《如何正确填报两书》课件
- 2024中国烟草总公司合肥设计院招聘6人笔试易考易错模拟试题(共500题)试卷后附参考答案
- 中学生校园食品安全教育
- 国开(浙江)2024年秋《中国建筑史(本)》形考作业1-4答案
- 医院检验科实验室生物安全程序文件SOP
- 第9课-隋唐时期的经济、科技与文化-【中职专用】《中国历史》课件(高教版2023基础模块)
- 个人嘉奖登记(报告)表(无水印)
- 大队委竞选课件
- 电度表检验报告格式(共4页)
- 鄂尔多斯市东胜区煤矿信息表
- 智慧城市-西安市城市运行大数据平台可研报告
- 工程施工进度款申请表(模板)WORD
评论
0/150
提交评论