数据挖掘习题及解答-完美版_第1页
数据挖掘习题及解答-完美版_第2页
数据挖掘习题及解答-完美版_第3页
数据挖掘习题及解答-完美版_第4页
数据挖掘习题及解答-完美版_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘习题及解答完美版 Data Mi ning Take Home Exam 学号:xxxx 姓名: 1.(20分)考虑下表的数据集。 顾客ID 性别 车型 衬衣尺码 类 1 家用 小 CO d 2 运动 中 CO 3 运动 中 co 4 运动 大 co 5 运动 加大 co 6 运动 加大 co 7 运动 小 co 8 运动 小 co 9 运动 中 co 10 豪华 大 co 11 家用 大 Cl 12 家用 加大 Cl 13 家用 中 Cl 14 豪华 加大 Cl 15 豪华 小 Cl 16 豪华 小 Cl 17 豪华 中 Cl 18 豪华 中 Cl 19 豪华 中 Cl 20 豪华

2、大 Cl 计算整个数据集的Gini指标值。 计算属性性别的Gini指标值 计算使用多路划分属性车型的Gini指标值 计算使用多路划分属性衬衣尺码的Gini 指标值 (5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?解:(1) 类 顾客 卜0 10 cl 10 Gini二 1-(10/20)八 2-(10/20)八 2=0. 5 性别 男 女 cO 6 4 cl 4 6 Gi ni=l-(6/10)7 Is 仁 Im (yxl+x2) ano va (lsl) Df Sum Sq Mean Sq F value Pr (F) xl1 10021. 2 10021.2 62.038 0.00

3、01007 * x2 4030. 9 4030. 9 24.954 0.0015735 * Residuals7 1130.7 161. 5 Is2 ano va(ls2) Df Sum Sq Mea n Sq F value Pr OF) x2 1 3363. 4 3363. 4 20. 822 0.002595 xl 1 10688. 7 10688.7 66. 170 8.193e-05 Residuals 7 1130.7 161. 5 (i)用F检验来检验以下假设(a 0. 05) Ho:劭二0 计算检验统计量;是否拒绝零假设,为什么? (2)用F检验来检验以下假设(a= 0. 05

4、) Ho:伦二0 计算检验统计量;是否拒绝零假设,为什么? (3)用F检验来检验以下假设(a二0. 05) Ho: pi 二 3 二 0 Ha: 3和3并不都等于零 计算检验统计量;是否拒绝零假设,为什么? 解:(1)根据第一个输出结果F=62. 083F ( 2, 7)=4. 74, pF(2, 7)=4. 74, pF=(2, 7)=4. 74,即拒绝原假 设,得到灼和悅并不都等于0。 4. (20 分) 1 -20. 00 -0. 561 考虑下面 -0. 516 -0. 928 20个观测值: -1. 249 -0. 510 25. 000 -0. 023 0.714 0. 374 1

5、13-0. 377 161. 138 0. 8300. 838 1.087-1.489 0. 874-1. 306 2. 5240. 713 (1) 用3*S标准来检测该数据中是否存在异常值。 (2) 用15*IQR标准来检测该数据中是否存在异常值。 要求提供均值、标准差、IQR值和所用的区间,以及你判断的依据 解:数据放入R运 行得 hhh=c (-20. 00, -0. 516,-1. 249, -0. 510, 25. 000, + + -0. 561,-0. 92& -0 023, 0. 714, 0. 374, + + -0. 377, 0. 830, 0. 838, 0. 874,

6、 -1. 306, + + 1. 138, 1. 087,-1. 489, 2. 524, 0. 713) mean( hhh) 1 0.35665 sqrt(var(hhh) 1 7.405346 jjjv-(hhh-mea n( hhh)/sqrt(var(hhh) which(abs(jjj)=3) 1 5 Ql= qua ntile (hhh, 0. 25) Q3=qua ntile(hhh, 0. 75) IQR=Q3-Q1 QI 25% -0. 65275 Q3 75% 0.847 IQR 75% 1.49975 kkv-Ql-1. 5*IQR llv-Q3+l5*IQR whic

7、h(hhhvkk) 1 1 which(hhhll) 1 5 (1)由以上数据处理可得第五个数据25. 00为异常值。 (2)由数据分析可以得出第一个-2000和第五个25. 00均为异常值。 5简述题(20分) (1)在这门课中你学习了几种聚类分析的算法?简述这几种算法的基本工作原 理。 答:(1)学习了三种聚类分析算法,分别为系统聚类分析、K均值分析和DBSCAN分 析。 其中系统聚类又分为许多种计算规则,主要的有最短距离法、最长距离法、重 心法、离差平方和法及类平均法等,其主要思想是在不同方法下把客观认为最相近 的两类合并为一类,再次执行并类步骤,那么就可以把所有的观测值都聚为一类, 对

8、于想要知道分多少类的具体情况有很大的帮助,可以依照树状聚类图得到清晰的 表示。 K-均值聚类原理是依一定观测值的均值来确定聚类中心,从而根据其他的观测 值和中心的距离来判断归为哪一类中。该聚类方法事先需要确定要分的类别数据, 计算量要小得多,效率比层次聚类要高。但对于想要知道其他几类的分类情况就需 要重新计算分析。 DBSCAN分析算法工作原理是对一组观测值优先聚合靠的最近的两个值,然后再 寻找下一个靠的最近的值,依次类推,最后得到用户想要的簇的种类。其中可能会 出现噪声点,那么根据区间半径考虑是否舍弃的情况。 (2)关联规则挖掘任务主要分为哪几个主要的子任务?简述你学到的算法在这 些 子任务中的工作原理。 答:主要分为两个子任务:频繁项集的产生和关联规则的产生。 第一种算法是Apriori算法是基于支持度的剪枝技术,系统地控制候选项集指数增 长

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论