数据挖掘习题及解答-完美版

上传人：s*** IP属地：天津上传时间：2021-03-30 格式：DOCX 页数：8 大小：18.43KB 积分：16 举报 版权申诉

已阅读5页，还剩3页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、数据挖掘习题及解答完美版Data Mi ning Take Home Exam学号： xxxx 姓名:XXX1. (20分)考虑下表的数据集。顾客ID性别车型衬衣尺码类1家用小C0 d2运动中C03运动中C04运动大C05运动加大C06运动加大C07运动小C08运动小C09运动中C010豪华大C011家用大C112家用加大C113家用中C114豪华加大C115豪华小C116豪华小C117豪华中C118豪华中C119豪华中C120豪华大C1(1) 计算整个数据集的Gini指标值。(2) 计算属性性别的Gini指标值(3) 计算使用多路划分属性车型的 Gini指标值(4) 计算使用多路划分属性衬衣

2、尺码的Gini指标值(5) 下面哪个属性更好，性别、车型还是衬衣尺码？为什么? 解：(1)类顾客卜010|c110Gini=1-(10/20)八2-(10/20)八2=0.5性别男女c064c146Gi ni=1-(6/10)八2-(4/10)八2*1/2*2=0.48车型家用运动豪华c0181c1307Gi ni=1-(1/4)八2-(3/4)八2*4/20+1-(8/8)八2-(0/8)八2*8/20+1-(1/8)八2-(7/8)八2*8/20 =26/160=0.1625尺码小中大加大3322c12422Gini=1-(3/5)八2-(2/5)八2*5/20+1-(3/7)八2-(4/

3、7)八2*7/20+1-(2/4)八2-(2/4)八2*4/20*2=8/25+6/35=0.4914比较上面各属性的Gini值大小可知，车型划分 Gini值0.1625最小，即使用车型属性更好。2. (20分)考虑下表中的购物篮事务数据集顾客ID事务ID购买项1001a,d,e10024a,b,c,e20012a,b,d,e20031a,c,d,e30015b,c,e30022b,d,e40029c,d40040a,b,c50033a,d,e50038a,b,e(1) 将每个事务ID视为一个购物篮，计算项集e ,b,d和b,d,e的支持度。(2) 使用(1)的计算结果，计算关联规则b,d

4、-e和e -b,d的置信度。(3) 将每个顾客ID作为一个购物篮，重复(1)。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次，则为1,否则，为0)(4) 使用(3)的计算结果，计算关联规则b,d -e和e -b,d的置信度。答：(1)由上表计数可得 e 的支持度为8/10=0.8; b, d 的支持度为2/10=0.2;b,d,e的支持度为 2/10=0.2。(2) cb,d e=2/8=0.25;ce b,d=8/2=4。(3) 同理可得：e的支持度为4/5=0.8, b,d的支持度为5/5=1，b,d,e的支持度为4/5=0.8。(4) cb,d e=5/4=1.

5、25, ce b,d=4/5=0.8。3.（20分）以下是多元回归分析的部分 R输出结果。 Is 仁 Im（yx1+x2） ano va（ls1）x1x2 ResidualsDf117Sum Sq 10021.2 4030.9 1130.7Mean Sq10021.24030.9161.5F value Pr(F)62.038 0.0001007 *24.954 0.0015735 * Is2 ano va(ls2)DfSum SqMea n SqF valuePr(F)x213363.43363.420.8220.002595x1110688.710688.766.1708.193e-05R

6、esiduals 71130.7161.5(1)用F检验来检验以下假设（a0.05)Ho：劭=0计算检验统计量；是否拒绝零假设，为什么?(2)用F检验来检验以下假设（a= 0.05）H0：伦=0计算检验统计量；是否拒绝零假设，为什么?(3)用F检验来检验以下假设（a= 0.05）H0: p1 = 3 = 0Ha： 3和3并不都等于零计算检验统计量；是否拒绝零假设，为什么？解：(1)根据第一个输出结果 F=62.083F ( 2, 7) =4.74, pF(2,7)=4.74, pF=(2,7)=4.74,即拒绝原假设，得到灼和悅并不都等于0。4.(20 分)考虑下面20个观测值：1-20.00

7、-0.516-1.249-0.51025.000-0.561-0.928-0.0230.7140.37411-0.3770.8300.8380.874-1.306161.1381.087-1.4892.5240.713(1) 用3*S标准来检测该数据中是否存在异常值。(2) 用1.5*IQR标准来检测该数据中是否存在异常值。要求提供均值、标准差、IQR值和所用的区间，以及你判断的依据解：数据放入R运行得 hhh=c(-20.00,-0.516,-1.249,-0.510,25.000,+ + -0.561,-0.928,-0.023,0.714,0.374,+ + -0.377,0.830,

8、0.838,0.874,-1.306,+ + 1.138,1.087,-1.489,2.524,0.713) mean( hhh)1 0.35665 sqrt(var(hhh)1 7.405346 jjjv-(hhh-mea n( hhh)/sqrt(var(hhh) which(abs(jjj)=3)1 5 Q1= qua ntile(hhh,0.25) Q3=qua ntile(hhh,0.75) IQR=Q3-Q1 Q125%-0.65275 Q375%0.847 IQR75%1.49975 kkv-Q1-1.5*IQR llv-Q3+1.5*IQR which(hhhvkk)1 1 w

9、hich(hhhll)1 5(1) 由以上数据处理可得第五个数据 25.00为异常值。(2) 由数据分析可以得出第一个-20.00和第五个25.00均为异常值。5.简述题（20分）（1）在这门课中你学习了几种聚类分析的算法？简述这几种算法的基本工作原理。答：（1）学习了三种聚类分析算法，分别为系统聚类分析、K均值分析和DBSCAN 分析。其中系统聚类又分为许多种计算规则，主要的有最短距离法、最长距离法、重心法、离差平方和法及类平均法等，其主要思想是在不同方法下把客观认为最相近的两类合并为一类，再次执行并类步骤，那么就可以把所有的观测值都聚为一类，对于想要知道分多少类的具体情况有很大的

10、帮助，可以依照树状聚类图得到清晰的表示。K-均值聚类原理是依一定观测值的均值来确定聚类中心，从而根据其他的观测值和中心的距离来判断归为哪一类中。该聚类方法事先需要确定要分的类别数据，计算量要小得多，效率比层次聚类要高。但对于想要知道其他几类的分类情况就需要重新计算分析。DBSCAN分析算法工作原理是对一组观测值优先聚合靠的最近的两个值，然后再寻找下一个靠的最近的值，依次类推，最后得到用户想要的簇的种类。其中可能会出现噪声点，那么根据区间半径考虑是否舍弃的情况。（2）关联规则挖掘任务主要分为哪几个主要的子任务？简述你学到的算法在这些子任务中的工作原理。答：主要分为两个子任务：频繁项集的产生和关联规则的产生。第一种算法是Aprior

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘习题及解答-完美版

文档简介

温馨提示

最新文档

评论

数据挖掘习题及解答-完美版

文档简介

温馨提示

最新文档

评论

相关文档