版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Data Mining Take Home Exam学号: xxxx 姓名: xxx 1. (20分)考虑下表的数据集。顾客ID性别车型衬衣尺码类1234567891011121314151617181920男男男男男男女女女女男男男男女女女女女女家用运动运动运动运动运动运动运动运动豪华家用家用家用豪华豪华豪华豪华豪华豪华豪华小中中大加大加大小小中大大加大中加大小小中中中大C0C0C0C0C0C0C0C0C0C0C1C1C1C1C1C1C1C1C1C1(1)计算整个数据集的Gini指标值。(2)计算属性性别的Gini指标值(3)计算使用多路划分属性车型的Gini指标值(4)计算使用多路划分属性
2、衬衣尺码的Gini指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?解:(1)类顾客c010c110Gini=1-(10/20)2-(10/20)2=0.5(2)性别男女c064c146Gini=1-(6/10)2-(4/10)2*1/2*2=0.48(3)车型家用运动豪华c0181c1307Gini=1-(1/4)2-(3/4)2*4/20+1-(8/8)2-(0/8)2*8/20+1-(1/8)2-(7/8)2*8/20=26/160=0.1625(4)尺码小中大加大c03322c12422Gini=1-(3/5)2-(2/5)2*5/20+1-(3/7)2-(4/7)2*7/
3、20+1-(2/4)2-(2/4)2*4/20*2=8/25+6/35=0.4914(5)比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。2. (20分)考虑下表中的购物篮事务数据集。顾客ID事务ID购买项1122334455001002400120031001500220029004000330038a,d,ea,b,c,ea,b,d,ea,c,d,eb,c,eb,d,ec,da,b,ca,d,ea,b,e (1) 将每个事务ID视为一个购物篮,计算项集e,b,d 和b,d,e的支持度。 (2)使用(1)的计算结果,计算关联规则 b,de和eb,d
4、 的置信度。 (3)将每个顾客ID作为一个购物篮,重复(1)。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。 (4)使用(3)的计算结果,计算关联规则b,de和eb,d 的置信度。 答:(1)由上表计数可得的支持度为8/10=0.8;,的支持度为2/10=0.2;b,d,e的支持度为2/10=0.2。(2)cb,de=2/8=0.25; ceb,d=8/2=4。(3)同理可得:e的支持度为4/5=0.8,b,d的支持度为5/5=1, b,d,e的支持度为4/5=0.8。(4)cb,de=5/4=1.25,ceb,d=4/5=0.8。3. (20分
5、)以下是多元回归分析的部分R输出结果。> ls1=lm(yx1+x2)> anova(ls1) Df Sum Sq Mean Sq F value Pr(>F) x1 1 10021.2 10021.2 62.038 0.0001007 *x2 1 4030.9 4030.9 24.954 0.0015735 * Residuals 7 1130.7 161.5 > ls2<-lm(yx2+x1)> anova(ls2) Df Sum Sq Mean Sq F value Pr(>F) x2 1 3363.4 3363.4 20.822 0.00259
6、5 * x1 1 10688.7 10688.7 66.170 8.193e-05 *Residuals 7 1130.7 161.5 (1)用F检验来检验以下假设 ( = 0.05) H0: 1 = 0 Ha: 1 0 计算检验统计量;是否拒绝零假设,为什么?(2)用F检验来检验以下假设 ( = 0.05) H0: 2 = 0 Ha: 2 0 计算检验统计量;是否拒绝零假设,为什么?(3)用F检验来检验以下假设 ( = 0.05) H0: 1 = 2 = 0 Ha: 1 和 2 并不都等于零 计算检验统计量;是否拒绝零假设,为什么?解:(1)根据第一个输出结果F=62.083>F(2,
7、7)=4.74,p<0.05,所以可以拒绝原假设,即得到不等于0。(2)同理,在=0.05的条件下,F=20.822>F(2,7)=4.74,p<0.05,即拒绝原假设,得到不等于0。(3)F=(10021.2+4030.9)/2/(1130.7/7)=43.4973>F=(2,7)=4.74,即拒绝原假设,得到和并不都等于0。4. (20分)考虑下面20个观测值:1 -20.00 -0.516 -1.249 -0.510 25.0006 -0.561 -0.928 -0.023 0.714 0.37411 -0.377 0.830 0.838 0.874 -1.306
8、16 1.138 1.087 -1.489 2.524 0.713(1)用3*S 标准来检测该数据中是否存在异常值。(2)用1.5*IQR 标准来检测该数据中是否存在异常值。要求提供均值、标准差、IQR值和所用的区间,以及你判断的依据。解:数据放入R运行得> hhh=c(-20.00,-0.516,-1.249,-0.510,25.000, + + -0.561,-0.928,-0.023,0.714,0.374, + + -0.377,0.830,0.838,0.874,-1.306,+ + 1.138,1.087,-1.489,2.524,0.713)> mean(hhh)1
9、0.35665> sqrt(var(hhh)1 7.405346> jjj<-(hhh-mean(hhh)/sqrt(var(hhh)> which(abs(jjj)>=3)1 5> Q1=quantile(hhh,0.25)> Q3=quantile(hhh,0.75)> IQR=Q3-Q1> Q1 25% -0.65275 > Q3 75% 0.847 > IQR 75% 1.49975 > kk<-Q1-1.5*IQR> ll<-Q3+1.5*IQR> which(hhh<kk)1 1&
10、gt; which(hhh>ll)1 5>(1)由以上数据处理可得第五个数据25.00为异常值。(2)由数据分析可以得出第一个-20.00和第五个25.00均为异常值。5. 简述题 (20分)。 (1) 在这门课中你学习了几种聚类分析的算法?简述这几种算法的基本工作原理。答:(1)学习了三种聚类分析算法,分别为系统聚类分析、K均值分析和DBSCAN分析。其中系统聚类又分为许多种计算规则,主要的有最短距离法、最长距离法、重心法、离差平方和法及类平均法等,其主要思想是在不同方法下把客观认为最相近的两类合并为一类,再次执行并类步骤,那么就可以把所有的观测值都聚为一类,对于想要知道分多少类
11、的具体情况有很大的帮助,可以依照树状聚类图得到清晰的表示。K-均值聚类原理是依一定观测值的均值来确定聚类中心,从而根据其他的观测值和中心的距离来判断归为哪一类中。该聚类方法事先需要确定要分的类别数据,计算量要小得多,效率比层次聚类要高。但对于想要知道其他几类的分类情况就需要重新计算分析。DBSCAN分析算法工作原理是对一组观测值优先聚合靠的最近的两个值,然后再寻找下一个靠的最近的值,依次类推,最后得到用户想要的簇的种类。其中可能会出现噪声点,那么根据区间半径考虑是否舍弃的情况。(2)关联规则挖掘任务主要分为哪几个主要的子任务?简述你学到的算法在这些子任务中的工作原理。答:主要分为两个子任务:频繁项集的产生和关联规则的产生。第一种算法是Apriori算法是基于支持度的剪枝技术,系统地控制候选项集指数增长。根据先验原理,对一个系统所有的项集从最简单的集合到最复杂的集合采
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《家装知识讲座》课件
- 《癫痫本科》课件
- 《家族式增员》课件
- 单位管理制度合并选集【人员管理篇】
- 单位管理制度范例选集人事管理篇十篇
- 《投资经济学》课程教学大纲
- 《现代经济学》课程教学大纲1
- 《小学分数教学》课件
- 《电子元件基础知识》课件
- 《企业环保管理》课件
- ISO 56001-2024《创新管理体系-要求》专业解读与应用实践指导材料之15:“6策划-6.4创新组合”(雷泽佳编制-2025B0)
- 广东省广州市天河区2022-2023学年七年级上学期期末语文试题(含答案)
- 标准厂房施工方案
- DBJT45T 037-2022 高速公路出行信息服务管理指南
- 港口码头租赁协议三篇
- 浙江省绍兴市柯桥区2023-2024学年高一上学期期末教学质量调测数学试题(解析版)
- 项目部实名制管理实施措施
- 颞下颌关节疾病试题
- 福建省厦门市2023-2024学年高二上学期期末考试质量检测化学试题 附答案
- 非甾体抗炎药围术期镇痛专家共识(2024 版)解读
- 安全使用文具班会课
评论
0/150
提交评论