2015数据挖掘技术试卷A卷-参考答案_第1页
2015数据挖掘技术试卷A卷-参考答案_第2页
2015数据挖掘技术试卷A卷-参考答案_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2014 2015学年 第二学期期末考试数据挖掘技术 试卷(a卷)参考答案 使用班级 1250411/12/13/14 答题时间_120分钟_一、填空题 (共10空, 每空1分,共10分)1.数据挖掘的任务:分类、聚类、回归、关联分析、离群点监测、演化分析、序列模式。2.数据集的三个重要特性:_维度、稀疏性、分辨率。二、判断题 (共10小题, 每小题1分,共10分)判断下列37小题的描述是否正确?3.id3算法不仅可以处理离散属性,还可以处理连续属性。( f ) 4.决策树方法通常用于关联规则挖掘。( f ) 5.先验原理可以表述为,一个频繁项集的任一子集也应该是频繁的。( t ) 6.cle

2、mentine是ibm公司的专业级数据挖掘软件。( t ) 7.具有较高的支持度的项集具有较高的置信度。( f ) 判断下列812小题的描述是否属于数据挖掘任务?8.利用历史数据预测公司将来的股价。 ( t )9.监测病人心率的异常变化 。 ( f )10.监测地震活动的地震波 。 ( f )11.提取声波的频率 。 ( f )12.根据顾客喜好摆放商品位置。 ( t )三、简答题(6个小题,每小题5分,共30分)13. 什么是信息熵? 答:信息熵(entropy)是用来度量一个属性的信息量(1分)。假定s为训练集,s的目标属性c具有m个可能的类标号值,c=c1,c2,cm,假定训练集s中,c

3、i在所有样本中出现的频率为 (i=1,2,3,m),则该训练集s所包含的信息熵定义为: (3分)熵越小表示样本对目标属性的分布越纯,反之熵越大表示样本对目标属性分布越混乱。(1分)14什么是文本挖掘? 答:文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程。(2分)对其进行深入的研究可以极大地提高人们从海量文本数据中提取信息的能力,具有很高的商业价值。(1分)包括分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等内容。(2分)15. 什么是主成份分析?答:主成份分析(pca)是一种用于连续属性的线性变换技术,找出新的属性(主成份),(1分)这些新属性是

4、原属性的线性组合,(1分)是相互正交的,(1分)使得原来数据投影到较小的集合中,并且捕获数据的最大变差。(1分)pca通常揭示先前未曾觉察的联系,解释不寻常的结果。(1分)16. 简述k-最近邻算法过程。 答:knn分类算法的基本描述如下:算法名:knn输入:最近邻数目k ,训练集d,测试集z (1分)输出:对测试集z中所有测试样本预测其类标号值 (1分)(1)for 每个测试样本 (1分) do(2) 计算z和每个训练样本 之间的距离 (1分)(3) 选择离z最近的k最近邻集合 (1分)(4) 返回 中样本的多数类的类标号 (1分)(5)end for17. 简述apriori算法原理。答:

5、apriori性质:一个项集是频繁的,那么它的所有子集都是频繁的。(1分)一个项集的支持度不会超过其任何子集的支持度。(1分)该算法采用逐层的方法找出频繁项集,(1分)首先找出1频繁-项集,通过迭代方法利用频繁k-1-项集生成k候选项集,(1分)扫描数据库后从候选k-项集中指出频繁k-项集,直到生成的候选项集为空。(1分)18. 什么是离群点?答:离群点是在数据集中偏离大部分数据的数据,(2分)使人怀疑这些数据的偏离并非由随机因素产生,(1分)而是产生于完全不同的机制。(2分) 四、计算题 (共2题, 每小题20分,共40分)19.数据集如下表:a1a2a3b1b2b3b4c1c2c3x197

6、5962728y2598294713以a1、b1、c1为初始簇中心,利用曼哈顿距离的k-means算法计算:(1) 第一次循环后的三个簇中心;(2) 最后的三个簇中心,以及各簇包含的对象。(要有计算步骤)解:(1)计算其他7个数据点到三个中心的曼哈顿距离:m(a2,a1)=11 m(a2,b1)=7 m(a2,c1)=4 m(a3,a1)=13 m(a3,b1)=3 m(a3,c1)=2m(b2,a1)=8 m(b2,b1)=10 m(b2,c1)=7m(b3,a1)=12 m(b3,b1)=2 m(b3,c1)=3m(b4,a1)=3 m(b4,b1)=7 m(b4,c1)=8m(c2,a1

7、)=2 m(c2,b1)=10 m(c2,c1)=11 m(c3,a1)=8 m(c3,b1)=8 m(c3,c1)=5经过本次循环,属于a1簇的数据点为(a1,b4,c2),(1分)中心为x1(1.67,2.33);(1分)属于b1簇的数据点为(b1,b3),(1分)中心为x2(5.5, 8.5);(1分)属于c1簇的数据点为(c1,a2,a3,b2,c3),(1分)中心为x3(8, 5.2);(1分)(2)计算10个点到三个新中心的距离:m(a1,x1)=1 m(a1,x2)=11 m(a1,x3)=10.2 m(a2,x1)=10 m(a2,x2)=7 m(a2,x3)=1.2 m(a3

8、,x1)=12 m(a3,x2)=2 m(a3,x3)=4.8m(b1,x1)=9 m(b1,x2)=1 m(b1,x3)=5.8m(b2,x1)=7.66 m(b2,x2)=10 m(b2,x3)=4.2m(b3,x1)=11 m(b3,x2)=1 m(b3,x3)=5.8m(b4,x1)=2 m(b4,x2)=8 m(b4,x3)=7.2m(c1,x1)=10 m(c1,x2)=3 m(c1,x3)=2.8 m(c2,x1)=1.66 m(c2,x2)=11 m(c2,x3)=10.2 m(c3,x1)=7 m(c3,x2)=8 m(c3,x3)=2.2 经过本次循环,属于x1簇的数据点为

9、(a1,b4,c2),(1分)中心为y1(1.67, 2.33);(1分)属于x2簇的数据点为(a3,b1,b3),(1分)中心为y2(6, 8.67);(1分)属于x3簇的数据点为(a2,b2,c1,c3),(1分)中心为y3(8.25, 4.25);(1分)再次计算10个数据点到三个新中心的距离:m(a1,y1)=1 m(a1,y2)=11.67 m(a1,y3)=9.5 m(a2,y1)=10 m(a2,y2)=6.67 m(a2,y3)=1.5 m(a3,y1)=12 m(a3,y2)=1.33 m(a3,y3)=6m(b1,y1)=9 m(b1,y2)=1.67 m(b1,y3)=7

10、m(b2,y1)=7.66 m(b2,y2)=9.67 m(b2,y3)=3m(b3,y1)=11 m(b3,y2)=0.33 m(b3,y3)=7m(b4,y1)=2 m(b4,y2)=8.67 m(b4,y3)=6.5m(c1,y1)=9 m(c1,y2)=2.67 m(c1,y3)=4 m(c2,y1)=1.66 m(c2,y2)=11.67 m(c2,y3)=9.5 m(c3,y1)=7 m(c3,y2)=7.67 m(c3,y3)=1.5 经过本次循环,属于y1簇的数据点为(a1,b4,c2),(1分)中心为y1(1.67, 2.33); (1分)属于y2簇的数据点为(a3,b1,b

11、3,c1),(1分)中心为y2(6.25, 8.25); (1分)属于y3簇的数据点为(a2,b2,c3),(1分)中心为y3(8.67, 3.33);(1分)可以看到,已经不变了。(2分)天气情况x1温度情况x2湿度情况x3风力情况x4户外运动y晴朗高大微风不适合n晴朗高大强风不适合n阴天高大微风适合y下雨中大微风适合y下雨低中等微风适合y下雨低中等强风不适合n阴天低中等强风适合y晴朗中大微风不适合n晴朗低中等微风适合y下雨中中等微风适合y20.已知数据集如下表:使用朴素bayes算法预测气候状况为雨天,高温,湿度中等,微风时,是否适合户外运动?解:即求x=下雨,高,中等,微风的户外运动为可

12、以的后验概率p(y=y|x)和x在户外运动为不可以的后验概率p(y=n|x),其中概率最大者为x的预测值。(3分)根据bayes定理,p(y=y|x)=p(x|y=y) * p(y=y)=p(x1|y=y)* p(x2|y=y)* p(x3|y=y)* p(x4|y=y)* p(y=y) (2分)这里,p(x1|y=y)=p(x1=下雨|y=y)=3/6 (1分)p(x2|y=y)=p(x2=高|y=y)=1/6 (1分)p(x3|y=y)=p(x3=中等|y=y)=4/6 (1分)p(x4|y=y)=p(x4=微风|y=y)=5/6 (1分)p(y=y)=6/10 (1分)因此,p(y=y|

13、x)=3/6*1/6*4/6*5/6*6/10=1/36 (1分)同理,计算p(y=n|x)= p(x|y=n) * p(y=n)=p(x1|y=n)* p(x2|y=n)* p(x3|y=n)* p(x4|y=n)* p(y=n) (1分) 其中,p(x1|y=n)= p(x1=下雨|y=n)=1/4 (1分)p(x2|y=n)= p(x2=高|y=n)=2/4 (1分)p(x3|y=n)= p(x3=中等|y=n)=1/4 (1分)p(x4|y=n)= p(x4=微风|y=n)=2/4 (1分)p(y=n)=4/10 (1分)因此,p(y=n|x)=1/4*2/4*1/4*2/4*4/10=1/160 (1分)因为p(y=y|x) > p(y=n|x),故气候状况为雨天,高温,湿度中等,微风时,户外运动应为适合。 (2分)五、应用题 (共1题,共10分)21.你作为银行信息中心工作人员,请阐述数据挖掘技术在银行业务中的应用,并写出相关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论