电子科大数据挖掘作业16_第1页
电子科大数据挖掘作业16_第2页
电子科大数据挖掘作业16_第3页
电子科大数据挖掘作业16_第4页
电子科大数据挖掘作业16_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、下载可编辑数据挖掘课后习题数据挖掘作业 1 6第一章 绪论1) 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种 。1、关系数据库2、数据仓库3、事务数据库4、高级数据库系统和数据库应用如空间数据库、 时序数据库、 文本数据 库和多媒体数据库等 ,还可以是 Web 数据信息 。实际生活的例子: 电信行业中利用数据挖掘技术进行客户行为分析, 包含客户通话记录、 通话时间、 所开通的服务等, 据此进行客户群体划分以及客户流失性分析。 天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分 析, 帮助天文学家发现其他未知星体。 市场业中应用数据挖掘技术进行市场定位、 消费者分析、 辅助制

2、定市场 营销策略等。2) 给出一个例子, 说明数据挖掘对商务的成功是至关重要的。 该商务需要什么 样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现 吗?以一个百货公司为例, 它可以应用数据挖掘来帮助其进行目标市场营销。 运用数据挖掘功能例如关联规则挖掘, 百货公司可以根据销售记录挖掘出强 关联规则,来诀定哪一类商品是消费者在购买某一类商品的同时,很有可能 去购买的,从而促使百货公司进行目标市场营销。数据查询处理主要用于数 据或信息检索 , 没有发现关联规则的方法。同样地,简单的统计分析没有能 力处理像百货公司销售记录这样的大规模数据。.专业.整理 .下载可编辑第二章 数据仓库和

3、OLAP技术1) 简述数据立方体的概念、多维数据模型上的 OLAP操作。数据立方体数据立方体是二维表格的多维扩展,如同几何学中立方体是正 方形的三维扩展一样,是一类多维矩阵,让用户从多个角度探索和 分析数据集,通常是一次同时考虑三个维度。数据立方体提供数据 的多维视图,并允许预计算和快速访问汇总数据。多维数据模型上的 OLAP操作a) 上卷 (roll-up): 汇总数据 通过一个维的概念分层向上攀升或者通过维规约b) 下卷 (drill-down): 上卷的逆操作由不太详细的数据到更详细的数据, 可以通过沿维的概念分层向下或引入新的维来实现c) 切片和切块 (slice and dice)投

4、影和选择操作d) 转轴 (pivot)立方体的重定位, 可视化,或将一个 3 维立方体转化为一个 2维平面序列2) OLAP多维分析如何辅助决策?举例说明。OLAP 是在多维数据结构上进行数据分析的, 一般在多维数据上切片、 切块成简单数据来进行分析, 或是上卷、下卷来分析。 OLAP要查询大量 的日常商业信息,以及大量的商业活动变化情况,如每周购买量的变化 值,经理通过查询变化值来做决策。例如经理看到利润小于预计值是,就会去深入到各地区去查看产品 利润情况,这样他会发现一些比较异常的数据。经过进一步的分析和追 踪查询可以发现问题并解决3) 举例说明 OLAP的多维数据分析的切片操作 。切片就

5、是在某两个维上取一定区间的维成员或全部维成员。如用三维数组表示为(地区,时间,产品,销售额) ,如果在地区维度上选定一个维成员,就可以得到在该地区的一个切片(关于时间和产 品的切片)。.专业.整理 .下载可编辑第三章 数据预处理1) 假定用于分析的数据包含属性 age ,数据元组中 age 的值如下 ( 按递增序 ) : 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35 ,36,40,45,46,52,70 。(a) 使用按箱平均值平滑对以上数据进行平滑,箱的深度为 3 。解释你的步骤。评论对于给定的数据,该技术

6、的效果 。已知数据元组中 age 的值如下 ( 按递增序 ) : 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35, 35,35,35,36,40,45,46,52,70 ,且箱的深度为 3 , 划分为(等频)箱:箱 1 : 13,15,16箱 2 : 16,19,20箱 3 : 20,21,22箱 4 : 22,25,25箱 5 : 25,25,30箱 6 : 33,33,33箱 7 : 35,35,35箱 8 : 35,36,40箱 9 : 45,46,52箱 10 : 70 用箱均值光滑: 箱 1 : 15,15,15 箱

7、2 : 18,18,18 箱 3 : 21,21,21 箱 4 : 24,24,24 箱 5 : 27,27,37 箱 6 : 33,33,33 箱 7 : 35,35,35 箱 8 : 37,37,37 箱 9 : 48,48,48 箱 10 : 70(b) 对于数据平滑,还有哪些其它方法 ?(1) 回归:可以用一个函数 (如回归函数 ) 拟合数据来光滑数据;(2) 聚类: 可以通过聚类检测离群点, 将类似的值组织成群或簇。 直观地, 落在簇集合之外的值视为离群点。2) 使用习题 1) 给出的 age 数据,回答以下问题:(a) 使用 min-max 规范化,将 age 值 35 转换到 0

8、.0 , 1.0 区间。 已知最大值为 70 , 最小值为 13 , 则可将 35 规范化为:.专业.整理 .下载可编辑|35- 13|(70- 13)= 0.386(b) 使用 z-score 规范化转换 age值 35,其中,age的标准偏差为 12.94 年已知均值为 30 , 标准差为 12.94 , 则可将 35 规范化为:35- 3012.94 =0.386(c) 使用小数定标规范化转换 age 值 35 。 使用小数定标规范化可将 35 规范化为:35100= 0.35(d) 指出对于给定的数据,你愿意使用哪种方法。陈述你的理由对于给定的数据, 你愿意使用 min-max 规范化

9、 理由是计算简单。3) 以下是一个商场所销售商品的价格清单 ( 按递增顺序排列,括号中的数表示 前面数字出现次数 )1(2) 、 5(5) 、 8(2) 、 10(4) 、 12 、 14(3) 、 15(5) 、 18(8) 、 20(7) 、 21(4) 、 25(5) 、 28 、 30(3) 。请分别用等宽的方法和等 高的方法对上面的数据集进行划分。(1) 等宽方法: 划分为 3 个数据集,每个数据集的宽度为价格 10。价格在 110 之间出现次数为 13;价格在 1120 之间出现的次数为 24;价格 在 2130 之间出现的次数为 13。(2) 等高方法: 划分为 2 个数据集,每

10、个数据集的高度为出现的次数 4 。 出现次数 14之间的价格为 1、8、10、12、14、21、28、 30, 共 8 个数 据;出现次数 58之间的价格为 5、15、18、20、25,共 5 个数据。第四章 关联规则1) 考虑如下的频繁 3-项集: 1, 2, 3, 1, 2, 4, 1, 2, 5, 1, 3, 4, 1, 3, 5 , 2, 3, 4 ,2, 3, 5 , 3, 4, 5 。(a) 根据 Apriori 算法的候选项集生成方法,写出利用频繁 3- 项集生 成的所有候选 4- 项集。1,2,3,4; 1,2,3,5; 1,2,4,5; 1,3,4,5; 2,3,4,5(b)

11、 写出经过剪枝后的所有候选 4- 项集 .1,2,3,4; 1,2,3,5;.专业.整理 .下载可编辑2) 一个数据库有 5 个事务,如下表所示。设 min_sup=60%, min_conf = 80%。事务 ID购买的商品T100M, O, N, K, E, YT200D, O, N, K, E, YT300M, A, K, ET400M, U, C, K, YT500C, O, O, K, I ,E(a) 分别用 Apriori 算法和 FP-growth 算法找出所有频繁项集。比较 两种挖掘方法的效率。Apriori 算法FP-growth 算法.专业.整理 .下载可编辑效率比较: A

12、priori 需多次扫描数据库而 FP 增长建立 FP树只需一次的 扫描。在 Apriori 算法中产生候选是昂贵的(由于联接) ,而 FP增长不产生 任何候选,但是 FP消耗了大量的内存,当数据量很大时。(b) 比较穷举法和 Apriori 算法生成的候选项集的数量。穷举法: M=2k -1=2 11 - 1=2047Apriori 算法: 23(c) 利用 (a) 所找出的频繁项集,生成所有的强关联规则和对应的支持度 和置信度。O,K E , 支持度 0.6 , 置信度 1O,E k , 支持度 0.6 , 置信度 13) 如下表所示的相依表汇总了超级市场的事务数据。其中 hot dogs

13、 指包 含热狗的事务, hot dogs 指不包含热狗的事务。 hamburgers 指包含汉堡 的事务, hamburgers 指不包含汉堡的事务。hot dogshot dogsrowHamburgers2,0005002,500hamburgers1,0001,5002,500col3,0002,0005,000假设挖掘出的关联规则是“ hot dogs ? hamburgers”。给定最小支持度 阈值 25%和最小置信度阈值 50%,这个关联规则是强规则吗?s(hot dogs)=3000/5000=60%;s(hot dogs, hamburgers)=2000/5000=40%C(

14、hot dogs hamburgers)=40%/60%=66.7%故这个关联规则是强规则。计算关联规则“ hot dogs ? hamburgers”的提升度, 能够说明什么问 题?购买热狗和购买汉堡是独立的吗?如果不是, 两者间存在哪种相关关系?.专业.整理 .下载可编辑S(hamburgers)=2500/5000=50%提升度 lift(hotdogs hamburgers)= C(hot dogs hamburgers)/S(hamburgers)=1.334 提升度大于 1,表明 hot dogs 和hamburgers 不是互相独立的,二者之间存在正相关关系第五章分类和预测1)

15、简述决策树分类的主要步骤。 决策树生成的过程如下:(1) 对数据源进行数据预处理 , 得到训练集和测试集;(2) 对训练集进行训练;(3) 对初始决策树进行树剪枝;(4) 由所得到的决策树提取分类规则;(5) 使用测试数据集进行预测, 评估决策树模型;2) 考虑下表所示二元分类问题的数据集。AB类标号TF+TT+TT+TF-TT+FF-FF-FF-TT-TF-(a) 计算按照属性 A 和 B 划分时的信息增益。决策树归纳算法将会 选择那个属性?按照属性 A 和 B 划分时,数据集可分为如下两种情况:A = TA = F+40-33.专业.整理.下载可编辑B = TB = F+31-15划分前样

16、本集的信息熵为E=-0.4 log 20.4 - 0.6 log 20.6 = 0.9710按照属性 A 划分样本集分别得到的两个子集 (A 取值 T 和 A 取值 F) 的信 息熵分别为 :按照属性 B 划分样本集分别得到的两个子集 (B 取值 T 和 B 取值 F) 的信 息熵分别为 :因此, 决策树归纳算法将会选择属性 A。(b) 计算按照属性 A 和 B 划分时 Gini 系数。决策树归纳算法将会选择那个属性?.专业.整理 .下载可编辑3)考虑下表数据集,请完成以下问题:记录号ABC类1000+2001-3011-4011-5001+6101+7101-8101-9111+10101+

17、(a) 估计条件概率 P(A | +), P(B | +), P(C | +), P(A | -) , P(B | -) , P(C | -) 。P(A | +) = 3/5P(B | +) = 1/5P(C | +) = 4/5P(A | -) = 2/5P(B | -) = 2/5P(C | -) = 1(b) 根据 (1) 中的条件概率,使用朴素贝叶斯方法预测测试样本 (A=0,.专业.整理 .下载可编辑B=1, C=0) 的类标号;假设 P(A=0,B=1,C=0)=K则 K 属于两个类的概率为:P(+|A=0,B=1,C=0) = P(A=0,B=1,C=0)*P(+)/K= P(A

18、=0|+)P(B|+)P(C=0|+) P(+)/K= 0.4*0.2*0.2*0.5/K=0.008/KP(-|A=0,B=1,C=0) = P(A=0,B=1,C=0) P(-)/K= P(A=0|-)P(B|-)P(C=0|- ) P( -)/K= 0.4*0.2*0*0.5/K= 0/K则得到, 此样本的类标号是 +(c) 使用 Laplace 估计方法, 其中 p=1/2 , l=4 , 估计条件概率 P(A | +) , P(B | +) , P(C | +) ,P(A | -) , P(B | -) , P(C | -) 。P(A|+)=(3+2)/(5+4)=5/9P(A|-)

19、=(2+2)/(5+4)=4/9P(B|+)=(1+2)/(5+4)=1/3P(B|-)=(2+2)/(5+4)=4/9P(C|-)=(0+2)/(5+4)=2/9(d) 同(2) ,使用(3) 中的条件概率假设 P(A=0,B=1,C=0)=K则 K 属于两个类的概率为:P(+|A=0,B=1,C=0) = P(A=0,B=1,C=0)*P(+)/K= P(A=0|+)P(B|+)P(C=0|+)*P(+)/K= (4/9)*(1/3)*(1/3)*0.5/K= 0.0247/KP(-|A=0,B=1,C=0) = P(A=0,B=1,C=0)*P(-)/K= P(A=0|-)P(B|-)P

20、(C=0|-)*P(-)/K= (5/9)*(4/9)*(2/9)*0.5/K= 0.0274/K则得到, 此样本的类标号是 - 。.专业.整理 .下载可编辑(e) 比较估计概率的两种方法,哪一种更好,为什么? 当条件概率为 0 的时候,条件概率的预测用 Laplace 估计方法比较 好,因为我们不想整个条件概率计算结果为 0.第六章 聚类分析1) 什么是聚类?简单描述如下聚类方法:划分方法、层次方法、基于密度的方 法,并为每一类方法给出例子。聚类是将数据划分为相似对象组的过程, 使得同一组中对象相似度最大 而不同组中对象相似度最小。(1) 划分方法给定一个有 N个元组或者记录的数据集, 分裂

21、法将构造 K 个分 组,每一个分组就代表一个聚类, KN。而且这 K 个分组满足下列 条件:第一,每一个分组至少包含一条记录;第二,每一条记录属 于且仅属于一个分组 ( 注意:这个要求在某些模糊聚类算法中可以 放宽) ;对于给定的 K,算法首先给出一个初始的分组方法, 以后通 过反复迭代的方法改变分组, 使得每一次改进之后的分组方案都较 前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而 不同分组中的记录越远越好。使用这个基本思想的算法有: K-MEANS算法、K-MEDOIDS算法、 CLARANS算法。(2) 层次方法这种方法对给定的数据集进行层次似的分解, 直到某种条件满 足为止

22、。具体又可分为“自底向上”和“自顶向下”两种方案。例 如在“自底向上”方案中,初始时每一个数据记录都组成一个单独 的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组, 直到所有的记录组成一个分组或者某个条件满足为止。代表算法有: BIRCH算法、 CURE算法、 CHAMELEO算N法等。(3) 基于密度的方法基于密度的方法与其它方法的一个根本区别是: 它不是基于各种各样的距离,而是基于密度的。这样就能克服基于距离的算法只.专业.整理 .下载可编辑能发现“类圆形”的聚类的缺点。这个方法的指导思想就是:只要 一个区域中的点的密度大过某个阈值, 就把它加到与之相近的聚类 中去。代表算法有:

23、DBSCAN算法、 OPTICS算法、 DENCLU算E 法等。(4) 基于模型的方法基于模型的方法给每一个聚类假定一个模型, 然后去寻找能够 很好的满足这个模型的数据。 这样一个模型可能是数据点在空间中 的密度分布函数或者其它。它的一个潜在假定就是:目标数据集是 由一系列的概率分布所决定的。基于模型的方法主要有两类:统计学方法和神经网络方法 (SOM)。2) 聚类被广泛的认为是一种重要的数据挖掘方法,有着广泛的应用,对如下每 种情况给出一个应用的例子:a) 采用聚类作为主要数据挖掘方法的应用; 如电子商务网站中的客户群划分。 根据客户的个人信息、 消费习惯、 浏览行为等信息,计算客户之间的相似度,然后采用合适的聚类算法对 所有客户进行类划分;基于得到的客户群信息,相关的店主可以制定相 应的营销策略,如交叉销

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论