



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库与数据挖掘复习题1.假设数据挖掘的任务是将如下的8个点(用(x,y)代表位置)聚类为 3个类:X1(2,10)、X2(2,5)、X3(8,4)、X4(5,8)、X5(7,5)、X6(6,4)、X7(1,2)、X8(4,9),距离选 择欧几里德距离.假设初始选择X1(2,10)、X4(5,8)、X7(1,2)为每个聚类的中央,请用K_means算法来计算:(1)在第一次循环执行后的3个聚类中央;答:第一一次迭代:中央点1:X1(2, 10),2: X4(5, 8), X7(1,2)X1X2X3X4X5X6X7X8102536+369+425+2516+361+644+129+49+99+
2、1604+91+1616+361+131+641+95316+364529058答案:在第一次循环执行后的3个聚类中央:1: X1(2, 10)2: X3, X4, X5, X6, X8 (6, 6)3: X2, X7 (1.5, 3.5)(2)经过两次循环后,最后的3个族分别是什么?第二次迭代:d2X1X2X3X4X5X6X7X8102536+369+425+2516+361+644+1232178524411+1352+6.5252+1.526.52+0.523.52+4.525.52+1.524.52+0.520.52+1.522.52+5.52答案:1: X1, X8 (3.5, 9.
3、5)2: X3, X4, X5, X6 (6.5, 5.25)3: X2, X7(1.5, 3.5)2.数据库有 4个事务.设 min_sup=60%,min_conf=80%.TIDdataTransactionT1006/6/2007K,A,D,BT2006/6/2007D,A,C,E,BT3006/7/2007C,A,B,ET4006/10/2007B,A,Da使用Apriori算法找出频繁项集,并写出具体过程(a)Apriori 算法:K1A4A,B4A,B,D) 3A4B4A,D3B4D3B,D3D32-E2-频繁项集为3项集A,B,D:3b.列出所有的强关联规那么,使它们与下面的元
4、规那么匹配,其中, X是代表顾客的变量,itemi是表示项的变量(例如,“A、“B等):Vx=transac,tior( b,uys)X item , buy)sX item, 3b) isy(s| X item答:所有频繁子项集有A,B,D,A,B,A,D,B,DAAB=>D conf=3/4=75%AAD=>B conf=3/3=100% VBAD=>A conf=3/3=100%V因此,满足条件的强关联规那么有:AAD=>Bsupp=75%,conf=100%BAD=>Asupp=75%,conf=100%1.给定如下的数据库表:IDSkyAirTempHu
5、midityWindWaterForecastEnjoysport1SunnyWarmNormalStrongWarmSameYes2SunnyWarmHighStrongWarmSameYes3RainyColdHighStrongWarmChangeNo4SunnyWarmHighStrongCoolChangeyes请计算属性Sky的信息增益.答:C1 : Enjoysport=yes=3C2 : Enjoysport=no=1I(yes,no)=-3/4log 2 3/4-1/4log 2 1/4=0.811skyC1C2rainy01sunny30I(sky)=1/4I(0,1)+3
6、/4I(3,0)=0Gain(sky)=0.811习题:1.以汽车保险为例:假定练习数据库具有两个属性:年龄和汽车类型.年龄序数属性汽车类型一一分类属性-L:低风险,H:高风险年龄汽车类型类>21MarutiL>21HyundaiH<21MarutiH<21IndicaH>21MarutiL>21HyundaiH使用ID3算法得到一个决策树.2.下面是一个超市某商品连续24个月的销售数据单位:百万元:21,16,21, 19, 24, 27, 23, 22, 21, 20, 17, 16, 20, 23, 22, 18, 24, 26, 25,20, 26,
7、 23, 21, 15, 17请使用等深、等宽和自定义区间的方法对数据进行分箱,做出利用各种分箱方法得到的直方图.上述数据所涉成属性彳酊算率时的直方图如图-2.6所示.3.数据库有4个事务.设 min_sup = 60%, min_conf = 80%.使用Apriori算法找出所有的频繁项集,并针对每个频繁项集构造强关 联规那么,列出每个规那么的支持度和置信度.hdDateiiems_boughtT100T200T300T40010/15,WKA.D.B)10.15/99D,A,C,E,B)101999CAB-E)1W2y99(BADA,B 4A,B,D 3A,D 3B,D 3(b)Apriori 算法:KFA4A 4B4B 4D3D 32- E2-频繁项集为3项集A,B,D:3所有频繁子项集有A,B,D,A,B,A,D,B,DAAB=>D conf=3/4=75%乂AAD
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年无机电子材料项目建议书
- 2025年GPS汽车定位、监控报警、调度系统项目发展计划
- 数字化教育资源对教学效果的影响研究
- 2025届河南省荥阳高中高二物理第二学期期末质量检测模拟试题含解析
- 企业内部培训中的智慧教育平台应用
- 智慧安防在校园公共空间的应用探讨
- 教育技术创新的探索与实践培育卓越人才
- 中职数学异面直线课件
- 教育心理学的跨领域应用与创新实践
- 教育科技企业的质量保障与竞争力提升
- 模拟电子技术基础知到章节答案智慧树2023年兰州石化职业技术大学
- JJF 1915-2021倾角仪校准规范
- GA/T 1310-2016法庭科学笔迹鉴定意见规范
- 2023年本科招生考试
- 新入职护士培训考试试题及答案
- 《消防安全技术实务》课本完整版
- 北师大版七年级数学下册 与信息技术相融合的数学教学案例 教案
- 钝针穿刺法临床应用护理
- 水产养殖行业报告
- 锅炉MFT供电回路的分析
- 公共基础知识辅导课件
评论
0/150
提交评论