版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精品文档数据仓库与数据挖掘复习题1.假设数据挖掘的任务是将如下的 8个点(用(x,y)代表位置)聚类为3个类: X1(2,10)、X2(2,5)、X3(8,4)、X4(5,8)、X5(7,5)、X6(6,4)、X7(1,2)、X8(4,9), 距离选择欧几里德距离。假设初始选择 X1(2,10)、X4(5,8)、X7(1,2)为每个聚类的 中心,请用K_means算法来计算:(1)在第一次循环执行后的3个聚类中心;答:第一一次迭代:中心点 1: X1(2, 10),2: X4(5, 8), X7(1, 2)X1X2X3X4X5X6X7X8102536+369+425+2516+361+644+
2、129+49+99+1604+91+1616+361+131+641+95316+364529058答案:在第一次循环执行后的 3个聚类中心:1: X1(2, 10)2: X3, X4, X5, X6, X8(6, 6)3: X2, X7 (1.5 , 3.5)(2)经过两次循环后,最后的3个族分别是什么? 第二次迭代:d2X1X2X3X4X5X6X7X8102536+369+425+2516+361+644+1232178524411+1352+6.5252+1.5 26.5 2+0.5 2 3.5 2+4.5 2 5.5 2+1.5 2 4.5 2+0.5 20.52+1.522.5 2+
3、5.5 2答案:1: X1, X8 (3.5 , 9.5)2 : X3, X4, X5, X6 (6.5, 5.25)3 : X2, X7 (1.5 , 3.5)2.数据库有 4 个事务。设 min_sup=60%,min_conf=80%TIDdataTransactionT1006/6/2007K,A,D,BT2006/6/2007D,A,C,E,BT3006/7/2007C,A,B,ET4006/10/2007B,A,Da.使用Apriori算法找出频繁项集,并写出具体过程(a)Apriori 算法:. 。1欢迎下载K-1A 4A,B 4A,B,D 3A 4B 4A,D 3B 4D 3B
4、,D 3D 3C-2E-2频繁项集为3项集A,B,D:3b.列出所有的强关联规则,使它们与下面的元规则匹配,其中,X是代表顾客的变量,itemi是表示项的变量(例如,“A"、"B等):_x transaction , buys(X ,item1) buys(X ,item2)= buys(X ,item3)s,c答:所有频繁子项集有A,B,D,A,B,A,D,B,DAAB=>D conf=3/4=75%XAAD=>B conf=3/3=100%VBAD=>A conf=3/3=100%V因此,满足条件的强关联规则有:AAD=>Bsupp=75%,co
5、nf=100%BAD=>Asupp=75%,conf=100%1.给定如下的数据库表:IDSkyAirTempHumidityWindWaterForecastEnjoysport1SunnyWarmNormalStrongWarmSameYes2SunnyWarmHighStrongWarmSameYes3RainyColdHighStrongWarmChangeNo4SunnyWarmHighStrongCoolChangeyes请计算属性Sky的信息增益。答:C1 : Enjoysport=yes=3C2 : Enjoysport=no=1I(yes,no)=-3/4log 2 3
6、/4-1/4log 2 1/4=0.811skyC1C2rainy01sunny30I(sky)=1/4I(0,1)+3/4I(3,0)=0Gain(sky)=0.811习题:1 .以汽车保险为例:假定训练数据库具有两个属性:年龄和汽车类型。年龄序数属性汽车类型一一分类属性-L:低(风险) ,H:高(风险)年龄汽车类型类_O2欢迎下载精品文档>21MarutiL>21HyundaiH<21MarutiH<21IndicaH>21MarutiL>21HyundaiH使用ID3算法得到一个决策树。2 .下面是一个超市某商品连续24个月的销售数据(单位:百万元)2
7、1, 16, 21,19, 24, 27, 23, 22, 21,20,17,16, 20, 23, 22,18, 24, 26, 25, 20, 26, 23, 21, 15, 17。请使用等深、等宽和自定义区间的方法对数据进行分箱,做出利用各种分箱方法得到的直方图。上述数据所涉成属性彳酊算率时的直方图如图-2.6所示.3.数据库有4个事务。设 min_sup = 60%, min_conf = 80% 。使用7欢迎下载Apriori算法找出所有的频繁项集,并针对每个频繁项集构造强 关联规则,列出每个规则的支持度和置信度。UDDateiiems_boughiT10010/15WKA.D.B)T20010 1599D,ACE,B)T30010 1999CA.B.E)T400(BAD(b)Apriori 算法:K-1A 4A,B 4A,B,D 3A 4B 4A,D 3B 4D 3B,D 3D 3C-2E-2频繁项集为3项集A,B,D:3所有频繁子项集有A,B,D,A,B,A,D,B,DAAB=>D conf=3/4=75%XAAD=>B conf=3/3=100%VBAD=>A conf=3/3=100%V因此,满足条件的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024综合居间代理采购合作合同版
- 2024石榴产业生态园投资合作协议书3篇
- 2025年度玻璃纤维增强复合材料销售合同3篇
- 2025年度旅游客车租赁与旅游交通配套服务合同3篇
- 2025年度购房赠送高端定制家具及装修一体化合同4篇
- 2025年碎石石粉行业人才培养与引进合同样本3篇
- 2025年度窗帘环保材料采购合同3篇
- 2025年度旅游项目投资合伙人合同范本3篇
- 2025年度铝灰处理废弃物处理项目环保验收合同4篇
- 2025年度旅游景区导游工作绩效评估合同4篇
- 高二物理竞赛霍尔效应 课件
- 金融数学-(南京大学)
- 基于核心素养下的英语写作能力的培养策略
- 现场安全文明施工考核评分表
- 亚什兰版胶衣操作指南
- 四年级上册数学教案 6.1口算除法 人教版
- DB32-T 3129-2016适合机械化作业的单体钢架塑料大棚 技术规范-(高清现行)
- 6.农业产值与增加值核算统计报表制度(2020年)
- 人工挖孔桩施工监测监控措施
- 供应商物料质量问题赔偿协议(终端)
- 物理人教版(2019)必修第二册5.2运动的合成与分解(共19张ppt)
评论
0/150
提交评论