版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2022/8/11Data Mining1Lecture 4: 挖掘关联规则什么是关联规则:一个示例若干基本概念挖掘单维布尔关联规则的Apriori算法改进基于频繁模式树的算法2022/8/11Data Mining2示例购物篮序号购买的商品内容购买1牛奶、面包、啤酒、花生购买2牛奶、面包、黄油购买3牛奶、面包、鸡蛋购买4糖、鸡蛋、啤酒、花生购买5黄油、鸡蛋、啤酒、花生购买6糖、鸡蛋、面包、花生买牛奶就买面包?买啤酒就买花生?2022/8/11Data Mining3示例关键词序号论文的关键词论文1数据挖掘、机器学习、聚类分析论文2机器学习、贝叶斯分类、信息提取、数据挖掘论文3自动推理、机器学
2、习、算法复杂性分析论文4数据挖掘、空间推理、空间聚类分析、机器学习数据挖掘机器学习2022/8/11Data Mining4Lecture 4: 挖掘关联规则什么是关联规则:一个示例若干基本概念挖掘单维布尔关联规则的Apriori算法改进基于频繁模式树的算法2022/8/11Data Mining5基本概念 I关联规则:频繁模式(Frequent pattern): 在数据库中频繁出现的模式(项集 、 序列 等)。在事务数据库、关系数据库及其它信息库中发现对象集合之间的频繁出现的模式,关联,相关性或因果关系。规则形式:x1 x2 xn y1 y2 ym。可以读作:如果x1 x2 xn ,那么y
3、1 y2 ym 。2022/8/11Data Mining6基本概念 IIk项集 :含有k个元素的集合,X=x1, , xk。对于规则XY,定义支持度与置信度如下:支持度(Support),事务包含XY的概率,即support P(XY)置信度(Confidence),事务同时包含X与Y的条件概率,即confidence P(Y|X).2022/8/11Data Mining7基本概念 III最小支持度与最小置信度:由用户提供,即挖掘出的关联规则的支持度与置信度必须分别大于最小支持度与最小置信度。2022/8/11Data Mining8基本概念 IV支持度计数:模式或项集在DB中出现的频率(
4、次数)。频繁模式(频繁项集):支持度大于或等于最小支持度(用户自定义)的模式(项集)。关联规则挖掘的任务:发现所有满足最小支持度与最小可信度、形如XY的规则。2022/8/11Data Mining9支持度的计算2022/8/11Data Mining10置信度的计算2022/8/11Data Mining11支持度与置信度的计算示例对于规则 A C:support = support(AC) = 50%confidence = support(AC)/support(A) = 66.6%最小支持度: 50%最小置信度: 50%Transaction-idItems bought10A, B,
5、 C20A, C30A, D40B, E, F频繁模式SupportA75%B50%C50%A, C50%2022/8/11Data Mining12Apriori算法什么是关联规则:一个示例若干基本概念挖掘单维布尔关联规则的Apriori算法改进基于频繁模式树的算法2022/8/11Data Mining13单维布尔关联规则对于规则XY,其中 X=x1, , xk, Y=y1, , ym ,即:如果买X,那么买Y,或为If Buys(p, X) Buys(p, Y) 。这里的买或者Buys是一个二元谓词。在我们这里只牵涉到一个谓词,因此称为单维关联规则;同时因为只涉及到买还是不买,因此称为布
6、尔关联规则。2022/8/11Data Mining14其它形式的关联规则多维关联规则:规则中有两个以上的谓词。量化关联规则(Quantitative association rule):描述量化的项或属性之间的关联。例如:Age(X, “30到40”)Income(X, “4万6万”)Buys(X, “computer”)2022/8/11Data Mining15挖掘单维布尔关联规则:穷举法设事务表中有n件不同的商品x1, x2, , xn,显然有穷举法如下:对于从2-项集到n-项集,枚举所有的集合检查其子项集之间是否存在关联。如对于2-项集,检查是否存在关联规则xi xj(i 1, 2
7、, n, j 1, 2 , n, i j)2022/8/11Data Mining16挖掘单维布尔关联规则:穷举法那么这种方法是否实用呢?若对这么多子集进行测试,算法的时间复杂性如何?显然,一个n个元素集合有2n子集(对于我们这个问题,有2n - n - 1个子集)2022/8/11Data Mining172022/8/11Data Mining18表2 计算机速度提高10倍后,不同算法复杂性求解规模的扩大情况 算法A1A2A3A4A5A6时间复杂性nnlognn2n32nn!n2和n1的关系 10n18.38n13.16n12.15n1n1+3.3n12022/8/11Data Minin
8、g19Apriori: 一个候选集产生与测试算法一个频繁集的任意子集也必须是频繁集如果 A, B, C是频繁集, 则A, B也是频繁集。每一个事务若包含 A, B, C ,则它也包含 A, BApriori裁剪原理: 对于任意项集,如果它不是频繁集,则它的任何超集不用产生/测试!2022/8/11Data Mining20Apriori算法算法:Apriori 使用根据候选生成的逐层迭代找出频繁项集输入:事务数据库D;最小支持度阈值min_sup.输出:D中的所有频繁项集方法:2022/8/11Data Mining21While(Lk-1 )( Lk-1 表示k-1频繁项集 )从Lk-1利用
9、连接操作产生候选项集Ck;对于Ck中的每一个元素c,扫描数据库检查c是否是k-频繁项集;Lk=c | c是k-频繁项集k = k 1;输出 kLk2022/8/11Data Mining22连接操作对于两个k-项集I1, I2, , Ik-1, Ik, I1, I2, , Ik-1, Ik,能够连接产生一个k+1项集,当且仅当Ii=Ii, 其中i 1, 2, , k-1且Ik Ik,连接结果为( k+1项集):I1, I2, , Ik-1, Ik, Ik如A, C, D与A, C, E连接产生A, C, D, E;而A, C, D与A, B, D不能连接。2022/8/11Data Minin
10、g23Apriori算法示例事务数据库TDB1st scanC1L1L2C2C22nd scanC3L33rd scanTidItems10A, C, D20B, C, E30A, B, C, E40B, EItemsetsupA2B3C3D1E3ItemsetsupA2B3C3E3ItemsetA, BA, CA, EB, CB, EC, EItemsetsupA, B1A, C2A, E1B, C2B, E3C, E2ItemsetsupA, C2B, C2B, E3C, E2ItemsetB, C, EItemsetsupB, C, E22022/8/11Data Mining24从频繁
11、项集中产生关联规则对于频繁项集I=I1, I2, , Ik-1, Ik如何产生关联规则?是否满足支持度?是否满足置信度对于每个频繁项集I,产生它的所有非空子集m;对于每个m,如果 满足下式 ,则输出规则m(I m)。关联规则的提升度GameNonGameSumrowVideo400035007500NonVideo20005002500Sumcol60004000100002022/8/11Data Mining25Corr(A,B)=P(AB)/(P(A)P(B)=P(B|A)P(A)/(P(A)P(B)= P(B|A)/P(B) = P(A|B)/P(A)上式也称为规则AB(或BA)的提升
12、度。若大于1,二者正相关;等于1,二者独立;小于1,则负相关。Corr(Video, Game)=0.4/(0.75*0.6) = 0.89 1.Video Game 4000/10000, 4000/7500 40/75 60%Game Video 4000/10000, 4000/6000 4/6 75%2022/8/11Data Mining26Apriori算法存在的问题多次扫描数据库;产生大量的候选集合;如何改进?2022/8/11Data Mining27Lecture 4: 挖掘关联规则什么是关联规则:一个示例若干基本概念挖掘单维布尔关联规则的Apriori算法改进基于频繁模式树
13、的算法2022/8/11Data Mining28TIDItems bought (ordered) frequent items100f, a, c, d, g, i, m, pf, c, a, m, p200a, b, c, f, l, m, of, c, a, b, m300 b, f, h, j, o, wf, b400 b, c, k, s, pc, b, p500 a, f, c, e, l, p, m, nf, c, a, m, pmin_support = 3f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1Header TableItem frequency
14、head f4c4a3b3m3p32022/8/11Data Mining29包含p的频繁模式f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1Header TableItem frequency head f4c4a3b3m3p3pc:32022/8/11Data Mining30包含m的频繁模式f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1Header TableItem frequency head f4c4a3b3m3p3am: 3, cm:3, fm:3cam:3, fam:3, fcm:3fcam:32022/8/11Data Mining31包
15、含b的频繁模式f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1Header TableItem frequency head f4c4a3b3m3p3包含b的频繁模式为空2022/8/11Data Mining32包含a的频繁模式f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1Header TableItem frequency head f4c4a3b3m3p3ca:3, fa:3fca:32022/8/11Data Mining33包含c的频繁模式f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1Header TableItem freq
16、uency head f4c4a3b3m3p3fc:3多维关联规则挖掘基本思路:与单维布尔关联规则挖掘类似数据预处理:如对数值数据离散化等构建谓词数据集利用Apriori算法挖掘频繁谓词模式得到多维关联规则2022/8/11Data Mining关系数据2022/8/11Data MiningkeyAgeIncomeProduct1180.4小米2314.5Computer3355Computer4262.3iPhone2022/8/11Data MiningIDItems1A(1820), I(00.5), B(小米)2A(3040), I(46), B(Computer)3A(3040),
17、 I(46), B(Computer)4A(2129), I(13), B(iPhone)谓词数据(经过离散)挖掘频繁谓词模式2022/8/11Data Mining谓词计数A(1820)1A(2129)1A(3040)2B(Computer)2B(iPhone)1B(小米)1I(00.5)1I(13)1I(46)2谓词计数A(3040)2B(Computer)2I(46)2C1L1挖掘频繁谓词模式2022/8/11Data Mining谓词计数A(3040)2B(Computer)2I(46)2L1谓词计数A(3040), B(Computer)2A(3040), I(46)2B(Compu
18、ter), I(46)2C2谓词计数A(3040), B(Computer)2A(3040), I(46)2B(Computer), I(46)2L2谓词计数A(3040), B(Computer), I(46)2C3挖掘频繁谓词模式2022/8/11Data Mining谓词计数A(3040), B(Computer), I(46)2L3讨论:科学研究的第四范式2007年,已故的图灵奖得主吉姆格雷(Jim Gray)在他最后一次演讲中描绘了数据密集型科研“第四范式”的愿景。将大数据科研从第三范式(计算机模拟)中分离出来单独作为一种科研范式,是因为其研究方式不同于基于数学模型的传统研究方式。2
19、022/8/11Data Mining40Jim Gray“I wanted to point out that almost everything about science is changing because of the impact of information technology. Experimental, theoretical, and computational science are all being affected by the data deluge, and a fourth, “data-intensive” science paradigm is eme
20、rging.”2022/8/11Data Mining41一些惊人言论谷歌公司的研究部主任彼得诺维格(Peter Norvig)的一句名言可以概括两者的区别:“所有的模型都是错误的,进一步说,没有模型你也可以成功”(All models are wrong, and increasingly you can succeed without them)。PB级数据使我们可以做到没有模型和假设就可以分析数据。将数据丢进巨大的计算机机群中,只要有相互关系的数据,统计分析算法就可以发现过去的科学方法发现不了的新模式、新知识甚至新规律。实际上,谷歌的广告优化配置、战胜人类的IBM沃森问答系统都是这么实现的,这就是“第四范式”的魅力!2022/8/11Data Mining42一些极端言论美国连线杂志主编克里斯安德森2008年曾发出“理论已终结”的惊人断言
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全国中图版高中信息技术选修2第二单元第一节1、《素材获取》说课稿
- 2024年生物医药产业发展合作合同
- 二零二五年度危险品搬运工劳务合同范本2篇
- 高考材料作文立意技巧
- 二零二五年度冬春救助采购项目合同公示2篇
- 二零二五年到期的高端服装定制合同2篇
- 量子科技项目规划方案
- 二零二五年度叉车零配件供应与维修服务承包合同3篇
- 2024年稀土矿探矿权合资经营合同范本3篇
- 2024年美容院绿色环保与可持续发展协议
- GB 17740-1999地震震级的规定
- 安全生产事故举报奖励制度
- 冠心病健康教育完整版课件
- 国家开放大学《理工英语1》单元自测8试题答案
- 重症患者的容量管理课件
- 期货基础知识TXT
- 六年级上册道德与法治课件-第一单元 我们的守护者 复习课件-人教部编版(共12张PPT)
- 《尖利的物体会伤人》安全教育课件
- 安全管理体系及保证措施
- 大学生自主创业证明模板
- 启闭机试运行记录-副本
评论
0/150
提交评论