关联规则简介与Apriori算法_第1页
关联规则简介与Apriori算法_第2页
关联规则简介与Apriori算法_第3页
关联规则简介与Apriori算法_第4页
关联规则简介与Apriori算法_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关联规那么简介关联规那么〔AssociationRules〕反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。首先被Agrawal,ImielinskiandSwami在1993年的SIGMOD会议上提出.关联规那么挖掘是数据挖掘中最活泼的研究方法之一。典型的关联规那么发现问题是对超市中的购物篮数据〔MarketBasket〕进行分析。通过发现顾客放入购物篮中的不同商品之间的关系来分析顾客的购置习惯。关联规那么“尿布与啤酒〞的故事。美国的沃尔玛超市对一年多的原始交易数据进行了详细的分析,得到一个意外发现:与尿布一起被购置最多的商品竟然是啤酒。借助于数据仓库和关联规那么,商家发现了这个隐藏在背后的事实:美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布,而30%~40%的丈夫在买完尿布之后又要顺便购置自己爱喝的啤酒。有了这个发现后,超市调整了货架的设置,把尿布和啤酒摆放在一起销售,从而大大增加了销售额。案例70%购置了牛奶的顾客将倾向于同时购置面包。某网上书店向用户推荐相关书籍。案例在买了一台PC之后下一步会购置?案例在保险业务方面,如果出现了不常见的索赔要求组合,那么可能为欺诈,需要作进一步的调查;在医疗方面,可找出可能的治疗组合;在银行方面,对顾客进行分析,可以推荐感兴趣的效劳等等。案例什么是规那么?规那么形如"如果…那么…(If…Then…)",前者为条件,后者为结果。例如一个顾客,如果买了可乐,那么他也会购置果汁。如何来度量一个规那么是否够好?有两个量,置信度(Confidence)和支持度(Support)。假设有如下表的购置记录。关联规那么根本模型关联规那么根本模型_置信度置信度表示了这条规那么有多大程度上值得可信。设条件的项的集合为A,结果的集合为B。置信度计算在A中,同时也含有B的概率(即:ifA,thenB的概率)。即Confidence(AB)=P(B|A)。例如计算“如果Orange那么Coke〞的置信度。由于在含有“橙汁〞的4条交易中,仅有2条交易含有“可乐〞。其置信度为0.5。关联规那么根本模型_支持度支持度计算在所有的交易集中,既有A又有B的概率。例如在5条记录中,既有橙汁又有可乐的记录有2条。那么此条规那么的支持度为2/5=0.4,即Support(AB)=P(AB)。现在这条规那么可表述为,如果一个顾客购置了橙汁,那么有50%(置信度)的可能购置可乐。而这样的情况〔即买了橙汁会再买可乐〕会有40%(支持度)的可能发生。关联规那么的相关概念定义1工程与项集设I={i1,i2,…,im}是m个不同工程的集合,每个ik(k=1,2,……,m)称为一个工程(Item)。工程的集合I称为工程集合(Itemset),简称为项集。其元素个数称为项集的长度,长度为k的项集称为k-项集(k-Itemset)。关联规那么的相关概念定义2交易每笔交易T(Transaction)是项集I上的一个子集,即T

I,但通常T

I。对应每一个交易有一个唯一的标识——交易号,记作TID交易的全体构成了交易数据库D,或称交易记录集D,简称交易集D。交易集D中包含交易的个数记为|D|。关联规那么的相关概念定义3项集的支持度对于项集X,X

I,设定count(X

T)为交易集D中包含X的交易的数量项集X的支持度support(X)就是项集X出现的概率,从而描述了X的重要性。

关联规那么的相关概念定义4项集的最小支持度与频繁集发现关联规那么要求项集必须满足的最小支持阈值,称为项集的最小支持度(MinimumSupport),记为supmin。支持度大于或等于supmin的项集称为频繁项集,简称频繁集,反之那么称为非频繁集。通常k-项集如果满足supmin,称为k-频繁集,记作Lk。关联规那么的相关概念定义5关联规那么关联规那么(AssociationRule)可以表示为一个蕴含式:R:XY其中:XI,YI,并且XY=。例如:R:牛奶→面包关联规那么的相关概念定义6关联规那么的支持度对于关联规那么R:XY,其中XI,YI,并且XY=。规那么R的的支持度(Support)是交易集中同时包含X和Y的交易数与所有交易数之比。关联规那么的相关概念定义7关联规那么的置信度对于关联规那么R:XY,其中XI,YI,并且XY=。规那么R的置信度(Confidence)是指包含X和Y的交易数与包含X的交易数之比一般来说,只有支持度和置信度均较高的关联规那么才是用户感兴趣的、有用的关联规那么。关联规那么的相关概念定义8关联规那么的最小支持度和最小置信度关联规那么的最小支持度也就是衡量频繁集的最小支持度(MinimumSupport),记为supmin,它用于衡量规那么需要满足的最低重要性。关联规那么的最小置信度(MinimumConfidence)记为confmin,它表示关联规那么需要满足的最低可靠性。关联规那么的相关概念定义9强关联规那么如果规那么R:XY满足support(XY)supmin且confidence(XY)confmin,称关联规那么XY为强关联规那么,否那么称关联规那么XY为弱关联规那么。在挖掘关联规那么时,产生的关联规那么要经过supmin和confmin的衡量,筛选出来的强关联规那么才能用于指导商家的决策。关联规那么挖掘举例对于规那么AC:支持度=support({A,C})=50%置信度=support({A,C})/support({A})=66.6%假设最小值支持度为50%,最小置信度为50%规那么AC满足最小支持度和最小置信度,所以它是强关联规那么关联规那么挖掘的步骤关联规那么挖掘是一个两步的过程:找出所有频繁项集由频繁项集产生强关联规那么,这些规那么必须大于或者等于最小支持度和最小置信度大于或者等于最小支持度的项集Apriori算法Apriori算法是一种经典的生成布尔型关联规那么的频繁项集挖掘算法。Apriori算法将发现关联规那么的过程分为两个步骤:通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;利用频繁项集构造出满足用户最小置信度的规那么。挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大局部。Apriori算法的重要性质性质1:频繁项集的子集必为频繁项集性质2:非频繁项集的超集一定是非频繁的假设项集{A,C}是频繁项集,那么{A}和{C}也为频繁项集假设项集{D}不是频繁项集,那么{A,D}和{C,D}也不是频繁项集Apriori算法举例现有A、B、C、D、E五种商品的交易记录表,找出所有频繁项集,假设最小支持度>=50%,最小置信度>=50%Apriori算法举例_产生频繁项集K=1支持度<50K=2支持度<50支持度<50Apriori算法举例_产生频繁项集支持度<50支持度<50Apriori算法举例_产生关联规那么对于频繁项集{B,C,E},它的非空子集有{B}、{C}、{E}、{B,C}、{B,E}、{C,E}。以下就是据此获得的关联规那么及其置信度。规则置信度ConfidenceBCE66.7%CBE66.7%EBC66.7%CEB1BEC66.7%BCE1置信度≥50%(最小置信度),都是强关联规那么Apriori算法弊端需要屡次扫描数据表如果频繁集最多包含10个项,那么就需要扫描交易数据表10遍,这需要很大的I/O负载产生大量频繁集假设有100个工程,可能产生候选项数目FP-growth算法JiaweiHan等人在2000年提出了一种基于FP-树的关联规那么挖掘算法FP_growth,它采取“分而治之〞的策略,将提供频繁工程集的数据库压缩成一棵频繁模式树〔FP-树〕。仅两次扫描数据库。理论和实验说明该算法优于Apriori算法。FP-growth算法其他关联规那么挖掘算法约束性关联规那么挖掘算法仅设置支持度和置信度阈值,缺乏用户控制,可能产生过多的规那么,实际效果可能并不好。用户关心的是某些特定的关联规那么,这需要把一些约束条件引入到挖掘算法中,从而筛选出符合约束条件的有用规那么,提高算法的运行效率和用户满意度。增量式关联规那么挖掘算法数据集不断增长,有新的数据参加后,重新挖掘很费时。增量式关联规那么挖掘算法是当数据库变化后,在原挖掘结果的根底上生成新的关联规那么,删除过时的关联规那么。多层关联规那么挖掘……关联规那么的价值衡量客观上,使用“支持度和置信度〞框架可能会产生一些不正确的规那么。只凭支持度和置信度阈值未必总能找出符合实际的规那么。例:歌曲A、歌曲C为小众歌曲,歌曲B为口水歌,共有10万个用户,有200个人听过歌曲A,这200个人里面有60个听过口水歌B,有40个人听过歌曲C。听过歌曲C的人数是300,听过口水歌B的人为50000。Confidence(A→B)=0.3,Confidence(A→C)=0.2但是10W人里面有5W听过歌曲B,有一半的用户都喜欢歌曲B,但听过歌曲A的人里面只有30%的人喜欢歌曲B听过歌曲A的人不喜欢歌曲B貌似A和B更相关矛盾的规那么,如何评价?关联规那么价值衡量提升度Lift(AB)=Confidence(AB)/Support(B)=引入提升度Lift,以度量此规那么是否可用。它描述的是:相对于不用规那么,使用规那么可以提高多少。Lift(A→B)=Confidence(AB)/Support(B)=0.3/0.5=0.6Lift(A→C)=Confidence(AC)/Support(C)=0.2/(300/100000)=66.7歌曲A与B负相关,A与C正相关。Lift大于1,表示使用这条规那么进行推荐能提升用户听歌曲C的概率。Lift小于1,那么表示使用这条规那么来进行推荐,还不如不推荐,让顾客自行选择好了。Confidence(A→B)=0.3Confidence(A→C)=0.2Support(B)=0.5Support(C)=300/100000关联规那么的价值衡量主观上,一个规那么的有用与否最终取决于用户的感觉,只有用户才能决定规那么的有效性、可行性。所以,应该将需求和关联规那么挖掘方法紧密地结合起来。例如使用“约束性关联规那么挖掘算法〞,将约束条件与算法紧密结合,既能提高数据挖掘效率,又能明确数据挖掘的目标。参考文献:[1]高明.关联规那么挖掘算法的研究及其应用[D].山东师范大学.2006[2]李彦伟.基于关联规那么的数据挖掘方法研究[D].江南大学.2023[3]肖劲橙,林子禹,毛超.关联规那么在零售商业的应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论