机器学习-关联规则_第1页
机器学习-关联规则_第2页
机器学习-关联规则_第3页
机器学习-关联规则_第4页
机器学习-关联规则_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章基于关联规则的购物篮分析一、什么是关联规则

主要是描述一组数据属性之间的密切度或关联程度。分析结果是一组指定商品之间关系模式的关联规则。关联规则是无监督的,所以无需训练算法和提前标识数据。如:美国沃尔玛超市的数据分析人员在做数据分析的时候发现,每到周末同时购买啤酒和尿不湿的人较平时增加很多。他们对数据进行了进一步挖掘并且走访了很多同时购买这两样商品的顾客,他们发现这些顾客有几个共同的特点:一般是周末出现这种情况:

购买者以已婚男士为主他们家中有孩子且不到两岁,有尿不湿的刚需他们喜欢看体育比赛节目,并且喜欢边喝啤酒边看。顾客有喝啤酒的需求周末是体育比赛扎堆的日子,所以出现这种关联销售多在周末的时候。发现这个秘密后,于是超市就大胆的将啤酒放在尿不湿旁边陈列,让这些顾客购买起来更方便。实验结果发现二者的销售量都大幅度的提升。这是一个典型的利用关联销售提升业绩的案例。例如{花生酱,果冻}→{面包}。购买前两种就极有可能购买面包。关联规则总是由项集的子集组成,通过将规则左项(条件项)(LHS)的一个项集与规则右项(结果项)(RHS)的另一个项集联系起来。LHS:表示为了触发规则需要满足的条件RHS:表示满足条件后的预期结果。{花生酱,果冻}→{面包}一般,关联规则可以应用的场景有:优化货架商品摆放或者优化邮寄商品的目录交叉销售或者捆绑销售搜索词推荐或者识别异常

二、概念项:交易数据库中的一个字段,对超市的交易来说一般是指一次交易中的一个物品,如:牛奶项集:包含若干个项的集合,一般会大于0个,如{花生酱,果冻}支持度:项集X在总项集中出现的概率。N:数据库中交易次数count(X):表示包含项集X的交易次数。置信度:交易中项或者项集X的出现导致项或者项集Y出现的比例。即在先决条件X发生的条件下,由关联规则{X->Y}推出Y的概率频繁项集:某个项集的支持度大于设定阈值(人为设定或者根据数据分布和经验来设定),即称这个项集为频繁项集。提升度(lift):表示含有X的条件下同时含有Y的概率,与无论含不含X含有Y的概率之比。如:{慰问卡,鲜花}的支持度=3/5=0.6{鲜花}→{慰问卡}的置信度=0.6/0.8=0.75{慰问卡}→{鲜花}的置信度=0.6/0.6=1假如有一条规则:牛肉—>鸡肉,那么同时购买牛肉和鸡肉的顾客比例是3/7,而购买牛肉的顾客当中也购买了鸡肉的顾客比例是3/4。S表示所有的顾客,而A表示买了牛肉的顾客,B表示买了鸡肉的顾客,C表示既买了牛肉又买了鸡肉的顾客。那么C.count/S.count=3/7,C.count/A.count=3/4。。提升度示例:1000名顾客,购买年货,A组有500人购买茶叶,有450人购买咖啡;B组有0人购买茶叶,有450人购买咖啡。

茶叶->咖啡的支持度=450/1000=45%茶叶->咖啡的置信度=45%/(500/1000)=90%茶叶->咖啡的提升度=90%/(900/1000)=1由于lift(茶叶X->咖啡Y)=1,所以说明X与Y相互独立,即是否有X对于Y的出现没有影响。虽然支持度和置信度都高,但它们之间没有必然的关联关系。满足最小支持度和最小置信度的关联关系叫做强关联关系如果lift>1,叫做有效的强关联关系,如果lift<=1,叫做无效的强关联关系特别的如果lift(X->Y)=1,则称X与Y相互独立三、Apriori算法:现实中,许多潜在的商品组合极少,不是一个一个地评估集合的每一个元素。例如:如一个商店同时销售汽车产品和化妆品,但{机油,口红}这两个物品的组合就可能很少,忽略类似组合,就可以限制规则的搜索范围,该算法采用一个简单的先验信念作为准则来减少关联规则的搜索空间:一个频繁项集(集合)的所有子集也是频繁的。比如,如果{机油,口红}是频繁的,那么当且仅当机油,口红都是频繁的。如果只要其中一个是非频繁的,那么任意一个含有这两项的集合都可以从搜索中排除。使用关联规则的过程主要包含以下三个步骤:(1)根据支持度(support),从事务集合中找出频繁项集。(2)根据置信度(confidence),从频繁项集中找出强关联规则(置信度阈值需要根据实验或者经验而定)(3)根据提升度(lift),从强关联规则中筛选出有效的强关联规则

Apriori算法的核心思想:频繁集的子集一定是频繁的非频繁集的超集一定是非频繁的创建规则的过程:识别所有满足最小支持度阈值的项集。使用那些满足最小置信度阈值的项集来创建规则。Apriori算法的优缺点:优点:能够处理大量的事务型数据规则中的结果很容易理解对于数据挖掘和发现数据库中意想不到的知识很有用。缺点:对于小的数据集不是很有用需要努力地将对数据的真实洞察和常识区分开容易从随机模式得出虚假结论。假设我们设置得最小支持度为30%,最小自信度为60%。从上面的表中,可以得到:support(买游戏光碟→买影片光碟)=4000/10000=40%confidence(买游戏光碟→买影片光碟)=4000/6000=66%

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论