《大数据分析实务》课件第7章:数据挖掘方法 - 关联规则挖掘_第1页
《大数据分析实务》课件第7章:数据挖掘方法 - 关联规则挖掘_第2页
《大数据分析实务》课件第7章:数据挖掘方法 - 关联规则挖掘_第3页
《大数据分析实务》课件第7章:数据挖掘方法 - 关联规则挖掘_第4页
《大数据分析实务》课件第7章:数据挖掘方法 - 关联规则挖掘_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章数据挖掘方法7.1关联规则挖掘

第7章数据挖掘方法

7.1.1关联规则挖掘定义关联规则挖掘(AssociationRulesMining)则是利用数据库中的大量数据通过关联算法寻找属性间的相关性。关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切的说,关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响。例:(超级市场)在购买商品A的客户同时购买商品B,则可用关联规则表示为:7.1.1关联规则挖掘定义7.1.1关联规则挖掘定义关联规则属性1、可信度(Confidence)设W中支持物品集A的事务中,有c%的事务同时也支持物品集B,c%称为关联规则A→B的可信度。简单地说,可信度就是指在出现了物品集A的事务T中,物品集B也同时出现的概率有多大。如果一个顾客购买了铁锤,那么他也购买铁钉的可能性有多大呢?如购买铁锤的顾客中有70%的人购买了铁钉,所以可信度是70%。7.1.1关联规则挖掘定义关联规则属性2、支持度(Support)

设W中有s%的事务同时支持物品集A和B,s%称为关联规则A→B的支持度。支持度描述了A和B这两个物品集的并集C在所有的事务中出现的概率有多大。

某天共有1000个顾客到商场购买物品,其中有100个顾客同时购买了铁锤和铁钉,那么上述的关联规则的支持度就是10%。7.1.1关联规则挖掘定义关联规则属性3、期望可信度(Expectedconfidence)设W中有e%的事务支持物品集B,e%称为关联规则A→B的期望可信度。期望可信度描述了在没有任何条件影响时,物品集B在所有事务中出现的概率有多大。

某天共有1000个顾客到商场购买物品,其中有200个顾客购买了铁钉,则上述的关联规则的期望可信度就是20%。7.1.1关联规则挖掘定义关联规则属性4、作用度(Lift)作用度是可信度与期望可信度的比值。作用度描述物品集A的出现对物品集B的出现有多大的影响。因为物品集B在所有事务中出现的概率是期望可信度;而物品集B在有物品集A出现的事务中出现的概率是可信度,通过可信度对期望可信度的比值反映了在加入“物品集A出现”的这个条件后,物品集B的出现概率发生了多大的变化。在上例中作用度就是70%/20%=3.5。7.1.1关联规则挖掘定义10000人20人铁锤18人铁钉铁锤︿铁钉15人可信度:15/20=75%支持度:15/10000=0.15%期望可信度:18/10000=0.18%作用度:0.75\0.0018=416.677.1.1关联规则挖掘定义关联规则属性可信度是对关联规则的准确度的衡量;支持度是对关联规则重要性的衡量;支持度说明了这条规则在所有事务中有多大的代表性,显然支持度越大,关联规则越重要;有些关联规则可信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。7.1.1关联规则挖掘定义关联规则属性期望可信度描述了在没有物品集A的作用下,物品集B本身的支持度;作用度描述了物品集A对物品集B的影响力的大小;作用度越大,说明物品集B受物品集A的影响越大;一般情况,有用的关联规则的作用度都应该大于1,只有关联规则的可信度大于期望可信度,才说明A的出现对B的出现有促进作用,也说明了它们之间某种程度的相关性;7.1.2关联规则挖掘为了发现有意义的关联规则,需要给定两个阈值:最小支持度和最小可信度,前者规定了关联规则必须满足的最小支持度;后者规定了关联规则必须满足的最小可信度。一般称满足一定要求的(如较大的支持度和可信度)的规则为强规则(Strongrules)。7.1.2关联规则挖掘在关联规则的挖掘中要注意以下几点:1、充分理解数据。2、目标明确。3、数据准备工作要做好。能否做好数据准备又取决于前两点。数据准备将直接影响到问题的复杂度及目标的实现。4、选取恰当的最小支持度。5、很好地理解关联规则。7.1.2关联规则挖掘发现关联规则要经过以下三个步骤:1、连接数据,作数据准备(数据清洗、整合相关工作);2、给定最小支持度,利用数据挖掘工具提供的算法发现关联规则;3、可视化显示、理解、评估关联规则。7.1.3关联规则分类1、基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。性别=“女”=>职业=“秘书”,是布尔型关联规则;性别=“女”=>avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。7.1.3关联规则分类2、基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则7.1.3关联规则分类3、基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的啤酒=>尿布,这条规则只涉及到用户的购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维度上的一条关联规则。7.1.4Apriori算法该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。7.1.4Apriori算法k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则。Apriori算法性质:任一频繁项集的所有非空子集也必须是频繁的。7.1.4Apriori算法7.1.4Apriori算法数据库D扫描DC1itemsetsup{12}1{13}2{15}1{23}2{25}3C2{35}2C2扫描DC3扫描DL3L1L27.1.4Apriori算法前面的例子中,得到一个频繁集{2,3,5},非空真子集有{2},{3},{5},{2,3},{2,5},{3,5}L1L3L2规则:2353

255

2323

525

335

2置信度:2/3=66%({2,3,5}频度/{2}频度)2/3=66%({2,3,5}频度/{3}频度)2/3=66%({2,3,5}频度/{5}频度)2/2=100%({2,3,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论