第六章:关联规则-《数据挖掘与知识发现》-教学课件_第1页
第六章:关联规则-《数据挖掘与知识发现》-教学课件_第2页
第六章:关联规则-《数据挖掘与知识发现》-教学课件_第3页
第六章:关联规则-《数据挖掘与知识发现》-教学课件_第4页
第六章:关联规则-《数据挖掘与知识发现》-教学课件_第5页
已阅读5页,还剩99页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章:关联规则6.1引言6.2关联规则基本模型6.3多级关联规则与多维关联规则6.4关联规则价值衡量与发展本章小结2003-11-11高等教育出版社第六章:关联规则6.1引言2003-11-11高等教育出第六章:关联规则6.1引言6.2关联规则基本模型6.3多级关联规则与多维关联规则6.4关联规则价值衡量与发展本章小结2003-11-12高等教育出版社第六章:关联规则6.1引言2003-11-12高等教育出关联规则简介关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。典型的关联规则发现问题是对超市中的货篮数据(MarketBasket)进行分析。通过发现顾客放入货篮中的不同商品之间的关系来分析顾客的购买习惯。2003-11-13高等教育出版社关联规则简介关联规则反映一个事物与其他事物之间的相互依存性和第六章:关联规则6.1引言6.2关联规则基本模型6.3多级关联规则与多维关联规则6.4关联规则价值衡量与发展本章小结2003-11-14高等教育出版社第六章:关联规则6.1引言2003-11-14高等教育出关联规则基本模型IBM公司Almaden研究中心的R.Agrawal首先提出关联规则模型,并给出求解算法AIS。随后又出现了SETM和Apriori等算法。其中,Apriori是关联规则模型中的经典算法。2003-11-15高等教育出版社关联规则基本模型IBM公司Almaden研究中心的R.Ag关联规则基本模型(续)设I={i1,i2,…,im}为所有项目的集合,D为事务数据库,事务T是一个项目子集(TI)。每一个事务具有唯一的事务标识TID。设A是一个由项目构成的集合,称为项集。事务T包含项集A,当且仅当AT。如果项集A中包含k个项目,则称其为k项集。项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(或大项集)。2003-11-16高等教育出版社关联规则基本模型(续)设I={i1,i2,…,im}为所关联规则基本模型(续)关联规则是形如XY的逻辑蕴含式,其中XI,YI,且XY=。如果事务数据库D中有s%的事务包含XY,则称关联规则XY的支持度为s%,实际上,支持度是一个概率值。若项集X的支持度记为support(X),规则的信任度为support(XY)/support(X)。这是一个条件概率P(Y|X)。也就是:

support(XY)=P(XY)confidence(XY)=P(Y|X)2003-11-17高等教育出版社关联规则基本模型(续)关联规则是形如XY的逻辑蕴含式,其中关联规则基本模型(续)关联规则就是支持度和信任度分别满足用户给定阈值的规则。

发现关联规则需要经历如下两个步骤:

找出所有频繁项集。

由频繁项集生成满足最小信任度阈值的规则。

2003-11-18高等教育出版社关联规则基本模型(续)关联规则就是支持度和信任度分别满足用户Apriori算法的步骤Apriori算法命名源于算法使用了频繁项集性质的先验(Prior)知识。

Apriori算法将发现关联规则的过程分为两个步骤:通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;利用频繁项集构造出满足用户最小信任度的规则。挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。

2003-11-19高等教育出版社Apriori算法的步骤Apriori算法命名源于算法使用了频繁项集为了避免计算所有项集的支持度(实际上频繁项集只占很少一部分),Apriori算法引入潜在频繁项集的概念。若潜在频繁k项集的集合记为Ck,频繁k项集的集合记为Lk,m个项目构成的k项集的集合为

,则三者之间满足关系LkCk

。构成潜在频繁项集所遵循的原则是“频繁项集的子集必为频繁项集”。

2003-11-110高等教育出版社频繁项集为了避免计算所有项集的支持度(实际上频繁项集只占很少关联规则的性质:

性质6.1频繁项集的子集必为频繁项集。

性质6.2非频繁项集的超集一定是非频繁的。

Apriori算法运用性质6.1,通过已知的频繁项集构成长度更大的项集,并将其称为潜在频繁项集。潜在频繁k项集的集合Ck是指由有可能成为频繁k项集的项集组成的集合。以后只需计算潜在频繁项集的支持度,而不必计算所有不同项集的支持度,因此在一定程度上减少了计算量。

2003-11-111高等教育出版社关联规则的性质:性质6.1频繁项集的子集必为频繁项集。Apriori算法(1)L1={频繁1项集};(2)for(k=2;Lk-1;k++)dobegin(3)Ck=apriori_gen(Lk-1);//新的潜在频繁项集

(4)foralltransactions

tDdobegin(5)Ct=subset(Ck,t);//t中包含的潜在频繁项集

(6)forallcandidatescCtdo(7)c.count++;(8)end;(9)Lk={cCk|c.countminsup}(10)end;(11)Answer=2003-11-112高等教育出版社Apriori算法(1)L1={频繁1项集};2003-LIG算法基本定义及定理定义6.1设T是事务数据库中的一个事务,TD,称T中基本项的个数为事务T的规模,记为T。

定义6.2若d是一个项集,将d中元素的个数称为该项集的长度,记为d。

定理6.1在一个已知事务数量的数据集D中,规模小于A的事务不会影响计算D(A)。

定理6.2已知数据集D中的一个频繁k项集Ak(即,D(Ak)≥minsup),令数据集D’={ddDd≥m>k},若D’(Ak)<minsup,则对D中任意一个频繁m项集Am而言,一定有Ak

Am。

2003-11-113高等教育出版社LIG算法基本定义及定理定义6.1设T是事务数据库中的一LIG算法基本定义及定理定义6.3当k≤p<q时,sp为项集I在规模为p的事务中出现的次数;当p=q时,sp是项集I在规模不低于p的事务中出现的次数。这里元组(sk,sk+1,…,sq–1,sq)称为项集I的多段支持度。

定义6.4若项I能与区间[ip,iq],[ir,is],…,[iu,iv]中的频繁1项集构成潜在频繁2项集,而与任何区间外的项均不构成频繁2项集,则称这些区间为项I的相关区间。

2003-11-114高等教育出版社LIG算法基本定义及定理定义6.3当k≤p<q时,sp为LIG算法基本定义及定理定理6.3若频繁k项集itemi和itemj的多段支持度分别为(ik,ik+1,…,iq)和(jk,jk+1,…,jq),满足<minsup,并且∣itemiitemj∣=k–1,则不能由itemi和itemj构成Ck+1中的元素。

2003-11-115高等教育出版社LIG算法基本定义及定理定理6.3若频繁k项集itemiLargeItemsGeneration算法(1)foralltransactionstDdobegin(2)forallitemsctdobegin(3)

c.s++; //计算项的支持度(4)Calculatec.AREA; //计算相关区间的频度(5)end;(6)if(t>1)+=t;(7)end;(8)L1={large1-itemset}; //满足最小支持度(9)C2={{a,b}

a

L1andba.AREA}; //潜在频繁2项集2003-11-116高等教育出版社LargeItemsGeneration算法(1)forLIG算法(续)(10)M2={C2中相异元素}; //提取因子(11)k=2,q置初值;(12)dobegin(13)foralltransactionstdobegin(14)

Ct=subset(Ck,t);//t中包含的潜在频繁项集(15)

r=t;(16)if(r>q)thenr=q;(17)if(r==k)then-=t;//剔除长度为k的事务2003-11-117高等教育出版社LIG算法(续)(10)M2={C2中相异元素}; LIG算法(续)(18)elset=Mk;//剔除事务中无价值的项(19)forallCandidatescCtdo(20)

c.sr++;(21)end(22)

LCk=limit-gen(k,Ck);//生成Lk和LCk(23)

Ck+1=JOIN(LCk);/新的潜在频繁项集的集合(24)

Mk+1={Ck+1中相异元素};//提取因子(25)

k++;q++;(26)endwhile(LCk>1);(27)

L=2003-11-118高等教育出版社LIG算法(续)(18)elsetApriori算法与LIG算法数据规模比较表

2003-11-119高等教育出版社Apriori算法与LIG算法数据规模比较表2003-11FP算法ProcedureFP_growth(Tree,

α)(1)ifTree包含一个单一路径Pthen(2)foreach路径P中节点组合(记为β)(3)生成模式βα,拥有支持度为β节点中的最小支持度(4)elseforeach树的头列表节点ai{(5)生成模式β=aiβ且support=ai.support(6)构成β,的条件模式基和β的条件FP_treeTreeβ(7)ifTreeβthen(8)callFP_growth(Treeβ,β);}2003-11-120高等教育出版社FP算法ProcedureFP_growth(Tree,第六章:关联规则6.1引言6.2关联规则基本模型6.3多级关联规则与多维关联规则6.4关联规则价值衡量与发展本章小结2003-11-121高等教育出版社第六章:关联规则6.1引言2003-11-121高等教育多级关联规则

在很多应用中,由于多维数据空间上的数据稀少,在低层或原始抽象级别上很难发现数据项间的强关联(StrongAssociations)。Han等人对多级关联规则进行了深入研究,指出强关联在高层概念上可以描述通常意义的知识。多级关联规则可以在不同的抽象空间上描述多层抽象知识。

2003-11-122高等教育出版社多级关联规则在很多应用中,由于多维数据空间上的数据稀少,在多级关联规则在多个概念级别上生成的关联规则称为多级关联规则。

由于数据分布的分散性,很难在数据最细节的层次上发现一些强关联规则。当引入概念层次后,就可以在较高的层次上进行数据挖掘。

概念分层可以由系统用户、领域专家、知识工程师人工提供,也可以根据数据分布的统计特征自动产生。

根据规则中涉及到的层次,多级关联规则可以分为同级关联规则和级间关联规则。

2003-11-123高等教育出版社多级关联规则在多个概念级别上生成的关联规则称为多级关联规则。多级关联规则的挖掘多级关联规则的挖掘基本上可以沿用“支持度和信任度”的框架。挖掘多级关联规则时可采用自上而下,深度优先的方法,由较抽象的概念层开始向下,到较低的具体概念层(如原始概念层),对每个概念层的频繁项集累加计数,直到再也找不到频繁项集为止。Apriori算法及其变种算法均可以应用到每一级频繁项集的发现上。从模型上讲可以分成两类:所有级别采用统一的最小支持度阈值;低级别上采用较小的最小支持度阈值。

2003-11-124高等教育出版社多级关联规则的挖掘多级关联规则的挖掘基本上可以沿用“支持度和规则的冗余性概念分层允许在不同抽象层上发现知识,所以多级关联规则在数据挖掘中能发挥较大的作用。但由于“祖先”关系的原因,有些规则可能是冗余的。

如果同时挖掘到这两条规则且后者不能提供更新的信息,就把这个规则剔除。设规则R1是规则R2的祖先,如果通过修改R2的前件使之提升到上一级概念抽象后,能够得到规则R1,则规则R2就是冗余的,可以从规则集中把R2删去。

2003-11-125高等教育出版社规则的冗余性概念分层允许在不同抽象层上发现知识,所以多级关联多维关联规则

在多维数据库中,将每个不同的谓词层称作维。

称规则购买(X,“牛奶”)

购买(X,“面包”)为单维或者维内关联规则,这些规则一般都是在交易数据库中挖掘出的。

对多维数据库而言,还有一类多维的关联规则。多维关联规则是涉及两个或多个属性或谓词的规则,例如:

年龄(X,“20...30”)职业(X,“学生”)

购买(X,“笔记本电脑”)2003-11-126高等教育出版社多维关联规则在多维数据库中,将每个不同的谓词层称作维。2多维关联规则的分类如果在规则的每一维上使用不同的断言,就把包含两个或两个以上断言的关联规则称为多维关联规则。如果规则中的断言不重复,就称这样的规则为维间关联规则(InterdimensionAssociationrule);如果规则中的断言可以重复,就称之为混合维关联规则(Hybrid-dimensionAssociationRule)。

2003-11-127高等教育出版社多维关联规则的分类如果在规则的每一维上使用不同的断言,就把包数量属性的处理方法

数据库属性分为定性和定量两种。定性的属性有有限个可能取值;定量的属性不能给出确切范围的数量值。数量属性的处理方法分为三种:把数量值划分为若干个离散区间,用区间值描述数量属性,这样就可以把定量的问题转化为定性的问题。也就是通过数量属性静态离散化挖掘多维关联规则。对离散数据而言,为适应数据挖掘需要,离散化进程可以是动态的,这样的关联规则称为数量相关规则。如果在离散化时考虑数据点间的距离,就将这样的数量关联规则称为基于距离的关联规则。

2003-11-128高等教育出版社数量属性的处理方法数据库属性分为定性和定量两种。定性的属性用数量属性静态离散化挖掘多维关联规则

在这种情况下,数量属性依据事先定义的概念层次进行离散化,数量值由范围取代。

数据立方体非常适合于挖掘多维关联规则,因为它包含描述多维数据结构的立方体格,有利于数据聚集和信息分组。

多维数据挖掘问题可以利用类似于Apriori的算法予以解决。在挖掘之前利用特定的概念分层对数量属性(量化属性)进行离散化。这里的离散化是静态的、预确定的。离散化的数值属性具有区间值,将每个区间看作一个类,就可以像定性属性那样处理。定性属性可以生成更高级别的概念。

2003-11-129高等教育出版社用数量属性静态离散化挖掘多维关联规则在这种情况下,数量属性数量关联规则

数量关联规则是多维的,往往需要对数量属性动态离散化,以满足某种挖掘标准需要。

所谓2-维量化规则是指左部有两个量化属性、右部有一个分类属性的量化规则,如AQUAN1AQUAN2ACAT。

2003-11-130高等教育出版社数量关联规则数量关联规则是多维的,往往需要对数量属性动态离数量关联规则(续)可以利用关联规则聚集系统ARCS(AssociationRuleClusteringSystem)来发现数据关联规则。ARCS包括分箱、查找频繁项集、聚集和优化。ARCS的核心在于将量化属性映射到2-D栅格上,然后搜索栅格形成数据点的聚类,从而产生关联规则。

具体步骤如下:分箱、生成频繁项集、聚类。2003-11-131高等教育出版社数量关联规则(续)可以利用关联规则聚集系统ARCS(Asso关联规则聚集系统ARCS2003-11-132高等教育出版社关联规则聚集系统ARCS2003-11-132高等教育出版基于距离的关联规则

数量关联规则先用分箱的方法将数量属性离散化,然后将结果区间聚合。由于分箱的方法未考虑数据点之间或区间之间的相对距离,因此不能体现区间数据的语义。

基于距离的关联规则挖掘紧扣区间数据的语义,同时允许数据值的临近,划分使得关联规则可以表达这种接近性。

2003-11-133高等教育出版社基于距离的关联规则数量关联规则先用分箱的方法将数量属性离散基于距离的关联规则基于距离的关联规则算法分两趟扫描。第一趟扫描使用聚类找出区间或簇;第二趟搜索频繁出现的簇组,得到基于距离的关联规则。

2003-11-134高等教育出版社基于距离的关联规则基于距离的关联规则算法分两趟扫描。2003第六章:关联规则6.1引言6.2关联规则基本模型6.3多级关联规则与多维关联规则6.4关联规则价值衡量与发展本章小结2003-11-135高等教育出版社第六章:关联规则6.1引言2003-11-135高等教育规则价值衡量

对关联规则的评价与价值衡量涉及两个层面:系统客观的层面和用户主观的层面。

2003-11-136高等教育出版社规则价值衡量对关联规则的评价与价值衡量涉及两个层面:系统客系统客观层面

使用“支持度和信任度”框架可能会产生一些不正确的规则。如果把支持度和信任度设得足够低,就可能得到矛盾的规则。如果把阈值设得过高,就可能得到不符合实际的规则。因此,只凭支持度和信任度阈值未必总能找出符合实际的规则。

2003-11-137高等教育出版社系统客观层面使用“支持度和信任度”框架可能会产生一些不正确系统客观层面(续)人们引入兴趣度概念,用来剔除不感兴趣的规则。一般一条规则的兴趣度是在基于统计独立性假设下真正的强度与期望的强度之比,然而在应用中发现,只要把支持度作为产生项集的主要决定因素,就要把支持度设得足够低以保证不丢失任何有意义的规则,或者冒丢失一些重要规则的风险。前者计算效率是个问题,而后者则有可能丢失有意义的规则。另一个度量值是“收集强度”(CollectiveStrength),使用“大于期望值”为条件来发现有意义的关联规则。项集的收集强度是[0,]区间上的一个数值,其中,0表示完备的否定相关性,

表示完备的正相关性。

2003-11-138高等教育出版社系统客观层面(续)人们引入兴趣度概念,用来剔除不感兴趣的规则用户主观层面

只有用户才能决定规则的有效性、可行性。所以,应该将用户的需求和系统更加紧密地结合起来。

可以采用基于约束(Consraint-based)的数据挖掘方法。具体约束的内容有:数据约束、限定数据挖掘的维和层次、规则约束。如果把某些约束条件与算法紧密结合,既能提高数据挖掘效率,又能明确数据挖掘的目标。

2003-11-139高等教育出版社用户主观层面只有用户才能决定规则的有效性、可行性。所以,应基于约束的关联规则

基于约束的关联规则就是利用用户给出的各种约束关系,使挖掘出的规则更有效。这些约束包括:知识类型约束

数据约束

维数或层约束

兴趣度约束

规则约束

规则模板允许用户约束感兴趣的规则的语法形式,以便通过规则形式化约束提高数据挖掘效率。规则模板可以来自分析者的实验、期望或对数据的直觉。

2003-11-140高等教育出版社基于约束的关联规则基于约束的关联规则就是利用用户给出的各种对比度在支持度和信任度关联规则框架中,采用最小信任度阈值来判断一个规则是否有意义。最小信任度仅体现事物之间的表面关系,并不代表必然的因果关系,往往产生的规则中有许多是冗余无用的。

在规则挖掘中加入前件和后件重要度的比较限制,称为对比度。一个项集的重要度为所有组成元素重要度之和。

2003-11-141高等教育出版社对比度在支持度和信任度关联规则框架中,采用最小信任度阈值来判冗余规则定义6.5

若一个关联规则前件和后件的对比度的值大于某个指定的阈值,则称过于重要的前件推出非常次要的后件,该规则是冗余规则。

定义6.6若有两个或两个以上有相同后件的有意义关联规则,分别为:R1:Ai1,…,Aj1B,R2:Ai2,…,Aj2B,Rm,…,Rn,Rk:Aik,…,AjkB,信任度分别为:C1,C2,Cm,…,Cn,Ck,规定一个阈值

,若规则Rm的前件属于规则Rn的前件,即Rm·ARn·A,且∣Cm–Cn∣≤

,则称规则Rn是冗余规则。

2003-11-142高等教育出版社冗余规则定义6.5若一个关联规则前件和后件的对比度的值大冗余规则(续)定义6.7若有两个或两个以上有相同前件的有意义关联规则,分别为:R1:ABi1,…,Bj1,B2:ABi2,…,Bj2,Rm,…,Rn,Rk:ABik,…,Bjk,信任度分别为:C1,C2,Cm,…,Cn,Ck,规定一个阈值,若规则Rm的后件属于规则Rn的后件,即Rm·BRn·B,且∣Cm–Cn∣≤

,则称规则Rn是冗余规则。

定理6.4若有两个有意义的关联规则,分别为:R1:A1B1,R2:A2B2,信任度分别为:C1,C2,规定一个阈值

,若R1·A1R2·A2且R2·B2R1·B1,同时∣C1–C2∣≤

,则称规则R2是冗余规则。

2003-11-143高等教育出版社冗余规则(续)定义6.7若有两个或两个以上有相同前件的有冗余规则(续)定理6.5如果关联规则R:AB,同时满足定义6.5和定理6.4,则其必满足定义6.6。

定理6.5剪除冗余规则的同时,得到简洁的规则。

定理6.4和定理6.5保证能够用最小前提推出尽可能有价值的信息,使规则更加简洁有效。

2003-11-144高等教育出版社冗余规则(续)定理6.5如果关联规则R:AB,同时关联规则新进展

在基于一维布尔型关联规则的算法研究中先后出现了AIS、SETM等数据挖掘算法。

R.Agrawal等人提出的Apriori是经典算法。随后的关联规则发现算法大多数建立在Apriori算法基础上,或进行改造,或衍生变种。比如AprioriTid和AprioriHybrid算法。

Lin等人提出解决规则挖掘算法中的数据倾斜问题,从而使算法具有较好的均衡性。Park等人提出把哈希表结构用于关联规则挖掘。2003-11-145高等教育出版社关联规则新进展在基于一维布尔型关联规则的算法研究中先后出现关联规则新进展(续)数据挖掘工作是在海量数据库上进行的,数据库的规模对规则的挖掘时间有很大影响。Agrawal首先提出事务缩减技术,Han和Park等人也分别在减小数据规模上做了一些工作。

抽样的方法是由Toivonen提出的。

Brin等人采用动态项集计数方法求解频繁项集。

Aggarwal提出用图论和格的理论求解频繁项集的方法。Prutax算法就是用格遍历的办法求解频繁项集。

2003-11-146高等教育出版社关联规则新进展(续)数据挖掘工作是在海量数据库上进行的,数据关联规则新进展(续)关联规则模型有很多扩展,如顺序模型挖掘,在顺序时间段上进行挖掘等。还有挖掘空间关联规则,挖掘周期性关联规则,挖掘负关联规则,挖掘交易内部关联规则等。Guralnik提出顺序时间段问题的形式描述语言,以便描述用户感兴趣的时间段,并且构建了有效的数据结构SP树(顺序模式树)和自底向上的数据挖掘算法。最大模式挖掘是Bayardo等人提出来的。

2003-11-147高等教育出版社关联规则新进展(续)关联规则模型有很多扩展,如顺序模型挖掘,关联规则新进展(续)随后人们开始探讨频率接近项集。Pei给出了一种有效的数据挖掘算法。

B.Özden等人的周期性关联规则是针对具有时间属性的事务数据库,发现在规律性的时间间隔中满足最小支持度和信任度的规则。

贝尔实验室的S.Ramaswamy等人进一步发展了周期性关联规则,提出挖掘符合日历的关联规则(CalendricAssociationRules)算法,用以进行市场货篮分析。

Fang等人给出冰山查询数据挖掘算法。

2003-11-148高等教育出版社关联规则新进展(续)随后人们开始探讨频率接近项集。Pei给出关联规则新进展(续)T.Hannu等人把负边界引入规则发现算法中,每次挖掘不仅保存频繁项集,而且同时保存负边界,达到下次挖掘时减少扫描次数的目的。

Srikant等人通过研究关联规则的上下文,提出规则兴趣度尺度用以剔除冗余规则。

Zakia还用项集聚类技术求解最大的近似潜在频繁项集,然后用格迁移思想生成每个聚类中的频繁项集。

CAR,也叫分类关联规则,是Lin等人提出的一种新的分类方法,是分类技术与关联规则思想相结合的产物,并给出解决方案和算法。

2003-11-149高等教育出版社关联规则新进展(续)T.Hannu等人把负边界引入规则发现算关联规则新进展(续)Cheung等人提出关联规则的增量算法。Thomas等人把负边界的概念引入其中,进一步发展了增量算法。如,基于Apriori框架的并行和分布式数据挖掘算法。Oates等人将MSDD算法改造为分布式算法。还有其他的并行算法,如利用垂直数据库探求项集聚类等。

2003-11-150高等教育出版社关联规则新进展(续)Cheung等人提出关联规则的增量算法。第六章:关联规则6.1引言6.2关联规则基本模型6.3多级关联规则与多维关联规则6.4关联规则价值衡量与发展本章小结2003-11-151高等教育出版社第六章:关联规则6.1引言2003-11-151高等教育本章小结本章介绍了关联规则的基本模型和经典算法Apriori算法,在此基础上介绍了一种改进的关联规则发现算法LIG。这些算法是建立在候选集的基础上的。随后,介绍了一种不用候选集的算法――FP算法。并介绍了多维和多级关联规则的挖掘方法。

本章的最后讨论了关联规则的评价问题,并简单地介绍了一些研究关联规则的新方向。

2003-11-152高等教育出版社本章小结本章介绍了关联规则的基本模型和经典算法Apriori第六章:关联规则6.1引言6.2关联规则基本模型6.3多级关联规则与多维关联规则6.4关联规则价值衡量与发展本章小结2003-11-153高等教育出版社第六章:关联规则6.1引言2003-11-11高等教育出第六章:关联规则6.1引言6.2关联规则基本模型6.3多级关联规则与多维关联规则6.4关联规则价值衡量与发展本章小结2003-11-154高等教育出版社第六章:关联规则6.1引言2003-11-12高等教育出关联规则简介关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。典型的关联规则发现问题是对超市中的货篮数据(MarketBasket)进行分析。通过发现顾客放入货篮中的不同商品之间的关系来分析顾客的购买习惯。2003-11-155高等教育出版社关联规则简介关联规则反映一个事物与其他事物之间的相互依存性和第六章:关联规则6.1引言6.2关联规则基本模型6.3多级关联规则与多维关联规则6.4关联规则价值衡量与发展本章小结2003-11-156高等教育出版社第六章:关联规则6.1引言2003-11-14高等教育出关联规则基本模型IBM公司Almaden研究中心的R.Agrawal首先提出关联规则模型,并给出求解算法AIS。随后又出现了SETM和Apriori等算法。其中,Apriori是关联规则模型中的经典算法。2003-11-157高等教育出版社关联规则基本模型IBM公司Almaden研究中心的R.Ag关联规则基本模型(续)设I={i1,i2,…,im}为所有项目的集合,D为事务数据库,事务T是一个项目子集(TI)。每一个事务具有唯一的事务标识TID。设A是一个由项目构成的集合,称为项集。事务T包含项集A,当且仅当AT。如果项集A中包含k个项目,则称其为k项集。项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(或大项集)。2003-11-158高等教育出版社关联规则基本模型(续)设I={i1,i2,…,im}为所关联规则基本模型(续)关联规则是形如XY的逻辑蕴含式,其中XI,YI,且XY=。如果事务数据库D中有s%的事务包含XY,则称关联规则XY的支持度为s%,实际上,支持度是一个概率值。若项集X的支持度记为support(X),规则的信任度为support(XY)/support(X)。这是一个条件概率P(Y|X)。也就是:

support(XY)=P(XY)confidence(XY)=P(Y|X)2003-11-159高等教育出版社关联规则基本模型(续)关联规则是形如XY的逻辑蕴含式,其中关联规则基本模型(续)关联规则就是支持度和信任度分别满足用户给定阈值的规则。

发现关联规则需要经历如下两个步骤:

找出所有频繁项集。

由频繁项集生成满足最小信任度阈值的规则。

2003-11-160高等教育出版社关联规则基本模型(续)关联规则就是支持度和信任度分别满足用户Apriori算法的步骤Apriori算法命名源于算法使用了频繁项集性质的先验(Prior)知识。

Apriori算法将发现关联规则的过程分为两个步骤:通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;利用频繁项集构造出满足用户最小信任度的规则。挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。

2003-11-161高等教育出版社Apriori算法的步骤Apriori算法命名源于算法使用了频繁项集为了避免计算所有项集的支持度(实际上频繁项集只占很少一部分),Apriori算法引入潜在频繁项集的概念。若潜在频繁k项集的集合记为Ck,频繁k项集的集合记为Lk,m个项目构成的k项集的集合为

,则三者之间满足关系LkCk

。构成潜在频繁项集所遵循的原则是“频繁项集的子集必为频繁项集”。

2003-11-162高等教育出版社频繁项集为了避免计算所有项集的支持度(实际上频繁项集只占很少关联规则的性质:

性质6.1频繁项集的子集必为频繁项集。

性质6.2非频繁项集的超集一定是非频繁的。

Apriori算法运用性质6.1,通过已知的频繁项集构成长度更大的项集,并将其称为潜在频繁项集。潜在频繁k项集的集合Ck是指由有可能成为频繁k项集的项集组成的集合。以后只需计算潜在频繁项集的支持度,而不必计算所有不同项集的支持度,因此在一定程度上减少了计算量。

2003-11-163高等教育出版社关联规则的性质:性质6.1频繁项集的子集必为频繁项集。Apriori算法(1)L1={频繁1项集};(2)for(k=2;Lk-1;k++)dobegin(3)Ck=apriori_gen(Lk-1);//新的潜在频繁项集

(4)foralltransactions

tDdobegin(5)Ct=subset(Ck,t);//t中包含的潜在频繁项集

(6)forallcandidatescCtdo(7)c.count++;(8)end;(9)Lk={cCk|c.countminsup}(10)end;(11)Answer=2003-11-164高等教育出版社Apriori算法(1)L1={频繁1项集};2003-LIG算法基本定义及定理定义6.1设T是事务数据库中的一个事务,TD,称T中基本项的个数为事务T的规模,记为T。

定义6.2若d是一个项集,将d中元素的个数称为该项集的长度,记为d。

定理6.1在一个已知事务数量的数据集D中,规模小于A的事务不会影响计算D(A)。

定理6.2已知数据集D中的一个频繁k项集Ak(即,D(Ak)≥minsup),令数据集D’={ddDd≥m>k},若D’(Ak)<minsup,则对D中任意一个频繁m项集Am而言,一定有Ak

Am。

2003-11-165高等教育出版社LIG算法基本定义及定理定义6.1设T是事务数据库中的一LIG算法基本定义及定理定义6.3当k≤p<q时,sp为项集I在规模为p的事务中出现的次数;当p=q时,sp是项集I在规模不低于p的事务中出现的次数。这里元组(sk,sk+1,…,sq–1,sq)称为项集I的多段支持度。

定义6.4若项I能与区间[ip,iq],[ir,is],…,[iu,iv]中的频繁1项集构成潜在频繁2项集,而与任何区间外的项均不构成频繁2项集,则称这些区间为项I的相关区间。

2003-11-166高等教育出版社LIG算法基本定义及定理定义6.3当k≤p<q时,sp为LIG算法基本定义及定理定理6.3若频繁k项集itemi和itemj的多段支持度分别为(ik,ik+1,…,iq)和(jk,jk+1,…,jq),满足<minsup,并且∣itemiitemj∣=k–1,则不能由itemi和itemj构成Ck+1中的元素。

2003-11-167高等教育出版社LIG算法基本定义及定理定理6.3若频繁k项集itemiLargeItemsGeneration算法(1)foralltransactionstDdobegin(2)forallitemsctdobegin(3)

c.s++; //计算项的支持度(4)Calculatec.AREA; //计算相关区间的频度(5)end;(6)if(t>1)+=t;(7)end;(8)L1={large1-itemset}; //满足最小支持度(9)C2={{a,b}

a

L1andba.AREA}; //潜在频繁2项集2003-11-168高等教育出版社LargeItemsGeneration算法(1)forLIG算法(续)(10)M2={C2中相异元素}; //提取因子(11)k=2,q置初值;(12)dobegin(13)foralltransactionstdobegin(14)

Ct=subset(Ck,t);//t中包含的潜在频繁项集(15)

r=t;(16)if(r>q)thenr=q;(17)if(r==k)then-=t;//剔除长度为k的事务2003-11-169高等教育出版社LIG算法(续)(10)M2={C2中相异元素}; LIG算法(续)(18)elset=Mk;//剔除事务中无价值的项(19)forallCandidatescCtdo(20)

c.sr++;(21)end(22)

LCk=limit-gen(k,Ck);//生成Lk和LCk(23)

Ck+1=JOIN(LCk);/新的潜在频繁项集的集合(24)

Mk+1={Ck+1中相异元素};//提取因子(25)

k++;q++;(26)endwhile(LCk>1);(27)

L=2003-11-170高等教育出版社LIG算法(续)(18)elsetApriori算法与LIG算法数据规模比较表

2003-11-171高等教育出版社Apriori算法与LIG算法数据规模比较表2003-11FP算法ProcedureFP_growth(Tree,

α)(1)ifTree包含一个单一路径Pthen(2)foreach路径P中节点组合(记为β)(3)生成模式βα,拥有支持度为β节点中的最小支持度(4)elseforeach树的头列表节点ai{(5)生成模式β=aiβ且support=ai.support(6)构成β,的条件模式基和β的条件FP_treeTreeβ(7)ifTreeβthen(8)callFP_growth(Treeβ,β);}2003-11-172高等教育出版社FP算法ProcedureFP_growth(Tree,第六章:关联规则6.1引言6.2关联规则基本模型6.3多级关联规则与多维关联规则6.4关联规则价值衡量与发展本章小结2003-11-173高等教育出版社第六章:关联规则6.1引言2003-11-121高等教育多级关联规则

在很多应用中,由于多维数据空间上的数据稀少,在低层或原始抽象级别上很难发现数据项间的强关联(StrongAssociations)。Han等人对多级关联规则进行了深入研究,指出强关联在高层概念上可以描述通常意义的知识。多级关联规则可以在不同的抽象空间上描述多层抽象知识。

2003-11-174高等教育出版社多级关联规则在很多应用中,由于多维数据空间上的数据稀少,在多级关联规则在多个概念级别上生成的关联规则称为多级关联规则。

由于数据分布的分散性,很难在数据最细节的层次上发现一些强关联规则。当引入概念层次后,就可以在较高的层次上进行数据挖掘。

概念分层可以由系统用户、领域专家、知识工程师人工提供,也可以根据数据分布的统计特征自动产生。

根据规则中涉及到的层次,多级关联规则可以分为同级关联规则和级间关联规则。

2003-11-175高等教育出版社多级关联规则在多个概念级别上生成的关联规则称为多级关联规则。多级关联规则的挖掘多级关联规则的挖掘基本上可以沿用“支持度和信任度”的框架。挖掘多级关联规则时可采用自上而下,深度优先的方法,由较抽象的概念层开始向下,到较低的具体概念层(如原始概念层),对每个概念层的频繁项集累加计数,直到再也找不到频繁项集为止。Apriori算法及其变种算法均可以应用到每一级频繁项集的发现上。从模型上讲可以分成两类:所有级别采用统一的最小支持度阈值;低级别上采用较小的最小支持度阈值。

2003-11-176高等教育出版社多级关联规则的挖掘多级关联规则的挖掘基本上可以沿用“支持度和规则的冗余性概念分层允许在不同抽象层上发现知识,所以多级关联规则在数据挖掘中能发挥较大的作用。但由于“祖先”关系的原因,有些规则可能是冗余的。

如果同时挖掘到这两条规则且后者不能提供更新的信息,就把这个规则剔除。设规则R1是规则R2的祖先,如果通过修改R2的前件使之提升到上一级概念抽象后,能够得到规则R1,则规则R2就是冗余的,可以从规则集中把R2删去。

2003-11-177高等教育出版社规则的冗余性概念分层允许在不同抽象层上发现知识,所以多级关联多维关联规则

在多维数据库中,将每个不同的谓词层称作维。

称规则购买(X,“牛奶”)

购买(X,“面包”)为单维或者维内关联规则,这些规则一般都是在交易数据库中挖掘出的。

对多维数据库而言,还有一类多维的关联规则。多维关联规则是涉及两个或多个属性或谓词的规则,例如:

年龄(X,“20...30”)职业(X,“学生”)

购买(X,“笔记本电脑”)2003-11-178高等教育出版社多维关联规则在多维数据库中,将每个不同的谓词层称作维。2多维关联规则的分类如果在规则的每一维上使用不同的断言,就把包含两个或两个以上断言的关联规则称为多维关联规则。如果规则中的断言不重复,就称这样的规则为维间关联规则(InterdimensionAssociationrule);如果规则中的断言可以重复,就称之为混合维关联规则(Hybrid-dimensionAssociationRule)。

2003-11-179高等教育出版社多维关联规则的分类如果在规则的每一维上使用不同的断言,就把包数量属性的处理方法

数据库属性分为定性和定量两种。定性的属性有有限个可能取值;定量的属性不能给出确切范围的数量值。数量属性的处理方法分为三种:把数量值划分为若干个离散区间,用区间值描述数量属性,这样就可以把定量的问题转化为定性的问题。也就是通过数量属性静态离散化挖掘多维关联规则。对离散数据而言,为适应数据挖掘需要,离散化进程可以是动态的,这样的关联规则称为数量相关规则。如果在离散化时考虑数据点间的距离,就将这样的数量关联规则称为基于距离的关联规则。

2003-11-180高等教育出版社数量属性的处理方法数据库属性分为定性和定量两种。定性的属性用数量属性静态离散化挖掘多维关联规则

在这种情况下,数量属性依据事先定义的概念层次进行离散化,数量值由范围取代。

数据立方体非常适合于挖掘多维关联规则,因为它包含描述多维数据结构的立方体格,有利于数据聚集和信息分组。

多维数据挖掘问题可以利用类似于Apriori的算法予以解决。在挖掘之前利用特定的概念分层对数量属性(量化属性)进行离散化。这里的离散化是静态的、预确定的。离散化的数值属性具有区间值,将每个区间看作一个类,就可以像定性属性那样处理。定性属性可以生成更高级别的概念。

2003-11-181高等教育出版社用数量属性静态离散化挖掘多维关联规则在这种情况下,数量属性数量关联规则

数量关联规则是多维的,往往需要对数量属性动态离散化,以满足某种挖掘标准需要。

所谓2-维量化规则是指左部有两个量化属性、右部有一个分类属性的量化规则,如AQUAN1AQUAN2ACAT。

2003-11-182高等教育出版社数量关联规则数量关联规则是多维的,往往需要对数量属性动态离数量关联规则(续)可以利用关联规则聚集系统ARCS(AssociationRuleClusteringSystem)来发现数据关联规则。ARCS包括分箱、查找频繁项集、聚集和优化。ARCS的核心在于将量化属性映射到2-D栅格上,然后搜索栅格形成数据点的聚类,从而产生关联规则。

具体步骤如下:分箱、生成频繁项集、聚类。2003-11-183高等教育出版社数量关联规则(续)可以利用关联规则聚集系统ARCS(Asso关联规则聚集系统ARCS2003-11-184高等教育出版社关联规则聚集系统ARCS2003-11-132高等教育出版基于距离的关联规则

数量关联规则先用分箱的方法将数量属性离散化,然后将结果区间聚合。由于分箱的方法未考虑数据点之间或区间之间的相对距离,因此不能体现区间数据的语义。

基于距离的关联规则挖掘紧扣区间数据的语义,同时允许数据值的临近,划分使得关联规则可以表达这种接近性。

2003-11-185高等教育出版社基于距离的关联规则数量关联规则先用分箱的方法将数量属性离散基于距离的关联规则基于距离的关联规则算法分两趟扫描。第一趟扫描使用聚类找出区间或簇;第二趟搜索频繁出现的簇组,得到基于距离的关联规则。

2003-11-186高等教育出版社基于距离的关联规则基于距离的关联规则算法分两趟扫描。2003第六章:关联规则6.1引言6.2关联规则基本模型6.3多级关联规则与多维关联规则6.4关联规则价值衡量与发展本章小结2003-11-187高等教育出版社第六章:关联规则6.1引言2003-11-135高等教育规则价值衡量

对关联规则的评价与价值衡量涉及两个层面:系统客观的层面和用户主观的层面。

2003-11-188高等教育出版社规则价值衡量对关联规则的评价与价值衡量涉及两个层面:系统客系统客观层面

使用“支持度和信任度”框架可能会产生一些不正确的规则。如果把支持度和信任度设得足够低,就可能得到矛盾的规则。如果把阈值设得过高,就可能得到不符合实际的规则。因此,只凭支持度和信任度阈值未必总能找出符合实际的规则。

2003-11-189高等教育出版社系统客观层面使用“支持度和信任度”框架可能会产生一些不正确系统客观层面(续)人们引入兴趣度概念,用来剔除不感兴趣的规则。一般一条规则的兴趣度是在基于统计独立性假设下真正的强度与期望的强度之比,然而在应用中发现,只要把支持度作为产生项集的主要决定因素,就要把支持度设得足够低以保证不丢失任何有意义的规则,或者冒丢失一些重要规则的风险。前者计算效率是个问题,而后者则有可能丢失有意义的规则。另一个度量值是“收集强度”(CollectiveStrength),使用“大于期望值”为条件来发现有意义的关联规则。项集的收集强度是[0,]区间上的一个数值,其中,0表示完备的否定相关性,

表示完备的正相关性。

2003-11-190高等教育出版社系统客观层面(续)人们引入兴趣度概念,用来剔除不感兴趣的规则用户主观层面

只有用户才能决定规则的有效性、可行性。所以,应该将用户的需求和系统更加紧密地结合起来。

可以采用基于约束(Consraint-based)的数据挖掘方法。具体约束的内容有:数据约束、限定数据挖掘的维和层次、规则约束。如果把某些约束条件与算法紧密结合,既能提高数据挖掘效率,又能明确数据挖掘的目标。

2003-11-191高等教育出版社用户主观层面只有用户才能决定规则的有效性、可行性。所以,应基于约束的关联规则

基于约束的关联规则就是利用用户给出的各种约束关系,使挖掘出的规则更有效。这些约束包括:知识类型约束

数据约束

维数或层约束

兴趣度约束

规则约束

规则模板允许用户约束感兴趣的规则的语法形式,以便通过规则形式化约束提高数据挖掘效率。规则模板可以来自分析者的实验、期望或对数据的直觉。

2003-11-192高等教育出版社基于约束的关联规则基于约束的关联规则就是利用用户给出的各种对比度在支持度和信任度关联规则框架中,采用最小信任度阈值来判断一个规则是否有意义。最小信任度仅体现事物之间的表面关系,并不代表必然的因果关系,往往产生的规则中有许多是冗余无用的。

在规则挖掘中加入前件和后件重要度的比较限制,称为对比度。一个项集的重要度为所有组成元素重要度之和。

2003-11-193高等教育出版社对比度在支持度和信任度关联规则框架中,采用最小信任度阈值来判冗余规则定义6.5

若一个关联规则前件和后件的对比度的值大于某个指定的阈值,则称过于重要的前件推出非常次要的后件,该规则是冗余规则。

定义6.6若有两个或两个以上有相同后件的有意义关联规则,分别为:R1:Ai1,…,Aj1B,R2:Ai2,…,Aj2B,Rm,…,Rn,Rk:Aik,…,AjkB,信任度分别为:C1,C2,Cm,…,Cn,Ck,规定一个阈值

,若规则Rm的前件属于规则Rn的前件,即Rm·ARn·A,且∣Cm–Cn∣≤

,则称规则Rn是冗余规则。

2003-11-194高等教育出版社冗余规则定义6.5若一个关联规则前件和后件的对比度的值大冗余规则(续)定义6.7若有两个或两个以上有相同前件的有意义关联规则,分别为:R1:ABi1,…,Bj1,B2:ABi2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论