版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
会计学1第八关联规则关联规则是数据挖掘的主要技术之一,也是在无指导学习系统中挖掘本地模式的最普遍形式。本章除了重点介绍关联规则挖掘的Apriori技术外,还将讨论一些和Web挖掘、文本挖掘相关的数据挖掘方法。第1页/共28页8.1购物篮分析购物篮是顾客在一次事务中所购买项的集合,所谓事务是一个明确定义的商业行为。事务数据库研究的一个最普通的例子就是寻找项的集合,或叫做项集。包含i个项的项集被称为i-项集。包含该项集的事务的百分数叫做该项集的支持度。支持度超过指定阈值的项集叫做频繁项集。第2页/共28页基本概念:设I={i1,i2,…im}是项的集合,DB为事务集合,其中每个事务T是项的集合,且有。每一个事务有一个标识符,称作TID。设X为一个项集,当且仅当时,即T包含X。关联规则是形如的蕴涵式,其中,
,且。规则在事务集DB中成立,具有支持度s,其中s是DB中事务包含X和Y两者的百分比。规则在事务集DB中具有置信度c,如果DB中包含X的事务同时也包含Y的百分比是c。第3页/共28页支持度是概率。置信度是概率。置信度可以表示规则的可信性,支持度表示模式在规则中出现的频率。具有高置信度和强支持度的规则被称为强规则。挖掘关联规则的问题可以分两个阶段:
1.发掘大项集,也就是事务支持度s大于预先给定的最小阈值的项的集合。
2.使用大项集来产生数据库中置信度c大于预先给定的最小阈值的关联规则。Apriori算法是解决这个问题的常用方法。第4页/共28页8.2APRIORI算法Apriori算法利用几次迭代来计算数据库中的频繁项集。第i次迭代计算出所有频繁i项集(包含i个元素的项集)。每一次迭代有两个步骤:产生候选集;计算和选择候选集。在第一次迭代中,产生的候选集包含所有1-项集,并计算其支持度s,s大于阈值的1-项集被选为频繁1-项集。第二次迭代时,Apriori算法首先去除非频繁1-项集,在频繁1-项集的基础上进行产生频繁2-项集。原理是:如果一个项集是频繁,那么它的所有子集也是频繁的。第5页/共28页例如,以表8-1中的数据为例。假设smin=50%。第6页/共28页在第一次迭代的第一步中,所有单项集都作为候选集,产生一个候选集列表。在下一步中,计算每一项的支持度,然后在smin的基础上选择频繁项集。图8-1中给出第一次迭代的结果。第7页/共28页在挖掘2-项集时,因为2-项集的任何子集都是频繁项集,所以Apriori算法使用L1*L1来产生候选集。*运算通常定义为:
Lk*Lk={X∪Y其中X,Y∈Lk,|X∩Y|=k+1}
注:|X∩Y|=k+1即X和Y合取容量为k+1当k=1时,因此,C2包含在第二次迭代中作为候选集由运算|L1|·|L1-1|/2所产生的2-项集。本例中为:4·3/2=6。用该列表来扫描DB,计算每一个候选集的s,并与smin比较2-项集L2。图8-2给出了所有这些步骤和第二次迭代的结果。第8页/共28页候选集C3
运用L2*L2来产生,运算结果得到{A,B,C},{A,C,E},{B,C,E},但只有{B,C,E}的所有子集是频繁项集,成为候选的3-项集。然后扫描DB,并且挖掘出频繁3-项集,见图8-3所示。第9页/共28页因为本例的L3无法产生候选的4-项集,所以算法停止迭代过程。第10页/共28页该算法不仅计算所有频繁集的s,也计算那些没有被删除的非频繁候选集的s。所有非频繁但被算法计算s的候选项集的集合被称为负边界。因此,如果项集非频繁的,但它的子集都是频繁的,那么它就在负边界之中。在本例中,负边界由项集{D},{A,B},{A,E}组成。负边界在一些Apriori的改进算法中更为重要,例如生成大项集或导出负关联规则时提高了有效性。第11页/共28页8.3从频繁项集得到关联规则第二阶段的工作是在第一阶段的基础上,来挖掘关联规则。如果规则为{x1,x2,x3}→x4,那么项集{x1,x2,x3,x4}和{x1,x2,x3}都必须是频繁的。然后,规则置信度c=P({x4}|{x1,x2,x3})=s(x1,x2,x3,x4)/s(x1,x2,x3)。
置信度c大于给定的阈值的规则就是强规则。第12页/共28页例如,检验表8-1DB中的关联规则{B,C}→{E}是否为强关联规则。由图8-2和图8-3可得支持度:
s(B,C)=2,s(B,C,E)=2
由支持度得置信度:c({B,C}→{E})=s(B,C,E)/s(B,C)=2/2=1(100%)
可见,无论阈值为多少,该规则都能通过,也就是说,如果事务包含B和C,那么它也将包含E。我们现在有目标是在DB频繁集中得到所有的强关联规则。第13页/共28页请注意:并不是所有的强关联规则都是有用的或者有意义的。例如,一个谷类早餐的零售商对5000名学生的调查的案例。数据表明:60%的学生打篮球,75%的学生吃这类早餐,40%的学生即打篮球吃这类早餐。假设支持度阈值s=0.4,置信度阈值c=60%。基于上面数据和假设我们可挖掘出强关联规则“(打篮球)→(吃早餐)”,因为其(打篮球)和(吃早餐)的支持度都大于支持度阈值,都是频繁项,而规则的置信度c=40%/60%=66.6%也大于置信度阈值。第14页/共28页然而,以上的关联规则很容易产生误解,因为吃早餐的比例为75%,大于66%。也就是说,打篮球与吃早餐实际上是负关联的。为了消除这种误导的规则,应该在关联规则A→B的置信度超过某个特定的度量标准时,定义它为有意义的。因此挖掘关联规则的正确方法是:
s(A,B)/s(A)-s(B)>d或者:
s(A,B)-s(A)·s(B)>k式中d或k是适当的常量。(计算上例)第15页/共28页8.4提高Apriori算法的效率因为挖掘频繁项集时所处理的数据量越来越大,所以很有必要提高算法的效率。Apriori算法扫描DB的次数完全依赖于最大的频繁项集中项的数量。为了解决这个问题,该算法作了一些改进。基于划分的Apriori算法只需要对DB进行两次扫描。DB被划分成若干个非重叠的分区,分区与内存相匹配。第16页/共28页在第一次扫描时,算法读取每一个分区,每个分区内计算局部频繁项集。在第二次扫描时,算法计算整个DB中所有局部频繁集的支持度。如果项集对于整个数据库来说是频繁的,那么它至少需要在一个分区中是频繁的。因此,第二次扫描完成计算所有潜在的频繁项集的超集。随着数据库大小的增加,取样成为数据挖掘的一个不可多得的有效途径,基于取样的算法需要以数据库进行两次扫描。第17页/共28页第一次扫描,从DB中选择一个样本,并且产生一个在整个DB中很可能为频繁的候选项集的集合。第二次扫描,算法计算这些项集的实际支持度和它们的负边界的支持度。如果在负边界中没有项集是频繁的,那么说明已挖掘出所有频繁项集。否则,负边界中的项集的一些超集可能就是频繁的,但它的支持度还没有计算出来。取样算法在随后的扫描时,会产生并计算所有这些潜在有频繁项集。第18页/共28页图8-4是实际应用的一个例子,该例揭示这样一个问题,事务数据库中的购买模式在最低层上不会显示任何规则,但在一些高的概念层可能会显示一些有意义的规则。第19页/共28页Apriori算法的一个扩展在DB项上涉及到is-a层次,它包含数据库结构中已经存在的多抽象层的信息。is-a层次定义哪些项是其他项的一般化或专门化。除了明确列出的项以外,事务还以分类的方式包含了它们的祖先,这样就可以发掘出高层次的关系。第20页/共28页8.5频繁模式增长方法(FP-增长方法)一个Apriori算法的可伸缩的问题。如果生成一个长度100的频繁模式,例如{a1,a2,…,a100},那么所产生的候选集的数量至少为:计算的复杂性成指数增长,这是影响一些新关联规则挖掘算法发展的一个主要因素。第21页/共28页频繁模式增长(FP-growth)方法是在大型数据中挖掘频繁项集的一个有效算法。算法进行中不存在产生候选集的繁琐过程,当DB很大时,FP-增长算法首先进行数据库投影,得到频繁集,然后通过构造一个压缩的数据库结构---FP-树再进行挖掘。第22页/共28页例如,表8-3给出DB,它的最小支持度阈值为3。第23页/共28页第一步,扫描T,得到频繁集的列表L:L={(f,4),(c,4),(a,3),(b,3),(m,3),(p,3)}
按支持度大小递减排列。第二步,创建树的根部(ROOT),第二次扫描T。对第一个事务的扫描得树的第一个分枝:{(f,1),(c,1),(a,1),(b,1),(m,1),(p,1)}。分枝中节点的计数(都是1)代表了树中该节点项所出现的次数,并按L中顺序排列。对第二个事务,与第一事务有相同项f,c,a,所有有同一个前缀(f,c,a),得到一个新的分枝{(f,2),(c,2),(a,2),(b,1),(m,1)},见图8-5a。第24页/共28页其他事务按同样的方式插入到FP-树中,图8-5b给出了最后的FP-树。第25页/共28页按照频繁项的表L,整个频繁项的集合被划分为几个没有重叠的子集:1)含有p的频繁项集;2)含有m但不含有p的频繁项集;3)含有b但不含有m,p的频繁项集;…;6)只含有f的大项集。1)有两个路径{(f,4),(c,3),(a,3),(m,2),(p,2)}和{(c,1),(b,1),(p,1)},根据阈值产生新的频繁项集(c,p)2)有两个路径{(f,4),(c,3),(a,3),(m,2)}和{(f,4),
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《安全感悟分享》课件
- 《职业适应与发展》课件
- 《生产安全事故应急》课件
- 2024教师发言稿(34篇)
- 艺术与人生和社会的关系
- 单位管理制度汇编大全【人事管理】
- 单位管理制度分享合集【人员管理篇】十篇
- 单位管理制度分享大合集【人员管理】十篇
- 单位管理制度范文大合集【员工管理篇】十篇
- 单位管理制度呈现大全【人员管理】
- 安全生产培训法律法规
- 广东省广州市2021-2022学年高二上学期期末五校联考生物试题
- 2024年领导干部任前廉政知识考试测试题库及答案
- 2023-2024学年浙江省宁波市镇海区四年级(上)期末数学试卷
- 舞蹈演出编导排练合同模板
- 融资合作法律意见
- 污水泵站运营维护管理方案
- 湖北省武汉市洪山区2023-2024学年六年级上学期语文期末试卷(含答案)
- 中医辨证-八纲辨证(中医学课件)
- 冠脉介入进修汇报
- 蒋诗萌小品《谁杀死了周日》台词完整版
评论
0/150
提交评论