




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《Python数据挖掘实战》✩精品课件合集《Python数据挖掘实战》
第九章关联规则挖掘二、
Apriori算法
一、关联规则挖掘概述主要内容三、FP-growth算法四、Eclat算法一、关联规则挖掘概述
关联(Association)反映数据集(常使用事务数据集、交易数据集或关系数据集)的某个项目与其它项目之间相互依赖关系。如果两个或多个项目在数据集中频繁的同时出现,就认为它们之间存在相关性。
一、关联规则挖掘概述
关联(Association)反映数据集(常使用事务数据集、交易数据集或关系数据集)的某个项目与其它项目之间相互依赖关系。如果两个或多个项目在数据集中频繁的同时出现,就认为它们之间存在相关性。
关联规则挖掘(AssociationRulesMining)又称为“关联规则分析”或“关联挖掘”,是一种旨在从各种数据集中发现关于项目的频繁出现模式(frequentpattern)、相关关系或因果结构,并形成蕴含式的关联规则的技术。
在商品销售、医疗诊断、网站优化等领域具有广泛的应用。例如,“啤酒和尿布”的故事。一、关联规则挖掘概述
1.关联规则挖掘中的几个基本概念:事务数据(TransactionData)
与一次活动或事件(例如,顾客的一次超市购物行为、用户对网站的一次访问)相关的数据集合,它由项目(Items)集合与事务标识(TID)组成。
一、关联规则挖掘概述
一、关联规则挖掘概述
一、关联规则挖掘概述
一、关联规则挖掘概述
一、关联规则挖掘概述
一、关联规则挖掘概述
2.关联规则挖掘算法
关联规则挖掘的目标是找出满足最小支持度(min_sup)、最小置信度(min_confidence)以及提升度阈值的强关联规则。通常,关联规则挖掘分为两个步骤:
(1)产生所有的频繁项集:找出满足最小支持度阈值的频繁1项集、频繁2项集、频繁3项集…
(2)由频繁项集产生强关联规则:利用频繁项集产生满足最小置信度或者提升度要求的强关联规则。
二、Apriori算法
Apriori算法由学者Agrawal和R.Srikant在1994年提出,它通过连接和剪枝操作,采用自下而上的策略,从频繁1项集开始,逐层地搜索频繁项集,最后产生关联规则。Apriori算法的主要分为两个阶段:
(1)产生频繁项集;
(2)基于频繁项集产生强关联规则。
为了提高搜索频繁项集的效率,它使用了一种称为“先验原理”的重要性质。二、Apriori算法
1.先验原理
二、Apriori算法2.产生频繁项集
二、Apriori算法2.产生频繁项集
二、Apriori算法Apriori算法挖掘频繁项集的过程:二、Apriori算法
例子分析:Apriori算法挖掘频繁项集的过程。(min_sup=0.5)二、Apriori算法二、Apriori算法3.生成关联规则
二、Apriori算法3.生成关联规则
二、Apriori算法
二、Apriori算法
二、Apriori算法
二、Apriori算法被剪枝的规则二、Apriori算法4.基于Python的算法实现
第三方的mlxtend库的frequent_patterns模块提供了Apriori算法的Python实现。该库的安装命令为:pipinstallmlxtend
使用的主要的函数包括:1.apriori()函数:用于挖掘频繁项2.association_rules()函数:用于生成满足置信度要求的强关联规则二、Apriori算法apriori()函数要求输入的DataFrame对象的值必须为0/1或者True/False这样的二元数据。mlxtend库的preprocessing模块提供了TransactionEncoder()函数能轻松实现该编码过程。te=TransactionEncoder()item_array=te.fit(itemSetList).transform(itemSetList)
二、Apriori算法apriori()函数的基本语法:apriori(df,min_support=0.5,use_colnames=False)它的主要参数包括:二、Apriori算法association_rules()函数的基本语法:
association_rules(df,metric=‘confidence’,min_threshold=0.8)它的主要参数包括:二、Apriori算法Python实现:Apriori算法挖掘关联规则的过程。(min_sup=0.5,min_confidence=0.5,min_lift=1.0)三、FP-growth算法
FP-growth是美籍华人韩家炜2000年提出的一种基于树结构的关联规则挖掘算法。它首先构造频繁模式树(FP-tree),然后在FP-tree上遍历生成关联规则,在此过程中无需产生候选项集,只需要扫描事务数据集2次,大大提升了算法效率。FP-growth算法将事务数据集压缩存储在一棵FP-tree中,采用分而治之的策略,在树中快速挖掘频繁项集。该算法的步骤可以分为2个主要阶段:1.构建FP-tree2.挖掘FP-tree树和条件FP-tree获得频繁项集:三、FP-growth算法构建频繁模式树(FP-tree)(1)清洗和排序数据
首先,扫描事务数据集,找出频繁1项集,并按支持度降序排序。
然后,按序对事务数据集中的项目进行重排。三、FP-growth算法(2)利用排序后的事务数据集构造FP-tree首先,创建FP-tree的根节点,标记为{NULL}然后,第二次扫描事务数据集,逐条地把排序后的事务记录插入到FP-tree中。三、FP-growth算法(2)利用排序后的事务数据集构造FP-tree首先,创建FP-tree的根节点,标记为{NULL}然后,第二次扫描事务数据集,逐条地把排序后的事务记录插入到FP-tree中。最终的FP-tree树三、FP-growth算法(2)利用排序后的事务数据集构造FP-tree首先,创建FP-tree的根节点,标记为{NULL}然后,第二次扫描事务数据集,逐条地把排序后的事务记录插入到FP-tree中。三、FP-growth算法2.挖掘FP-tree树和条件FP-tree获得频繁项集基本步骤:(1).将FP-tree分割为若干个条件FP-tree(2).递归挖掘每棵条件FP-tree
三、FP-growth算法(1).将FP-tree分割为若干个条件FP-tree获得频繁1项集的条件模式基
对于已有的FP-tree树中所有的频繁1-项集;按照支持度计数的倒序,依次找出每一个频繁1-项集的条件模式基。
以每一个频繁1-项集作为后缀,从FP-tree上找出所有从叶子节点到根节点的路径,这些路径就构成了以该1-项集(为后缀)的条件模式基。
例如,频繁1-项集{A}的条件模式基如下:三、FP-growth算法获得条件FP-tree
显然,条件模式基表示了以某个频繁项集为后缀的事务数据集合,我们按照此前生成FP-tree的方法,使用该事务数据集构建以某个后缀项集的条件FP树。
例如,频繁1-项集{A}的条件FP-tree
其中,{B},{C}由于不满足最小支持度阈值而被删除。
这样,FP-tree树被分割为多个条件FP-tree。三、FP-growth算法(2)
递归挖掘每棵条件FP-tree
我们可以以深度优先的方式对于每一棵条件FP-tree生成它的更长后缀的条件模式基,继而递归地生成更长后缀的条件FP-tree。
例如,对于上图中项头表中的项目{C},我们可以从图上生成以{C,A}为后缀的条件模式基(在此例中为空集),并用它来绘制{C,A}为后缀的条件FP-tree。依此递归地生成条件FP-tree,直到树为空为止。
三、FP-growth算法
这样,在递归过程中的所有用来生成条件FP-tree(包括最后一层的空树)的后缀项集,就是我们要搜索的频繁项集。
对一棵FP-tree而言,由于采用了深度优先的方式,在其上挖掘出的频繁项集(后缀)是逐渐增长的,这也是算法名称中“growth(增长)”的由来。三、FP-growth算法3.基于Python的算法实现
第三方的mlxtend库的frequent_patterns模块提供了FP-growth算法的Python实现。其中,挖掘频繁
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校园教育资源共享合作合同(2篇)
- 《机器学习技术应用》课件-任务1-2 校园消费数据统计分析
- 2025商业地产租赁合同怎样写
- 数字经济模式对企业资源优化及效率影响之研究
- 浙江省台州市十校2024-2025学年高一下学期4月期中考试语文试题(含答案)
- 胶质母细胞瘤的临床护理
- 幼小衔接班英语教学设计
- 青岛版五年级数学下册第二单元“分数的基本性质”教学设计教学设计
- 2025液压旋挖钻机钻孔施工合同范本
- 2025年心理咨询师之心理咨询师基础知识考试题库
- JGJ107-2016钢筋机械连接技术规程
- 妇科医生进修汇报课件
- 动态分析与设计实验报告总结
- 2024年江苏省泰州市海陵区中考一模数学试卷
- 从汽车检测看低空飞行器检测发展趋势
- DB32T 4740-2024 耕地和林地损害程度鉴定规范
- 投标项目实施方案服务响应方案
- 五一节假日安全生产培训
- 中考英语二轮复习课件:中考解题技巧-读写综合
- 《铁路基本安全知识》课程标准
- 三年级下册口算练习1000道附答案
评论
0/150
提交评论