人工智能创新实验教程 课件 第11章 Apriori算法_第1页
人工智能创新实验教程 课件 第11章 Apriori算法_第2页
人工智能创新实验教程 课件 第11章 Apriori算法_第3页
人工智能创新实验教程 课件 第11章 Apriori算法_第4页
人工智能创新实验教程 课件 第11章 Apriori算法_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

宁夏大学

第十一章Apriori算法Apriori算法www.islide.cc2目录

CONTENT01引言02算法概述03实验数据04算法实战05本章小结01引言

Apriori算法是用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,通过这些集合的模式有助于我们做一些决策。比如在常见的超市购物数据集,或者电商的网购数据集中,如果我们找到频繁出现的数据集合,那么对于超市,我们可以优化产品的摆放位置,对于电商,我们可以优化商品所在的仓库为止,达到节约成本,增加经济效益的目的。引言02算法概述1基本概念关联分析关联分析(associationanalysis)是一种在大规模数据集中寻找有趣关系的非监督学习算法。这种关系可以有两种形式:频繁项集或者关联规则。频繁项集(frequentitemsets)是经常出现在一块的物品的集合,关联规则(associationrules)暗示两种物品之间可能存在很强的关系。

频繁项集1基本概念关联规则

1基本概念

通常,频繁项集产生所需的计算开销远大于产生关联规则所需的计算开销。那有没有办法可以减少这种无用的计算呢?

我们可以通过下面这两种方法可以降低产生频繁项集的计算复杂度:

(1)减少候选项集的数目M。

(2)减少比较次数。替代将每个候选项集与每个事务相匹配,可以使用更高级的数据结构,或者存储候选项集或者压缩数据集,来减少比较次数。

这些策略将在Apriori算法基本思想中进行讨论。2

Apriori算法思想对于Apriori算法,我们使用支持度来作为我们判断频繁项集的标准。Apriori算法的目标是找到最大的K项频繁集。这里有两层意思,第一层意思是我们要找到符合支持度标准的频繁项集,但这样的频繁项集可能有很多。第二层意思就是我们要找到最大个数的频繁项集。比如我们找到符合支持度的频繁项集AB和ABE,那么我们会抛弃AB,只保留ABE,因为AB是2项频繁集,而ABE是3项频繁集。那么具体的Apriori算法是如何做到挖掘K项频繁项集的呢?

Apriori算法采用的是逐层搜索的迭代方法,先搜索出候选1项集及对应的支持度,剪枝去掉低于支持度的1项集,得到频繁1项集。然后对剩下的频繁1项集进行连接,得到候选的频繁2项集,筛选去掉低于支持度的候选频繁2项集,得到真正的频繁2项集,以此类推,迭代下去,直到无法找到频繁k+1项集为止,对应的频繁k项集的集合即为算法的输出结果。2

Apriori算法思想为了方便读者了解Apriori算法,这里以一个简单的例子,对该算法中的各个步骤进行解释分析,假定事物数据集如下所示:2

Apriori算法思想将所有的单个项作为候选集,通过扫描数据集中所有事务,生成一个候选1-项集C1;然后计算出每个候选集出现的次数,并根据预先设定的最小阈值(最小支持度为2,支持度50%)选择频繁1-项集L1。2

Apriori算法思想通过项集L1产生候选频繁2-项集L22

Apriori算法思想通过项集L2产生候选频繁3-项集L3因为L3无法产生候选4项集,所有终止迭代过程。在实际情况中,当数据较多时,一层层向上寻找,当无法继续构造时停止处理。2

Apriori算法思想根据产生的频繁项集生成关联规则,利用L3={B,C,D}产生关联规则,确定该频繁项集中的所有非空子集:2

Apriori算法思想根据各项子集产生关联规则,并计算各个表达式的可信度从上述过程中可以看出,支持度大,置信度则越高(如关联规则2与关联规则3),关联规则的实用机会就大,此关联规则就越重要;一些关联规则置信度很高,但支持度很低(如关联规则9,10,11),则此关联规则就不那么重要。03实验数据1准备数据数据集介绍购物篮分析时大型零售商用来发现商品之间关联的关键技术之一。它的工作原理是寻找在交易中经常一起出现的项目组合。本数据集有38765行来自杂货店的客户的采购订单,分别包括客户编号、购买日期以及产品清单。数据集下载

Kaggle是一个数据分析的竞赛平台,在该平台上可以寻找当前热门的比赛和可用的数据集。本实验数据集链接为:/heeraldedhia/groceries-dataset导入数据集2分析数据接下来,我们将探索以获取有关数据的理解。首先通过下面的代码可以看到数据集中38765个实例和3个属性以及前5行的数据2分析数据查看数据集摘要,并查看销量最高的10件商品3处理数据将数据集处理为只有商品数据的数据集,方便算法在该数据集上的应用我们现在已经准备好将处理后的数据集输入到Apriori算法中进行关联分析。04算法实战1算法构建整个Apriori算法的伪代码如下:接下来,我们通过伪代码的流程来完成完整的Apriori算法。1算法构建构建候选集通过for循环遍历整个数据集生成C1候选集通过频繁项集Lk-1创建Ck候选集,并通过遍历找出前n-1个元素相同的项生成下一候选项1算法构建构建频繁项集通过候选项ck生成lk,并将各频繁项的支持度保存到support_data字典中。生成所有频繁项集的主函数,k为最大频繁项的大小1算法构建生成关联规则根据频繁项集和支持度生成关联规则2训练测试数据3结果分析从运行结果中可以看出,设定最小可信度为0.8时,可信度<0.8的结果将会被舍弃,不会放入到结果数据中。05本章小结本章小节关联分析是用于发现大数据集中元素间关系的一个工具集,可以采用两种方式来量化这些关系。第一种方式是使用频繁项集,它会给出经常在一起的元素项。第二种方式是关联规则,每条关联规则意味着元素项之间的“如果·····那么”关系。

Apriori算法是关联规则最经典的方法,常用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合并找出这些集合的模式,这样有助于我们进行一些决策。该算法的优点在于使用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论