基于Apriori算法的关联分析_第1页
基于Apriori算法的关联分析_第2页
基于Apriori算法的关联分析_第3页
基于Apriori算法的关联分析_第4页
基于Apriori算法的关联分析_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    基于apriori算法的关联分析    数据挖掘是一门科学,它可以一种从海量的数据中提取有价值的信息,本文主要以数据挖掘中关联分析模型为例,基于r软件利用apriori算法,对取自uci中的mushroom数据集进行分析,发现毒蘑菇的共同特征,利用这些特征可以避免吃到有毒的蘑菇。毒蘑菇 关联分析 apriori算法引言随着大数据时代的发展,数据挖掘在生活中的应用越来越广泛,其中数据挖掘中的关联分析是在大量的数据集中寻找一些内在的联系,比如通过查看哪些商品经常在一起购买,可以帮助商店了解用户的购买行为。这种从数据海洋中提取的信息可以用于商品定价、市

2、场促销、存活管理等环节,比如“啤酒和纸尿布”的故事,零售商场里的组合套装的捆绑销售,比如洗发水加沐浴露,泡面加火腿肠,牛奶加面包等等。从新闻网站点击流中挖掘新闻流行趋势,挖掘哪些新闻广泛被用户浏览到,搜索引擎推荐,在用户输入查询词时推荐同相关的查询词项。不管关联分析应用于什么领域,最终都是为了发现一些经常共同出现的特征集合,本文是介绍了关联分析的一些基本概念,apriori算法的核心思想,然后利用取自uci网站的mushroom数据集进行数据关联分析,最后发现毒蘑菇的共同特征,然后利用这些特征避免吃到有毒的蘑菇。文献综述2011年,jiawei han和micheline kamber写的著作

3、数据挖掘:概念与技术里第六章详细介绍了挖掘频繁模式、关联和相关性的基本概念和方法,该书给出了一个最经典的关联分析的案例即购物篮分析。刘玲,丁浩两人发表的论文上市公司财务报表粉饰识别(2010)一文将关联分析里apriori算法理论应用到了上市公司的财务分析领域。毒蘑菇的实证分析(1)数据来源与结构首先从网站https://ml/datasets/mushroom搜集到了关于肋型蘑菇的23种特征的数据集,每个特征包含一个标称数据集,如果想做关联分析,我们需要把这些标称值转化为一个集合,roberto bayardo对uci网站上蘑菇数据集进行了解析,转化后的

4、数据来自http:/fimi.ua.ac.be/data/mushroom.dat/.在数据集中中第一个特征代表蘑菇是否可食用,2代表有毒不可食用,1代表没毒可食用。第二个特征代表蘑菇伞的形状,有六种可能的值,分别用3-8的整数值来表示。(2)程序代码与结果在搜集到数据和了解数据的結构之后,开始基于r软件中apriori算法对数据集进行实证分析,以便发现毒蘑菇的公共特征。1.程序代码:install.packages("arules") #安装arules程序包library(arules) #加载arules程序包载入需要的程序包:matrix载入程序包:arulestr

5、ansactions=read.transactions(file=file.choose(),format='basket',sep=',')#使用arules包中的read.transactions()函数读取事务型数据集。summary(transactions)#使用summary()函数查看交易数据的概览信息itemfrequencyplot(transactions,type='absolute',topn=10)rules=apriori(data = transactions,parameter = list(support =

6、0.4,confidence = 0.8,minlen = 2)rulesinspect(rules1:4)summary(rules)inspect(sort(rules,by=list('support')1:8)inspect(sor4t(rules,by=list('lift')1:8)res= eclat(data =transactions,parameter = list(minlen = 2,maxlen = 3,support = 0.4,target = 'frequent itemsets'),control = list(

7、sort = -1)#然后使用eclat()函数获取经常伴随毒蘑菇一起出现的特征。resinspect(res)2.结果:使用apriori算法参数设置支持度为40%,可信度为50%,将产生1810条规则。> inspect(sort(rules,by=list('lift')1:4)#按提升度排序的前4条规则lhs rhs support confidence lift12 => 28 0.4194462 0.8098859 1.86517122,85 => 28 0.4194462 0.8098859 1.865171328 => 2 0.41944

8、62 0.9659864 1.865171428,85 => 2 0.4194462 0.9659864 1.865171然后使用eclat()函数获取经常伴随毒蘑菇一起出现的特征。> res= eclat(data =transactions,parameter = list(minlen = 2,maxlen = 3,support = 0.4,target = 'frequent itemsets'),control = list(sort = -1)eclat> resset of 282 itemsets> inspect(res)items

9、support tems support17 2,28,85 0.4194462 26 2,28 0.41944621212,63,85 0.4184615 1222,59,85 0.44800001232,59,86 0.4243692 1242,34,59 0.42436921252,59,90 0.4027077 1262,39,59 0.41550771272,39,85 0.4824615 1282,39,86 0.45883081292,34,39 0.4588308 1302,39,90 0.41747691312,85,90 0.4529231 1322,86,90 0.429

10、29231332,34,90 0.4292923 1342,34,85 0.49427691352,34,86 0.4942769 1362,85,86 0.49427691372,85 0.5179077 1382,86 0.49427691392,34 0.4942769 1402,90 0.45292311412,39 0.4824615 1422,59 0.44800001432,63 0.4184615可以看出表示有毒的蘑菇2经常和特征34,39,59,63,85,86,90一起出现,所以我们尤其是生物学家们需要观察蘑菇的特征以了解该蘑菇是否可食用,这里还需要说明的是有上述一种特征说明该蘑菇有毒不可以食用,但是如果沒有该特征也不定没有毒,只是很大可能性上是没有毒的。总结随着大数据时代的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论