![关联规则数据挖掘_第1页](http://file4.renrendoc.com/view/4d957f446f49f727f83520e4775d4760/4d957f446f49f727f83520e4775d47601.gif)
![关联规则数据挖掘_第2页](http://file4.renrendoc.com/view/4d957f446f49f727f83520e4775d4760/4d957f446f49f727f83520e4775d47602.gif)
![关联规则数据挖掘_第3页](http://file4.renrendoc.com/view/4d957f446f49f727f83520e4775d4760/4d957f446f49f727f83520e4775d47603.gif)
![关联规则数据挖掘_第4页](http://file4.renrendoc.com/view/4d957f446f49f727f83520e4775d4760/4d957f446f49f727f83520e4775d47604.gif)
![关联规则数据挖掘_第5页](http://file4.renrendoc.com/view/4d957f446f49f727f83520e4775d4760/4d957f446f49f727f83520e4775d47605.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关联规则数据挖掘学习报告目录引言 2案例 2关联规则 3(一)关联规则定义(二)相关概念(三)关联规则分类数据 6(一)小型数据(二)大型数据应用软件 7(一WEKA(二IBMSPSSModeler数据挖掘 12总结 27一、引言数与网日展,天获信呈数级如这瀚据出需据尤要挖掘资勘采数知现一据一般是大数过搜藏信过据通计算依。类(Classification估(Estimation、预(Predictio相关性分组或关联规(Affinitygroupingorassociationrule)、聚类Clusterin)、复杂数据类型挖(Text,Web图形图像,视频,音频)。二、案例"酒"的。这在界对沃基:"个在"尿酒"背一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒产生这一现象的原因是美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。交。在这个案例中使用了数据挖掘中的关联规则分析关联分析是发现交易数据库中不同项之间的联系毫无疑问关联分析中发现的规则为超市带来了更多的收益。如果我们能在生活中对关联分析进行应用,一定可以解决更多的问题。数据关联是数据库中存在的一类重要的可被发现的知识若两个或多个变量因。中。。l于3的算对,近。三、关联规则(关定义关析简实分是在数的关联相从了物属出规式。关析量发之的相系联的一型购析过发放物的品之间系客买了商繁客买这种的以售营应括设商品、排于式划。(相念1.关则关则据简用是之相关。关则:XY;其中XI,YI,并且X∩Y=。X为决,Y为果联规映集X出现时集Y也会出。2.支(Suot)设X属据为数包含X的记事库中记录的总个数那么项目集X的支持度=/支持度表示项目集在事物集中出现的频率的是多少。3.置信度(Confidence)有关联规则XY其中XIYI并且X∩Y=那么XY的置信度为:Con(XY)=*100%=P(Y|X)。置信度是反映在事物X中出现事物Y的条件概率。4.强关联规则如果某条规则同时满足最小支持度和最小置信度则称为强关联规则。5.最小支持度、大项集和最小置信度从关联规则的定义可以看出任意两个数据项集都存在关联规则只是其支持度和置信度不同而已为了找出有意义的规则就需要规定最小支持度和最小置信度前者描述了关联规则中数据项集的最低重要程度,记为minsup后者规定了关联规则必须满足的最低可靠性记为,minconf。支持度大于最小支持度的数据项集称作大项集(LargeItemset)反之则称为弱项集(SmallIterns)。同时满足最小支持度、最小置信度的关联规则称为强关联规则。(三)关联规则分类1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的种类化的它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来对数值型字段进行处理将其进行动态的分割或者直接对原始的数据进行处理当然数值型关联规则中也可以包含种类变量。2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。在单层的关联规则中所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。单维关联规则是处理单个属性中的一些关系多维关联规则是处理各个属性之间的某些关系。(四)算法算法1)Apriori算法是一种使用频繁项集的先验知识从而生成关联规则的一种算法也是最有影响的关联规则挖掘算法。2)设(k选-集(k示(k等的-即-是-。3)i的-繁-为有-大该-的k事的有-有-念小根成-将-删候-到-。4)i下①度s度c。②i集。③在i被选-繁-选-集的-。④选-繁-这繁-选-。⑤该。法1对i,.n掘:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树FP-tre),同时依然保留其中的关联信息随后再将FP-tree分化成一些条件库每个库和一个长度为1的频集相关然后再对这些条件库分别进行挖掘当原始数据量很大的时候也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性同时在效率上较之Apriori算法有巨大的提高。2)FP-树频集算法的步骤步骤如下①遍历一次数据库到处频繁项(1项集的集合和支持度计(频率,并且以降序排序,结果集或表记为L。②构造FP-tree。③根据第二步得到的FP-tree,为1项频繁项集中的每一项构造条件FP-tree。④得到频繁模式(频繁项集)。四、数据(一)小型数据这是我们得到的最原始的数据是国外某超市的购物篮数据共有约一千条。文件格式为txt格式,每一行代表一个顾客购物篮中的商品。(二)大型数据第二个大型数据也是国外某公司的超市购物篮数据,共有88162条数据。数据为txt格式第一行是对每列数据的一个编号从第二列开始是每个顾客超市购物篮中的东西每个数字代表一个商品因为数据过大所以整个数据是数据集的形式。五.应用软件(一)WEKA1.WEKA简介WEKA的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免费的,非商业化的,基于JAVA环境下开源的机器学习以及数据挖掘软件。它和它的源代码可在其官方网站下载。WEKA作为一个公开的数据挖掘工作平台集合了大量能承担数据挖掘任务的机器学习算法包括对数据进行预处理分类回归聚类关联规则以及在新的交互式界面上的可视化。存储数据的格式是ARFF(Attribute-RelationFileFormat)文件,这是一种ASCII文本文件。二维表格存储在如下的ARFF文件中。识别ARFF文件的重要依据是分行因此不能在这种文件里随意的断行空(或全是空格的行)将被忽略。WEKA的关联规则分析功能仅能用来作示范,不适合用来挖掘大型数据集。3.数据处理由于我们的源数据为TXT格式,无法应用于WEKA软件,所以我们需要将它转换为ARFF格式我们查阅有关资料以及有关网站找到了一个用Python转换格式的方法。TXT转为ARFF格式deftxt2arff(filename,value):withopen('./','w')asfp:('''@relationExceptionRelation@attributeIDstring@attributeThrownnumeric@attributeSetLogicFlagnumeric@attributeReturnnumeric@attributeLOCnumeric@attributeNumMethodnumeric@attributeEmptyBlocknumeric@attributeRecoverFlagnumeric@attributeOtherOperationnumeric@attributeclass-att{True,False}@data''')withopen(filename)asf:contents=()forcontentincontents:lines=('\t')lines=[()forlineinlines]iflines[9]=='1':lines[9]="True"('{'+str(value)+'}')else:lines[9]="False"('{1}')array=','.join(lines)("%s\n"%array)处理结果:小型数据大型数据(二)IBMSPSSModeler为了解决各种商务问题,企业需要以不同的方式来处理各种类型迥异的数据,相异的任务类型和数据类型就要求有不同的分析技术。Clementine为您提供最出色最广泛的数据挖掘技术确保您可用最恰当的分析技术来处理相应的问题从而得到最优的结果以应对随时出现的商业问题即便改进业务的机会被庞杂的数据表格所掩盖,Clementine也能最大限度地执行标准的数据挖掘流程,为您找到解决商业问题的最佳答案。其中看到其实Modeler也是SPSS公司收购回的前身即是Clementine09年整个SPSS被IBM收购后,就改名为IBMSPSSModeler了,今年Modeler已经发布18版本,更新要比以前多了不少,多了非常多的扩展功能(例如天气数据获取等等)Modeler是类的,。r界据分。MSr端/版行MSr到MSrr据。MSr,掘程:。.理Sr为v的A将t式为v。六.数据挖掘(一)WEKA算法——小数据1)默认数值car如果设为真,则会挖掘类关联规则而不是全局关联规则。classindex类属性索引。如果设置为-1,最后的属性被当做类属性。delta以为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。lowerBoundMinSupport最小支持度下界为。metricType类度)率)度)。在a度)程:) t:)1示A和B。大)明A和B象,关度.) e)0时A和B,e大A和B切) )(B示B发)n量A和B和t对B取入t大,A、B。cs
。为0。s。removeAllMissingCols移除全部为缺省值的列。significanceLevel重要程度。重要性测试(仅用于置信度)。upperBoundMinSupport最小支持度上界。从开始迭代减小最小支持度。verbose如果设置为真,则算法会以冗余模式运行。2)结果解释scheme-所选的关联规则挖掘方案:Apriori算法算法的参数设置:-I-N10-T0-C-D-U-M-S-c-1;各参数依次表示:I-输出项集,若设为false则该值缺省;N10-规则数为10;T0–度量单位选为置信度,(T1-提升度,T2杠杆率,T3确信度);C–度量的最小值为;D-递减迭代值为;U-最小支持度上界为;M-最小支持度下届设为;S-重要程度为;c-1-类索引为-1输出项集设为真(由于c,,e都值Fe,结为Te,为,)m:(0) ) e)0时A和B独,Le越大A和B切) )(!B表示B发)Cn也量A和B和t对B取入t大,A、B。c。numRules要发现的规则数为10。outputItemSets如果设置为真,会在结果中输出项集。removeAllMissingCols移除全部为缺省值的列。upperBoundMinSupport最小支持度上界。从开始迭代减小最小支持度。2)结果解释使用默认设置数值没有发现规则。3)修改数值修改lowerBoundMinSupport最小支持度下界为。4)结果解释仅发现两条规则。I48与I39有关联规则conf:<life:>lev:cosv:5)修改数值修改lowerBoundMinSupport最小支持度下界为。6)结果释发现8条规则7值改t最。)结释下)IMSr—据.操骤i算法读取值然后将测量全部修改为标记,角色全部改为任意。最小置信度为50%结分析:I8与I39有关则I41与I39有关则I9与I38有关则I48与I41有关则I2与I39有关则I48与I32有关则I8与I38有关则最为60%I8与I39有关则I41与I39有关则I9与I38有关则I48与I41有关则七结数据挖掘可以通过不同的工具来进行分析。通过使用WEKA和IBMSPSSModeler发现两个软件适用的情况有所不同。WEKA的关联规则Apriori分析仅能用来
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年茶树菇项目投资可行性研究分析报告
- 2025年度农业现代化项目间农业贷款合同范本(二零二五年度)
- 2025年度建筑工地安全防护设施采购合同
- 员工晋升申请书
- 2025年度城市安全防范系统建设借款保证金合同
- 中国硅烷交联电缆料行业市场发展监测及投资前景展望报告
- 2025年度承包土地入股合作协议示范文本参考4篇
- 孩子改姓氏申请书
- 2025年中国高级塑胶产品行业市场发展前景及发展趋势与投资战略研究报告
- 电商与物流行业未来发展趋势分析
- 传统运动疗法易筋经教案5
- GB/T 8014.1-2005铝及铝合金阳极氧化氧化膜厚度的测量方法第1部分:测量原则
- GB/T 3860-2009文献主题标引规则
- 股票基础知识(入市必读)-PPT
- 雅思阅读题型与技巧课件
- 招商银行房地产贷款压力测试
- 公文与公文写作课件
- 车削成形面和表面修饰加工课件
- 基于振动信号的齿轮故障诊断方法研究
- 义务教育物理课程标准(2022年版word版)
- 医疗器械分类目录2002版
评论
0/150
提交评论