商务智能实验8报告_第1页
商务智能实验8报告_第2页
商务智能实验8报告_第3页
商务智能实验8报告_第4页
商务智能实验8报告_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘与商务智能实验》实验报告实验题目:关联分析:关联规则姓名:王俊学号:201430850164指导教师: 张大斌实验时间: 2016.11.092016年11月12日实验8关联分析:关联规则一、 实验目的(1) 了解和熟悉SPSSModeler及其相关知识;(2) 掌握SPSSModeler工具建立Apriori关联规则的方法;(3) 学会运用SPSSModeler关联规则进行相关的内容分析。二、 实验内容本实验分析的是超市顾客个人信息和他们的一次购买商品数据,采用的是关联分析中的Apriori算法。本实验的数据来自文件名为BASKETS.txt的文件。数据的主要内容包括两个部分,第一部分是顾客的个人信息,主要变量有会员卡号(cardid)、消费金额(value)、支付方式(pmethod)、性别(sex)、是否业主(homeown)、年龄(age)、收入(income);第二部分是顾客的一次购买商品的信息,主要变量有果蔬(fruitveg)、鲜肉(freshmeat)、奶制品(dairy)、罐头蔬菜(cannedveg)、罐头肉(cannedmeat)、冷冻食品(frozenmeal)、啤酒(beer)、葡萄酒(wine)、软饮料(softdrink)、鱼(fish)、糖果(confectionery),均为二分类型变量,取值T表示购买,F表示未购买,是一种事实表的数据组织格式。本次试验分析的是的哪些商品最有可能购买。具体实验步骤如下:三、 实验步骤与结果步骤1创建Apriori算法数据流(1) 通过“可变文件”节点读入数据BASKETS.txt。(2) 选择建模卡片中的“Apriori”节点并将其简洁到数据中的恰当位置,点击鼠标,选择菜单中的编辑选项进行参数设置。步骤2设置具体参数(1)在“字段”下,选择“使用定制设置”选项。在“后项”和“前项”框中选择关联规则的后项和前项的变量,本例中分析连带销售商品,因此所有商品均被选入后项和前项。如图8-1(a)所示。

BASKETS.tKt五收藏夹(F)|•数据源BASKETS.tKt五收藏夹(F)|•数据源(U) •记录选项何|•字段选项(D) ▲图形(G)|•建模(M)I■输出(0)|■导出(E)I图8-1(a)(2)在“类型”下,制定当前前项最低条件支持度,默认值10%;最小规则置信度,默认值为80%;最大前项数,默认为5;勾选“仅包含标志变量的真值”,表示只显示项目出现的规则,而不显示项目不出现时的规则,这里关心的是商品的连带购买。如图8-1(b)所示。图8-1(b)3)在“专家”的选项下,选择模式“专家”选项,并选择评价关联规则的度量指标,这里选择默认选项“规则置信度”。如图8-2所示。

图8-2步骤3结果运行实验结果如图8-3所示。结果说明,如按第2条关联规则,购买啤酒和冷冻食品则会同时购买罐头蔬菜,样本中购买啤酒喝冷冻食品的样本为170;同样也说明购买啤和冷冻食品

的顾客有85.882%的可能购买罐头蔬菜,该规则的支持度为14.6%。本例中产生了三条关联规则:啤酒和罐头蔬菜f冷冻食品(S=14.6%,C=87.452%);啤酒和冷冻食品f罐头蔬菜(S=14.6%,C=85.882%);冷冻食品和罐头蔬菜f啤酒(S=14.6%,C=84.393%)。同时三条关联规则的提升度2895,2.834,2.88)都可以接受。因此,啤酒、罐头蔬菜、冷冻食品是最可能连带销售的商品。可以利用关联规则考察哪类和顾客符合哪条关联规律。如果顾客满足某条关联规则,则可以推断其有一定可能性同时购买某种商品,反之,则无法预测。步骤4考察关联规律(1)将Apriori节点中的模型计算的结果添加到数据流编辑区域的恰当位置。点击鼠标右键选择“编辑”选项,进行“选项”的设置。“最大预测数”中输入数值,默认为3.勾选“忽略不匹配篮项目”,表示样本应用规则时不能按照顺序完全匹配前项的所有项目时,允许采用非精度匹配。勾选“检查预测不在篮中”,表示样本应用关联规则时,给出的后项结果不应出现在前项。如图8-4所示。|II文件(E) 也生成◎|II文件(E) 也生成◎g预测的盘多数量:规则标惟:□允许重复预测回忽略不匹配的篮孑项目④检查篮子中不存在预测值o检查篮子中存在预测值o不检查篮孑中是否存在预测值h栏Hys-exJIJ3^--llp-D一少IFih栏Hys-exJIJ3^--llp-D一少IFisalplpD应用回重置®皇槻模型设置汇总注解辰I确定(0)—|丨取消(C)|图8-4通过“表”节点课观察具体的结果。$A、$AC、$A-Rule表示每个样本应用关联规则的推测结果、置信度和规则编号。例如在表中向编号16的顾客运用关联规则1,可以推测其有85.9%的可能性同时购买罐头蔬菜。当然,如果样本不

符合任何关联规则,也就是没有一条关联规则中出现的商品出现在顾客的购物清单中,则推断结果为系统缺失值$null$。实验结果如图8-5所示。图8-5实验最终图示如下:四、实验分析与扩展练习1.实验分析:请总结分析下面的问题:(1)如果需要关注的关联规则比较多,或者读者只是想关注特定情况下的规则如何使用该软件工具进行相关的过滤。答:先在导入文件时候选择筛选过滤选项,根据自己的需要选取需要的字段;然后在字段中进行相关的筛选和过滤也可以达到要求,如图所示:2)在相关的分析中,如何合理的使用GRI算法得到相应的结果。<Useparttl-Dneddata节点和模型的名字Ft®蠶了錦鑑®T最小的条件支持度丿护函0CUfflOlfl最小的可信度只信度大于上述两个的最小値时'该规则才成立Mnrflimar帕;eduMscpaur憎)M门muTiRj;d:cnfdgncei'%}Msirrun-ruTtorcfsnszedentE.M^irunrrurrb9rcrrjl9^:Mel□□Can〔ml指定规则的最大前提条件数(即antecedent里条件的个数).这是限制规则复杂程度的…种方法匸如呆规则过于复杂或君过于具体,或计算时间过心,可以尝试降低该项设置“保密在规则巢屮的搦则数,即结杲屮consequent的数th规则按照重密MlC±GRI算法计算山)递减的顺序祢列。规则巢朋含规则数可能会比指定的要少,特别是在使用严格的信赖准则或支持准则时。如呆选择了该颐疋右真值会山现在最终的规丽五、结论与讨论(重点)Apriori算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。关联规则的优缺点:(1)优点:它可以产生清晰有用的结果;它支持间接数据挖掘;可以处理变长的数据;它的计算的消耗量是可以预见的。(2)缺点:当问题变大时,计算量增长得厉害;难以决定正确的数据;容易忽略稀有的数据。整个Apriori算法的伪代码如下:当集合中项的个数大于0时:构建一个由k个项组成的候选项集的列表(k从1开始)计算候选项集的支持度,删除非频繁项集构建由k+1项组成的候选项集的列表程序代码如下:

defapriori6en(Lc:,k):re^List=:]lenLk=len(L<)foriinran^e(lenLk):for;in"日nge(i+ljlenLk):#前「21页相同时,将两个隼合台并7LI

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论