



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.."数据挖掘与商务智能实验"实验报告实验题目:关联分析:关联规那么:王俊学号:4指导教师:大斌实验时间:2016.11.092016年11月12日实验8关联分析:关联规那么实验目的了解和熟悉SPSSModeler及其相关知识;掌握SPSSModeler工具建立Apriori关联规那么的方法;学会运用SPSSModeler关联规那么进展相关的容分析。实验容本实验分析的是超市顾客个人信息和他们的一次购置商品数据,采用的是关联分析中的Apriori算法。本实验的数据来自文件名为BASKETS.txt的文件。数据的主要容包括两个局部,第一局部是顾客的个人信息,主要变量有会员卡号〔cardid〕、消费金额〔value〕、支付方式〔pmethod〕、性别〔sex〕、是否业主〔homeown〕、年龄〔age〕、收入〔ine〕;第二局部是顾客的一次购置商品的信息,主要变量有果蔬〔fruitveg〕、鲜肉〔freshmeat〕、奶制品〔dairy〕、罐头蔬菜〔cannedveg〕、罐头肉〔cannedmeat〕、冷冻食品〔frozenmeal〕、啤酒〔beer〕、葡萄酒〔wine〕、软饮料〔softdrink〕、鱼〔fish〕、糖果〔confectionery〕,均为二分类型变量,取值T表示购置,F表示未购置,是一种事实表的数据组织格式。本次试验分析的是的哪些商品最有可能购置。具体实验步骤如下:实验步骤与结果步骤1创立Apriori算法数据流〔1〕通过"可变文件〞节点读入数据BASKETS.txt。〔2〕选择建模卡片中的"Apriori〞节点并将其简洁到数据中的恰当位置,点击鼠标,选择菜单中的编辑选项进展参数设置。步骤2设置具体参数〔1〕在"字段〞下,选择"使用定制设置〞选项。在"后项〞和"前项〞框中选择关联规那么的后项和前项的变量,本例中分析连带销售商品,因此所有商品均被选入后项和前项。如图8-1〔a〕所示。图8-1〔a〕〔2〕在"类型〞下,制定当前前项最低条件支持度,默认值10%;最小规那么置信度,默认值为80%;最大前项数,默认为5;勾选"仅包含标志变量的真值〞,表示只显示工程出现的规那么,而不显示工程不出现时的规那么,这里关心的是商品的连带购置。如图8-1〔b〕所示。图8-1〔b〕〔3〕在"专家〞的选项下,选择模式"专家〞选项,并选择评价关联规那么的度量指标,这里选择默认选项"规那么置信度〞。如图8-2所示。图8-2步骤3结果运行实验结果如图8-3所示。结果说明,如按第2条关联规那么,购置啤酒和冷冻食品那么会同时购置罐头蔬菜,样本中购置啤酒喝冷冻食品的样本为170;同样也说明购置啤和冷冻食品的顾客有85.882%的可能购置罐头蔬菜,该规那么的支持度为14.6%。本例中产生了三条关联规那么:啤酒和罐头蔬菜→冷冻食品〔S=14.6%,C=87.452%〕;啤酒和冷冻食品→罐头蔬菜〔S=14.6%,C=85.882%〕;冷冻食品和罐头蔬菜→啤酒〔S=14.6%,C=84.393%〕。同时三条关联规那么的提升度〔2.895,2.834,2.88〕都可以承受。因此,啤酒、罐头蔬菜、冷冻食品是最可能连带销售的商品。可以利用关联规那么考察哪类和顾客符合哪条关联规律。如果顾客满足某条关联规那么,那么可以推断其有一定可能性同时购置某种商品,反之,那么无法预测。步骤4考察关联规律〔1〕将Apriori节点中的模型计算的结果添加到数据流编辑区域的恰当位置。〔2〕点击鼠标右键选择"编辑〞选项,进展"选项〞的设置。〔3〕"最大预测数〞中输入数值,默认为3.〔4〕勾选"忽略不匹配篮工程〞,表示样本应用规那么时不能按照顺序完全匹配前项的所有工程时,允许采用非精度匹配。勾选"检查预测不在篮中〞,表示样本应用关联规那么时,给出的后项结果不应出现在前项。如图8-4所示。图8-4通过"表〞节点课观察具体的结果。$A、$AC、$A-Rule表示每个样本应用关联规那么的推测结果、置信度和规那么编号。例如在表中向编号16的顾客运用关联规那么1,可以推测其有85.9%的可能性同时购置罐头蔬菜。当然,如果样本不符合任何关联规那么,也就是没有一条关联规那么中出现的商品出现在顾客的购物清单中,那么推断结果为系统缺失值$null$。实验结果如图8-5所示。图8-5实验最终图示如下:实验分析与扩展练习实验分析:请总结分析下面的问题:如果需要关注的关联规那么比拟多,或者读者只是想关注特定情况下的规那么,如何使用该软件工具进展相关的过滤。答:先在导入文件时候选择筛选过滤选项,根据自己的需要选取需要的字段;然后在字段中进展相关的筛选和过滤也可以到达要求,如下图:在相关的分析中,如何合理的使用GRI算法得到相应的结果。五、结论与讨论(重点)Apriori算法的根本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规那么,这些规那么必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规那么,产生只包含集合的项的所有规那么,其中每一条规那么的右部只有一项,这里采用的是中规那么的定义。一旦这些规那么被生成,那么只有那些大于用户给定的最小可信度的规那么才被留下来。为了生成所有频集,使用了递推的方法。关联规那么的优缺点:〔1〕优点:它可以产生清晰有用的结果;它支持间接数据挖掘;可以处理变长的数据;它的计算的消耗量是可以预见的。〔2〕缺点:当问题变大时,计算量增长得厉害;难以决定正确的数据;容易忽略稀有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年新疆皮山县普通外科学(副高)考试题含答案
- 新药检查管理办法
- 徐州电梯管理办法
- 政府广场管理办法
- 慈善托管管理办法
- 手机支付管理办法
- 才人培养管理办法
- 2024年四川省平昌县急诊医学(副高)考试题含答案
- 异地车辆管理办法
- 挂车制造管理办法
- 附属工程监理细则
- 部编版二年级下册语文看图写话《五感写作法》课件
- 高校学生公寓管理规范
- JJG 971-2019液位计
- GA 814-2009 警用约束带标准
- 工程建设项目人盯人、人盯项目工作责任书
- 山西省晋中市各县区乡镇行政村村庄村名居民村民委员会明细及行政区划代码
- 深层搅拌桩(试桩)施工记录
- 乳胶漆质量检验批验收记录
- 慢性心功能不全护理查房ppt
- 诗朗诵社团活动记录
评论
0/150
提交评论