数据挖掘关联规则分析报告_第1页
数据挖掘关联规则分析报告_第2页
数据挖掘关联规则分析报告_第3页
数据挖掘关联规则分析报告_第4页
数据挖掘关联规则分析报告_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、i 关联规则分析报告2009 年 7 月 8 日目录一 前言 . 1二 数据预处理 . 1三 前 7710 条真实数据分析 . 21 商品按小类分析 . 22 商品按中类分析 . 43 商品按大类分析 . 44 分析比较 . 5四 后 44904 条随机数据分析 . 51 商品按小类分析 . 52 商品按中类分析 . 73 商品按大类分析 . 84 分析比较 . 8五 52614 条混合数据分析. 81 商品按小类分析 . 82 商品按中类分析 . 11 3 商品按大类分析 . 11 4 分析比较 . 12 六 总结 . 121 一 前言使用关联规则挖掘算法分析购物清单时,会产生不止“啤酒尿布

2、”的单一关联规则,而将出现涉及多种商品的“纵横交错”的多条关联规则。针对这一实际问题,本文利用学生日常购物记录数据进行关联分析,通过概念分层从不同粒度上分析商品之间的关联性,从而找到商品之间的关联规则,实现优化超市货物摆放次序的目的。二 数据预处理1)在 sql server 2000 查询分析器里执行下面的sql语句declare sql varchar(8000) set sql = select zid ,xh select sql = sql + , max(case goodsid when + goodsid + then goodsid end) + n+ goodsid + f

3、rom (select distinct goodsid from rcxfjl) as a set sql = sql + into table_a from rcxfjl group by zid,xh exec(sql) 2)在 pb里将有购买记录的列改为” yes” for i=1 to dw_1.rowcount() for li_index=1 to long(dw_1.object.datawindow.column.count) if integer(dw_1.getitemstring(i,dw_1.describe(# + string(li_index) + .name)

4、0 then dw_1.setitem(i,dw_1.describe(# + string(li_index) + .name),yes) end if next next 3)将处理好的数据直接导出到excel中4)将 excel表中的空格替换成” ?” (在 weka 中?表示缺省值 ) 2 三 前 7710 条真实数据分析1 商品按小类分析1.1商品规范化中类商品再分小类对挖掘没有太大意义,故都将其看作一类;对于学生来说,家庭用品也没有太大意义,将其删除掉。数据预处理过程如下:统一商品名:表 1 统一商品商品类名原来编号处理后编号饮料02 020010001 罐头 八宝粥03001 0

5、30010001 冲调食品03002 030020001 奶粉03003 030030001 营养保健03004 030040001 冲泡包面粉04001 040010001 罐头食品04002 040020001 南北干货04004 040040001 冷藏 冷冻食品05001 050010001 冰制品05002 050020001 外购面包05003 050030001 个人清洁用品07002 070020001 头饰 首饰07003 070030001 纸类用品07004 070040001 书报10001 100010001 纸品10002 100020001 文具10003 100

6、030001 礼品10004 100040001 内衣11001 110010001 睡衣11002 110020001 鞋类11003 110030001 3 女装11004 110040001 男装11005 110050001 帽子11006 110060001 表 2 删除的商品商品类名编号处理方式烟酒02004 删除厨房调料04003 删除蔬菜06001 删除家禽类06003 删除肉类06004 删除家用清洁用品07001 删除百货 家居类08 删除百货 综合类12 删除minimum support: 0.04 ,minimum metric : 0.4 ,结果如下,best ru

7、les found: 1. n030010001=yes 127 = n020010001=yes 71 conf:(0.56) 2. n010010002=yes 148 = n020010001=yes 66 conf:(0.45) 3. n010010001=yes 180 = n020010001=yes 79 conf:(0.44) 4. n010010002=yes 148 = n010010001=yes 63 conf:(0.43) 5. n040010001=yes 233 = n020010001=yes 99 conf:(0.42) 注:n030010001:罐头 八宝粥

8、, 020010001:饮料, n010010002:小面包, n010010001:蛋糕, 040010001:冲泡包面粉从关联结果可知,买罐头八宝粥又买饮料关联性最强,其次是小面包、蛋糕、冲泡包面 粉。在日常生活购物中,我们买了罐头、面包后再买饮料或牛奶的概率极大,关联结果比较符合事实。1.2 商品筛选筛选出商品的购买次数25 的商品然后进行关联分析,结果如下4 minimum support: 0.035 , minimum metric : 0.3 ,结果如下,best rules found: 1. n010010005=yes 120 = n010010001=yes 53 con

9、f:(0.44) 2. n010010005=yes 120 = n010010002=yes 53 conf:(0.44) 3. n010010002=yes 148 = n010010001=yes 63 conf:(0.43) 4. n010010002=yes 148 = n010010005=yes 53 conf:(0.36) 5. n010010001=yes 180 = n010010002=yes 63 conf:(0.35) 注: n010010005:绿豆糕, n010010001:蛋糕, n010010002:小面包从关联结果可知,买绿豆糕又买蛋糕关联性最强,其次是小面

10、包,关联结果也比较符合事实。2 商品按中类分析由于总共才有1535 个事务,故将算法参数支持度和置信度设置较低,minimum support: 0.04 ,minimum metric : 0.2 。结果如下,best rules found: 1. n01002=yes 136 = n01001=yes 77 conf:(0.57) 2. n02002=yes 161 = n01001=yes 83 conf:(0.52) 3. n03001=yes 127 = n01001=yes 65 conf:(0.51) 4. n02001=yes 226 = n01001=yes 104 con

11、f:(0.46) 5. n04001=yes 233 = n01001=yes 85 conf:(0.36) 6. n01003=yes 176 = n01001=yes 62 conf:(0.35) 7. n02001=yes 226 = n04001=yes 67 conf:(0.3) 8. n04001=yes 233 = n02001=yes 67 conf:(0.29) 9. n01001=yes 494 = n02001=yes 104 conf:(0.21) 从结果可知,买糖果巧克力又买饼干糕点的概率最大,乳品饮料与饼干糕点、罐头八宝粥与饼干糕点、碳酸饮料与饼干糕点概率次之。3

12、商品按大类分析minimum support: 0.04 ,minimum metric : 0.4 ,结果如下,best rules found: 1. n02=yes n04=yes 103 = n01=yes 69 conf:(0.67) 5 2. n03=yes n02=yes 93 = n01=yes 61 conf:(0.66) 3. n01=yes n04=yes 106 = n02=yes 69 conf:(0.65) 4. n03=yes n01=yes 97 = n02=yes 61 conf:(0.63) 5. n02=yes 436 = n01=yes 238 conf

13、:(0.55) 6. n03=yes 197 = n01=yes 97 conf:(0.49) 7. n03=yes 197 = n02=yes 93 conf:(0.47) 从结果可知买食品酒饮类、食品粮油类与买食品休闲类关联性最大。注: n01 是“食品休闲类”, n02 是“食品酒饮类”, n03 是“食品冲调类”, n04是“食品粮油类”。4 分析比较从上面中类和大类分析可知,食品之间的关联性最大,其实这也是显而易见的,顾客买了罐头八宝粥后会买饼干糕点等食品,再买饮料的概率也很大,而实际中超市几乎都是这样安排商品的,大多食品都放在一起饮料放在旁边,这样方便顾客购买,增加销售。四 后 4

14、4904 条随机数据分析1 商品按小类分析1.1商品规范化统一商品名:表 3 统一商品商品类名原来编号处理后编号饮料02 020010001 罐头 八宝粥03001 030010001 冲调食品03002 030020001 奶粉03003 030030001 营养保健03004 030040001 冲泡包面粉04001 040010001 罐头食品04002 040020001 南北干货04004 040040001 6 冷藏 冷冻食品05001 050010001 冰制品05002 050020001 外购面包05003 050030001 个人清洁用品07002 070020001 头饰

15、 首饰07003 070030001 纸类用品07004 070040001 书报10001 100010001 纸品10002 100020001 文具10003 100030001 礼品10004 100040001 内衣11001 110010001 睡衣11002 110020001 鞋类11003 110030001 女装11004 110040001 男装11005 110050001 帽子11006 110060001 表 4 删除的商品商品类名编号处理方式烟酒02004 删除厨房调料04003 删除蔬菜06001 删除家禽类06003 删除肉类06004 删除家用清洁用品070

16、01 删除百货 家居类08 删除百货 综合类12 删除minimum support: 0.04 ,minimum metric : 0.3 ,结果如下,7 best rules found: 1. n030010001=yes 127 = n020010001=yes 71 conf:(0.56) 2. n010010002=yes 148 = n020010001=yes 66 conf:(0.45) 3. n010010001=yes 180 = n020010001=yes 79 conf:(0.44) 4. n010010002=yes 148 = n010010001=yes 63

17、 conf:(0.43) 5. n040010001=yes 233 = n020010001=yes 99 conf:(0.42) 6. n010010001=yes 180 = n010010002=yes 63 conf:(0.35) 注:n030010001:罐头 八宝粥, 020010001:饮料, n010010002:小面包, n010010001:蛋糕, 040010001:冲泡包面粉, n010010005 从关联结果可知,买罐头八宝粥又买饮料关联性最强,其次是小面包与饮料,至于得出这样的结果,原因可能是我选取后面的44904 条数据不完全都是随机生成的。1.2 商品筛选筛选

18、出商品的购买次数190 的商品然后进行关联分析,结果如下minimum support: 0.01 ,minimum metric : 0.1 ,结果如下,best rules found: 1. n040010003=yes 252 = n040010002=yes 59 conf:(0.23) 2. n010010002=yes 290 = n010010001=yes 65 conf:(0.22) 3. n040010002=yes 282 = n040010003=yes 59 conf:(0.21) 4. n010010001=yes 313 = n010010002=yes 65

19、conf:(0.21) 注: n040010003:热干面, n040010002:酱拌面,n010010001:蛋糕, n010010002:小面包从关联结果可知,买热干面又买酱拌面关联性最强,其次是小面包与蛋糕,但其支持度和置信度均较低。2 商品按中类分析minimum support: 0.15 ,minimum metric : 0.5,结果如下best rules found: 1. n10003=yes 1335 = n08006=yes 793 conf:(0.59) 2. n10006=yes 1260 = n08006=yes 744 conf:(0.59) 3. n0800

20、5=yes 1159 = n08006=yes 680 conf:(0.59) 8 4. n08003=yes 1163 = n08006=yes 682 conf:(0.59) 5. n02001=yes 1186 = n08006=yes 693 conf:(0.58) 6. n01002=yes 1281 = n08006=yes 747 conf:(0.58) 7. n07001=yes 1207 = n08006=yes 701 conf:(0.58) 8. n06002=yes 1288 = n08006=yes 747 conf:(0.58) 9. n01001=yes 1383

21、 = n08006=yes 787 conf:(0.57) 10. n07002=yes 2172 = n08006=yes 1231 conf:(0.57) 11. n01003=yes 2106 = n08006=yes 1189 conf:(0.56) 12. n01001=yes 1383 = n07002=yes 707 conf:(0.51) 从结果可知,工具(n08006)与其他商品关联性较强,但是仔细分析数据库中的数据会发现中类“工具”下包括的商品种类是最多的,用随机数生成数据时“工具“中类的商品会明显多于其他中类的商品,所以用中类划分随机数进行关联分析不科学。3 商品按大类分

22、析minimum support: 0.5 ,minimum metric : 0.8 ,结果如下best rules found: 1. n10=yes 3170 = n08=yes 2753 conf:(0.87) 2. n01=yes 3368 = n08=yes 2920 conf:(0.87) 3. n07=yes 3244 = n08=yes 2811 conf:(0.87) 4. n02=yes 2800 = n08=yes 2418 conf:(0.86) 从结果可知,用大类划分随机数进行关联分析也存在上述问题。4 分析比较从上面中类和大类分析可知,不管用大类还是用中类划分随机

23、数进行关联分析都会存在划分不平均的问题。而用处理后的小类商品分析得出买热干面又买酱拌面概率最大。五 52614 条混合数据分析1 商品按小类分析1.1商品规范化统一商品名:9 表 5 统一商品商品类名原来编号处理后编号饮料02 020010001 罐头 八宝粥03001 030010001 冲调食品03002 030020001 奶粉03003 030030001 营养保健03004 030040001 冲泡包面粉04001 040010001 罐头食品04002 040020001 南北干货04004 040040001 冷藏 冷冻食品05001 050010001 冰制品05002 050

24、020001 外购面包05003 050030001 个人清洁用品07002 070020001 头饰 首饰07003 070030001 纸类用品07004 070040001 书报10001 100010001 纸品10002 100020001 文具10003 100030001 礼品10004 100040001 内衣11001 110010001 睡衣11002 110020001 鞋类11003 110030001 女装11004 110040001 男装11005 110050001 帽子11006 110060001 表 6 删除的商品商品类名编号处理方式10 烟酒02004

25、删除厨房调料04003 删除蔬菜06001 删除家禽类06003 删除肉类06004 删除家用清洁用品07001 删除百货 家居类08 删除百货 综合类12 删除minimum support: 0.08 ,minimum metric : 0.5 ,结果如下,best rules found: 1. n070030002=yes 2267 = n020010001=yes 1272 conf:(0.56) 2. n100030001=yes 1407 = n020010001=yes 789 conf:(0.56) 3. n030020001=yes 1015 = n020010001=ye

26、s 565 conf:(0.56) 4. n040010001=yes 944 = n020010001=yes 522 conf:(0.55) 5. n070030003=yes 906 = n020010001=yes 489 conf:(0.54) 6. n030020001=yes 1015 = n070030002=yes 509 conf:(0.5) 注: n070030002:头绳, 020010001:饮料, n100030001:果冻, n030020001:蜂蜜,040010001:冲泡包面粉, n070030003:发卡从关联结果可知,买头绳又买饮料关联性最强,其次是果冻

27、、蜂蜜和冲泡包面粉,另一个有趣的是发卡果冻关联性较大。1.2 商品筛选筛选出商品的购买次数190 的商品然后进行关联分析,结果如下minimum support: 0.01 ,minimum metric : 0.2 ,结果如下,best rules found: 1. n040010003=yes 252 = n040010002=yes 59 conf:(0.23) 2. n010010002=yes 290 = n010010001=yes 65 conf:(0.22) 3. n040010002=yes 282 = n040010003=yes 59 conf:(0.21) 4. n0

28、10010001=yes 313 = n010010002=yes 65 conf:(0.21) 11 注: n040010003:热干面, n040010002:酱拌面,n010010001:蛋糕, n010010002:小面包从关联结果可知,买热干面又买酱拌面关联性最强,其次是小面包与蛋糕,但其支持度和置信度均较低。2 商品按中类分析minimum support: 0.1 ,minimum metric : 0.5 ,结果如下best rules found: 1. n10006=yes 1299 = n08006=yes 755 conf:(0.58) 2. n10003=yes 1407 = n08006=yes 815 conf:(0.58) 3. n08005=yes 1196 = n08006=yes 691 conf:(0.58) 4. n08003=yes 1223 = n08006=yes 703 conf:(0.57) 5. n04003=yes 1070 = n08006=yes 608 conf:(0.57) 6. n01003=yes n07002=y

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论