




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、关联规则分析(association analysis) 1超市例子 例3.1 (Groceries.txt) 这是一个超市购物例子(Hahsler et al., 2006),数据中有9835笔交易,涉及169种商品。每个交易为一个顾客的购买记录,而每种商品是一个二分变量,比如,购买用1代表,未购买用0代表。通过对数据的初步计算,我们发现在单项计数中,全牛奶(whole milk)的频数最高,为2513(频率接近26%),而其次为:其它蔬菜(other vegetables)为1903,面包(rolls/buns)为1809,苏打(soda)为1715,酸奶(yogurt)为1372等等。超
2、过5%的顾客购买的商品频率显示在图3.1中。此外,还可以知道分别买不同数量商品的顾客人数,购买1至9种商品的人数展示在下表中:2library(arules)data(Groceries)summary(Groceries)itemFrequencyPlot(Groceries, support = 0.05, s = 0.8) #图3.1超过5%的顾客购买的商品名字和频率 34术语每一个观测称为一个事务或交易(transaction)每一个二分变量称为一个项目或项(item)事务数据集、项目集或项集(itemset)用X表示一个项目或者项目集,用Y表示与X没有交的另一个项目或
3、项目集,那么记号“X=Y”表示X和Y同时出现的一个规则(rule)在X=Y中,称X为前项(也称为条件项或左项,antecedent, left-hand-side or LHS of the rule),而称Y为后项(也称为结果项或右项,consequent,right-hand-side or RHS of the rule)。5信息 X=Y的支持度(support) X=Y的置信度(confidence) X=Y的提升(lift) 记s(Z)表示事务Z在包含N个事务的整个事务数据集中的频数,用A表示事务包含X的事件,而B表示事务包含Y的事件(X和Y没有交) ,则: 6library(aru
4、les)data(Groceries)summary(Groceries)itemFrequencyPlot(Groceries, support = 0.05, s = 0.8) #图3.1fsets 1.2)inspect(sort(x, by = support)1:5) #第三章表inspect(sort(x, by = confidence)1:5)#第三章表#inspect(sort(x, by = lift)1:5)789x=subset(rules, subset = lhs %in% whole milk &lift 1.2)inspect(sort(x, b
5、y = support)1:5) inspect(sort(x, by = confidence)1:5)#inspect(sort(x, by = lift)1:5)x=subset(rules, subset = lhs %ain% whole milk &lift 1.2)inspect(sort(x, by = support)1:5) inspect(sort(x, by = confidence)1:5)#inspect(sort(x, by = lift)1:5)x=subset(rules, subset = rhs %ain% whole milk &lift 1.2)ins
6、pect(sort(x, by = support)1:5) inspect(sort(x, by = confidence)1:5)#inspect(sort(x, by = lift)1:5)x=subset(rules, subset = lhs %pin% whole milk &lift 1.2)inspect(sort(x, by = support)1:5) inspect(sort(x, by = confidence)1:5)#inspect(sort(x, by = lift)1:5)x=subset(rules, subset = rhs %pin% whole milk
7、 &lift 1.2)inspect(sort(x, by = support)1:5) inspect(sort(x, by = confidence)1:5)#inspect(sort(x, by = lift)1:5)10111213library(arules);w=read.table(f:/xzwu/adbook/shopping.txt,header=TRUE,sep=t);a=w1:10;dim(a)1 786 10 names(a) 1 Ready.made Frozen.foods Alcohol Fresh.Vegetables Milk 6 Bakery.goods F
8、resh.meat Toiletries Snacks Tinned.goods a=as.matrix(a); trans2 - as(a, transactions); summary(trans2)#数据概况14#图示数据itemFrequencyPlot(trans2, support = 0.1, s = 0.8)15fsets 1.2)规则排序:inspect(sort(x, by = confidence)1:3)19连续变量(先变成分类变量)data(AdultUCI)#library(arules)attributes(AdultUCI)$class;attr
9、ibutes(AdultUCI)$names;dim(AdultUCI);AdultUCI1:2, 连续变量处理:删除AdultUCIfnlwgt - NULLAdultUCIeducation-num - NULL分级20连续变量#连续变量处理:#删除AdultUCIfnlwgt - NULLAdultUCIeducation-num - NULL#分级AdultUCIage - ordered(cut(AdultUCIage, c(15,25, 45, 65, 100), labels = c(Young, Middle-aged,Senior, Old)AdultUCIhours-per
10、-week - ordered(cut(AdultUCIhours-per-week, c(0, 25, 40, 60, 168), labels = c(Part-time, Full-time, Over-time, Workaholic)AdultUCIcapital-gain 0), Inf), labels = c(None, Low, High)AdultUCIcapital-loss 0), Inf), labels = c(none, low, high)Adult 1.2)inspect(sort(x, by = confidence)1:5)inspect(sort(x,
11、by = lift)1:5)21summary(Adult)itemFrequencyPlot(Adult, support = 0.5, s = 0.8)22rules = apriori(Adult, parameter = list(support = 0.01,confidence = 0.6)x=subset(rules, subset = rhs %in% income=large &lift 1.2)inspect(sort(x, by = confidence)1:5)inspect(sort(x, by = lift)1:5)23例3.2 (Adult.txt
12、)美国普查局政府网站的数据库的例子。原本有48842个观测及15个变量。这15个变量经过挑选并转换成115个二分变量。 #Adult.txt数据#library(arules)data(Adult)summary(Adult)rules - apriori(Adult, parameter = list(support = 0.01,confidence = 0.6)summary(rules)rulesIncomeSmall 1.2)rulesIncomeLarge 1.2)inspect(sort(rulesIncomeSmall, by = confidence)1:3)inspect(sort(rulesIncomeLarge, by = confidence)1:3)2425Shuttle数据(需要变成二分变量的数据)#shuttle数据#library(MASS);shuttle1:10,summary(shuttle)library(arules)w - as(shuttle, transactions); summary(w)rules
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高中英语写作及特殊句型三年都有用
- 2024-2025学年高中化学 第1章 第2节 第1课时 原子结构与元素周期表教学实录 新人教版选修3
- 2024年六年级品社下册《可怕的物种入侵》教学实录2 苏教版
- 建筑设计及可持续建筑作业指导书
- 税务筹划与申报手册
- 2023-2024学年电子工业版(内蒙古)小学信息技术五年级下册 第14课 综合实践活动-(教学设计)
- 2024年秋七年级地理上册 第三章 世界的居民 3.3《世界的语言与宗教》教学实录 (新版)湘教版
- DB3716-T 27-2023 乡镇级应急物资配备指南
- 2024年四年级英语上册 Unit 1 The Clothes We Wear Lesson 4 Shoes and Socks教学实录 冀教版(三起)
- 高效率办公技能培训教程
- 《薄冰英语语法详解》
- 专题01 名词的种类精讲课件初中英语语法课件
- 生态修复工程监理工作总结
- 【经典文献】《矛盾论》全文
- 武术传承与推广方案
- 存款保险条例培训
- 2024年宁夏回族自治区中考英语试题含解析
- JJF(京) 112-2023 电导率法总有机碳分析仪校准规范
- 公司组织架构图模板完整版可编辑 10
- 现代家政导论-课件 6.1.2认识家政职业道德
- Unit+6+the+admirable+Lesson+2+History+Makers+说课高中英语北师大版(2019)必修第二册+
评论
0/150
提交评论