吴喜之R软件教程关联规则分析_第1页
吴喜之R软件教程关联规则分析_第2页
吴喜之R软件教程关联规则分析_第3页
吴喜之R软件教程关联规则分析_第4页
吴喜之R软件教程关联规则分析_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关联规则分析(association analysis) 1超市例子 例3.1 (Groceries.txt) 这是一个超市购物例子(Hahsler et al., 2006),数据中有9835笔交易,涉及169种商品。每个交易为一个顾客的购买记录,而每种商品是一个二分变量,比如,购买用1代表,未购买用0代表。通过对数据的初步计算,我们发现在单项计数中,全牛奶(whole milk)的频数最高,为2513(频率接近26%),而其次为:其它蔬菜(other vegetables)为1903,面包(rolls/buns)为1809,苏打(soda)为1715,酸奶(yogurt)为1372等等。超

2、过5%的顾客购买的商品频率显示在图3.1中。此外,还可以知道分别买不同数量商品的顾客人数,购买1至9种商品的人数展示在下表中:2library(arules)data(Groceries)summary(Groceries)itemFrequencyPlot(Groceries, support = 0.05, s = 0.8) #图3.1超过5%的顾客购买的商品名字和频率 34术语每一个观测称为一个事务或交易(transaction)每一个二分变量称为一个项目或项(item)事务数据集、项目集或项集(itemset)用X表示一个项目或者项目集,用Y表示与X没有交的另一个项目或

3、项目集,那么记号“X=Y”表示X和Y同时出现的一个规则(rule)在X=Y中,称X为前项(也称为条件项或左项,antecedent, left-hand-side or LHS of the rule),而称Y为后项(也称为结果项或右项,consequent,right-hand-side or RHS of the rule)。5信息 X=Y的支持度(support) X=Y的置信度(confidence) X=Y的提升(lift) 记s(Z)表示事务Z在包含N个事务的整个事务数据集中的频数,用A表示事务包含X的事件,而B表示事务包含Y的事件(X和Y没有交) ,则: 6library(aru

4、les)data(Groceries)summary(Groceries)itemFrequencyPlot(Groceries, support = 0.05, s = 0.8) #图3.1fsets 1.2)inspect(sort(x, by = support)1:5) #第三章表inspect(sort(x, by = confidence)1:5)#第三章表#inspect(sort(x, by = lift)1:5)789x=subset(rules, subset = lhs %in% whole milk &lift 1.2)inspect(sort(x, b

5、y = support)1:5) inspect(sort(x, by = confidence)1:5)#inspect(sort(x, by = lift)1:5)x=subset(rules, subset = lhs %ain% whole milk &lift 1.2)inspect(sort(x, by = support)1:5) inspect(sort(x, by = confidence)1:5)#inspect(sort(x, by = lift)1:5)x=subset(rules, subset = rhs %ain% whole milk &lift 1.2)ins

6、pect(sort(x, by = support)1:5) inspect(sort(x, by = confidence)1:5)#inspect(sort(x, by = lift)1:5)x=subset(rules, subset = lhs %pin% whole milk &lift 1.2)inspect(sort(x, by = support)1:5) inspect(sort(x, by = confidence)1:5)#inspect(sort(x, by = lift)1:5)x=subset(rules, subset = rhs %pin% whole milk

7、 &lift 1.2)inspect(sort(x, by = support)1:5) inspect(sort(x, by = confidence)1:5)#inspect(sort(x, by = lift)1:5)10111213library(arules);w=read.table(f:/xzwu/adbook/shopping.txt,header=TRUE,sep=t);a=w1:10;dim(a)1 786 10 names(a) 1 Ready.made Frozen.foods Alcohol Fresh.Vegetables Milk 6 Bakery.goods F

8、resh.meat Toiletries Snacks Tinned.goods a=as.matrix(a); trans2 - as(a, transactions); summary(trans2)#数据概况14#图示数据itemFrequencyPlot(trans2, support = 0.1, s = 0.8)15fsets 1.2)规则排序:inspect(sort(x, by = confidence)1:3)19连续变量(先变成分类变量)data(AdultUCI)#library(arules)attributes(AdultUCI)$class;attr

9、ibutes(AdultUCI)$names;dim(AdultUCI);AdultUCI1:2, 连续变量处理:删除AdultUCIfnlwgt - NULLAdultUCIeducation-num - NULL分级20连续变量#连续变量处理:#删除AdultUCIfnlwgt - NULLAdultUCIeducation-num - NULL#分级AdultUCIage - ordered(cut(AdultUCIage, c(15,25, 45, 65, 100), labels = c(Young, Middle-aged,Senior, Old)AdultUCIhours-per

10、-week - ordered(cut(AdultUCIhours-per-week, c(0, 25, 40, 60, 168), labels = c(Part-time, Full-time, Over-time, Workaholic)AdultUCIcapital-gain 0), Inf), labels = c(None, Low, High)AdultUCIcapital-loss 0), Inf), labels = c(none, low, high)Adult 1.2)inspect(sort(x, by = confidence)1:5)inspect(sort(x,

11、by = lift)1:5)21summary(Adult)itemFrequencyPlot(Adult, support = 0.5, s = 0.8)22rules = apriori(Adult, parameter = list(support = 0.01,confidence = 0.6)x=subset(rules, subset = rhs %in% income=large &lift 1.2)inspect(sort(x, by = confidence)1:5)inspect(sort(x, by = lift)1:5)23例3.2 (Adult.txt

12、)美国普查局政府网站的数据库的例子。原本有48842个观测及15个变量。这15个变量经过挑选并转换成115个二分变量。 #Adult.txt数据#library(arules)data(Adult)summary(Adult)rules - apriori(Adult, parameter = list(support = 0.01,confidence = 0.6)summary(rules)rulesIncomeSmall 1.2)rulesIncomeLarge 1.2)inspect(sort(rulesIncomeSmall, by = confidence)1:3)inspect(sort(rulesIncomeLarge, by = confidence)1:3)2425Shuttle数据(需要变成二分变量的数据)#shuttle数据#library(MASS);shuttle1:10,summary(shuttle)library(arules)w - as(shuttle, transactions); summary(w)rules

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论