实验二Clementine12购物篮分析_第1页
实验二Clementine12购物篮分析_第2页
实验二Clementine12购物篮分析_第3页
实验二Clementine12购物篮分析_第4页
实验二Clementine12购物篮分析_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实验二 Clementine12购物篮分析(关联规则)一、实验目的设计关联规则分析模型,通过模型演示如何对购物篮分析,并根据细分结果 对采取不同的营销策略。体验以数据驱动的模型计算给科学决策带来的先进性。二、知识要点1、购物蓝分析概念;2、管来呢规则算法原理;3、购物蓝分析工具;4、Clementine12.0关联规则分析流程。三、实验要求和内容1、初步了解使用工作流的方式构建分析模型;2、理解智能数据分析流程,主要是CRISP-DM工业标准流程;3、理解关联规则模型原理;4、设计关联规则分流;5、运行该流,并将结果可视化展示;6、得出模型分析结论7、运行结果进行相关营销策略设计。四、实验条件

2、Clementine12.0 挖掘软件。五、实验步骤1、启动 Clementine12.0 软件;2、在工作区设计管来呢规则挖掘流;3、执行模型,分析计算结果;4、撰写实验报告。六、思考与练习1、为什么要进行关联规则分析?它是如何支持客户营销的?实验内容与步骤一、前言“啤酒与尿布”的故事是营销届的神话,“啤酒”和“尿布”两个看上去没 有关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象就是卖 场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物 篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销 售过程中找到具有关联关系的商品,并以此获得销售收

3、益的增长!“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛 的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的 情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购 物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种 现象出现在年轻的父亲身上。在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市 购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现 啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果 这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而

4、到另 一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现 象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找 到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两 件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布” 故事的由来。当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者 Agrawal (个人翻译-艾格拉沃)提出通过分析购物篮中的商品集合,从而找出 商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。 艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法一Aprior算

5、 法。沃尔玛从上个世纪90年代尝试将Aprior算法引入到POS机数据分析中,并 获得了成功,于是产生了 “啤酒与尿布”的故事。“啤酒和尿布”的故事为什么产生于沃尔玛超市的卖场中?卖场中“啤酒与尿布”的现象比比皆是,为什么“啤酒与尿布”的故事只产 生在沃尔玛的卖场中,而不是其他零售门店?这里有两个原因。第一个是沃尔玛先进的计算机技术是“啤酒与尿布”故事产生的强大支持后 盾。零售业目前使用的很多新技术都是沃尔玛率先“尝鲜”的,比如沃尔玛最早 在门店尝试计算机记账,最早在门店收款台尝试使用外形丑陋俗称“牛眼”的条 码扫描器进行收款,世界上第一个发射私人通信卫星等等。“前人栽树,后人乘 凉”,目前运

6、用于门店管理的很多技术手段都是沃尔玛做了 “第一个吃螃蟹”的, 我们只不过坐享其成而已。由于沃尔玛具备先进的技术手段,“啤酒与尿布”的 故事在沃尔玛产生就一点也不奇怪了。第二个原因是沃尔玛拥有一双锐利的慧眼。沃尔玛是一家极其讲究卖场现场 管理的企业,沃尔玛创始人老沃尔顿最大的乐趣就是不停地在卖场巡视,更多地 运用自己的双眼而不是数据来发现事实。因此不能忽略的是,没有沃尔玛管理人 员的慧眼,“啤酒与尿布”的故事也会淹没在大量的零售数据中。营销界很多人对于“啤酒与尿布”的故事津津乐道,吹捧得如同发现新大陆 般! “啤酒与尿布”的故事就是商品交叉销售,这种销售现象几乎和人类历史一 样悠久,在古人披着

7、兽皮交换贝壳、粮食、石斧等商品时,他们已经清楚地了解 商品交叉销售对于商品交易的重要性,一些聪明的家伙会采取种种措施鼓励客户 多交换一些商品(估计是一袋贝壳加一条鱼换一袋大米)。“啤酒与尿布”的故事 只是对商品交叉销售现象的一种现代解释,并不是出现“啤酒与尿布”的故事之 后,才存在商品交叉销售的现象。从这个意义上讲,沃尔玛并没有发现新大陆, 只不过把我们视而不见的现象挖出来,并从中发现了商业价值。沃尔玛的创始人 老沃尔顿说,retail is detail (零售就是细节)。研究商品关联关系的方法就是购物篮分析,在购物篮分析方面有两个值得我 们学习的榜样,一个是美国的沃尔玛,另一个是日本的7-

8、11便利店。同样是购 物篮分析,沃尔玛强调找出商品之间的关联关系,比如啤酒与尿布,而7-11便 利店的重点在于找出影响商品销售的所有因素,比如碳酸饮料与气温的关系等 等。换句话说,沃尔玛重点是分析购物篮内商品之间的关联关系,而日本7-11 便利店的重点是从购物篮外面找影响商品销售的关联关系。美式购物篮分析以沃尔玛为代表的美食购物篮分析的目标一般是卖场面积巨大,通常都是上 万平方米,商品种类繁多,大多在10万种以上,所以要通过购物篮分析找出淹 没在不同区域商品之间的关联关系,并将这些关联关系用于商品关联陈列、促销 等具体工作中,是很难通过人工完成的。比如啤酒在酒类区域,尿布在婴儿用品 区域,两个

9、商品陈列区域相差几十米,甚至可能是“楼上、楼下”的陈列关系, 用肉眼很难发现啤酒与尿布存在关联关系的规律。我们把找出购物篮中商品之间关系的方法称为“美式购物篮”分析法,这种 方法适合应用于类似沃尔玛这样的大卖场,用于找出不同陈列区域商品之间的 关系。英国的Tesco连锁超市、Safeway连锁超市也都是这种购物篮分析的高手。 我们这个课程所主要研究的目标也是这种美食购物篮。日式购物篮分析日本这个国家很神奇,虽然身为岛国,但是经济发达。分析日式购物篮确实 能够看到日本人在经商方面的巧妙之处。日本的超市以7-11便利店为典型,7-11 便利店营业面积都很小,一般只有100250平方米,商品品种30

10、0010000种, 是典型的“螺蛳壳里做道场”。如我们在电影或者泡沫剧里面所见,日本很多门店的经营面积狭小,站在门 店里任何一个角落,所有的商品转个身就全看见了一一真正的抬头不见低头见, 所以找出商品关联关系不是日本7-11便利店的重点:你就是找出来啤酒与尿布 之间有“暗恋”关系,也没用!因为啤酒与尿布本来就在一起。当然日本7-11便利店这类相关陈列的故事也是有的,比如养麦冷面与纳豆、 鱼肉香肠与面包、酸奶与盒饭等等,但是毕竟起不到主要作用,日本7-11便利 店更关注的是:气温由28笆上升到30笆,对碳酸类饮料、凉面的销售量会有什么影响?下雨的时候,关东煮的销售量会有什么变化?盒饭加酸奶、盒饭

11、加罐装啤酒都是针对什么样的客户群体?他们什么时 间到门店买这些商品?所以,日本人的重点是分析所有影响商品销售的关联因素,比如天气、温度、 时间、事件、客户群体等,这些因素我们称为商品相关性因素。日本人对于所有影响商品销售的关联因素研究得非常透彻,因此日本就会有 气温-碳酸饮料指数、空调指数、冰激凌指数,因此就不难理解为什么7-11便利 店会设置专门的气象部门,因此更能够理解为什么日本7-11便利店会要求门店 每天5次将门店内外的温度、湿度上传回总部,供总部与商品销售进行对比分析。与商品之间的关联关系相比,日本7-11便利店认为这些关联因素更重要。 由于这是日本7-11便利店大量采取的方式,我们

12、也称为“日式购物篮”分析法。“啤酒和尿布”故事包含什么样的含义?沃尔玛的“啤酒与尿布”的故事实际上向我们揭示了零售业未来的获利及生 存模式。他凸显了零售卖场中一个全新的管理理念,即商品之间是具有关联关系 的,发现并利用这些商品之间的关联关系,可以在无法大幅增加门店客户数的前 提下,通过增加购物篮中的商品数量达到增加销售额的目的,从而获得更大的经 营收益。启示一:购物篮大于商品有在零售业工作经验的朋友都知道,老板考核大家的主要指标是商品销售 额,你的工资袋取决于商品的销售额。老板会将商品销售指标下发到个人,每个 人都只会关注自己的“一亩三分地”,卖啤酒的只管闷头卖啤酒,卖尿布的只管 闷头卖尿布,

13、每个柜台只管自己的商品是否能进入客户手中的购物篮。卖啤酒的 不关心、购物篮中的尿布,卖尿布的也漠视购物篮中的啤酒,只要别漏了自己柜台 的东西就行了,因为漏了自己的商品,这个月的奖金就没了,人人只扫门前雪, 长此以往商店的整体效益当然不会好了,效益不好就要裁员,大家都没好果子吃。 反观沃尔玛的卖场管理体系中,购物篮是主要的管理对象,而不仅仅是商品。为什么沃尔玛会以购物篮为管理重点?沃尔玛认为商品销售量的冲刺只是 短期行为,而零售企业的生命力取决于购物篮。一个小小的购物篮体现了客户的 真实消费需求和购物行为,每一只购物篮里都蕴藏着太多的客户信息。零售业的 宗旨是服务客户,沃尔玛认为商店的管理核心应

14、该是以购物篮为中心的顾客经营 模式,商品排名只能体现商品自身的表现,而购物篮可以体现客户的购买行为及 消费需求,关注购物篮可以使门店随时掌握客户的消费动向,从而使门店始终与 客户保持一致。启示二:购物篮方面的差距购物篮的表现形式就是我们常说的“客单价”,客单价的高低直接反映了零 售企业的经营效益。根据AC 尼尔森2006年对国内零售企业的调查发现,从 周一到周五正常工作日,同样一个万米经营面积的大卖场,国内卖场的平均客单 价是29元,家乐福、沃尔玛、欧尚等国际零售巨头卖场的客单价为75元,好又 多、大润发、乐购等台资卖场客单价为50元。到了周末(周六、周日)的差距更 大,国内卖场客单价为35元

15、,台资卖场客单价为80元,外资卖场可以达到149 元,这就是我们国内企业在购物篮方面的差距。我们知道,销售额=客单价X客流数。在同等客流量的情况下,我们的企业 由于客单价低,已经先失一着,销售业绩要比外资企业低200%,比台资企业低 60%。此外,销售额低会带来很多问题,比如毛利额低、通道费低、与供应商的 话语权降低,甚至会直接影响到企业的生存。因此,要想提高商业企业的销售业 绩,必须改善企业购物篮,全面提升客单价,可以说零售企业的购物篮代表了企 业的生存权!另据有关报道,客户到家乐福卖场的年平均购物频度只有9.8次,但是在快 速消费品的市场份额却比年平均客户购物频度高达51次的华润苏果高出3

16、.63%,家乐福、沃尔玛、易初莲花等外资零售企业仅仅利用客户几次上门购物 的机会,就获得了远比国内零售同行高很多的快速消费品市场份额。尤其要注意的是,沃尔玛、欧尚等外资零售企业在国内只有区区的十几家门 店,居然占据了非常大的市场份额,充分显示了这些外资零售企业在购物篮方面 的确有“高招”。“啤酒与尿布”故事的依据是商品之间的相关性(也称关联性,英文名称为 association rule),商品相关性是指商品在卖场中不是孤立的,不同商品在销售中 会形成相互影响关系(也称关联关系),比如“啤酒与尿布”故事中,尿布会影 响啤酒的销量。在卖场中商品之间的关联关系比比皆是,比如咖啡的销量会影响 到咖啡

17、伴侣、方糖的销售量,牛奶的销量会影响面包的销售量等等。所谓事物之间的相关性是指当一个事物变化时,另一个事物也会发生变化。 当事物之间的变化是相互抵消的,比如猪肉价格上涨、猪肉销量下降,我们称这 种相关性是负相关;当事物之间的变化呈现同一个方向发展时,比如气温上升、 冷饮销量也上升,我们称这种相关性是正相关。有些事物的相关性显而易见,有些则不是那么明显。美国华尔街股票分析师 将女性超短裙的长度与道琼斯股票指数建立了关联,超短裙的长度与股票指数 成反比趋势,据说十分灵验,这就是相关性在生活中的种种体现。商店中的关联性更是比比皆是,比如烟酒销售的关联关系:当门店附近有建 筑工地时,低档烟、酒的销售就

18、会上升;当附近有高档社区时,中华烟、葡萄酒 的销售量就会上升。提到商品相关性,很多人认为就是数据分析的事儿,其实对于商品相关性来 说,更重要的是客户心理层面的因素,毕竟是人在提着购物篮,而不是猴子。客户在购物时的心理行为是产生商品之间关联关系最基本的原因,因此在找 到购物篮规律时,必须要从客户消费心理层面解释这些关联关系,否则“啤酒与 尿布”会永远停留在啤酒与尿布两个商品身上,而没有任何的推广意义。要想详 细了解商品相关性形成的客户心理因素,要进行大量的客户消费行为观察,构建 客户购物篮场景,才可使“啤酒与尿布”的故事发扬光大。二、关联规则的概念关联规则挖掘发现大量数据中项集之间有趣的关联或相

19、关联系。它在数据挖 掘中是一个重要的课题,最近几年已被业界所广泛研究。关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易 数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商 品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根 据购买模式对用户进行分类。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则 问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工 作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖 掘规则的效率;对关联规则的应用进行推广。最近也有独立于Agrawal的频

20、集方法的工作,以避免频集方法的一些缺陷, 探索挖掘关联规则的新方法。也有一些工作注重于对挖掘到的模式的价值进行评 估,他们提出的模型建议了一些值得考虑的研究方向。关联规则挖掘可以发现存在于数据库中的项目或属性间的有趣关系,这些关 系是预先未知的或者被隐藏的。为了准确描述关联规则挖掘问题,需要给出关联 规则挖掘问题的正式定义,下面用事务数据库来定义关联规则。设D交易(transaction) T的集合,D = t,t ,.,t ,这里交易T是项的集合,1 2 n可以表述为:T = t,t ,.,t 并且T c D o T中的兀素i = j = 1,2,.,p称为项。1 2 Pj对应每一个交易有唯

21、一的标识,如交易号,记作TID。设I = i, i,., i 是数据1 2 m 集中所有项的集合,/是二进制文字的集合。/中的任何子集称为项目集 (itemset),若1X1 = k,则称集合X为K -项集。设七和X分别为D中的事务和项 目集,如果X c tk,称事务tk包含项目集X。项目集X的支持率support(X),若 support(X)不小于用户指定的最小支持率(记作:minsupport),则称X为频繁项目 集,否则称X为非频繁项目集。设X,丫是数据集D中的项目集。若XcY, 则support(X) support(Y );若X c Y,如果X是非频繁项目集,则Y也是非频 繁项目集

22、;若X c Y,如果Y是频繁项目集,则X也是频繁项目集。一个关联规则是形如X = Y的蕴涵式,这里X,Y都是项目集,且X u C1, Y u 1,并且X I Y =中,X,Y分别称为关联规则X = Y的前提和结论。一般使用支持度(support)和置信度(confidence)两个参数来描述关联规 则的属性。支持度规则X = Y在数据库D中的支持度(support)是交易集中同时包含X, Y的 事务数与所有事务数之比,记为support(X = Y) = sup port(X u Y)。支持度描 述了X, Y这两个项集在所有事务中同时出现的概率。置信度规则X = Y在事务集中的置信度(conf

23、idence)是指同时包含X, Y的事务数 与包含X的事务数之比,它用来衡量关联规则的可信程度。记为 confidence(X = Y)=,叩port(X U Y)。support(X)一般情况下,只有关联规则的置信度大于期望可信度,才说明X的出现对Y 的出现有促进作用,也说明了它们之间的某种程度的相关性。给定一个事务集D, 挖掘关联规则的问题就是产生支持度和置信度分别大于用户事先给定的最小支 持度和最小置信度的关联规则。关联规则挖掘的任务就是要挖掘出D中所有的强 规则X = Y。强规则X = Y对应的项目集(Xu Y)必定是频繁项目集,频繁项 目集(X u Y)导出的关联规则X = Y的置信

24、度可由频繁项目集X和(X u Y)的 支持度计算。因此,可以把关联规则挖掘划分为两个子问题:一个是找出所有的 频繁项目集:即所有支持度不低于给定的最小支持度的项目集。另一个是由频繁 项目集产生强关联规则:即从第一个子问题得到的频繁项目集中找出置信度不小 于用户给定的最小置信度的规则。其中,第一个子问题是关联规则挖掘算法的核 心问题,是衡量关联规则挖掘算法的标准。三、Apriori算法关联规则的算法相当多,其中经典算法Apriori是最有影响的挖掘布尔关联 规则频繁项目集的算法,同时大部分关联规则算法也都是经典算法Apriori的演 绎和改进。Apriori算法是通过有候选项集的方法来产生频繁项

25、集,它的核心思 想:任何频繁项集的所有子集一定是频繁项集。在Apriori算法中,遍历数据库,得到大一项集尸1。如果Fi非空,由匕产生 长度为2的候选项集合C,对事务处理数据库中的每一个事务七求出在C2中 的全部子集Ct,对于Ct中的每一个长度为2的候选取项集c,令c的计数c. count 加1。当扫描事务处理数据库一遍后,筛选取出候选项集合C 2中所有计数满足最 小支持度的项集组成了长度为2的频繁项集合。用以上步骤重复处理新得到的频 繁项集合,直到没有频繁项集合产生。在这里,由于从候选项集中产生频繁项集的过程需要遍历数据库,因此如何 正确地产生最少数目的候选项集十分关键。候选项集产生的过程A

26、priori -gen(Fk-l)被分为两个部分:联合与剪技。采用这种方式,使得所有的频繁项集既 不会遗漏又不会重复。剪枝的目的是减少扫描数据库时需要比较的候选项集的数 量。剪枝的原则是:候选项集C的k个长度为k -1的子集都在Fki中,则保留C ; 否则C被剪枝。Apriori算法的描述如下。输入:事务数据库D ;最小支持度阀值min_sup。输出:D中的频繁项集L。方法:第1步产生频繁项集第2步产生频繁k(2 end)项集产生频繁候选k项集由频繁k -1项集连接成为k项集检测k项集的所有的上-1子集是否为频繁项集,若是该k项集就成为了频繁候选项集扫描事务数据库。对每个候选k项集计数达到最少

27、支持度的频繁候选k项成为频繁k项集。四、Clementine购物蓝分析本次实验是以clementine软件当中的数据为数据来源展开数据挖掘工作的, 数据样本为Demos文件夹里的baskrule.sav文件,数据量为一千余条,保证了实 验结果的依据性和可靠性。实验的目的是基于关联规则,利用clementine实现市 场购物篮分析。SPSS Clementine支持标准化的数据挖掘流程,现在将从其中的数据理解、 数据准备、建立模型等几个方面进行本课题的研究。下图1是整个数据流的图形:图1整体数据流此次实验的研究方法可以概括为如图2.图2研究方法流程4.1数据理解阶段数据准备是整个数据挖掘过程的重

28、要部分,数据质量越高,挖掘结果准确性 越高。首先选择“数据源”选项卡里面的固定文件节点,将其添加到数据流区,并 导入baskrule.sav文件数据。此时可以用输出”选项卡里的表结点与数据文件 连接,查看数据的情况。数据当中18个变量的情况可见下表1.表1研究数据字段说明序号字段名字段含义字段取值1Cardid购买此篮商品的客户的忠诚卡标识符正整数2Value购物篮的总购买价格正数3pmethod购物篮的支付方法CASH/CHQUE/CARD4Sex性别F/M5homeown卡持有者是否拥有住房T/F6Income收入正数7Age年龄正整数8Fruitveg果蔬T/F9freshmeat鲜肉T

29、/F10Dairy乳制品T/F11cannedveg罐装蔬菜T/F12cannedmeat烤肉T/F13frozenmeal冻肉T/F14Beer啤酒T/F15Wine酒T/F16Softdrink饮料T/F17Fish鱼T/F18confectionery糖果T/F在上述数据当中,1-7属于顾客信息,8-18属于购物篮订单的信息,每一个 字段都属于一个订单项。4.2数据准备阶段在数据表当中既无缺失值,又无数据重复性的问题出现,因此不需要对源数 据做过多的数据过滤和预处理过程。考虑到数据属性对于数据挖掘建模的影响,需要对数据的方向属性做修改, 此时可添加“类型”节点,让数据源固定文件节点连接到

30、“类型节点”。类型节点使用:使用Clementine类型节点能访问每个字段的属性,可以很 便利地扩充脚本内容以列出类型节点中显示的其他属性,例如缺失值或方向。编辑“类型节点”,将所有产品类别的角色设置为双向(双向表示该字段可 以是结果模型的输入或者输出),并将所有其他角色设置为无(如图3)。因为每个忠诚卡ID在数据集中只出现一次,因此对于建模没有用处,此时 可将字段卡ID的类型设置为“无类型”。同时为了确保GRI建模算法不会将 性别视为标志,应将选择集作为字段性别的类型。=箱晰有伯is昭 ,: caidid 电 value10 007,49 8863 JJ|a| prndhjdCiifiD.C

31、H.CHEQUE囚物F同囚 rorremi任球0 IncnmeI1D20D.3000H哪柯囚 nuiwgTF囚 fteshmEstTJF.司 danTF囚 cannenveg7JF溢 | cannedmetTF囚血即rn册HF囚be町TJF国州HETF囚 sotdrinkHF囚胎hTF固 snrMiunetyUF-专看当岫豆者熬用静ti旋电定旧|财白向=uFL - -1-CLIE- rc Fw E rL - -1- - _ - - - rc EL rc rL - -1- rL rl. - 1. - ?. - 1. - ?. - 1. - 1. - n. - 1. - ?. - 1. - 7.

32、- nl. - nl. - 1. - 1. - 7. - 1.图3数据属性编辑表4.3建立模型阶段建立模型之前,必须选择模型算法,关联规则算法和决策树分析算法适合于 本次的购物篮分析。首先,介绍GRI节点选项最低规则置信度,可以指定在规则集中保留规则的准确性标准(以百分比表 示)。最大条件数,可以为任何规则指定最大条件数。这是一种用来限制规则复杂 性的方式。如果规则太复杂或者太具体,需要尝试降低此设置,此设置对于训练 时间也具有很大的影响;如果规则集训练所需的时间过长,需要尝试降低此设置。最大规则数,此选项决定了规则集中包含的规则数。规则是按照相关度(由 GRI算法计算)的降序顺序包含在内的。

33、使用分区数据。如果分区字段位于流 中,则此选项会将数据分割成数个用于训练、测试和验证的单独样本,并且可能 提供当模型扩展为可适用于大型数据集(与当前的数据类似)时,该模型的能力 说明。只显示值为真的标志变量。如果选中此选项,生成的规则则只会显示真值。 这样可能有助于使得规则更容易理解。接着进行操作。在数据准备过程完成、指定了用于建模的字段后,将GRI 节点添加到“类型”节点,编辑它,选择选项“使用分区数据、“只显示值为真 的标志变量”,设置最低规则置信度为50.0%,最大前项数为3,最大规则数为20,最大前项数和最大规则数都不能过多,要能够适应数据的属性和量。如下图4.4:图4: GRI节点编

34、辑按照上图,点击运行得出GRI节点的结果,可见图5图5: GRI节点运行结果在最后几条关联规则都具有这样的特征:置信度高,支持度低。这说明规则 的可信度高,但普遍性不高,也就说明购买罐装蔬菜,同时购买鲜肉、冻肉和啤 酒的概率极高,但是购买罐装蔬菜本身在购买活动中出现的概率较低,造成规则 的使用范围有限、应用机会少。因此最后几条规则不具有一般性。而在前几条关 联规则中,支持度属于较高水平,说明应用范围较为广泛,而置信度也不低,体 现出规则的可信度也高。这些规则出现了双向关联规则,显示冻肉、罐装蔬菜和 啤酒之间存在多种关联。下面可通过单向箭头具体表现:frozenmealbeerbeerfroze

35、nmealfrozenmealcannedvegcannedveg f frozenmealwinef confectioneryconfectionery f wine二、由于图形选项框中的“Web显示”在一定机会上能够让数据中的一些模 式更加突出,所以为了能够迅速直观地从上述关联规则中找到更加贴近的关联规 则,可将Web节点附加到“类型”节点。首先,介绍Web节点:数据挖掘过程的若干个阶段都会用图形和图表来探索导入到Clementine中的数据。例如,可将散点图或条形图节点连接到数据源,以了解数据类型和数 据分布。Web节点属于图形节点之一,网络节点用于显示两个或更多符号字段 的值之间,关

36、系的紧密程度10。在图形中显示的链接以不同类型的线条表示, 依次说明链接的强度不同。例如,可以使用网络节点,检查胆固醇水平、血压及 可有效治疗病人疾患的药品之间的关系。其中链接的三种类型有:强链接,以粗线条显示,用以说明两个值之间关系 紧密,应该进一步检查;普通链接,用普通粗细的线条显示;弱链接以虚线显示。接着进行实验操作。编辑Web节点,选择所有购物篮内容字段,选择仅显 示真值标志,如图6图6: Web节点编辑器执行Web节点,显示结果如下图图7: Web节点运行结果因为大多数产品类别组合都会出现在多个购物篮中,所以此Web上的强链 接太多,无法显示GRI模型表示的客户群。要提高临界值以便只

37、显示最强的链接,需要使用工具栏上的滑块,来实现最多只显示50个连接除了要求了连接数量显示50个以外,还要指定弱连接和强连接,作用是让 Web显示的关联度更加明显,可单击工具栏上的黄色双箭头按钮,展开显示Web 输出摘要和控件的对话框:选择“大小表示强/正常/弱”。将“弱链接”设置为低 于90。将“强链接”设置为高于100。以下为编辑窗口示意图:图8: Web节点编辑链接数最终显示结果为:图9:编辑结果显示在最终显示中,会有三个客户群突出显示:第一个,购买鱼和果蔬的客户,可将这类客户成为“健康食客”第二个,购买酒和粮果的客户第三个,购买啤酒、冻肉和罐装蔬菜(“啤酒、豆类和比萨”)的客户这个时候可

38、以和上面GRI节点得出的结果做对比,发现使用Web节点能得 到三个强关联的客户群,而GRI仅标识两客户群个,健康食客未形成足够强的 模式,GRI无法发现它。三、客户群添加特征标志根据上述数据最后进行的关联度分析,客户购买的产品类型最终标识了三个 客户群,但是还要知道这些客户的人口统计学特征。通过为每个客户群添加特征 标志,并使用规则归纳(C5.0)来基于关联规则描绘这些标志的特征,可以实现 这一点。过程如下:首先,必须获取每个客户群的标志。使用刚刚创建的Web显示图,可以自 动生成每个群的标志,使用鼠标右键,单击fruitveg和fish之间的链接以突出显 示该链接,然后右键单击并选择“生成链

39、接的导出节点”。如下图10:图10:通过Web节点标识客户群编辑最终的“派生”节点以将“派生”字段名称更改为“ healthy”。同样,使用从wine到confectionery的链接,右键选择生成链接的导出节点”将最终 的“派生”字段命名为 wine_confect.对于第三个群(涉及三个链接),首先要确保未选择任何链接。然后,按住shift同时单击鼠标左键,从而选择cannedveg、beer和frozenmeal中的全部三个链接,然后从web显示菜单中选择:生成导出节点,如下图11:图11:第三个群的生成将最终“派生”字段的名称更改为beer_fromeal_cannedveg:图12:第三个派生点编辑表四、描绘这些客户群的特征连续将现有的类型节点连接到这三个导出节点,然后附加另一个类型节点。 在新类型节点中,将除以下字段外的所有字段的方向都设置为无:value、pmethod、sex、homeown、income和age,这些字段的方向应该设置为输入,同 时将三个客户群的方向设置为输出。、A*读取侑清除值清除所有恒字段尧型值缺失检查方向.; :

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论