




已阅读5页,还剩19页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关联规则应用举例下面结合顾客购买实例提出一个可行的关联分析方法。某公司专业生产化妆用品和沐浴用品,该公司在全国各大城市的各大商场都设点销售,公司对一定时间范围内顾客购买详细情况作了收集,情况如表1所示(限于文章篇幅,仅列出六个顾客、五种产品为例)。表1:顾客购买情况表顾客购买产品A日霜、洗面奶、晚霜B洗发水、晚霜、沐浴乳C洗面奶、晚霜D洗发水、沐浴乳、洗面奶、日霜E洗发水F洗发水、沐浴乳针对表1进行关联分析,首先构造两种商品间的关联表,如表2所示,表中每一个数值表示的是行、列代表的两种商品同时被一个用户购买的次数。表2:两种商品间关联表YX洗面奶日霜晚霜洗发水沐浴乳洗面奶32211日霜22111晚霜21311洗发水11143沐浴乳11133第二步,针对设定的最小支持度阀值,计算每一个X的最小支持度,将大于最小支持度阀值的X列出(本例,设最小支持度阀值为0.5):support(洗面奶)=0.5; support(晚霜)=0.5; support(洗发水)=0.667; support(沐浴乳)=0.5.第三步,针对设定的最小置信度阀值和上步列出的X,计算的最小置信度表,如表3所示:表3:的最小置信度表YX洗面奶晚霜洗发水沐浴乳洗面奶/0.6670.3330.333晚霜0.667/0.3330.333洗发水0.250.25/0.75沐浴乳0.3330.3331/第四步,将大于最小置信度阀值的列出(本例,设最小置信度阀值为0.5),即为关联分析所得出的规则:Rule1: 晚霜洗面奶,support=0.5, confidence=0.667Rule2: 洗面奶晚霜,support=0.5, confidence=0.667Rule3: 洗发水沐浴乳,support=0.667, confidence=0.75Rule4: 沐浴乳洗发水,support=0.5, confidence=1从上述规则可以初步得出结论:1.购买本公司产品的顾客中相当比例的人有晚上用洗面奶洗面,并用晚霜保养皮肤的习惯(估计顾客中有一定比例是白领上班族,早上匆忙,晚上空暇)。2.购买洗发水的顾客多半会同时购买沐浴乳,而购买沐浴乳的顾客则几乎肯定会购买洗发水(因多数人沐浴时同时洗发,并且洗发次数多于沐浴)。根据上述规则,公司在营销时采取了如下措施:1.将晚霜与洗面奶、洗发水与沐浴乳放置在一起,方便顾客购买。2.营业员在顾客购买了一种商品后,适当推荐另一种商品。3、在生产与发货运输上,将关联产品配套按排。采取这些措施后,顾客的交叉消费大为提高,商场与顾客的满意度也有所提高。聚类分析应用示例聚类分析问题可描述为:给定m维空间中的n个向量,把每个向量归属到S个聚类中的某一个,使得每个向量与其聚类中心的“距离”最小。聚类分析问题的实质是一个全局最优问题。在这里,m可认为是样本的参与聚类的属性个数,n是样本的个数,S是由用户预先设定的分类数目。定义 对于m维空间中的向量,向量之间的距离为:.以下提出的聚类算法借鉴了模糊数学中模糊分类的思想,计算的基本思路是:对于m维空间中的一组向量,首先人为地给出分类个数c和一个初始分类,由此得出各向量的初始隶属度: ,以及计算每一个初始分类的初始聚类中心,然后反复迭代直到分类结束,每一个向量都以一定的隶属度归入某一类。迭代的过程分以下几步: 按定义1中距离计算每一个向量到所属类聚类中心的距离 其中表示迭代次数,初始时=0,是的第k个分量。 计算每一个向量的隶属度 j=1,2,c, i=1,2,n . 其中是一个关系到收敛速度的经验常数(1)。 判断隶属度是否收敛 j=1,2, c, i=1,2,n . 如果上式成立,分类迭代结束。 计算每类的新的聚类中心 j=1,2, c.由上述设计聚类算法Clustering如下:算法输入:nm数组item,其中n表示分类样本的个数,m表示每个样本的属性个数, 分类数c,收敛速度常数(1),收敛判断数。 nc 数组,其中c表示分类个数。算法输出:nc 数组,表示收敛了的隶属度数组。LOOP: for (j=1;j=c;j+)/新聚类中心 for (j=1;j=c;j+) for (i =1; i =n; i +) /新的距离 for (j=1;j=c;j+) for (i =1; i =n; i +) /新的隶属度 for (j=1;j=c;j+) for (i =1; i =n; i +)if then ;GO LOOP/判断收敛 RETURN 以下结合实例讨论聚类分析方法在员工业绩考核中的应用:某商场拟对职工进行综合考评,因以往并未对考评指标做过量化工作,因此考虑首先将职工按照几个指标分成优、一般、欠佳三类。根据有关销售业绩、出勤天数、顾客投诉次数的统计资料如表(一)所示:(限于篇幅,仅以8位职工,3个指标为例)表(一) 职工业绩统计表职工销售金额(千元)出勤天数顾客投诉次数A72.50252B80.34250C73.00241D65.22232E79.20240F72.38231G63.11242H74.25241利用上述Clustering聚类算法进行分类,初始分类共分三类,随意地将职工A、B、C归于一类,职工D、E、F归于一类,职工G、H归于一类,初始隶属度为:,聚类过程如表(二)所示:表(二) 分类迭代隶属度表职工第次迭代第次迭代第6次迭代第7次迭代A0.0730.8750.0520.0320.9480.0200.0480.9100.0410.0480.9120.041B0.4860.3050.2090.5450.2910.1640.8630.0930.0440.8650.0920.043C0.2160.6720.1120.0990.8510.0500.0190.9670.0140.0200.9660.015D0.1840.2630.5520.0960.1430.7600.0530.0990.8490.0540.1020.843E0.5170.2920.1910.5910.2680.1400.9300.0490.0210.9280.0510.022F0.0370.9360.0280.0580.9040.0380.0610.8850.0540.0600.8660.053G0.2200.2920.4890.1630.2250.6110.0620.1040.8340.0600.1020.838H0.5220.3600.1170.3560.5410.1040.1610.7480.0910.1610.7480.091从上面迭代隶属度表中可以看出,当迭代到第七次时,隶属度已经收敛(0.05),从上表得出分类结果为:第一类,第二类,第三类,于是,可以得出职工、属于优等,职工、属于一般,职工、欠佳的结论,结论是合理的、易理解的。ID3算法学习过程在学习开始的时候,只有一棵空的决策树,并不知道如何根据属性将实例进行分类,我们所要做的就是根据训练实例集构造决策树来预测如何根据属性对整个实例空间进行划分。设此时训练实例集为X,目的是将训练实例分为n类。设属于第i类的训练实例个数是Ci,X中总的训练实例个数为|X|,若记一个实例属于第i类的概率为P(Ci),则:此时决策树对划分C的不确定程度为:以后在无混淆的情况下将H(X,C)简记为H(X)。 决策树学习过程就是使得决策树对划分的不确定程度逐渐减小的过程。若选择测试属性a进行测试,在得知aaj的情况下属于第i类的实例个数为Cij个。记p(Ci;aaj)Cij/|X|,即p(C;aaj)为在测试属性a的取值为aj时它属于第i类的概率。此时决策树对分类的不确定程度就是训练实例集对属性X的条件熵。又因为在选择测试属性a后伸出的每个aaj叶结点Xj对于分类信息的信息熵为 (1)属性a对于分类提供的信息量H(X;a)为: (2) 式(1)的值越小则式(2)的值越大,说明选择测试属性a对于分类提供的信息越大,选择a之后对分类的不确定程度越小。Quinlan的ID3算法就是选择使得H(X;a)最大的属性作为测试属性,即选择使得式(1)最小的属性a。ID3算法应用举例下面结合商店定位实例提出一个可行的决策树分析方法。某公司是一家专业的西服生产厂家,在全国各大城市均设立了连锁销售商店。公司为进一步扩大销售,拟定建立一批新的连锁销售商店。为了对连锁销售商店的位置、规模等有一个理想的定位,公司收集了以前设立的商店和同行的同类商店的详细情况,并对其经营效果作了评估,如下表所示(限于文章篇幅,仅以位置、规模、档次3个属性、每个属性两种取值为例)。已设立的商店和同行的同类商店的详细情况表商店个数位置档次规模经营效果20市中心高大一般15市中心高一般成功8市中心一般大成功6城乡结合部高一般一般6城乡结合部一般一般成功10市中心一般一般一般决策树分析首先针对上表计算各个属性的信息熵,并将属性从大到小重新排列。计算得:H(X/位置)=(53/65)*(-23/53)*LOG(23/53)+(-30/53)*LOG(30/53) +(12/65)*(-6/12)*log(6/12)+(-6/12)*log(6/12)=0.298H(X/档次)=(41/65)*(-15/41)*log(15/41)+(-26/41)*log(26/41) +(24/65)*(-14/24)*log(14/24)+(-10/24)*log(10/24)=0.289H(X/规模)=(28/65)*(-8/28)*log(8/28)+(-20/28)*log(20/28)+(37/65)*(-21/37)*log(21/37)+(-16/37)*log(16/37)=0.281本例中,以规模对分类的贡献最大,所以应首先按规模进行划分。第二步,建立决策树:首先按规模建立决策树,得到数据的第一次分组,然后依按同样方法按位置或档次分组(对分组得到的两个子组按第一步形式进行同样的计算),得到数据的第二次分组和数据的第三次分组。三次划分后的决策树如图4.2所示: 图4.2第三步,从决策树中得出决策规则,如下:Rule1: 规模=“大”并且位置=“市中心”并且档次=“一般” 成功的商店Rule2: 规模=“一般”并且位置=“市中心”并且档次=“高” 成功的商店Rule3: 规模=“一般” 位置=“城乡结合部”成功的商店从上述规则得出结论:公司产品在市中心的商店可以有两种选择,一是大众化、规模化超市型,另一种是精品、专卖店型。在城乡结合部则不宜过分追求大型,应以规模适度为宜。第四步,利用决策树和导出的规则对计划新开设的商店是否合适做出评估。PRISM算法 PRISM算法可不首先产生决策树而直接产生分类规则,并且得到的规则比从决策树中取得的规则要简练一些。 (1)信息增益(Information gain),从上可以看出,关键在于选择个属性进行划分,为了避免使用属性的无关值和对分类无关的属性,PRISM力图极大化已知属性取值时对某一分类所提供的信息量。 如上所述,属性值可以看成是离散信息系统中的离散信息。信息i中关于某一事件的信息量为例如,下表表示隐形眼睛配置决策表,眼镜师列出了对四种因素不同组合的各种诊断:隐形眼睛配置决策表序号属性值决策序号属性值决策a b c da b c d11 1 1 13132 2 1 1321 1 1 22142 2 1 2231 1 2 13152 2 2 1341 1 2 21162 2 2 2351 2 1 13173 1 1 1361 2 1 22183 1 1 2371 2 2 13193 1 2 1381 2 2 21203 1 2 2192 1 1 13213 2 1 13102 1 1 22223 2 1 22112 1 2 13233 2 2 13122 1 2 21243 2 2 23在训练例集合S中,属于1类的有4个例,属于2类的有5个例,属于3类的有15例。所以,一个训练例属于1类的概率P(1)是424。这样,如果信息i是1(即分类为1),则此信息的信息量为类似地,信息2中的信息量为信息3中的信息量为可见,一个事件发生的概率越小,我们知道该事件已经发生时所收到的信息就越多。 如果收到的信息是属性d有值1,则这个信息中关于3久的信息量为其中P(3|d1)是给定d的值为1时3的概率。对于集合S,P(3|d1)=1,所以可知,属性d有值1对例子属于3这一事件所提供的信息量为O.678比特。 如果收到的信息是属性d有值2,则这个信息中关于3的信息量为由此可见,知道属性d有值2与不知道d的值相比,对例子属于类的确信程度更降低了,故信息量是负值。因此,d2对于确认3类来讲,不是一个好的选择。 (2) 极大化信息增益 归纳算法的任务是要找到一个属性-值对ax,使其对某分类n贡献最大的信息量,即极大化I(n|ax)。我们有由于P(n)对所有的都相同,所以只要求P(n|ax)最大即可。 以n1,即1为例,对所有的ax,P(n|ax)的值列于下表(a),从表中可见,有2个最佳的候选对:c2和d2。例如选c2。则信息增益为 现在对S中属性c为2的子集重复上述过程。从下表(b)可以看出,d2可使P(n|ax)取极大值。此时信息增益为现在对S中属性c为2、d为2的子集重复上述过程。从下表(c)可以看出有两个侯选对a1 ,b1。例如选b1,则信息增益为 前面已经计算过,信息1提供的信息量为I(1)2.585比特。我们又知道 c2提供的信息为1比特。 已知c2,时d2提供的信息为1比特。 已知c2和d2时,b1提供的信息为O.585比特。 所以,由信息源c2d2b1提供的信息为1+1+0.5852.585比特。也就是说,信息c2d2b1与信息1提供同样的信息量。其它属性值对确认1再不会提供任何信息了,因此归纳出规则:c2d2b11 至此,归纳过程的决策树如下图所示。此算法趋于得到通向的最短路径。归纳过程的下步是对那些不是第一条规则的例的训练例集合求出最佳规则。方法是从S中删去所有包含c2&d2&b1的例,重复应用上述算法。上述过程要重复执行,直到S中没有类的例为止。整个过程要对每个分类轮流进行,每次都从完整的训练例集合S开始。对隐形眼镜问题的完整输出如下, (3)PRISM的算法步骤 基本的归纳算法可叙述如下: 如果训练例集合包括多个类别,则对每个类别n,分别完成下列步骤: 对每个属性值对ax,计算类别n的发生概率P(n|ax)。 选择某个属性对ax,使P(n|ax)为最大,建立包括属性对ax的所有例的训练例子集。 对训练例子集重复步骤和,直到训练例子集仅包含n的例为止。以所有选出的属性值对的合取构成一条规则。 从训练例集合中删去上述规则覆盖的训练例。重复步骤一,直到所有的n类的例都被删去为止。 在上述归纳过程中,每归纳出一个类别的规则,就把训练例集合恢复到初始状态,算法再归纳下一类别的规则。由于每个类别是分开考虑的,所以表示的顺序是无关的。遗传算法应用示例 下
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版内部承包合同范本
- 2025年关于美发学员合同
- 现代别墅外立面施工方案
- 2025至2030年中国生肉数据监测研究报告
- 2025至2030年中国水晶批数据监测研究报告
- 面试环境测试题及答案
- 高会考试试题及答案详解
- 计算机二级考试复习计划与试题及答案
- 计算机二级考试常见疑难问题解决试题及答案
- 考取系统规划与管理师证书的路径试题及答案
- 2025年吉林交通职业技术学院单招职业技能考试题库新版
- GB/T 44569.1-2024土工合成材料内部节点强度的测定第1部分:土工格室
- 提高感染性休克集束化治疗完成率工作方案
- 茶艺-认识茶具(课堂PPT)
- 生物药物监测检测报告.docx
- 钢丝绳理论重量计算方式
- 第一节二重积分的概念和性质ppt课件
- 国家开放大学《计算机应用基础》终结性考试操作题
- 浒墅关镇社区家长学校工作台帐(模板)
- 电子科技大学自主招生软件工程硕士招生简章 —校外培养点
- 安全生产标准化创建工作启动会(PPT 87页)
评论
0/150
提交评论