大数据营销-第9章-商品关联营销课件_第1页
大数据营销-第9章-商品关联营销课件_第2页
大数据营销-第9章-商品关联营销课件_第3页
大数据营销-第9章-商品关联营销课件_第4页
大数据营销-第9章-商品关联营销课件_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第9章 商品关联营销商品关联营销学习目标1. 了解商品关联营销(购物篮关联分析)的概念2. 了解简单关联规则的概念3. 了解购物篮分析模型的基本原理和方法4. 了解简单关联规则的应用场景及其有效性和实用性思维导图【开篇思考】拥有海量用户、车辆、司机以及交通轨迹的大数据对于滴滴而言,已经远离了纸上谈兵,在司机接入、智慧交通等多个维度产生了实际效用。滴滴出行近日披露,在其严格的注册审核机制下,共有超2500万名“问题司机”被拒之平台外。而通过大数据实时分析、智能上车点推荐等领先技术,全国20个机场上线“智能引导”功能,帮助乘客快速出港。请试想一下: 滴滴出行有哪些大数据营销的场景?目录5购物篮商品

2、关联问题背景与挖掘目标商品关联营销的概念简单关联规则购物篮分析模型简单关联规则的有效性和实用性讨论9.1 商品关联营销的概念关联营销:关联营销是一种建立在双方互利互益的基础上的营销,在交叉营销的基础上,将事物、产品、品牌等所要营销的东西上寻找关联性,来实现深层次的多面引导。关联营销也是一种新的、低成本的、企业在网站上用来提高收入的营销方法。目录7购物篮商品关联问题背景与挖掘目标商品关联营销的概念简单关联规则购物篮分析模型简单关联规则的有效性和实用性讨论9.2 购物篮商品关联问题背景与挖掘目标关联营销:关联分析是挖掘数据内在结构特征或变量之间的关联性。在日常生活中事物之间的关联性随处可见,在电子

3、商务平台的购物篮中的商品,其关联性也是显而易见的。啤酒与尿布购物篮商品的关联关系通常有两种情况:一种是顾客在一次购买行为中放入购物篮中不同商品之间的关联关系,我们称之为简单关联关系。另一种是顾客在购买某种商品之后,在下一次光顾时会购买另一些其他商品,这些前后不同时间购买的商品之间同样存在关联关系,我们把这种关联关系称为序列关联关系。最早的关联分析概念:是1993年由Agrawal、Imielinski和Swami提出的。其主要研究目的是分析超市顾客购买行为的规律,发现连带购买商品,为制定合理的方便顾客选取的货架摆放方案提供依据。该分析称为购物篮分析。电子商务领域:关联分析可帮助经营者发现顾客的

4、消费偏好,定位顾客消费需求,制定合理的交叉销售方案,实现商品的精准推荐;保险公司业务:关联分析可帮助企业分析保险索赔的原因,及时甄别欺诈行为;电信行业:关联分析可帮助企业发现不同增值业务间的关联性及对客户流失的影响等。9.2 购物篮商品关联问题背景与挖掘目标目录10购物篮商品关联问题背景与挖掘目标商品关联营销的概念简单关联规则购物篮分析模型简单关联规则的有效性和实用性讨论9.3 简单关联规则9.3.1 事务和项集事务就是简单关联分析的分析对象。事务可理解为一种行为,例如,百货商店顾客的购物行为是一种事务;网页用户的页面浏览关注行为是一种事务;一份财产保险公司的汽车保单也是一种事务。项目是在事务

5、中涉及的对象。一个事务通常包含若干个项目。一个项目可以是一种商品、一个网页链接、一个险种等。若干个项目的集合叫作项目集,简称项集。我们把属于同一个事务的所有项目组成的集合,称为事务的项集。9.3 简单关联规则小明喜欢在淘宝上购物,当他想购买某商品时,会在淘宝上浏览,一遍又一遍地研究该商品,也会关注它,甚至把它加入购物车。经过一段时间的研究,小明才会放入购物篮里准备购买,同时,小明也准备购买其他商品。最终他购买了A、B、C、D、E共5件商品。在这里,小明的购物行为就是一个事务。他购买的5件商品A、B、C、D、E的集合就是项集。为了研究方便,我们会给每一个事务一个ID(标识),对应于ID就有一个项

6、集。其他客户也会在淘宝上购物,也会像小明一样有自己的购物篮,购物篮里有自己喜欢的商品,见表9.1。事务ID项 集备 注1ABCDE表中不同的字母代表不同的商品2BEF3CDG4ABDF表9.1 顾客购买行为数据示例9.3 简单关联规则9.3.2关联规则的表达形式简单关联规则的一般表示形式是:前项后项支持度(Support)= s%,置信度(Confidence)=c%, 或表达为:XY(S = s%,C = c%), 其中:X称为规则的前项,可以是一个项目或项集,也可以是一个包含项目以及逻辑操作(与、或、非|)的逻辑表达式;Y称为规则的后项,一般为一个项目,表示某种结论或事实;括号中,S =

7、s%表示规则支持度为s%,C = c%表示规则置信度为c%。例如,面包牛奶(S=85%,C=90%),就是一条简单关联规则。前项和后项均为一个项目。该关联规则的含义是:有90%的把握程度相信购买面包则购买牛奶,该规则适用性为85%。9.3 简单关联规则9.3.2 置信度和支持度关联规则是形如XY的表达式,其中X和Y不相交。置信度和支持度这两个指标用于量度关联规则的强度。支持度也称为相对支持度,表示X与Y同时发生的概率。置信度是指X发生的条件下Y发生的概率。因此,支持度和置信度可以分别用下列公式表示: Support(XY)= C(XY) Confidence(XY)= S(Y|X) 牛奶与鸡蛋

8、挖掘数据集:购物篮数据 挖掘目标:关联规则 关联规则:牛奶=鸡蛋【支持度=2%,置信度=60%】 支持度:分析中的全部事务的2%同时购买了牛奶和鸡蛋 置信度:购买了牛奶的客户有60%也购买了鸡蛋 最小支持度阈值和最小置信度阈值:由挖掘者或领域专家设定 9.3 简单关联规则9.3.2频繁项集项集是项的集合,包含k项的项集称为k项集。项集的出现频率是所有包含项集事务的级数,又称绝对支持度或支持度计数。若存在项集的支持度满足预定义的最小置信度或最小支持度的阈值,则称此项集为频繁项集,频繁k项集通常记作Lk。而同时满足最小置信度和最小支持度的规则称为强规则。包含1个项目的频繁项集称为频繁1项集;包含k

9、个项目的项集称为频繁k项集。最大频繁项集是k最大时的最大频繁k-项集。根据频繁项集的定义很容易得到以下结论,即频繁项集的子集一定是频繁项集。例如, A,B,C是一个3项的频繁项集,则其子集A,B、B,C、A,C也一定是2项的频繁项集。反之,如果在不是频繁项集的项集I中添加事务A,那么新的项集IA一定也不是频繁项集。目录17购物篮商品关联问题背景与挖掘目标商品关联营销的概念简单关联规则购物篮分析模型简单关联规则的有效性和实用性讨论9.4 购物篮分析模型关联规则算法有Apriori算法、FP-Tree 算法、Eclat算法和灰色关联算法等。关联规则算法主要用于寻找数据中项集之间的关联关系,基于样本

10、的统计规律,进行关联规则分析。根据所分析的关联关系,可从一个特征的信息来推断另一个特征的信息。当信息置信度达到某一阈值时,就可以认为规则成立。Apriori算法是应用最广泛的关联规则算法之一,也是最为经典的在大数据集上可行的关联规则提取的算法。购物篮分析哪些商品平凡的同时被客户购买?图9.1 购物篮商品关联规则模型的流程图9.4 购物篮分析模型9.4 简单关联规则9.4.1 原始数据的预处理ID商品A商品B商品C商品D商品E商品F商品G11111100201001103001100141101010ID项集X1A1B1C1D1E2B2E2F3C3D3G4A4B4D4F购物篮商品关联规则分析中的

11、数据预处理的主要任务是通过整理原始数据,建立事务数据集对象。事务数据集的组织方式有事实表和事务表两种格式。表9.2 事实表示例表9.3 事务表示例9.4 简单关联规则9.4.2 搜索频繁项集寻找频繁项集是Apriori算法提高寻找关联规则效率的关键。以图9.2为例,在Apriori算法中寻找频繁项集的基本原则是:如果最底层中只包含D项的1-项集不是频繁项集,则包含D项的其他所有项集,即D的超集(图中灰色圆圈)都不可能是频繁项集,后续无须再对这些项集进行判断,因为基于这些项集的关联规则不可能有较高的支持度。图9.2 寻找频繁项集Apriori算法从图9.2所示的底层(1-项集)开始向上,采用迭代

12、方式逐层找到下层的超集,并在超集中发现频繁项集。如此反复,直到最顶层得到最大频繁项集为止。每次迭代均包含两个步骤。第一步,产生候选集Ck。所谓候选集就是有可能成为频繁项集的项目集合。当k =1时,候选集Ck是所有1_项集。第二步,修剪候选集Ck。基于候选集Ck计算支持度,且依据最小支持度对候选集Ck进行删减,最终确定最大频繁项集Lk。9.4 简单关联规则9.4.2 搜索频繁项集9.4 简单关联规则9.4.2 搜索频繁项集图9.3就是用表9.1的数据举例说明以迭代的方式找出最大频繁项集的过程。由图9.3可以看出,最大频繁项集是ABD,支持度达50%。图9.3 用Apriori算法产生频繁项集的迭

13、代过程举例9.4.3 由频繁项集产生关联规则9.4 简单关联规则上述步骤已经剔除了不满足最小支持度阈值的项,如果剩下的项能满足预定的最小置信度阈值,那么就可以找到强关联规则。例如,对于上述例子,频繁项集L包含项目A、B、D。如果设L的子集L包含项目A和B,则L-L包含项目E。计算置信度:C(|A,B|D) = S(A,B,D)/S(A,B) = 0.5/0.5 = 100%置信度最大,大于用户指定的任何阈值。因此,简单关联规则A,BD(S=50%, C=100%)为有效规则。同样我们也可以得到其他的关联规则:A,DB(S=50%, C=100%)B,DA(S=50% ,C=100%)从以上结果

14、可以看出,顾客同时购买商品A、B和D的概率为50%,而置信度则达到100%,说明该规则有效。了解到上述信息即可对商品摆放位置进行更改,可以考虑把商品A、B和D的位置摆放得靠近一些,在增加销量的同时给客户更好的购物体验。目录26购物篮商品关联问题背景与挖掘目标商品关联营销的概念简单关联规则购物篮分析模型简单关联规则的有效性和实用性讨论9.5.1 Apriori算法的优缺点与适用场景9.5 简单关联规则的有效性和实用性讨论Apriori算法是关联规则最常用的也是最经典的分析频繁项集的算法,它的优点是大大压缩了频繁项集的大小,并取得良好性能。Apriori算法的缺点是每次计算支持度与置信度都需要重新

15、扫描所有数据,而且该算法有多次扫描事务数据的缺陷,在每一步产生候选集时循环产生的项集过多,没有排除不应该参与组合的元素。针对这些问题,Zaki等人于1997年提出了一种快速搜索频繁项集的算法 Equivalence CLAss clustering and bottom-up Traversal,简称Eclat算法。该算法与Apriori算法的思路类似,但它的特色在于:基于对等类,采用自底向上的搜索策略,只需访问很少次的数据集,便可确定最大频繁项集,从而提高了搜索效率。Apriori算法除了适用于商品零售购物篮分析外,近年来也广泛应用于金融行业中,可以成功预测银行客户的需求,还可应用于网络安全

16、领域,检测出用户行为的安全模式,进而锁定攻击者。此外,Apriori 算法还可应用于高校管理、移动通信、中医证型等领域。9.5.2 如何评价简单关联规则的有效性9.5 简单关联规则的有效性和实用性讨论从数据中可以找到很多关联规则,但并非所有的关联规则都有效。可能有的规则令人信服的水平不高,有的规则适用的范围很有限,也就是说,这些规则都不具有有效性。判断一条关联规则是否有效,应依据各种测度指标,其中最常用的测度是关联规则的置信度和支持度。一个有效的简单关联规则应具有较高的置信度和较高的支持度。如果规则支持度较高,但置信度较低,则说明规则的可信程度差;如果规则置信度较高但支持度较低,则说明规则的应

17、用机会很少。一个置信度较高但普遍性较低的规则并没有太多的实际应用价值。例如,如果在1000个关于顾客购买行为的事务中,只有1个顾客购买了野炊用的烧烤炉,同时也只有他购买了碳。虽然规则“烧烤炉碳”的置信度很高,为100%,但其支持度只有0.1%,很低,说明该规则缺乏普遍性,应用价值不高。9.5.2 如何评价简单关联规则的有效性9.5 简单关联规则的有效性和实用性讨论阈值的设置要尽量合理。如果支持度阈值太小,得到的简单关联规则会失去一般性;如果支持度阈值太大,可能无法找到“如此高代表性”的规则;同样,如果置信度阈值太小,得到的简单关联规则的可信度不高,阈值太大,也同样可能无法找到“如此高可信度”的

18、规则。Y合计10X1ABR10CDR2合计C1C2T表9.4 一个典型的列联表表9.4是统计学中的一个典型的列联表。这里,可令行表示前项,列表示后项,1和0分别表示出现和未出现;A、B、C、D为交叉分组下的频数,R1、R2、C1、C2分别为各行合计以及各列合计,T为总计。对于简单关联规则XY,规则置信度为A/R1,规则支持度为A/T,前项支持度为R1/T,后项支持度为C1/T。9.5.3 如何评价简单关联规则的实用性9.5 简单关联规则的有效性和实用性讨论简单关联规则的实用性体现在:一方面,简单关联规则应具有实际意义,例如,怀孕女性,这条简单关联规则就没有多少实用价值;另一方面,简单关联规则应

19、具有指导意义,如果一条简单关联规则的规则置信度和支持度大于用户指定的最小置信度和支持度阈值,尽管该规则具有有效性,但仍可能没有指导意义,具体表现为以下几种情况。(1)简单关联规则揭示的简单关联关系可能仅仅是一种随机关联关系。例如,超市依据表9.5(a)所示的调查结果,得到反映购买牛奶与否和性别关系的简单关联规则:牛奶性别(男)(S = 40%,C = 40%)。在最小置信度和支持度为30%时该规则是一条有效规则。男女合计买4006001000不买000合计4006001000表9.5(a) 示意列联表(一)但:进一步发现,顾客中男性的(后项支持度)比例也为40%,即购买牛奶顾客的男性比例等于所

20、有顾客的男性比例。此时认为,上述规则反映的是一种前后项无关联下的随机性关联,该规则不具有实用性。9.5.3 如何评价简单关联规则的实用性9.5 简单关联规则的有效性和实用性讨论(1)简单关联规则揭示的简单关联关系可能是反向关联关系。例如,某教育研究机构依据表9.5(b)所示的调査结果,得到反映中学生的成绩优异与否与吃早餐关系的简单关联规则:成绩(优异)早餐(吃)(S = 33.33%,C = 60%),在最小置信度和支持度为30%时该规则是一条有效规则。吃不吃合计优异6040100不优异661480合计12654180但进一步计算发现,70%(后项支持度)的被调查者是吃早餐的,即成绩优异的学生中吃早餐的比例低于总体比例。此时认为,成绩优异与吃早餐的关联是反向的,该规则有误导性。事实上,只有成绩优异的学生中吃早

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论