商务智能理论与应用7-关联规则课件_第1页
商务智能理论与应用7-关联规则课件_第2页
商务智能理论与应用7-关联规则课件_第3页
商务智能理论与应用7-关联规则课件_第4页
商务智能理论与应用7-关联规则课件_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1关联规则2022/12/91关联规则2022/12/7一、关联规则的定义2关联规则一般用以发现事务数据库中不同商品(项)之间的联系,用这些规则找出顾客的购买行为模式。这种规则可以应用于超市商品货架设计、货物摆放以及根据购买模式对用户进行分类。2022/12/9一、关联规则的定义2关联规则一般用以发现事务数据库中不同商品3二、关联规则:基本概念(一)支持度与置信度AA∩BB买尿布的客户二者都买的客户买啤酒的客户2022/12/93二、关联规则:基本概念(一)支持度与置信度AA∩B置信度confidence(.):是指购物篮分析中有了左边商品,同时又有右边商品的交易次数百分比,也就是说在所有的购买了左边商品的交易中,同时又购买了右边商品的交易概率。

41、置信度2022/12/9置信度confidence(.):是指购物篮分析中有了左边商2、支持度支持度sup(.):表示在购物篮分析中同时包含关联规则左右两边物品的交易次数百分比,即支持这个规则的交易的次数百分比。52022/12/92、支持度支持度sup(.):表示在购物篮分析中同时包含关联例:6对于规则ACsupport=support({A,

C})=50%confidence=support({A,

C})/support({A})=66.6%2022/12/9例:6对于规则AC2022/12/7交易项目成交次数夹克,球鞋300滑雪衫,球鞋100夹克,滑雪衫,球鞋100球鞋50慢跑鞋40夹克,慢跑鞋100滑雪衫,慢跑鞋200衬衣10夹克40滑雪衫60合计10007表1交易项目成交次数夹克,球鞋300滑雪衫,球鞋100夹克,滑雪运动鞋Y1单独购买合计球鞋Y11慢跑鞋Y12上衣X衬衣X11010外套X2夹克X2140010040540滑雪衫X2220020060460单独购买5040合计65034010008表2运动鞋Y1单独合计球鞋Y11慢跑鞋Y12上衣X衬衣X1101规则“夹克→球鞋”的计算92022/12/9规则“夹克→球鞋”的计算92022/12/7运动鞋Y1单独购买合计球鞋Y11慢跑鞋Y12上衣X衬衣X11010外套X2夹克X211001滑雪衫X2218980899单独购买090090合计298810100010表3运动鞋Y1单独合计球鞋Y11慢跑鞋Y12上衣X衬衣X1101存在的问题:111.高置信度,低支持度:夹克球鞋”的置信度高达100%,但因为只有一人买了球鞋,这条关联规则支持度只有千分之一。2.支持度、置信度都比较高,但几乎是没有作用的规则。“买方便面则买牛奶”,“买牙刷则买牛奶”,“喜欢野外休闲则会买牛奶”。2022/12/9存在的问题:111.高置信度,低支持度:2022/12/7121、关联规则的分类二、关联规则的分类与作用2022/12/9121、关联规则的分类二、关联规则的分类与作用2022/12布尔型关联规则与数值型关联规则布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。2022/12/913布尔型关联规则与数值型关联规则布尔型关联规则处理的值都是离散如果关联规则中的项或属性每个只涉及一个维,则它是单维关联规则;反之,为多维关联规则。如,计算机→财务软件;年龄30~39岁、月收入4000元以上→高清电视如果在给定的规则集中,规则不涉及不同抽象层的项或属性,就称单层关联规则;反之,称多层。142022/12/9如果关联规则中的项或属性每个只涉及一个维,则它是单维关联规则2、关联规则的作用15购物篮分析:关联规则就是要找出哪些产品总是会同时出现在客户的购物篮中。商品摆放,基于商店不同的经营理念,如果将会经常一起购买的东西较近摆放,客户会比较方便购买,如果有意放在购物通道的两端,顾客寻找的过程中可以增加其他物品销售的可能性。关联规则可以处理所谓的匿名消费。(一张发票就是一个购物篮——与决策树和类神经网络不同。)关联规则与时序规则相结合(不能匿名,适合会员制)。先找出来哪些事务总是同时发生的关联规则,再加入时间的因素,找出哪些事务总是会先后发生的潜在规律。2022/12/92、关联规则的作用15购物篮分析:关联规则就是要找出哪些产品另外,只有同一个购物篮的商品信息能够分析的项目也很有限,因此,可以将气象资讯(温度、湿度、降雨)等转换为虚拟的商品项目,并入到购物篮中进行关联规则的分析。如,日本7-11相当著名的“七五三”规则。即是说如果一天当中温度相差7度、今天和昨天的温度差到5度、湿度差大于30%的话,代表感冒的人会增加,药店就要考虑把感冒药、温度计和口罩之类的用品上架。162022/12/9另外,只有同一个购物篮的商品信息能够分析的项目也很有限,因此三、

关联规则的挖掘172022/12/9三、关联规则的挖掘172022/12/7(一)关联规则挖掘的步骤第一步:找出所有频繁项集:根据定义,这些项集出现的频繁性(支持度)至少和预定义的最小支持度一样。第二步:由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。182022/12/9(一)关联规则挖掘的步骤第一步:找出所有频繁项集:根据定义,19对于一个给定的候选数据集,项集的数目呈指数增长。2022/12/9(二)Apriori演算法19对于一个给定的候选数据集,项集的数目呈指数增长。2022关联规则计算虽然容易但由于规则太多容易形成“组合爆炸”,因此,需要对这些规则进行筛选,筛选需要的统计量如下:最小支持度:规则必须符合的最小支持度阀值。最小置信度:计算规则所必须符合的最低置信度阀值。如果关联规则满足最小支持度和最小置信度,可以说该规则是有趣的。202022/12/91、算法所需要的前置统计量:关联规则计算虽然容易但由于规则太多容易形成“组合爆炸”,因此2、频繁项集项的集合称为项集(itemset)包含k个项的项集称为k-项集。集合{计算机,金融管理软件}就是一个2-项集。项集出现频数是包含项集的事务数,简称为项集的频数、支持计数或计数。212022/12/92、频繁项集项的集合称为项集(itemset)212022/如果项集满足最小支持度或满足min_sup与数据库中事务总数的乘积(即最小支持计数),则称它为频繁项集(frequentitemset)。频繁k-项集的集合通常记作Lk。2022/12/922如果项集满足最小支持度或满足min_sup与数据库中事务总数23对于A

C:support=support({A、C})=50%confidence=support({A、C})/support({A})=66.6%最小支持度50%最小可信度50%例:2022/12/923对于AC:最小支持度50%例:2022/12/74、Apriori算法:使用候选项集找频繁项集Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法的名字基于这样的事实:算法使用频繁项集性质的先验知识。它使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。242022/12/94、Apriori算法:使用候选项集找频繁项集Apriori例125数据库D扫描DC1L1L2C2C2扫描DC3L3扫描D2022/12/9为什么只有一项?例125数据库D扫描DC1L1L2C2C2扫描DC3L3扫描26例:L3={abc,abd,acd,ace,bcd}连接:L3*L3abcdfromabcandabdacdefromacdandace修剪:acdeisremovedbecauseadeisnotinL3C4={abcd}2022/12/9Apriori——剪枝频繁项集的任何子集也一定是频繁的。26例:L3={abc,abd,acd,ace,bc例3:27例3:273、Apriori算法的实现过程282022/12/93、Apriori算法的实现过程282022/12/74、由频繁项集产生关联规则一旦找出频繁项集,再通过最小置信度产生关联规则。关联规则的产生步骤如下:对于每个频繁项集l,产生l的所有非空子集。对于l的每个非空子集s,如果则输出规则“s→(l-s)”。292022/12/94、由频繁项集产生关联规则一旦找出频繁项集,再通过最小置信度以例3为例,看其中一个频繁项集l={I1,I2,I5},可以由l产生哪些关联规则?l的非空子集有{I1,I2}{I1,I5}{I2,I5}{I1}{I2}{I5}。结果关联规则如下,每个都列出了置信度。如果最小置信度阀值为70%,则只有第2、3和最后一个规则可以输出。302022/12/9以例3为例,看其中一个频繁项集l={I1,I2,I5},可以真正可取的规则具备的条件31并非所有的规则在符合阀值限制后都是有意义的,这样的规则还分为:有用的规则:包含高品质的有效情报常识无法解释的结果关联规则真正可取的是具备以下两个条件的规则:人们常识之外、意料之外的关联该规则必须具有潜在的作用2022/12/9真正可取的规则具备的条件31并非所有的规则在符合阀值限制后都5、案例2022/12/9325、案例2022/12/7322022/12/9332022/12/73334Apriori算法的核心:用频繁的(k–1)-项集生成候选的频繁k-项集用数据库扫描和模式匹配计算候选集的支持度Apriori的瓶颈:候选集生成巨大的候选集:104个频繁1-项集要生成107个候选2-项集要找尺寸为100的频繁模式,如{a1,a2,…,a100},你必须先产生21001030个候选集多次扫描数据库:如果最长的模式是n的话,则需要(n+1)次数据库扫描(三)Apriori够快了吗?—性能瓶颈2022/12/934Apriori算法的核心:(三)Apriori够快了吗?(四)负关联规则挖掘2022/12/935正确吗?(四)负关联规则挖掘2022/12/735正确吗?结束362022/12/9结束362022/12/737关联规则2022/12/91关联规则2022/12/7一、关联规则的定义38关联规则一般用以发现事务数据库中不同商品(项)之间的联系,用这些规则找出顾客的购买行为模式。这种规则可以应用于超市商品货架设计、货物摆放以及根据购买模式对用户进行分类。2022/12/9一、关联规则的定义2关联规则一般用以发现事务数据库中不同商品39二、关联规则:基本概念(一)支持度与置信度AA∩BB买尿布的客户二者都买的客户买啤酒的客户2022/12/93二、关联规则:基本概念(一)支持度与置信度AA∩B置信度confidence(.):是指购物篮分析中有了左边商品,同时又有右边商品的交易次数百分比,也就是说在所有的购买了左边商品的交易中,同时又购买了右边商品的交易概率。

401、置信度2022/12/9置信度confidence(.):是指购物篮分析中有了左边商2、支持度支持度sup(.):表示在购物篮分析中同时包含关联规则左右两边物品的交易次数百分比,即支持这个规则的交易的次数百分比。412022/12/92、支持度支持度sup(.):表示在购物篮分析中同时包含关联例:42对于规则ACsupport=support({A,

C})=50%confidence=support({A,

C})/support({A})=66.6%2022/12/9例:6对于规则AC2022/12/7交易项目成交次数夹克,球鞋300滑雪衫,球鞋100夹克,滑雪衫,球鞋100球鞋50慢跑鞋40夹克,慢跑鞋100滑雪衫,慢跑鞋200衬衣10夹克40滑雪衫60合计100043表1交易项目成交次数夹克,球鞋300滑雪衫,球鞋100夹克,滑雪运动鞋Y1单独购买合计球鞋Y11慢跑鞋Y12上衣X衬衣X11010外套X2夹克X2140010040540滑雪衫X2220020060460单独购买5040合计650340100044表2运动鞋Y1单独合计球鞋Y11慢跑鞋Y12上衣X衬衣X1101规则“夹克→球鞋”的计算452022/12/9规则“夹克→球鞋”的计算92022/12/7运动鞋Y1单独购买合计球鞋Y11慢跑鞋Y12上衣X衬衣X11010外套X2夹克X211001滑雪衫X2218980899单独购买090090合计298810100046表3运动鞋Y1单独合计球鞋Y11慢跑鞋Y12上衣X衬衣X1101存在的问题:471.高置信度,低支持度:夹克球鞋”的置信度高达100%,但因为只有一人买了球鞋,这条关联规则支持度只有千分之一。2.支持度、置信度都比较高,但几乎是没有作用的规则。“买方便面则买牛奶”,“买牙刷则买牛奶”,“喜欢野外休闲则会买牛奶”。2022/12/9存在的问题:111.高置信度,低支持度:2022/12/7481、关联规则的分类二、关联规则的分类与作用2022/12/9121、关联规则的分类二、关联规则的分类与作用2022/12布尔型关联规则与数值型关联规则布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。2022/12/949布尔型关联规则与数值型关联规则布尔型关联规则处理的值都是离散如果关联规则中的项或属性每个只涉及一个维,则它是单维关联规则;反之,为多维关联规则。如,计算机→财务软件;年龄30~39岁、月收入4000元以上→高清电视如果在给定的规则集中,规则不涉及不同抽象层的项或属性,就称单层关联规则;反之,称多层。502022/12/9如果关联规则中的项或属性每个只涉及一个维,则它是单维关联规则2、关联规则的作用51购物篮分析:关联规则就是要找出哪些产品总是会同时出现在客户的购物篮中。商品摆放,基于商店不同的经营理念,如果将会经常一起购买的东西较近摆放,客户会比较方便购买,如果有意放在购物通道的两端,顾客寻找的过程中可以增加其他物品销售的可能性。关联规则可以处理所谓的匿名消费。(一张发票就是一个购物篮——与决策树和类神经网络不同。)关联规则与时序规则相结合(不能匿名,适合会员制)。先找出来哪些事务总是同时发生的关联规则,再加入时间的因素,找出哪些事务总是会先后发生的潜在规律。2022/12/92、关联规则的作用15购物篮分析:关联规则就是要找出哪些产品另外,只有同一个购物篮的商品信息能够分析的项目也很有限,因此,可以将气象资讯(温度、湿度、降雨)等转换为虚拟的商品项目,并入到购物篮中进行关联规则的分析。如,日本7-11相当著名的“七五三”规则。即是说如果一天当中温度相差7度、今天和昨天的温度差到5度、湿度差大于30%的话,代表感冒的人会增加,药店就要考虑把感冒药、温度计和口罩之类的用品上架。522022/12/9另外,只有同一个购物篮的商品信息能够分析的项目也很有限,因此三、

关联规则的挖掘532022/12/9三、关联规则的挖掘172022/12/7(一)关联规则挖掘的步骤第一步:找出所有频繁项集:根据定义,这些项集出现的频繁性(支持度)至少和预定义的最小支持度一样。第二步:由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。542022/12/9(一)关联规则挖掘的步骤第一步:找出所有频繁项集:根据定义,55对于一个给定的候选数据集,项集的数目呈指数增长。2022/12/9(二)Apriori演算法19对于一个给定的候选数据集,项集的数目呈指数增长。2022关联规则计算虽然容易但由于规则太多容易形成“组合爆炸”,因此,需要对这些规则进行筛选,筛选需要的统计量如下:最小支持度:规则必须符合的最小支持度阀值。最小置信度:计算规则所必须符合的最低置信度阀值。如果关联规则满足最小支持度和最小置信度,可以说该规则是有趣的。562022/12/91、算法所需要的前置统计量:关联规则计算虽然容易但由于规则太多容易形成“组合爆炸”,因此2、频繁项集项的集合称为项集(itemset)包含k个项的项集称为k-项集。集合{计算机,金融管理软件}就是一个2-项集。项集出现频数是包含项集的事务数,简称为项集的频数、支持计数或计数。572022/12/92、频繁项集项的集合称为项集(itemset)212022/如果项集满足最小支持度或满足min_sup与数据库中事务总数的乘积(即最小支持计数),则称它为频繁项集(frequentitemset)。频繁k-项集的集合通常记作Lk。2022/12/958如果项集满足最小支持度或满足min_sup与数据库中事务总数59对于A

C:support=support({A、C})=50%confidence=support({A、C})/support({A})=66.6%最小支持度50%最小可信度50%例:2022/12/923对于AC:最小支持度50%例:2022/12/74、Apriori算法:使用候选项集找频繁项集Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法的名字基于这样的事实:算法使用频繁项集性质的先验知识。它使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。602022/12/94、Apriori算法:使用候选项集找频繁项集Apriori例161数据库D扫描DC1L1L2C2C2扫描DC3L3扫描D2022/12/9为什么只有一项?例125数据库D扫描DC1L1L2C2C2扫描DC3L3扫描62例:L3={abc,abd,acd,ace,bcd}连接:L3*L3abcdfromabcandabdacdefromacdandace修剪:acdeisremovedbecauseadeisnotinL3C4={abcd}2022/12/9Apriori——剪枝频繁项集的任何子集也一定是频繁的。26例:L3={abc,abd,acd,ace,bc例3:63例3:273、Apriori算法的实现过程642022/12/93、Apriori算法的实现过程282022/12/7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论