商务智能理论与应用7关联规则_第1页
商务智能理论与应用7关联规则_第2页
商务智能理论与应用7关联规则_第3页
商务智能理论与应用7关联规则_第4页
商务智能理论与应用7关联规则_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1关联规那么2024/1/17一、关联规那么的定义2关联规那么普通用以发现事务数据库中不同商品〔项〕之间的联络,用这些规那么找出顾客的购买行为方式。这种规那么可以运用于超市商品货架设计、货物摆放以及根据购买方式对用户进展分类。2024/1/173二、关联规那么:根本概念〔一〕支持度与置信度AA∩BB买尿布的客户二者都买的客户买啤酒的客户2024/1/17置信度confidence(.):是指购物篮分析中有了左边商品,同时又有右边商品的买卖次数百分比,也就是说在一切的购买了左边商品的买卖中,同时又购买了右边商品的买卖概率。

41、置信度2024/1/172、支持度支持度sup(.):表示在购物篮分析中同时包含关联规那么左右两边物品的买卖次数百分比,即支持这个规那么的买卖的次数百分比。52024/1/17例:6对于规那么ACsupport=support({A,C})=50%confidence=support({A,C})/support({A})=66.6%2024/1/17交易项目成交次数夹克,球鞋300滑雪衫,球鞋100夹克,滑雪衫,球鞋100球鞋50慢跑鞋40夹克,慢跑鞋100滑雪衫,慢跑鞋200衬衣10夹克40滑雪衫60合计10007表1运动鞋Y1单独购买合计球鞋Y11慢跑鞋Y12上衣X衬衣X11010外套X2夹克X2140010040540滑雪衫X2220020060460单独购买5040合计65034010008表2规那么“夹克→球鞋〞的计算92024/1/17运动鞋Y1单独购买合计球鞋Y11慢跑鞋Y12上衣X衬衣X11010外套X2夹克X211001滑雪衫X2218980899单独购买090090合计298810100010表3存在的问题:111.高置信度,低支持度:夹克球鞋〞的置信度高达100%,但由于只需一人买了球鞋,这条关联规那么支持度只需千分之一。2.支持度、置信度都比较高,但几乎是没有作用的规那么。“买方便面那么买牛奶〞,“买牙刷那么买牛奶〞,“喜欢野外休闲那么会买牛奶〞。2024/1/17121、关联规那么的分类二、关联规那么的分类与作用2024/1/17布尔型关联规那么与数值型关联规那么布尔型关联规那么处置的值都是离散的、种类化的,它显示了这些变量之间的关系;数值型关联规那么可以和多维关联或多层关联规那么结合起来,对数值型字段进展处置,将其进展动态的分割,或者直接对原始的数据进展处置,当然数值型关联规那么中也可以包含种类变量。2024/1/1713假设关联规那么中的项或属性每个只涉及一个维,那么它是单维关联规那么;反之,为多维关联规那么。如,计算机→财务软件;年龄30~39岁、月收入4000元以上→高清电视假设在给定的规那么集中,规那么不涉及不同笼统层的项或属性,就称单层关联规那么;反之,称多层。142024/1/172、关联规那么的作用15购物篮分析:关联规那么就是要找出哪些产品总是会同时出如今客户的购物篮中。商品摆放,基于商店不同的运营理念,假设将会经常一同购买的东西较近摆放,客户会比较方便购买,假设有意放在购物通道的两端,顾客寻觅的过程中可以添加其他物品销售的能够性。关联规那么可以处置所谓的匿名消费。〔一张发票就是一个购物篮——与决策树和类神经网络不同。〕关联规那么与时序规那么相结合〔不能匿名,适宜会员制〕。先找出来哪些事务总是同时发生的关联规那么,再参与时间的要素,找出哪些事务总是会先后发生的潜在规律。2024/1/17另外,只需同一个购物篮的商品信息可以分析的工程也很有限,因此,可以将气候资讯〔温度、湿度、降雨〕等转换为虚拟的商品工程,并入到购物篮中进展关联规那么的分析。如,日本7-11相当著名的“七五三〞规那么。即是说假设一天当中温度相差7度、今天和昨天的温度差到5度、湿度差大于30%的话,代表感冒的人会添加,药店就要思索把感冒药、温度计和口罩之类的用品上架。162024/1/17三、关联规那么的发掘172024/1/17〔一〕关联规那么发掘的步骤第一步:找出一切频繁项集:根据定义,这些项集出现的频繁性〔支持度〕至少和预定义的最小支持度一样。第二步:由频繁项集产生强关联规那么:根据定义,这些规那么必需满足最小支持度和最小置信度。182024/1/1719对于一个给定的候选数据集,项集的数目呈指数增长。2024/1/17〔二〕Apriori演算法关联规那么计算虽然容易但由于规那么太多容易构成“组合爆炸〞,因此,需求对这些规那么进展挑选,挑选需求的统计量如下:最小支持度:规那么必需符合的最小支持度阀值。最小置信度:计算规那么所必需符合的最低置信度阀值。假设关联规那么满足最小支持度和最小置信度,可以说该规那么是有趣的。202024/1/171、算法所需求的前置统计量:2、频繁项集项的集合称为项集〔itemset〕包含k个项的项集称为k-项集。集合{计算机,金融管理软件}就是一个2-项集。项集出现频数是包含项集的事务数,简称为项集的频数、支持计数或计数。212024/1/17假设项集满足最小支持度或满足min_sup与数据库中事务总数的乘积〔即最小支持计数〕,那么称它为频繁项集(frequentitemset)。频繁k-项集的集合通常记作Lk。2024/1/172223对于AC:support=support({A、C})=50%confidence=support({A、C})/support({A})=66.6%最小支持度50%最小可信度50%例:2024/1/174、Apriori算法:运用候选项集找频繁项集Apriori算法是一种最有影响的发掘布尔关联规那么频繁项集的算法。算法的名字基于这样的现实:算法运用频繁项集性质的先验知识。它运用一种称作逐层搜索的迭代方法,k-项集用于探求(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk需求一次数据库扫描。242024/1/17例125数据库D扫描DC1L1L2C2C2扫描DC3L3扫描D2024/1/17为什么只需一项?26例:L3={abc,abd,acd,ace,bcd}衔接:L3*L3abcdfromabcandabdacdefromacdandace修剪:acdeisremovedbecauseadeisnotinL3C4={abcd}2024/1/17Apriori——剪枝频繁项集的任何子集也一定是频繁的。例3:273、Apriori算法的实现过程282024/1/174、由频繁项集产生关联规那么一旦找出频繁项集,再经过最小置信度产生关联规那么。关联规那么的产生步骤如下:对于每个频繁项集l,产生l的一切非空子集。对于l的每个非空子集s,假设那么输出规那么“s→(l-s)〞。292024/1/17以例3为例,看其中一个频繁项集l={I1,I2,I5},可以由l产生哪些关联规那么?l的非空子集有{I1,I2}{I1,I5}{I2,I5}{I1}{I2}{I5}。结果关联规那么如下,每个都列出了置信度。假设最小置信度阀值为70%,那么只需第2、3和最后一个规那么可以输出。302024/1/17真正可取的规那么具备的条件31并非一切的规那么在符合阀值限制后都是有意义的,这样的规那么还分为:有用的规那么:包含高质量的有效情报常识无法解释的结果关联规那么真正可取的是具备以下两个条件的规那么:人们常识之外、预料之外的关联该规那么必需具有潜在的作用2024/1/175、案例2024/1/17322024/1/173334Apriori算法的中心:用频繁的(k–1)-项集生成候选的频繁k-项集用数据库扫描和方式匹配计算候选集的支持度Apriori的瓶颈:候选集生成宏大的候选集:104个频

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论