




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、商务智能原理与方法商务智能原理与方法参考文档参考文档2022年5月5日机机 密密商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第1页目目 录录引言引言商务智能过程商务智能过程数据仓库数据仓库商务智能运用商务智能运用构建商务智能环境构建商务智能环境关联规那么关联规那么分类分析分类分析聚类分析聚类分析概念描画概念描画商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第2页关联规那么关联规那么关联规那么简介关联规那么简介关联规那么发掘方法关联规那么发掘方法关联规那么兴趣性关联规那么兴趣性关联规那么知识方式扩展关联规那么知识方式扩展简单关联规那么简单关联规那
2、么小结及练习小结及练习目目 录录商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第3页关联关联association规那么是当前数据发掘研讨的主要方法之一,它反映一规那么是当前数据发掘研讨的主要方法之一,它反映一个事物与其他事物之间的相互依存性和关联性。假设两个或者多个事物之间存个事物与其他事物之间的相互依存性和关联性。假设两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就可以经过其他事物预测到在一定的关联关系,那么,其中一个事物就可以经过其他事物预测到典型的关联规那么发现问题是对超市中的货篮数据Market Basket进展分析。经过发现顾客放入货篮中的不同商
3、品之间的关系来分析顾客的购买习惯。将顾客同时购买的东西,放在比较远的位置,诱导顾客阅读并购买更多的东西。把经常同时购买的商品放在比较接近的货架上,便于顾客同时购买。商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第4页假设我们把商场内的一切商品设置为一个集合,每个商品就是一个数据项假设我们把商场内的一切商品设置为一个集合,每个商品就是一个数据项item。商场的买卖数据库通常包含每个顾客每一次购买的商品记录。关联规。商场的买卖数据库通常包含每个顾客每一次购买的商品记录。关联规那么表达的就是商品间联动购买的情况那么表达的就是商品间联动购买的情况购买羽毛球拍的顾客通常也购买浴巾
4、,这种关联关系可以用:羽毛球拍=浴巾这样的关联规那么来表示,这样的规那么在数据库中能否有代表性,重要性及有用性,需求多个步骤来评判。规那么中的规那么中的数据出现的数据出现的能否足够频能否足够频繁繁数据之间的数据之间的联络能否足联络能否足够严密够严密数据之间的数据之间的联络能否符联络能否符合其他兴趣合其他兴趣性的思索性的思索商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第5页关联规那么的根本概念关联规那么的根本概念(1)n设I=i1, i2, im为一切工程的集合,D为事务数据库,事务T是一个工程子集TI。每一个事务具有独一的事务标识TID。对于恣意非空项集AA I ,假
5、设记录T包含A,那么称记录T支持项集A。假设项集A中包含k个工程,那么称其为k项集。苹果,橘子,香苹果,橘子,香蕉,梨,西瓜蕉,梨,西瓜标识标识TID项目子集项目子集1苹果2橘子,香蕉3梨,西瓜,香蕉橘子橘子梨,香蕉梨,香蕉商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第6页关联规那么的根本概念关联规那么的根本概念(2)n商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第7页关联规那么的根本概念关联规那么的根本概念(3)商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第8页案例:商场记录顾客购买商品的数据,假设有数据库案例:商
6、场记录顾客购买商品的数据,假设有数据库D,数据集合,数据集合I=MP3,羽,羽毛球拍,旅游鞋,浴巾,跑步机毛球拍,旅游鞋,浴巾,跑步机购买记录购买记录TID购买商品购买商品T100旅游鞋,浴巾,MP3T200浴巾,跑步机T300浴巾,羽毛球拍T400旅游鞋,浴巾,跑步机T500旅游鞋,羽毛球拍T600浴巾,羽毛球拍T700旅游鞋,羽毛球拍T800旅游鞋,浴巾,羽毛球拍,MP3T900旅游鞋,浴巾,羽毛球拍商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第9页案例计算案例计算Dsupp(羽毛球拍)=Dsupp(MP3)=Dsupp(旅游鞋,跑步机)=Dsupp(羽毛球拍,浴
7、巾)=假设给定=20%,则上述哪些是频繁集假设给定=20%,=60%,则羽毛球拍=浴巾是否是合格关联规则6/96/92/92/91/91/94/94/9商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第10页案例总结案例总结n假设指定一对项集X和Y,并且要求验证X=Y在数据集T上能否为一个合格关联规那么,那么人们可以直接根据上述定义来计算X=Y的支持度和置信度,并且经过与给定的阈值进展比较来判别。n这与很多模型驱动的方法类似,比如给定一个线性回归模型:Y=a+bX+ ,人们可以经过曾经知道的数据来判别模型与数据的符合程度。商务智能原理与方法商务智能原理与方法2022-5-
8、5版权所有,不得翻印第11页发现关联规那么需求阅历两个步骤,每一个步骤都对应规那么生成过程中两大发现关联规那么需求阅历两个步骤,每一个步骤都对应规那么生成过程中两大问题种的一个问题种的一个频繁项集生成满足最频繁项集生成满足最小信任度阈值的规那小信任度阈值的规那么么找出一切频繁项集。找出一切频繁项集。这项任务极具挑战性。这项任务极具挑战性。发现关联规那么需求发现关联规那么需求阅历两个步骤阅历两个步骤规那么的生成过程存在两个大问规那么的生成过程存在两个大问题题规那么数量问题规那么质量问题商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第12页关联规那么关联规那么关联规那么简介
9、关联规那么简介关联规那么发掘方法关联规那么发掘方法关联规那么兴趣性关联规那么兴趣性关联规那么知识方式扩展关联规那么知识方式扩展简单关联规那么简单关联规那么小结及练习小结及练习目目 录录商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第13页支持度和置信度是评价关联规那么的两个根本测度,进一步讨论关联规那么在支持度和置信度是评价关联规那么的两个根本测度,进一步讨论关联规那么在这两个测度上的性质对于关联规那么的发掘和运用很有意义这两个测度上的性质对于关联规那么的发掘和运用很有意义1n首先由于Dsupp X=Y =DsuppXY,我们可知道计算规那么X=Y的支持度就等于计算项集
10、XY的支持度。n此外,由于Dconf X=Y =|XY| / |X|=|XY| /|T|)/ (|X|/|T|)= DsuppXY/ DsuppX,我们知道X=Y 的置信度的计算可以经过XY和X的支持度得到。n这样一个发掘思绪就是经过扫描数据库,先计算一切项集的支持度,而后经过支持度计算置信度,而不需求对数据库再次扫描。商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第14页进一步讨论关联规那么进一步讨论关联规那么2n商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第15页进一步讨论关联规那么进一步讨论关联规那么3n据此可知,我们计算项集支持度的过程
11、中,可以采用逐层扩展方式,即:先计算1项集,再计算2项集m-1项集。当计算k项集支持度的时候2km-1,只需求思索哪些其子集是频繁集的k项集,而不用思索包含非频繁子集的k项集,这样可以优化计算。n这里,我们把计算获得项集支持度的过程称为生成候选项集的过程,把计算出由频繁子集组成的项集的支持度的过程称为生成候选频繁集的过程。商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第16页Apriori方法是基于上述思绪的关联规那么发掘的经典方法,它是一种基于逐层方法是基于上述思绪的关联规那么发掘的经典方法,它是一种基于逐层搜索的迭代算法,从搜索的迭代算法,从k项集生成满足规那么的项
12、集生成满足规那么的k+1项集。项集。Apriori算法命名源于算法命名源于算法运用了频繁项集性质的先验算法运用了频繁项集性质的先验Prior知识。知识。 nApriori算法将发现关联规那么的过程分为两个步骤:n经过迭代,检索出事务数据库中的一切频繁项集,即支持度不低于用户设定的阈值的项集;n利用频繁项集构造出满足用户最小信任度的规那么。n发掘或识别出一切频繁项集是该算法的中心,占整个计算量的大部分。 商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第17页Apriori算法:变量阐明算法:变量阐明Ck:k-候选项集候选项集 ;Lk:k-频繁项集;频繁项集;minsup:
13、最小:最小支持度阈值支持度阈值kkL商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第18页实例最小支持度实例最小支持度50%Database TDB1st scanC1L1L2C2C22nd scanC3L33rd scanTidItems10A, C, D20B, C, E30A, B, C, E40B, EItemsetsupA2B3C3D1E3ItemsetsupA2B3C3E3ItemsetA, BA, CA, EB, CB, EC, EItemsetsupA, B1A, C2A, E1B, C2B, E3C, E2ItemsetsupA, C2B, C2B,
14、E3C, E2ItemsetB, C, EItemsetsupB, C, E2商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第19页案例:某电子商城的购物记录,经理很希望知道什么样的顾客购买了什么样的案例:某电子商城的购物记录,经理很希望知道什么样的顾客购买了什么样的手机,购买了某种手机能否还会购买另一种手机设定手机,购买了某种手机能否还会购买另一种手机设定=40%,=100%顾客编号顾客编号数据项数据项女:A男:B青年:C老年:DIphone:ENokia:F11111211113111411151116111711118111911110111商务智能原理与方法商务
15、智能原理与方法2022-5-5版权所有,不得翻印第20页客户手机频繁集客户手机频繁集1-itemsetssupport2-itemsetssupport3-itemsetssupportA60%AB0ACF40%B40%AC40%C60%AD20%D40%AE30%E70%AF50%F60%BC20%BD20%BE40%BF10%CD0CE30%CF50%DE40%DF10%EF30%商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第21页客户手机的关联规那么客户手机的关联规那么ACAFCFDERulesConfRulesConfRulesConfRulesConfA=C
16、4/6A=F5/6C=F5/6D=E1C=A4/6F=A5/6F=C5/6E=D4/6ACFRulesConfRulesConfRulesConfA=CF4/6C=AF4/6F=AC4/6AC=F1AF=C4/5CF=A4/5商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第22页Apriori算法的缺乏算法的缺乏多次扫描数据库:多次扫描数据库:CkCk中的项集中的项集是用来产生频集的候选集,最是用来产生频集的候选集,最后的频集后的频集LkLk必需是必需是CkCk的一个子的一个子集。集。CkCk中的每个元素需在买卖中的每个元素需在买卖数据库中进展验证来决议其能数据库中进展
17、验证来决议其能否参与否参与LkLk,这里的验证过程是,这里的验证过程是算法性能的一个瓶颈。这个方算法性能的一个瓶颈。这个方法要求多次扫描能够很大的买法要求多次扫描能够很大的买卖数据库卖数据库所发掘的规那么存在大量冗余:所发掘的规那么存在大量冗余:算法一定要等到扫描完好个数算法一定要等到扫描完好个数据库后才做结合据库后才做结合, ,由于在扫描的由于在扫描的过程中过程中, ,有些候选项集在假设干有些候选项集在假设干的区段中的支持度已大于等于的区段中的支持度已大于等于运用者制定的最小支持度运用者制定的最小支持度, ,因此因此在扫描这些假设干个区段后在扫描这些假设干个区段后, ,便便可以找出频集可以找
18、出频集, ,并直接结合产生并直接结合产生下一个层级的候选物项集下一个层级的候选物项集商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第23页Apriori方法被以为是一个有效的经典的关联规那么发掘方法。对方法被以为是一个有效的经典的关联规那么发掘方法。对Apriori方法方法的进一步优化还可以从以下角度展开。的进一步优化还可以从以下角度展开。编号编号算法算法内容内容1Apriori-Tid,Apriori-Hybrid,Hash树DHP算法在频繁项集合生成过程中,对冗余项集合进行剪枝2DIC,Eclat,MacEclat,Clique,MaxClique通过减少对数据库的
19、扫描来提高效率3SETM,MONET从关系数据库操作角度出发,开发出基于关系数据库操作的算法4基于分区操作和基于随即的分区算法5基于采样的算法6并行算法和分布算法商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第24页关联规那么关联规那么关联规那么简介关联规那么简介关联规那么发掘方法关联规那么发掘方法关联规那么兴趣性关联规那么兴趣性关联规那么知识方式扩展关联规那么知识方式扩展简单关联规那么简单关联规那么小结及练习小结及练习目目 录录商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第25页关联规那么的运用越来越广泛,在很多行业都表达出了重要性。但是用户
20、怎样关联规那么的运用越来越广泛,在很多行业都表达出了重要性。但是用户怎样知道从发掘系统得到的结果就是他们想要的,就是对他们有价值的结果呢?怎知道从发掘系统得到的结果就是他们想要的,就是对他们有价值的结果呢?怎样来评价一个规那么能否有价值呢?主要从两个层面来评价样来评价一个规那么能否有价值呢?主要从两个层面来评价用户客观层面用户客观层面系统客观层面系统客观层面商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第26页1系统客观层面:大多数算法都运用支持度系统客观层面:大多数算法都运用支持度-置信度的框架。这样的构造并置信度的框架。这样的构造并不能保证产生的关联规那么是完全正确
21、的。规那么的置信度有一定的欺骗性,不能保证产生的关联规那么是完全正确的。规那么的置信度有一定的欺骗性,它只表示了规那么前件和后件的条件概率估计,并没有度量工程之间蕴涵的实它只表示了规那么前件和后件的条件概率估计,并没有度量工程之间蕴涵的实践强度践强度购买咖啡和牛奶的统计表(购买咖啡和牛奶的统计表(% %)m mc c20205 5252570705 5757590901010100100商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第27页案例分析计算案例分析计算nCoffee=milk,S=20/100=20%,C=(cm)/c=20/25=80%,当我们把可信度和支
22、持度阈值定为低于0. 8 和0. 2 时,很显然该规那么将会作为目的规那么之一被采掘出来. 由此我们得出结论, 刺激顾客对咖啡的购买愿望将添加奶粉的销售量, 或换句话说, 将咖啡和奶粉放在一同将提高奶粉的销售量.商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第28页案例分析计算案例分析计算n商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第29页案例分析计算案例分析计算n于是我们可以得出结论, 在思索了反面例如的影响之后, 问题出现了. 并非采掘出的规那么可信度或支持度不高, 但一条即使可信度和支持度都很高的规那么其实践利用价值曾经难以一定了, 在
23、此我们提出一个处理的方法, 引入第3 个阈值兴趣度.商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第30页 n期望可信度描画了在没有任何条件影响时,项集B在一切事务中出现的概率有多大。假设某天共有1000个顾客到商场购买商品,其中有200个顾客购买了冰箱,那么上述的关联规那么的期望可信度就是20%。商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第31页第第3 个阈值个阈值-作用度作用度(提升度、兴趣度提升度、兴趣度):Lift,是置信度与期望可信度的比值。作是置信度与期望可信度的比值。作用度描画项集用度描画项集A的出现对项集的出现对项集B的出现有
24、多大的影响的出现有多大的影响n商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第32页作用度的计算及结果解释作用度的计算及结果解释n在上例中,假设购买微波炉的顾客70%也购买冰箱,那么作用度就是 70%/20%=3.5n当Lift1时,规那么的前项与后项正相关,有兴趣n当Lift=1时,规那么的前项与后项无相关,无兴趣n当LiftY影响度表示规那么前项影响度表示规那么前项X和和后项后项Y的的相关程度的的相关程度,influence影响度是将影响度是将T检验的思想引入到关联规那么中而检验的思想引入到关联规那么中而成的成的n显著性差别显著性差别(significance le
25、vel)(significance level),是一个统计学名词。它,是一个统计学名词。它是统计学上对数据差别性的评价。当数据之间具有了显著性是统计学上对数据差别性的评价。当数据之间具有了显著性差别,就阐明参与比对的数据不是来自于同一总体差别,就阐明参与比对的数据不是来自于同一总体PopulationPopulation,而是来自于具有差别的两个不同总体。我,而是来自于具有差别的两个不同总体。我们说们说A A、B B两数据在两数据在0.050.05程度上具备显著性差别,这是说两组程度上具备显著性差别,这是说两组数据具备显著性差别的能够性为数据具备显著性差别的能够性为95%95%。商务智能原理
26、与方法商务智能原理与方法2022-5-5版权所有,不得翻印第35页第第4 个阈值个阈值影响度影响度:Influencen商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第36页支持度、置信度、作用度以及影响度都是兴趣性测度的内容。兴趣性测度的运支持度、置信度、作用度以及影响度都是兴趣性测度的内容。兴趣性测度的运用旨在协助提升关联规那么的质量,并也可以运用到算法优化的过程中协助提用旨在协助提升关联规那么的质量,并也可以运用到算法优化的过程中协助提升计算效率升计算效率兴趣性在发现关联规兴趣性在发现关联规那么知识中起到的作那么知识中起到的作用用减少冗余规那么,减少冗余规那么,精
27、简关联规那么集精简关联规那么集合合防止前提和结论相防止前提和结论相关的频繁规那么关的频繁规那么防止对背景知识的防止对背景知识的反复,突出新的规反复,突出新的规那么那么凸显有价值的例外凸显有价值的例外规那么规那么挑选出用户所关怀挑选出用户所关怀的规那么,屏蔽用的规那么,屏蔽用户所不关怀的规那户所不关怀的规那么么提高关联规那么发提高关联规那么发掘的效率掘的效率1 12 23 34 45 56 6商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第37页2用户客观层面:系统客观层面只是发掘潜在有趣的关联规那么,真正有用户客观层面:系统客观层面只是发掘潜在有趣的关联规那么,真正有趣
28、的关联规那么要由用户来决议,只需用户可以决议规那么的有效性、可行性趣的关联规那么要由用户来决议,只需用户可以决议规那么的有效性、可行性,因此在发掘数据时,引入约束,因此在发掘数据时,引入约束数数据据约约束束维维/层约层约束束规规那那么约么约束束1 1指定义务相关的数据集1 12 23 32 2指定所用的维或概念分层的层3 3指定要发掘的关联规那么的方式注:由于每个用户的知识程度和知识背景不同,即使对于同一数据集,用户给定的约束也会不尽一样,而且对发掘到的同样的一条关联规那么,感兴趣的程度也会不同。因此,客观层面上的度量方法有很大的随机性,它只适宜某一特定的领域或特定的背景下,不具有普遍性。商务
29、智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第38页关联规那么关联规那么关联规那么简介关联规那么简介关联规那么发掘方法关联规那么发掘方法关联规那么兴趣性关联规那么兴趣性关联规那么知识方式扩展关联规那么知识方式扩展简单关联规那么简单关联规那么小结及练习小结及练习目目 录录商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第39页 广义关联规那广义关联规那么么数量关联规那数量关联规那么么在实践运用中,人们经常会遇到需求在实践运用中,人们经常会遇到需求扩展或丰富布尔关联规那么语义情形扩展或丰富布尔关联规那么语义情形商务智能原理与方法商务智能原理与方法2022
30、-5-5版权所有,不得翻印第40页广义关联规那么:包含高层数据间关系的关联规那么成为广义关联规那么。对广义关联规那么:包含高层数据间关系的关联规那么成为广义关联规那么。对于一些实践运用问题,人们发如今数据之间能够存在一定的关系,比如超市中于一些实践运用问题,人们发如今数据之间能够存在一定的关系,比如超市中的商品目录和类别划分所构成的反响超类和子类的隶属关系层次关系的商品目录和类别划分所构成的反响超类和子类的隶属关系层次关系获得并利用层次构造信息对于决策分析是有意义的获得并利用层次构造信息对于决策分析是有意义的1、高层数据关联反映了有意义的知识内涵,比如“羽毛球拍属于“运动器械类,“MP3属于“
31、电子产品类,“运动器械=电子产品对管理决策有用2 2、一些在底层数据间不显著的关联方式,能、一些在底层数据间不显著的关联方式,能够在高层数据间显著。比如够在高层数据间显著。比如“羽毛球拍羽毛球拍=MP3=MP3和和“起跑器起跑器=数字摄像机不一定足够频数字摄像机不一定足够频繁,但是他们的超类层面运动器械繁,但是他们的超类层面运动器械=电子电子产品能够是频繁的。产品能够是频繁的。扩展关联规那么知识表达的方式和语义不仅可以描画层次构造中最低层数据项之间的关联,而且还可以描画层次中高数据类之间的关联。商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第41页一个直接用一个直接用A
32、priori方法发掘广义关联规那么的做法是转换数据。根本思绪是将方法发掘广义关联规那么的做法是转换数据。根本思绪是将此次构造的一切高层数据超类也作为数据项放入数据库中。例题详解如下此次构造的一切高层数据超类也作为数据项放入数据库中。例题详解如下:某数码店销售笔记本电脑、打印机和数码相机三种产品:某数码店销售笔记本电脑、打印机和数码相机三种产品:笔记本电脑:笔记本电脑:DELL D6DELL D6,Sony S3Sony S3,Sony T7Sony T7打印机:打印机:HP1010HP1010,HP4300HP4300,Canon LBP5200Canon LBP5200数码相机:数码相机:C
33、anon EOS-7DCanon EOS-7D, Canon Ixus700 Canon Ixus700,Sony DSC-V3Sony DSC-V3商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第42页数码店销售记录数码店销售记录TID顾客顾客产品产品1张三DELLD6,HP10102李四DELLD6,CanonLBP5200,SonyDSC-V33张三SonyS3,CanonLBP52004王五DELLD6,HP43005李四SonyT7,CanonLBP52006王五CanonLBP52007李四HP1010,HP4300,CanonEOS-7D8李四CanonI
34、xus7009张三CanonEOS-7D,SonyDSC-V310王五CanonIxus700笔记本电脑笔记本电脑打印机打印机数码相机数码相机商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第43页数码产品的层次构造数码产品的层次构造笔记本电脑笔记本电脑DELLDELL笔记本电脑笔记本电脑SONYSONY笔记本电脑笔记本电脑DELL D6DELL D6Sony S3Sony S3Sony T7Sony T7打印机打印机CanonCanon打印机打印机HPHP打印机打印机Canon Canon LBP5200LBP5200HP 4300HP 4300HP 1010HP 10
35、10数码相机数码相机SonySony数码相机数码相机CanonCanon数码相机数码相机Sony Sony DSC-V3DSC-V3Canon Canon EOS-7DEOS-7DCanon Canon Ixus700Ixus700商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第44页假设设定的最小支持度为假设设定的最小支持度为30%,最小置信度为,最小置信度为100%,那么合格的关联规那么,那么合格的关联规那么有:有:1-itemsets支持度支持度2-itemsets支持度支持度DELLD60.3DELLD6,打印机0.3CanonLBP52000.4CanonLB
36、P5200,笔记本电脑0.3DELLDELL笔记本电脑笔记本电脑0.3DELLDELL笔记本电脑笔记本电脑,打印机0.3笔记本电脑0.5笔记本电脑,CanonCanon打印机打印机0.3CanonCanon打印机打印机0.4笔记本电脑,打印机0.5HPHP打印机打印机0.3打印机0.7CanonCanon数码相机数码相机0.4数码相机0.5规则规则支持度支持度置信度置信度DELLD6=打印机0.31DELLDELL笔记本电脑笔记本电脑=打印机0.31笔记本电脑=打印机0.51商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第45页在广义关联规那么的发掘中,可以引入一些性质
37、或兴趣性测度来进展剪枝和过在广义关联规那么的发掘中,可以引入一些性质或兴趣性测度来进展剪枝和过滤低质量的规那么滤低质量的规那么n超类和其所属子类之间的关联没有意义:MP3=电子产品n另外子类/超类之间的关系也会呵斥一定的冗余:n比如:“DELL笔记本电脑=打印机和“笔记本电脑=打印机。我们知道笔记本电脑中有60%是DELL笔记本电脑,所以上述两个规那么并没带来什么特别不同于“平均期望的信息即Dsupp笔记本电脑=打印机X0.6=0.3,规那么“DELL笔记本电脑=打印机可以剔除。商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第46页数量关联规那么:在实践中,碰到的数据通
38、常是类别数据或数值数据,如商品数量关联规那么:在实践中,碰到的数据通常是类别数据或数值数据,如商品的数量、家庭的收入和客户的年龄等,这些数据属性分别成为多值属性和延续的数量、家庭的收入和客户的年龄等,这些数据属性分别成为多值属性和延续属性。基于多值和延续属性的关联规那么称为数量关联规那么属性。基于多值和延续属性的关联规那么称为数量关联规那么n我们思索的超市问题,我们以往只思索“能否购买的问题,而没有思索“购买多少的问题。基于Apriori算法发掘数量关联规那么的一个方法是进展数据转换。采用离散化的方法划分延续属性的值域。将每一个离散化得到的区间属性如年龄30,50作为一个新属性,并且将原数据值
39、在此区间上的匹配构造构成一个相应的布尔真值。比如,假设原纪录t年龄为45,我们划定的年龄属性30,50为布尔值1,那么t的布尔值就为1;假设原记录年龄t为25,那么其布尔值为0.n通常一个数量关联规那么知识方式的例子为:水果15KG=饮料212L显然,数据划分的构造对数据发掘的结果又很大的影响,因此,设计和选择适宜的离散化方法是人们研讨和运用的课题。商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第47页关联规那么关联规那么关联规那么简介关联规那么简介关联规那么发掘方法关联规那么发掘方法关联规那么兴趣性关联规那么兴趣性关联规那么知识方式扩展关联规那么知识方式扩展简单关联规
40、那么简单关联规那么小结及练习小结及练习目目 录录商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第48页简单关联规那么:即规那么后项为单个数据项的关联规那么简单关联规那么:即规那么后项为单个数据项的关联规那么n合格关联规那么:满足给定支持度阈值和置信度阈值的关联规那么叫做合格关联规那么。n把知数据集发掘出来的一切合格关联规那么的集合记为:=X=Y|Dsupp(X=Y),Dconf(X=Yn假设在中有两个规那么:r1:打印机=打印纸,Dconf(r1)=80%nr2:打印机和打印纸=文件夹,Dconf(r1)=90%n那么我们可知道规那么r3:打印机=打印纸和文件夹,Don
41、f(r3)=?商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第49页经过上页例子我们可得到如下两个性质:经过上页例子我们可得到如下两个性质:nDconfX=YZ=DconfX=YXDconf(XY=Z)n=DconfX=ZXDconf(XZ=Y)nDsuppX=YZ=DsuppXY=Z=DsuppXZ=Yn这两个性质阐明,只需给定了X=Y及XY=Z的支持度和置信度,就可以计算出X=YZ的支持度和置信度,也就可以掌握规那么X=Yz的全部信息。从另一方面可以看出X=YZ可以看做是冗余的。假设中存在这样三个规那么,X=Y,XY=Z,X=YZ,那么X=YZ可以去掉。商务智能原理与方法商务智能原理与方法2022-5-5版权所有,不得翻印第50页能否只需在能否
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论