大型超市购物篮问题分析数学建模_第1页
大型超市购物篮问题分析数学建模_第2页
大型超市购物篮问题分析数学建模_第3页
大型超市购物篮问题分析数学建模_第4页
大型超市购物篮问题分析数学建模_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大型超市购物篮问题分析_数学建模大型超市“购物篮”分析摘要本文是针对如何充分利用顾客购物习惯问题,通过对题目的分析,运用运筹学的知识,为超市经理提供一个能使利润最大化的促销方案。 首先运用变量的方法对数据进行预处理,将顾客有意愿购买的商品记为1,没有意愿购买的商品记为0.针对问题一:根据变量的聚类方法,建立模型一:定量模型,利用编程,得出是表达超市中多种商品间的关联关系的密切程度的定量模型。针对问题二:首先根据计算方法,建立模型二:最畅销商品模型,运用编程,得出当假设认为大于700为购买频繁时得出这些被最频繁购买的商品每2种和每3种商品被同时购买的次数,观察发现其结论与问题一得出的商品种类基本

2、一致,则说明计算方法是是一种快速有效的能从购买记录中分析出哪些商品是最频繁被同时购买的方法。同时通过对运用计算方法计算出的结果的观察,发现当产品数量增大时商品被同时购买的次数急剧下降。所以商品数量再增加已经没有研究意义,故只讨论商品数量为2和3的情况。最终得出最频繁被同时购买的商品组合共有37组,其中商品数量为2的商品组合数有33组且被同时购买时次数最多的是368和529两种商品的组合,次数为334次。商品数量为3的商品组合数有4组且被同时购买时次数最多的是368,489,682三种商品的组合,次数为124次。针对问题三:基于消费者理性消费的原则,建立模型三:最优促销方案模型,运用编程商品进行

3、筛选,将其分为畅销高利润g,畅销低利润d,非畅销高利润g,非畅销低利润d四类,然后通过分析得出可以购买368,956,529,368,692等g商品分别送106,954,425,761等d商品。将g类商品进行打折,最后将g和d类商品用问题二得出的组合方案进行商品组合然后直接放在同一货架中进行出售。关键词:变量 计算方法 编程 商品组合1.问题的重述作为超市的经理,经常关心的问题是顾客的购物习惯。他们想知道:“什么商品组或集合顾客多半会在一次购物时同时购买?”。现在在已知超市近一个星期的所有顾客购买物品的清单和相应商品的价格的情况下,需要给出超市经理一个合理的“购物篮”分析报告,并提供一个促销计

4、划的初步方案。问题1 附件 1 中的表格数据显示了该超市在一个星期内的 4717 个顾客对 999 种商品的购买记录,表格中每一行代表一个顾客的购买记录,数字代表了其购买商品的超市内部编号。试建立一种数学模型,该模型能定量表达超市中多种商品间的关联关系的密切程度。问题2 根据你们在问题1中建立的模型,寻找一种快速有效的方法能从附件 1 中的购买记录中分析出哪些商品是最频繁被同时购买的。超市经理希望得到尽可能多的商品被频繁同时购买的信息,所以你们找到的最频繁被同时购买的商品数量越多越好。例如:如果商品 1、商品 2、商品 3 在 4717 个购物记录中同时出现了 200 次,则可以认为这三个商品

5、同时频繁出现了 200 次,商品数量是 3。问题3 附件 2 给出了这 999 中商品的对应的利润,试根据你们在问题1、问题2中建立的模型,给出一种初步的促销方案,使超市的效益进一步增大。2 问题分析针对问题一:根据问题要求需要计算出超市中多种商品间的关联关系的密切程度,首先我们用0-1变量处理后的数据建立了模型,即假设用向量来描述第个消费者的某次购买行为,再将得到的每种商品的变量用对其相关性进行度量,然后再根据得到的相关性定量大小对其进行分类,同时检验以检验该种模型是否可行,若不可行,则再次用对其相关性进行度量,并计算出多种商品间的关联关系的密切程度,同时用对所得出的数据进行检验,若与模型得

6、出结果一致则说明该模型为其定量模型,因而可以得出即为超市中多种商品间的关联关系的密切程度的定量模型。反之则需要再次寻找新的定量模型。针对问题二:由于问题二要求在问题一的基础上计算出哪些商品是最频繁被同时购买的,由问题一可知前四类商品为畅销商品以及四类商品之间两两之间的关联性,因而可以推断得出这四类商品是被频繁的购买,所以运用计算方法建立最畅销商品模型,通过该模型计算出频繁出现商品的种类以及次数,然后将其与问题一得出的结论做比较。若该模型所得出的结论中所包含的商品种类与问题一得出的商品种类基本一致,则说明计算方法是一种快速有效的能从购买记录中分析出哪些商品是最频繁被同时购买的方法,便可以运用计算

7、方法计算出哪些商品是最频繁被同时购买的,反之则不是,因而需要寻找新的方法。针对问题三:为了将数据简化,我们应将运用编程将商品分为畅销高利润g,畅销低利润d,非畅销高利润g,非畅销低利润d四类,分别对这四类商品及其价格在基于消费者理性消费的基础上进行分析,通过对数据的分析我们可以结合问题二选择将四类商品中关联商品陈列出来组成组合作为促销商品来销售,或者将非畅销利润低的商品打折销售,同时也可以将畅销且利润高的商品与购买次数少且利润低的商品组合在一起进行销售。3模型的假设与符号说明31 模型的假设(1)假设一:假设在所有的购买记录中某一商品被记录的次数累计大于700次为畅销商品。(2)假设二:假设在

8、所有的购买记录中某几商品被记录的同时购买的次数累计大于200次为最频繁被同时购买的。(3)假设三:假设商品利润大于100为高利润,反之为低利润。(4)假设四:每位顾客的购物行为都是理性的,真实的反应当地消费情况。(5)假设五:超市货源充足,最大限度满足顾客需求(6)假设六:短期时间内商品的销售情况不变。(7)假设七:消费者的购买习惯在以后的时间中不会发生任何变化。32 符号说明第个消费者对第种商品的购买情况消费者编号第种商品被个消费者购买的情况对商品和有相同购买行为(同时购买,或者同时不买)的消费者在总共个消费者中所占的比例在购买了商品和中至少一种的消费者中,同时购买了两种产品的消费者数元集合

9、频繁项集支持度阈值候选项集c畅销商品f非畅销商品g畅销商品中的高利润商品d畅销商品中的低利润商品g非畅销商品中的高利润商品d非畅销商品中的低利润商品4模型的准备对于问题一:方便了问题的求解,我们将数据进行了预处理,处理方法如下:首先以向量来描述第个消费者的某次购买行为,如果在该消费者的购物篮中发现了第种商品,则有,否则,从而通过将每位消费者对999种商品的购买情况化为了具体的变量。(具体过程及结果见附录 )。对于问题二:在分析哪些商品是最频繁被购买时认为如果某些商品都是在4717次购物记录中频繁出现的那么也就最有可能这些商品是同时被购买的,所以有必要统计出各种商品在4717次购买记录中的出现次

10、数,因此我们需要先通过将其具体的数值统计出来。5.模型的建立与求解5.1问题一的模型建立与求解5.1.1 定量模型的建立为了计算超市中多种商品间的关联关系的密切程度我们建立定量的模型。首先可以先研究两种商品间的关联性,进而在推广至多种商品间的关联性。先设向量表示第个消费者对第种商品的购买情况,如果在该消费者的购物篮中发现了第种商品,那么,否则。假设,我们有总共个消费者,那么我们可以定义向量。该向量刻画了第种商品被个消费者购买的情况。如果,由大量的1构成,那么我们就知道该商品被消费者购买的频率很高。另一方面,如果由大量的0构成,那么我们就知道该商品被购买的频率很低。因此如果有两个共同的商品和,我

11、们还可以通过比较向量和的相似性来获得对他们相关性的度量。具体地说,如果我们发现和的各个分量非常相似,这说明商品和很容易被同时购买,或者被同时不购买。因此,我们可以粗糙地认为这两种产品的相关性很强。因此,我们建立第一种度量商品相关性数量指标模型如下:,如果确实有则其中示性函数,否则。也就是说就表示对商品和有相同购买行为(同时购买,或者同时不买)的消费者在总共个消费者中所占的比例。因此,如果值很大,这说明商品和的相关性很强,因此应该被聚为一类,否则说明相关性很弱。此时结果为除了编号为215、217、368、419、438、489、510、529、682、692、937、720、722、766、88

12、3、914、956的商品中任意两种商品间的值很小外,其他大多数商品中任意两种商品间的值都很大。这并不说明任意两个产品的相关性都很强,而是由于产品种类繁多,大多数消费者都会同时不购买这两种产品,因此造成的值很大。因此我们转而考虑如下相关性度量:此时由于和为取值只可能为0或者1的变量,因此条件隐含着和中至少有一个取值为1。也就是说,商品和中至少有一种被第个消费者购买。因此,计算了个消费者中,有多少人至少购买了商品和中的一种。那么,指标就度量了在购买了商品和中至少一种的消费者中,有多少消费者同时购买了两种产品。由此可见,如果很大,这说明消费者一旦决定购买商品和中任何一种,那么另外一种就也有很大可能性

13、被同时购买;进而我们知道,这两种商品的相关性很大,应该被聚为一类,否则相关性很小。5.1.2 定量模型的求解同时在此基础上则可以推广至多种商品间的关联性。即在在两种商品关联度很高的情况下将该两种商品聚为同一类,再一次为基础考虑多个“小类”聚为“大类”。因此我们通过对其聚类,最终将其分为了5类,同时得出如下聚类图:图(1):商品聚类图下表为聚类后的每一类中所含有的具体商品编号:表一:分类表 类别第1类第2类第3类第4类第5类商品编号368529、829217、419、510438、489、682、692、720、722、766、883、914、937、956除前几类外的其他商品通过比较分析知道第

14、1类商品为出现次数最多的商品,是最为畅销的商品,第2类商品为比较畅销的商品,各类商品畅销程度随类别数增大而降低。由此可见,超市中畅销商品的种类是较少的,因而较为符合实际,所以聚类的结果可信。虽然第5类商品间有密切的关联,但考虑到畅销程度不令人满意的商品不能为超市带来可观利益,因此不是超市经理所重点关注的,我们就不再予以研究。我们重点关注其他四类商品的关联关系的密切程度,并给出定量模型来反映。5.1.3 定量模型的检验接着我们用研究了前四类商品任意两商品之间的关联程度的具体数值,得出结果如下表:表二:相关程度大小表商品编号关联关系密切程度2174191.00002175101.000021788

15、31.00004196820.87504867220.77783685100.83333688290.85715298290.856824890.83337667201.00006924380.77279568290.75009569371.0000从上表可以看出四个分类中的任意两种商品之间的相关性都是大于等于0.75的,不难看出任意两种商品之间的相关性较大,从而也说明了是定义定量表达超市中多种商品间的关联关系的密切程度的模型。5.2 问题二的模型建立与求解5.21 模型二的建立由于问题二要求我们找出一种能从附件 1 中的购买记录中分析出哪些商品是最频繁被同时购买的方法,而计算方法的基本原理就

16、是找出数据集中哪些项同时出现次数最多,然后根据出现最多的项去寻找关联规则,符合题意,因此我们以计算方法为基础建立最畅销商品模型对其进行求解。计算方法的基本步骤用图表说明如图二:图二:计算流程图将上图的信息用文字的形式表达如下:以表示一个元集合,其形式为:以表示一个频繁项集,该频繁项集的元素为若干元的集合:算法的流程如下:1 根据支持度阈值从999件商品中找出频繁1项集。2 根据频繁项集,生成候选项集。对任意的,其所有的元子集,都必须满足:3 计算中各项的支持度,筛选,得到频繁项集。4 返回步骤2,循环,直到得到的或为空集时,终止算法。最终由于频繁项集的所有非空子集也必是频繁得出哪些商品是最频繁

17、被同时购买的。5.22 模型二的求解步骤一:将次的4717个顾客中某商品被购买次数大于700认为是被频繁购买的标准来对数据进行筛选得出被频繁购买的商品和其被购买的频数如下表:表三:频繁被购买商品表商品编号次数205782217935368133841994343885148988651096052910896828196928147207587227577668308291103883744914825937798956841步骤二:提取这18种商品在问题一中的高维01矩阵中所对应的01数列, 根据这18种商品的01数列,计算出这18种商品每两种商品被同时购买的次数。在计算方法的基础上,对这些

18、次数进行筛选,去除频数小于200的商品组合。然后运用编程对以上数据进行求解,计算得出这18种商品哪两种商品相关度高组合和被同时购买的次数如下表所示: 表四:两两同时被购买表商品序号次数2173682912174192103684192693684382223684862913685102604384892164195102004385102022175292423685293344195292024385292444895292133686822894896822203686922615296922573687662162178292173688293134198292374898292065

19、10829212529829255682829201692829241766829204217914203368914259217956202368956211489956219步骤三:通过对上表分析,我们不难看出去次频数小于200的商品组合后得到的相关度高组合只有两个商品被同时购买的,没有三个商品被同时购买的,所以下一步我们将原数据去次频数小于100的商品组合,便得出了三个商品被同时购买的次数如下表:表五:三种商品同时被购买表商品号次数217368529104368489682124368529692101368529829104步骤四:通过对运用计算方法得出的结果与问题一得出的结果作比较,

20、可以明显的发现计算方法得出结果所包含的商品种类与问题一得出的商品种类基本一致,所以说明计算方法是一种快速有效的能从购买记录中分析出哪些商品是最频繁被同时购买的方法。最后对比表四,表五可以看出两种商品被同时购买所组成的种类比三种商品被同时购买所得种类多,同时两种商品被同时购买的次数也比三种商品被同时购买的次数多,可知多种商品的组合随着种数的增加,其组合被购买的次数明显下降。所以对比每两种商品组合和每三种商品组合的数据后,可以推测每四种商品组合或更多商品种类的组合,会因为这些商品被同时购买的次数太少而失去意义。故步骤三与步骤四所得到的结果具有较强的代表性,该模型能够较全面的找出具有较强关联度的商品

21、组合。因而我们可以得出:在两种商品被同时购买时的总次数为33次且次数最多的是368和529两种商品的组合,其同时被购买的次数为334次。而在三种商品被同时购买时的总次数为4次且被同时购买时次数最多的是368,489,682三种商品的组合,其同时被购买的次数为124次。 5.3问题三的模型建立与求解5.3.1 最优促销方案模型的建立与求解步骤一:由于商品的种类繁多且利润各不相同,我们将商品分为畅销商品和非畅销商品,且假定销售次数在0-5次之间的商品为非畅销商品其组合记为c,销售次数大于700次的商品为畅销商品其组合记为f。同时根据附录二中商品的利润多少将c中的商品再次分组为高利润商品g和低利润商

22、品d,将f中的商品也再次分组为高利润商品g和低利润商品d。高销量高利润的商品种类和次数表如下:表六:g表商品编号利润205188.73368290.91419297.02438274.78529285.04692272.52720290.91722193.47829188.73883297.02914193.47956264.21高销量低利润的商品种类和次数表如下:表七:d表商品编号利润2175.20884895.208851099.99468224.34976699.9949375.2088低销量高利润的商品种类和次数表如下:表八:g表商品编号利润商品编号利润13188.73337285.0

23、492264.21340272.5299297.02341125.96109188.73353285.64133125.96365188.73148272.52770193.47184211.11772272.52211297.02786193.47221188.73796264.21228272.52808211.11232211.11836272.52248211.11929285.64284264.21976290.91291297.02993285.04312221.11996272.52低销量低利润的商品种类和次数表如下:表九:d表商品编号利润商品编号利润3099.9944255.2

24、0884716.49144699.9946316.49150624.3498774.19851974.19810624.34955916.49111974.19858782.81919116.49159974.1982335.208860716.49123899.99465499.99425024.34974782.80925182.8197615.208826022.5279174.19827116.49187582.8093935.28895424.3493989.99495582.80997499.994 步骤二:由于假设中表明消费者是理性的,所以为了将非畅销且低利润的商品卖出只能将g,

25、d两种商品同时卖出,具体作法可以是购买g超过2件可以免费赠送一件d产品。然后对于g商品进行打折,最后将c商品结合问题二进行商品组合直接放在同一货架中进行出售。步骤三:为了计算出步骤二的方案中的商品的具体组合,我们先结合问题一可以得出具体方案如下表:表十:促销方案表主商品编号赠品编号两种商品关联关系密切度3681060.87503681190.75005294250.85716927610.83339569541.0000对于c商品如何进行产品的分组可以结合问题二所得出的频繁被同时购买所得出的分组,然后将分在一组的商品放在同一个且显眼的货架上对其销售。6模型结果的分析对于问题一,首先在数据处理上

26、我们采用了0-1变量的聚类方法,把单纯的商品编号,变为了可以记录某商品被顾客购买情况的数据,这是一种有效的将无意义的商品编号转化为变量的方法。接着由于数据复杂,我们认为可以通过聚类来了解各种商品间的关联关系,因此先建立了定量模型作为度量多种商品间的关联关系的模型,再通过以此带入具体数值后来检验是否该模型可行,最后结果显示对于多数商品而言该定量模型所表达的关联度都达到了0.75以上,因此该模型是可以用来度量多种商品间的关联关系的。对于问题二采用计算方法先找出同时被频繁购买的商品组合,发现这些商品组合的商品正好包含多数畅销商品,也正好符合如果某几种商品都畅销,那么它们很可能会同时被频繁购买这一现实

27、,以此计算方法是一种快速有效的能从购买记录中分析出哪些商品是最频繁被同时购买的方法。并据此给出了具体的同时被频繁购买的商品组合。对于问题三中给出促销方案是超市的效益最大时,我们假设消费者是理性的所以仅给出了三种商品出售的方案即畅销且利润高的商品和非畅销且利润低的商品组合在一起采用买二赠一的方式促销、非畅销而利润高的商品采用打折促销来达到薄利多销的目的,以及对畅销商品间的商品组合则仅将其摆放在超市显眼处的同一货架出售。然而实际生活中消费者并不会总是理智,所以还可以讨论非畅销商品间的组合打包促销等销售方式,但总体而言我们讨论的几种销售方式是可行的。7模型的推广与改进方向1、 将各种相关联程度高的商

28、品摆放在一起,不仅便于消费者购买,从而为消费者节约了时间,还使得商品在进入消费者眼球时感觉很舒适,一目了然,让人不会感觉整个超市很凌乱导致消费者的购买欲降低2、 利用对畅销高利润商品进行促销活动将抵销低利润产品作为赠品,不仅提高了超市的销售量增加了受收益,又将滞销的产品销售了出去3、 对商品销售量和商品之间关联度的把握也为商家进货时提供了参考信息,不用盲目的去进货源,导致不必要的损失改进:在第二问和第三中我们仅仅只考虑到了销售少和销售量好的两种极端情况,而对于实际来讲我们对于中间部分的考虑还不够好。我们在考虑关联程度时也选取的是关联程度较高的,忽略了对于关联程度一般的商品。8模型的优缺点模型的

29、优点: 本题要求我们站在超市经理的角度上给出一个合理的“购物篮”分析报告,并同时提供一个促销计划的初步方案,在解决问题一时我们先运用变量对数据进行了处理,使数据简化便于运算,然后建立了定量模型,分别用不同的度量模型对商品的相关性进行度量并且通过对两种模型的分析和比较我们选出了更能有效度量商品的相关性的度量模型,多种模型进行比较,让我们可以选择更好的方案。然后我们还用编程得出的结果对该模型的准确性进行了进一步的检验,从而更加有效地确保了该模型的准确性。对于问题二我们运用了在新的计算方法的基础上建立最畅销模型,充分运用了计算方法的基本原理与题意相符的特点,找出计算方法为快速有效的从购买记录中分析出

30、哪些商品是最频繁被同时购买的方法。同时我们还结合了问题一对其进行检验,进一步确定了计算方法的正确性。对于问题三我们将商品分为了g,d,g,d四类,使我们能更加清晰明了的分析应该如何选择合适的促销方案。模型的缺点:对于模型一,我们虽然运用了不同的相关性的度量模型进行比较,但是相关性的度量模型少,没有多的模型进行比较,也许还有更好的模型来替代我们所选用的模型。对于模型二,我们人为地假设将次的4717个顾客中某商品被购买次数大于700认为是被频繁购买的标准来对数据进行的筛选,同时也是人为的去除了频数小于200或100的商品组合进行的运算,因而使问题的解决不具有全面具体性,这是片面的进行运算的。对于模

31、型三,我们是站在消费者是理性消费的基础之上进行促销方案的设计,但现实生活中会有不少人的消费观是不理性的,所以我们得出的结果很可能不能运用于真实的市场营销中。9.参考文献【1】袁震东 蒋鲁敏 束金龙 编著,数学建模简明教程,上海,华东师范大学出版社,2002年出版【2】蔡锁章 主编,数学建模,北京,中国林业出版社,2003年出版【3】姜启源. 数学模型(第三版)m. 北京:高等教育出版社,1999.【4】严蔚敏 吴伟民 编著,数据结构(c语言版),北京,清华大学出版社,1997年出版【5】谭浩强 著,c程序设计(第三版),北京,清华大学出版社,2005年出版10附录附录一:0-1变量的编程%47

32、17*999的0-1矩阵a=load('data.txt');b=zeros(4717,999);for i=1:4717 for j=1:72 if a(i,j)>0 b(i,a(i,j)=1; end endend聚类分析编程x=308269197265156152766734018218625534122733011201021049417964236426238372280220398524220823221116737635370157263771433464383355100103461463064386057120424710719397301157 954

33、022942651763756449316117817105359407124350211630111102062051281904026513318134113002697202142701391428220105603423422523647630317235506211084278157278113243963283836041705766124137179596282462412088369114015201024512531422833259199217283118560205135781993632306661123031871587231921565953602371701024

34、4802361422038857570405189135124073684234119 2296914563078292373156118219017950134197146935505732031111221437520034534361323530364205622104881589537115829635940418000504424146164833163274569314067305450917610910157145276344423751064964367961677021513874644252228495471142945125517827162368181277316325

35、39729512703417089489421463421521873335032244611121931117918159138356198633179370407233812295413287269327459352187061616385187128627616069261850286501338906114085452151190159499163124175265887762480264960356719201152283111533898 589106283139951128331683228827761826714311224100943022519516334607482123

36、47223282070046113108851313148843217150012510226262115191303716133221392545441942646139172732223915264514943430233756248811919652931175235017185545288622784180484873828036663156571583136245021516410960162115238 871211911325506614340329951653302461811089 154 2349481843915422262677374631131715560780342

37、213161612159391168911917908645815315419062782122284038937235829215233622324844314234253249026647016752488010949221413805843860113 13521429291783850137667527122236448293720230131280351762412071061037333362123443871255262502025330124227214712375111851161784118854268319386242368184514481185030233128110

38、61511033209455 554605131805814311881953447983153841562072531168140597765216772107027577233175512282419929924125769261561174413422075824757118541065216117015596188168442714421533850139912496917725637200136130386421440102796388105114067307110114830966232702143718362317123346112245103449236546908026229

39、4237025131313054205562891944 14276233359225771890449791322941053421142121272295 3769564821642653991821511021561871342681331770111931105933537224368661669253353873901824912133615613312317611549455858173141071163527150172460192273121476158767432434464742673654262323904651016821386818826330887114732061

40、3684101749308205172433824161112125515185334516815771599315229011110320817418312252797341103167221104186410272954122214211073535560108401146281559115012919530649393306132142620831028402313969144273511269388228171943813953843840449308033574;bx=zscore(x);y=pdist(x);d=squareform;z=linkage(y);t=cluster(z

41、,5);find(t=1);find(t=2);find(t=3);find(t=4);find(t=5);h,t=dendrogram(z)问题一的求解:%符号说明:times 某两商品被同时购买的次数% times1 某一件商品被购买次数%supt1 某一件商品支持度%supt 两商品支持度%conf 两商品关联的可信度value_conf=0.5;value_supt=3/4717;%计算支持度、可信度times =zeros(999,999);times1=zeros(1,999);for i=1:4717%调整顺序,便于操作 data(i,:)=sort(data(i,:),'

42、;descend');endfor i=1:4717 number=0;%每一行的商品数 for j=1:16%统计number值 if data(i,j)=0 number=number+1; end end for j=1:number%统计每行times 1 times1(data(i,j)= times1(data(i,j)+1; end for j=1:number-1%统计每行times for k=j+1:number times(data(i,j),data(i,k)= times(data(i,j),data(i,k)+1; times(data(i,k),data(

43、i,j)= times(data(i,k),data(i,j)+1; end endendsupt1= times1/4717;for i=1:999%将0置换为eps if times1(i)=0 times1(i)=eps; endendfor i=1:999%计算supt和conf supt(i,:)= times(i,:)/4717; conf(i,:)= times(i,:)/times1(i);end%计算rfor i=1:999 for j=1:999 r(i,j)=supt(i,j)*(conf(i,j)+conf(j,i)10; endendpin=;for j=1:998

44、for i=j+1:999 if conf(j,i)>=0.75 pin=pin;i,j,conf(j,i); end endendpin附录二:问题二的求解%程序名:prog_2.m 大型超市购物篮分析,第二问%功能:找出频繁项集,并找出强关联%roy 10:21 2008-08-16%频繁1项集ticcnt_l=1;cnt_set(1)=0;for i=1:999 if supt1(i)>=value_supt cnt_set(1)=cnt_set(1)+1; l.set1(cnt_set(1),:)=i; cnt_times.(cat(2,'set',int2

45、str(cnt_l)(cnt_set(cnt_l)=supt1(i)*4717; endend%频繁2项集cnt_l=2;cnt_set(2)=0;for i=1:length(l.set1)-1 for j=(i+1):length(l.set1) if supt(l.set1(i),l.set1(j)>=value_supt cnt_set(2)=cnt_set(2)+1 l.set2(cnt_set(2),:)=l.set1(i),l.set1(j); cnt_times.set2(cnt_set(2)=supt(l.set1(i),l.set1(j)*4717; end ende

46、ndclear times times1%while size(l.(cat(2,'set',int2str(cnt_l),1)=0 cnt_l=cnt_l+1%得到粗候选集 cnt_set(cnt_l)=0; for i=1:(cnt_set(cnt_l-1)-1) for j=(i+1):cnt_set(cnt_l-1) if cnt_same(l.(cat(2,'set',int2str(cnt_l-1)(i,:),l.(cat(2,'set',int2str(cnt_l-1)(j,:)=cnt_l-2 cnt_set(cnt_l)=cnt

47、_set(cnt_l)+1; temp_l(cnt_set(cnt_l),:)=union(l.(cat(2,'set',int2str(cnt_l-1)(i,:),l.(cat(2,'set',int2str(cnt_l-1)(j,:); end end end if cnt_set(cnt_l)=0 break; end%删除重复组 for i=1:(size(temp_l,1)-1) for j=(i+1):size(temp_l,1) if length(intersect(temp_l(i,:),temp_l(j,:)=cnt_l temp_l(j,:

48、)=eps*zeros(1,cnt_l); end end end cnt_set(cnt_l)=0; for i=1:size(temp_l,1) if temp_l(i,1)>0.5 cnt_set(cnt_l)=cnt_set(cnt_l)+1; temp2_l(cnt_set(cnt_l),:)=temp_l(i,:); end end temp_l=temp2_l; clear temp2_l%子集判断,得到候选集 cnt_set(cnt_l)=0; for i=1:size(temp_l,1) cnt_t=0; for j=1:cnt_set(cnt_l-1) if cnt_same(temp_l(i,:),l.(cat(2,'set',int2str(cnt_l-1)(j,:)=cnt_l-1 cnt_t=cnt_t+1; end end if cnt_t=cnt_l cnt_set(cnt_l)=cnt_set(cnt_l)+1; temp2_l(cnt_set(cnt_l),:)=t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论