连锁便利商店资料探勘之研究_第1页
连锁便利商店资料探勘之研究_第2页
连锁便利商店资料探勘之研究_第3页
连锁便利商店资料探勘之研究_第4页
连锁便利商店资料探勘之研究_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

连锁便利商店资料探勘之研究

本研究出处Marketbasketanalysisinamultiplestoreenvironment,DecisionSupportSystems,Vol.40,No.2,pp.339-354.(SCI)DataMining定义数据挖掘定义 就是从数据库中发现知识,将隐含的、先前并不知道的、潜在有用的信息从数据库中粹取出来的过程DataMining为何兴起?商品条形码之广泛使用企业界之计算机化数以百万计之数据库正在使用多年来累积了大量企业事务数据

Data Knowledge

主要功用从数据库中挖掘知识了解使用者行为帮助企业作决策增进商机KnowledgeDiscoveryinDatabases(KDD)Datamining:thecoreofKDDprocess.DataCleaningDataIntegrationDatabasesDataWarehouseKnowledgeTask-relevantDataSelectionDataMiningPatternEvaluation发票的数据内容时间店号购买商品购买数量价格总价关联规则Itemset:商品集合Largeitemset(frequentitemset):经常被一齐购买的商品集合Minimumsupport最小支持度门坎Minimumconfidence最小信心门坎Associationrule关联规则:顾客若买了X之后,很有可能会再买Y从Largeitemset我们可以推出关联规则Ex:minsup=20%sup{1}=6/10=60%sup{1,2}=4/10=40%sup{1,2,3}=2/10=20%以上是largeitemsetsup{3,5}=1/10=10%sup{1,3,5}=1/10=10%以上不是largeitemsetTIDItems1011,2,51022,41032,31041,2,41051,31062,31071,31081,2,3,51091,2,31103,4产生关联规则:minconf=50%{1}{2}规则成立

sup(1)=60%,sup(1,2)=40%,conf:67.7%{1}{2,3}规则不成立

sup(1)=60%,sup(1,2,3)=20%,conf:33.3%{1,2}3规则成立

sup(1,2)=40%,sup(1,2,3)=20%,conf:50%研究主题加入购买数量的考虑加入时间地点考虑加入价格的考虑加入时间及地点考虑传统关联规则挖掘方式只局限于单一店面没有考虑每个产品可能有不同的上架期间以零售业来说,有能力导入资料挖掘的企业大多具有多家连锁店,故传统关联规则方法并不适用传统关联规则只能提供单店的信息假设50家商店,每家店平均交易笔数为1000笔商品A只在其中5家商店贩卖,共销售2000笔传统方式算出之support:2000/50000=0.04但实际上的support值应为:2000/5000=0.4以医院附近的店为例研究目的以时间和地点为限制条件的关联规则挖掘不同商品计算support值时,必须以其上架时间及地点的交易笔数为基底新挖掘方式能够因应市场竞争及顾客需求,找出何地点的商店最适合在哪个时段贩卖何种商品在中午时段办公大楼附近的便利商店,购买便当的顾客同时也会购买饮料环境假设一连锁系列商店,共有n个店面每个店面可以因应其特殊的环境而销售不同的商品为了因应市场的变化,不断的调整销售商品之组合每个商品品项有不同的销售时间及不同的销售店面,甚至在不同的店面其销售期间也都不同TidTimeItems10T1AE60T1BCF110T2ABE120T2BC250T3AC260T3CDF330T4ACDE340T4ABEH440T5ADH480T5CDEFTidTimeItems20T1ABH70T1B90T1EH160T2H180T2ABH190T2ABH270T3ACF320T4CDEFG430T5DG490T5CDEF商店P1商店P2事务数据库TimeStoreT1T2T3T4T5T6P1111000P2011100P3111110P4001110P5011100P6111100T1T2T3T4T5T6111111110000000111110001011111000011Item1Item2TimeStoreT1T2T3T4T5T6P1111000P2010000P3000110P4000000P5011100P6000000Items{1,2}T1T2T3T4T5T6P1451216901265P2324230643432P3213243341021P443418704359P5934212394723P623235422356|dVx|=45+12+16+42+34+10+42+12+39=252TimeStoreT1T2T3T4T5T6P1111000P2010000P3000110P4000000P5011100P6000000Items{1,2}真实支持度在有效基准Vx为基底所计算出x之actualsupport值,以a-sup(x,dVx)来表示计算方式为a-sup(x,dVx)=|W(x,dVx)|/|dVx|以有效基准Vx

y为基底所计算出x之actualsupport值,以a-sup(x,dVx

y)来表示,公式为a-sup(x,dVx

y)=|W(x,dVx

y)|/|dVx

y|真实支持度:范例|dVx|=252假设|W(x,dVx)|

=100a-sup(x,dVx)=100/252T1T2T3T4T5T6P1451216901265P2324230643432P3213243341021P443418704359P5934212394723P623235422356规则信赖度时间地点关联规则的信赖度(confidencevalue),conf(x

y),代表规则的预测强度,公式为

a-sup(x

y,dVx

y)/a-sup(x,dVx

y)说明:即在X和Y都上架贩卖的情形下,当卖出X时,会有多少比例也会卖出Y时间地点关联规则给定一个confidencethreshold

[0,1],若conf(x

y)

的话,则我们称x

y为时间地点关联规则,也就是该规则符合minimalconfidence时间地点关联规则包含如下x

ya-sup(x

y,dVx

y)conf(x

y)有效基准Vxy的时间地点集合Support错误率利用传统关联规则挖掘方式及多商店下的关联规则方式,比较每一FrequentItemset的support值差异ex.传统方式globalsupport=40%

多商店下actualsupport=60%

该FrequentItemset错误率20%/60%=33.3%规则数错误率算出多商店下关联规则能够比传统方式多找出的规则数占多商店下关联规则数的比率传统方式的TypeCErrorex.传统方式规则数250

多商店下规则数300

传统方式的错误率50/300=16.67%250300多商店下的关联规则数传统方式的规则数评量观点DataSetNumberofstoresNumberofperiodsRangeofstoresizesProductReplacementRate123510505105050-10050-10050-1000.0010.0010.00145650505050505010-10050-10090-1000.0010.0010.00178950505050505050-10050-10050-1000.0010.0050.010Support误差vs商店时间数Support错误率规则数误差vs

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论