关联规则与聚类分析在超市中的应用研究_第1页
关联规则与聚类分析在超市中的应用研究_第2页
关联规则与聚类分析在超市中的应用研究_第3页
关联规则与聚类分析在超市中的应用研究_第4页
关联规则与聚类分析在超市中的应用研究_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关联规则与聚类分析在超市中的应用研究*余承乐,柳炳祥(景德镇陶瓷学院信息工程学院,江西景德镇,333403)摘要:数据挖掘是商务智能中经常使用的一项重要技术,企业在其整个运营过程中,积累了庞大的数据信息,决策者们所需要的信息往往就隐藏在里面,数据挖掘的目的就是如何有效地处理这些数据。论文结合数据挖掘软件Clementine分析了关联规则和聚类分析这两种算法在超市中的具体应用。关键词:数据挖掘;商务智能;关联规则;聚类分析ApplicationofassociationrulesandclusteranalysisinSupermarketYuChengle,LiuBingxiang(Schoo

2、lofInformationEngineering,JingDeZhenCeramicInstitute,JiangXi,China,333403)Abstract:Dataminingisanimportanttechnology,whichisoftenusedinbusinessintelligence.Enterpriseshaveaccumulatedlargeamountofdataduringtheoperationprocess,theinformationtheyneedareusuallyhidindatamining.Therefore,howtodealwiththes

3、edataisthepurposeofdatamining.Theessay,whichanalyzestheapplicationofdatamininginbusinessintelligence,combinedwithClementinesoftwaretoanalyzethespecificapplicationofassociationrulesandclusteranalysisinthesupermarket.Keywords:businessintelligence;datamining;associationrules;clusteranalysis1引言数据挖掘技术在商务

4、智能的应用,已成为各行业、各部门信息化的必然趋势。现代企业的发展面临着巨大的挑战,市场竞争日趋激烈,客户要求越来越个性化,各类信息量正在迅速膨胀。数据仓库技术有效地把操作数据集成到统一的环境中,提供用户用于决策支持所需的当前和历史数据,数据挖掘技术利用各种分析工具在这些海量数据中发现模型和数据间的关系,能够帮助企业更深入、更容易地分析数据,从海量的数据中寻找对自己真正有用的信息资源。商务智能通过对大量的数据进行自动的加工、处理和分析,实现数据向信息、信息向知识的转换,并将知识应用于决策。论文结合数据挖掘软件Clementine分析了关联规则和聚类分析这两种算法在超市中的具体应用。2相关理论分析

5、2.1关联规则算法关联分析是统计学中经常用到的一个术语,指的是对两个或者更多变量之间可能存在的关联关系的描述。对项集AUI,BUI,且AGB=,用A-B表示一条关联规则。从广义的角度说,这种关系还可以是因果关系或时序关系。关联规则挖掘就是在数据库中进行关联分析,是数据挖掘的众多知识类型中最为典型的一种。Apriori算法是关联规则算法中使用最多的一种算法,其主要步骤为:扫描全部数据,产生候选1-项集的集合C;根据最小支持度,由候选1-项集的集合C产生频繁1-项集的集合.;对k1,重复执行步骤、;由Lk执行连接和剪枝操作,产生候选(k+l)-项集的集合Ck;kk+1扫描事务数据库D,计算每个候选

6、项目集的支持度,如果大于等于最小支持度阈值iin_sup,则加入到Lk+1中;如果L为空集,则结束,所求结果即为LL,否则k=k+1,转步骤继续执行。k+112基金项目江西省教育厅科研项目资助(GJJ10566)2.2聚类分析算法聚类就是在事先不规定分组规则的情况下,将数据按照其自身特征划分成不同的群组。要求是在不同群组的数据之间要有明显差别,而每个群组内部的数据之间尽量相似。其形式化描述为:L=(sf)是数据描述语言,其中:S是表达式的集合,f:S-P(M),M是面向主题n的挖掘数据集,P(M)是M的子集。TOC o 1-5 h znnnn对任意的ewS,f(e)是由表达式e所界定的数据项的

7、集合,是M的子集。n对于给定的M,找到一个集合e,e,,e,满足对于任意e,e,e,e,e,ewS,n12kij1234Uf(e.)=Mnf(e)门f(e)=0,对任意1ijkijei与ej的差别用它们之间的距离d(ei,ej)表示。0d(ei,ej)1,且d(ei,ej)=0,如果e=e,且如果f(e)=f(e)Uf(e),f(e)=f(e)Uf(e),那么iji12j34d(e.,e,)=maxd(e,e),d(e,e),d(e,e),d(e,e)oij13142324聚类过程可以用如下方法描述:给定M=mmm,p=|M|,eeS且f(e)=m;n0,1,p-1nnnnE=eee,EeP(

8、S);00,I1,p-10E=(EUei),如果存在e,ewE,对任意e,ewEi,有i+1iaibiiabd(e,e)1)次扫描首先利用第(k-l)次扫描的结果L来产生候选k-项集的集合C,1kk然后再扫描的过程中确定Ck中元素的支持度,最后再每一次扫描结束时计算频繁k-项集的集k合,算法当候选k-项集的集合C,为空时结束。kk下面利用Clementine软件提供的超市顾客个人信息和他们的一次购买商品数据,叙述Aprioir算法的具体步骤。数据包括两大部分内容,第一部分是顾客的编号;第二部分是顾客的一次购买商品的信息,主要变量有牛奶、果冻、啤酒、面包、花生、咖啡,均为二分类型变量,取值1表示

9、购买,0表示未购买,是一种事实表的数据组织格式。分析目标是哪些商品具有可能同时购买。利用Clementine软件的工作流图如图1所示。执行网络节点后,提高门限值,留下的最虽连接,如图2所示。回通过图2不难看出,可以归纳出两类客户:第一类:购买面包和牛奶的客户;第二类:购买啤酒和花生的客户。通过网络图可以清晰地分析结果,在符合规定的条件下,没有顾客购买果冻、咖啡。可以建议有关人员减少这两种种商品的进货量,但为了保持商品的多样性,还是要适当的进点货。购买面包的客户都买了牛奶,购买啤酒的客户都买了花生。可以建议有关人员在购物架摆放商品时,可以尽量将面包和牛奶摆放在一起,将啤酒和花生摆放在一起,这样以

10、便于顾客选购,无形中增加了超市的销售额。3.2聚类分析K-means算法实现K-means算法也称为K-平均算法,K-means是一种迭代算法,其初始的K个簇被随机的定义后,这些簇将被不断地进行更新,并在更新的过程中被优化(或者达到一定的迭代次数)时算法才停止,然后生成模型。这里,利用Clementine提供的超市商品信息数据,叙述K-means算法的具体步骤。数据集中包含20种饮料的编号和每种饮料中A、B、C、D、E五种元素的含量。分析目的是把这20种饮料中五种元素含量最相近的进行聚类。利用Clementine软件的工作流图如图3所示。K-Means图3聚类分析流图按照算法的工作流图执行后,

11、利用表输出的聚类分析结果如图4所示。AElCDE$KM-K-Me112.40.8.448.7.0.0121.010类-1218.42.6.467.3.0.0081.640-1332.12.8.325.6.0.0042.220-2427.9.180369.8.0.0051.720-258.9.57.6.556.5.0.0181.010类-1616.36.1.425.7.0.0031创4聚类-1728.57.2.321.4.0.0181.010类-3825.10.8.348.7.0.0022.010类-295.0.47.7.540.1.0.0170.770-11017.38.2.424.4.0.0

12、011.140聚类-11111.34.2.405.6.0.008120聚类-11225.17.3.346.0.0.0001.780-21328.57.1.331.6.0.0221.040-31417.33.6.443.2.0.0011.414聚类-11510.40.0.516.7.0.0120.950-1165.4.40.1.530.8.0.0140.630-11720.33.0.445.8.0.0041.618类-11827.56.9.332.1.0.019聚类-31928.57.1.332.4.0.0161.010类-32028.57.2.322.4.0.0181.010类-312文件编辑

13、料生成表4阪1匚申來从止匚厶士日日注解图5聚类刀析结果五种元素的含量相似度被聚成三通过对表的分析,可以很直观的看到,20种饮料根据类,其中,饮料样本1、2、5、6、9、10、11、14、15、16、17为聚类T;样本3、4、8、12为聚类-2;样本7、13、18、19、20为聚类-3。这样,就可以建议超市相关人员将以上聚成一类的饮料摆放在一起,有助于识别顾客购买行为,发现顾客的购买模式和趋势,改进服务质量,取得更好的顾客保持力和满意程度,提高货品销售比率,设计更好的货品运输与分销策略,减少商业成本。4结束语论文研究可以分析出在超市物品之间顾客所倾向于同时购买哪些商品,哪些商品可以摆在一起以增加这些商品的销售率。顾客在购买过程中,往往会存在一些辅助性需求或对其他相关产品的潜在需求。超市在了解客户的兴趣爱好和其他消费属性的基础上,对顾客兴趣进行挖掘整理,提供针对性的产品组合,扩大销售范围,增加了客户的购买量,从而提高了企业的客户份额。需要指出的是,论文虽然给出了关联规则和聚类分析的算法描述和具体实例,但算法涉及的数据结构选

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论