烟草数据挖掘论文_第1页
烟草数据挖掘论文_第2页
烟草数据挖掘论文_第3页
烟草数据挖掘论文_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、烟草数据挖掘论文 1研究背景 目前现有的针对烟草营销策略的研究,多采用数据挖掘的思想,基于数据挖掘的营销策略是对终端客户进行分类,根据用户的销量和诚信记录把用户分为多个等级,但这种分级策略只能反应用户的销量信息,把这个分类作为营销策略依据太单薄,只能起一定的辅助作用。更深入地研究是根据客户的资料和历史订单数据对现有商户进行聚类,获取到自主的商户分类,但盲目的聚类会导致商户的分类没有实际意义,或获取的结果是无助于营销目的的。 2技术关键 本系统采用基于营销目的的商户聚类,技术关键包括三部分内容:数据预处理中的特征选择、基于限制目标的商户精确聚类和基于聚类结果的多层关联规则算法的研究。 2.1特征

2、选择 假定获取的数据的维数为n,通常情况下n是很大的一个数,为简化模型,也为了防止模型陷入过拟合(维数灾难),需要进行降维处理,即仅把对项目改造判定起关键作用的因素挑选出来。本系统采用PCA算法来进行降维处理,过程如下: 1)计算标准化后的矩阵Z的样本的协方差矩阵Cov; 2)计算协方差矩阵Cov的本征向量e1,e2,en的本征值。本征值按大到小排序; 3)投影数据 到本征矢张成的空间之中,利用贡献分析取前m个向量Y1,Y2,Ym。 2.2基于营销目标限制的商户精确聚类算法 现有聚类算法一般没有约束条件,只根据相似度来进行聚类,为了能够体现约束条件,需要在聚类相似度或者样本距离之间把限制条件增

3、加进去,这样在样本聚类的时候即可使得具有相同营销特性的样本或者客户被划分到同一个类中。烟草终端商户的大部分属性是分类属性,例如:地区、类别等,此外还有数字型属性、日期型属性,由于存在不同类型的属性,常规的聚类算法无法使用,为此,采用把数字属性和日期属性划分区间的思路,这样可以转化成分类属性的方式来进行聚类。进而可建立如下商户模型:分类对象X,X=A1=x1A2=x2Am=xm,其中xjDOM(Aj),1jm,为简便起见,将对象X用向量(x1,x2,xm)表达,如果属性Aj的值不存在,则Aj=。令=X1,X2,Xn为n个分类对象的集合,用集合方式表达分类对象,则Xi=xi,1,xi,2,xi,m

4、,如果属性Aj的值不存在,则集合中不出现xi,j,容易得到|Xi|m。如果存在Xi,j=Xk,j,1jm,则Xi=Xk。为方便聚类,利用聚类汇总来压缩原始数据,从而达到提高算法效率的目的。一个类C可以由如下三元组(n,I,S)来表示。其中n为类C中的对象数量,I=i1,i2,iu是C内所有属性值的集合,S=s1,s2,su,其中sj为ij在类C中的数量,ijI,1ju。集合S按升序排列,即s1s2su,这同时也暗示集合I的元素按其在C中的数量按升序排列。三元组(n,I,S)被称作类C的聚类汇总CS,CS的三个成员分别记作CS.n、CS.I和CS.S;对于CS.I的任一元素ijCS.I,则记作C

5、S.I.ij,对于sjCS.S,则记作CS.S.sj,其中1ju。 2.3基于烟草营销的多层关联规则的研究 针对本项目,对关联规则定义进行扩展,对形如:XY的关联规则,不再限定X和Y为一个项目集,而把X和Y定义为条件的合取范式,每个条件Ai=True/False为布尔表达式。此时的Ai为一个项目集,它的含义与原来的X和Y的含义相同,如果把结果中的条件布尔表达式写成Cj=True/False,则关联规则有如下形式:(A1=True/False)(A2=True/False)(An=True/False)(C1=True/False)(C2=True/False)(Cm=True/False)关联

6、规则的开采问题可以分解成以下两个子问题: 从数据集合或交易集合D中发现所有的频繁项目集。 从频繁项目集中生成所有置信度不小于用户定义的最小置信度minconf的关联规则。即对任一个频繁项目集F和F的所有非空真子集S,SF,如果sup(F)/sup(FS)minconf,则(FS)S就是一条有效的关联规则。按上述方法发现所有类似的规则。这两个步骤中第2步要相对容易,因此项目的研究将更关注第1步,由于最大频繁项目集已经隐含了所有频繁项目集,所以可以把发现频繁项目集的问题转化为发现最大频繁项目集的问题。针对烟草营销的客户,进行关联规则挖掘时,是在上一步的基础上,即针对每一个商户群进行规则挖掘。在获取

7、到最大频繁项目集后,顺序生成频繁项目集,然后获取到可用的关联规则。此时获取的关联规则是底层关联规则,然后再采用概念树的方法对获取的底层关联规则进行汇总。概念树由烟草领域专家根据属性的领域知识提供,按特定属性的概念层次从一般到具体排序。树的根结点是用any表示最一般的概念,叶结点是最具体的概念即属性的具体值。 在获取多层关联规则后,能灵活确定关联规则的前后件,分析出不同层次各事务的关联。能分析出任意两个事务间的关联关系;分析出任意一项事务与其他多项事务间的关联关系;任意几项事务与其他一项事务间的关联关系,或者任意几项事务与另外几项事务间的关联关系。如:某一时间,某品牌烟,商户总进货量;某类别商户,某品牌烟进货量;某商户,某段时间,某卷烟进货量;某地址

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论