企业CRM系统中决策树算法的应用.doc_第1页
企业CRM系统中决策树算法的应用.doc_第2页
企业CRM系统中决策树算法的应用.doc_第3页
企业CRM系统中决策树算法的应用.doc_第4页
企业CRM系统中决策树算法的应用.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

企业CRM系统中决策树算法的应用河北金融学院 郭佳 许明保定市科技局基于数据挖掘的客户关系管理系统应用研究09ZG009摘要:客户资源决定企业的核心竞争力,更多的关心自己的销售群体,并与之建立良好的、长期的客户关系,提升客户价值,对全面提升企业竞争能力和盈利能力具有重要作用。本文以某企业销售业绩为对象,利用决策树分类算法,得到支持决策,从而挖掘出理想客户。 关键字:客户关系管理;数据挖掘;分类算法决策树分类是一种从无规则、无序的训练样本集合中推理出决策树表示形式的分类规则的方法。该方法采用自顶向下的比较方式,在决策树的内部结点进行属性值的比较,然后根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。本文主要研究决策树分类算法中ID3算法在企业CRM系统中的应用情况。1.ID3算法原理ID3 算法是一种自顶向下的决策树生成算法,是一种根据熵减理论选择最优的描述属性的方法。该算法从树的根节点处的训练样本开始,选择一个属性来区分样本。对属性的每一个值产生一个分支。分支属性的样本子集被移到新生成的子节点上。这个算法递归地应用于每个子节点,直到一个节点上的所有样本都分区到某个类中。2.用于分类的训练数据源组数据挖掘的成功在很大程度上取决于数据的数量和质量。我们应从大量的企业客户数据中找到与分析问题有关的,具有代表性的样本数据子集。然后,进行数据预处理、分析,按问题要求对数据进行组合或增删生成新的变量,从而对问题状态进行有效描述。在本文研究的企业数据中,是将客户的年龄概化为“小于等于30”、“30到50之间”和“大于50”三个年龄段,分别代表青年、中年和老年客户,将产品价格分为高、中、低三档等,详见表1,将企业CRM系统数据库中销售及客户信息汇总为4个属性2个类别。4个属性是客户年龄段、文化程度、销售地区、产品档次,类别是销售业绩,分为好和差两类。表1训练样本集合attributeageeducationarealevelclass1=30Hlowbad2=30Hhighgood3=30Hmediumbad4=30Hhighgood5=30Lhighgood6=30Llowgood7=30Llowgood8=30Mhighgood9=30Mmediumgood10=30Mmediumgood1150M highbad2550Mhighbad2650Mmediumgood表2 训练数据中各属性的说明属性说明age客户的年龄段education文化程度area业务销售地区(本地区,外地)level产品档次class销售状况3. ID3算法分类模型的建立由表1可知:类标号属性有两个不同的值,因此有两个不同的类(即m=2)设类C1对应于good,类C2对应于bad。类good有18个样本,类bad有8个样本。为了计算每个属性的信息增益,先使用,所以初始信息熵为:I(s1,s2) = I(18,8)= 0.8905然后计算客户年龄、文化程度、产品档次和销售区域4个属性的熵。首先观察age属性的每个样本值的good、bad分布,分别计算每个分布的信息熵:当age=50:s13=1 s23=2时,I(s13,s23)= -若按age划分样本,所需的信息熵为:E(age)=0.8192 类似的,可以得到:E(education)= =0.7669E(production)= =0.853E(area)= 通过以上属性,对当前分支节点进行相应样本集合划分,从而获得的信息增益分别为:Gain(age) = I(s1,s2)- E(age) =0.8905-0.8192=0.0713Gain(education) = I(s1,s2)- E(education) =0.8905-0.7769=0.1236Gain(production) = I(s1,s2)- E(production) =0.8905-0.853=0.0375Gain(area) = I(s1,s2)- E(area) =0.8905-0.783=0.1075Gain(equipment) =1.576 - 0.873 = 0.703educationHML从计算结果得到education属性具有最高信息增益,因此education属性成为决策树根节点的测试属性。如下图所示:1I =30 lowbad2I =30 highgood3=30 mediumbad4 =30 highgood15I 31-50 highgood16I 31-50 medium good17I 31-50 lowgood1831-50 highbad1931-50 lowbad8I =30 highgood9I =30 medium good10=30 mediumgood11I =50 highbad25 =50 highbad26I =50 mediumgood5I =30 highgood6I =30 lowgood7=30 lowgood20 =30 highgood21I 31-50 lowgood图1决策树根节点的测试属性在样本集合中对education属性的3个取值进行分支,3个分支对应3个子集,分别为:P11,2,3,4,15,16,17,18,19;P28,9,10,11,12,13,14,22,23,24,25,26;P3=5,6,7,20,21其中P3的样本都为good类,因此对应分支标记为good,P1、P2样本类别未定,所以需要对P1、P2子集分别递归调用ID3算法。在P1中可以求出剩下的age、production、area三个属性的信息增益。因为area属性的信息增益最大,所以把属性area作为该分支的节点,再向下分支, P2处理类似,最后得到的决策树如下图所示:productionhighlowgoodbad=3031-50goodageareaI31-50=30badageproductionmediumhighbadgoodeducationHMLgood50badagegood31-50areaIgoodbadgoodproductionmediumhighlow=3031-50badagegood图2 经数据分类生成的决策树因此,对于样本X=(age= “31-50”,education= “low”,level= “medium”, area= “I”),ID3算法分类预测其class为good。4.决策树的生成决策树的建立是决策树分类的基础,以ID3算法为例说明建立决策树的过程。在决策树的递归构造过程中,在树的节点上利用特征的信息增益大小作为分支属性选择的依据,选择信息增益最大的特征作为分支属性。ID3算法描述简单,分类速度快,适合于大规模数据的处理,具体算法描述如下所示。输入:训练样本samples,候选属性集合attribute_list输出:一棵决策树首先创建节点N,if samples都在同一个类C then 返回N作为叶节点,以类C标记;if attribute_list为空then返回N作为叶节点,标记为samples中最普遍的类,选择attribute_list中具有最高信息增益的属性branch_attribute,标记节点N为branch_attribute;遍历for each branch_attribute中已知的值ai,由节点N长出一个条件为branch_attribute=ai 的分支,设si是samples中branch_attribute=ai的样本集合,若si为空 then加上一个树叶,标记为samples中最普遍的类,否则else 加上一个由 generate_decision(si,attribute_list-branch_attribute)返回的节点该算法中属性的度量标准是在树的每个节点上使用信息增益度量选择分支属性。这种度量选择具有最高信息增益的属性作为当前节点的分支属性。该属性使得对结果划分的样本分类所需的信息量最小。算法的伪代码描述如下所示。Generate_Decision_Tree(Samples, usable-attribute-list,C) create a new node N;if (all Samples in N are in the class C) return N as a leaf Node labled with 1 as the probability of class C; select test-attribute,the attribute among attribute-list with the highest information gain;label node N with test-attribute and probability of samples in class C;for each known value ai of test-attribute let si be the set of samples in samples for which test-attribute=ai;if (!(si is empty) grow a branch from node N for the condition test-attribute = ai; attach the node N-new returned byGenerate_Decision_Tree(Si ,attribute-list-test-attribute,C);5.决策树的剪枝在决策树构造时,许多分支可能反映的是训练数据中的噪声或孤立点。为了保证决策树分类的质量和精确度,必须要修剪所构造的决策树。通常使用统计度量,剪去最不可靠的分支,这将导致较快的分类,提高树独立于测试数据正确分类的能力,目前常采用的剪枝方法主要有减小错误修剪法、悲观错误修剪法、基于代价复杂度的修剪法、代价敏感的决策树修剪方法等。6.由决策树提取分类规则决策树可以以 IFTHEN 形式表示分类规则。对从根到树叶的每条路径创建一个规则。IFTHEN 规则易于理解,特别是当给定的树比较大的时候。利用IF-THEN形式的分类规则我们从图2中提取决策树中表示的知识,从而便于企业从中发现销售规律,制定科学有效的营销策略。(1)IF education= “H” AND area= “I” OR(area= “”) AND age= “=30” AND production= “high” THEN achievement= “good”(2)IF education= “H” AND area= “I” AND age= “31-50” AND THEN achievement= “good”(3)IF education= “H” AND area= “I” AND age= “=30” AND production= “low” THEN achievement= “bad”(4)IF education= “M” AND production= “high” AND age= “=50” OR(age= “31-50” AND area= “”) THEN achievement= “bad”(1)至(3)条分类规则说明该企业的高档产品对于受过高等教育的本地区的年轻客户吸引力较大,低档产品对该类客户的吸引力较小;该企业的各档次产品对于本地受过高等教育的中年客户吸引力均较大。(4)(5)条规则说明企业的高档产品对于受过中等教育的年轻客户或本地的中年客户吸引力较大;高档产品在受过中等教育的老年客户或外地区的中年客户中不太受欢迎。因此该企业的营销策略可以加大高档产品在年轻客户中的推广力度,同时加大在本地受过高等教育的中年客户群体中各档次产品的宣传,因为他们是该企业的重点客户群。在外地区针对受过高等中等教育的中老年客户的销售业绩还有待提高。该企业的产品对于教育程度较低的客户群销售业绩比较平稳。7.企业CRM系统中挖掘结果的显示针对企业CRM系统不同的分析功能,分析结果可以选择以报表形式或者以图表形式进行显示。报表显示主要是将从数据库中读取的数据按照一定的格式显示出来,主要通过vbscript函数实现。图表显示主要是利用VML(Vector Markup Language,矢量标记语言)来实现。在VML中单个元素被定义为形状(shape),大多数形状是由矢量路径描述的。形状有很多属性,例如:名称(title)、样式(style)、填充(fill)、填充颜色(fillcolor)等。本文中分析模块利用的就是VML的基本元素,通过画线、填充和样式的控制来实现柱状图的显示。本文以决策树的核心算法ID3算法为工具,在构造好的用于分类的数据源组的基础上,针对决策树分类算法特点,建立了企业

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论