决策树技术在网上书店系统中的应用.doc_第1页
决策树技术在网上书店系统中的应用.doc_第2页
决策树技术在网上书店系统中的应用.doc_第3页
决策树技术在网上书店系统中的应用.doc_第4页
决策树技术在网上书店系统中的应用.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DOC格式论文,方便您的复制修改删减决策树技术在网上书店系统中的应用(作者:_单位: _邮编: _) 摘要 数据挖掘技术是在大量的数据中发现未知知识的数据分析技术,利用数据挖掘技术分析客户数据,发现其中的规律,从而为商务决策提供依据。本文对决策树技术进行了相关分析,并应用于网上书店系统,实现对客户数据的挖掘。 关键词 ID3算法 决策树 数据挖掘 网上书店 目前,据电脑商情报通过最近的调查研究得出的结果显示,截至去年6月,我国的网上书店数量已经达到300家以上,比前年同期增长25.8%。同行之间的竞争日益激烈,特别是客户是商家争夺的焦点。 网上书店的业务系统每天都要产生大量的业务数据,这些业务数据记录了各类客户在网上书店相关业务的信息和客户的基本信息,这些数据用数据库保存起来。在竞争日益激烈的知识经济环境下,数据库不再只是用于查询、输出报表等一般的用途,还要在众多的数据中挖掘出有用的知识以便作为决策支持。这些数据中的一部分是需要经过一番分析形成知识后才能被决策所利用。数据挖掘技术在网上购书系统中起着重要作用,使用数据挖掘技术进行订单数据的挖掘, 通过决策树技术得到客户进行分析,发现客户所处的生命周期,针对处于不同客户生命周期的客户,采取个性化的策略,实现向其推荐书籍和客户保持,提高客户满意度,进而建立忠诚度。从而实现客户的保持,防止客户流失。 一、决策树技术基本概述 决策树基本思想是:选取一个最能区分不同类别样本的属性,让其作为树根,并把训练样本集分为相应的几块,接下来再依次在每一块样本集中选出区分度最大的属性,作为树的第二层结点。依此类推,直到所有的叶结点都只包含一类样本时终止,这样构建起来的一棵树就称作决策树。然后进行验证,就可得出结果。因此在分析客户流失情况时,将己有的客户信息的统计作为基础数据,选择好的属性,构造决策树,决策树技术可以清晰的显示哪些字段比较重要,对挽留客户指明了方向。 决策树是应用非常广泛的分类方法,目前有多种决策树方法,如ID3、CN2、SLIQ、SPRINT等。 二、ID3算法及其在网上书店中的应用 ID3算法是Quinlan提出的一个著名决策树生成方法。它的基本概念是决策树中每一个非结点对应着一个非类别属性,树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联。采用信息增益来选择能够最好地将样本分类的属性。 ID3选择具有最高信息增益的属性作为当前结点的测试属性。该属性使得对结果划分中的样本分类所需的信息量最小,并反映划分的最小随机性或“不纯性”。这种信息理论方法使得对一个对象分类所需的期望测试数目达到最小,并尽量确保找到一棵简单的树来刻画相关的信息。 设S是s个数据样本的集合,假定类标号属性具有m个不同值,定义m个不同类Ci(i =1,2,m)设si是Ci类中的样本数,对一个给定的样本分类所需的期望信息由下式给出: 其中,Pi是任意样本属于Ci的概率,并用si/s估计。 设属性A具有v个不同值a1,a2,av,可以用属性A将S划分为v个子Si,Sv,其中,Sj包含 S中这样一些样本,它们对应的属性A的值为aj。如果A选作测试属性(即最好的划分属性),则这些子集对应于由包含集合S的结点生长出来的分支。设sij是子集Sj中类Ci的样本数。根据A划分的子集的嫡或期望信息由下式给出: 充当第j个子集的权,并且等于子集(即A值为ai)中的样本个数除以S中的样本总数。 这次分类之后,还需要的分类信息量为: Pij是Sj中的样本属于类Ci的概率。 对描述属性的元素计算信息增益值: 选择最高信息增益的创建一个结点,并以该属性标记,对该属性的每个值创建一个分支,并据此进行划分。 网上书店分析客户流失情况,决策树技术中的是解决这一问题的有效途径。ID3算法是一个著名决策树生成方法。具体的过程如下: 1.构造训练集 根据各种渠道收集的用户信息以及日志文件创建了网上书店的数据仓库,从中提取客户活动信息。如下表: 2.信息增益计算 将决策树的算法应用在客户保持中,生成决策树算法的执行过程描述如下: 计算IfLost的期望信息: 类标号属性IfLost有两个不同值yes,no,因此有两个不同的类(2)。设类C1对应于yes,而C2对应于no,类yes有6个样本,类no有4个样本。 根据公式,可得给定样本分类所需的期望信息: 计算每个属性的期望信息。从属性业务种类(Online-time)开始,观察Online-time的每个样本的yes和no分布,可算出Online-time的期望信息: 对于Online_time“3小时”s11=2,s21=2 Online_time“3小时”s12=4,s22=2 根据公式(5-4),样本按Online-time划分,对一个给定的样本计算Online-time的期望信息为: 同理,计算出属性ContracType、IfInsales、Proression的期望信息。 因此,根据公式,计算出Online-time的信息增益是: 同理得到ContractType、IfInsales、Profession的信息增益: Gain(ContractType)=0.44635 Gain(IfInsales)=0.12452 Gain(Profession)=0.13530 根据计算出的信息增益,对应最高信息增益的结点作为分枝结点,分枝结点ContractType在属性中具有最高信息增益,选作测试属性,创建一个属性,用ContractType作标志,并对于每个属性值,引出一个分支,样本据此划分,初始分枝点如图1所示。 图1 是否参加过促销活动的分支 重复上述过程,直到树不再生长。再对以上的两个分支作为初始分裂点分别计算每个属性的信息增益,选出测试属性,创建结点继续树的生长,算法最终返回的决策树如下图2所示。 图2 最后生成的决策树 从上面对决策树分析,结果表明:合同类型是决策树分枝的最重要因素,其次为从事职业、在线时长、促销活动等。结果表明: 易流失客户为:与本网上书店未签订合同,每日上网时间长3小时的普通客户;与本网上书店签订团体合同,行政机关;与本网上书店未签订合同,从事行政工作的公务员。 非流失客户为:与本网上书店签订个人合同,从事教育工作的教育工作者;与本网上书店签订团体合同,从事教育事业的教育机构;与本网上书店未签订合同,每日上网时间长3小时的普通客户;与本网上书店签订个人合同,从事行政工作的公务员。这些客户是本网站的注册者、常客、忠实客户。 三、决策树技术在网上书店中的应用 挖掘的目的是为了应用。因此,利用能够实现分类回归树的算法的数据挖掘工具,可以精确获得预测流失率,建立流失预测模型,分析客户流失倾向,即可在客户流失之前做出预警可能性的大小。业务人员也可以根据每个客户的流失可能性对客户从高到低排序,找出流失倾向较高的群体,并结合这些客户对应的分群特征,采取相应的客户挽留策略,以进行更加精细的客户保有工作,提高客户挽留的成功率。 四、结束语 利用决策树技术可以挖掘大量的客户信息为构建预测模型,较准确地找出符合离开因素的客户,制定相应的方案。最大程度挽留他们。本文对决策树技术的基本思想和决策树生成方法ID3算法进行了详细的分析,讨论了网上书店系统业务信息的挖掘。本文中许多方法和思路在比如超市其他方面有一定的借鉴意义。 参考文献: 1范云峰:客户开发营销M.北京:中国对处经济贸易出版社,2003.7 2毛国君段立娟:数据挖掘原理与算法M.清华大学出版社,2005.7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论