第四篇电信客户流失影响因素预测解析总结计划_第1页
第四篇电信客户流失影响因素预测解析总结计划_第2页
第四篇电信客户流失影响因素预测解析总结计划_第3页
第四篇电信客户流失影响因素预测解析总结计划_第4页
第四篇电信客户流失影响因素预测解析总结计划_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四篇电信客户流失影响因素及展望解析总结计划第四篇电信客户流失影响因素及展望解析总结计划第四篇电信客户流失影响因素及展望解析总结计划电信客户流失影响因素与展望解析一、序言当前电信运营商面对着激烈的市场竞争。对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实质上就是对客户资源的竞争。能够说,未来的电信行业,得客户者得天下。?现在电信市场竞争激烈,运营商每个月客户流失率在1%3%,挽留将要流失客户,降低客户流失率是近来几年来热门的

2、研究领域。而数据挖掘技术是解决这一问题的有效路子,本文使用IBMSpssClementine(IBNSPSSModeler)进行数据挖掘与解析,深入认识电信客户流失的重点,以对该类客户的行为特色进行预警解析,采用针对性的措施改进客户关系,防范客户流失也许挽留客户。二、问题解析依照已有的结果流失客户(在数据中直接有鉴识数据有没有流失的字段churn),搜寻他们流失的原因,即流失客户的特色。经过数据办理,统合数据,依照以前拥有的客户流失数据成立基本属性、服务属性和客户开销数据与客户流失可能性的数据模型,找出其潜在的关系,解析出客户流失的因素,计算出客户流失的可能性,展望客户可否流失的可能性。对于客

3、户的基本数据、客户行为数据及开销数据,进行数据挖掘,研究已流失客户数据,从中找出先前未知的、对企业决策有潜藏价值的知识和规则,挖掘潜藏流失客户,让企业合时掌握住市场及客户动向,掌握客户流失的规律。三、算法简介3.1分类解析分类就是找出一个类其他看法描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这类描述来成立模型,一般用规则或决策树模式表示。分类是数据挖掘的主要方法,分类模型能很好地拟合训练样本集中属性集与种类之间的关系,也能够展望一个新样本属于哪一类。分类技术已经在好多领域获得成功应用,如医疗诊断,客户流失展望,信用度解析,客户分群和诈骗侦测。常有的分类方法有贝叶斯分类(Bayesi

4、an),神经网络(neuralnetworks),遗传算法(geneticalgorithms)和决策树分类器(decisiontrees)。在这些分类方法中,决策树分类器在大规模的数据挖掘环境中已经获得了最为广泛的应用。3.2决策树演算法决策树演算法是在进行数据挖掘时经常使用的分类和展望方法。一个决策树的架构,是由三个部分所组成:叶节点(LeafNode)、决策节点(Decisionnodes)以及分支。决策树演算法的基本源理为:经过演算法中所规定的分类条件对于整体数据进行分类,产生一个决策节点,并连续依照演算法规则分类,直到数据无法再分类为止。3.3决策树演算法的比较决策树演算法依照其演算

5、原理以及可适用解析数据种类的不一样延伸出多种决策树演算法。在IBMSPSSModeler中,主要供应了四种常用的决策树演算法供使用者选择,分别为:C5.0、CHAID、QUEST以及C&RTree四种。使用者可依照数据种类以及解析需求的不一样,选择适合的决策树演算法进行解析。诚然不一样的决策树演算法有各自适用的数据种类以及演算架构等差异,但概括来说,决策树的主要原理均为经过演算法所定义的规则,对数据进行分类,以成立决策树。鉴于篇幅所限,以下部分将会针对这四类决策树演算法进行简单的介绍和比较,而详细演算法原理将不会在本文中详述。3.4决策树的几大优点第一,与神经网络和贝叶斯分类器对照,决策树供应

6、特别直观的描述,这类描述易于被吸收,转变成标准的数据库盘问第二,训练神经网络模型时要开销大量的时间,要进行大量的重复操作,与之对照决策树效率要高好多,适合于大的训练集。第三,决策树生成算法除了训练集中包括的信息外不需要附加的信息(即领域知识或类标签以前的分布情况)。第四,决策树有着可比的或更高的正确率。在使用决策树演算法进行解析以前,首要工作就是选择适合的演算法。一般来说,会根据所要解析数据的特色以及数据型态等选择初步的演算法。接下来再经过比较初步精选的决策树解析出来的结果,选择最适合的决策树演算法。四、实验与解析4.1数据准备数据本源:电信客户流失数据.sav(共有8个字段,1000个记录)

7、数据有8个字段,其中包括一些客户个人信息,比方年龄、教育程度、退休、性别和客户种类,?还包括一些客户使用电佩服务信息(有附加服务、基本服务、上网服务和全部服务)以及客户的上网月数,(这里老师我不会把sav格式变换成xlsx格式的,因此用的还是原来的那个1000个记录的,(但是我把样本抽样选择了前200了,由于我用前200的样本数据进行数据挖掘,发现挖掘出来的结果完满失去了真实性,与现实不吻合,因此我还是将数据样本量改成了1000了,为了保证我做出数据挖掘展望结果的真实性)由于我不能够将数据更正,因此下面我使用了分区将数据分为训练,测试以及考据,为了展现展望数据的结果)以下为部分数据的截图:4.

8、2参数设置目标变量表示了数据挖掘的目标,在客户流失解析中目标变量平时为客户流失状态churn)。输入变量用于在建模时作为自变量搜寻与目标变量之间的关系。我们主要从客户种类信息,客户在网月数信息,客户基本信息(年龄,性别,教育水平,家庭人数等),客户的工作年限信息,客户的退休信息这几方面采用输入变量。4.3挖掘过程读取数据SPSSModeler中需要依照数据档案格式,来选择不一样的源节点读取数据。本篇文章中我们使用的数据档案格式为.sav档,因此我们将使用Statistics文件节点。在节点设定方面,文件标签下我们先读入数据“电信客户流失数据.sav”,接着勾选读取名称和标签以及读取数据和标签。

9、(以下为读取数据截图)数据种类定义为了产生决策树模型,我需要在数据建模前就定义好各栏位的角色,也就是加入字段选项下的种类节点。将种类节点拉入串流后,我会先点选读取值按钮,接着设定角色。是否流失(churn)是我最后展望的目标,因此先将其角色设定为“目标”,余下的栏位则是要设定为“输入”。数据分区为了在训练出模型后能够解析模型正确度,在此我加入字段选项下的分区节点,将数据分为50%训练数据、40%测试数据以及10%考据数据。在分区节点的编写页中,点选预览可发现每笔数据已经多出了一个栏位分区,栏位中的值被随机归类为1_训练、2_测试以及3_考据,让决策树节点可鉴识可否要使用此资料做为训练数据,测试

10、数据以及考据数据。在完成资料分区后,我已经完成数据准备,能够套用决策树模型节点了。决策树节点设定SPSSModeler共供应四种决策树节点建模,包括C5.0、C&R树、Quest量到数据特色以及我希望供应的决策树拥有多元分类法,因此我将成立C5.0种分类模型。和和CHAID。考CHAID两1)C5.0节点设定将C5.0节点与种类节点连结后,我将于此节点编写页面中的模型标签下设定相关的变数。以下为各变数的详细介绍,此定义来自SPSSModeler15ModelingNodes文件。使用分区数据:若是定义了分区字段,则此选项可保证仅训练分区的数据用于成立模型。为每个切割成立模型:给指定为切割字段的

11、输入字段的每个可能值成立一个单独模型。输出种类:在此指定希望结果模型块是决策树还是规则集。组符号:若是选中此选项,C5.0将试图组合输出字段中拥有相似样式的符号值。若是未选中此选项,C5.0将为用于切割父节点的符号字段的每个值创办一个子节点。使用boosting:C5.0算法有一个特其他方法用于提高其正确率,称为boosting。它的工作原理是在序列中成立多个模型。第一个模型按老例方式进行成立。成立第二个模型时,将焦点集中于由第一个模型误分类的记录。成立第三个模型时,将焦点集中于第二个模型的错误,依此类推。最后,经过将整个模型集应用到观察值,并使用加权投票过程将单独的预测组合为一个总展望来分类

12、观察值。推进能够显着提高C5.0模型的正确性,但也需要更长的训练时间。经过试验次数选项能够控制在推进模型过程中使用的模型数目。交互考据:若是选中此选项,C5.0将使用一组模型(依照训练数据的子集成立)来估计某个模型(依照全部数据集成立)的正确性。专家模式-修剪严重性:确定对决策树或规则集的修剪程度。增加该值可获得一个更简洁的小型树。减小该值可获得一个更精确的树。专家模式-每个子分支的最小记录数:可使用子组的大小限制树的任何分支中的切割数。仅当两个或多个生成的子分支中最少包括从训练会集获得的这一最小记录数时,才可切割树的分支。默认值为2。(以下为创办C5.0节点的截图)2)CHAID节点设定将C

13、HAID节点与分区节点连结后,我将于此节点编写页面中的模型标签下设定相关的变数。由于CHAID节点设定很多,介绍一些变数。此定义来自“SPSSModeler15ModelingNodes文件”。最大树深度:指定根节点以下的最大级数(递归切割样本的次数)。修剪树以防范过拟合:修剪包括删除对于树的精确性没有显着贡献的基层切割。修剪有助于简化树,使树更简单被理解,在某些情况下还可提高广义性。停止规则:设置最小分支大小可阻拦经过切割创办特别小的子组。若是节点(父)中要切割的记录数小于指定值,则父分支中的最小记录数将阻拦进行切割。若是由切割创办的任意分支(子)中的记录数小于指定值,则子分支中的最小记录数

14、将阻拦进行切割。(以下为创办CHAID节点的截图)3)C&R树节点设定将C&R树节点与分区节点连结后,我将于此节点编写页面中的模型标签下设定相关的变数。由于C&R树节点设定很多,介绍一些变数。此定义来自“SPSSModeler15ModelingNodes文件”。修剪树以防范过拟合:修剪包括删除对于树的精确性没有显着贡献的基层切割。修剪有助于简化树,使树更简单被理解,在某些情况下还可提高广义性。若是需要完满的未经修剪的树,请保持此项处于未选中状态。?暴风险差值(标准误):经过此选项可指定更自由的修剪规则。标准误规则使算法能够选择简单的树,该树的风险评估凑近于(但也可能大于)风险小的子树的风险评

15、估。此值表示在风险评估中已修剪树细风险小的树之间所赞同的风险评估差异大小。比方,若是指定2,则将选择其风险评估(2标准误)大于完整树的风险评估的树。大代用项:代用项是用于办理缺失值的方法。对于树中的每个切割,算法都会对与选定的切割字段相似的输入字段进行鉴识。这些被识其他字段就是该切割的代用项。当必定对某个记录进行分类,但此记录中的切割字段中拥出缺失值时,能够使用代用项字段的值填补此切割。增加此设置将能够更加灵便地办理缺失值,但也会以致内存使用量和训练时间增加。(以下为创办C&R树节点的截图)4.4结果展现生成决策树模型决策树节点设定完成后,点击主工具列的运行当前流前即可看到三个决策树模型的产生

16、。双击决策树模型则可看到模型结果,而我们最主要要观察的是模型标签及查察器标签下的内容。模型标签内容以以下图,左栏位使用文字树状张开,表现每一阶层的分类情况及目标变数的模式;右栏位则是整体模型展望变量的重要性比较。我也将会依照变量重要性调整模型设定、变数选择,连续的训练出较佳的模型。查察器标签则是将同样的决策树结果用树状图的方式展现。1)C5.0法2)CHAID法3)C&R树法决策树流表示图:(以下截图)五、结果解析5.1比较决策树模型解析结果正确率由于各决策树的演算法不一样,最后的分枝结果以及展望的正确性亦不一样,本文使用C5.0、CHAID及C&R树三种决策树节点(C&R树图省略,由于CHA

17、ID图周边),其展望正确率以下图所示。从结果来看,C5.0的正确率都高于CHAID及C&R树,因此接下来我们会使用C5.0结果为主。进一步观察实质值与展望值的重合矩阵,可发现模型展望正确的正确性远高于预测错误的正确性,以C5.0测试数据来看,1_训练正确的展望正确性为84.8%,远大于错误的15.2%、2_测试正确的展望正确性为71.43%,远大于错误的28.57%、3_考据正确的展望正确性为73%,远大于错误的27%。C5.0法变量重要性CHAID法C5.0与CHAID模型的变量重要性如图下所示(C&R树图省略,由于与CHAID图周边)。比较左边与右边的图可发现,尽管变量重要性的排序两个模型

18、相差不是特别大,前三个同样,但是在重要性的大小上不同样,但是最重要的三个解析变量在网月数(tenure)、教育水平ed)和当前工作年限(employ)同样,且都比其他变量相对重要好多,而客户种类(custcat)和家庭人数(reside)则不同样。C5.0法CHAID法5.2解读展望结果展望规则C5.0决策树模型产生好多展望规则,而大部分的展望结果仿佛实质数据同样,都是顾客流失了。为了降低顾客的流失率率,电信的员工可由这些规则来精选目标。SPSSModeler提供的决策树结果,包括了分类结果、实例数字和置信度,当分类的实例置信度较高,则可导出展望规则。(1是流失,0是没有流失)以以下图为例,其

19、中之一的规则为employ(当前工作年限=3),“模式0”,其展望结果是没有流失,实例数字为11笔数据吻合,其中72.7%被正确展望。同样,其展望结果是流失,实例数字为edin45(教育水平为学士和硕士),23笔数据吻合,其中78.3%被正确展望。“模式1”,六、方案与对策电信业的竞争重点集中在对大客户市场的强抢,这一竞争态势迫切要求各大电信运营商将更多的精力投入到大客户市场,做好大客户的培育、牢固和回流工作、这三个方面的工作是相互促进、相互补充的,讲究大客户的回流工作而言,可采用以下措施以尽可能地是大客户的流失率降低。1.张开品牌工程建设推行品牌经营,向客户宣传推行产品、品牌服务,培育品牌开销者。品牌工程建设是一项长远性、战略性的工作,电信运营商要本着立足长远、着眼未来的原则,将企业业务经营的各方面纳入到品牌建设这一限制性的发展方向上来。2.张开个性化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论