版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息管理与工程系课程设计金融数据挖掘案例分析课程设计报告学生姓名:学号:题目:基于分类技术的电信客户流失预测的研究系别:信息管理与工程系班级:信息管理与信息系统指导教师:2015年6月目录摘要:1Abstract:21.引言31.1研究背景和意义31.2国内外应用和研究现状31.3 研究方法41.3.1 数据收集41.3.2数据准备41.3.3数据建模41.3.4.模型评估42.决策树算法基本概述52.1 决策树算法的提出和发展52.2 决策树算法的概念52.3决策树的优缺点53. 数据预处理63.1数据预处理概述63.2 数据的商业理解63.3 数据预处理方法63.3.1数据清理63.3.2
2、数据集成73.3.3数据变换73.3.4数据归约74.构造决策树84.1决策树分类的步骤84.2建模84.2.1输入数据84.2.2输出类型914.2.3手工计算验证94.2.4 SQL Server Business Intelligence Development Studio工具验证124.2.5实验结论分析165总结与后需改进工作175.1总结175.2后续需要改进的工作17致谢19参考文献202基于分类技术的电信客户流失预测的研究摘要:在国内随着对数据挖掘技术的重视,数据挖掘技术的应用也越来越广,其中电信行业的客户流失分析就更是一大热点。通过对以往流失客户的数据进行分析,找出可能流失
3、用户的特征,及时采取相应的措施,减少客户流失的发生。这对提高经营业绩和降低运营成本有着极为重要的价值。本文从数据挖掘的效率和精度出发,运用分类技术方法中的决策树算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特征进行分析,采取针对性的措施挽留即将流失的客户或有流失意向的客户,达到亡羊补牢的效果。关键字:数据挖掘;电信客户流失;分类技术;决策树算法 11Abstract:Along with data mining technology development, data mining impor-tance already by more and mo
4、re many person attention, in which to the telecommunication profession customer outflow forecast is a present big hot spot.This article utilizes the decision tree algorithm to carry on the analysis to the telecommunication customer attribute characteristic, obtains the outflow customer the basic cha
5、racteristic, helps the enterprise superintendent to carry on the analysis to this kind of customer behavior characteristic, adopts the customer which the pointed measure detains soon drains or has the outflow intention customer, achieved is better late than never effect.Keywords: Data mining ;teleco
6、mmunication customer outflow ; classification technique;decision tree algorithm 1.引言1.1研究背景和意义随着中国电信行业体制的改革与重组,中国电信业的市场环境发生了根本性的变化,中国电信服务市场逐步形成了从最初个别运营商垄断市场到数家大运营商主导、多家小运营商参与、新运营商不断加入的电信市场竞争的新格局。在当前电信业普及率很高的形势下,在发展新客户的同时,怎样维持已有的客户群,已经成为电信企业越来越关注的焦点。面对激烈的竞争市场,各大运营商正在寻找一种更有效的办法来建立与客户的关系,创造客户价值来保留和竞争优质
7、客户。要想预测将要流失的客户,进而成功对其进行挽留,首先要全面掌握客户的信息。这些业务数据已经达到几十甚至上百TB,数据挖掘技术则正是目前数据仓库领域最强大的数据分析手段。客户流失预测,就是使用数据挖掘的方法,整合客户历史大量的数据,分析客户基本状态属性和历史属性,提取出已经流失客户在流失前具有的特点,从而建立流失模型,预测出会在不久会流失的客户,从而降低客户的流失率。1.2国内外应用和研究现状在国外,如美国国防财务部从每年上百万笔的军火交易中寻找可能存在的欺诈现象,并进行深入分析和调查,从而大量的节约了成本。在国内,数据挖掘的研究起步较晚,事实上运用数据挖掘技术的企业不多,比较典型的是SAS
8、公司的SAS Enterprise Miner,被用于上海宝钢的配矿系统热轧质量控制系统。国内一些电信企业也陆续开始使用。数据挖掘技术在运用方面仍有一些不足:(1)对挖掘对象的数据理解有所欠缺,变量属性选择的欠缺。(2)理论无法很好的指导实践应用。大量的研究只能得出模型预测的准确率,而无法利用预测结果来正确的指导实践。1.3 研究方法1.3.1 数据收集这一任务主要是获得项目资源需求得数据,在本文中主要是结合电信业的业务经验,分析流失数据包括客户的自然属性、消费费用、套餐类型等。这些数据主要还是直接从某家电信公司获得。1.3.2数据准备数据准备包括对数据的选择、缺失值处理、噪声数据平滑、数据集
9、成变换、衍生变量的生成、离散化、抽样等.它需要对行业领域知识有较深的理解,是数据挖掘项目中花费时间最长的过程。1.3.3数据建模经过数据预处理后得到一个高质量的数据集合,从训练集中选择”客户流失“字段预测模型中的目标字段。它由YES 和NO 两个值组成,YES 代表用户流失,NO代表用户非流失.通过决策树算法归纳分析它们的特征来预测用户是否离网,得到客户流失决策树,其中每一条路径代表一条分类规则,每条规则对应了一个叶子节点,给出该规则客户流失的数量和流失的可能性。1.3.4.模型评估模型评估是首先通过手工计算得出模型,然后通过SQL Server Business Intelligence D
10、evelopment Studio软件分析挖掘验证,以提高模型的正确率。2.决策树算法基本概述2.1 决策树算法的提出和发展 决策树方法最早产生于上世纪60年代,到70年代末。1986年 Quinlan提出了著名的ID3算法。在ID3算法的基础上,1993年Quinlan又提出了C4.5算法。为了适应处理大规模数据集的需要,后来又提出了若干改进的算法,其中SLIQ 和SPRINT 是比较有代表性的两个算法。2.2 决策树算法的概念 决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个
11、分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。2.3决策树的优缺点优点:(1) 分类精度高:决策树方法具有较高的分类精确度。(2) 对噪声数据有很好的健壮性,决策树模型效率高(3) 分类模型是树状结构,简单直观,可将到达每个叶结点的路径转换为IFTHEN形式的规则,易于理解。缺点:(1)不易处理连续型数据(1) 决策树算法对于缺失数据难以处理(2) 决策树忽略了数据库属性之间的相关性203. 数据预处理3.1数据预处理概述 现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。 数据预
12、处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。 3.2 数据的商业理解电信行业中,客户流失是CRM(客户关系管理)中客户生命周期的最后一个阶段,一般可以分为两类:一类为自愿流失,指用户从本电信运营商转至它网运营商;另一类为非自愿流失,指电信企业出于客户欠费或不履行责任等原因而主动取消用户的服务。大多数的客户流失属于第一类。流失往往受到一种或多种因素的影响,例如客户心理偏好、住宅搬迁、竞争对手的优惠政策、电信企业的服务质量等。 本文主要关注自愿流失客户,特别是其中用户价值和信用度高的群体。3.
13、3 数据预处理方法3.3.1数据清理数据清洗(Data Cleaning)能够填补空缺数据,平滑噪声,发现孤立点,纠正不一致的数据,进而改善数据质量,提高数据挖掘的精度和性能。 如电信行业中的属性删除:将有大量不同取值且无概化操作符的属性或者可用其它属性来代替它的较高层概念的那些属性删除。比如客户信息表中的用户标识、身份证号码等,它们的取值太多且无法在该取值域内找到概化操作符,应将其删除,得到表3-1如下所示:表3-1 部分客户信息表学历 职业 缴费方式 在网时长 费用变化率 客户流失 大学 公务员 托收 13 10% NO 高中 工人 营业厅缴费 9 42% NO 研究生 公务员 充值卡 2
14、 63% YES 大学 公务员 营业厅缴费 5 2.91% NO 初中 工人 营业厅缴费 3 2.3% NO 高中 无业人员 充值卡 2 100% YES 初中 无业人员 营业厅缴费 9 2.3% NO 3.3.2数据集成 数据集成例程将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。3.3.3数据变换 通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。3.3.4数据归约 数据归约技术可以用来得到数据集的归约表示,虽然数据规模缩小了,但仍接近于原数据的完整性。常用的数据归约策略:数据立方体聚集、维归约、数据压缩、数值压缩、离散化、概念分层等。河北
15、金融学院信息管理与工程系课程设计4.构造决策树4.1决策树分类的步骤 使用决策树进行分类分为两步: 第1步:利用训练集建立并精化一棵决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程。 第2步:利用生成完毕的决策树对输入数据进行分类。对输入的记录,从根结点依次测试记录的属性值,直到到达某个叶结点,从而找到该记录所在的类。4.2建模4.2.1输入数据 由表3-1部分客户信息表的数据经过转化后得到表4-1如下所示:表4-1 转化后的部分客户信息表年龄 学历 职业 缴费方式 开户时间 费用变化率 客户流失 N3 W3 Z1 T1 H2 F1 NO N2 W2 Z2 T2
16、 H2 F2 NON1 W3 Z1 T3 H1 F2 YESN1 W3 Z1 T2 H1 F1 NO N1 W1 Z2 T2 H1 F1 NO N2 W2 Z3 T3 H1 F3 YES N3 W1 Z3 T1 H2 F1 NO 转化方法如下: 属性概化:用属性概化阈值控制技术沿属性概念分层上卷或下钻进行概化。文化程度分为3类:W1初中以下(含初中),W2高中(含中专),W3大学(专科、本科及以上);职业类别:按工作性质来分共分3类:Z1一Z3;缴费方式:托收:T1,营业厅缴费:T2,充值卡:T3。 连续型属性概化为区间值:表中年龄、费用变化率和在网时间为连续型数据,由于建立决策树时,用离散型
17、数据进行处理速度最快,因此对连续型数据进行离散化处理,根据专家经验和实际计算信息增益,在“在网时长”属性中,通过检测每个划分,得到在阈值为5年时信息增益最大,从而确定最好的划分是在5年处,则这个属性的范围就变为<=5,>5:H1,H2。而在“年龄”属性中,信息增益有两个锋值,分别在40和50处,因而该属性的范围变为<=40,>40-<=50,>50即变为青年,中年,老年:N1,N2,N3;费用变化率:指(当月话费近3个月的平均话费)/近3个月的平均话费)×>0,F1:<30%,F2:30%-99%, F3:100%变为F1,F2,F3。
18、 4.2.2输出类型 在本文中我们需要通过SQL Server Business Intelligence Development Studio工具进行数据挖掘,因此我们把输出类型选为“Microsoft决策树”。4.2.3手工计算验证 (1)第1步计算决策属性的熵:决策属性“客户流失?”。该属性分两类:YES/NO S1(YES)=200,S2(NO)=500,S=S1+S2=700; 出现概率:P1=200/700=0.286;P2=500/700=0.714 I(S1,S2)=I(200,500)=-P1Log2P1-P2Log2P2 =-(0.286Log20.286+0.714Log
19、20.714)=0.863(2)第2步计算条件属性的熵 条件属性共有6个。分别是年龄、学历、职业、缴费方式、开户时间、费用变化率。分别计算不同属性的信息增益。 计算年龄的熵:青年,中年,老年:N1,N2,N3 青年:S1(YES)=100,S2(NO)=200,S=S1+S2=300; P1=100/300=0.333;P2=200/300=0.667 I(S1,S2)=I(100,200)=-P1Log2P1-P2Log2P2 =-(0.333Log20.333+0.667Log20.667)=0.918 同样的方法可得:中年: I(S1,S2)=1 老年: I(S1,S2)=0 则: E(
20、年龄)=0.429*0.918+0.286*1+0.286*0=0.680 G(年龄信息增益)=0.863-0.680=0.183 计算学历的熵:W1初中以下,W2高中,W3大学 E(学历)=0.286*0+0.286*1+0.429*0.918=0.680 G(学历信息增益)=0.863-0.680=0.183 计算职业的熵:Z1一Z3 E(职业)=0.429*0.918+0.286*1+0.286*0=0.680 G(学历信息增益)=0.863-0.680=0.183 计算缴费方式的熵:托收:T1,营业厅缴费:T2,充值卡:T3。 E(缴费方式)=0.286*0+0.429*1+0.286
21、*0=0 G(缴费方式信息增益)=0.863-0.429=0.434 计算开户时间的熵:<=5,>5:H1,H2 E(开户时间)=0.571*1+0.429*0=0.571 G(开户时间信息增益)=0.863-0.571=0.292计算费用变化率的熵:F1:<30%,F2:30%-99%, F3:100% E(费用变化率)=0.571*0+0.286*1+0.143*0=0.286 G(费用变化率信息增益)=0.863-0.0.286=0.577 (3)第三步比较上述6个条件属性的信息增益值,其中费用变化率信息增益值最大,因此作为决策树的根节点。 (4)第四步:如果选择年龄作
22、为节点分为青年,中年,老年:N1,N2,N3 依次计算均值、信息增益值,并确定决策树的子根节点。YESNO年 龄职 业YES缴费方式YESYESNOYESNONO开户时间NOF1F2F3N1N2N3T1T2T3Z1Z2Z3H1H2费用变化率 (5)第五步:重复上述步骤,直至遍历所有属性,得出最终决策树如下图所示: 图4-1 决策树图(6)决策树分析:在图中,NO表示客户不流失,YES表示客户流失。从图可以看出,客户费用变化率为100%的客户肯定已经流失;而费用变化率低于30%的客户;即每月资费相对稳定的客户一般不会流失,费用变化率在30%99%的客户有可能流失,其中年龄在4050岁之间的客户流
23、失的可能性非常大,而年龄低于40岁的客户,用充值卡缴费的客户和在网时间较短的客户容易流失;年龄较大的客户,则工人容易流失。4.2.4 SQL Server Business Intelligence Development Studio工具验证 (1)先创建一个数据库,将需要挖掘的数据导入到sqlserver2008数据库中; (2)打开SQL Server Business Intelligence Development Studio,新建一个AnalysisServices项目kehu; (3)创建数据源,如图4-2所示:图4-2 数据源向导图 (4)创建数据源视图,如图4-3所示:图4
24、-3数据源视图向导图(5)创建挖掘结构,选择“Microsoft 决策树”挖掘技术,如图4-4所示:图4-4 数据挖掘向导图 (6)指定定型数据,如图4-5所示:图4-5 指定定型数据图 此处,“键”为字段编号,“可预测值”为字段客户流失。 (7)查看挖掘模型,如下所示:图4-6 挖掘的决策树模型图图4-7 依赖关系网络图图4-8 挖掘准确性图表图(8)挖掘结果分析:从图4-6可以看出,客户费用变化率为100%的客户肯定已经流失;而费用变化率低于30%的客户;即每月资费相对稳定的客户一般不会流失,费用变化率在30%99%的客户有可能流失,而决定这些客户是否流失的原因则是客户的缴费方式决定的,缴
25、费方式为托收的则可能影响不大,而缴费方式为营业厅缴费和充值卡方式,则客户的流失率反而减小,这正适应当前消费者的消费模式。4.2.5实验结论分析 通过手工计算和挖掘工具挖掘验证,二者的结果虽然不是完全一致,但大体上还是相符的,两者的结论都得到6个条件属性中,费用变化率的信息增益值最大,因此费用变化率属性作为决策树的根节点,由此可得出规则:客户费用变化率为100%的客户肯定已经流失;而费用变化率低于30%的客户一般不会流失;费用变化率在30%99%的客户有可能流失,是否流失则由其他条件属性决定。 5总结与后需改进工作5.1总结 本文首先介绍了数据挖掘于电信企业在国内外的发展状况和研究的目的意义,以
26、及数据挖掘大体的流程:从商业理解数据数据收集数据准备数据建模模型评估。随后介绍了决策树算法的提出发展、基本概念、以及优缺点,紧接着介绍了数据预处理,包括预处理概述、数据的商业理解和预处理方法。最后则进行构造决策树,建模、得出结论。在这个项目中,通过手工计算并结合SQL Server Business Intelligence Develo-pment Studio数据挖掘软件对电信业客户的资料进行了分析,提出了一个对电信业客户流失预测的具体方案,通过应用分类方法中的决策树算法得到了该预测模型。详细的讲述了一个项目挖掘的流程:数据的预处理、挖掘的算法实现以及对挖掘结果的分析, 从中也讲述了数据挖掘在SQL Server Business Intelligence Develo-pment Studio的应用。5.2后续需要改进的工作 在本次项目的研究以及最后生成的模型来看,尚有很多需要学习和改进的地方,由于时间和本人的能力都有限,只在本次的项目中得到一个并不是很完善、完美的模型。因此在以后的学习中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 兰州信息科技学院《亲子教育活动设计》2023-2024学年第一学期期末试卷
- 江西农业大学南昌商学院《税收》2023-2024学年第一学期期末试卷
- 湖南艺术职业学院《误差理论与测绘平差基础》2023-2024学年第一学期期末试卷
- 衡水学院《有机化学B》2023-2024学年第一学期期末试卷
- 重庆交通大学《元典阅读与笔记2》2023-2024学年第一学期期末试卷
- 浙江商业职业技术学院《形体与舞蹈(一)》2023-2024学年第一学期期末试卷
- 中国戏曲学院《小企业会计准则》2023-2024学年第一学期期末试卷
- 长春汽车工业高等专科学校《自然地理学理论与方法》2023-2024学年第一学期期末试卷
- 浙江纺织服装职业技术学院《数据分析与SPSS实现》2023-2024学年第一学期期末试卷
- 食品卫生安全监管技术应用
- 农业昆虫学实验5蔬菜害虫课件
- 大学研究生赴境内外高校学习课程学分认定管理办法
- 非标设计最强自动计算-压入力计算
- 银行客户经理个人履职总结银行客户经理个人工作总结
- 人教版七年级数学下册计算类专项训练卷【含答案】
- 化学元素周期表口诀化学元素周期表口诀
- 诗词接龙(飞花令)PPT
- 子宫内膜癌(课堂PPT)
- 澳大利亚公司法1-30
- 海上试油测试技术0327
- 中国地图标准版(可编辑颜色)
评论
0/150
提交评论