混合模型用于电信客户流失预测_第1页
混合模型用于电信客户流失预测_第2页
混合模型用于电信客户流失预测_第3页
混合模型用于电信客户流失预测_第4页
混合模型用于电信客户流失预测_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、混合模型用于电信客户流失预测Telecom Customer Churn Prediction by Hybrid Model冉建荣 RAN Jian-Jong; 邵培基 SHAO Pei-Ji; 梁丽琴 LIANG Li-Qin(电子科技大学,成都 610054) (University of Electronic Science and Technology of China, Cheng Du 610054)摘 要:针对国内省级电信公司客户流失管理实践需要,文章以构建更高效的客户流失预测模型为目标,选用部分数据混合模型方法,以C5.0、Neural Net和Logistic三种算法作为构

2、建混合模型的基础算法。在实证研究过程中,分别采用品牌、地区、网龄和账单作为客户细分标准,构建了不同的客户流失预测混合模型,用命中率和ROC曲线对预测结果比较评估,得到以地区为客户细分标准的混合模型预测效果最佳,以账单层次为客户细分标准的混合模型预测效果其次,以网龄和品牌为客户细分标准的混合模型预测效果较差的结论。因此,作者建议省级电信公司在构建流失预测系统过程中,以客户账单(或客户消费层次)作为细分标准,对各地区客户单独构建流失预测模型;同时,要加强品牌管理,提高各品牌对客户的区隔效果。Abstract: According to practical needs about customer

3、churn management in provincial telecommunication enterprise of China, this article selects segmented data hybrid model approach and three base arithmetic(C5.0、Neural Net and Logistic) in order to constructing better customer churn prediction model. In course of empirical study, this article construc

4、ts four customer churn prediction hybrid models with brand、district、duration and account bill as segmentation variable respectively, and adopts hit ratio and ROC curve to assess prediction effects of the empirical study results. The results show that prediction model of using district as segmentatio

5、n variable is best; and prediction model of using account bill as segmentation variable is secondary; and prediction model of using duration and brand as segmentation variable is worst. So the author proposes that provincial telecommunication enterprise constructs customer churn prediction model of

6、every district by using account bill as segmentation variable; and strengthens brand management to promote the differentiated effect of every brand.关键词:客户流失 混合模型 接受者操作特性曲线 决策 作者简介 冉建荣 1976年,男,重庆,电子科技大学经济与管理学院 硕士研究生,研究方向:信息管理与电子商务、客户关系管理。2国家自然科学基金项目 客户流失预测理论与实证研究 夏国恩 70801021树 神经网络 逻辑回归Key words: Cus

7、tomer Churn; Hybrid Model; Receiver Operating Characteristic Curve; Decision Tree; Neural Net; Logistic0 引言客户流失是指客户终止与企业的服务合同或转向其它公司提供的服务1。据中国工业与信息化部最新统计数据表明,截止2008年11月,中国移动电话用户数达6.34亿户,比去年同期增长19.2%;固定电话用户数达3.48亿户,比去年同期减少5.6%2,表明国内市场逐渐趋于饱和。对电信运营企业来说,在这样一个相对成熟的市场中竞争,防御性市场策略变得越来越重要。防御性市场策略重点关注的是如何减少客户

8、流失,而不是发展新客户和诱使竞争对手的客户转网3。Reichheld4研究表明,客户保持率每提高5%,行业平均利润增加幅度在25 %85 %之间。另有研究表明,赢得一个新客户所花费的成本大约是保留一个老客户所花费成本的56倍5。因此,各电信运营企业认识到管理好客户流失问题是提高企业盈利能力的关键,纷纷投入巨资构建各自的客户流失管理系统。客户流失管理主要包括预测可能流失的客户,客户收益的评估及减少客户流失的客户保持策略及方法等几方面6。本文以提高客户流失预测精度为目标,采用不同细分变量细分客户,构建流失预测混合模型,并用命中率和ROC曲线对结果进行比较评估,从而找到合适的细分标准和客户流失预测模

9、型。文章的组织结构如下:第一部分介绍了常见的数据挖掘混合模型类型;第二部分介绍了本文所选用的三种基本建模算法(C5.0、Logistic和Neural net);第三部分分别采用不同细分标准构建混合模型进行比较研究;第四部分对研究结论作简单评述,并给出实践建议。1 混合模型类型由于数据挖掘任务的日趋复杂,单一的数据挖掘算法往往不能达到预期的效果。因此,越来越多的学者更专注于构建数据挖掘混合模型来解决实际的问题。目前主要有两种方法用于构建数据挖掘混合模型:完整数据方法和部分数据方法7。1.1 完整数据方法在完整数据方法中,首先对所有数据构建几个单独数据挖掘模型,然后利用各个模型结果或几个模型的综

10、合结果来解决目标问题。主要有以下四种类型,如图1所示。图1 完整数据的混合模型类型1.2 部分数据方法在部分数据方法中,原始数据被分成几个数据集,然后对每个数据集单独建模,最后利用综合结果解决目标问题。主要有以下两种类型,如图2所示。图2 部分数据的混合模型类型 本文选用部分数据混合模型的S2类对不同细分标准的细分数据进行流失预测比较研究。2 三种基本算法 本文选用SPSS Clementine12.0中的C5.0、Logistic和Neural Net三种分类算法作为构建客户流失预测混合模型的基本算法。2.1 C5.0 C5.0是决策树分类算法最近的研究成果,它是由Quinlan于1986年

11、提出的ID3算法改进而来,是目前常用的监督学习算法性能比较基准。C5.0算法采用自顶向下回溯策略,根据提供最大信息增益的字段分割样本;然后,根据不同的字段再次分割由第一次分割定义的每个子样本,且此过程会重复下去直到无法继续分割子样本;最后,将重新检查最底层分割,并删除或修剪对模型值没有显著贡献的分割。C5.0决策树算法要求输出字段必须是分类字段,但输入字段既可以是范围字段也可以是分类字段。C5.0算法具有计算量适中,模型稳健、可解释性好等优点。2.2 LogisticLogistic 回归(也称为名义回归)是一种用于依据输入字段的值对记录进行分类的统计技术。这种技术与线性回归类似,但用分类目标

12、字段代替了数值字段。同时支持二项模型(用于具有两种离散类别的目标)和多项模型(用于具有两种以上类别的目标)。Logistic 回归的工作原理是构建一组方程式,使输入字段值与每个输入字段类别所关联的概率相关。生成模型后,便可以用它来估计新数据的概率。对于每条记录,将计算每种可能输出类别的归属概率。具有最高概率的目标类别将被指定为该记录的预测输出值。Logistic回归算法要求输出字段为具有两个或多个类别的分类字段,但输入字段既可以是分类字段也可以是范围字段。Logistic回归可以给出所有目标类别的预测概率,从而能够轻松识别出第二最佳推测值,预测结果通常较为准确。鉴于客户流失问题属二元分类问题,

13、因此本文选用Logistic中的二项式Logistic模型。2.3 Neural Net神经网络(也称多层感知器)是在Rosenblatt于1958年提出感知机基础上发展而来。本质上是人类大脑处理信息的方式的简化模型。此模型通过模拟大量类似于神经元的抽象形式的互连简单处理单元而运行。通常在神经网络中有三个部分:一个输入层,其中的单元表示输入字段;一个或多个隐藏层;一个输出层,带有一个或多个表示输出字段的单元。这些单元通过可变的连接强度(或权重)连接。输入数据显示在第一层,其值从每个神经元传播到下一层的每个神经元。最终从输出层中输出结果。神经网络对预测字段没有限制,输入和输出字段既可以是范围字段

14、也可以是分类字段。Neural Net算法具有良好的自组织、自学习和自适应能力,抗干扰能力强,预测精度高等优点。本文选用Neural Net中的快速算法模型。3 不同细分标准的混合模型比较研究3.1 细分标准及研究数据(1)细分标准本文以中国移动某省公司客户数据作为研究对象,选择该公司目前在市场营销实践中最常用的细分变量,即:品牌、地区、网龄、账单。分别以这四个变量对该公司客户进行细分,如表1所示。表1 各细分变量的细分类别细分变量细分类别品牌全球通动感地带神州行地区地区A地区B地区C网龄6个月及以下6-24个月24个月以上账单50元及以下50-100元100元以上(2)研究数据由于临时卡客户

15、(即购买临时卡将所含费用用完即丢弃(或换号)的客户)的消费行为具有极大的不稳定性,运营企业记录的相关数据甚少,文章在研究时考虑先将此部分客户排除。因此,我们随机抽取该公司的三个地市分公司2008年13月一直在网的用户47735户,取其协议数据、消费行为数据和账单数据,以2008年4月1日至2008年5月30日作为客户流失判别窗口。对所提取客户数据进行清理、集成、变换、离散化等预处理后,得到数据有效样本47365户,占总样本数的99.22%,记为数据集X;其中,流失用户3421户,流失率7.22%。通过特征选择方法对所有变量进行筛选,得到与流失预测问题强相关的变量20个作为参与流失预测的特征变量

16、,其中类别型特征变量4个,数值型特征变量16个。在每次建模之前都将数据集X分区为训练集X1和测试集X2,分别占比60%和40%。3.2 评估方法本文采用命中率8和ROC曲线(Receiver Operating Characteristic Curve)9对预测结果进行比较评估。ROC分析50年代起源于统计决策理论,广泛应用于分类器性能的评价 10-12。流失预测问题实质就是一个二元分类问题,因此可以借助ROC曲线来评价预测预测模型的预测效果。命中率和ROC曲线定义如下:假设有关于流失和非流失两个类的混淆矩阵如表2所示。表2 一个关于流失预测问题的混淆矩阵实际状态预测结果合计流失非流失流失A(

17、真正)B(假负)A+B非流失C(假正)D(真负)C+D合计A+CB+DA+B+C+D由上表可以计算如下参数:命中率= A / (A+C)。真正率(灵敏度)= A / (A+B),灵敏度即流失客户被预测为流失客户的比率。假正率(1-特异度)= 1-D / (C+D),特异度即非流失客户被预测为非流失客户的比率。ROC曲线是以真正率为纵坐标,假正率为横坐标绘制的曲线。ROC曲线越靠近左上角,则模型预测的准确性就越高,可用曲线下方的面积(Area Under Curve,即AUC)度量预测效果,AUC的值一般在1.0和0.5之间,面积值越接近1.0的表示预测效果越好。一般:AUC在0.50.7时有较

18、低准确性,AUC在0.70.9时有一定准确性,AUC在0.9以上时有较高准确性。3.3 混合模型构建(1)基于品牌细分建模以品牌为细分变量将训练集X1分为全球通数据子集、神州行数据子集和动感地带数据子集,分别占比为7.2%、80.7%和12.1%。在对每个数据子集建模前将数据分区为训练集和测试集两部分,分别占60%和40%;在训练模型前进行特征选择。然后,分别对每个数据子集采用C5.0、Logistic、Neural Net三种基本模型建模,选择ROC曲线下方面积AUC最大的基本模型作为对该数据子集的建模模型。各品牌数据子集分别采用三种模型的预测结果的AUC如表3所示。表3 三个品牌数据子集分

19、别采用三种模型预测结果(AUC)模型全球通数据子集神州行数据子集动感地带数据子集训练集测试集训练集测试集训练集测试集C5.00.583 0.5970.911 0.827 0.851 0.810 Neural net0.796 0.8030.851 0.852 0.830 0.807 Logistic0.868 0.7130.843 0.841 0.839 0.802 由表3中测试结果可知,对全球通数据子集和神州行数据子集来说,都是Neural Net的预测效果最好;对动感地带数据子集说C5.0的预测效果最好。因此,得到混合预测模型如图3所示。图3 以品牌为细分标准的流失预测混合模型(2)基于地

20、区细分建模以地区为细分变量将训练集X1分为地区A数据子集、地区B数据子集和地区C数据子集,分别占比为52.5%、20.3%和27.2%。在对每个数据子集建模前将数据分区为训练集和测试集两部分,分别占60%和40%;在训练模型前进行特征选择。然后,分别对每个数据子集采用C5.0、Logistic、Neural Net三种基本模型建模,选择ROC曲线下方面积AUC最大的基本模型作为对该数据子集的建模模型。各地区数据子集分别采用三种模型的预测结果的AUC如表4所示。表4 三个地区数据子集分别采用三种模型预测结果(AUC)模型地区A数据子集地区B数据子集地区C数据子集训练集测试集训练集测试集训练集测试

21、集C5.00.848 0.799 0.968 0.911 0.965 0.871 Neural net0.820 0.834 0.928 0.924 0.919 0.921 Logistic0.808 0.815 0.931 0.910 0.930 0.886 由表4中测试结果可知,对地区A、地区B和地区C数据子集来说,都是Neural Net的预测效果最好。因此,得到混合预测模型如图4所示。图4以地区为细分标准的流失预测混合模型(3)基于网龄细分建模以网龄为细分变量将训练集X1分低网龄数据子集、中网龄数据子集和高网龄数据子集,分别占比为22.7%、44.9%和32.4%。在对每个数据子集建模

22、前将数据分区为训练集和测试集两部分,分别占60%和40%;在训练模型前进行特征选择。然后,分别对每个数据子集采用C5.0、Logistic、Neural Net三种基本模型建模,选择ROC曲线下方面积AUC最大的基本模型作为对该数据子集的建模模型。各网龄层次数据子集分别采用三种模型的预测结果的AUC如表5所示。表5 三个网龄层次数据子集分别采用三种模型预测结果(AUC)模型低网龄数据子集中网龄数据子集高网龄数据子集训练集测试集训练集测试集训练集测试集C5.00.915 0.866 0.868 0.805 0.855 0.715 Neural net0.882 0.886 0.784 0.800

23、 0.783 0.773 Logistic0.869 0.859 0.815 0.821 0.801 0.748 由表5中测试结果可知,对低网龄数据子集和高网龄数据子集来说,都是Neural Net的预测效果最好;对中网龄数据子集说Logistic的预测效果最好。因此,得到混合预测模型如图5所示。图5 以网龄为细分标准的流失预测混合模型(4)基于账单细分建模以三个月的月均账单额为细分变量将训练集X1分为低消费数据子集、中消费数据子集和高消费数据子集,分别占比为54.4%、28.9%和16.7%。在对每个数据子集建模前将数据分区为训练集和测试集两部分,分别占60%和40%;在训练模型前进行特征选

24、择。然后,分别对每个数据子集采用C5.0、Logistic、Neural Net三种基本模型建模,选择ROC曲线下方面积AUC最大的基本模型作为对该数据子集的建模模型。各消费层次层次数据子集分别采用三种模型的预测结果的AUC如表6所示。表6三个消费层次数据子集分别采用三种模型预测结果(AUC)模型低消费数据子集中消费数据子集高消费数据子集训练集测试集训练集测试集训练集测试集C5.00.923 0.870 0.829 0.729 0.894 0.690 Neural net0.873 0.868 0.793 0.764 0.732 0.774 Logistic0.872 0.856 0.802

25、0.772 0.761 0.732 由表6中测试结果可知,对低消费数据子集来说,C5.0的预测效果最好;对中消费数据子集说Logistic的预测效果最好;对于高消费数据子集来说,Neural Net的预测效果最好。因此,得到混合预测模型如图6所示。图6以账单为细分标准的流失预测混合模型3.4 预测结果评估将图3、图4、图5和图6四个混合模型分别用于测试集X2进行测试,用命中率和ROC曲线评估各混合模型的预测效果。(1)命中率比较 各种细分标准的模型对测试集X2预测的命中率结果如表7所示。表7 各种细分标准的模型对测试集X2预测的命中率比较表数据集按品牌分按地区分按网龄分按账单分测试集X281.

26、20%86.06%76.20%85.85%由表7中数据可知,以地区为细分标准构建混合模型对测试集X2预测的命中率最高,达到86.06%;以账单额为细分标准构建混合模型对数据集X2预测的命中率次之,为85.85%;以品牌和网龄为细分标准构建混合模型对测试集X2预测的命中率较低,分别为81.20%和76.20%。(2)ROC曲线比较用SPSS15.0对各混合模型在对测试集X2上的预测结果构建ROC曲线,如图7所示。图7 四个混合模型在测试集X2的预测结果ROC曲线由各模型ROC曲线计算曲线下方的面积(AUC)如表8所示。表8 各模型预测结果的AUC比较表数据集按品牌分按地区分按网龄分按账单分测试集

27、0.8280.8880.8450.855由表8中数据可知,以地区和账单为细分标准构建的混合模型,对测试集X2的预测效果较好,AUC分别为0.888和0.855;以网龄和品牌为细分标准构建混合模型,对测试集X2的预测效果相对较差,其AUC分别为0.845和0.828。4 结论及建议本文分别以品牌、地区、网龄和账单为细分标准,以SPSS Clementine12.0中C5.0、Logistic、Neutal Net三种分类模型作为基础模型,构建客户流失混合预测模型,采用命中率和ROC曲线对各模型预测结果进行评估,得到一致的结论:当以地区为标准细分时的预测效果最好,以账单为细分标准的预测效果其次,以

28、网龄和品牌为细分标准的预测效果较差。因此,在今后的流失预测实践中,建议电信公司以客户消费层次作为细分标准,对各地区客户单独构建流失预测模型;同时,要加强品牌管理,提高各品牌对客户的区隔效果。参考文献1 James. 企业的泛风险管理M. 吉林人民出版社, 2001: 4659. 2 中华人民共和国国家统计局网站 3 Fornell, C., & Wernerfelt, B. Defensive marketing strategy by customer complaint management: A theoretical anlaysis. Journal of Marketing

29、 ResearchJ. 1987, 24(4), 337346.4 Reichheld, F. F. The loyalty effect: The hidden force behind growth, profits and lasting value. Harvard Business School PressM,1996.5 Bhattacharya C.B. When customers are members: customer retention inpaid membership contextsJ. Journal of the Academy of Marketing Science, 1998, 26(1): 3144.6 Lariviere, B., Van den Poel, D., & Van den Poel. Investigating the role of product features in preventing customer churn, by using survival analysis and choice modeling: The case of financial services. E

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论