一种确定客户流失的方法和系统_第1页
一种确定客户流失的方法和系统_第2页
一种确定客户流失的方法和系统_第3页
一种确定客户流失的方法和系统_第4页
一种确定客户流失的方法和系统_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 一种确定广电客户流失的方法和系统作者:胡玉婷 袁昊程版本:v1.0文档创建日期:2013年9月11日最后修改日期:2013年9月11日1本发明要解决的技术问题是什么?进入21世纪以来,随着电信与信息技术的飞速发展,在“三网融合”的大趋势下,广电运营商面临着重大挑战,同时也是一次重大机遇。与其它运营商相比,有线运营商在视频传播领域具有资源、技术等全方位的优势,但随着时间的推移和科技的发展,这种优势将会不断弱化,全面的竞争将不可避免。而且对于广电运营商而言,注册客户数动态增长,在大量客户入网的同时,又有大批客户离网流失,业务与收入总量增长相对趋缓,导致出现“增量不增收”现象。从传统意义上讲,发展

2、一个新客户所支出的费用是保留一个老客户的五倍。因此,分析客户流失原因,吸引潜在客户入网,增加现有客户满意度,减少客户流失概率,提高客户消费水平,充分占有市场,是广电运营商在激烈市场竞争中制胜的关键。那么如何保留当前客户资源,采取措施挽留将要流失的客户,降低客户流失率,并为之提供有差别的服务,已成为广电行业目前亟需解决的问题。2详细介绍技术背景,并描述已有的与本发明最相近似的技术方案 广电行业中,客户流失是指客户在连续一段时间内发生不同程度的停止贡献价值,甚至拖欠应收费用的行为。客户流失分析是指使用多角度的客户数据进行分析,提炼出已流失和预流失客户的行为特征,利用数据挖掘技术建立客户流失模型,并

3、将流失模型应用在实际运营中,对客户在未来一段时期发生流失的概率进行预测,并输出流失可能性较大的客户清单,从而能提供给CRM 等相关系统做事前的维系挽留工作,降低客户的离网率,减少企业的损失。目前已经有诸多解决客户流失分析的数据挖掘技术方案,主要分为如下几类:1. 决策树算法,这样的系统架构相对简单,系统整体运行效率易于保障。2. 神经网络算法3. 逻辑回归算法3以因果关系推理的方式推导出现有技术的缺点是什么?下面分别对上面提到的三类方案分析各自的不足:1. 决策树算法2. 神经网络算法3. 逻辑回归算法4本发明技术方案的详细阐述,应该结合流程图、原理图、电路图、时序图进行说明4.1 客户流失预

4、警系统的架构广电行业客户流失预警系统的目标是通过客户的缴费信息和客户属性信息等,对客户在未来一段时期发生流失的概率进行预测,并结合实际运营情况实施营销手段,统一实现客户挽留管理工作。客户流失预警系统的核心技术是数据挖掘技术,其体系架构融合于数据仓库架构之中(图4.1)。客户流失预警系统充分利用BOSS系统产生的大量宝贵的数据资源,结合相关支撑系统提供的信息,构建经营分析中心和分析挖掘使用平台,从而对信息进行智能化加工、处理,并最终为市场决策管理者和市场经营工作提供及时、准确、科学的辅助决策依据。图4.1 客户流失预警系统典型架构客户流失模型的数据主要来源于两个,一是数据仓库,这部分接口数据是必

5、要的,另一个是BOSS等支撑系统,这部分接口数据是可选的。基于此,客户流失预警系统架构包含3层:l DMW层:客户流失模型每月从数据仓库底层(ODS)和轻度汇总层(DW)抽取所需要的数据,存放在DMW层,DMW层的每个表都以“DMW_”开头;l DM层:客户流失模型根据多个月DMW层中的数据,制作成分析宽表,以备数据挖掘模型使用,并可以存储BOSS等支撑系统对预测用户的关怀活动反馈结果,以备挖掘模型优化时使用。DM层中的每个表都以“DM_”开头;l 分析层:通过分析层建立数据挖掘模型,并进行不断评估和调试;最后市场部根据数据挖掘的结果配置挽留策略后,最终将客户信息显示到应用操作平台。在建设客户

6、流失预警系统的整个过程中包括两个关键环节:l 一是客户流失预警模型的建立,是项目的核心部分,需要根据业务需求不断调试;l 二是数据挖掘成果应用的组织与管理实施,此乃项目的关键与成功保障。在完成第一个关键环节建设之前,广电运营商需要已经建立比较完备的数据仓库系统,因为一个真正意义的数据挖掘应用系统是以数据仓库建设为基础的。4.2 客户流失模型 本发明的目的是为了更好的解决目前广电行业客户流失情况,克服现有技术存在的问题而提供一种确定广电客户流失分析方法及系统。为此,本发明实施提供如下技术方案,该方案可通过如下步骤来描述,如图4.2所示:1. 根据广电行业商业理解和业务需求,确定客户流失分析的主题

7、。2. 根据客户流失分析的主题,收集一个时间窗口内的原始运营数据,构建面向主题的数据集市。3. 基于上述的数据集市,提取流失变量,建立建模所用的训练数据集、测试数据集和预测数据集。4. 基于客户流失分析的主题,运用数据挖掘工具R,建立逻辑回归模型。5. 利用逻辑回归模型计算客户流失概率及客户流失状态。6. 利用测试数据集和预测数据集分别检验和评估逻辑回归模型。7. 拓展该方法,构建预测每个月对应的客户流失模型,实现精细化预测。8. 模型进一步拓展,基于步骤7和重采样(Bootstrap)方法,构建综合预测的客户流失模型,简化实际操作的难度。9. 发布模型及模型应用的结果。 图4.2 客户流失模

8、型实施流程图 其中步骤1所述的客户流失分析主题主要包括:客户流失的定义、流失模型的目标变量的确定、流失客户的特征分析、客户流失概率的计算和客户流失的原因分析。 其中步骤2所述进一步包括:l 时间窗口的确定本发明选取样本容量总体涉及时间段为2011年1月1日到2012年12月31日尼日利亚的历史数据进行客户流失预测建模,其中进行数据挖掘建模的时间窗口设置如图4.3。图4.3 时间窗口历史数据窗口:作为从数据集市中获取训练数据集或预测数据集的区间,该窗口内的数据集为模型输入变量,该窗口跨度为12个月;观察窗口:作为实际运营操作的一个等待准备时间,该窗口跨度为1个月;预报窗口:作为客户流失分析的目标

9、区间,该窗口跨度为1个月。l 抽样比例的确定;l 样本容量的确定;l 从数据仓库选择、收集与客户流失运营相关的原始数据字段,其主要包括客户的缴费行为数据。其中所述步骤3包括: l 根据步骤2抽取的运营相关的原始数据字段,生成用于流失分析的衍生变量;所提取的流失变量主要是:月均停断时长、月均在线时长、月均ARPU值、月均缴费金额、缴费次数、换包次数、入网时长和当月节目包的类型;l 数据预处理。所述数据预处理是为了对数据进行清理、集成和标准化,其主要包括缺失数据处理和数据“最小最大”标准化。l 训练数据集和测试数据集构建l 形成建模挖掘宽表。l 预测数据集构建;其中所述步骤4进一步包括:l 指标特

10、征化和提取;所述指标特征化和提取指为了减少变量间的冗余而进行流失变量筛选,其主要将相关系数分析和基于AIC准则的逐步回归分析方法进行了对比分析;l 建立目标变量和流失变量之间的逻辑回归模型。其中所述步骤5是指将测试数据集和预测数据集分别代入已经训练好的逻辑回归模型,计算客户的流失概率,并根据一定的准则确定客户流失状态。其中所述步骤6进一步包括:l 模型评估指标的确定;l 模型的检验包括检验弃真错误、存伪错误。其中所述步骤7指根据时间窗口的移动,所建立的逻辑回归模型会有所不同,但方法原理是一致的,可通过移动时间窗口继续拓展,精确建立预测每个月对应的客户流失模型。其中所述步骤8指根据步骤7所得到的

11、每个月对应的客户流失模型,对其参数采取重采样(Bootstrap)方法,对流失模型进行改进,构建综合预测每个月的客户流失模型。其中所述步骤9包括调用存储过程,将优选的逻辑回归模型写入模型库中,实现流失预警系统的规范化和自动化,并将预测结果反馈给相关部门做挽留工作;与现有技术相比,本技术方案提供了变量的筛选的方法,提供了准确预测每个月对应的客户流失模型,同时为了简化实际操作的难度,还根据Bootstrap方法构建综合预测下个月的客户流失模型,增加了模型的准确性和可理解性,流失变量的选取具有广电行业的特色,从而能够实现现有技术不能解决的问题,为广电行业提出了一个解决客户流失问题的可行技术方案。为了

12、更清楚的说明本申请实施例或技术方案,下面结合附图和实施方式对本发明实施例进行进一步详细的说明。具体过程如下:(一) 确定流失分析主题确定流失分析主题:根据企业的商业理解和业务需求为出发点,是数据挖掘的主要目标,决定了数据挖掘的实施方向。所述客户流失分析主题主要包括客户流失的定义、流失模型的目标变量的确定、流失客户的特征分析、客户流失概率的计算和客户流失的原因分析等。(二) 数据准备,建立数据集市根据客户流失分析的主题,收集一个时间窗口内的原始运营数据,构建面向主题的数据集市。下面举例说明:时间窗口的确定:选取2011年5月至2012年4月抽样比例的确定:广电行业每月的客户流失率一般在1 %3

13、%左右。如果直接采用某种模型(比如Logistic回归模型、决策树、人工神经网络等) 可能会因为数据概率太小或者使得样本比例严重偏倚而导致模型的失效,本文采用“重采样法(bootstrap)”把流失客户在总样本容量中的比例提高到10 %。样本容量的确定:本文此次研究采用全数据模式,即样本容量确定为时间段2011年1月1日到2012年12月31日尼日利亚的全库所有历史数据。从数据仓库选择、收集与客户流失运营相关的原始数据字段:(三) 建立训练数据集、测试数据集和预测数据集 流失变量特征提取:测试数据集建立:选取2011年5月至2012年4月的历史数据作为输入变量,同时依据客户流失定义计算2012

14、年6月的客户流失状态作为目标变量,建立客户流失预测模型。2011年5月至2012年4月的历史数据我们按照抽取样本的70%和30%分为训练集和测试集,其中训练集用来训练出流失模型,完成指标变量的筛选;测试集用来验证以这批历史数据训练出来的模型的准确性,防止过度拟合。预测数据集建立: 选取2011年6月至2012年7月的所有历史数据作为输入的指标变量,代入训练好的流失模型,预测2012年3月客户的流失状态;2011年6月至2012年7月的所有历史数据我们称为预测数据集,其主要用来验证该流失模型的预测准确率、覆盖率和命中率。(四) 建立逻辑回归模型逻辑回归模型的目标变量是分类的而不是连续的。对于一个

15、给定的客户我们用表示流失客户,表示未流失客户;用表示由4.4节筛选出来的7个指标:月均停断时长(X_STOPDAYS)、 月均ARPU值(X_AVG_ARPU)、月均缴费金额(X_AVG_PAYMENT)、 缴费次数(X_PAY_CNT) 、换包次数(X_CHANG_PKG_CNT)、入网时长(X_INNET_DAYS)和节目包类型(X_PKGTYPE)组成的向量。假设代表历史数据,代表即将预测的数据,其中是已知的,是待预测的客户流失状态。由此,根据历史数据我们建立的逻辑回归模型的数学表达式为: (1) (2)其中。 (3)公式(1)中是逻辑回归后各个自变量的系数,其意义是指当自变量每改变一个

16、测量单位时所引起的对数的自然改变量,代表截距。公式(2)表示某类客户的流失概率,其中表示流失客户的概率,表示未流失客户的概率。本文借助数据挖掘工具R,首先通过历史数据算出和的极大似然估计和,得到逻辑回归方程,然后将测试数据集或预测数据集的代入该方程,通过公式(2)计算出客户的流失概率。根据业务理解和统计业务知识,我们规定,代入公式(3),当计算出的概率大于0.5,即认为该客户在未来的预测时间段内会流失,则;反之则认为该客户在该时间段内不流失,则。由此,根据逻辑回归方法即可预测客户的流失状态。对此下面举例说明逻辑回归模型的应用。本文任意选取历史数据时间窗口为2011年5月到2012年4月,观察窗

17、口为2012年5月,预报窗口为2012年6月的数据进行实例研究。根据步骤三我们筛选出的指标变量为月均停断时长、月均ARPU值、月均缴费金额、缴费次数、换包次数、入网时长和节目包的类型。以2012年6月客户的实际流失状态作为目标变量。通过统计分析工具R即得到和的极大似然估计和,如图4.4所示。图4.4 数据挖R掘工具计算逻辑回归模型的系数由此我们得到逻辑回归模型如下所示: (4) 则。而且根据图4.4可知,每个指标变量都通过了P-检验(p<0.0001)。(五) 模型的评估、检验与拓展(六) 模型的应用客户流失模型的预测:将选取好的时间窗口内的预测数据集代入建立好的逻辑回归模型(精细化预测

18、每个月的逻辑回归模型或综合预测每个月的逻辑回归模型),得到客户的流失概率、描述性分析得出流失客户的特征等。流失后分析:根据流失客户的特征,挖掘深层次的客户流失的原因及不同细分客户群的流失情况。(七) 模型及应用结果的发布与系统管理实施模型及应用结果的发布:在系统应用操作平台发布客户流失模型及其应用的结果,包括流失客户的特征、客户流失概率、客户流失清单、客户流失原因及不同细分客户群的流失情况等。系统管理实施:客户流失预警系统设计了挽留管理工作的任务标准流程:每月上旬由前端数据挖掘部门发布数据挖掘结果,市场部门针对挖掘的结果,进行挽留和营销策略的个性化配置;业务管理部门将流失客户分组,售后团队与客服人员、运维人员协作完成具体的客户沟通、回访和营销工作。客户流失预警任务每个月执行一次,从前端数据挖掘部门流经各个部门再返回,形成数据与管理的闭环,各角色人员按照相应的时间完成相应的任务。5本发明的关键点和欲保护点是什么?l 根据客户流失分析的主题,收集一个时间窗口内的原始运营数据,构建面向主题的数据集市。l 基于客户流失分析的主题,运用数据挖掘工具R,建立逻辑回归模型。l 基于AIC准则筛选流失变量,减少变量之间的冗余,提高模型准确性。l 构建预测每个月对应的客户流失模型,实现精细化预测。l 运用Bootstrap

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论