数据挖掘的步骤及实例(客户流失模型)_第1页
数据挖掘的步骤及实例(客户流失模型)_第2页
数据挖掘的步骤及实例(客户流失模型)_第3页
数据挖掘的步骤及实例(客户流失模型)_第4页
数据挖掘的步骤及实例(客户流失模型)_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2-5,数据挖掘过程及实例(手机客户流失预测),0,数据挖掘的步骤,第一步:需求分析。明确挖掘目标和要求。,第二步:数据理解。了解目前的数据状况。,第三步:数据准备:选择挖掘的数据并进行预处理,第四步:挖掘算法与挖掘软件的选择。,第五步:构建硬件、软件、数据平台,确定相关参数,,并具体挖掘。,第六步:结果展示与评价、导出。,0,数据挖掘的步骤,数据挖掘中的数据变换过程,解释,/,评估,数据挖掘,预处理,及变换,变换后的数据,数据清理筛选,目标数据,数据,1,需求分析,第一步:需求分析。,明确挖掘目标和要求。,方法:,1,)调查、访谈。,2,)头脑风暴。头脑风暴会议应在充分的材料准备基础上,,在

2、轻松的环境中进行,以充分发挥与会人员的才智。,任务:,1,),数据挖掘应完成哪一类任务:关联、分类、回归、聚,类?,2,)如何展示和应用挖掘结果。,3,)挖掘系统部署后,对业务有哪些提升?,1,需求分析,手机客户流失预测需求分析:,发展一个新客户的成本远远高于保持一个老客户。所以,,保持老客户就十分重要。,一个电信企业在运营过程中,不可避免地要流失部分客,户。所以,可以建立客户流失模型。从大量的与客户相关的,数据中,挖掘出流失客户的共同特征。从而对初显流失客户,特征的客户采取必要的措施。,手机客户的特征:自然特征行为特征,2,数据理解,第二步:数据理解。,即了解目前的数据状况。,1.,需要的数

3、据及含义,2.,数据的分布情况:,需要的数据都分布在哪些系统(数据库、表)中,有多,少数据。,3.,数据的质量:,1,)关键数据是否能够获取。,2,)缺失值或无效值数量如何?,3,)是否有足够的历史数据。,2,数据理解,手机客户流失预测数据理解:,预测需要的数据:客户数据、通话详单、短信详单、,投诉数据、交费数据等。,客户数据:,客,户,代,码,客,户,性,姓,别,名,年,龄,学,职,历,业,单,位,收,入,手,机,号,码,号,码,套,品,餐,牌,付,款,方,式,入,网,渠,道,客,户,类,型,客户级别数据按月提供,每个客户一条记录。客户的年龄、职业、,学历、收入等数据准确性较低。,2,数据理

4、解,通话详单如下:,手机,号码,呼叫,类型,主叫,被叫,漫游,类型,长途,类型,目标,通话,号码,通话,开始,时间,通话,持续,时间,.,短信详单与上面类似。,2,数据理解,投诉数据:,客户,号码,投诉,投诉,时间,类型,投诉,小类,投诉,处理,情况,客户,满意,度,.,交费数据:,对后付费客户,主要是交费是否及时,对预付费客户,,主要是充值时间、金额等。,3,数据准备,第三步:数据准备。按要求准备好需要挖掘的数据。,按照挖掘要求,通过抽取数据,转换,聚集以及数据预处理技术,,将数据整理成适合挖掘的形式。(宽表),数据预处理的主要内容,1,)数据归约:,在保持数据完整性和有效性的前提下,将庞大

5、的数据量,压缩到可接受的范围。,2,)数据清理:,填充空缺值,识别孤立点,消除噪音。,3,)离散化处理:,有些数据的属性呈连续值,不利于数据挖掘。应对这,些连续值,采用不同粒度进行离散化采样处理;,4,)概念提升:,有些属性值域很大(可能的取值数量很多),对于过于,密集的离散值,用更概括的值取代。例如年龄属性可以概括为青年、中年、,老年等。,3,数据准备,将详单数据聚集为月度数据:,客户,号码,月通,话总,长,月通,话次,数,月呼,出时,月呼,出次,长,数,主、,主、,漫游,IP,电,分时,通话,长途,话通,段通,分天,被叫,被叫,时长,通话,话时,话时,通话,市话,长话,.,时长,时长,的个

6、,的个,长,长,数,数,短信详单可聚集出类似的变量。投诉信息可统计出投,诉次数等。,3,数据准备,数据采样:,客户流失模型研究的目标是为了挽留客户。研究价值低的客户得不偿,失。因此,应选择满足一定价值标准的客户。例如,积分或历史消费数据,应大于某个标准。,客户“类标签”的确定:,在电信客户流失中,主要有三类流失:,1,)主动流失:,客户客户主动去营业厅要求销户,2,)变动流失:,因欠费,被电信公司关闭账户。,3,)自然流失:,因各种原因停止使用手机号码,有时可能还有少量通话。,前两类由系统自动标记,第三类形成比较复杂,可通过消费额的变化,,予以标记。,3,数据准备,数据清理:,1,)客户基本数

7、据中的学历、职业等字段中有大量的缺值,,而且正确性难以保证,可以去掉,不参加建模。,2,)有些客户的通话数据可能存在异常,可以删除这些客,户。,3,)有些属性之间相关性较大,可进一步选择。,3,数据准备,时间窗口选择:,客户流失与时间有关。因此,需要选择时间窗口。例如,时间窗,口为,3,,就是取,3,个月的通话等相关数据。,客,户,号,码,手,机,号,码,号,付,码,套,款,品,餐,方,牌,式,入,网,渠,道,客,户,类,型,第,1,个月,各项,数据,第,2,个月,各项,数据,第,3,个月,各项,数据,流失,情况,流失,正常,3,数据准备,时间窗口的叠加:,为了提高模型的适应性,可使用不同的时

8、间窗口的数据进行叠加。,4,5,6,7,8,9,10,11,12,1,2,3,4,5,6,7,8,9,10,11,12,1,2,3,4,4,5,5,6,6,7,7,8,8,9,9,10,11,12,10,11,12,1,1,2,2,3,3,4,挖掘算法与挖掘软件的选择,第四步:,挖掘算法与挖掘软件的选择。,主要考虑因素:,1,)算法的有效性:即算法对要解决的问题是否有效。数据集的特征是千变万化,的。目前,每个算法都对数据集有潜在假设。没有一种算法在所有类型的数,据集上都表现良好。因此,数据集的特征应与算法的假设比较吻合。,2,)模型的可理解性:模型可解释,可增加人们对模型的信任度。例如,用决策

9、,树算法生成的模型易于解释,而神经网络算法生成的模型则难以解释。,3,)性能与计算复杂度。,4,)处理连续数据或离散数据的能力、处理高维数据的能力等。,常见的算法都可对部分参数进行调整。,实际问题中,可使用多个算法对同一个问题进行建模。,4,挖掘算法与挖掘软件的选择,典型数据挖掘软件介绍:,1,),SAS,公司的,Enterpride Miner,软件。为,SAS,统计软件的一个模块。,2,),IBM,公司,Intelligent Miner,软件、,Clementine,软件(原,SPSS,公,司)。,3,),Oracle,公司的,Oracle Data Mining,软件。为,Oracle,数据库管理系,统新

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论