版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2-5数据挖掘过程及实例(手机客户流失预测)第一步:需求分析。明确挖掘目标和要求。第二步:数据理解。了解目前的数据状况。第三步:数据准备:选择挖掘的数据并进行预处理
第四步:挖掘算法与挖掘软件的选择。第五步:构建硬件、软件、数据平台,确定相关参数,并具体挖掘。第六步:结果展示与评价、导出。0数据挖掘的步骤数据清理筛选数据目标数据Knowledge预处理及变换变换后的数据数据挖掘解释/评估0数据挖掘的步骤数据挖掘中的数据变换过程第一步:需求分析。明确挖掘目标和要求。方法:1)调查、访谈。2)头脑风暴。头脑风暴会议应在充分的材料准备基础上,在轻松的环境中进行,以充分发挥与会人员的才智。任务:
1)数据挖掘应完成哪一类任务:关联、分类、回归、聚类?
2)如何展示和应用挖掘结果。
3)挖掘系统部署后,对业务有哪些提升?1需求分析手机客户流失预测需求分析:发展一个新客户的成本远远高于保持一个老客户。所以,保持老客户就十分重要。一个电信企业在运营过程中,不可避免地要流失部分客户。所以,可以建立客户流失模型。从大量的与客户相关的数据中,挖掘出流失客户的共同特征。从而对初显流失客户特征的客户采取必要的措施。手机客户的特征:自然特征+行为特征
1需求分析第二步:数据理解。即了解目前的数据状况。
1.需要的数据及含义
2.数据的分布情况:需要的数据都分布在哪些系统(数据库、表)中,有多少数据。
3.数据的质量:
1)关键数据是否能够获取。2)缺失值或无效值数量如何?3)是否有足够的历史数据。2数据理解手机客户流失预测数据理解:预测需要的数据:客户数据、通话详单、短信详单、投诉数据、交费数据等。客户数据:客户代码客户姓名性别年龄学历职业单位收入…手机号码号码品牌套餐付款方式入网渠道客户类型…2数据理解客户级别数据按月提供,每个客户一条记录。客户的年龄、职业、学历、收入等数据准确性较低。通话详单如下:2数据理解手机号码呼叫类型漫游类型长途类型目标通话号码通话开始时间通话持续时间….主叫被叫短信详单与上面类似。投诉数据:2数据理解客户号码投诉时间投诉类型投诉小类投诉处理情况客户满意度…..交费数据:对后付费客户,主要是交费是否及时,对预付费客户,主要是充值时间、金额等。第三步:数据准备。按要求准备好需要挖掘的数据。
按照挖掘要求,通过抽取数据,转换,聚集以及数据预处理技术,将数据整理成适合挖掘的形式。(宽表)数据预处理的主要内容
1)数据归约:在保持数据完整性和有效性的前提下,将庞大的数据量压缩到可接受的范围。
2)数据清理:填充空缺值,识别孤立点,消除噪音。
3)离散化处理:有些数据的属性呈连续值,不利于数据挖掘。应对这些连续值,采用不同粒度进行离散化采样处理;
4)概念提升:有些属性值域很大(可能的取值数量很多),对于过于密集的离散值,用更概括的值取代。例如年龄属性可以概括为青年、中年、老年等。3数据准备将详单数据聚集为月度数据:客户号码月通话总长月通话次数月呼出时长月呼出次数漫游通话时长长途通话时长IP电话通话时长分时段通话时长分天通话时长主、被叫市话的个数主、被叫长话的个数….短信详单可聚集出类似的变量。投诉信息可统计出投诉次数等。3数据准备数据采样:客户流失模型研究的目标是为了挽留客户。研究价值低的客户得不偿失。因此,应选择满足一定价值标准的客户。例如,积分或历史消费数据应大于某个标准。客户“类标签”的确定:在电信客户流失中,主要有三类流失:
1)主动流失:客户客户主动去营业厅要求销户
2)变动流失:因欠费,被电信公司关闭账户。
3)自然流失:因各种原因停止使用手机号码,有时可能还有少量通话。前两类由系统自动标记,第三类形成比较复杂,可通过消费额的变化,予以标记。3数据准备数据清理:1)客户基本数据中的学历、职业等字段中有大量的缺值,而且正确性难以保证,可以去掉,不参加建模。2)有些客户的通话数据可能存在异常,可以删除这些客户。3)有些属性之间相关性较大,可进一步选择。3数据准备时间窗口选择:
客户流失与时间有关。因此,需要选择时间窗口。例如,时间窗口为3,就是取3个月的通话等相关数据。
3数据准备客户号码手机号码号码品牌套餐付款方式入网渠道客户类型…第1个月各项数据第2个月各项数据第3个月各项数据流失情况流失正常时间窗口的叠加:为了提高模型的适应性,可使用不同的时间窗口的数据进行叠加。4567891011121233数据准备456789101112123456789101112123456789101112123第四步:挖掘算法与挖掘软件的选择。主要考虑因素:1)算法的有效性:即算法对要解决的问题是否有效。数据集的特征是千变万化的。目前,每个算法都对数据集有潜在假设。没有一种算法在所有类型的数据集上都表现良好。因此,数据集的特征应与算法的假设比较吻合。2)模型的可理解性:模型可解释,可增加人们对模型的信任度。例如,用决策树算法生成的模型易于解释,而神经网络算法生成的模型则难以解释。3)性能与计算复杂度。4)处理连续数据或离散数据的能力、处理高维数据的能力等。常见的算法都可对部分参数进行调整。实际问题中,可使用多个算法对同一个问题进行建模。4挖掘算法与挖掘软件的选择典型数据挖掘软件介绍:1)SAS公司的EnterprideMiner软件。为SAS统计软件的一个模块。2)IBM公司IntelligentMiner软件、Clementine软件(原SPSS公司)。3)Oracle公司的OracleDataMining软件。为Oracle数据库管理系统新增的模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年中国免烫防皱衬衣行业投资前景及策略咨询研究报告
- 2024年中国电动工具零件市场调查研究报告
- 2024八年级数学上册第四章图形的平移与旋转4图形变化的简单应用习题课件鲁教版五四制
- 2024年湖北客运考试口诀是什么内容
- 2024年呼和浩特客车从业资格证考试试题题库
- 2024年果洛客运从业资格摸拟考试
- 2024年贵阳客运从业资格证考试模拟试题题库
- 2024年泸州客运从业资格证理论考试答案
- 2024年北京客运旅客急救考试题及答案
- 2024年福州从业资格证客运考试题库
- 企业文化管理第八章企业文化的比较与借鉴
- 有机肥料投标方案(技术标)
- 制冷考试题试卷
- 预埋件制作检验批质量验收记录
- 校园网络工程方案设计
- 工商银行申请表
- 河南省湘豫名校联考2023-2024学年高三上学期11月期中考试英语试题【含答案解析】
- 员工自驾出行免责声明书范本
- 生物炭及生物炭基肥在农业中的应用研究进展
- 概率论(华南农业大学)智慧树知到课后章节答案2023年下华南农业大学
- 第8课 用制度体系保证人民当家做主
评论
0/150
提交评论