《数据挖掘与机器学习》 课件9.3 构建电信运营商用户流失预测模型_第1页
《数据挖掘与机器学习》 课件9.3 构建电信运营商用户流失预测模型_第2页
《数据挖掘与机器学习》 课件9.3 构建电信运营商用户流失预测模型_第3页
《数据挖掘与机器学习》 课件9.3 构建电信运营商用户流失预测模型_第4页
《数据挖掘与机器学习》 课件9.3 构建电信运营商用户流失预测模型_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

构建电信运营商用户流失预测模型电信运营商用户分析任务描述电信企业为了最大程度地控制客户流失、挽留现存在网用户,分析不同群体用户的使用规律,识别各群体客户流失的重要特征。为了系统地描述电信运营商用户流失的规律,引入数学模型对电信运营商用户数据进行分析。运营商要实现控制客户流失、挽留现存在网用户,必须深入贯彻以人民为中心的发展思想。本任务的具体目标是基于电信运营商用户分群模型建立逻辑回归模型、决策树模型和朴素贝叶斯模型,选取最优的用户流失模型。任务要求分析不同群体用户的使用规律,识别各群体客户流失的重要特征。建立不同群体用户流失模型,建立逻辑回归模型、决策树模型和朴素贝叶斯模型,判断模型建立的效果。选取最优的用户流失模型。相关知识所有与消费者挂钩行业都会关注客户流失。由于发展一个新客户是需要一定成本的,如果客户流失,不仅浪费了拉新成本,还需要花费更多的用户召回成本。因此,基于电信行业在竞争日益激烈的情况,如何挽留更多用户成为一项关键业务指标。为了更好运营用户,这就要求要了解流失用户的特征,分析流失原因,预测用户流失,确定挽留目标用户并制定有效方案,提升企业核心竞争力。特征值提取构建电信商用户流失预测模型特征值提取基于树的特征选择导入开发库特征变量选取特征抽取是数据挖掘任务最为重要的一个环节,一般而言,它对最终结果的影响要高过数据挖掘算法本身。只有先把现实用特征表示出来,才能借助数据挖掘的力量找到问题的答案。特征选择的另一个优点在于:降低真实世界的复杂度,模型比现实更容易操纵。特征选择能够降低复杂度、降低噪音和增加模型可读性。基于树的特征选择单个特征和某一类别之间相关性的计算方法有很多,比较有效的有卡方检验(chi2)以及互信息和信息熵,本文选择基于信息熵的方法来选取特征变量。信息熵是在决策树中广泛使用的一个变量,用以获取最优划分的节点。基于树的预测模型能够用来计算特征的重要程度,能用来去除不相关的特征。因此选择基于树的特征选择(Tree-basedfeatureselection)来获取特征变量。基于树的特征选择使用from和import导入sklearn.ensemble中的ExtraTreesClassifier类与sklearn.feature_selection中的SelectFromModel类。导入开发库用于从模型中选择重要的特征用于构建极端随机树分类器由基于树的特征选择,使用sklearn库导入信息熵的树及特征值筛选模块,使用for循环获取前10个重要程度的特征变量,结果如下。特征变量选择低费用'年龄','在网时长','本地通话次数','国内长途通话次数','国内漫游通话次数','上网流量','有通话天数','有主叫天数','有被叫天数','主叫呼叫圈'中低费用'年龄','在网时长','本月费用','本地通话次数','国内长途通话次数','国内漫游通话次数','有通话天数','有主叫天数','有被叫天数','主叫呼叫圈'一般费用'年龄','在网时长','本地通话次数','国内长途通话次数','国内漫游通话次数','短信发送数','上网流量','有通话天数','有主叫天数','有被叫天数'中高费用'年龄','在网时长','本地通话次数','国内长途通话次数','国内漫游通话次数','短信发送数','有通话天数','有主叫天数','有被叫天数','主叫呼叫圈'高费用'年龄','在网时长','平均本地通话时长','本地通话次数','国内长途通话次数','国内漫游通话次数','国内漫游上网流量','有通话天数','有主叫天数','有被叫天数'类型选取的变量构建电信商用户流失预测模型自定义模型构建函数构建逻辑回归模型构建决策树模型构建朴素贝叶斯模型选择最优模型由于不同的模型构建过程类似,为了避免代码赘余,因此自定义一个evaluate_model函数用于模型的构建与检测。evaluate_model函数操作的流程如下。自定义模型构建函数基于特征变量的筛选结果,循环获取不同用户类型的重点特征提取特征和目标变量数据对数据进行欠采样处理自定义模型构建函数划分特征和目标变量,并划分训练集和测试集对数据进行标准化处理构建相关的模型,并对模型进行评估由于不同的模型构建过程类似,为了避免代码赘余,因此自定义一个evaluate_model函数用于模型的构建与检测。evaluate_model函数操作的流程如下。逻辑回归也被称为广义线性回归模型,它与线性回归模型的形式基本上相同,最大的区别就在于它们的因变量不同,如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归。导入构建逻辑回归模型需要的一些开发库。调用构建的evaluate_model函数,即可构建逻辑回归模型,并计算模型的准确率、召回率、AUC值。构建逻辑回归模型决策树是一种树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点,多数类的标号给出到达这个节点的样本所属的类。导入构建决策树模型需要的一些开发库。调用构建的evaluate_model函数,即可构建决策树模型,并计算模型的准确率、召回率、AUC值。构建决策树模型朴素贝叶斯模型是一种基于贝叶斯定理和特征条件独立性假设的概率统计分类模型。它假设每个特征在给定类别下是独立的,并且通过计算每个类别下特征的条件概率来进行分类。导入构建朴素贝叶斯模型需要的一些开发库。调用构建的evaluate_model函数,即可构建朴素贝叶斯模型,并计算模型的准确率、召回率、AUC值。构建朴素贝叶斯模型比较逻辑回归、决策树、朴素贝叶斯三个模型的正确率、召回率、以及AUC值,选择各个类的最优模型。选择最优模型

低费用中低费用一般费用中高费用高费用逻辑回归准确率0.75780.77980.78400.76700.7774召回率0.77070.81270.81500.79150.8027AUC值0.8293084570.84360.83610.8459决策树准确率0.70690.71460.7092073380.7100召回率0.70240.71400.72130.70710.7AUC值0.70680.71450.70930.71370.71朴素贝叶斯准确率0.73280.75220.75700.74560.7442召回率0.80630.83980.84570.81960.8205AUC值0.80120.80530.81950.80380.8100不同的运行环境,得到的结果可能存在一定的差异性。以低费用为例,逻辑回归模型在准确率、AUC值方面表现出色,召回率方面也相对较好,显示出较好的分类性能。决策树模型在准确率、召回率、AUC值方面表现较低,相对而言不是最佳选择。朴素贝叶斯模型的准确率、AUC值都比逻辑回归模型的低,召回率会比逻辑回归模型好一些。综合考虑准确率、召回率和AUC值,逻辑回归模型在整体上表现出较

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论