下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘技术在提升电信业欠费预测及控制能力上的应用摘要:数据挖掘是目前发展迅速、应用广泛的一种从海量数据中抽取出潜在的、有价值的知识的过程。基于数据挖掘技术海量数据提取和知识发现的特点,本文主要基于数据挖掘技术在提升电信业欠费控制能力上进行分析与研究。基于电信客户是理性的和经济的这一基本前提,可以采用决策树,神经网络,关联规则分析等数据挖掘算法和统计分析技术,通过对电信客户的历史业务行为进行深入分析,从而预测其在未来时间的欠费倾向。 关键字:数据挖掘 欠费 预测引言 欠费问题是困扰通信行业的主要难题之一,长期居高不下的欠费用户量不仅关系到运营商的切身利益,更影响消费行业的平衡运作,欠费金额的激
2、增不仅是对运营商切身利益的损害,更造成了国有资产的潜在流失,使国家蒙受损失。因此,追讨欠费是当前通信行业亟待解决的问题。虽然,现有电信业务经营分析过程中,根据业务人员在工作中积累的经验,已对部分欠费数据作出分析,如:欠费金额、欠费用户数、当月欠费用户数、逾期欠费用户数等。但是,针对已发生欠费行为的用户做出分析,分析范围有限,不能达到控制欠费及预测欠费的目的,最终结果还是不停的追讨欠费。所以,做好电信欠费的防范工作,及早遏制欠费的发生才是当前一项紧迫且意义重大的任务,只有及时有效的预测欠费用户,才能有针对性的采取精准化营销措施,挽回这部分用户,进而控制欠费的发生,提升电信业自身对欠费用户的控制能
3、力。本文主要以欠费用户预测为研究主题,以提升欠费控制能力为目标,以神经网络算法和决策树分类算法作为理论支撑,展开深入研究。1、 基本原理1.1 设计思想研究过程主要以客户的历史业务行为为依据,预测其在未来时间的欠费倾向。在模型建设完毕后,只要输入该客户的相关数据变量即可根据模型输出结果判断其在未来时间的欠费概率,从而采取相关控制行为。如下图所示:输 入欠费概率(0.87)输 出29全球通347元/月长春男图一 欠费用户预测模型效果图1.2 算法原理 基于上述设计思想,在具体应用过程中主要用到的数据挖掘算法有神经网络算法和决策树算法。神经网络算法的实施过程是由输入变量至输出变量的一个数据清洗沉淀
4、过程。输入层结构由输入变量(属性)来定。每个属性为一个输入结点。输出层结构由输出结果来定。有几个输出值,就有几个输出结点。隐藏层 层数和结点数点的确定:主要靠经验。初始权值的确定:取决于对问题的了解和先验知识,哪部分作用强,权值就设得大些。训练过程:一个神经元连接权重调整的过程。前向传播阶段:输入层>隐层>输出层,反向传播阶段:计算输出的结果和目标结果的差距 经输出层>隐层>输入层 ,反推神经元连接的权重调整,对每个输入样本重复上述步骤,直到网络收敛为止。决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树
5、,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树算法构造决策树来发现数据中蕴涵的分类规则如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步,决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。第二步,决策树的剪技:决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数扼集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除。2、 模型设计2.1 变量选取选取某月某地区
6、欠费用户的业务行为数据作为研究样本,采用神经网络算法思想挖掘欠费用户的业务行为特征。可建立以下变量:a) 通话消费进度 b) 总消费进度 c) 最大/小缴费金额 d) 用户剩余免费时长 e) 呼叫主要集中的时段 f) 短信主要集中的时段 g) 查询话费次数 h) 在网时长i) 通话消费频率j) 总消费频率验证变量选取的代表性。如:我们对某一欠费用户在一个月中的通话行为进行日分析,可看出该用户的通话消费进度,如下图所示:图二 欠费用户通话消费进度图可见该用户属于月末突击消费的类型,该类型用户欠费可能性极大。下图为所选样本中某个用户的消费进度图,可见该用户属于消费较少的用户,且月末也有突击消费现象
7、存在。图三 消费进度图2.2 利用神经网络算法挖掘欠费用户特征将已准备好的变量集由输入层输入,经由隐含层对数据作出处理后,传到输出层。如果输出层输出的信号与期望的输出不符,则反向传播。误差的反向传播是将实际输出与期望输出之间的误差以某种形式通过隐含层再向输入层反传,并且在反传的过程中,将误差分摊给各层的所有单元,用来获得各层单元的误差信号,用这个误差信号去修正各单元的连接权,然后再进行信号的正向传递,这种信号正向传递和误差的反向传播的过程是周而复始地进行,连接权值也相应不断地进行调整,这个过程就是网络学习训练的过程,直到网络输出的误差足够小或者达到了我们的预设值,或者进行到预设的学习次数,网络
8、的学习训练才结束。对输出层得到的数据结果进行分析,该结果集即为欠费用户的特征集。2.3 利用决策树分类算法进行用户预测根据神经元输出结果中的欠费用户特征,对随机抽取的单用户业务行为数据进行分析,待分析的数据的范围大于或者等于上述特征集。根据决策树分类算法思想,分析该用户的业务行为数据是否满足上述特征集,如果满足即将其归为准欠费用户,业务人员需要采取相关营销策略争取这部分用户,尽量避免其欠费行为在当月月结时产生。反之,经过分析后,该用户的业务行为不满足上述特征集,那么该类用户属于正常在用用户,业务人员可以不采取相关营销措施。如下图所示以图形的表现形式,展现了决策树分类思想的流程图。当然,在模型建
9、设的过程中,决策树算法多以多分支形式的属性图结果展现,图四 决策树分类算法流程图3、效果评估 如下图所示为某一地区某月的用户数据:网别类型欠费用户数预测欠费用户数命中用户准确率3G手机173581140231800265706%3G-上网卡5770390028067194%2G8897576985074208546025%固定电话4683%无线市话7902356693330705833%宽带13357799335573525773%公用电话3089197312446305%其他9456734548716631%小计4814%可见预测模型还是能够有效的预测出欠费用户,在模型使用的过程中仍需要不断的完善,使其对欠费用户预测的准确率上有所提升,从而实现该模型的更大价值。4、结束语本文主要基于数据挖掘算法中神经网络算法和决策树分类算法的算法思想,对样本数据集中海量的数据信息进行挖掘,从中挖掘出学习者从表象很难识别的内在数据特征,从而加以应用,以此作为用户分类的依据,从而实现用户预测的功能,可将这部分预测用户,用于OCS计费系统,实时监
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度物联网技术研发与产业化基地建设合同3篇
- 2024年度内衣品牌代理合同3篇
- 二零二四年度墙纸师傅施工材料供应合同2篇
- 2024年冷静期离婚双方责任划分合同版B版
- 二零二四年度供应链管理合同中的服务内容和责任划分3篇
- 2024年度智能化系统安装合作协议
- 2024年数据共享非泄露协议
- 2024年建筑工程施工员聘用协议标准文本版B版
- 内陆港物流合同三篇
- 2024大客车短期租赁合同范本版B版
- 提高小学高段数学简便运算能力的教学策略
- CB/T 495-1995吸入口
- CMMI-决策分析和决定过程
- 政策系统运行分析课件
- 高校学生管理法治化课件
- 新苏教版三上科学15.《珍惜水资源》教案
- 糖尿病性视网膜病变医疗护理查房
- ISO 30401-2018知识管理体系 要求(雷泽佳译-2022)
- 阿玛松气吸式精量播种机课件
- 地下综合管廊共同沟规划设计及运行管理图文并茂
- 2022执业药师《中药二》考试真题及答案解析
评论
0/150
提交评论