




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘课程培训案例背景中国电信市场的用户通常都为刚需用户,不存在用户不再使用电信业务。但各大运营商之间却存在巨大的竞争,尤其是各家运营商之间的很多服务几乎都是交叉重叠的服务,因此用户通常会由于某些原因离网转而使用其它运营商的服务。为有效减少自家用户的流失,运营商通常会基于自身的数据做一些分析来最大限度的挽留即将流失的用户。ABCDABCD商业理解哪些用户会流失流失定义特征变量选取数据时间段选取流失用户具有哪些特征流失用户识别规则流失用户特征分布流失定义主动销号停止使用服务被动欠费服务取消特征变量选取?人口属性数据行为数据客服数据其它数据数据时间段训练数据时间段测试数据时间段流失预测模型分类算
2、法C5.0以“信息增益率”为度量来选择分裂属性以“信息增益”为度量来选择分裂属性C5.0(C4.5)ID3样本数据天气温度湿度是否有风是否打球晴朗热高否否晴朗热高是否阴天热高否是下雨凉爽高否是下雨冷正常否是下雨冷正常是否阴天冷正常是是晴朗凉爽高否否晴朗冷正常否是下雨凉爽正常否是阴天凉爽正常是是阴天凉爽高是是阴天热正常否是下雨凉爽高是否C5.0计算步骤计算目标变量(是否打球)不确定性计算各个输入变量的熵计算各个输入变量的信息增益计算各个输入变量的信息增益率I(是否打球)E(是否打球|天气)、E(是否打球|是否有风)Gain(是否打球|天气)、 、 Gain(是否打球|是否有风)GainR(是否打
3、球|天气)、 、 GainR(是否打球|是否有风)C5.0关键点值(天气为例)熵: E(是否打球|天气) = 0.5786信息增益:Gain(是否打球|天气) = I(是否打球) E(是否打球|天气) = 0.3617信息增以率:Split (是否打球|天气) = 1.5774 GainR(是否打球|天气) = 0.2293C5.0算法缺失值处理将带有缺失值的样本当做临时剔除样本看待,并在后面进行权数调整。C5.0算法可以自己处理字段中的缺失值带有缺失值的样本天气温度湿度是否有风是否打球热高否否晴朗热高是否阴天热高否是下雨凉爽高否是下雨冷正常否是下雨冷正常是否阴天冷正常是是晴朗凉爽高否否晴朗冷
4、正常否是下雨凉爽正常否是阴天凉爽正常是是阴天凉爽高是是阴天热正常否是下雨凉爽高是否计算步骤是否打球CountRate是99/14否55/14Step 1:计算训练样本的信息量计算步骤Step 2:计算每个属性的信息增益(以天气为例)天气是否打球=“是”是否打球=“否”total晴朗123阴天505下雨325Total9513关键点值熵: E(是否打球|天气) = 0.5854信息增益:Gain(是否打球|天气) = 0.3296信息增以率:Split (是否打球|天气) = 1.5486GainR(是否打球|天气) = 0.2128Modeler数值型变量默认处理方法分裂属性为数值型变量MDL
5、P算法:基于最短描述长度原则的熵分组方法。 如果分组后的输入变量对输出变量取值的解释能力显著低于分组之前,那么这样的分组是没有意义的。 MDLP的核心测度指标是信息熵和信息增益。C5.0剪枝特点后剪枝误差估计剪枝标准分类算法神经网络轴突树突突触细胞体神经末梢神经网络模型降水量:x3太阳黑子数:x4径流量:x1含沙量:x2土壤湿度:x8气温:x5ENSO指数:x6大气环流指数:x7jikWikWjkW1iW1jW2iW2jW3iW3jW4iW4jW5iW5jW6iW6jW7iW7jW8iW8j输入层隐含层2输出层隐含层1Y:是否发大水神经网络节点介绍输入节点接收和处理输入的变量值其个数取决于输入
6、变量的个数隐含层节点实现非线性样本的线性变换其个数可自行设定输出节点提供分类预测结果依据具体情况而定神经网络划分方式神经网络划分基于拓扑结构基于连接方式基于学习方式神经网络节点构成加法器W1W2激活函数神经网络激活函数阀值函数(阶跃函数)分阶段函数Sigmoid函数(S型函数)1 (当v大于等于0时)0 (当v小于0时)神经网络建立步骤数据处理(去除变量间的量纲影响、分类型变量转化为数值型变量)确定神经网络的层数和每层的节点数神经网络权值确定训练神经网络模型使用神经网络模型进行预测分类Modeler中神经网络核心算法多层感知器MLP径向基函数RBF多层感知器MLP特点可以包含一层或者多层隐含层激活函数为sigmoid函数具有高度的连通性网络中包含函数信号和误差信号3层前向网络(输入层、隐藏层、输出层)激活函数为基函数(高斯函数)根据隐藏层节点数量可分为正规化网络和广义网络径向基函数RBFMLP&RBF对比多层感知器MLP径向基函数RBF多个隐含层1个隐含层隐含层、输出层所有节点计算模型相同隐含层、输出层节
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 烟草批发国际市场考核试卷
- 冶金设备能效监测与评估技术考核试卷
- 生物药品的基因治疗与核酸药物研发考核试卷
- 汽车燃油蒸气排放控制系统检修考核试卷
- 传输网络的设计与优化考核试卷
- 电视机定制化与个性化生产考核试卷
- 果酒行业波特五力分析
- 2025房屋租赁合同范本:租房协议书
- 2025大连市商品混凝土销售合同协议书样本
- 2025《测绘管理与法律法规》考前必练题库500题(含真题、重点题)
- 广东省深圳市宝安区2023-2024学年七年级下学期数学期中试卷(含答案)
- 浙江首考2025年1月普通高等学校招生全国统一考试 历史 含答案
- 山东省临沂市2024-2025学年七年级下学期3月月考地理试题(原卷版+解析版)
- 小学生定期体检教育知识
- 叉车司机四级习题库含参考答案
- 辽宁省大连市2024-2025学年高三一模语文试题(解析版)
- 《水上客运重大事故隐患判定指南(暂行)》知识培训
- 输液泵使用的操作流程
- 高中英语新人教版选择性必修四Unit 1 -Unit 3续写词汇和例句
- DB11∕T1135-2024供热系统有限空间作业安全技术规程
- 空中交通流量管理-深度研究
评论
0/150
提交评论