基于clementine的数据挖掘算法决策树_第1页
基于clementine的数据挖掘算法决策树_第2页
基于clementine的数据挖掘算法决策树_第3页
基于clementine的数据挖掘算法决策树_第4页
基于clementine的数据挖掘算法决策树_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于clementine的数据挖掘算法章节安排数据挖掘概述决策树C5.0算法算法231目录数据挖掘方法论步骤1确定培训需求步骤2确定培训目标步骤3设计培训方案步骤4步骤5落实培训成果步骤5落实培训成果业务理解数据理解数据准备建立模型模型评价模型应用商业目的模型输出模型定义列出指标评估数据质量数据清洗指标筛选选择算法建立模型模型评估是否符合商业目的将数据挖掘结果形成报告CRISP-DM数据挖掘实施方法论帮助企业把注意力集中在解决业务问题上,它包括了六个步骤,涵盖了数据挖掘的整个过程。本次培训内容数据准备重要性分析变量重要性分析,是去除变量冗余,是对变量的浓缩和提炼,保留对输出变量的预测有重要贡献

2、的变量和样本,剔除不重要的变量和样本。变量与输出变量、变量间的相关程度从变量自身考察变量重要性分析方法变量值中缺失值所占比例分类变量中,类别个数占样本比例数值变量的变异系数数值型变量的标准差输入、输出变量均为数值型:做两个变量的相关性分析输入变量为数值型、输出变量为分类型:方差分析(输出变量为控制变量、输入变量为观测变量)输入变量为分类型、输出为数值型:方差分析(输入变量为控制变量、输出变量为观测变量)输入、输出变量均为分类型:卡方检验方差分析(Analysis of Variance)是利用样本数据检验两个或两个以上的总体均值间是否有差异的一种方法。在研究一个变量时,它能够解决多个总体的均值

3、是否相等的检验问题;在研究多个变量对不同总体的影响时,它也是分析各个自变量对因变量影响程度的方法。 背景原理与方法组内离差平方和除以自由度 -1 方差分析主要是通过方差比较的方式来对不同总体参数进行假设检验。由于目标总体差异的产生来自两个方面,一方面由总体组间方差造成即指标的不同水平(值)对结果的影响,另一方面由总体组内方差造成即指标的同一水平(值)内部随机误差对结果的影响,如果某指标对目标总体结果没有影响则组内方差与组间方差近似相等,而如果指标对目标总体结果有显著影响,则组间方差大于组内方差,当组间方差与组内方差的比值达到一定程度,或着说达到某个临界点时就可做出待选指标对结果影响显著的判断。

4、组内方差组间方差F12iiijnxx组内方差12nxxi组间方差in组内离差平方和除以自由度n-1 :表示第i组第j个值;:表示第i组的均值;:表示第i组数据个数;:表示全体的均值;:表示全体分组个数;ijxixinxn方差分析例如:调查学生学历对用户做某题的影响学历学生序号得分组内均值组内离差和组间离差和组间方差/组内方差小学生1272914186246.55232328中学生156588258360大学生1879018293390学历学生序号得分组内均值组内方差组间方差组间方差/组内方差小学生12760217820.00036293360中学生128581928290356大学生18759

5、1514232358场景一:学历对做数学题的影响场景二:学历对做智力题的影响可以看出学历对做数学题的影响显著但对做智力题的影响不明显方差分析应用场景1、提出基本的无效假设: 行分类变量与列分类变量无关联2、Pearson卡方统计量 其中r为列联表的行数,c为列联表的列数, 为观察频数,fe为期望频数。其中,RT指定单元格所在行的观测频数合计,CT指定单元格所在列的观测频数合计,n为观测频数总计。3、确定临界值显著性水平A,一般为0.05或0.01卡方观测值大于卡方临界值,拒绝零假设,变量间不独立卡方观测值小于卡方临界值,接受零假设,变量间独立 卡方检验rcjeijeijijfff1i1202)

6、(0fnRTCTnnCTRTe*nf卡方检验两个分类变量的关联性,其根本思想就是在于比较理论频数和实际频数的吻合程度卡方检验的一般流程: 卡方检验应用场景是否流失终端类型否是合计4G176822583G146592052G21342255未识别13284216合计667267934是否流失终端类型否是合计4G184742583G146592052G18273255未识别15462216合计667267934667/934*258=184267/934*255=73场景:分析终端类型对用户流失是否有影响:原始数据表期望数据表86.3062)6284(154)154132(73)7342(182)

7、182213(59)5959(146)146146(74)7482(184)184176(2222222221、H0:终端类型与用户流失无关联2、 Pearson卡方统计量:3、确定临界值:取 ,自由度n=(4-1)*(2-1)=3,查卡方分布临界值表得,临界值为7.81。由于30.867.81因此拒绝零假设,终端类型与用户流失不独立,05. 0章节安排数据挖掘概述决策树C5.0算法算法231目录决策树模型常用的算法有CHAID、CART、 Quest 和C5.0。 对每个决策都要求分成的组之间的“差异”最大。各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。利用训练样本集完成决策

8、树的建立过程分枝准则的确定涉及:第一,如何从众多的输入变量中选择一个当前最佳的分组变量第二,如何从分组变量的众多取值中找到一个最佳的分割点树剪枝的原因:完整的决策树对训练样本特征的捕捉“过于精确”- 过拟和常用的修剪技术:预修剪:用来限制决策树的充分生长。n事先指定决策树生长的最大深度n事先指定树节点样本量的最小值后修剪:待决策树充分生长完毕后再进行剪枝决策树的生长决策树的减枝决策树(Decision Tree)模型,也称规则推理模型通过对训练样本的学习,建立分类规则依据分类规则,实现对新样本的分类属于有指导(监督)式的学习方法,有两类变量:目标变量(输出变量)属性变量(输入变量)核心问题n信

9、息量的数学定义:n信息熵是信息量的数学期望,是信源发出信息前的平均不确定性,也称先验熵。信息熵的数学定义:n信息熵等于0,表示只存在唯一的信息发送可能,P(ui)=1,没有发送的不确定性;n如果信源的k个信号有相同的发送概率,P(ui)=1/k,则信息发送的不确定性最大,信息熵达到最大nP(ui)差别小,信息熵大,平均不确定性大;反之,差别大,信息熵小,平均不确定性小。)(log)(1log)(22iiiuPuPuI)(log)()(1log)()(22iiiiiiuPuPuPuPUEnt信息熵信息熵在C5.0算法中的应用 设S是s个数据样本的集合。目标变量C有m个不同值Ci(i1,2,m)。

10、设si中S属于Ci类的样本数,则集合S的信息熵定义为:其中 是任意样本属于Ci的概率。 设属性A具有v个不同值a1,a2,av。可以用属性A将S划分为v个子集S1,S2,SV;其中,设 sij 是子集 Sj 中类 Ci 的样本数。根据由A划分成子集的熵为:其中, 是第j个子集的权, 是 Sj 中的样本属于类 Ci 的概率。则属性变量A带来的信息增益为 12121,vjjmjjjmjjsssEAIssss12jjmjssss12,mGa i nAIsssEAmiiippSI12)(log)(sspiissssmjjj21vjmiijijmjjjppssssAE11221log)(jijijssp

11、)()()(AESIAGainC5.0算法应用场景用户年龄出账收入 智能机信用等级类别:是否流失1=30高否一般否240中等否一般是540低是一般是640低是良好否73140低是良好是8=30中等否一般否940中等是一般是1140中等否良好否s14,目标变量“是否流失”有两个不同值,类C1对应于“是”,类C2对应于“否”。则s19,s25,p19/14,p2=5/14。1、计算对给定样本分类所需的期望信息:2、计算每个属性的熵。 94. 0145log145149log149),(2221ssI971. 053log5352log52),(222111ssI0044log44),(22212s

12、sI(1)先计算属性“年龄”的熵。对于年龄“40”:s13=3,s23=2,p13=3/5,p23=2/5, 971. 052log5253log53),(222313ssI场景:利用决策树算法分析具有哪些特点的用户最可能流失:如果样本按“年龄”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是 Gain(年龄)=I(s1,s2) - E(年龄)=0.246(2)以相同方法计算其他属性的增益得到Gain(出账收入)=I(s1,s2) - E(收入)=0.940-0.9110.029Gain(智能机)=I(s1,s2) - E(学生)=0.940-0.7890.151Gain

13、(信用等级)=I(s1,s2) - E(信用等级)=0.940-0.8920.0483、得到较优的分类变量 由于 “年龄” 属性具有最高信息增益,它被选作测试属性。创建一个节点,用“年龄”标记,并对每个属性值引出一个分支694. 0),s (145),s (144),s (145)(231322122111sIsIsIE 年龄C5.0算法应用场景出账收入智能机 信用等级是否流失高否一般是低是良好是中等否良好是高是一般是出账收入 智能机信用等级 是否流失高否一般否高否良好否中等否一般否低是一般是中等是良好是出账收入 智能机信用等级 类中等否一般是低是一般是低是良好否中等是一般是中等否良好否年龄4

14、0表3表1表2C5.0算法应用场景对表1进行进行细分 。S5,设类C1对应于“是”,类C2对应于“否”。则s12,s23,p12/5,p2=3/5。1、计算对给定样本分类所需的期望信息:2、计算每个属性的熵。(1)先计算属性“出账收入”的熵。对于收入“高”:s110,s212,p11=0,p21=1,对于收入“中等”: s12=1,s22=1,p12=1/2,p22=1/2,对于收入“低”: s13=1,s23=0,p13=1,p23=0,如果按照出账收入”划分的信息增益是:Gain(收入)=I(s1,s2) - E(收入)=0.971-0.40.571(2)以相同方法计算其他属性的增益得到G

15、ain(智能机)=I(s1,s2) E(智能机)=0.971-00.971Gain(信用等级)=I(s1,s2) - E(信用等级)=0.971-0.9510.023、得到分类变量:由于 “智能机 ” 属性具有最高信息增益,它被选作测试属性)收入“低”: s13=1,s23=0,p13=1,p23=0,971. 053log5352log52),(2221ssI022log22),(22111ssI121log2121log21),(222212ssI0),(2313ssIC5.0算法应用场景同理,对表2进行计算。得出属性“信用等级”具有最高信息增益,它被选作测试属性。创建一个节点,用“信用等

16、级”标记,并对每个属性值引出一个分支。最终构造的决策树如下图所示)收入“低”: s13=1,s23=0,p13=1,p23=0,年龄40是智能机信用等级否是是否否是一般良好C5.0算法应用场景1、IF 年龄“=30” AND 智能机“否” THEN 是否流失“否” 2、IF 年龄“40” AND 信用等级“良好”THEN 是否流失“否”5、IF 年龄“40” AND 信用等级“一般” THEN 是否流失“是”C5.0算法应用场景由决策树产生的分类规则C5.0的剪枝算法C5.0算法采用后剪枝:1、按照剪枝标准,从叶节点向上逐层剪枝;2、利用统计学置信区间的方法,直接在训练样本集上估计误差;3、剪枝标准是减少误差12剪枝关键点设第i个节点包含 个样本,有 个预测错误样本,则错误率 ,真实误差为 ,则错误率的置信区间为 其中, 为临界值,可得真实误差的估计上限 iNiEiiiNEf ie1|)|)1 (2zNffefPiiiii2ziiiiiNffzfe)1 (2C5.0按照“减少误差(reduce -error)”法,判断是否剪枝:k为待剪子树中叶节点的个数,pi为第i个叶节点所含样本占子树所含样本的比例,ei为第i个叶节点的估计误差,e为父节点的估计误差),.,2 , 1(1kie

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论