第三章决策树_第1页
第三章决策树_第2页
第三章决策树_第3页
第三章决策树_第4页
第三章决策树_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1决策树(DecisionTree)2023/1/1921、分类的意义数据库了解类别属性与特征预测分类模型—决策树分类模型—聚类一、分类(Classification)2023/1/193数据库分类标记性别年龄婚姻否是否是FemaleMale<35≧35未婚已婚2023/1/192、分类的技术(1)决策树4(2)聚类2023/1/193、分类的程序5模型建立(ModelBuilding)模型评估(ModelEvaluation)使用模型(UseModel)2023/1/19决策树分类的步骤6数据库2023/1/19训练样本(trainingsamples)建立模型测试样本(testingsamples)评估模型例:7资料训练样本婚姻年龄

家庭

所得否是否是未婚已婚<35≧35低高否小康1.建立模型测试样本2.模型评估错误率为66.67%修改模型3.使用模型2023/1/194、分类算法的评估8预测的准确度:指模型正确地预测新的或先前未见过的数据的类标号的能力。训练测试法(training-and-testing)交叉验证法(cross-validation)例如,十折交叉验证。即是将数据集分成十分,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10倍交叉验证求均值,例如10次10倍交叉验证,更精确一点。2023/1/192023/1/199速度:指产生和使用模型的计算花费。建模的速度、预测的速度强壮性:指给定噪声数据或具有缺失值的数据,模型正确预测的能力。可诠释性:指模型的解释能力。102023/1/19决策树归纳的基本算法是贪心算法,它以自顶向下递归各个击破的方式构造决策树。贪心算法:在每一步选择中都采取在当前状态下最好/优的选择。在其生成过程中,分割方法即属性选择度量是关键。通过属性选择度量,选择出最好的将样本分类的属性。根据分割方法的不同,决策树可以分为两类:基于信息论的方法(较有代表性的是ID3、C4.5算法等)和最小GINI指标方法(常用的有CART、SLIQ及SPRINT算法等)。二、决策树(DecisionTree)(一)决策树的结结构11根部节点(rootnode)中间节点(non-leafnode)(代表测试的的条件)分支(branches)(代表测试的的结果)叶节点(leafnode)(代表分类后后所获得的分类标记记)2023/1/12023/1/112(二)决策策树的形成成例:13根部节点中间节点停止分支?2023/1/1(三)ID3算法(C4.5,C5.0)142023/1/1Quinlan(1979)提出,以以Shannon(1949)的信息论论为依据据。ID3算法的属属性选择择度量就就是使用用信息增增益,选选择最高高信息增增益的属属性作为为当前节节点的测测试属性性。信息论:若一事件件有k种结果,对应的的概率为为Pi。则此事事件发生生后所得得到的信息量量I(视为Entropy)为:I=-(p1*log2(p1)+p2*log2(p2)+…+pk*log2(pk))Example1:设k=4p1=0.25,p2=0.25,p3=0.25,p4=0.25I=-(.25*log2(.25)*4)=2Example2:设k=4p1=0,p2=0.5,p3=0,p4=0.5I=-(.5*log2(.5)*2)=1Example3:设k=4p1=1,p2=0,p3=0,p4=0I=-(1*log2(1))=02023/1/1152023/1/116信息增增益17Example(Gain)n=16n1=4I(16,4)=-((4/16)*log2(4/16)+(12/16)*log2(12/16))=0.8113E(年龄)=(6/16)*I(6,1)+(10/16)*I(10,3)=0.7946Gain(年龄)=I(16,4)-E(年龄)=0.0167Gain(年龄)=0.0167Max:作为第一个个分类依据据2023/1/1Gain(性别)=0.0972Gain(家庭所得)=0.0177Example(续)18Gain(家庭所得)=0.688I(7,3)=-((3/7)*log2(3/7)+(4/7)*log2(4/7))=0.9852Gain(年龄)=0.9852Gain(年龄)=0.2222I(9,1)=-((1/9)*log2(1/9)+(8/9)*log2(8/9))=0.5032Gain(家庭所得)=0.50322023/1/1Example(end)ID3算法19分类规则:IF性别=FemaleAND家庭所得=低所得THEN购买RV房车=否IF性别=FemaleAND家庭所得=小康THEN购买RV房车=否IF性别=FemaleAND家庭所得=高所得THEN购买RV房车=是IF性别=MaleAND年龄<35THEN购买RV房车=否IF性别=MaleAND年龄≧35

THEN购买RV房车=是资料DecisionTree2023/1/1(四)DecisionTree的建立过程201、决策树的停停止决策树是通过过递归分割(recursivepartitioning)建立而成,递递归分割是一一种把数据分分割成不同小小的部分的迭代过程。如果有以下情情况发生,决决策树将停止分割:该群数据的每每一笔数据都都已经归类到到同一类别。。该群数据已经经没有办法再再找到新的属该群数据已经没有任何尚未处理的数据。2023/1/12、决策树的剪剪枝(pruning)21决策树学习可可能遭遇模型过度拟合(overfitting)的问题,过度度拟合是指模模型过度训练练,导致模型型记住的不是是训练集的一一般性,反而而是训练集的的局部特性。。如何处理过度度拟合呢?对对决策树进行行修剪。树的修剪有几几种解决的方方法,主要为为先剪枝和后后剪枝方法。。2023/1/1(1)先剪剪枝方方法22在先剪剪枝方方法中中,通通过提提前停停止树树的构构造((例如如,确定阀值法:在构造树时,可将信息增益用于评估岔的优良性。如果在一个节点划分样本将导致低于预定义阀值的分裂,则给定子集的进一步划分将停止。测试组修剪法:在使用训练组样本产生新的分岔时,就立刻使用测试组样本去测试这个分岔规则是否能够再现,如果不能,就被视作过度拟合而被修剪掉,如果能够再现,则该分岔予以保留而继续向下分岔。2023/1/1(2)后剪剪枝方方法23后剪剪枝枝方方法法案例数修剪是在产生完全生长的树后,根据最小案例数阀值,将案例数小于阀值的树节点剪掉。成本复杂性修剪法是当决策树成长完成后,演算法计算所有叶节点的总和错误率,然后计算去除某一叶节点后的总和错误率,当去除该叶节点的错误率降低或者不变时,则剪掉该节点。反之,保留。2023/1/1应用案例例:在农农业中的的应用2023/1/124第一步::属性离离散化2023/1/125第二步:概化化(泛化)2023/1/126第三步:计计算各属性性的期望信信息2023/1/127=(17/30)*LOG((17/30),2)+(10/30)*LOG((10/30),2)+(3/30)*LOG((3/30),2)计算各属性性的信息增增益2023/1/128第四四步步::决决策策树树2023/1/129案例2:银行违违约率2023/1/1302023/1/131案例3对电电信信客客户户的的流流失失率率分分析析2023/1/132数据据仓仓库库条件件属属性性类别别属属性性客户户是是否否流流失失案例例4:在在银银行行中中的的应应用用2023/1/133案例例5:个个人人信信用用评评级级2023/1/134个人信用评级级决策树(五)其他算法35C4.5与C5.0算法GiniIndex算法CART算法PRISM算法CHAID算法2023/1/11、C4.5与C5.0算法36C5.0算法则是C4.5算法的修订版版,适用在在处理大数据据集,采用Boosting(提升)方式式提高模型准准确率,又称称为BoostingTrees,在软件上的的计算速度比比较快,占用用的内存资源源较少。2023/1/1类别属性性的信息息熵2、GiniIndex算法37ID3andPRISM适用于类类别属性性的分类类方法。。GiniIndex能数值型型属性的的变量来来做分类类。着重重解决当当训练集集数据量量巨大,,无法全全部放人人内存时时,如何何高速准准确地生生成更快快的,更更小的决决策树。。2023/1/1集合T包含N个类别的的记录,,那么其其Gini指标就是是如果集合合T分成两部部分N1和N2。则此分分割的Gini就是提供最小小Ginisplit就被选择择作为分分割的标标准(对于每个个属性都都要经过过所有可可以的分分割方法法)。GiniIndex算法382023/1/1案例:在在汽车销销售中的的应用2023/1/1392023/1/1402023/1/141NNYYYNYYYNNN3、CART算法42由Friedman等人提出,,1980年以来就开开始发展

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论