




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1决策树(DecisionTree)2022/12/151决策树(DecisionTree)2022/12/1121、分类的意义数据库了解类别属性与特征预测分类模型—决策树分类模型—聚类一、分类(Classification)2022/12/1521、分类的意义数据库了解类别属性与特征预测分类模型—分类模3数据库分类标记性别年龄婚姻否是否是FemaleMale<35≧35未婚已婚2022/12/152、分类的技术(1)决策树3数据库分类标记性别年龄婚姻否是否是FemaleMale<34(2)聚类2022/12/154(2)聚类2022/12/113、分类的程序5模型建立(ModelBuilding)模型评估(ModelEvaluation)使用模型(UseModel)2022/12/153、分类的程序5模型建立(ModelBuilding)20决策树分类的步骤6数据库2022/12/15训练样本(trainingsamples)建立模型测试样本(testingsamples)评估模型决策树分类的步骤6数据库2022/12/11训练样本(tra例:7资料训练样本婚姻年龄
家庭
所得否是否是未婚已婚<35≧35低高否小康1.建立模型测试样本2.模型评估错误率为66.67%修改模型3.使用模型2022/12/15例:7资料训练样本婚姻年龄家庭
所得否是否是未婚已婚<34、分类算法的评估8预测的准确度:指模型正确地预测新的或先前未见过的数据的类标号的能力。训练测试法(training-and-testing)交叉验证法(cross-validation)例如,十折交叉验证。即是将数据集分成十分,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10倍交叉验证求均值,例如10次10倍交叉验证,更精确一点。2022/12/154、分类算法的评估8预测的准确度:指模型正确地预测新的或先前2022/12/159速度:指产生和使用模型的计算花费。建模的速度、预测的速度强壮性:指给定噪声数据或具有缺失值的数据,模型正确预测的能力。可诠释性:指模型的解释能力。2022/12/119速度:指产生和使用模型的计算花费。102022/12/15决策树归纳的基本算法是贪心算法,它以自顶向下递归各个击破的方式构造决策树。贪心算法:在每一步选择中都采取在当前状态下最好/优的选择。在其生成过程中,分割方法即属性选择度量是关键。通过属性选择度量,选择出最好的将样本分类的属性。根据分割方法的不同,决策树可以分为两类:基于信息论的方法(较有代表性的是ID3、C4.5算法等)和最小GINI指标方法(常用的有CART、SLIQ及SPRINT算法等)。二、决策树(DecisionTree)102022/12/11决策树归纳的基本算法是贪心算法,它以
(一)决策树的结构11根部节点(rootnode)中间节点(non-leafnode)(代表测试的条件)分支(branches)(代表测试的结果)叶节点(leafnode)(代表分类后所获得的分类标记)2022/12/15
(一)决策树的结构11根部节点(rootnode)中间节2022/12/1512(二)决策树的形成2022/12/1112(二)决策树的形成例:13根部节点中间节点停止分支?2022/12/15例:13根部节点?2022/12/11(三)ID3算法(C4.5,C5.0)142022/12/15Quinlan(1979)提出,以Shannon(1949)的信息论为依据。ID3算法的属性选择度量就是使用信息增益,选择最高信息增益的属性作为当前节点的测试属性。信息论:若一事件有k种结果,对应的概率为Pi。则此事件发生后所得到的信息量I(视为Entropy)为:
I=-(p1*log2(p1)+p2*log2(p2)+…+pk*log2(pk))(三)ID3算法(C4.5,C5.0)142022/12/1Example1:设k=4p1=0.25,p2=0.25,p3=0.25,p4=0.25
I=-(.25*log2(.25)*4)=2Example2:设k=4p1=0,p2=0.5,p3=0,p4=0.5
I=-(.5*log2(.5)*2)=1Example3:设k=4p1=1,p2=0,p3=0,p4=0
I=-(1*log2(1))=02022/12/1515Example1:2022/12/11152022/12/1516信息增益2022/12/1116信息增益17Example(Gain)n=16n1=4 I(16,4)=-((4/16)*log2(4/16)+(12/16)*log2(12/16))=0.8113E(年龄)=(6/16)*I(6,1)+(10/16)*I(10,3)=0.7946Gain(年龄)=I(16,4)-E(年龄)=0.0167Gain(年龄)=0.0167Max:作为第一个分类依据2022/12/15Gain(性别)=0.0972Gain(家庭所得)=0.017717Example(Gain)n=16I(16,4)=-Example(续)18Gain(家庭所得)=0.688I(7,3)=-((3/7)*log2(3/7)+(4/7)*log2(4/7))=0.9852Gain(年龄)=0.9852Gain(年龄)=0.2222I(9,1)=-((1/9)*log2(1/9)+(8/9)*log2(8/9))=0.5032Gain(家庭所得)=0.50322022/12/15Example(续)18Gain(家庭所得)=0.688I(Example(end)ID3算法19分类规则:IF性别=FemaleAND家庭所得=
低所得THEN购买RV房车=否IF性别=FemaleAND家庭所得=
小康THEN购买RV房车=否IF性别=FemaleAND家庭所得=
高所得THEN购买RV房车=是IF性别=MaleAND年龄<35
THEN购买RV房车=否IF性别=MaleAND年龄≧35
THEN购买RV房车=是资料DecisionTree2022/12/15Example(end)ID3算法19分类规则:资料Deci(四)DecisionTree的建立过程201、决策树的停止决策树是通过递归分割(recursivepartitioning)建立而成,递归分割是一种把数据分割成不同小的部分的迭代过程。
如果有以下情况发生,决策树将停止分割:该群数据的每一笔数据都已经归类到同一类别。该群数据已经没有办法再找到新的属性来进行节点分割。该群数据已经没有任何尚未处理的数据。2022/12/15(四)DecisionTree的建立过程201、决策树的停2、决策树的剪枝(pruning)21决策树学习可能遭遇模型过度拟合(overfitting)的问题,过度拟合是指模型过度训练,导致模型记住的不是训练集的一般性,反而是训练集的局部特性。如何处理过度拟合呢?对决策树进行修剪。树的修剪有几种解决的方法,主要为先剪枝和后剪枝方法。2022/12/152、决策树的剪枝(pruning)21决策树学习可能遭遇模型(1)先剪枝方法22在先剪枝方法中,通过提前停止树的构造(例如,通过决定在给定的节点上不再分裂或划分训练样本的子集)而对树“剪枝”。一旦停止,节点成为树叶。确定阀值法:在构造树时,可将信息增益用于评估岔的优良性。如果在一个节点划分样本将导致低于预定义阀值的分裂,则给定子集的进一步划分将停止。测试组修剪法:在使用训练组样本产生新的分岔时,就立刻使用测试组样本去测试这个分岔规则是否能够再现,如果不能,就被视作过度拟合而被修剪掉,如果能够再现,则该分岔予以保留而继续向下分岔。2022/12/15(1)先剪枝方法22在先剪枝方法中,通过提前停止树的构造(例(2)后剪枝方法23后剪枝方法是由“完全生长”的树剪去分枝。通过删除节点的分枝,剪掉叶节点。案例数修剪是在产生完全生长的树后,根据最小案例数阀值,将案例数小于阀值的树节点剪掉。成本复杂性修剪法是当决策树成长完成后,演算法计算所有叶节点的总和错误率,然后计算去除某一叶节点后的总和错误率,当去除该叶节点的错误率降低或者不变时,则剪掉该节点。反之,保留。2022/12/15(2)后剪枝方法23后剪枝方法是由“完全生长”的树剪去分枝。应用案例:在农业中的应用2022/12/1524应用案例:在农业中的应用2022/12/1124第一步:属性离散化2022/12/1525第一步:属性离散化2022/12/1125第二步:概化(泛化)2022/12/1526第二步:概化(泛化)2022/12/1126第三步:计算各属性的期望信息2022/12/1527=(17/30)*LOG((17/30),2)+(10/30)*LOG((10/30),2)+(3/30)*LOG((3/30),2)第三步:计算各属性的期望信息2022/12/1127=(17计算各属性的信息增益2022/12/1528计算各属性的信息增益2022/12/1128第四步:决策树2022/12/1529第四步:决策树2022/12/1129案例2:银行违约率2022/12/1530案例2:银行违约率2022/12/11302022/12/15312022/12/1131案例3对电信客户的流失率分析2022/12/1532数据仓库条件属性类别属性客户是否流失案例3对电信客户的流失率分析2022/12/1132数据案例4:在银行中的应用2022/12/1533案例4:在银行中的应用2022/12/1133案例5:个人信用评级2022/12/1534个人信用评级决策树案例5:个人信用评级2022/12/1134个人信用评级决策(五)其他算法35C4.5与C5.0算法GiniIndex算法CART算法PRISM算法CHAID算法2022/12/15(五)其他算法35C4.5与C5.0算法2022/12/111、C4.5与C5.0算法36C5.0算法则是C4.5算法的修订版,适用在处理大数据集,采用Boosting(提升)方式提高模型准确率,又称为BoostingTrees,在软件上的计算速度比较快,占用的内存资源较少。2022/12/15类别属性的信息熵1、C4.5与C5.0算法36C5.0算法则是C4.5算法的2、GiniIndex算法37ID3andPRISM适用于类别属性的分类方法。GiniIndex能数值型属性的变量来做分类。着重解决当训练集数据量巨大,无法全部放人内存时,如何高速准确地生成更快的,更小的决策树。2022/12/152、GiniIndex算法37ID3andPRISM适集合T包含N个类别的记录,那么其Gini指标就是
如果集合T分成两部分N1和N2。则此分割的Gini就是提供最小Ginisplit就被选择作为分割的标准(对于每个属性都要经过所有可以的分割方法)。GiniIndex算法382022/12/15集合T包含N个类别的记录,那么其Gini指标就是GiniI案例:在汽车销售中的应用2022/12/1539案例:在汽车销售中的应用2022/12/11392022/12/15402022/12/11402022/12/1541NNYYYNYYYNNN2022/12/1141NNYYYNYYYNNN3、CART算法42由Friedman等人提出,1980年以来就开始发展,是基于树结构产生分类和回归模型的过程,是一种产生二元树的技术。CART与C4.5/C5.0算法的最大的区别是:其在每一个节点上都是采用二分法,也就是一次只能够有两个子节点,C4.5/5.0则在每一个节点上可以产生不同数量的分枝。2022/12/153、CART算法42由Friedman等人提出,1980年以2022/12/1543构建树的步骤:2022/12/1143构建树的步骤:2022/12/15442022/12/11442022/12/15452022/12/114546决策树(DecisionTree)2022/12/151决策树(DecisionTree)2022/12/11471、分类的意义数据库了解类别属性与特征预测分类模型—决策树分类模型—聚类一、分类(Classification)2022/12/1521、分类的意义数据库了解类别属性与特征预测分类模型—分类模48数据库分类标记性别年龄婚姻否是否是FemaleMale<35≧35未婚已婚2022/12/152、分类的技术(1)决策树3数据库分类标记性别年龄婚姻否是否是FemaleMale<349(2)聚类2022/12/154(2)聚类2022/12/113、分类的程序50模型建立(ModelBuilding)模型评估(ModelEvaluation)使用模型(UseModel)2022/12/153、分类的程序5模型建立(ModelBuilding)20决策树分类的步骤51数据库2022/12/15训练样本(trainingsamples)建立模型测试样本(testingsamples)评估模型决策树分类的步骤6数据库2022/12/11训练样本(tra例:52资料训练样本婚姻年龄
家庭
所得否是否是未婚已婚<35≧35低高否小康1.建立模型测试样本2.模型评估错误率为66.67%修改模型3.使用模型2022/12/15例:7资料训练样本婚姻年龄家庭
所得否是否是未婚已婚<34、分类算法的评估53预测的准确度:指模型正确地预测新的或先前未见过的数据的类标号的能力。训练测试法(training-and-testing)交叉验证法(cross-validation)例如,十折交叉验证。即是将数据集分成十分,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10倍交叉验证求均值,例如10次10倍交叉验证,更精确一点。2022/12/154、分类算法的评估8预测的准确度:指模型正确地预测新的或先前2022/12/1554速度:指产生和使用模型的计算花费。建模的速度、预测的速度强壮性:指给定噪声数据或具有缺失值的数据,模型正确预测的能力。可诠释性:指模型的解释能力。2022/12/119速度:指产生和使用模型的计算花费。552022/12/15决策树归纳的基本算法是贪心算法,它以自顶向下递归各个击破的方式构造决策树。贪心算法:在每一步选择中都采取在当前状态下最好/优的选择。在其生成过程中,分割方法即属性选择度量是关键。通过属性选择度量,选择出最好的将样本分类的属性。根据分割方法的不同,决策树可以分为两类:基于信息论的方法(较有代表性的是ID3、C4.5算法等)和最小GINI指标方法(常用的有CART、SLIQ及SPRINT算法等)。二、决策树(DecisionTree)102022/12/11决策树归纳的基本算法是贪心算法,它以
(一)决策树的结构56根部节点(rootnode)中间节点(non-leafnode)(代表测试的条件)分支(branches)(代表测试的结果)叶节点(leafnode)(代表分类后所获得的分类标记)2022/12/15
(一)决策树的结构11根部节点(rootnode)中间节2022/12/1557(二)决策树的形成2022/12/1112(二)决策树的形成例:58根部节点中间节点停止分支?2022/12/15例:13根部节点?2022/12/11(三)ID3算法(C4.5,C5.0)592022/12/15Quinlan(1979)提出,以Shannon(1949)的信息论为依据。ID3算法的属性选择度量就是使用信息增益,选择最高信息增益的属性作为当前节点的测试属性。信息论:若一事件有k种结果,对应的概率为Pi。则此事件发生后所得到的信息量I(视为Entropy)为:
I=-(p1*log2(p1)+p2*log2(p2)+…+pk*log2(pk))(三)ID3算法(C4.5,C5.0)142022/12/1Example1:设k=4p1=0.25,p2=0.25,p3=0.25,p4=0.25
I=-(.25*log2(.25)*4)=2Example2:设k=4p1=0,p2=0.5,p3=0,p4=0.5
I=-(.5*log2(.5)*2)=1Example3:设k=4p1=1,p2=0,p3=0,p4=0
I=-(1*log2(1))=02022/12/1560Example1:2022/12/11152022/12/1561信息增益2022/12/1116信息增益62Example(Gain)n=16n1=4 I(16,4)=-((4/16)*log2(4/16)+(12/16)*log2(12/16))=0.8113E(年龄)=(6/16)*I(6,1)+(10/16)*I(10,3)=0.7946Gain(年龄)=I(16,4)-E(年龄)=0.0167Gain(年龄)=0.0167Max:作为第一个分类依据2022/12/15Gain(性别)=0.0972Gain(家庭所得)=0.017717Example(Gain)n=16I(16,4)=-Example(续)63Gain(家庭所得)=0.688I(7,3)=-((3/7)*log2(3/7)+(4/7)*log2(4/7))=0.9852Gain(年龄)=0.9852Gain(年龄)=0.2222I(9,1)=-((1/9)*log2(1/9)+(8/9)*log2(8/9))=0.5032Gain(家庭所得)=0.50322022/12/15Example(续)18Gain(家庭所得)=0.688I(Example(end)ID3算法64分类规则:IF性别=FemaleAND家庭所得=
低所得THEN购买RV房车=否IF性别=FemaleAND家庭所得=
小康THEN购买RV房车=否IF性别=FemaleAND家庭所得=
高所得THEN购买RV房车=是IF性别=MaleAND年龄<35
THEN购买RV房车=否IF性别=MaleAND年龄≧35
THEN购买RV房车=是资料DecisionTree2022/12/15Example(end)ID3算法19分类规则:资料Deci(四)DecisionTree的建立过程651、决策树的停止决策树是通过递归分割(recursivepartitioning)建立而成,递归分割是一种把数据分割成不同小的部分的迭代过程。
如果有以下情况发生,决策树将停止分割:该群数据的每一笔数据都已经归类到同一类别。该群数据已经没有办法再找到新的属性来进行节点分割。该群数据已经没有任何尚未处理的数据。2022/12/15(四)DecisionTree的建立过程201、决策树的停2、决策树的剪枝(pruning)66决策树学习可能遭遇模型过度拟合(overfitting)的问题,过度拟合是指模型过度训练,导致模型记住的不是训练集的一般性,反而是训练集的局部特性。如何处理过度拟合呢?对决策树进行修剪。树的修剪有几种解决的方法,主要为先剪枝和后剪枝方法。2022/12/152、决策树的剪枝(pruning)21决策树学习可能遭遇模型(1)先剪枝方法67在先剪枝方法中,通过提前停止树的构造(例如,通过决定在给定的节点上不再分裂或划分训练样本的子集)而对树“剪枝”。一旦停止,节点成为树叶。确定阀值法:在构造树时,可将信息增益用于评估岔的优良性。如果在一个节点划分样本将导致低于预定义阀值的分裂,则给定子集的进一步划分将停止。测试组修剪法:在使用训练组样本产生新的分岔时,就立刻使用测试组样本去测试这个分岔规则是否能够再现,如果不能,就被视作过度拟合而被修剪掉,如果能够再现,则该分岔予以保留而继续向下分岔。2022/12/15(1)先剪枝方法22在先剪枝方法中,通过提前停止树的构造(例(2)后剪枝方法68后剪枝方法是由“完全生长”的树剪去分枝。通过删除节点的分枝,剪掉叶节点。案例数修剪是在产生完全生长的树后,根据最小案例数阀值,将案例数小于阀值的树节点剪掉。成本复杂性修剪法是当决策树成长完成后,演算法计算所有叶节点的总和错误率,然后计算去除某一叶节点后的总和错误率,当去除该叶节点的错误率降低或者不变时,则剪掉该节点。反之,保留。2022/12/15(2)后剪枝方法23后剪枝方法是由“完全生长”的树剪去分枝。应用案例:在农业中的应用2022/12/1569应用案例:在农业中的应用2022/12/1124第一步:属性离散化2022/12/1570第一步:属性离散化2022/12/1125第二步:概化(泛化)2022/12/1571第二步:概化(泛化)2022/12/1126第三步:计算各属性的期望信息2022/12/1572=(17/30)*LOG((17/30),2)+(10/30)*LOG((10/30),2)+(3/30)*LOG((3/30),2)第三步:计算各属性的期望信息2022/12/1127=(17计算各属性的信息增益2022/12/1573计算各属性的信息增益2022/12/1128第四步:决策树2022/12/1574第四步:决策树2022/12/1129案例2:银行违约率2022/12/1575案例2:银行违约率2022/12/11302022/12/15762022/12/1131案例3对电信客户的流失率分析2022/12/1577数据仓库条件属性类别属性客户是否流失案例3对电信客户的流失率分析2022/12/1132数据案例4:在银行中的应用2022/12/1578案例4:在银行中的应用202
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南平2025年福建南平市属医疗单位医疗类储备人才引进36人笔试历年参考题库附带答案详解
- 土地抵押合同范文二零二五年
- 婚姻忠诚协议认定二零二五年
- 工程机械运输合同范例
- 二零二五版出租汽车客运经营合同书
- 二零二五版公司内部股权转让简单协议范例
- 二零二五琴行教师聘用合同范文
- 水费承包合同二零二五年
- 元宵节讲解课件
- 2025上海民间个人借款合同书
- 2025届成都市2022级高中毕业班第二次诊断性检测语文试题及答案
- GB/T 18853-2015液压传动过滤器评定滤芯过滤性能的多次通过方法
- 1.1质点 参考系-【新教材】人教版(2019)高中物理必修第一册课件(共27张PPT)
- 艾滋病梅毒和乙肝母婴阻断知识知晓率调查问卷
- 99S203消防水泵接合器安装图集
- 平面控制点测量复核记录
- 中国胸痛中心认证标准(标准版、基层版)
- 《艺术学概论考研》课件艺术内涵的演变
- 三年级英语家长会发言稿15篇
- 光的折射(课堂PPT)
- 监控系统维护及方案
评论
0/150
提交评论