C0决策树之ID3C5C0算法_第1页
C0决策树之ID3C5C0算法_第2页
C0决策树之ID3C5C0算法_第3页
C0决策树之ID3C5C0算法_第4页
C0决策树之ID3C5C0算法_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、C5.0决策树之ID3、C4.5、C5.0算法、起源最早的决策树算法起源于CLS(ConceptLearningSystem)系统,即概念学习系统。它是最早的决策树算法,为今后的许多决策树算法提供了借鉴。口决策树模型,通过对训练样本的学习,建立分类规则;依据分类规则,实现对新样本的分类;属于有指导(监督)式的学习方法,有两类变量:目标变量(输出变量),属性变量(输入变量)。决策树模型与一般统计分类模型的主要区别:决策树的分类是基于逻辑的,一般统计分类模型是基于非逻辑的。1、常见决策树常见的算法有CHAID、CART、Quest和C5.0。 对于每一个决策要求分成的组之间的“差异”最大。各种决策

2、树算法之间的主要区别就是对这个“差异”衡量方式的区别。决策树很擅长处理非数值型数据,这与神经网络智能处理数值型数据比较而言,就免去了很多数据预处理工作。口二、原理一一如何制定节点口1、信息嫡(Entropy)信息量的数学期望,是心愿发出信息前的平均不确定性,也称先验嫡。决策属性的Entropy(嫡):2、信息增益例如outlook里面有三个属性sunny、OverCas、Rain,每个属性在决策属性中,sunny有2个yes,3个no。outlook信息增益:=0.940286-5/14*0.97095-0-5/14*0.97095=0.24675以下其他属性同理。Outlook=0.2467

3、5我们看到Outlook的信息增益是最大的,所以作为决策树的一个根节点。即:然后,从Outlook下面出来三个树枝,最左边的Sunny,我们从Outlook是Sunny的实例数据中,找到信息增益最大的那一个,依次类推。3、分离信息(SplitInformation)数据集通过条件属性A的分离信息。分离信息的计算方法,数学符号表达式为:数据集通过Outlook这个条件属性的分离信息,Outlook有三个属性值分别为:Sunny,Overcast,Rain,它们各占5,4,5,所以:4、信息增益率(Informationgainratio)数学符号表达式数据集S针对Outlook的信息增益率,分子

4、和分母这两个值都已经求出来,选择信息增益率最大的那个属性,作为节点。5、剪枝剪枝一般分两种方法:先剪枝和后剪枝。(1)先剪枝先剪枝方法中通过提前停止树的构造(比如决定在某个节点不再分裂或划分训练元组的子集)而对树剪枝。先剪枝有很多方法,比如(1)当决策树达到一定的高度就停止决策树的生长;(2)到达此节点的实例具有相同的特征向量,而不必一定属于同一类,也可以停止生长(3)到达此节点的实例个数小于某个阈值的时候也可以停止树的生长,不足之处是不能处理那些数据量比较小的特殊情况(4)计算每次扩展对系统性能的增益,如果小于某个阈值就可以让它停止生长。先剪枝有个缺点就是视野效果问题,也就是说在相同的标准下

5、, 也许当前扩展不能满足要求, 但更进一步扩展又能满足要求。这样会过早停止决策树的生长。(2)后剪枝它由完全成长的树剪去子树而形成。通过删除节点的分枝并用树叶来替换它。树叶一般用子树中最频繁的类别来标记。(3)悲观剪枝法使用训练集生成决策树又用它来进行剪枝,不需要独立的剪枝集。悲观剪枝法的基本思路是:设训练集生成的决策树是T,用T来分类训练集中的N的元组,设K为到达某个叶子节点的元组个数,其中分类错误地个数为J由于树T是由训练集生成的,是适合训练集的,因此J/K不能可信地估计错误率。三、ID3、C4,5、C5.0对比四、五种决策算法的比较口通过十七个公开数据集,对比FS-DT、Yuans、FD

6、T、C4.5、FuzzyID3、CART五种决策树方法。1、准确率比较CD值,临界差值,在Nemenyi检验和Tukey检验方法两种检验方法用差异时可以用CD值来衡量。得分越低,表示相应的算法的准确率越高。FuzzyID3比FS-DT表现优秀。2、叶子节点比较普遍看来,CART和FS-DT两种算法的叶子节点数目比较少。比较三种模糊决策树,FS-DT、YuansFDTFuzzyID3,FS-DT算法节点比较少。3、相似性比较关于相似性,一种观点认为两种分类器的分类准确率相同,则它们具有较高的相似度;另一方面,即两种分类器讲相同的样本分到了同一类,则相似度较高。大部分两次实验的相似度能达到以上,但

7、有些实验的相似度只有,如应用于第二类五次实验的相似度。下面分析具体是哪种原因导致上面的问题。对于C4.5应用于Iris数据集,第二类的相似度中存在只有50%的相似度问题,对比算法在第二类的相似度,全部高于90%,这说明分类器的选取没有问题。问题可能存在于Iris数据集中第二类的数据中,这一类数据集分布不集中,导致了分类难度的增加。(欢迎加好友,一起学习哟沅)决策树之ID3、C45C5.0等五大算法1、常睨策树一2.聚类分析.判别分析、分类树的区别3二.aa-50何般节点口41 .信(Entropy)42、信息增益43 ,分离信息(SplitInformation)64、信益率(Informat

8、iongainratio)65、7三.ID3.85.C5.0对比x四.五种决策再好晒。91,)胧,2、叶子节点比较103、相似性比较1C5.0决策树之ID3、C4.5、C5.0算法一、起源最早的决策树期去起源于CLS(ConceptLearningSystem)系统即慨念学习系统.它是最早的决策树道法,为今后的许多决策树苜:却是锁了借鉴.1决策树模型,通过对训练样本的学习,建立分类规则;依据分类规则,实现对新样本的分类;属于有指导(监督)式的学习方法,有两类变量:目标变量(绘出变量),属性变量(输入变)决策物模型与一械计分类模型的主要区别:决策棚的分类是基于逻辑的,一般统计分类模型是基于非遗根

9、的.1、常见决策树常见的算法有CHAID.CART.Quest和C5.0.对于每一个决策要求分成的组之间的差异.最大.各种决策树富去之间的主要区别就是对这个“差异”衡量方式的区别.决策例很擅长处理数值型数据.这与神经网络智I纽理数值型数据比较而言,就免去了很多数据预处理工作.23 3CHA1DCHA1D卡方向动交互检. .( (Chi-squaredChi-squaredAutomaticInteraAutomaticInteractionction) )1 1、计算节点中类别的pBpB根JBpJBp值的大次定决策树是否生长林要修瞥(与前两部JEWJEW2 2、CHAIDCHAID只能处理类别

10、型的检入变,因此连续型的输入变首先娈进行福敬处理而日惊变量可以定8E8E或定类3、可产生多分校的决策树4 4、从统计显若性角度确定分支变)分部S,S,进而优化树的分校过程5.5.律立在因果关系探讨中,依据目标变实现对谕入变众多水平划分CARTCART】.节点采用二分法(与C4.5C4.5最大的区别,c45c45可以有很多分支);用GiniRatioGiniRatio山李旭五料决策MEME即勺比较研究.大连理JR.20JR.20”作为箭指标,如果分散指标程度很息的说明蛔T T很多类别.Z Z推理过程完全依据 M 住变的取值特点 (与C50C50不同,C&RTC&RT的福出字段氏可

11、以是数值型,也可以是分类型)3.3.目株是混变为分类府,若目皆受是定距变,,剜为回归闺QuestQuest1.1.运算过程比CR&TCR&T更面单有效2 2预测变可以是数字范图的,但目标虹必须是分类的.3 3、QUESTQUEST节点可强供用于构建决策用的二元分类法,此方法的设计目的是设少大盘C&RC&R决策树分析所需的处理时间C5.0C5.0执行效率和内存使用改进、适用大数据集Fuzzy1D3Fuzzy1D3模期算法*定期却对展模W WW W去首先对连续屈性进行模糊化过程然后f f惘模程簸合的势计算模种信自、 增捻从而选择分裂H H性.模琳克服了不能处理连续H

12、 H性的8686点.但是模班5m5m都不能处理缺失属性值.FSDTFSDT及去FSFS DTDT是SUQSUQ般捌榭化 M 法,它不是先对连续及性迸行慢吸它对数据的1ft1ft网化锲是在建的过程中完礴由GimindexGimindex脸分察届性及分裂点后对数据的模糊化开始Yuan,sFDTWYuan,sFDTW法用分类不i i定度作为选择届1W1W方法在建树过程中,某个扃性使杼尔杯定性达到最小则闻曲(来作为分裂属性SpintSpint旅去对SL1QJESL1QJE翔砌, 对于大致据组采取类表、 属性费M M类直方的三阳嫂监怛JKJK演迸行了修改删除其它两类结构,只省下属性列委屈性列表的衽行包含

13、属性值、K K分类参数类型分类规则修剪规则C4.5分类参数信息量NodeerrorrateCHAID分类参数卡方分配无CART连续参数分类参数GlniratioEntireerrorrate2.2.聚类分析,判别分析.分类树的区别是否需要数据类别是否可以将数据分类可以输出分类规则聚类分析RjlU不能团李旭五种决策树货法的比较研究大连理工大学.2011判别分析襁分类树. .二、原理如何制定节点4DayOutlookTemperatureIhnniditvwWindPlavTcmiisOrD1SunnyHotHighWeakNoD2SunnvHotHighStrongNoD3OvercastHot

14、HighVg2(2)一!K2(g)0.97095outlook信息tfi益:GainSOuUook)=Entvopy(S)GainSOuUook)=Entvopy(S)EntropySunny)EntropySunny)EntropyOvcrca8t)EntropyOvcrca8t)141414145,5,,、Entropy(Rain)Entropy(Rain)=0.940286-5/14*0.97095-0-5/14-097095=0.24675以下其他属性同理.Outlook=0.24675Gatn(S,Gatn(S,Temperature)Temperature)=0.029=0.029

15、OuiiSIIwnidily)=OuiiSIIwnidily)=0.151GainS.Wind)GainS.Wind)=0.048=0.048我们看到Outlook的信息增益是最大的,所以作为决策树的一个根节点.即:EntropyEntropy(丫 82,82,No3)No3)= =一沁一加0097095击图6)_泊0然后,从Outlook下面出来三个树枝,最左边的Sunny,我们从Outlook是Sunny的实例数据中,找到信息增益最大的那一个,依次绳隹.3. .分离信息(SplitInformationSplitInformation) )数里集通过条件属性A的分葡信息.分寓信息的计算方;

16、去,数学符号表达式为Split!nformation(S.A)Split!nformation(S.A)数据集通过Outlook这个条件属性的分离信息,Outlook有三个属性值分别为:Sunny.OvercastRain,它们各占545.所以:554455Spliilnformation(S.Outlook)Spliilnformation(S.Outlook)= =-Jog2-log2-log?1414141414144. .信息ifiifi益率(Informationgainratio)Informationgainratio)数学符号表达式:数据集S针对Outlook的信息增益率.Ga

17、inHatio(S.A)=GainHatio(S.A)=Splitnfo7nation(SA)Splitnfo7nation(SA)c c. .cqcq /ccx/ccxGain(SOutlookGain(SOutlookGainRatio(SOutlook=GainRatio(SOutlook=;SplitInformaiionSOutlook)SplitInformaiionSOutlook)分子和分母这两个值都已经求出来.选择信息增益率最大的那个属性,作为节点.5.剪枝防枝一般分两种方法:先由枝和后的枝.(1)先剪枝先剪枝方法中通国!前停止辎构遇比如决定在某个节点不再分裂或划例I舔元组的

18、子集)而对伪剪枝.先剪枝有很多方法,比如(1)当决策为达到一定的高度就停止决策何的生长;(2)到达此节点的实例具有相同的特征向员,而不必一定属于同一类,也可以停止生长(3)51J达此节点的实例个数小于某个阈值的时候也可以停止螂生长不足之处是不能处理1悭数据早比较小的特殊情况(4)计算每次扩展对系统性蝴增益.如果小于某个阈值就可以让它停止生长.先剪枝有个缺点就是视野效果问题,也就是说在相同的标准下.也许当前扩展不肯桀足要求,但更进一步犷展又能满足要求.这样会过早停止决策树的生长.(2)后剪枝它由完全成长的树剪去子树而形戊通过副除节点 fi 吩枝并用树叶来替换它.树叶TS用子树中最顺繁的类别来标记

19、.(3)悲观剪枝法使用训练较生成决策树又用它来进行剪枝,不需要独立的剪枝集.悲观剪技法的基本思路是: 设训练集生成的决策的是T,用T来分类训练集中的N的元组,设K为到达某个叶子节幽元组个数,其中分类错误地个数为J.由于树T是由训练笑生成的,是适合训练集的,因此K不能可信地怙出腿率.所以用(J*0.5)/K来表示.设S为T的子阴,其叶节点个数为L(s),NAJ为到达此子俯的叶节点的元组个数总和,红J为此子树中被借误分类的元组个数之和.在分类新的元组时,则其倡误分类个数为(八Ex(N-E)一se()=JZM(S)/2|叫钎为.NN当田时替,且S的子何不必再计J竽)田(2 竽)1三、ID3、C4.5

20、、C5。对比2323算法C4.5C5.01D31D3是非通塔索去,单变决策树(在分校节点上只考虑单个属性)只考虑属慢变量是国歌型1 1 . .在构造蜘闻程中, 需要对击据班行多海顺序扫描和琲序,因而导致 M 撤低效2 2、C4.5C4.5只造合于能够驻苗于内行的粉战,当机雕集大得无法在内存容纳时程序荒璋行利分类训练集时,设E为分类错误个数,当下面的式子时则删掉子树S,用叶节点代】、用性变量可以是连续型的在的拘遗过程中进行剪枝L L应用于大数据集上的分类算法,壬要在执行效率和内存使用方面进行了改ifiifi2 2、 和发入字段很多的问题时3 3帝潞便3 3、提供强大技术以提分荚的皓度4 4、 比

21、 T 其他类空的模慑片于理解根盘这出的规则有非常观的解呻节点选择信息培益母大信息增备率大Boosting3;提高腹 型 准 礴 率 , 又 称 为BoostingTrees,在软件上H舞速度比较快,占用的内存负祗少C4.5克用悲观的技法.它练集生党第的又用它采进行剪枝,要独立的药技隹.四、五种决策算法的比较通过十七个公开数据集.对比FS-DT、Yuans.FDT.C4.5、FuzzyID3.CARTS种决策树方法.1、准确率比较.CD=L3343,32;?.?严.FSDT寸IFUZTJID3Yuan*MHCARTC4.5M4.3冗肿决仅四分类缪的准砒率比收Fij.4.3Comparisonof

22、accuracyoffiveclassifiersCD值,临界差值,在Nemenyi检验和Tukey检验方法两种检验方法用差异时可以用CD值来衡SL得分越低,表示相应的算法的准确率越高.Fuzzy1D3比FSQT表现优秀.I”小门学数据.http:小vuNenbiogweooVyu、4ng,DaUAn心sis/archnc/lUl1/1W12/22U5742html网李旭五种决策树翔瑜比较研究D.大连理工大聿2011.2.叶子节点比较&I.H分类冬叫户口点tnitttnitt以Tab.Tab.4848ComparisonofleafnodesoffixedecisiontreesComparisonofleafnodesoffixedecisiontreesDaosetDaosetC4.5C4.5CARTCARTFuzzyID3FuzzyID3FSDIFSDIYuansFDTYuansFDTAutoAuto31.231.2250250124124li.2li.212.012.0BalanceBalance52.452.4m m9.29.27S7S10.610.6BreastBreast4.04.01.01.03S.43S.4IJ.2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论