C45算法生成决策树的研究_第1页
C45算法生成决策树的研究_第2页
C45算法生成决策树的研究_第3页
C45算法生成决策树的研究_第4页
C45算法生成决策树的研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 5/5C4.5算法生成决策树1、基础知识当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以称之为“大熵法”最大熵法在数学形式上很漂亮,但是实现起来比较复杂,但把它运用于金融领域的诱惑也比较大,比如说决定股票涨落的因素可能有几十甚至上百种,而最大熵方法恰恰能找到一个同时满足成千上万种不同条件的模型。目前,针针对分类类问题已已有了若若干不同同领域方方法的算算法,例例如统计计学、机机器学习习、神经经网络和和粗糙集集理论等等。其中中从机器器学习中中引出的的决

2、策树树方法是是一种较较为通用用并被深深入研究究的分类类方法,由于决决策树分分类算法法是一种种直观快快速的分分类方法法,它的的分类过过程不需需要背景景知识、并且清清晰、易易于理解解,因此此有很大大的实用用价值。目前已已经形成成了多种种决策树树算法。如CLLS、IID3、CHAAID、CARRT、FFACTT、C44.5、Ginni、SSEE55、SLLIQ、SPRRINTT等。在决策树树分类算算法中,最常用用的、最最经典的的是C44.5算算法,它它继承了了ID33算法的的优点并并对IDD3算法法进行了了改进和和补充。C4.5算法法采用信信息增益益率作为为选择分分支属性性的标准准,克服服了IDD3

3、算法法中信息息增益选选择属性性时偏向向选择取取值多的的属性的的不足,并能够够完成对对连续属属性离散散化的处处理,还还能够对对不完整整数据进进行处理理。根据据分割方方法的不不同,目目前决策策的算法法可以分分为两类类:基于于信息论论(Innforrmattionn Thheorry)的的方法和和最小GGINII指标(Lowwestt GIINI inddex)方法。对应前前者的算算法有IID3、C4.5,后后者的有有CARRT、SSLIQQ和SPPRINNT。C4.55算法是是以信息息论为基基础,以以信息熵熵和信息息增益度度为衡量量标准,从而实实现对数数据的归归纳分类类。2、算法法以下图数数据为例

4、例,介绍用用C4.5建立立决策树树的算法法。表1室外温度度室内温度度室外湿度度风力大小小机房楼层层机房朝向向(0:阴,11:阳)机房开启启设备总总额定功功率(千千瓦)2317654105002417622214502718603-103002419583203002518522114502618505-115003019452214502818433104502718483-10500291840410500ID3算算法最初初假定属属性都是是离散值值,但在在实际应应用中,很多属属性值都都是连续续的。CC4.55对IDD3不能能处理连连续型属属性的缺缺点进行行了改进进。如果果存在连连续型的的描述

5、性性属性,首先将将连续型型属性的的值分成成不同的的区间,即“离散化化”。对上表中中将实际际耗电量量分为110个区区间(009)(30003220,33203400,34403360,36003880,33804000,40004420,42004440,44404600,46604480,48005000)因为最终终是要得得到实际际的耗电电量区间间,因此此“实际耗耗电量”属于“类别属属性”。“室外温温度”、“室内温温度”、“室外湿湿度”、“风力大大小”、“机房楼楼层”、“机房朝朝向”、“机房开开启设备备总额定定功率”属于“非类别别属性”。表2室外温度度室内温度度室外湿度度风力大小小机房楼层层机

6、房朝向向(0:阴,11:阳)机房开启启设备总总额定功功率(千千瓦)实际耗电电量(区间)231765410500524176222145072718603-103000241958320300025185221145052618505-115004301945221450928184331045062718483-1050052918404105007非类别属属性类别属性性通过表22知,实实际耗电电量区间间的个数数为:表3序号区间值个数102241353461572691总计10定义1:若存在在n个相相同概率率的消息息(Maassaage),则每每个消息息的概率率p是11/n,一个消消息传递递的

7、信息息量为。若有116个事事件,则则,则需需4个比比特来代代表一个个消息。例如:表表3中,区间为为0的信信息量为为:=33.3222定义2:若给定定的概率率分布,则由该该分布传传递的信信息量称称为P的的熵。即即注意:概概率分布布越均匀匀,其信信息量越越大)。定义3:若一个个记录的的集合TT根据类类别属性性的值被被分成互互相独立立的类则则识别TT的一个个元素所所属哪个个类所需需要的信信息量是是,其中中P是的的概率分分布,即即例如:表表3中,得到实实际耗电电量区间间的信息息量为(以下单单位为比比特,下下同):=2.4446定义4:若我们们先根据据非类别别属性XX的值将将T分成成集合,则确定定T中一

8、一个元素素类的信信息量可可通过确确定的加加权平均均值来得得到,即即Inffo()的加权权平均值值为:例如:属属性“室内温温度”的值有有“17、18、19”,分类类见下表表:表4序号室内温度度个数所属的区区间(个个数11725(1)7(1)21860(1)4(1)5(2)6(1)7(1)31920(1)9(1)总计10P(177)=(1/22,1/2)P(188)=(1/66,1/6,22/6,1/66,1/6)P(199)=(1/22,1/2)则每个温温度的信信息量为为:=1.0000=2.2252=1.0000=1.7751定义5:将增益益Gaiin(XX,T)定义为为:。所谓增增益,就就是

9、指在在应用了了某一测测试之后后,其对对应的可可能性丰丰富程度度下降,不确定定性减小小,这个个减小的的幅度就就是增益益,其实实质上对对应着分分类带来来的好处处)。 上式的增增益值为为:=22.4446-11.7551=00.6995以上是IID3计计算信息息增益的的方法,C4.5算法法对此进进行了改改进。CC4.55算法采采用信息息增益率率作为选选择分支支属性的的标准,克服了了ID33算法中中信息增增益选择择属性时时偏向选选择取值值多的属属性的不不足。若若我们一一个属性性D,据据其取值值将T分分成集合合T1、T2Tnn,当每每一个集集合中所所有记录录得出的的结果相相同,即即同时取取值为“是”或“

10、否”时,IInfoo(D,T) 为0,此时增增益Gaain(D,TT)取最最大值。因此用增益益比值来来代替,即:由于T是是以类型型属性DD的值为为基准进进行的分分割,故故SpllitIInfoo(D,T) 是信息息量。举例:根根据表44,得到到:=1.3371,则0.6955/1.3711=0.5077可利用函函数Gaain的的定义将将属性进进行排列列,并可可构造一一棵决策策树,其其中每一一个节点点都是属属性中具具有最大大增益的的属性,从而不不必考虑虑来自于于根的路路径。3、选择择连续变变量的阈阈值(测测试条件件)到连续数数据的分分支的阈阈值点如如何确定定呢?很很简单,把需要要处理的的样本(对

11、应根根节点)或样本本子集(对应子子树)按按照连续续变量的的大小从从小到大大进行排排序,假假设该属属性对应应的不同同的属性性值一共共有N个个,那么么总共有有N-11个可能能的候选选分割阈阈值点,每个候候选的分分割阈值值点的值值为上述述排序后后的属性性值链表表中两两两前后连连续元素素的中点点,那么么我们的的任务就就是从这这个N-1个候候选分割割阈值点点中选出出一个,使得前前面提到到的信息息论标准准最大。在EXXCELL中,对对室外温温度(第第二步)详细介介绍了如如何分割割阈值点点并进行行计算。4、树的的终止树的建立立实际上上是一个个递归过过程,那么这这个递归归什么时时候到达达终止条条件退出出递归呢

12、呢?有两种种方式,第一种种方式是是如果某某一节点点的分支支所覆盖盖的样本本都属于于同一类类的时候候,那么递递归就可可以终止止,该分支支就会产产生一个个叶子节节点。还有一一种方式式就是,如果某某一分支支覆盖的的样本的的个数如如果小于于一个阈阈值,那那么也可可产生叶叶子节点点,从而而终止建建立树。我们只只考虑二二叉分割割的情况况,因为为这样生生成的树树的准确确度更高高。5、树的的修剪树一旦生生成后,便进入入第二阶阶段修剪阶阶段。决决策树为为什么要要剪枝?原因就就是避免免决策树树“过拟合合”样本。前面的的算法生生成的决决策树非非常的详详细而庞庞大,每每个属性性都被详详细地加加以考虑虑,决策策树的树树

13、叶节点点所覆盖盖的训练练样本都都是“纯”的。因因此用这这个决策策树来对对训练样样本进行行分类的的话,你你会发现现对于训训练样本本而言,这个树树表现堪堪称完美美,它可可以1000%完完美正确确得对训训练样本本集中的的样本进进行分类类(因为为决策树树本身就就是1000%完完美拟合合训练样样本的产产物)。但是,这会带带来一个个问题,如果训训练样本本中包含含了一些些错误,按照前前面的算算法,这这些错误误也会1100%一点不不留得被被决策树树学习了了,这就就是“过拟合合”。C44.5的的缔造者者昆兰教教授很早早就发现现了这个个问题,他做过一个个试验,在某一一个数据据集中,过拟合合的决策策树的错错误率比比一个经经过简化化了的决决策树的的错误率率要高。目前决策策树的修修剪的策策略有三三种:基基于代价价复杂度度的修剪剪(Coost-Commpleexitty PPrunningg)、悲悲观修剪剪(Peessiimissticc Prruniing)和MDDL(MMiniimumm Deescrripttionn Leengtth)修修剪。基基于代价价复杂度度的修剪剪使用了了独立的的样本集集用于修修剪,即即与用于于树的构构建过程程中使用用的样本本集

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论