版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第第页基于分类规则的C4_5决策树改进算法_李孝伟
2013年12月第34卷第12期
计算机工程与设计
COMPUTERENGINEERINGANDDESIGN
Dec.2013
Vol.34No.12
基于分类规则的C4.5决策树改进算法
李孝伟,陈福才,李邵梅
()国家数字交换系统工程技术研究中心,河南郑州450002
4322
计算机工程与设计
2013年
样本策略,如:支持向量机的决策只与决策边界的支持向量有关,重点选择此类样本;C4.5决策树建树的重点是最优特征值样本的选取,在缩减样本提取分类规则时,则以样本是否能很好的反映类内特征取值的情况来进行取舍。缩减样本可以起到降低分类算法的计算代价,加快训练速
4]
,还能有效地精简训练集,度,避免出现“过拟合”现象[
去除相似、冗余、重复的信息以及噪声样本。此外,对于数据集不大的情况,由于C4.5对于初始训练样本的依赖性比较大,若初始训练样本不能很好地表征各特征的取值,可能使得训练结果不理想,此时若采用选择样本提取分类规则的策略,提取尽量最优的分类规则以提高训练精度对于C4.5决策树而言也具有重要意义。
5]
刘鹏等[根据决策树易产生碎片问题,提出了一种合
图1简单的决策树模型
1.1C4.5决策树的形成
假定训练数据集中包含m类别,分别为T={t1,,。训练数据集中某属性A可能有(,t...taa..a2,m}1,2,k),,共k种取值,根据属性A的划分为T′={t′t′...t′1,2,r}其他属性类似于属性A。根据训练集可得其理想划分的信息熵为
m
并分类效果差分枝的R-C4.5模型。该模型未设置连续属性
[]
一对多”处理和缺失值处理。KemalPolat等6将C4.5和“
分类模型相结合应用于多类分类问题,取得了很好的效果。
[]
HanJinti等7将C4.5和模糊数学相结合,提出了一种处-g8]理范围输入的方法。姚亚夫等[根据Fad连续值取值的yy
最佳分割点总在边界点处得原理,只在连续属性分界点处的少数几个分割点中选择最佳分割阈值,构造了C4.5分类器,一定程度上提升了C4.5处理连续属性的性能。周剑锋
9]等[提出了一种改进的信息熵的计算方法,通过减少计算10]
根据函数的复杂度,提高就决策树的构建速度。杨哲等[
H(T)=-∑p(tlotgi)2i)p(
i=1
m
)(1
(。其中p(t=i)i/i)∑i=1
以属性A对训练集划分获得的信息熵为
r
T′)=HA(
=
信息增益率的不确定性,采用Mantaras范式距离来度量属性划分与真实划分的距离,有效避免了增益率的不确定性。现有的改进算法在减少决策树的计算复杂度、特征的优化处理、增益率问题上都有很多的优化。但是对C4.5决策树的局部最优解、大数据处理的依赖主存问题和效率问题一直没有得到很好的解决。
基于上述问题,本文利用多次抽样选择最优分类规则并对C4.5决策树算法进行优化和改进,提出了基于分类规则的C4.5决策树改进算法。实验结果表明,利用改进后的算法处理小样本数据时正确率与C4.5算法相当;而在处理大样本数据的识别分类时,运算效率和精度的提高比较显著。
i=1r
t′)H(t′)∑p(
i
im
i
j
i
2
i=1
t′)t|t′)lot|t′)-∑p(gp(()∑p(
j
i
j=1
r
m
T′)=-∑∑p(t′tt′lott′HA(gi)i)2i)p(p(j|j|
i=1j=1
T|T′)=H(
其中p(t′′′∑i)=i/(i
i=1r
)(2
),p(t′i)=j|t
′t′i∩i。j/表示划分Ttt′′中属于t′i)i的样本,在理想划分p(j|中属于子集tj的概率。由此可得属性A对于训练集划分的信息增益为
HGT′)=H(T)T′)-HA(ain(
属性A的分割信息熵为
r
)(3
1C4.5决策树介绍
决策树作为传统的机器学习算法,其用于分类识别的主要步骤同其他分类算法一致,主要是:一是利用训练数据构建分类模型,二是利用建立的分类模型对待识别样本数据集进行分类。其中主要工作是第一步,对于决策树分类算法而言是建立用于分类的决策树模型。图1所示是一个简单的决策树分类模型,其主要功能是实现根据天气情况来决定是否去户外活动
。
H(T′)=-∑p(t′lot′gi)2i)p(
i=1
)(4
)、式()可得属性A的信息增益率为由式(34/atio(T′)=HGT′)H(T′)Rain(
=
())(
H(T′)
()5
同理可计算其他属性的信息增益率。通过计算所有属性的信息增益率,选出具有最大信息增益率值的属性作为决策树的根节点。然后,以同样的方法确定决策树各层的
第34卷第12期
李孝伟,陈福才,李邵梅:基于分类规则的C4.5决策树改进算法
4323
节点,计算方法同以上步骤。1.2C4.5决策树的剪枝
征对应的划分与理想划分之间的相似度。
C4.5采用的信息增益率如下
C4.5决策树的剪枝策略采用的是后剪枝的方法。后剪枝策略首先需要构造完整的决策树,允许决策树过度拟合训练数据,然后对那些置信度不够的子树节点用叶节点来替代。
C4.5决策树对ID3算法做了改进,取得了不错的效——局部最果。但是C4.5自身仍存在着决策树的共性问题—)可以看出,当分母为零时,分子必优解。此外,从式(5然为零,这时增益率的计算就出现了问题,这就是增益率带来的不确定性问题。大样本数据条件下,减小C4.5决策树的运算复杂度也是一个问题。
Ratio(T′)=
=
())(
HT′)H(T)H(T,T′)T′)(H(
HT′()10
)与式(比较式(910)可得:H(T′)=0时,H(T′,)不会出现式(910)的0∶0的情况,此时T)≠0,式(
可以解决增益率带来的不确定性问题。式(9)是由Mant-aras范式距离而得来的,故其能很好的表征两个划分之间的相似度。划分相似度方法能有效克服信息增益率方法的缺陷,算法的稳定性好,其构建的决策树规模更小,分类速度更快。
q
2基于分类规则选取的C4.5决策树改进算法
本文针对的主要是大样本条件下的分类识别和C4.5决策树与初始训练集相关性较大等问题。运用多次抽样选出最优分类规则,以缩减算法的运算复杂度,提高训练精度。在C4.5最优特征选择上以划分相似度作为选择标准。2.1最优特征选择
由熵函数的上凸性及詹森不等式有:
q
i=1q
ogy∑pl
i
i
≤
looggii,在计算信息熵的时候,由于lii计算yy∑p∑p
i=1
i=1
q
q
结果与looggii的计算结果相差不大,用lii来yy∑p∑p
i=1
i=1
q
近似代替
本文对Mantaras范式距离进行相应的简化,以减少算法的复杂度和时间消耗。Mantaras范式距离是在各特征中选择与类别划分距离最近的特征作为当前节点的测试条件,用最短距离划分的办法来构建决策树。根据样本集T的理,想划分T={和以属性A作为测试条件所得tt...t1,2,m},,则划分T的划分T′={t′t′...t′′对于理想划分T1,2,r}的条件熵可以由式(2)得到。而理想划分T对于划分T′的条件熵为
m
r
i=1
ogy∑pl
i
i
。这样式()可以简化为9
())(
d(T′,T)=
H(T′,T)
m
2
r
2lotot′+lgg2i)2i)p(p(∑∑i=1i=1
≈-
HT′Tm
2
r
2
lott′g2i)i)p(p(()∑∑i=1i=1
(,)dT′T≈-
HT′T()11
)将多次对数运算简化为一次,在一定程度上式(11减小C4.5决策树建树的复杂度。2.2分类规则的选取
)/)(6H(T′|T)=-∑∑p(t′tlot′ttgi,2(i,p(p(j)j)j)
j=1i=1
划分T′与理想划分T的联合熵为
m
r
本文采用的样本选择方法主要是多次提取样本进行决
)(7
策树的拟合,生成相对较优的决策树,将较大量的样本通过随机有放回的抽样,生成多个训练集,利用这些训练集的训练结果回溯生成最优的分类规则。
具体步骤如下:
第一步,对给定的数据集选择合适的训练样本数据,选择的标准是综合考虑训练时间和迭代次数。如果选择的的数据较小,会造成较多的迭代次数,否则会造成较多的训练时间。
第二步,针对选定的训练样本,通过实验确定抽样迭代次数L,理论上L越大越好,但L越大,处理时间也会
H(T′,T)=-∑∑p(t′tlot′tgi,2i,p(j)j)
j=1i=1
因此,划分Tantaras范式距离为′与理想划分T的M
())(
D(T′,T)=
HT′T)+H(),得到=H(T|T′T′
()8
由熵的强可加性,即H(T′,T)=H(T′|T)+H(T)
(,)),))(((
D(T′,T)=HT′T
=2-
令
())(
HT′T())(
d(T′,T)=
HT′T()9
随之增加,L值的确定依据是当L增加时,对训练样本的精度提升不再产生影响或是影响很小。
第三步,针对L次训练结果产生的L个决策树形成的
定义1划分相似度d(T′,T)。划分相似度表示为特
4324
计算机工程与设计
2013年
分类规则进行离散取值特征和连续取值特征的处理。具体方法如下:
对于离散数值特征:统计L个规则内,各个取值出现的次数,选取出现次数多的作为新规则内该类别此特征的取值,以此方法建立此类特征的特征取值空间。
对于连续取值特征:每一类的连续取值特征都有相应的区间上限和下限,选取L次规则内的全部上限和下限的算术平均作为新规则内该类别特征的取值上限和下限。
通过上述过程,每迭代一次,形成一个决策树的分类规则,相应的每一类别都对应其具体的特征取值,最优的分类规则则是通过多次建树形成的分类规则回溯得到,通过最优的分类规则可以建立最优的决策树。2.3剪枝策略
回归、聚类、关联规则等多种机器学习算法,并能够实现交互式界面上的可视化。
本文选用UCI机器学习数据库(machinelearninre-g)中的N、M、BositorurserDatabaseaic04、Letterankpyyg、PMarketinostureReconstruction等5个数据集来进行实g验。选择的数据集特征维数都不高,便于运用C4.5算法。各个数据集的大小和特征情况见表1。
表1数据集样本个数和特征个数
数据集NurserDatabasey
Maic04gLetterBankMarketingPostureReconstruction
样本12,96019,02020,00048,842164,860
特征81117148
训练集6,4809,51010,00020,00050,000
本文拟采取的剪枝策略与CART算法类似。首先让决策树充分的生长,使得叶节点有最小的不纯度为止,然后,对所有相邻的成对叶节点,考虑是否消去他们。标准是如果消去他们使得不纯度增加的很小,就执行消去。这里的不纯度采用Gini不纯度,多类分类问题的不纯度定义为
3.2实验结果及分析
本文实验采用的硬件环境是:CPUCore2P9600,内存42.66G.G,硬盘500G,Window7操作系统。实验首先采用不同的抽样次数来确定最终的抽样次数。然后在选定抽样次数下于C4.5算法进行比较。
图2为数据集BankMarketing不同抽样次数的正确率对比。由图中可以看出在抽样次数比较少的情况下,本文算法不如C4.5算法。随着抽样次数的增加,本文算法的优势逐渐体现出来,当抽样次数增加到一定数值时,算法的性能也趋于平稳。由图中可以看出,当抽样次数为12和15时,算法性能差别很小,故选择12为最终抽样次数
。
imN)=p(
w)P(w)=1-∑P∑P(
i
j
ij≠
j
2
)(12wj)(
其中P(是节点N处属于wwj)j类样本数占总样本数的比例。显然如果所有样本都属于一类,则不纯度为0,否则就是一个大于0的正值。
2.4基于分类规则选取的C4.5决策树改进算法
本文提出的基于分类规则选取的C4.5决策树改进算法(imrovedC4.5decisiontreealorithmbasedonclassifica-pg,),在训练阶段以第一节提出分tionrulesselectionCRC4.5类规则选取策略,在构建决策树选取最优特征上以第二节提出的划分相似度为基础建立C4.5决策树。具体算法流程如下:
()运用划分相似度对训练样本各特征进行排序,选1
择有最大划分相似度的特征作为根节点,以后节点以此类推;
()选定训练样本数目,并对对样本进行有放回的多2
次抽样,运用划分相似度训练分类规则,取多次抽样下分类规则中最优的特征值回溯作为最终分类规则;
)根据最优的分类规则建立最优的决策树,并对测(3
试集进行测试,最后输出分类模型。
3实验及分析
3.1实验平台和数据集介绍
图2不同抽样次数下算法性能比较
经过实验,各数据集下训练集样本迭代次数见表2。C4.5算法和本文算法的模型建立时间和分类正确率对比如图3、图4所示。其中,C4.5采用多次次迭代交叉验证的方法。
本文采用Weka平台对改进的算法和C4.5算法进行对比测试。Weka是由新西兰大学Witten教授等人基于Java编程开发的开源工作平台,它集合了包括对数据进行分类、
第34卷第12期
李孝伟,陈福才,李邵梅:基于分类规则的C4.5决策树改进算法
4325
表2不同数据集抽样次数
数据集NurserDatabasey
Maic04gLetterBankMarketingPostureReconstruction
抽样次数
8810122
0
练集相关性大以及信息增益率带来的不确定问题,提出了基于分类规则选取的C4.5决策树改进算法。分类规则选取上以多次抽样训练的分类规则为基础形成最优分类规则,实验表明在选取的最优分类规则下测试的精度同未进行分类规则选择的训练集测试精度有明显提升。对于大样本而言,训练时间也有明显的缩短。在C4.5决策树的特征选择上以提出的划分相似度为基准,克服了信息增益率的不稳定性,并且依据熵函数的上凸性,简化了熵的运算,也带来了运算量的减少。目前,本文提出的分类规则选取策略针对分类规则较复杂的情况还没有进一步的论证实验;此外划分相似度的优越性还缺乏有效的理论证明,这些都需要进一步的研究。
[]H,7anJintiGuYuia.Studonhandinraninutsmethodsongjyggp
/C4.5alorithm[C]/ComuterScienceechnoloandA-T-gpgyp,lications2009:4749.-p
[]YAO8Yafu,XINGLiutao.ImrovementofC4.5decisiontreep
continuousattributessementationthresholdalorithmanditsgg]alication[J.JournalofCentralSouthUniversitofTech-ppy):)姚亚夫,刑nolo2011,42(1237723776(inChinese.[-gy,]留涛.决策树C4.5连续属性分割阈值算法改进及其应用[J.):]中南大学学报,2011,42(1237723776.-
4结束语
本文是基于C4.5决策树在处理较大样本的不足、与训
(下转第4330页)
4330
计算机工程与设计
2013年
()万燕,刘伟.基于低质量图片的两级车牌字inChinese.[]:符识别算法[J.计算机应用与软件,2012,29(11)281]284.-
[,GAO12]YANGLunbiaoYini.Princileandalicationofgyppp
:fuzzmathematics[M].GuanzhouSouthChinaUniversitygy,2)杨纶标,ofTechnoloPress006:3940(inChinese.[-gy高英仪.模糊数学原理及应用[M].广州:华南理工大学出]版社,2006:3940.-
[]QU,,,13FuhenCUIGuancaiLIYanfanetal.Fuzzcluste-gggy
:Nrinalorithmanditsalication[M].HunanationalDe-ggpp
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 04版工程监理合同条款
- 药用酸市场发展预测和趋势分析
- 2024年度环保型农药研发与生产销售合同
- 纸制餐桌用布市场分析及投资价值研究报告
- 2024年度洁具行业标准制定合同
- 2024年度环境污染防治技术服务合同
- 车轮毂市场需求与消费特点分析
- 牙用植入物市场需求与消费特点分析
- 手提箱市场发展现状调查及供需格局分析预测报告
- 2024年度医疗器械研发合作租赁合同
- 乙醚MSDS危险化学品安全技术说明书
- 柿单宁功能成效及其产品介绍综述
- 二手新能源汽车充电安全承诺书
- 缺铁性贫血 图文 优质课件
- 二0二三年度四年级上册Module9杨凤英Whathappenedtoyourhead教学设计
- 我的故乡-德江课件
- 《Treasure Island金银岛》课外阅读教学中的主题意义探究
- 初中数学北师大七年级下册(2023年新编) 三角形全等三角形基本模型之一线三等角教学设计
- 生活区、办公区验收表
- GB∕T 37138-2018 电力信息系统安全等级保护实施指南
- 化工生产装置开工方案资料
评论
0/150
提交评论