大数据挖掘与应用-第7章-随机森林分类算法_第1页
大数据挖掘与应用-第7章-随机森林分类算法_第2页
大数据挖掘与应用-第7章-随机森林分类算法_第3页
大数据挖掘与应用-第7章-随机森林分类算法_第4页
大数据挖掘与应用-第7章-随机森林分类算法_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章随机森林分类算法由于传统的很多分类方法具有精度不高且容易出现过拟合的问题,因此可以通过聚集多个模型的方法来提高预测精度,这种方法称为组合(ensemble)或分类器组合(classifiercombination)方法。该类方法首先利用训练集数据构建一组基本的分类模型(baseclassifier),然后通过对每个基分类模型的预测值进行投票(因变量为分类或离散变量时)或取平均值(因变量为连续数值变量)来决定最终预测值。7.1随机森林算法原理7.1.1随机森林算法原理为了生成这些组合模型,通常要生成随机向量来控制组合中每个决策树的生成。Bagging是早期组合树方法之一,这是一种从训练集中随机抽取部分样本来生成决策树的方法,还有一种方法是随机分割选取,该方法在每个结点从K个最优分割中随机选取一种分割。Ho对随机子空间方法进行了深入研究并通过对特征变量随机选取子集来生成每棵决策树。LeoBreiman和AdeleCutler给出了随机森林(RadomForest,RF)算法,该方法是结合了自助聚集(Bootstrapaggregating)想法和Ho的随机子空间(randomsubspace)方法以建造决策树的集合。

7.2随机森林算法的特点及应用7.2.1随机森林算法的特点大量的理论和实证研究都证明了RF具有很高的预测准确率,对异常值和噪声具有很好的容忍度,且不容易出现过拟合。可以说,RF是一种自然的非线性建模工具。随机森林的优点有:1.对于很多种资料,它可以产生高准确度的分类器。2.它可以处理大量的输入变量。3.它可以在决定类别时评估变量的重要性。4.在建造森林时它可以在内部对于一般化后的误差产生不偏差的估计。5.它可以估计遗失的资料,并且如果有很大一部分的资料遗失,仍可以维持准确度。6.对于不平衡的分类资料集来说,它可以平衡误差。7.它计算各例中的亲近度,对异常检测和资料视觉化非常有用。8.学习过程是很快速的。9.随机森林不会产生过拟合问题。7.2.2随机森林算法的应用近年来,随机森林在国内外得到了迅速发展,在医学、管理学、经济学等众多领域得到了广泛的应用。下面通过三个实例说明随机森林算法的应用情况。1.利用随机森林算法进行电力系统短期负荷预测2.基于随机森林算法的农耕区土地利用分类研究3.随机森林在企业信用评估指标体系确定中的应用7.3随机森林算法源程序分析随机森林源程序包括如下文件:CARTTool.java、DecisionTree.java、RandomForestTest.java、RandomForestTool.java和TreeNode.java。相关程序和实验数据可从github中下载,网址为/guanyao1/randomforest.git。当测试的数据是Age=Youth,Income=Low,Student=No,careditRating=Fair时,从运行结果得到两个决策树,两个决策树对每个属性值都作出了准确的预测;最后的给的预测结果是Yes,也就是会买电脑。程序运行结果如图7-3所示。7.4基于阿里云数加平台的随机森林分类实例随机森林是一个包含多个决策树的分类器,并且其输出的类别是由单棵树输出的类别的众数而定,其操作思路与逻辑回归分类算法一致。这里使用第五章中的数据来操作随机森林算法,其流程图为,下图左侧数据为带有标签的训练集,右侧为不带标签的预测集。随机森林的字段信息与参数设置如下图所示,其中,字段设置前三项在第六章已有解释,这里没有权重列,故权重列列名可不填写,标签列选择的是“label”列,参数设置中需要注意的有,单棵树的算法在随机森林中的位置,如果有则长度为2.比如有n棵树,algorithmTypes=[a,b],则[0,a)是id3,[a,b)是cart,[b,n)是c4.5。例如:在一个拥有5棵树的森林中,[2,4]表示0,1为id3算法,2,3为cart算法,4为c4.5算法。如果输入为None,则算法在森林中均分;单棵树随机特征数,为单棵树在生成时,每次分列时选择的随机的特征个数。预测的实验结果为,与KNN算法得到的预测结果一致。生成的模型为:7.5小结机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林算法有很多优点,如分类精度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论