随机森林讲解_第1页
随机森林讲解_第2页
随机森林讲解_第3页
随机森林讲解_第4页
随机森林讲解_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

随机森林目标为什么要学随机森林什么是随机森林随机森林的构建随机森林的优势和不足为什么要学随机森林决策树往往容易出现过拟合的问题,我们可以让很多树组成团队来工作,也就是——随机森林。什么是随机森林随机森林有的时候也被称为是随机决策森林,是一种集合学习方法,既可以用于分类,也可以用于回归。而所谓集合学习算法,其实就是把多个机器学习算法综合在一起,制造出一个更加大模型的意思。什么是随机森林决策树算法很容易出现过拟合的现象。那么为什么随机森林可以解决这个问题呢?因为随机森林是把不同的几棵决策树打包到一起,每棵树的参数都不相同,然后我们把每棵树预测的结果取平均值,这样即可以保留决策树们的工作成效,又可以降低过拟合的风险。随机森林的构建随机森林的构建bootstrap参数代表的是bootstrapsample,也就是“有放回抽样”的意思,指每次从样本空间中可以重复抽取同一个样本(因为样本在第一次被抽取之后又被放回去了)假设,原始样本是「'苹果','西瓜','香蕉','桃子'],那么经过bootstrapsample重构的样本就可能是「西瓜','西瓜','香蕉','桃子'],还有可能是['苹果','西瓜','桃子','桃子'],bootstrapsample生成的数据集和原始数据集在数据量上是完全一样的,但由于进行了重复采样,因此其中有一些数据点会丢失。为什么要生成bootstrapsample数据集?这是因为通过重新生成数据集,可以让随机森林中的每一棵决策树在构建的时候,会彼此之间有些差异。再加上每棵树的节点都会去选择不同的样本特征,经过这两步动作之后,可以完全肯定随机森林中的每棵树都不一样。随机森林的构建模型会基于新数据集建立一棵决策树,在随机森林当中,算法不会让每棵决策树都生成最佳的节点,而是会在每个节点上随机地选择一些样本特征,然后让其中之一有最好的拟合表现。可以用max_features这个参数来控制所选择的特征数量最大值的,在不进行指定的情况下,随机森林默认自动选择最大特征数量。假如把max_features设置为样本全部的特征数n_features就意味着模型会在全部特征中进行筛选,这样在特征选择这一步,就没有随机性可言了。而如果把max_features的值设为1,就意味着模型在数据特征上完全没有选择的余地,只能去寻找这1个被随机选出来的特征向量的阈值了。max_features的取值越高,随机森林里的每一棵决策树就会“长得更像”,它们因为有更多的不同特征可以选择,也就会更容易拟合数据;反之,如果max_features取值越低,就会迫使每棵决策树的样子更加不同,而且因为特征太少,决策树们不得不制造更多节点来拟合数据。随机森林的构建n_estimators这个参数控制的是随机森林中决策树的数量。在随机森林构建完成之后,每棵决策树都会单独进行预测。如果是用来进行回归分析的话,随机森林会把所有决策树预测的值取平均数;如果是用来进行分类的话,在森林内部会进行“投票”,每棵树预测出数据类别的概率,比如其中一棵树说,“这瓶酒80%属于class_l”,另外一棵树说"这瓶酒60%属于class_2”,随机森林会把这些概率取平均值,然后把样本放入概率最高的分类当中。随机森林的构建因为随机森林生成每棵决策树的方法是随机的,那么不同的random_state参数会导致模型完全不同,所以如果不希望建模的结果太过于不稳定,一定要固化random_state这个参数的数值。随机森林的构建对于超大数据集来说,随机森林会比较耗时,不过我们可以用多进程并行处理的方式来解决这个问题。实现方式是调节随机森林的njobs参数,记得把njobs参数数值设为和CPU内核数一致,比如你的CPU内核数是2,那么njobs参数设为3或者更大是没有意义的。当然如果你搞不清楚自己的CPU到底就多少内核,可以设置njobs=-1,这样随机森林会使用CPU的全部内核,速度就会极大提升了。随机森林的构建随机森林的构建可以发现随机森林所进行的分类要更加细腻一些,对训练数据集的拟合更好。同学们可以自己试试调节n_estimator参数和random_state参数,看看分类器的表现会有怎样的变化。随机森林的优势和不足在机器学习领域,无论是分类还是回归,随机森林都是应用最广泛的算法之一优势1.不需要过于在意参数的调节2.不要求对数据进行预处理3.集成了决策树的所有优点,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论