版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
集成学习课程大纲2018.9.15集成学习实战2018.9.22Boosting与Adaboost实战2018.9.29Bagging与随机森林实战集成学习集成学习(ensemblelearning)是现在非常火爆的机器学习方法。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。集成学习集成学习综述基本思想基础分类器组合策略
对于回归预测(数值)简单平均加权平均对于分类预测(类别)简单投票加权投票学习法集成学习方法BoostingAdaboostAdboost+决策树=提升树决策树+GradientBoosting=GBDTBagging随机森林(决策树)(决策树)ID3(信息增益)c4.5(信息增益率)CART(基尼系数)Stacking模型评价方差&偏差集成学习概述对于训练集数据,我们通过训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强学习器,以达到博采众长的目的。集成学习有两个主要的问题需要解决,第一是如何得到若干个个体学习器,第二是如何选择一种结合策略,将这些个体学习器集合成一个强学习器。集成学习:简单直观的例子对实例进行分类对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能※定义:集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。集成学习在概率近似正确(PAC)学习的框架中,一个概念(一个类),如果存在一个多项式的学习算法能够学习它,如果正确率很高,那么就称这个概念是强可学习(stronglylearnable)的。如果正确率不高,仅仅比随即猜测略好,那么就称这个概念是弱可学习(weaklylearnable)的。后来证明强可学习与弱可学习是等价的
解决的问题:1.弱分类器之间是怎样的关系?2.组合时,如何选择学习器?3.怎样组合弱分类器?集成学习解决的问题1.弱分类器之间是怎样的关系?
第一种就是所有的个体学习器都是一个种类的,或者说是同质的。
第二种是所有的个体学习器不全是一个种类的,或者说是异质的。集成学习之个体学习器个体学习器有两种选择:第一种就是所有的个体学习器都是一个种类的,或者说是同质的。比如都是决策树个体学习器,或者都是神经网络个体学习器。第二种是所有的个体学习器不全是一个种类的,或者说是异质的。比如我们有一个分类问题,对训练集采用支持向量机个体学习器,逻辑回归个体学习器和朴素贝叶斯个体学习器来学习,再通过某种结合策略来确定最终的分类强学习器。集成学习之个体学习器目前而言,同质个体学习器应用最广泛,一般我们常说的集成学习的方法都是指的同质个体学习器。而同质个体学习器使用最多的模型是CART决策树和神经网络。同质个体学习器按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,一系列个体学习器基本都需要串行生成,代表算法是boosting系列算法,第二个是个体学习器之间不存在强依赖关系,一系列个体学习器可以并行生成,代表算法是bagging和随机森林(RandomForest)系列算法。集成学习2.组合时,如何选择学习器?
考虑准确性和多样性
准确性指的是个体学习器不能太差,要有一定的准确度;
多样性则是个体学习器之间的输出要具有差异性集成学习3.怎样组合弱分类器?
组合策略:(1)平均法(2)投票法(3)学习法集成学习(1)平均法对于数值类的回归预测问题思想:对于若干个弱学习器的输出进行平均得到最终的预测输出。简单平均法加权平均法其中wi是个体学习器hi的权重,通常有wi≥0,集成学习(2)投票法对于分类问题的预测
思想:多个基本分类器都进行分类预测,然后根据分类结果用某种投票的原则进行投票表决,按照投票原则使用不同投票法。一票否决、一致表决、少数服从多数阈值表决:首先统计出把实例x划分为Ci和不划分为Ci的分类器数目分别是多少,然后当这两者比例超过某个阈值的时候把x划分到Ci。集成学习(3)学习法之前的方法都是对弱学习器的结果做平均或者投票,相对比较简单,但是可能学习误差较大。代表方法是Stacking思想:不是对弱学习器的结果做简单的逻辑处理,而是再加上一层学习器,分为2层。第一层是用不同的算法形成T个弱分类器,同时产生一个与原数据集大小相同的新数据集,利用这个新数据集和一个新算法构成第二层的分类器。
集成学习集成学习主要学习方法:根据个体学习器的生成方式,目前的集成学习方法大致可分为两类,Boosting:个体学习器间存在强依赖关系,必须串行生成的序列化方法;
串行:下一个分类器只在前一个分类器预测不够准的实例上进行训练或检验。Bagging:个体学习器间不存在强依赖关系,可同时生成的并行化方法。并行:所有的弱分类器都给出各自的预测结果,通过组合把这些预测结果转化为最终结果。集成学习Boosting重赋权法:即在训练过程的每一轮中,根据样本分布为每一个训练样本重新赋予一个权重。对无法接受带权样本的基学习算法,则可以通过重采样法来处理,即在每一轮的学习中,根据样本分布对训练集重新进行采样,在用重采样而来的样本集对基学习器进行训练。
代表算法:Adboost决策树+adboost=提升树GBDT(GradientBoostDecisionTree)梯度提升决策树决策树+GradientBoosting=GBDT
其他叫法:GradientTreeBoostingGBRT(GradientBoostRegressionTree)梯度提升回归树MART(MultipleAdditiveRegressionTree)多决策回归树TreeNet决策树网络集成学习Bagging(bootstrapaggregation)Bagging的策略:
-从样本集中用Bootstrap采样选出n个样本
-在所有属性上,对这n个样本建立分类器(CARTorSVMor...)
-重复以上两步m次,i.e.buildm个分类器(CARTorSVMor...)
-将数据放在这m个分类器上跑,最后vote看到底分到哪一类
Bootstrap方法是非常有用的一种统计学上的估计方法。Bootstrap是对观测信息进行再抽样,进而对总体的分布特性进行统计推断。Bootstrap是一种有放回的重复抽样方法,抽样策略就是简单的随机抽样。Bagging扩展变体随机森林(randomforest简称RF)随机森林:决策树+bagging=随机森林集成学习从偏差-方差分解的角度偏差(bias):描述的是预测值的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。方差(variance)
:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。集成学习Boosting主要关注降低偏差偏差刻画了学习算法本身的拟合能力Boosting思想,对判断错误的样本不停的加大权重,为了更好地拟合当前数据,所以降低了偏差,因此Boosting能基于泛化性能相当弱的学习器构建出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论