版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章:集成学习集成学习个体与集成
BoostingAdaboost
Bagging与随机森林结合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性扰动个体与集成集成学习(ensemble
learning)通过构建并结合多个学习器来提升性能个体与集成考虑一个简单的例子,在二分类问题中,假定3个分类器在三个样本中的表现如下图所示,其中√
表示分类正确,X
号表示分类错误,集成的结果通过投票产生。集成个体应:好而不同个体与集成–简单分析考虑二分类问题,假设基分类器的错误率为:
个体与集成–简单分析假设基分类器的错误率相互独立,则由Hoeffding不等式可得集成的错误率为:
个体与集成–简单分析上面的分析有一个关键假设:基学习器的误差相互独立现实任务中,个体学习器是为解决同一个问题训练出来的,显然不可能互相独立事实上,个体学习器的“准确性”和“多样性”本身就存在冲突如何产生“好而不同”的个体学习器是集成学习研究的核心集成学习大致可分为两大类集成学习个体与集成
BoostingAdaboost
Bagging与随机森林结合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性扰动Boosting个体学习器存在强依赖关系,串行生成每次调整训练数据的样本分布Boosting
-
Boosting算法Boosting族算法最著名的代表是AdaBoostBoosting
–AdaBoost算法Boosting
–AdaBoost推导基学习器的线性组合最小化指数损失函数Boosting
–AdaBoost推导
Boosting
–AdaBoost推导
令指数损失函数的导数为0,即Boosting
–AdaBoost推导
泰勒展开近似为Boosting
–AdaBoost推导于是,理想的基学习器:注意到是一个常数,令Dt表示一个分布:
Boosting
–AdaBoost推导根据数学期望的定义,这等价于令:
Boosting
–AdaBoost推导最终的样本分布更新公式则理想的基学习器Boosting
–AdaBoost注意事项数据分布的学习重赋权法重采样法重启动,避免训练过程过早停止00.20.40.60.80.20.40.6好瓜坏瓜密度含糖率00.20.40.60.80.20.40.6好瓜坏瓜密度含糖率00.20.40.60.80.20.40.6好瓜坏瓜密度含糖率(a)3个基学习器(b)5个基学习器(c)11个基学习器Boosting
–AdaBoost实验从偏差-方差的角度:降低偏差,可对泛化性能相当弱的学习器构造出很强的集成集成学习个体与集成
BoostingAdaboost
Bagging与随机森林结合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性扰动Bagging与随机森林个体学习器不存在强依赖关系并行化生成自助采样法Bagging与随机森林
-
Bagging算法Bagging与随机森林-
Bagging算法特点时间复杂度低假定基学习器的计算复杂度为O(m),采样与投票/平均过程的复杂度为O(s),则bagging的复杂度大致为T(O(m)+O(s))由于O(s)很小且T是一个不大的常数因此训练一个bagging集成与直接使用基学习器的复杂度同阶可使用包外估计Bagging与随机森林-包外估计
Bagging泛化误差的包外估计为:00.20.40.60.80.20.40.6好瓜坏瓜密度含糖率00.20.40.60.80.20.40.6好瓜坏瓜密度含糖率00.20.40.60.80.20.40.6好瓜坏瓜密度含糖率(a)3个基学习器(b)5个基学习器(c)11个基学习器Bagging与随机森林-Bagging实验从偏差-方差的角度:降低方差,在不剪枝的决策树、神经网络等易受样本影响的学习器上效果更好Bagging与随机森林-随机森林随机森林(Random
Forest,简称RF)是bagging的一个扩展变种采样的随机性属性选择的随机性Bagging与随机森林-随机森林算法随机森林算法Bagging与随机森林-随机森林实验集成学习个体与集成
BoostingAdaboost
Bagging与随机森林结合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性扰动(a)统计的原因(b)计算的原因(c)表示的原因同等性能的假设假设空间个体假设真实假设结合策略学习器的组合可以从三个方面带来好处结合策略–平均法简单平均法加权平均法结合策略–平均法简单平均法是加权平均法的特例加权平均法在二十世纪五十年代被广泛使用集成学习中的各种结合方法都可以看成是加权平均法的变种或特例加权平均法可认为是集成学习研究的基本出发点加权平均法未必一定优于简单平均法结合策略–投票法绝对多数投票法(majorityvoting)相对多数投票法(pluralityvoting)加权投票法(weightedvoting)结合策略–
学习法Stacking是学习法的典型代表
多响应线性回归(MLR)作为次级学习器的学习算法效果较好贝叶斯模型平均(BMA)集成学习个体与集成
BoostingAdaboost
Bagging与随机森林结合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性扰动多样性–误差-分歧分解
集成的分歧:多样性–误差-分歧分解
多样性–误差-分歧分解令表示个体学习器误差的加权均值,有
多样性–误差-分歧分解
集成的泛化误差为:令表示个体学习器泛化误差的加权均值,表示个体学习器的加权分歧值,有多样性–误差-分歧分解
多样性–多样性度量多样性度量(diversity
measure)用于度量集成中个体学习器的多样性常见的多样性度量不合度量(DisagreementMeasure)相关系数(CorrelationCoefficient)多样性–多样性度量常见的多样性度量Q-统计量(Q-Statistic)K-统计量(Kappa-Statistic)多样性–多样性度量多样性–多样性度量
多样性–多样性增强常见的增强个体学习器的多样性的方法数据样本扰动输入属性扰动输出表示扰动算法参数扰动多样性–多样性增强
-数据样本扰动数据样本扰动通常是基于采样法Bagging中的自助采样法Adaboost中的序列采样对数据样本的扰动敏感的基学习器(不稳定基学习器)决策树,神经网络等对数据样本的扰动不敏感的基学习器(稳定基学习器)线性学习器,支持向量机,朴素贝叶斯,k近邻等数据样本扰动对“不稳定基学习器”很有效随机子空间算法(random
subspace)
多样性–多样性增强
–输入属性扰动翻转法(Flipping
Output)输出调剂法(Output
Smearing)ECOC法多样性–多样性增强
–输出表示扰动负相关法不同的多样性增强机制同时使用多样性–多样性增强
–算法参数扰动阅读材料集成学习方面的主要推荐读物是[Zhou,2012],本章提及的所有内容在该书中都有更深入的详细介绍。[Kuncheva,2004;Rockach,2010b]可供参考,[Schapire
and
Freund,2012]则是专门关于Boosting的著作,集成学习方面有一些专门性的会议MCS(International
Workshop
on
Multiple
Classifier
System).Boosting源于[Schapire,1990]对[Kearns
and
Va
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 灼口综合征病因介绍
- 涎石病病因介绍
- 沃纳综合征病因介绍
- 2024年中考英语模拟卷(全国卷)(解析版)
- 2024届宁夏回族自治区育才中学高考模拟最后十套:数学试题(七)考前提分仿真卷
- 山西某中学水电安装施工方案
- 开题报告:虚拟现实人工智能融合在数字媒体艺术创作中的应用研究
- 《货物运输实务》课件 1.2运输商务谈判
- 2024二手货车交易免除过户手续合同版B版
- 2024年专项资产委托担保服务协议范本版
- 工程伦理智慧树知到期末考试答案章节答案2024年武汉科技大学
- 人教版五年级数学上册第二单元《位置》(大单元教学设计)
- 货架合同模板共
- 2024年贵州省中考数学试卷附答案
- 幼儿园小班语言课件:《雪花》
- DL-T5475-2013垃圾发电工程建设预算项目划分导则
- 2024-2029年中国计量行业市场发展现状及发展趋势与投资战略研究报告
- 舞台舞美拆除方案
- 第19课资本主义国家的新变化【中职专用】《世界历史》(高教版2023基础模块)
- 作物育种方法与实践智慧树知到期末考试答案2024年
- 个人建筑工程技术职业生涯发展规划报告
评论
0/150
提交评论