《Python机器学习:原理与实践(第2版)》课件 薛薇 - 第7章 数据预测建模:集成学习_第1页
《Python机器学习:原理与实践(第2版)》课件 薛薇 - 第7章 数据预测建模:集成学习_第2页
《Python机器学习:原理与实践(第2版)》课件 薛薇 - 第7章 数据预测建模:集成学习_第3页
《Python机器学习:原理与实践(第2版)》课件 薛薇 - 第7章 数据预测建模:集成学习_第4页
《Python机器学习:原理与实践(第2版)》课件 薛薇 - 第7章 数据预测建模:集成学习_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章数据预测建模:集成学习集成学习概述基于重抽样自举法的集成学习从弱模型到强模型的构建:提升法梯度提升决策树XGBoost算法集成学习概述第7章数据预测建模:集成学习决策树有一种“天然”的高方差特征解决较大树深度模型预测性能的途径:集成学习(EnsembleLearning)不剪枝:通过集成平均消除预测的波动性剪枝:通过弱模型的集成提高预测性能集成学习的基本思路:建模阶段:基于一组独立的训练集,分别建立与之对应的一组回归或分类预测模型。称这里的每个预测模型为基础学习器(BaseLearner,基学习器)预测阶段:基础学习器将分别给出各自的预测结果。对各预测结果进行平均(回归)或投票(分类),确定最终的预测结果(均值或众数)集成学习:解决预测模型的高方差问题将一组弱模型联合起来使其成为一个强模型集成学习:解决高方差问题

第7章数据预测建模:集成学习

基于重抽样自举法的集成学习:袋装法

第7章数据预测建模:集成学习

第7章数据预测建模:集成学习

基于重抽样自举法的集成学习:袋装法第7章数据预测建模:集成学习基于重抽样自举法的集成学习:随机森林

随机森林通过减少预测值的相关性,即通过降低树间的相似性(高相似的决策树给出高相关的预测值)的策略降低方差随N(这里是B)增加第二项趋于0,主要取决第一项第7章数据预测建模:集成学习随机森林降低树间相似性(使多棵树“看上去不相同”)的基本出发点:多样性增强:在学习过程中增加随机性扰动,包括:对训练数据增加随机性扰动对输入变量增加随机性扰动对算法参数增加随机性扰动,等随机森林多样性增加的策略:对训练数据增加随机性扰动:重抽样自举对输入变量增加随机性扰动:决策树建立过程中的当前“最佳”分组变量,是来自输入变量的一个随机子集

b中的变量基于重抽样自举法的集成学习:随机森林

第7章数据预测建模:集成学习

基于重抽样自举法的集成学习:随机森林第7章数据预测建模:集成学习

第7章数据预测建模:集成学习基于重抽样自举法的集成学习应用示例:PM2.5的回归预测

Chapter7-1.ipynb第7章数据预测建模:集成学习集成学习:从弱模型到强模型的构建

第7章数据预测建模:集成学习

从弱模型到强模型的构建:Boosting

通过B次迭代建立多个弱模型第7章数据预测建模:集成学习示例观察:弱模型的组合可以成为强模型弱模型的“联合委员会”有着较高的预测性能Chapter7-2.ipynb第7章数据预测建模:集成学习

AdaBoost.M1算法根据误差(损失)对权重做非线性更新第7章数据预测建模:集成学习

AdaBoost.M1算法第7章数据预测建模:集成学习

第7章数据预测建模:集成学习AdaBoost.M1算法实现:图形化展示不同迭代次数下各样本观测的权重变化Chapter7-3.ipynb较大的点都是之前的弱模型没有正确预测的点,基本集中在两类的边界处第7章数据预测建模:集成学习从弱模型到强模型的构建:Boosting

第7章数据预测建模:集成学习

第7章数据预测建模:集成学习

第7章数据预测建模:集成学习从弱模型到强模型的构建:Boosting

第7章数据预测建模:集成学习从弱模型到强模型的构建:Boosting

第7章数据预测建模:集成学习从弱模型到强模型的构建:梯度提升算法

梯度提升树:GradientBoostedDecisionTree,GBDT当下最为流行的集成学习算法之一,梯度提升算法的典型代表梯度提升树采用向前式分步可加建模方式迭代过程中模型成员不断进入“联合委员会”先前进入“联合委员会”的模型不受后续进入模型的影响,且每次迭代仅需估计当前模型迭代过程中基于损失函数,采用梯度下降法,找到使损失函数下降最快的模型(基础学习器或弱模型)梯度提升算法第一,提升的含义第二,梯度下降和模型参数第三,梯度提升算法的参数优化过程第7章数据预测建模:集成学习

从弱模型到强模型的构建:梯度提升算法

第7章数据预测建模:集成学习

第7章数据预测建模:集成学习

已知

第7章数据预测建模:集成学习

第7章数据预测建模:集成学习

找到对当前伪响应变量(残差)拟合最好下的回归树第7章数据预测建模:集成学习

第7章数据预测建模:集成学习梯度提升树和AdaBoost回归树的对比一定迭代次数后,AadBoost集成学习策略的训练误差下降不明显基本保持不变梯度提升树的训练误差呈持续降低的趋势提高梯度提升算法中基础学习器复杂(树深度等于3),误差在迭代次数较少时就快速下降到较低水平Chapter7-4.ipynb第7章数据预测建模:集成学习从弱模型到强模型的构建:XGBoost算法

第7章数据预测建模:集成学习

从弱模型到强模型的构建:XGBoost算法第7章数据预测建模:集成学习

第7章数据预测建模:集成学习

从弱模型到强模型的构建:XGBoost算法第7章数据预测建模:集成学习

第7章数据预测建模:集成学习

决策树的结构分数越低,说明该树的结构越合理从弱

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论