集成学习-学习课件_第1页
集成学习-学习课件_第2页
集成学习-学习课件_第3页
集成学习-学习课件_第4页
集成学习-学习课件_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

集成学习学习集成学习原理学习Bagging原理及实现学习Boosting原理及实现学习随机森林算法原理及实现学习其他常见集成学习算法的python实现集成学习原理1Bagging与随机森林2Boosting与AdaBoost3GBDT、XGBoost与lightGBM4集成学习原理我有T个朋友,当我购买股票的时候他们都会给我建议。

StockA01…0问题:我该如何采纳他们的意见?集成学习原理我有T个朋友,当我购买股票的时候他们都会给我建议。问题:我该如何采纳他们的意见?Select:根据朋友们的“平时表现”,选择一个最信任的朋友,在ML中,这相当于验证集上的准确率Mix:大家民主一点,投票吧,少数服从多数,voteuniformlyMix:根据朋友们预测能力不同,给予他们不同的投票权重,votenon-uniformlyCombine:根据朋友们擅长的领域不同,在不同的情况下选择不同的朋友,conditionally集成学习(aggregationmodels):mixorcombinehypotheses(forbetterperformance)以上仅为常见的集成方式,显然集成的方式多种多样,并不局限于以上四种。集成学习原理

集成学习原理【问题】三个臭皮匠,为什么胜过诸葛亮?古代某国有一名独裁者,他很聪明,阅历也足够丰富,因此在每次做出决断的时候,正确率都能达到90%。另一个国家则实行长老会制度,长老会由25名长老组成,每名长老相互独立,但每名长老判断问题的准确率只有65%,每次决策时,都由长老会举手表决,半数以上同意才能通过。【问题】不考虑其他因素的情况下,独裁者还是长老会的准确率更高?独裁者还是长老会?集成学习原理

独裁者还是长老会?集成学习原理集成学习(ensemblelearning)通过构建并结合多个学习器来完成学习任务。由此可见,集成学习的核心包括两点:个体学习器结合策略长老会案例中,将长老会视为一个集成学习估计器,每一个长老就是一个基学习器,将25个长老的决定进行简单投票,多数为胜,就是该集成学习的结合策略。如果长老之间没有什么不同,则该集成学习是“同质”的。如果长老来自不同的地区,称为“异质”的。集成学习原理

…结合模块输出决策树支持向量机集成学习原理【思考】什么情况下,臭皮匠才能胜过诸葛亮?简单投票法中:臭皮匠准确率要大于0.5,即好于随机猜测臭皮匠的数量要足够多,规模足够大集成学习通过将多个学习器进行结合,来获得比单一学习器显著优越的泛化性能,这对“弱学习器”性能提升尤为明显。臭皮匠就是一个“弱学习器”,弱学习器常指泛化性能略优于随机猜测的学习器。【思考】三个臭皮匠简单投票,隐含了什么假设?个体学习器的数量与质量***基学习器相互独立***集成学习原理

集成学习的网络结构Diversehypotheses:即便最简单的uniformblending,也要比任何一个单一的学习器效果好。集成学习原理

集成学习的网络结构

集成学习原理

g的多样性(diversity)

集成学习原理“臭皮匠”的决策并不是随意做出的,在决策之前,需要被训练,考虑以下两种训练方法:训练集随机抽样,分别训练三个“臭皮匠”训练集训练“臭皮匠一”,对分错的数据加权,递归传递给“臭皮匠二”和“臭皮匠三”方法一,表示个体学习器间不存在强依赖关系,可并行生成的训练方法,代表算法是Bagging和随机森林。方法二,表示个体学习器间存在强依赖关系,必须串行生成的序列化方法,代表算法是Boosting。集成学习的网络结构投票策略输出投票策略输出集成学习原理1Bagging与随机森林2Boosting与AdaBoost3GBDT、XGBoost与lightGBM4Bagging与随机森林

自助采样法与Bagging简单法输出

评估性能决策树剪枝神经网络早停…Bagging与随机森林#基学习器(决策树为例)sklearn.tree.DecisionTreeClassifier#Baggingsklearn.ensemble.BaggingClassifier#超参数n_estimators:基学习器数量max_samples:基学习器训练集的采样数量/比例max_features:基学习器训练集的特征数量/比例bootstrap:是否放回采样Bagging的python实现Bagging与随机森林

随机森林原理与python实现集成学习原理1Bagging与随机森林2Boosting与AdaBoost3GBDT、XGBoost与lightGBM4Boosting与AdaBoost

Boosting原理

a

Boosting与AdaBoost

AdaBoost原理

Boosting与AdaBoost

集成学习原理1Bagging与随机森林2Boosting与AdaBoost3GBDT、XGBoost与lightGBM4GBDT、XGBoost与lightGBM梯度提升树(GradientBoostingDecisonTree,GBDT),属于Boosting族算法。由此总结GBDT的特点:GBDT通过迭代提升弱学习器为强学习器提升方法为梯度提升(类似梯度下降)基学习器只能为决策树(CART)#python实现sklearn.ensemble.GradientBoostingClassifierGBDT在小数据上**极易**过拟合GBDT简介与python实现GBDT、XGBoost与lightGBMXGBoost是ExtremeGradientBoosting的简称,是对GBDT的改进,严格来说,XGBoost本质是实现GBDT算法的框架。基学习器选择上,除CART外还支持线性分类器,对代价函数进一步优化,同时加入正则项防止过拟合,同时支持特征抽样,因此XGBoost比GBDT更快,更鲁棒。XGBoost简介与python实现xgboost.XGBClassifierGBDT、XGBoost与lightGBM提升树(BoostingDecisionTree)基于boosting算法,需要迭代多棵决策树来共同决策。当采用平方误差损失函数时,每一棵回归树学习的是之前所有树的结论和残差,拟合得到一个当前的残差回归树。下表为例则提升树算法过程如图所示。最终的预测结果是多棵树预测结果的和。这样的模型叫做加法模型。提升树14、16、24、2614、1624、26201525-1、+1-1、+1-1、+1、-1、+1-1、-1+1、+1-1+1姓名是否毕业性别年龄A否女14B否男16C是女24D是男26以样本A为例,A的预测结果为两棵树预测结果的和15+(-1)=1残差第一轮迭代第二轮迭代毕业性别GBDT、XGBoost与lightGBM

加法模型与XGBoost原理

GBDT、XGBoost与lightGBM

XGBoost推导

GBDT、XGBoost与lightGBM

GBDT、XGBoost与lightGBM

XGBoost原理(续)

【思考】上述流程的问题在哪里?GBDT、XGBoost与lightGBM【思考】上述流程的问题在哪里?枚举所有可能的树结构𝑞有问题,因为树结构可能的数量呈阶乘增长,叶子结点数量呈指数增长,这是一个NP难问题,所以实际上很难枚举所有可能的树结构。【问题】怎么解决树结构数量问题?这实际上是决策树中的NP难问题,常见的解决方法是使用贪心算法,在可接受的时间内计算局部最优解。XGBoost原理(续)

GBDT、XGBoost与lightGBMlightGBM是微软团队

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论