机器学习课次27~28-Bagging算法_第1页
机器学习课次27~28-Bagging算法_第2页
机器学习课次27~28-Bagging算法_第3页
机器学习课次27~28-Bagging算法_第4页
机器学习课次27~28-Bagging算法_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

彭辉94031097(QQ)机器学习MachineLearningBagging算法任务目标能力目标理解装袋法、随机森林集成学习原理理解集成学习基本原理理解Boosting集成学习原理使用Sklearn进行集成学习算法应用开发任务目标素质目标团队协作学会学习实践创新集成学习集成学习(EnsembleLearning)

是指利用多个独立的基学习器(或个体学习器)来进行学习,组合某输入样例在各个基学习器上的输出,并由他们按照某种策略共同决定输出。

集成学习的基本思想:

是先通过一定的规则生成一定数量的基学习器(BaseEstimator),再采用某种集成策略将这些基学习器的预测结果组合起来,形成最终的结论。集成学习集成学习目标集成学习主要包括三个部分:个体的生成方法、个体学习器(基学习器)和结论的合(集)成方法。因此集成学习需要解决如下两个问题:(1)如何通过有效的训练获得若干个弱学习器?(2)如何选择一个组合策略,将这些基学习器合成为一个强学习器?集成学习中,弱学习器(WeakLearner)是错误概率小于0.5的学习器;强学习器(StrongLearner)则具有任意小的错误概率。集成学习不是一个单独的机器学习算法,它可将多重或多个弱学习器组合成一个强分类器,从而提升分类效果。集成学习同质个体学习器按照个体学习器之间是否存在依赖关系又可以分为两类:个体学习器之间存在着强依赖关系其代表算法是Boosting算法;个体学习器之间不存在强依赖关系,可以并行生成这些个体学习器,其代表算法是Bagging和随机森林(RandomForest)算法。基学习器的构成(1)同质学习器:可以使用Cart决策树、神经网络(2)异质学习器集成学习基学习器的构成(续)考虑一个简单的例子,在二分类问题中,假定3个分类器在三个样本中的表现如下图所示,其中√

表示分类正确,X

号表示分类错误,集成的结果通过投票产生。集成个体应:好而不同集成学习当集成学习用于分类预测时,集成的输出通常由各个体学习器的输出投票产生。通常采用绝对多数投票法或相对多数投票法。当集成学习用于回归估计时,集成的输出通常由各学习器的输出通过简单平均或加权平均产生。组合策略根据集成学习的用途不同,结论合成的方法也各不相同集成学习投票法voting集成学习组合函数是投票法组合函数还可以是取平均值的简单投票法(SimpleVoting)、中位数、最大值等最简单的组合函数是投票(voting)相当于一个基分类器的加权线性组合Sklearn中的Voting练习Sklearn中的投票sklearn提供了一种软投票/多数规则分类器(SoftVoting/MajorityRuleClassifier),其原型如下:classsklearn.ensemble.VotingClassifier(estimators,voting=’hard’,weights=None,n_jobs=1,flatten_transform=None)estimators:指定的估计器,该估计器必须有.fit方法进行训练。voting:字符串,可选项为“soft”和“hard”,其默认值为“hard”。如果voting取值“hard”,那么使用多数规则表决预测的类标签。否则,基于各个基学习器的预测概率之和预测类标签。weights:数组,大小等于n_classifiers(基学习器的数量),缺省值为None。权值序列表示预测类标签出现(hardvoting),或者平均化之前的类概率(softvoting)。Bagging装袋(Bagging)是一种自助抽样(BootstapSampling)的投票方法Bagging基本概念

BaggingBagging的组合策略

一个学习算法是稳定的

如果该算法在相同训练数据集的再抽样版本上多次运行导致具有高正相关性的学习器。决策树和多层感知器是不稳定的,最近邻算法是稳定的,但是精简的最近邻算法是不稳定的。一个学习算法是不稳定的

如果训练集的微小变化引起由其训练得到的学习器的很大差异,即学习算法具有高方差。Bagging的组合策略是:分类任务采取简单投票法,即每个基学习器一票;回归任务使用简单平均法,即每个基学习器的预测值取平均值。BaggingBagging算法-sklearn实现classsklearn.ensemble.BaggingClassifier(base_estimator=None,n_estimators=10,max_samples=1.0,max_features=1.0,bootstrap=True,bootstrap_features=False,oob_score=False,warm_start=False,n_jobs=1,random_state=None,verbose=0)base_estimator:对象,默认值为None。如果是None,则默认的基学习器是决策树。n_estimator:整型,默认值为10。基学习器的数量。max_samples:整型或浮点型,默认值为1.0。从X中抽取指定的样本数来训练每个基学习器。如果是整型,抽取max_samples个样本作为训练数据集;否则,抽取max_samples*X.shape[0]样本作为训练数据集。max_features:整型或浮点型,默认值为1.0。从X中抽取指定的属性数量来训练每个基学习器。如果是整型,抽取max_featuress个属性;否则,抽取max_features*X.shape[1]属性。warm_start:布尔值,默认值为False。当设置为True时,训练是在前一次集成学习的基础上,继续训练并添加更多基学习器到集成学习中来,否则,只是训练一个全新的集成学习。随机森林

随机森林(RandomFroest,RF)随机森林是bagging的一个扩展变种,其基学习器是决策树。对于一个输入样本,N

棵决策树就会有N

个分类结果,随机森林集成了所有分类投票结果,将投票次数最多的类别作为最终的输出。随机森林随机森林的生成过程如下:

(1)抽样产生每棵决策树的训练数据集。RF采用Bagging抽样技术从原始训练数据集中产生N个训练子集。(2)构建N棵决策树(基学习器)。每一个训练子集生成一棵决策树,从而产生N棵决策树形成森林,每棵决策树不需要剪枝处理。(3)生成随机森林,以简单多数的原则决定该样本是哪个类别。使用N棵决策树对测试样本进行分类,随机森林将每棵子树的结果汇总,以简单多数的原则决定该样本是哪个类别。从原始训练集中随机产生N个训练子集用于随机生成N颗决策树。在构建具体的决策树过程中随机地选择m个属性,随机森林的生成过程中这两个随机性,可以确保不会出现过拟合(over-fitting)。随机森林

sklearn提供了RF分类器,其原型如下:classsklearn.ensemble.RandomForestClassifier(

n_estimators=10,

criterion=’gini’,

max_depth=None,

min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features=’auto’,

max_leaf_nodes=None,min_impurity_decrease=0.0,min_impurity_split=None,boo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论