版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 数据挖据技术数据挖据技术集成学习方法集成学习方法(ensemble learnig)王磊王磊 副教授副教授经济信息工程学院经济信息工程学院2第六章:第六章: 集成学习方法集成学习方法n根本概念根本概念nbaggingnboostingn随机森林随机森林n选择性集成方法选择性集成方法n在机器学习中,直接建立一个高性能的分类器是很困难的。n但是,假设能找到一系列性能较差的分类器弱分类器,并把它们集成起来的话,也许就能得到更好的分类器。n日常生活中,“三个臭皮匠,胜过诸葛亮,便是表达了这种思想。集成学习的根本概念Classifier ensembleihi(x)hn(x)h2(x)h1(x)Inp
2、ut vectorClassifier 1Classifier 2Classifier NCombine ClassifiersOutputx集成学习:图示n我们普通选定加权平均的方法来构造集成学习的最终学习器。n但是里面的每一个 弱分类器i怎样构造呢?n有一些研讨,是针对每个学习器都不同构的情况,比如识别一个人,一个学习器思索脸,另一个思索步态,另一个思索指纹。这种研讨通常称为Information Fusion,不在我们今天讨论的范畴。n狭义的集成学习ensemble learning,是用同样类型的学习算法来构造不同的弱学习器的方法。集成学习:如何构造?n方法就是改动训练集。方法就是改动
3、训练集。n通常的学习算法,根据训练集的不同,会给出不通常的学习算法,根据训练集的不同,会给出不同的学习器。这时就可以经过改动训练集来构造同的学习器。这时就可以经过改动训练集来构造不同的学习器。然后再把它们集成起来。不同的学习器。然后再把它们集成起来。集成学习:如何构造?n在原来的训练集上随机采样,可以得到新的训练集。【随机采样】 集成学习Ensemble Learning是一种机器学习方法,它运用多个通常是同质的学习器来处理同一个问题 问题 . . 问题 集成学习中运用的多个学习器称为个体学习器当个体学习器均为决策树时,称为“决策树集成当个体学习器均为神经网络时,称为“神经网络集成 集成学习的
4、定义由于集成学习技术可以有效地提高学习系统的泛化才干,因此它成为国际机器学习界的研讨热点,并被国际权威 T.G. Dietterich 称为当前机器学习四大研讨方向之首T.G. Dietterich, AIMag97问题:对20维超立方体空间中的区域分类左图中纵轴为错误率从上到下的四条线分别表示:平均神经网络错误率最好神经网络错误率两种神经网络集成的错误率令人惊奇的是,集成的错误率比最好的个体还低 L.K. Hansen & P. Salamon, TPAMI90【集成学习的重要性】集成学习技术曾经在行星探测、地震波分析、Web信息过滤、生物特征识别、计算机辅助医疗诊断等众多领域得到了
5、广泛的运用只需能用到机器学习的地方,就能用到集成学习【集成学习的运用】期望结果个体1 (精度33.3%)个体2 (精度33.3%)个体3 (精度33.3%)集成(精度33.3%)投票个体必需有差别期望结果个体1 (精度33.3%)个体2 (精度33.3%)个体3 (精度33.3%)集成 (精度0%)投票个体精度不能太低EEA个体学习器越准确、差别越大,集成越好A. Krogh & J. Vedelsby, NIPS94既然多个个体的集成比单个个体更好,那么是不是个体越多越好?更多的个体意味着: 在预测时需求更大的计算开销,由于要计算更多的个体预测 更大的存储开销,由于有更多的个体需求保
6、管个体的添加将使得个体间的差别越来越难以获得集成战略集成战略n有多种战略可以将q个弱分类器组合成集成分类器。 集成战略集成战略n从大小为n的原始数据集D中独立随机地抽取n个数据(n=n),构成一个自助数据集;n反复上述过程,产生出多个独立的自助数据集;n利用每个自助数据集训练出一个“分量分类器;n最终的分类结果由这些“分量分类器各自的判别结果投票决议。根本思想:对训练集有放回地抽取训练样例,从而为每一个根本分类器都构造出一个跟训练集相当大小但各不一样的训练集,从而训练出不同的根本分类器;该算法是基于对训练集进展处置的集成方法中最简单、最直观的一种。 Boosting流程描画流程描画nStep1
7、: 原始训练集输入nStep2: 计算训练集中各样本的权重nStep3: 采用知算法训练弱学习机,并对每个样本进展判别nStep4: 计算对此次的弱学习机的权重nStep5: 转到Step2, 直到循环到达一定次数或者某度量规范符合要求nStep6: 将弱学习机按其相应的权重加权组合构成强学习机中心思想中心思想n样本的权重n没有先验知识的情况下,初始的分布应为等概分布,也就是训练集假设有N个样本,每个样本的分布概率为1/Nn每次循环一后提高错误样本的分布概率,分错样本在训练集中所占权重增大, 使得下一次循环的弱学习机可以集中力量对这些错误样本进展判别。n弱学习机的权重n准确率越高的弱学习机权重
8、越高n循环控制:损失函数到达最小n在强学习机的组合中添加一个加权的弱学习机,使准确率提高,损失函数值减小。简单问题演示简单问题演示Boosting训练过程训练过程算法算法boosting数学描画数学描画n训练集 (x1,y1), (x2,y2), (xN,yN) nxi Rm, yi -1,+1nDt 为第t次循环时的训练样本分布每个样本在训练集中所占的概率, Dt总和应该为1nht:X-1,+1 为第t次循环时的Weak learner,对每个样本给出相应的假设,应该满足强于随机猜测:nwt为ht的权重n 为t次循环得到的Strong learner21),()(xhyPtDyxttiiti
9、ithwsignH1)()(样本权重样本权重n思想:提高分错样本的权重n 反映了strong learner对样本的假设能否正确n采用什么样的函数方式?n)(itiHywrongrightHyiti00)()(expitiHy弱学习机权重弱学习机权重n思想:错误率越低,该学习机的权重应该越大n 为学习机的错误概率n采用什么样的函数方式?n n 和指数函数遥相呼应:)(),(xhyPtDyxtt tttw1ln21AdaBoost算法算法Adaboost 训练过程训练过程Adaboost 训练过程训练过程Adaboost 训练过程训练过程Adaboost的缺陷的缺陷随机森林算法随机森林算法n随机
10、森林算法是Leo Breiman于2001年提出的一种新型分类和预测模型,它具有需求调整的参数少,不容易过度拟合,分类速度快,能高效处置大样本数据等特点。nBagging和AdaBoost等方法只是经过改动样本的权重来获得不同的弱分类器。随机森林RF那么经过同时改动样本和特征子集来获得不同的弱分类器。随机森林算法随机森林算法n随机森林是采用随机的方式建立一个森林,森林有很多决策树组成,每棵决策树之间没有关联。对于新的测试样本,让森林中的每一棵决策树分布分别进展一下判别,根据多数者投票方法决议样本的类别。完全分裂的方式完全分裂的方式随机特征选取随机特征选取n当特征个数M较多时,随机选择m个用于训
11、练决策树。m越小,树的相关性越小,且训练速度越快。n当特征个数M较少时,可以由M个特征进展随机线性组合来产生M 个扩展特征,然后,在M+M上随机选择m个特征,构建决策树。n其中,每一个扩展特征的构造如下: 从现有M特征中随机抽取L个,它们的权重系数是-1,+1区间的均匀随机数。然后,由L个已有特征线性组合出扩展特征。随机特征数确实定随机特征数确实定选择性集成算法选择性集成算法n一方面,运用更多的学习器将导致更大的计算和存储开销一方面,运用更多的学习器将导致更大的计算和存储开销,另一方面,当个体学习器数目添加之后,学习器之间的,另一方面,当个体学习器数目添加之后,学习器之间的差别将越来越难以获得。差别将越来越难以获得。n因此,提出问题:为了到达更好的性能,能否必需运用更因此,提出问题:为了到达更好的性能,能否必需运用更多的个体学习器?多的个体学习器?选择性集成的实际分析选择性集成的实际分析选择性集成的实际分析选择性集成的实际分析选择性集成的实际分析选择性集成的实际分析选择性集成的实际分析选择性集成的实际分析问题求解问题求解问题求解问题求解GASEN算法算法论文讲解论文讲解n基于约束投影的支持向量机选择性集成基于约束投影的支持向量机
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文书模板-《借款保证担保合同》
- 2024年二手房贷款业务协作协议样本
- 化普通商品购买:2024协议格式
- 2024年非公开股权转让协议范本
- 2024住宅小区物业经理聘任协议
- 2024公司销售代表协议要览
- 2024年工业烟囱建设施工协议示例
- 2024年度公厕新建工程施工协议样本
- 文书模板-《砖购销合同》
- 文书模板-用现金支付的租房合同
- (高清版)JTG D50-2017 公路沥青路面设计规范
- 新版手术室管理规范
- 《物流成本管理》(朱伟生 第六版)课件全套 第1-12章 绪论、物流成本计算 - 物流成本绩效考评
- 微量元素与人体健康智慧树知到期末考试答案章节答案2024年吉林大学
- 大学生数媒个人职业生涯规划
- 心理健康与职业生涯第11课《主动学习高效学习》第一框教案《做主动的学习者》
- 建筑垃圾清运及处置 投标方案(技术方案)
- 围手术期管理规范
- 2024年-会计师事务所审计保密协议
- 《中外舞蹈史》考试复习题库(含答案)
- GB/T 19923-2024城市污水再生利用工业用水水质
评论
0/150
提交评论