版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖据技术集成学习方法(ensemble learnig),王磊 (副教授) 经济信息工程学院,1,2,2,第六章: 集成学习方法,基本概念 bagging boosting 随机森林 选择性集成方法,Data Mining: Concepts and Techniques,10/19/2020,在机器学习中,直接建立一个高性能的分类器是很困难的。 但是,如果能找到一系列性能较差的分类器(弱分类器),并把它们集成起来的话,也许就能得到更好的分类器。 日常生活中,“三个臭皮匠,胜过诸葛亮”,便是体现了这种思想。,集成学习的基本概念,3,Data Mining: Concepts and Tec
2、hniques,10/19/2020,集成学习:图示,4,Data Mining: Concepts and Techniques,10/19/2020,我们一般选定加权平均的方法来构造集成学习的最终学习器。 但是里面的每一个 弱分类器(i)怎样构造呢? 有一些研究,是针对每个学习器都不同构的情况,比如识别一个人,一个学习器考虑脸,另一个考虑步态,另一个考虑指纹。这种研究通常称为Information Fusion,不在我们今天讨论的范畴。 狭义的集成学习(ensemble learning),是用同样类型的学习算法来构造不同的弱学习器的方法。,集成学习:如何构造?,5,Data Mining
3、: Concepts and Techniques,10/19/2020,办法就是改变训练集。 通常的学习算法,根据训练集的不同,会给出不同的学习器。这时就可以通过改变训练集来构造不同的学习器。然后再把它们集成起来。,集成学习:如何构造?,6,Data Mining: Concepts and Techniques,10/19/2020,在原来的训练集上随机采样,可以得到新的训练集。,【随机采样】,7,Data Mining: Concepts and Techniques,10/19/2020,集成学习(Ensemble Learning)是一种机器学习方法,它使用多个(通常是同质的)学习器
4、来解决同一个问题,集成学习中使用的多个学习器称为个体学习器 当个体学习器均为决策树时,称为“决策树集成” 当个体学习器均为神经网络时,称为“神经网络集成” ,集成学习的定义,8,Data Mining: Concepts and Techniques,10/19/2020,由于集成学习技术可以有效地提高学习系统的泛化能力,因此它成为国际机器学习界的研究热点,并被国际权威 T.G. Dietterich 称为当前机器学习四大研究方向之首T.G. Dietterich, AIMag97,问题:对20维超立方体空间中的区域分类 左图中纵轴为错误率 从上到下的四条线分别表示: 平均神经网络错误率 最好
5、神经网络错误率 两种神经网络集成的错误率 令人惊奇的是,集成的错误率比最好的个体还低,L.K. Hansen & P. Salamon, TPAMI90,【集成学习的重要性】,9,Data Mining: Concepts and Techniques,10/19/2020,集成学习技术已经在行星探测、地震波分析、Web信息过滤、生物特征识别、计算机辅助医疗诊断等众多领域得到了广泛的应用,只要能用到机器学习的地方,就能用到集成学习,【集成学习的应用】,10,Data Mining: Concepts and Techniques,10/19/2020,【如何构建好的集成】,11,Data Mi
6、ning: Concepts and Techniques,10/19/2020,既然多个个体的集成比单个个体更好,那么是不是个体越多越好?,更多的个体意味着: 在预测时需要更大的计算开销,因为要计算更多的个体预测 更大的存储开销,因为有更多的个体需要保存,个体的增加将使得个体间的差异越来越难以获得,【个体越多越好吗?】,12,Data Mining: Concepts and Techniques,10/19/2020,集成策略,有多种策略可以将q个弱分类器组合成集成分类器。,13,Data Mining: Concepts and Techniques,10/19/2020,集成策略,14
7、,Data Mining: Concepts and Techniques,10/19/2020,从大小为n的原始数据集D中独立随机地抽取n个数据(n=n),形成一个自助数据集; 重复上述过程,产生出多个独立的自助数据集; 利用每个自助数据集训练出一个“分量分类器”; 最终的分类结果由这些“分量分类器”各自的判别结果投票决定。,基本思想:对训练集有放回地抽取训练样例,从而为每一个基本分类器都构造出一个跟训练集相当大小但各不相同的训练集,从而训练出不同的基本分类器;该算法是基于对训练集进行处理的集成方法中最简单、最直观的一种。,【Bagging算法】,15,Data Mining: Concep
8、ts and Techniques,10/19/2020,【Bagging算法】,16,Data Mining: Concepts and Techniques,10/19/2020,【Boosting算法】,17,Data Mining: Concepts and Techniques,10/19/2020,Boosting流程描述,Step1: 原始训练集输入 Step2: 计算训练集中各样本的权重 Step3: 采用已知算法训练弱学习机,并对每个样本进行判别 Step4: 计算对此次的弱学习机的权重 Step5: 转到Step2, 直到循环到达一定次数或者某度量标准符合要求 Step6:
9、 将弱学习机按其相应的权重加权组合形成强学习机,18,Data Mining: Concepts and Techniques,10/19/2020,核心思想,样本的权重 没有先验知识的情况下,初始的分布应为等概分布,也就是训练集如果有N个样本,每个样本的分布概率为1/N 每次循环一后提高错误样本的分布概率,分错样本在训练集中所占权重增大, 使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。 弱学习机的权重 准确率越高的弱学习机权重越高 循环控制:损失函数达到最小 在强学习机的组合中增加一个加权的弱学习机,使准确率提高,损失函数值减小。,19,Data Mining: Concept
10、s and Techniques,10/19/2020,简单问题演示(Boosting训练过程),20,Data Mining: Concepts and Techniques,10/19/2020,算法boosting数学描述,训练集 (x1,y1), (x2,y2), (xN,yN) xi Rm, yi -1,+1 Dt 为第t次循环时的训练样本分布(每个样本在训练集中所占的概率, Dt总和应该为1) ht:X-1,+1 为第t次循环时的Weak learner,对每个样本给出相应的假设,应该满足强于随机猜测: wt为ht的权重 为t次循环得到的Strong learner,21,Data
11、 Mining: Concepts and Techniques,10/19/2020,样本权重,思想:提高分错样本的权重 反映了strong learner对样本的假设是否正确 采用什么样的函数形式?,22,Data Mining: Concepts and Techniques,10/19/2020,弱学习机权重,思想:错误率越低,该学习机的权重应该越大 为学习机的错误概率 采用什么样的函数形式? 和指数函数遥相呼应:,23,Data Mining: Concepts and Techniques,10/19/2020,AdaBoost算法,24,Data Mining: Concepts
12、 and Techniques,10/19/2020,25,Adaboost 训练过程,D,2,26,Adaboost 训练过程,D,2,27,Adaboost 训练过程,D,2,Adaboost的缺点,28,Data Mining: Concepts and Techniques,10/19/2020,随机森林算法,随机森林算法是Leo Breiman于2001年提出的一种新型分类和预测模型,它具有需要调整的参数少,不容易过度拟合,分类速度快,能高效处理大样本数据等特点。 Bagging和AdaBoost等方法只是通过改变样本的权重来获得不同的弱分类器。随机森林(RF)则通过同时改变样本和特
13、征子集来获得不同的弱分类器。,29,Data Mining: Concepts and Techniques,10/19/2020,随机森林算法,随机森林是采用随机的方式建立一个森林,森林有很多决策树组成,每棵决策树之间没有关联。对于新的测试样本,让森林中的每一棵决策树分布分别进行一下判断,依据多数者投票方法决定样本的类别。,30,Data Mining: Concepts and Techniques,10/19/2020,31,Data Mining: Concepts and Techniques,10/19/2020,完全分裂的方式,32,Data Mining: Concepts a
14、nd Techniques,10/19/2020,随机特征选取,当特征个数M较多时,随机选择m个用于训练决策树。m越小,树的相关性越小,且训练速度越快。 当特征个数M较少时,可以由M个特征进行随机线性组合来产生M 个扩展特征,然后,在(M+M)上随机选择m个特征,构建决策树。 其中,每一个扩展特征的构造如下: 从现有M特征中随机抽取L个,它们的权重系数是-1,+1区间的均匀随机数。然后,由L个已有特征线性组合出扩展特征。,33,Data Mining: Concepts and Techniques,10/19/2020,随机特征数的确定,34,Data Mining: Concepts an
15、d Techniques,10/19/2020,选择性集成算法,一方面,使用更多的学习器将导致更大的计算和存储开销,另一方面,当个体学习器数目增加之后,学习器之间的差异将越来越难以获得。 因此,提出问题:为了达到更好的性能,是否必须使用更多的个体学习器?,35,Data Mining: Concepts and Techniques,10/19/2020,选择性集成的理论分析,36,Data Mining: Concepts and Techniques,10/19/2020,选择性集成的理论分析,37,Data Mining: Concepts and Techniques,10/19/20
16、20,选择性集成的理论分析,38,Data Mining: Concepts and Techniques,10/19/2020,选择性集成的理论分析,39,Data Mining: Concepts and Techniques,10/19/2020,问题求解,40,Data Mining: Concepts and Techniques,10/19/2020,问题求解,41,Data Mining: Concepts and Techniques,10/19/2020,GASEN算法,42,Data Mining: Concepts and Techniques,10/19/2020,论文讲解,基于约束投影的支持向量机选择性集成 ,2009,43,Data Mining
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新生儿肺出血课件
- 适用于政府的2024安全管理系统培训课件
- 全新2024版《经济法》教学课件-轻松学经济法
- 《银行保险介绍》课件
- 2023年中级注册安全工程师之安全生产法及相关法律知识模拟考试试卷A卷含答案 (二)
- 2024版电力安全课件:电气设备安全操作指南
- 2024年新教学方法:《逍遥游》课件制作技巧
- 2漫画集教学:2024年5S培训新体验
- 剖析初中语文复句:2024课件深度分析
- 2024版PCCAD深度探究:复杂设计的核心技术掌控
- 采购计划制定
- 双塔精馏正常操作双塔精馏正常操作
- 振荡指标MACD(波段操作精解)
- 2024年四川航空股份有限公司招聘笔试参考题库含答案解析
- 医学检验专业职业规划书
- 喘证诊疗方案临床疗效评价总结分析
- 慈善协会各项管理制度
- 外研版小学英语六年级上每课时教学反思
- 语法讲解一般将来时课件
- 品牌独家代理合作协议
- 食材、副食品配送方案技术标
评论
0/150
提交评论