下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
集成学习方法综述随着科学技术的飞速发展,需要解决的实际任务越来越复杂,因此产生一种具有较强泛化能力的分类器成为研究者面临的一项具有挑战性的任务,实验表明在大多数情况下,多个基学习器结合起来的犯法能力会更好相比于单个学习器。事实上,集成学习之所以被人们广泛使用原因在于一个预测性能比较差的学习器经过一定的结合策略可以提高其性能使变成一个强学习器预测性能变强,所以基学习器通常也被称为弱学习器ADDINEN.CITE<EndNote><Cite><Author>SánchezCrisostomo</Author><Year>2014</Year><RecNum>81</RecNum><DisplayText><styleface="superscript">[33,34]</style></DisplayText><record><rec-number>81</rec-number><foreign-keys><keyapp="EN"db-id="vf20xpfr5sa0seeewww5a50mw9dv5tre2pa5"timestamp="1615226267">81</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>SánchezCrisostomo,Juan</author><author>Alejo,Roberto</author><author>LópezGonzález,Erika</author><author>Valdovinos,Rosa</author><author>PachecoSánchez,J</author></authors></contributors><titles><title>EmpiricalAnalysisofAssessmentsMetricsforMulti-classImbalanceLearningontheBack-PropagationContext</title></titles><dates><year>2014</year></dates><urls></urls></record></Cite><Cite><Author>Zhai</Author><Year>2017</Year><RecNum>82</RecNum><record><rec-number>82</rec-number><foreign-keys><keyapp="EN"db-id="vf20xpfr5sa0seeewww5a50mw9dv5tre2pa5"timestamp="1615226298">82</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Zhai,Junhai</author><author>Zhang,Sufang</author><author>Wang,Chenxi</author></authors></contributors><titles><title>TheclassificationofimbalancedlargedatasetsbasedonMapReduceandensembleofELMclassifiers</title><secondary-title>InternationalJournalofMachineLearning&Cybernetics</secondary-title></titles><periodical><full-title>InternationalJournalofMachineLearning&Cybernetics</full-title></periodical><pages>1009-1017</pages><volume>8</volume><number>3</number><dates><year>2017</year></dates><urls></urls></record></Cite></EndNote>[33,34],集成学习过程如图2.1所示。图2.SEQ图2.\*ARABIC3 集成学习过程示意图集成学习是机器学习算法之一,应用范围十分广泛,涉及到的领域众多,许多学者对集成学习的研究日益深入。关于集成学习的研究热点可以归结两种,一是Hansen和SalamonADDINEN.CITE<EndNote><Cite><Author>Hansen</Author><Year>2002</Year><RecNum>75</RecNum><DisplayText><styleface="superscript">[35,36]</style></DisplayText><record><rec-number>75</rec-number><foreign-keys><keyapp="EN"db-id="vf20xpfr5sa0seeewww5a50mw9dv5tre2pa5"timestamp="1615225503">75</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Hansen,L.K.</author><author>Salamon,Peter</author></authors></contributors><titles><title>Neuralnetworkensembles</title><secondary-title>IEEETransactionsonPatternAnalysis&MachineIntelligence</secondary-title></titles><periodical><full-title>IEEETransactionsonPatternAnalysis&MachineIntelligence</full-title></periodical><pages>993-1001</pages><volume>12</volume><number>10</number><dates><year>2002</year></dates><urls></urls></record></Cite><Cite><Author>Kearns</Author><Year>1994</Year><RecNum>77</RecNum><record><rec-number>77</rec-number><foreign-keys><keyapp="EN"db-id="vf20xpfr5sa0seeewww5a50mw9dv5tre2pa5"timestamp="1615225614">77</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Kearns,MichaelJ.</author><author>Li,Ming</author><author>Valiant,LeslieG.</author></authors></contributors><titles><title>LearningBooleanFormulae</title><secondary-title>JournaloftheAcm</secondary-title></titles><periodical><full-title>JournaloftheAcm</full-title></periodical><pages>1298-1328</pages><volume>41</volume><number>6</number><dates><year>1994</year></dates><urls></urls></record></Cite></EndNote>[35,36]提出的由一组分类器组合而成的预测结果通常比最好的一个分类器的预测结果更为准确一点。另一个是Schapire的结论,他认为弱学习器可以被提升为强学习器ADDINEN.CITE<EndNote><Cite><Author>Schapire</Author><Year>1989</Year><RecNum>78</RecNum><DisplayText><styleface="superscript">[37]</style></DisplayText><record><rec-number>78</rec-number><foreign-keys><keyapp="EN"db-id="vf20xpfr5sa0seeewww5a50mw9dv5tre2pa5"timestamp="1615225736">78</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Schapire,R.E.</author></authors></contributors><titles><title>Thestrengthofweaklearnability</title><secondary-title>ProceedingsoftheSecondAnnualWorkshoponComputationalLearningTheory</secondary-title></titles><periodical><full-title>ProceedingsoftheSecondAnnualWorkshoponComputationalLearningTheory</full-title></periodical><pages>197-227</pages><volume>5</volume><number>2</number><dates><year>1989</year></dates><urls></urls></record></Cite></EndNote>[37]。集成学习的思想主要是基于集合的泛化能力通常强于单个学习器这一理论基础,Dieterich给出了以下三个解释:第一,训练数据集不能为选择一个最佳学习器提供足够的信息;二是搜索过程中的学习算法可能不完善;第三是假设被搜索的空间可能不包含真实的目标函数。集成学习主要分为两个过程:训练弱学习器和有选择地将各个基学习器组合成强学习器。所以如何选择学习算法和训练数据集,并对所选算法进行参数化,使学习能力较弱的学习器尽可能多样化以及如何根据基学习器的不同输出最终确定学习结果是集成学习的重点。为了提高基学习器的多样性,目前普遍采用以下几种方法训练,第一种是对于不同的基学习器我们通常采用不同的学习算法进行训练,或者对每个学习器使用不同参数设置来训练;第二种是用不同的数据集训练基学习器,例如对训练样本进行二次抽样,对属性进行操作。第三种方法就是上述两种方法的混合即同时使用多种机制。可能会认为使用更多的基学习器会带来更好的效果,然而,Zhou等人证明了在生成一组基础学习者后,选择部分基学习器而不是全部基学习器组成一个整体效果更好ADDINEN.CITE<EndNote><Cite><Author>Zhou</Author><Year>2002</Year><RecNum>152</RecNum><DisplayText><styleface="superscript">[38]</style></DisplayText><record><rec-number>152</rec-number><foreign-keys><keyapp="EN"db-id="vf20xpfr5sa0seeewww5a50mw9dv5tre2pa5"timestamp="1620376665">152</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Zhou,Z.H.</author><author>Wu,J.</author><author>Tang,W.</author></authors></contributors><titles><title>Ensemblingneuralnetworks:Manycouldbebetterthanall</title><secondary-title>ArtificialIntelligence</secondary-title></titles><periodical><full-title>ArtificialIntelligence</full-title></periodical><pages>239-263</pages><volume>137</volume><number>1–2</number><dates><year>2002</year></dates><urls></urls></record></Cite></EndNote>[38]。集成学习中最具代表的就是Boosting和Bagging两种算法。(1)Boosting算法 Boosting算法是一个监督分类方法,将多个弱学习器结合成为一个强学习器,具体步骤包括在:给每个样本赋予相等的权重,所有基学习器的训练在一个循环中完成,在循环过程中,选择一个学习算法进行训练,计算当前基学习器在这个数据集上产生的错误率以此来确定该基学习器的权重,最后不断调整这个样本的权重,调整权重的目的将那些分类错误的数据进性调整使其下一轮分类正确,经过多次训练后得到一个效果好的学习器。图2.SEQ图2.\*ARABIC4 Boosting算法族的框架(2)Bagging算法 利用不同的数据训练个体学习器是提高基学习器多样性的一种有效途径,Bagging算法就是受这个思想的启发,1996年Breimen提出BaggingADDINEN.CITE<EndNote><Cite><Author>Bbeiman</Author><Year>2010</Year><RecNum>153</RecNum><DisplayText><styleface="superscript">[39]</style></DisplayText><record><rec-number>153</rec-number><foreign-keys><keyapp="EN"db-id="vf20xpfr5sa0seeewww5a50mw9dv5tre2pa5"timestamp="1620377939">153</key></for
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度铲车租赁及保养维护合同范本2篇
- 二零二五版影视作品独家发行及宣传推广合同3篇
- 标题5:2025版智能交通系统建设承包合同范本3篇
- 二零二五年矿山资产转让与矿山安全生产监督合同3篇
- 浙江省购房合同2025年度7月1日起实施修订2篇
- 二零二五年度水电安装与施工监理兼职合同2篇
- 二零二五版钣金展柜环保认证与绿色产品采购合同3篇
- 二零二五版单位间融资保证借款合同3篇
- 二零二五年钢筋原材料市场风险管理合同2篇
- 二零二五版个性化家庭货物配送服务合同范本3篇
- 河南省郑州外国语高中-【高二】【上期中】【把握现在 蓄力高三】家长会【课件】
- 天津市武清区2024-2025学年八年级(上)期末物理试卷(含解析)
- 2025年中煤电力有限公司招聘笔试参考题库含答案解析
- 企业内部控制与财务风险防范
- 高端民用航空复材智能制造交付中心项目环评资料环境影响
- 建设项目施工现场春节放假期间的安全管理方案
- 胃潴留护理查房
- 污水处理厂运营方案计划
- 山东省高等学校精品课程
- 三菱张力控制器LE-40MTA-E说明书
- 生活垃圾填埋场污染控制标准
评论
0/150
提交评论