版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十一章独立于算法的机器学习.11.1模式识别中的哲学这里讨论的是一些独立于具体识别算法的一般性原理,但可以适用于任何一个特定的识别方法:没有免费午餐定理;丑小鸭定理;Occam剃刀原理。没有免费的午餐定理
〔NFL,NoFreeLunchTheorem〕不存在一个与具体应用无关的,普遍适用的“最优分类器〞;学习算法必须要作出一个与问题领域有关的“假设〞,分类器必须与问题域相适应。丑小鸭定理〔UglyDuckling〕不存在与问题无关的“最优〞的特征集合或属性集合;也同样不存在与问题无关的模式之间的“相似性度量〞。Occam剃刀原理设计者不应该选用比“必要〞更加复杂的分类器,“必要〞是由训练数据的拟合情况决定的;在对训练数据分类效果相同时,“简单的〞分类器往往优于“复杂的〞分类器;根据“没有免费午餐定理〞,不能说“简单的〞分类器对“复杂的〞分类器具有天生的优越性,但在现实世界中遇到的各种问题,这种优越性往往是存在。11.2分类设计的重采样技术分类器设计的重采样技术也被称为“自适应的权值重置和组合〔arcing,adaptivereweightingandcombining〕;这类方法的主要思想是利用同一个训练样本集合构造多个分类器,然后以某种方式将这些分类器组合成一个分类器;主要方法包括:bagging算法和boosting算法bagging算法从大小为n的原始数据集D中独立随机地抽取n’个数据(n’<n),形成一个自助数据集;重复上述过程,产生出多个独立的自助数据集;利用每个自助数据集训练出一个“分量分类器〞;最终的分类结果由这些“分量分类器〞各自的判别结果投票决定。boosting算法boosting算法同样是利用训练样本集合构造多个分量分类器,它只要求这个分量分类器是一个弱分类器—准确率比平均性能好即可。2类问题,3个分量分类器的训练算法:在数量为n的原始样本集D中随机选取n1个样本构成D1,利用D1训练出一个分类器C1;在样本集D-D1中选择被C1正确分类和错误分类的样本各一半组成样本集D2,用D2训练出一个分类器C2;将样本集D-D1-D2中所有C1和C2分类结果不同的样本组成样本集D3,训练出一个分类器C3;boosting的分类算法对新的样本x进行分类,如果C1和C2判别结果相同,那么将x判别为此类别,否那么以C3的结果作为x的类别;原始样本集分量分类器组合分类器AdaBoost方法AdaBoost(adaptiveboosting)是boosting方法的一个重要变形,一般所说的boosting方法均是指AdaBoost;AdaBoost方法中,设计者可以不断地增加分量分类器,直到到达足够小的错误率为止;总体分类结果是由各分量分类器加权平均得到,权重由分量分类器的错误率确定。AdaBoost方法begininitializeD,kmax,W1(i)
1/n,i=1,…,n;
k0;dokk+1
训练使用按照Wk(i)采样D的弱分类器Ck;
Ek
用Wk(i)采样D的样本集测量Ck的训练误差;
untilk=kmax;
endAdaBoost方法算法中Wk(i)为每一步迭代中对每个样本的加权,Zk是归一化因子,Ck为第k个分量分类器,αk为对Ck的加权;总体的判别函数由各分量分类器的加权平均得到: 其中为Ck分类器给出的判别结果。AdaBoost方法的推广能力AdaBoost方法实际上是增加了分类器的复杂程度,但实践说明此方法出现“过拟合〞的现象极少,这是此方法最吸引人的地方。针对特征的Boosting算法特征选择:就是从一组数量为n的特征中选择出数量为m的最优特征;最优特征组合的评价标准;选择出最优特征组合的算法;Boosting可以作为特征选择的方法。AdaBoost特征选择算法Givenexamples(x1,y1),…,(xn,yn),whereyi=0,1fornegativeandpositiveexamplesrespectively;Initializeweightsw1,i=1/2m,1/2lforyi=0,1respectively,wheremandlarethenumberofnegativesandpositivesrespectively;Fort=1,…,T:Normalizetheweights: sothatwtisaprobabilitydistribution.AdaBoost特征选择算法Foreachfeature,j,trainaclassifierhjwhichisrestrictedtousingasinglefeature.Theerrorisevaluatedwithrespecttowt,Choosetheclassifierht,withthelowesterrorUpdatetheweights: whereei
=0ifexamplexiisclassifiedcorrectly,ei
=1otherwise,andThefinalclassifieris:11.3分类器的评价和比较在分类器设计好后,我们只能计算出分类器在训练样本集上的错误率,而不能计算出在测试样本集上的错误率;可以采用统计量估计中的重采样技术来对测试样本错误率进行估计,具体方法有:交叉验证;刀切法;自助法;交叉验证(CrossValidation)简单验证:将数量为n的训练样本集D分成两局部,一局部作为训练集,用于训练分类器,另一局部作为验证集,用于估计测试错误率;m-重交叉验证:将D分成m个集合,每个集合包含n/m个样本,每次用m-1个集合的样本训练分类器,用剩余的一个集合测试,最后将m个测试结果平均,作为测试错误率的估计;刀切法〔Jackknife〕刀切法实际上是m=n时的m-重交叉验证。在数量为n的样本集D中每次留一个样本,用其它样本训练分类器,用留下的一个样本测试错误率,测试错误率为: p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 师德师风教育演讲稿
- 易错点纠错练07 动词时态、语态易错点-备战2025年高考英语考试易错题含解析
- 年度员工发言稿(合集15篇)
- 南方家居产品知识
- 第1课《沁园春 雪》 统编版语文九年级上册
- 年会的致词(范文8篇)
- 硫化铅量子点辅助近红外二区荧光成像技术在荧光成像引导切除宫颈肿瘤的应用研究
- 二零二五年个人企业股权代持补充协议2篇
- 应急预案的地质灾害防治
- 钟表行业维修技巧培训总结
- 【人教版化学】必修1 知识点默写小纸条(答案背诵版)
- 江苏省无锡市2023-2024学年八年级上学期期末数学试题(原卷版)
- 对口升学语文模拟试卷(10)-江西省(解析版)
- 2024年全国统一高考数学试卷(新高考Ⅱ)含答案
- 一年级二年级奥数暑期培优题库
- 老年痴呆症患者生活陪护协议
- 2024年-急诊气道管理共识课件
- 小学语文中段整本书阅读的指导策略研究 中期报告
- 浙教版2023-2024学年数学八年级上册期末复习卷(含答案)
- 运动训练与康复治疗培训资料
- 老师呀请你别生气教学反思
评论
0/150
提交评论