




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、迁移学习算法研究迁移学习算法研究汇报人:孙钰沣101迁移学习(Transfer Learning)汇报内容02基于实例的迁移学习2迁移学习传统的机器学习假设训练数据与测试数据服从相同的数据分布在许多情况下,由于训练数据过期则不满足同分布的假设情况,我们不得不去标注新数据,但是标注新数据又非常昂贵。而且舍弃掉大量的不同分布下的过期数据又是很浪费的,在这种情况下,迁移学习变得非常重要,因为迁移学习是可以从现有数据中迁移知识,用来帮助将来的学习。3迁移学习机器与人机器学习机器学习人人优点计算机可以根据现有的数据进行自动的学习,整理出有用的知识,并应用在问题上“举一反三”“活到老,学到老”缺点从零开始
2、,并不借鉴以前学到的知识,也不对学到的知识进行改进和发展无法处理过多的数据4迁移学习传统的机器学习基于统计学习。统计学习虽然在其能力范围内显示出了很好的学习效果。但是,由于统计学习是基于数理统计,这就要求学习的知识和应用的问题必须具有相同的统计特征。于是,一般情况下,统计学习只能解决相同领域内、同一问题的学习,因为当学习和应用的场景发生迁移后,统计特征往往发生改变,从而影响统计学习的效果。然而,在现实生活中,人们在学习时,例如,我们在学习物理的时候,需要大量借助以往的数学基础。人在学习时,具有在不同领域、不同问题之间进行迁移转移的能力,这正是机器学习所缺乏的。而,这种知识在不同场景之间迁移转化
3、的能力被称为迁移学习(Transfer Learning)5迁移学习 迁移学习是人的基本学习技能,但是迁移并不适用于每一件事情上,当两当两种学习在内容和方法上,种学习在内容和方法上,或两种学习的刺激和反映或两种学习的刺激和反映无共同之处时,就不会有无共同之处时,就不会有迁移作用的发生。若两种迁移作用的发生。若两种学习有共同因素时,就会学习有共同因素时,就会产生迁移产生迁移。共同因素越多,迁移作用就越大。6迁移学习迁移学习的定义NIPS 2005对迁移学习给出了一个比较有代表性的定义:transfer learning emphasizes the transfer of knowledge a
4、cross domains, tasks, and distributions that are similar but not the same. 翻译成中文就是说,迁移学习强调的是在不同但是相似的领域不同但是相似的领域、任务任务和分布之间进行知识和分布之间进行知识的迁移。即,给定源域DS和学习任务TS,一个目标域DT和学习任务TT,迁移学习致力于用DS和TS中的知识,帮助提高DT中目标预测函数fT( )的学习。并且有DSDT或TSTT。7基于实例的迁移学习如果训练数据和测试数据的分布不同,传统的机器学习效果可能会非常差。正因为如此,我们希望能够设计出一种算法来针对训练数据和测试数据来自不同
5、的数据源的情况。我们考虑这样的问题:辅助域(数据多)目标域(数据少)不同分布模型测试数据同分布8基于实例的迁移学习基于Boosting的迁移学习算法基本思想是,尽管辅助数据和目标数据或多或少会有些不同,但是辅助数据中应该还是会存在一部分比较适合用来训练一个有效的分类模型,并且适应测试数据。于是,我们的目标就是从辅助数据中找出那些适合测试数据的实例,并将这些实例迁移到目标数据的学习中去。9基于实例的迁移学习具体来说,推广了传统的AdaBoost算法,使之具有迁移学习的能力,从而能够最大限度的利用辅助数据来帮助训练目标的分类。关键的想法是利用boosting的技术来过滤掉辅助数据中那些与目标数据最
6、不像的数据。其中,boosting的作用是建立一种自动调整权重的机制,于是重要的辅助数据的权重将会增加,不重要的辅助数据的权重将会减小。调整权重之后,这些带权重的辅助数据将会作为额外的训练数据,与目标数据一起从来提高分类模型的可靠度。于是,我们得到了一个新的boosting算法,称为Transfer AdaBoost,简称TrAdaBoost10基于实例的迁移学习TrAdaboost算法原理(1)初始化训练数据(每个样本)的权值分布:如果有N个样本,则每一个训练的样本点最开始时都被赋予相同的权重:1/N。(2)训练弱分类器。具体训练过程中,如果某个样本已经被准确地分类,那么在构造下一个训练集中
7、,它的权重就被降低;相反,如果某个样本点没有被准确地分类,那么它的权重就得到提高。同时,得到弱分类器对应的话语权。然后,更新权值后的样本集被用于训练下一个分类器,整个训练过程如此迭代地进行下去。 (3)将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后,分类误差率小的弱分类器的话语权较大,其在最终的分类函数中起着较大的决定作用,而分类误差率大的弱分类器的话语权较小,其在最终的分类函数中起着较小的决定作用。换言之,误差率低的弱分类器在最终分类器中占的比例较大,反之较小。11基于实例的迁移学习(d)TrAdaBoost算法通过增加误分类的目标数据的权重,同时减少误分类辅助数据的权
8、重,来使得分类面朝正确的方向移动12基于实例的迁移学习问题定义定义定义(基本符号基本符号): Xa为辅助样例空间(auxiliary in-stance space),设Xb为目标样例空间(target instance space),也就是需要被分类的样例空间。 设Y =0,1为类空间。在本工作中,我们将问题简化为两分类问题。对于多分类问题,可以很自然地从两分类问题推广得之。 训练数据T(X=XbXa)Y是从目标样例空间和辅助样例空间中采集得来的。 一个概念c:XY,将样本xX映射到其真实的类标c(x)Y上去。13基于实例的迁移学习问题定义定义定义(测试数据集(未标注数据集)测试数据集(未标
9、注数据集)):其中,数据集S是未标注的,且k是集合S中的元素个数。训练数据集T可以划分为两个子集合: 1,2,ttiibSxxXik,其中,当,14基于实例的迁移学习问题定义定义定义(训练训练数据集数据集):其中,c(x)是实例x的真实类标。Ta是辅助训练数据集,Tb是目标训练数据集。n和m分别是辅助训练数据集和目标训练数据集的大小。,1,2, ;,1,2, .aaaaiiiabbbbjjjbTxc xxXinTx c xxXjm,其中,当,其中,当,15基于实例的迁移学习于是,合并起来的训练数据集T=(xi,c(xi)就可以定义如下:,1, ;,1,.diisixinxx innm至此,我们
10、可以定义问题如下:给定一个很小的目标训练数据集Tb,大量的辅助训练数据Ta和一些未标注的测试数据集S,我们的目标就是要训练一个分类器,尽可能减小S上的分类误差。16基于实例的迁移学习17基于实例的迁移学习1tttwb1/ 21/ 21/ 2a任意的都是可以被接受的。本算法中所设的初始权重仅仅是为了方便理论分析。这里 必须小于。但是,为了避免算法停止,当 超过时,我们设置 为。 -1,1,titiitalh xc xintNhTloss 令且为分类器假设 在辅助训练数据集上的损失值18基于实例的迁移学习实验分析我们在三个文本数据集20 Newsgroups,SRAA和Reuters-21578上测试我们算法的效果。在本实验中,我们将TrAdaBoost算法与三个基准算法进行比较,分别是:(1)SVM,即简单的用SVM结合源训练数据Tb进行训练;(2) SVMt,即用SVM结合合并训练集T进行训练(3)AuxSVM,根据SVM的一种迁移学习方法。19基于实例的迁移学习20基于实例的迁移学习21基于实例的迁移学习给出了当只有1%的目标数据是训练数据时,SVM, SVMt,AuxSVM和TrAdaBoost(SVM)的分类错误率。所有的结果都是随机取10次训练数据后的平均结果。迭代次数为100表:当只有1%目标数据是训练数据时的分类错误率22基于实例的迁移学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 租房合同失效协议
- 侦探调查合同协议
- 加盟快运协议合同
- 润滑油佣金协议合同范本
- 少年军校协议合同
- 网络安装协议合同
- 地域保护协议合同
- 单位不签劳动合同协议书
- 用电服务协议合同
- 合同终止后质量保证协议
- 焊工(初级工)技能鉴定考核评分表
- 《牛常见病防治技术》课件
- 膀胱容量与压力测定课件整理
- 地暖施工交接单
- 十二对脑神经的出入颅部位、分布、损伤表现汇总表
- 初中道德与法治八年级第四课书面作业设计样例(第3-4周)
- GB∕T 17626.5-2019 电磁兼容 试验和测量技术 浪涌(冲击)抗扰度试验
- 《检验检测机构监督管理办法》培训结业考核试题附答案
- 基于SolidWorks球阀参数化设计
- 重庆森林工程林业项目营造林检查验收办法(试行)
- 《江南园林分析》ppt课件
评论
0/150
提交评论