《深度学习 》课件 第10章-深度迁移学习_第1页
《深度学习 》课件 第10章-深度迁移学习_第2页
《深度学习 》课件 第10章-深度迁移学习_第3页
《深度学习 》课件 第10章-深度迁移学习_第4页
《深度学习 》课件 第10章-深度迁移学习_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

10深度迁移学习目录

|

CONTENTS迁移学习概述1基于微调的方法2基于冻结CNN层的方法3渐进式学习方法4基于对抗思想的方法56相关数据集迁移学习概述11.1迁移学习概述核心定义机器学习传统假设:训练集与测试集同分布迁移学习目标:跨分布/跨领域知识复用类比举例:中国象棋→国际象棋、自行车→摩托车核心问题:如何挖掘新旧任务之间的相似性适用场景场景1:数据标注成本高目标数据标注稀缺→迁移相似领域已标注数据场景2:冷启动问题跨领域推荐(如图书→电影推荐)场景3:小样本泛化需求传统模型易过拟合→迁移预训练知识提升鲁棒性场景4:数据分布偏移动态环境(如时间/空间变化)→自适应调整模型1.2深度迁移学习概述定义利用深度学习模型(如神经网络)迁移跨领域知识核心价值降低训练成本(时间/数据/算力)案例:COVID-19早期X光检测(小数据高精度)与传统迁移学习的区别强调深度模型的特征抽象能力可处理更复杂的非线性关系与其他学习范式的对比半监督学习:同分布、目标域无标签多任务学习:任务间同时相互增强多视图学习:多模态数据联合优化1.3深度迁移学习方法分类基于模型调整的方法方法1:微调(Fine-tuning)步骤:预训练模型→目标数据微调部分/全部参数代表算法:ImageNet预训练模型+领域自适应微调方法2:冻结CNN层(FrozenLayers)原理:冻结底层视觉特征,仅调整高层分类器适用场景:目标数据与源数据底层特征相似渐进式学习(ProgressiveLearning)策略:保留部分预训练层+添加新层逐步训练优势:平衡旧知识保留与新知识学习对抗方法(Adversarial-based)核心思想:特征对齐(源域与目标域分布一致化)代表算法:DANN(域对抗神经网络)基于微调的方法22.1核心概念与价值定义与核心思想

微调(Fine-tuning):在预训练模型(如ImageNet训练的ResNet)基础上,通过调整部分/全部参数适配新任务。类比:像“改造已有建筑”而非“从头盖楼”。核心目标:知识复用:利用源任务(如通用图像分类)的底层特征(边缘、纹理)加速目标任务(如医疗影像诊断)。成本控制:减少数据需求与训练时间(案例:CIFAR-10微调仅需1/10训练时间)。价值:小数据高效训练(如数字遗产保护仅需千级样本)。跨领域泛化(如工业缺陷检测→艺术品瑕疵识别)。挑战:灾难性遗忘:过度调整导致源任务知识丢失(如模型忘记ImageNet类别)。原因:参数更新覆盖旧任务的关键权重。解决方案:弹性权重固化(EWC)或渐进解冻(ProgressiveUnfreezing)。负迁移:源与目标任务差异过大导致性能下降(如语音模型→图像分类)。预防:计算领域相似性(如MMD距离、CORAL指标)。2.2微调方法的基本流程步骤1:选择预训练模型评估标准:任务相关性:源与目标任务的语义关联(如自然图像→医学图像)。特征空间重叠性:通过t-SNE可视化对比特征分布。反例警示:❌语音识别模型(频谱特征)→图像分类(空间特征)。步骤2:模型结构调整输出层改造:代码示例(PyTorch):model.fc=nn.Linear(model.fc.in_features,num_classes)

#替换ResNet最后一层

中间层调整:添加/删除层以适应目标复杂度(如添加Dropout层防止过拟合)。步骤3:选择微调策略

策略适用场景训练参数量全模型训练大数据+高算力100%冻结底层+微调高层小数据+中等特征相似性30%-70%冻结卷积层+训练分类器小数据+高特征相似性<10%2.3场景驱动的策略选择场景一:小数据+高特征相似性

操作:冻结卷积层,仅训练分类器(策略3)。案例:任务:ImageNet预训练模型→猫狗分类(2类)。步骤:移除原始1000类输出层,替换为2类全连接层。冻结所有卷积层,仅训练新分类器。结果:训练时间减少80%,准确率>95%。

场景二:小数据+低特征相似性

操作:冻结部分底层,微调高层(策略2)。案例:任务:自然图像模型→油画风格分类(低相似性)。步骤:冻结前80%卷积层(保留边缘检测能力)。微调后20%层+全连接层(学习风格纹理)。结果:准确率提升15%(对比随机初始化)。

场景三:大数据+低特征相似性

操作:放弃迁移,重新训练(或全模型微调)。案例:任务:英文文本模型→中文文本分类(字符级差异)。结论:从头训练效果优于微调(F1分数高8%)。

场景四:大数据+高特征相似性

操作:全模型微调(策略1)。案例:任务:卫星图像分类→无人机图像分类。技巧:初始低学习率(0.001)避免震荡。2.4实际应用案例详解案例1:数字遗产保护(Sabatellietal.)

背景:文物数字图像稀缺,标注成本极高。方法:预训练:ImageNet(通用物体特征)。微调:全模型解冻,学习文物独特纹理与破损特征。结果:仅需5000张图像,分类精度达92%。

案例2:恶意软件检测(MCFT-CNN)

模型结构(配图:ResNet改造示意图):冻结层:所有卷积层(保留ImageNet低级特征)。新增层:定制全连接层(恶意样本行为模式分类)。优化细节:数据增强:随机噪声注入模拟变种恶意软件。损失函数:FocalLoss解决类别不平衡。

基于冻结CNN层的方法33.1冻结CNN层的方法方法论本质·

数学表达:θ=[θfrozen;θfinetune]·

特征空间保持性:CNN层的卷积核保持预训练特征提取能力设计哲学·

底层特征通用性:浅层捕捉边缘/纹理等通用特征·

高层特征特异性:深层学习语义级任务相关特征优势:·

计算效率提升(GPU显存占用减少40-60%)·

防止小数据过拟合(CIFAR-10对比实验数据)·

保留通用特征提取能力局限:·

启发式选择缺乏理论保证·

领域差异敏感性问题·

高层语义信息丢失风险3.2层冻结策略与选择方法011经验法则实践022自动化选择方法·

相似度矩阵方法o

迁移指标公式:Sij=cos(fi(source),fj(target))o

层对应关系热力图·

元学习框架o

双层优化结构o

迁移路由自动选择机制033动态冻结策略·

基于训练过程的动态调整o

验证集损失监控的早停解冻o

梯度幅值分析·

渐进式解冻策略·

冻结比例建议:o

小数据集:冻结80-100%CNN层o

大数据集:冻结50-70%CNN层·

典型网络冻结案例:o

VGG16:冻结前10个卷积层o

ResNet50:冻结前30个卷积层3.3研究进展改进方向:·

混合冻结策略(部分层解冻)·

自适应解冻阈值学习·

结合领域对抗训练(DANN框架整合)前沿研究进展·

动态神经网络剪枝+冻结·

多模态冻结迁移(CLIP模型跨模态应用)·

联邦学习中的分层冻结策略(保护隐私同时保持性能)

渐进式学习方法44.1背景与动机深度迁移学习的困境·

传统方法:微调(Fine-tuning)vs冻结层(FrozenLayers)·

核心矛盾:▶任务相关性利用vs灾难性遗忘(CatastrophicForgetting)▶参数可复用性vs功能完整性保留·

典型案例:ImageNet预训练模型在医疗影像分析中的迁移失败传统方法的局限性微调方法的缺陷·

破坏性参数更新:新任务覆盖旧任务权重(参数漂移)·

任务序列敏感:不同顺序的迁移导致最终性能差异显著冻结方法的不足·

特征表达受限:浅层通用特征无法适配高层任务特性·

任务关联性未被显式建模4.2原理与架构核心创新点·

多列并行架构▶每个任务独立保留完整网络(称之为一个column)▶旧任务参数永久冻结▶新任务网络横向扩展知识传递机制·

跨列特征融合▶历史层输出加权连接到新任务网络▶保留原始任务的中间表征完整性渐进式神经网络结构·

横向扩展的Columns(每个任务对应一个垂直网络)·

纵向层级连接(用箭头标注跨Column的加权连接)·

标注关键组件:▶参数冻结区▶动态加权模块▶新任务实例化过程4.3优缺点方法论突破灾难性遗忘免疫机制旧任务参数完全冻结历史知识通过特征连接保留可解释的任务关联建模α权重反映跨任务影响程度动态可扩展性支持无限任务链式扩展主要瓶颈·

空间复杂度爆炸:参数量随任务数线性增长(O(n)复杂度)10个任务时内存占用增加8.7倍·

训练复杂度提升:跨Column连接导致计算图复杂度指数上升·

负迁移风险:不相关任务可能引入噪声基于对抗思想的方法55.1背景·

迁移学习的目标:将源域知识迁移到目标域,解决目标域数据稀缺问题。·

关键挑战:o

源域与目标域的数据分布差异(DomainShift)。o

如何提取域不变特征(Domain-InvariantFeatures)。·

传统方法局限:o

依赖显式特征对齐(如MMD),灵活性不足。o

无法动态适应复杂数据分布差异。5.2对抗学习的本质·

对抗假设:o

理想特征应满足:a.

任务可区分性:对目标任务(如分类)有效。b.

域不可区分性:源域与目标域特征分布一致。·

对抗学习层的作用:o

作为“域分类器”,区分特征来自源域还是目标域。o

若域分类器性能差,说明特征具有域不变性(目标达成)。·

类比GAN:生成器(特征提取器)vs判别器(域分类器)的对抗博弈。5.3架构·

网络架构(右图):o

共享特征提取器(CNN主干)。o

双分支结构:§

任务分类器:主任务(如分类)§

域分类器:二分类(源域/目标域)·

关键模块:o

梯度反转层(GradientReversalLayer,GRL):§

正向传播:直接传递特征§

反向传播:反转梯度方向(对抗训练)o

损失函数设计:§

分类损失(交叉熵)+对抗损失(域混淆损失)。5.4算法详解·

核心贡献:i.

提出一种端到端的对抗迁移框架,支持稀疏标记目标域数据。ii.

设计域混合损失函数(DomainConfusionLoss)。·

算法步骤:i.

特征提取:共享CNN提取源域/目标域特征。ii.

任务分类器训练:最小化分类损失(固定域分类器参数)。iii.

域分类器对抗训练:最大化域混淆损失(固定特征提取器参数)。iv.

交替优化:迭代更新两类损失。·

数学公式:i.

损失函数:5.5总结·

矛盾性分析:o

任务分类损失要求特征可区分(如猫vs狗)。o

对抗损失要求特征不可区分(源域vs目标域)。·

解决方案:o

交替优化:固定一方参数,优化另一方(类似GAN的minimax博弈)。o

动态权重调整:逐步增大

λλ,强化域不变性。·

与GAN的差异:GAN生成数据分布,此处生成域不变特征。·

典型应用场景:o

跨域图像分类(如真实照片→艺术画作)。o

语义分割(合成数据→真实场景)。o

实验结果:在Office-31、VisDA等数据集上提升显著。·

挑战与局限性:o

负迁移风险:过度混淆特征可能损害主任务性能。o

超参数敏感:λλ

和网络结构需精细调参。o

计算开销:双分支结构增加训练成本。相关数据集66.1ImageNet数据集·

核心参数o

2009年发布,目前包含14,197,122张图像o

1000个细粒度类别(如"灰狼"与"北极狼"单独分类)o

平均每类1300张图像,最高类别达3400张·

数据构造特征o

WordNet词库的层级结构(22个子树分类体系)o

图像分辨率从300×300到4000×4000不等o

标注质量保证机制(三次独立标注验证)·

历史里程碑o

2012年AlexNet将错误率从26%降至15%o

催生ResNet、Transformer等突破性架构·

ILSVRC挑战赛体系o

包含定位(Localization)与检测(Detection)子任务o

2017年后停办,因其目标已实现(人类水平错误率5%)·

领域影响o

开创"大数据+深度网络"研究范式o

形成模型架构的标准化评估基准6.2SHIFTs数据集·

三维数据空间o

机器翻译:覆盖51种语言对,包含方言变体o

天气预测:整合全球15万气象站的异构数据o

自动驾驶:包含极端天气场景的激光雷达数据·

数据集特性o

时间跨度:2018-2022年持续更新o

偏移类型:协变量偏移+标签偏移组合o

评估指标:鲁棒准确率(RA)与退化系数(DC)·

典型验证案例o

机器翻译中的低资源语言突变(如乌克兰语2022年语料激增)o

气候突变下的预测模型失效分析(如2021北美热穹顶事件)o

自动驾驶系统在沙尘暴中的感知退化·

迁移学习验证维度o

域自适应性能(DomainAdaptation)o

零样本迁移能力(Zero-shotTransfer)o

灾难性遗忘程度(CatastrophicForgetting)6.3LTD数据集·

数据特征o

采集周期:跨越8个月(涵盖四季完整周期)o

传感器类型:FLIRA700红外热像仪(640×512分辨率)o

环境变量:温度(-30℃~50℃)、湿度(10%~95%RH)·

概念漂移类型o

渐进式漂移(如设备老化导致的成像衰减)o

突变式漂移(如暴雪天气造成的热辐射骤变)o

周期性漂移(昼夜温差导致的特征分布变化)·

典型应用场景o

工业设备监测(轴承温度模式迁移)o

野生动物追踪(季节性的体温特征变化)o

建筑能耗分析(不同气候区的热流失模式)·

验证方法论o

滑动窗口验证(SlidingWindowValidation)o

漂移检测指标(如HinkleyTest)o

在线学习性能曲线(Accuracy-over-Time)总结与展望77.1总结深度迁移学习的核心思想与价值·

定义:通过复用源域知识提升目标域任务性能,降低训练成本,增强泛化性。·

技术关联:o

通用人工智能(AGI):复用跨任务知识(如ChatGPT的多任务泛化)。o

终身学习(LifelongLearning):通过迁移实现知识持续积累。·

关键价值:o

数据/算力高效性:减少目标域标注数据需求。o

模型复用性:避免从零训练(如医疗领域小样本场景)。核心挑战:灾难性遗忘与域适应·

灾难性遗忘(CatastrophicForgetting):o

原因:微调导致源域知识被覆盖(如全连接层权重剧烈变化)。o

后果:模型无法同时适应新旧任务(如ImageNet预训练模型在医疗图像分类中的性能下降)。·

域适应问题(DomainShift):o

源域与目标域差异:数据分布不匹配(如自然图像vs.卫星图像)。o

案例:冻结预训练层可能导致过度偏向源域特征(Over-Biasing)。7.1总结微调(Fine-Tuning)·

原理:全网络参数调整(如BERT下游任务微调)。·

适用场景:源域与目标域高度相关(如自然语言理解任务迁移)。·

缺点:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论