版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Chapter4网络优化与正则化第四章DeepLearningAndAutonomousDriving深度学习与自动驾驶应用DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第2页4.4数据预处理4.1网络优化4.3参数初始化方法4.2优化方法4.5逐层归一化目录Content4.6超参数优化4.7网络正则化DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第3页深度学习的矛与盾正则化优化降低模型复杂度经验风险最小DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第4页4.1网络优化结构差异大没有通用的优化算法超参数多非凸优化问题参数初始化逃离局部最优梯度消失(爆炸)问题平坦最小值(FlatMinima)一个平坦最小值的邻域内,所有点对应的训练损失都比较接近大部分的局部最小解是等价的局部最小解对应的训练损失都可能非常接近于全局最小解对应的训练损失DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第5页4.1网络优化高维空间的非凸优化问题鞍点(SaddlePoint)驻点(StationaryPoint):梯度为0的点DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第6页4.1网络优化VISUALIZINGTHELOSSLANDSCAPEOFNNwithoutskipconnectionswithskipconnectionsLiH,XuZ,TaylorG,etal.Visualizingthelosslandscapeofneuralnets[C]//AdvancesinNeuralInformationProcessingSystems.2018:6389-6399.DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第7页4.1网络优化神经网络优化的改善方法更有效的优化算法来提高优化方法的效率和稳定性动态学习率调整梯度估计修正更好的参数初始化方法、数据预处理方法来提高优化效率修改网络结构来得到更好的优化地形优化地形(OptimizationLandscape)指在高维空间中损失函数的曲面形状好的优化地形通常比较平滑使用ReLU激活函数、残差连接、逐层归一化等使用更好的超参数优化方法DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第8页4.2优化方法随机梯度下降DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第9页4.2优化方法小批量随机梯度下降minibatch
几个关键因素:小批量样本数量梯度学习率DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第10页4.2优化方法批量大小的影响批量大小不影响随机梯度的期望,但是会影响随机梯度的方差批量越大,随机梯度的方差越小,引入的噪声也越小,训练也越稳定,因此可以设置较大的学习率而批量较小时,需要设置较小的学习率,否则模型会不收敛4种批量大小对应的学习率设置不同,因此并不是严格对比小批量梯度下降中,每次选取样本数量对损失下降的影响DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第11页4.2优化方法改进方法标准的(小批量)梯度下降学习率学习率衰减AdagradAdadeltaRMSprop梯度Momentum计算负梯度的“加权移动平均”作为参数的更新方向Nesterovacceleratedgradient梯度截断Adamisbetterchoice!Adam梯度方向实际更新方向DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第12页4.2优化方法学习率的影响DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第13页4.2优化方法学习率的衰减梯级衰减(stepdecay)线性衰减(LinearDecay)衰减示意图DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第14页4.2优化方法周期性学习率的调整DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第15页4.2优化方法CyclicalLearningRatesDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第16页4.2优化方法自适应学习率AdagradRMSpropAdadeltaDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第17页5.2优化方法梯度方向优化动量法(MomentumMethod)用之前积累动量来替代真正的梯度。每次迭代的梯度可以看作是加速度DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第18页4.2优化方法梯度方向优化Nesterov加速梯度DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第19页4.2优化方法梯度方向优化Adam算法≈动量法+RMSprop先计算两个移动平均偏差修正更新DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第20页4.2优化方法鞍点几种方法的对比DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第21页4.2优化方法梯度截断梯度截断是一种比较简单的启发式方法,把梯度的模限定在一个区间,当梯度的模小于或大于这个区间时就进行截断按值截断按模截断DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第22页4.2优化方法小结大部分优化算法可以使用下面公式来统一描述概括:gt为第t步的梯度αt为第t步的学习率DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第23页4.3参数初始化方法参数初始化参数不能初始化为0!为什么?对称权重问题!初始化方法预训练初始化随机初始化固定值初始化偏置(Bias)通常用0来初始化DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第24页4.3参数初始化方法随机初始化Gaussian分布初始化
Gaussian初始化方法是最简单的初始化方法,参数从一个固定均值(比如0)和固定方差(比如0.01)的Gaussian分布进行随机初始化。均匀分布初始化参数可以在区间[−r,r]内采用均匀分布进行初始化。DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第25页4.3参数初始化方法随机初始化范数保持性(Norm-Preserving)一个𝑀层的等宽线性网络为了避免梯度消失或梯度爆炸问题,我们希望误差项基于方差缩放的参数初始化正交初始化DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第26页5.3参数初始化方法随机初始化基于方差缩放的参数初始化Xavier初始化和He初始化正交初始化1)用均值为0、方差为1的高斯分布初始化一个矩阵2)将这个矩阵用奇异值分解得到两个正交矩阵,并使用其中之一作为权重矩阵DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第27页5.4数据预处理5.1网络优化5.3参数初始化方法5.2优化方法5.5逐层归一化目录Content5.6超参数优化5.7网络正则化DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第28页5.4数据预处理数据归一化
数据归一化最小最大值归一化标准化PCA
数据归一化对梯度的影响DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第29页5.5逐层归一化逐层归一化
目的更好的尺度不变性内部协变量偏移更平滑的优化地形
归一化方法批量归一化(BatchNormalization,BN)层归一化(LayerNormalization)权重归一化(WeightNormalization)局部响应归一化(LocalResponseNormalization,LRN)DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第30页5.5逐层归一化批量归一化给定一个包含K个样本的小批量样本集合,计算均值和方差批量归一化DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第31页5.5逐层归一化层归一化
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第32页5.5逐层归一化批量归一化VS层归一化DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第33页5.5逐层归一化其他归一化方法DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第34页5.4数据预处理5.1网络优化5.3参数初始化方法5.2优化方法5.5逐层归一化目录Content5.6超参数优化5.7网络正则化DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第35页5.6超参数优化超参数层数每层神经元个数激活函数学习率(以及动态调整算法)正则化系数mini-batch大小优化方法网格搜索随机搜索贝叶斯优化动态资源分配神经架构搜索DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第36页5.6超参数优化超参数假设总共有K个超参数,第k个超参数的可以取𝑚_𝑘个值如果参数是连续的,可以将参数离散化,选择几个“经验”值。比如学习率α,我们可以设置
这些超参数可以有𝑚_1×𝑚_2×···×𝑚_𝐾个取值组合网格搜索α∈{0.01,0.1,0.5,1.0}DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第37页4.7网络正则化神经网络过度参数化拟合能力强泛化性差ZhangC,BengioS,HardtM,etal.Understandingdeeplearningrequiresrethinkinggeneralization[J].arXivpreprintarXiv:1611.03530,2016.DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第38页5.7网络正则化L1/L2约束、数据增强权重衰减、随机梯度下降、提前停止所有损害优化的方法都是正则化。增加优化约束干扰优化过程DeepLearningAndAutonomousDriving深度学习与自动驾驶应用4.7网络正则化
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用5.7网络正则化L1和L2正则化
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用4.7网络正则化神经网络示例不同的正则化系数DeepLearningAndAutonomousDriving深度学习与自动驾驶应用4.7网络正则化提前停止我们使用一个验证集(ValidationDataset)来测试每一次迭代的参数在验证集上是否最优。如果在验证集上的错误率不再下降,就停止迭代DeepLearningAndAutonomousDriving深度学习与自动驾驶应用5.7网络正则化权重衰减
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用4.7网络正则化丢弃法(DropoutMethod)
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用4.7网络正则化循环神经网络上的丢弃法(DropoutMethod)当在循环神经网络上应用丢弃法,不能直接对每个时刻的隐状态进行随机丢弃,这样会损害循环网络在时间维度上记忆能力变分Dropout根据贝叶斯学习的解释,丢弃法是一种对参数θ的采样每次采样的参数需要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东外语外贸大学南国商学院《理化检测下》2023-2024学年第一学期期末试卷
- 广东轻工职业技术学院《景观设计快题》2023-2024学年第一学期期末试卷
- 广东农工商职业技术学院《行政管理专业导论》2023-2024学年第一学期期末试卷
- 广东梅州职业技术学院《影视编剧》2023-2024学年第一学期期末试卷
- 广东茂名幼儿师范专科学校《JSP程序设计》2023-2024学年第一学期期末试卷
- 四年级数学(四则混合运算)计算题专项练习与答案
- 国学智慧(东北师范大学)学习通测试及答案
- 2025新北师大版英语七年级下单词表
- 【名师一号】2020-2021学年新课标版物理选修3-1-第二章恒定电流-测试
- 【名师一号】2020-2021学年高中英语北师大版必修4-随堂演练-第十二单元综合测评
- 工程开工报审表范本
- 航空小镇主题乐园项目规划设计方案
- 保洁冬季防滑防冻工作措施
- 少儿美术课件-《我的情绪小怪兽》
- 永续债计入权益的必备条件分析
- 预应力钢绞线张拉伸长量计算程序单端(自动版)
- 基坑监测课件ppt版(共155页)
- 蠕变、应力松弛、滞后和内耗讲解
- 开发区开发管理模式及发展要素PPT课件
- 急诊科科主任述职报告范文
- 基于MATLAB语音信号降噪处理
评论
0/150
提交评论