梯度下降法-Gradient-Descent_第1页
梯度下降法-Gradient-Descent_第2页
梯度下降法-Gradient-Descent_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1. 梯度下降法 (Gradient descent)梯度下降法,通常也叫最速下降法(steepest descent),基于这样一个事实:如果实值函数f(x)在点x处可微且有定义,那么函数f(x)在x点沿着负梯度(梯度的反方向)下降最快。假设x是一个向量,考虑f(x)的泰勒展开式:如果想要函数值下降,则要。如果想要下降的最快,则需要取最小值,即,也就是说,此时x的变化方向(的方向)跟梯度的方向恰好相反。梯度法迭代公式:那么步长如何选取呢?的确,很难选择一个合适的固定值,如果较小,会收敛很慢;如果较大,可能有时候会跳过最优点,甚至导致函数值增大;因此,最好选择一个变化的步长,在离最优点较远的时

2、候,步长大一点,离最优点较近的时候,步长小一点。 一个不错的选择是,于是牛顿迭代公式变为:,此时是一个固定值,称为学习率,通常取0.1,该方法称为固定学习率的梯度下降法。另外,我们也可以通过一维搜索来确定最优步长。1.1 梯度下降法的一般步骤:Step1 给定初始点, 迭代精度,k=0. Step2 计算,如果,停止;否则,计算搜索方向Step3 计算最优步长 ;Step4 更新迭代点,令, 转step2。 初始点的选取:设,对每一个分量分别独立取值梯度下降法简单,计算量小,仅仅需要求一阶导数,对初始点也没有特殊要求,具有整体收敛性。采用精确线搜索的梯度下降法的收敛速度为线性。精确线搜索满足的

3、一阶必要条件,得,由最速下降法得,因此有,即:相邻两次的搜索方向是相互直交的(投影到二维平面上,就是锯齿形状了)。最后,我们讨论一个问题,这个所谓的最速下降法真的是“最快速”的吗?其实,它只是局部范围内具有最快速性质,对整体求解过程而言,它的下降非常缓慢。例如, 我们来看一个常被用来作为最优化算法的performance test函数:Rosenbrock函数,它在点(1,1)处取得最小值0。此函数具有狭窄弯曲的山谷,最小值(1,1) 就在这些山谷之中,并且谷底很平。优化过程是之字形的向极小值点靠近,速度非常缓慢(之字型下降,越靠近极小点下降越缓慢)。1.2 批量梯度法 VS 随机梯度法梯度下

4、降法每次更新都要对全体样本重新计算整个梯度,这种方法叫做批量梯度法(Batch Gradient Descent),当样本点很多时,这种方法速度很慢;于是,人们不再追求精确计算梯度方向,而是采取一种近似计算的思想,每次只利用一个训练样本计算梯度,来更新x,这种方法叫做随机梯度法(Stochastic Gradient Descent)。 需要特别注意的一点是,随机梯度法最后的最优值不是计算过程中的任何一个(注意不是最后一个哦), 而是计算过程中所有的平均值(各分量分别求平均值),即。通常,SGD能比BGD更快地收敛到最优点,因此更适合大数据的计算。然而,对SGD而言,选择一个合适的终止条件是比较困难的。一个可选的办法是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论