




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、神经网络算法-梯度下降GradientDescent神经网络文章索引上一篇神经网络结构中,我们介绍了神经元的结构,激活函数以及每个神经元激活值的算法,涉及到权重、偏置值等。神经网络中的待定值上一篇结尾提到,对于28*28的黑白手写图像识别,我们需要13002个权重和偏置数值,才能让我们的神经网络最后输出正确结果。曲线上任取两个点a,b,它们对应x和x+dx。(d是指德尔塔大写厶,小写d)ab两点对应的y的差是dy。现在直线ab看上去是曲线的割线(有ab两个交点)。假设b点沿着曲线,越来越靠近a点,那么dx极限趋近于0,这时候dy也会越来越小趋近于0,但是!我们会意识到dy/dx永远不会是0,而
2、最终它仍然是角Zcab的对边比邻边,也就是正切三角函数值。实际上,这也正是曲线的切线的定义。可以想象,我们取的a点越是靠右,那么这个切线越是竖直。如果我们把这个切线看做表示某个一次方程,如y=mx+n这种形式,那么a点越靠右,直线越竖直,m值也就越大。我们把m值叫做直线的斜率。切线导数derivative,元函数y=f(x)(即因变量y只受到一个自变量x影响的函数)中任意取x,如果x增加极小趋近于0的4x(或者写为dx),那么y相应的被增加(或者写作dy),那么导数就是dy/dx,而又有dy=f(x+dx)-f(x),所以:导数定义从函数的曲线图上可以看到,某点的导数就是dx趋近于0时候Zca
3、b的正切,导数反映了切线的陡峭程度,也就是y随着x变化的快慢程度。注意,导数函数的图形并不是一条直线,因为从图上就可以发现这个斜率f(x)不是固定的,随着x的增大,f(x)也会增大(曲线越来越陡峭),所以如果把f(x)画出来,在这个示例中,它的形状和现有的f(x)曲线差不多,但略低,至少要穿过0点,因为看上去f(x)在乂等于0的时候切线接近水平斜率也接近0。所以,图上直线只反映了a点导数,而不是反映整个导数函数。微分differential,简单说就是从和厶y,或者记作dx和dyx称之为自变量,y称之为因变量,那么x趋近于最小的时候的值,就是x的微分(趋近0又不是0的那个神秘值),同样y的微分
4、也是这个意思,总之是想得到又摸不到的神奇值。斜率slope,元一次函数(直线方程)y=mx+n的系数m值。在这里就是a点的导数值f(x)。切线tangent,某个点a的切线,就是经过a点的,以A点斜率为系数的方程y=f(x)x+n所表示的直线。自变量dependentvariable和因变量independentvariable,x自己的变化,引发y被动变化。好了,我们来看多变量微分Multivariabledifferential。上面都是一个y收到一个x的影响y=f(x),多变量就是不止受到一个自变量的影响,我们以最简单的z=f(x,y)为例,z=2+y2。多变量微分绿轴X的变化和红轴y的
5、变化,都会对应蓝轴z的变化。x从负无穷到正无穷无限种可能,y也是无限种可能,x和y复合到一起就在水平方向覆盖了全部地面,z值有高有低,就像现实世界中的海拔一样,把xy平面凸起或凹陷。(图中粉色没有画出全部曲面)我们可以想象,这时候不能讨论A点的切线了,而应该考虑它的切平面tangentplane(下图绿色平面)。方向导数directionalderivative,就是曲面上过A点的任意曲线的切线(下图紫色线)组成的平面,就是切平面。圆点A上的切平面这么多紫色的方向中,哪一个方向最陡峭?对于这个z=2+y2函数来说,明显是最接近竖直朝上的那个箭头和最接近竖直朝下的那个箭头。和曲线一样道理,越陡峭
6、意味着z对x、y的变化越敏感,或者说dx、dy的变化会引发更多的dz。梯度gradient,我们规定,能够引发因变量最快变化的那个切线正方向,就叫做曲面方程上这个点的梯度。注意梯度是个xyz表示的三维方向,例如0,0,1表示z轴竖直向上,0.1,0.1,1就往xy的正方向偏一点点。还有一个偏导数partialderivative是指函数结果相对于其中一个变量的导数,就是多变量中锁定其他变量,只留住一个变量,比如把x锁定为5即x=5时候只留下y和z的变化,这时候变成了z=f(5,y),其实x这个自变量已经没啥意思了,我们又回到了上面的一元曲线情况,其实这只是三维空间在x=5这个竖直平面上形成的一
7、条二维抛物曲线。同样如果我们锁定不同的z,那么就得到曲面上一圈一圈的地形等高线。把三维转为二维,这就是科幻小说中所说的降维攻击。用微分思考梯度下降对于只有xy两个变量的三维曲面来说,我们还可以只是考虑x+0.1,x-0.1,y+0.1,y-0.1这样的试探方法找到最低点,只要2*2=4次就可以了,周全一点也就8次。但是对于我们手写数字识别中13002个自变量来说,那就要2130次2这是不可行的。借用多元微分,我们可以找到13002个自变量某一随机点对应的切平面(实际早已不是什么平面了,我们姑且这么说),也可以计算出其中变化最快的方向,就是梯度,数学家已经证明,不管多少个维度,沿着梯度往前走一步
8、,都能获得最快变化后新的一个点,这个点是一个n维向量,对于我们的案例来说就是13003个新数字组成的数组0.322,0.123,0.55,0.222,.0.233共13003个数字。Howtonudgeall13,002weightsandbiases;weightsandbiases2.2501S018-1.570.451980.51w=-VC(W)-lie负梯度0403.82-0.32191丄.1丄0.82L表示梯度的倒三角符号读音n壬ble唯一要说明的一点不同就是,为了找最低点,我们不是往上走,而是往相反的负方向,朝下走。步长stepsize,就是我们每次沿着负梯度往下走多远,在机器学习
9、算法里面它叫做学习率learningrate,同样道理,步子迈小了走得太慢,找到最低点耗时间太久,步子太大了容易跳过最低点(注意,1万多维的复杂情况不是我们上面三维漏斗曲面那么简单可以描述的)。所以我们经常设置0.00001这样小的数字,好在很多机器学习程序都会适当的自动调整它(比如Tensorflow中的梯度下降优化GradientDescentOptimizer),实际上不会让它太慢。同时,我们从上图中看到,计算出的负梯度是由很多数字组成的数组,每个数字代表一个维度(就像xy那样),所以我们只要在原来的位置点坐标(比如x,y)上分别把这个梯度(比如0.1,-0.3)加上去就能得到新的点(x+0.1,y-0.3)。当然这里步长已经考虑在梯度内了,如果没有包含在梯度内,那么应该再乘以步长,假设步长0.01,那么就是(x+0.1)0.01,(y-0.30.01。内容小结神经网络的机器学习就是寻找数以万亿计的待定值的最佳匹配方案就是寻找多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山西省临汾市隰县2025年六年级数学小升初摸底考试含解析
- 山西省朔州一中2025届高三校模拟考自选模块试卷含解析
- 人教PEP版英语五年级下册教学课件Unit 5 Part A 第三课时
- 云南省楚雄州大姚县第一中学2025届高中毕业班第二次模拟(数学试题文)试卷含解析
- 2025年重庆市江津区高三考前全真模拟密卷物理试题试卷(5)含解析
- 江西省九江市评估2025年小升初数学自主招生备考卷含解析
- 山东工商学院《中医健康管理》2023-2024学年第二学期期末试卷
- 西宁第十四中学2025届高三单科质检化学试题含解析
- 泉州工程职业技术学院《机器视觉基础与实践》2023-2024学年第二学期期末试卷
- 2025毕业论文答辩模板:巅峰展示5
- 《合并同类项》赛课一等奖教学课件
- RITTAL威图空调中文说明书
- 汽车玻璃采购项目服务方案
- YY 0167-2020非吸收性外科缝线
- GB/T 6082-2001直齿插齿刀通用技术条件
- 食 品 工 程 原 理 课 件 第七章 传质原理及应用
- 21张农业生产高清思维导图(珍藏)
- 普通高等学校辅导员队伍建设规定解读课件
- 《论语·为政篇》课件
- 垂直轴翼形叶片网状结构的
- 河南省省属煤炭企业煤矿瓦斯治理调研报告
评论
0/150
提交评论