DeepLearning基础随时间反向传播(BackPropagationThroug_第1页
DeepLearning基础随时间反向传播(BackPropagationThroug_第2页
DeepLearning基础随时间反向传播(BackPropagationThroug_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、DeepLearning基础-随时间反向传播(BackPropagationThroug。1随时间反向传播JPTT(BackPropagationThroughTime),BPTT(循环神经网络)是一种具有长时记忆能力的神经网络模型,被广泛用于序列标注问题。一个典型的结构图如下所示:UUnfold通常由三小层组成,分别是输入层、隐藏丿贵机制赋予了前时刻的输入从图中可以看到,向反馈边,正是这种反勺的每个神经元接受和就是要通过梯度下降来拟合的参数。整个优化过程叫做BfT(BackPropagt形式化如下:tanh层和输出层。与记忆能力。要理解左边的图可能有点难度,以及上一时刻隐单元的输出t-1计算

2、出当前神经元的输入lionThroughTi的神经网络不同将其展开成右边t-1right,的隐藏层存在一条有种更加直观的形式,其中。三个权重矩阵,Te,BPTTohattma同样地,定义交叉熵损失函数如下:tett,hattright-_tloghat_tt,hattright-umt_tloghatttag下面我们将举个具体的例子。Eir我们的目标是通过梯度下降来拟合参数矩阵$,partiat。partial我们将以为了计算这些梯度,我们使用链式法则。fracracetpartiapartiahat在上面式子中,为例,partiapartia如同求损失时的加和,racracotimeA做如下

3、推导。hatrightpartiatagpartiapartiahathatumotimes示两个向量的外积。的偏导是简单的,因为t时间步的对的偏导只与hat和3有3关$。但是,对于就没有这么简单了,如图:AA推导过程如下:上式中,我们可以看到,这与标准的(句子)可能很长,可能是2个字或更多,因此需要反向传播多个层。算法并无太多不同,唯一的区别在于需要对各时间步求和。这也是标准难以训练的原因:序列实现的代码如下:许多芋将时间步进行截断来控制传播层数。2.梯度消失问题标准难以学习到文本的上下文依赖,例如,句子要表达的是带着假发的男人进去了而不是假发进去了,这一点对于标准的训练很难。为了理解这个问

4、题,我们先看看上面的式子:注意,其中的仍然包含着链式法则,例如2所以上面的式子(5可以重写为式子(6即逐点导数的雅克比矩阵:$frac'partialE_3'partialW=sum_k=0A3frac'partialE_3'partialhaty_3frac'partialhaty_3'partials_3left('prod_j=k+1A3frac'partials_j'partials_j-1'right)frac'partials_k'partialWtag6$而tanh函数和其导数图像如下

5、:应的神经元已经饱和。参数矩阵将以指可见,tanh函数(sigmoid函数也不例外丫的两端都有接近0的导数。当出现这种情况时,我们认为相数方式快速收敛到0,最终在几个时间步后完全消失。来自“遥远”妙寸间步的权重迅速为0,从而不会对现在的学习状态产生贡献:学不到远处上下文依赖。一;L.Z;单。很容易想象,根据我们的激活函数和网络参数,如果雅可比矩阵的值很大,将会产生梯度爆炸。首先,梯度爆炸是显而易见的,权重将渐变为NaN(不是数字),程序将崩溃。其次,将梯度剪切到预定义的阈值是一种非常简单有效的梯度爆炸解决方案。当然,梯度消失问题影响更加恶劣,因为要知道它们何时发生或如何处理它们并目前,已经有几种方法可以解决梯度消失问题。止勺初始化$W$矩阵可以减少消失梯度的影响。止规化也是如此。更优选的解决方案是使用Relu代替tanh或S形激活函数。ReLU导数是0或1的常数,因此不太可能遇到梯度消失。更流行的解决方案是使用长短期记忆单元LSTM)或门控循环单元(GRU)架构。LSTM最初是在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论