《深度学习 》课件 第4章-循环神经网络_第1页
《深度学习 》课件 第4章-循环神经网络_第2页
《深度学习 》课件 第4章-循环神经网络_第3页
《深度学习 》课件 第4章-循环神经网络_第4页
《深度学习 》课件 第4章-循环神经网络_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

4循环神经网络目录

|

CONTENTS循环神经网络结构1循环神经网络的训练2双向循环神经网络与深度循环神经网络3长短期记忆网络4门控循环单元567递归神经网络双向长短期记忆网络与双向门控循环单元循环神经网络(recurrentneuralnetworks,RNN)是深度学习中的一个重要分支,它处理历史数据和对记忆进行建模,并随时间动态调整自身的状态,通常适用于处理时间、空间序列上有强关联的信息。从生物神经学角度,循环神经网络可以认为是对生物神经系统环式链接(recurrentconnection)的简单模拟,而这种环式链接在新大脑皮质中是普遍存在的。循环神经网络求解损失函数的参数梯度有很多种算法,其中常用的是时间反向传播算法(backpropagationthroughtime,BPTT)。梯度传递过程会引起梯度消失(gradientvanish)或者梯度爆炸(gradientexplosion)的问题。针对循环神经网络模型基本结构对长序列数据的记忆能力不强,并且当序列信号在网络中多次传递后,有可能引起梯度问题。学者们提出了长短期记忆(longshort-termmemory,LSTM)网络、门控循环单元(gatedrecurrentunit,GRU)等更加复杂的循环神经网络和记忆单元,使得循环神经网络模型可以更加有效地处理更长的序列信号。此外,本章还将对循环神经网络的一种扩展——递归神经网络(RecursiveNeuralNetwork)进行介绍。最后,本章还将介绍循环神经网络的具体应用实例。循环神经网络结构14.1循环神经网络结构

4.1循环神经网络结构

4.1循环神经网络结构单输入单输出的循环神经网络模型是一种一对一(onetoone)方式,适用于词性分类、时序回归或者图像分类问题,例如输出该单词的词性。单输入序列输出的循环神经网络模型是一种一对多(onetomany)方式,适用于图像标题预测等问题,如输入一张图像后输出一段文字序列;也可以作为解码器,如先训练好网络中的权重参数,给出一个单词解码一个句子。序列输入单输出的循环神经网络模型是一种多对一(manytoone)方式,适用于文字情感分析等问题,如输入一段文字,然后将其分为积极或者消极情绪,也可以作为的句子编码过程。序列输入序列输出的循环神经网络模型是一种多对多(manytomany)方式,适用于机器翻译等问题,如读入英文,语句然后将其以法语形式输出。同步序列输入序列输出的循环神经网络模型是一种多对多(manytomany)方式,适用于机器翻译模型、视频字幕翻译工具、自动问答系统等场合。循环神经网络的训练24.2.1损失函数

4.2.2时间反向传播算法

4.2.2时间反向传播算法

权重V的梯度014.2.2时间反向传播算法

权重W的梯度024.2.2时间反向传播算法

4.2.3梯度消失与梯度爆炸

4.2.3梯度消失与梯度爆炸使用BPTT训练循环神经网络,即使是最简单的模型,在遇到梯度消失和梯度爆炸的问题时,都难以解决时序上长距离依赖问题。以下5种方法常用来解决这些问题。1.截断梯度:在循环神经网络更新参数时,只利用较近时刻的序列信息,而忽略历史久远的信息。2.设置梯度阈值:程序可以检测梯度数值很大,所以,可以设置梯度阈值,在梯度爆炸时,直接截断超过阈值的部分3.合理初始化权重值:尽可能避开可能导致梯度消失的区域,让每个神经元尽量不要取极值。例如,可以对利用高斯概率分布得到的权重进行修正,使其更加集中在分布中心,或者使用预训练的网络。4.使用ReLU作为激活函数:使用ReLU代替sigmoid和tanh作为激活函数。ReLU的导数限制为0和1,从而更能应对梯度扩散或者梯度消失问题5.使用LSTM或者GRU作为记忆单元:解决梯度扩散和长期依赖的问题可以将原循环神经网络模型中的记忆单元进行替换,LSTM和GRU结构是目前普遍采用的替换结构。双向循环神经网络与深度循环神经网络

34.3双向循环神经网络与深度循环神经网络双向循环神经网络(bi-directionalrecurrentneuralnetwork,Bi-RNN)不仅利用序列前面的信息,还会利用将要输入的信息。双向循环神经网络014.3双向循环神经网络与深度循环神经网络深度循环神经网络(deeprecurrentneuralnetworks,DRNN)在基本循环神经网络结构的基础上进行改进,每一个时刻t对应多个隐含层状态。该模型结构能够带来更好的学习能力,缺点在于难以对网络进行控制,并且随着网络层数的增多而引入更多的数学问题(例如梯度消失或者梯度爆炸等问题)。深度循环神经网络02长短期记忆网络44.4长短期记忆网络循环神经网络模型根据时间序列信息来训练网络参数,使得循环神经网络模型学习到序列数据之间的关联信息,进而预测未来的序列信息,但它存在梯度消失和梯度爆炸问题。普通循环神经网络模型很难学习和保存长期序列信息。在序列信息短、预测单词间的间隔短的语境中,该类型数据称为短期序列,循环神经网络模型处理短期序列的过程称为“短期记忆”。循环神经网络模型可以很好地学习短期序列信息,并且能够轻易地达到70%以上的预测精度。可当序列数据信息很长、预测间隔大时,涉及到循环神经网络模型的长期记忆问题。随着预测序列间隔增大,循环神经网络模型就会引起BPTT时间反向传播算法中的梯度消失和梯度爆炸问题,所以循环神经网络模型难以处理长期记忆的任务。传统的循环神经网络难以解决长期依赖的问题,因此,众多的循环神经网络的变体被提出来。其中,长短期记忆网络在1997年由SeppHochreiter等人提出,主要用途是给循环神经网络网络增加记忆功能,减弱信息的衰减,从而记住长期的信息。LSTM也被证明在处理长期依赖问题上比传统方法更加有效。LSTM在2012时被改进,使得LSTM网络得到了广泛的应用。LSTM在循环神经网络模型的基础上,增加了记忆功能,两者在时序上的传播方式没有本质区别,知识计算隐含层神经元状态的方式不同。LSTM中“Cells”有着记忆功能,可以决定信息的记忆,并且可以将之前的状态、现在的记忆和当前输入的信息结合在一起,对长期信息进行记录。4.4.1LSTM记忆单元

4.4.1LSTM记忆单元

输入门01

4.4.1LSTM记忆单元遗忘门02

4.4.1LSTM记忆单元

输出门03

4.4.2LSTM记忆方式

门控循环单元54.5门控循环单元

4.5门控循环单元复位门01

4.5门控循环单元更新门02

递归神经网络64.6递归神经网络

双向长短期记忆网络与双向门控循环单元74.7双向长短期记忆网络与双向门控循环单元双向长短期记忆网络(Bi-directionalLongShort-TermMemory,BiLSTM)与双向门控循环单元(Bi-directionalGatedRecurrentUnit,BiGRU)是双向循环神经网络的变种。与传统的单向LSTM以及单向GRU不同,BiLSTM和BiGRU同时考虑了前向和后向的信息,能够更好地捕捉双向的序列依赖,从而更全面地理解和建模序列数据。BiLSTM/BiGRU结构如图所示,由两个LSTM/GRU组成,分别从正向和反向处理输入序列。处理完成后,将两个部分的输出进行拼接,作为LSTM/GRU整体的输出。本章小结本章主要介绍了循环神经网络的结构以及它的训练。循环神经网络模型常用的损失函数为交叉熵函数或均方误差函数。在循环神经网络模型的训练过程中,使用了随机梯度下降算法,迭代地调用BPTT算法求得网络参数梯度。然而标准的循环神经网络模型是很

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论