长短时记忆神经网络模型(LSTM)简介_第1页
长短时记忆神经网络模型(LSTM)简介_第2页
长短时记忆神经网络模型(LSTM)简介_第3页
长短时记忆神经网络模型(LSTM)简介_第4页
长短时记忆神经网络模型(LSTM)简介_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、511LSTM模型概述长短时记忆网络是一种深度学习方法,目前是机器学习领域中应用最广泛的模型,并在科技领域有了众多应用。在2015年,谷歌通过LSTM模型大幅提升了安卓手机和其他设备中语音识别的能力,之后谷歌使用LSTM的范围更加广泛,它可以自动回复电子邮件,生成图像字幕,同时显著地提高了谷歌翻译的质量;苹果的iPhone也在QucikType和Siri中使用了LSTM;微软不仅将LSTM用于语音识别,还将这一技术用于虚拟对话形象生成和编写程序代码等等56LSTM算法全称为Longshort-termmemory,最早由SeppHochreiter和JurgenSchmidhuber于1997

2、年提出57,是一种特定形式的循环神经网络(RNN,Recurrentneuralnetwork,),而循环神经网络是一系列能够处理序列数据的神经网络的总称。RNN在处理时间序列上距离较远的节点时会发生梯度膨胀和梯度消失的问题,为了解决RNN的这个问题,研究人员提出基于门限的RNN(GatedRNN),而LSTM就是门限RNN中应用最广泛的一种,LSTM通过增加输入门(InputGate),输出门(OuputGate)和遗忘门(ForgetGate),使得神经网络的权重能够自我更新,在网络模型参数固定的情况下,不同时刻的权重尺度可以动态改变,从而能够避免梯度消失或者梯度膨胀的问题。LSTM的结构

3、中每个时刻的隐层包含了多个记忆单元(MemoryBlocks),每个单元(Block)包含了多个记忆细胞(MemoryCell),每个记忆细胞包含一个细胞(Cell)和三个门(Gate)58,一个基础的LSTM结构示例如图5-1所示:ForgetGate其CellA图5-1LSTM的基础结构58OutputBlackInputGale一个记忆细胞只能产出一个标量值,一个记忆单元能产出一个向量丄STM的算法包括两个部分:1.LSTM的前向传播(ForwardPass),用于解决已知LSTM输入如何得到输出的问题;2.LSTM的反向传播(BackwardPass),用于更新LSTM中每个权重的梯度

4、,解决LSTM的训练问题。5.1.2LSTM的前向传播算法本文应用最基础的LSTM结构来进行公共自行车出行链出行目的需求预测,该模型每个时刻的隐含层只包括一个记忆单元,每个记忆单元只包含一个记忆细胞。LSTM的前向传播算法从输入开始,逐个求解输入门、遗忘门、细胞门和输出门,求解过程如图5-2所示:OutputGate前输出Ca输入t点-%垃J=l.或=%牢*+瓦肌成)图5-2LSTM的前向传播算法流程图ForgetGale的输入InputGait的输人(1)输入门()的计算输入门接受两个输入:1.当前时刻的输入:;2.上一时刻同一单元内所有细胞作为输入:。最终输入门的输出为:(5-1)(5-2

5、)(2)遗忘门()的计算遗忘门接受两个输入:1.当前时刻的输入:;2.上一时刻同一单元内所有细胞作为输入:。最终输入门的输出为:(5-3)(5-4)(3)记忆细胞()的计算记忆细胞的计算稍有些复杂,接受两个输入:1.输入门和输入的乘积;2.遗忘门和上一时刻对应记忆细胞输出的乘积。最终记忆细胞的输出为:(5-5)(5-6)(4)输出门()的计算遗忘门接受两个输入:1.当前时刻的输入:;2.当前时刻同一单元内所有细胞作为输入:。最终输出门的输出为:(5-7)(5-8)(5)记忆细胞()输出的计算记忆细胞输出的计算,即将输出门和记忆细胞做乘积即可。最终记忆细胞输出的输出为:(5-9)至此,整个记忆单

6、元从输入到输出整个前向传播算法已经结束,其中涉及三个门和中间记忆细胞的计算,其中三个门使用的激活函数是,而输入的激活函数是、记忆细胞输出的激活函数是。5.1.3LSTM的反向传播算法LSTM的反向传播算法,利用链式求导求解整个LSTM中每个权重的梯度。LSTM的反向传播算法从求解输出门梯度开始,逐个求解细胞门、遗忘门和输入门的梯度,应用梯度下降原则训练LSTM网络模型,求解过程如图5-3所示:d=y;t=i冷啦仇血F斶+彗計*3胡刊+叫聊InputGat?的怫瞳Btecjc0图5-3LSTM的反向传播算法流程图(1)权重的更新对于神经网络中的每一个权重,都需要找到对应的梯度,从而通过不断地用训

7、练样本进行随机梯度下降找到全局最优解。一般层次分明的神经网络有输入层、隐含层和输出层,层与层之间的权重比较直观;旦在LSTM中通过公式才能找到对应的权重,图5-3标识了LSTM的单个记忆单元中需要更新的权重:、。(2)记忆细胞输出的梯度首先计算每个样本输出的梯度5- )即每一个样本输出的梯度仅和其预测值和真实值相关,这样对于记忆细胞输出的梯度则可以通过链式求导法则推导出来:(5-11)其中输出结果还可以连接下一个时刻的一个记忆细胞和三个门,则下一个时刻的一个记忆细胞和三个门的梯度则可以传递回当前时刻输出,以此来训练LSTM网络。输出门的梯度根据链式求导法则,输出门的梯度可以由以下公式推导出来:,(5-12)记忆细胞的梯度记忆细胞的输入数据为,而细胞同时能够接受输入门和遗忘门的输入。这样梯度就直接从记忆细胞向下传递:,(5-13)在这个过程中,记忆细胞的梯度由4个计算单元传递回来:1.当前时刻的记忆细胞输出;2.下一时刻的记忆细胞;3.下一时刻的输入门;4.下一时刻的输出门。定义当前记忆细胞的状态(States)函数,则梯度可以这样求解:5- )带入式(5-13)那么记忆细胞的梯度为:(5-15)遗忘门的梯度遗忘门的梯度计算比较简单明了:,(5-16

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论