循环神经网络简述_第1页
循环神经网络简述_第2页
循环神经网络简述_第3页
循环神经网络简述_第4页
循环神经网络简述_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

循环神经网络与LSTM

RecurrentneuralnetworkandLongShort-TermMemory简述RNN简介julyedu.comRNN是一类以在网络中出现环为特点的网络模型,并且能存储着神经元这一时刻的输入与前一时刻输出的以来关系。前向静态神经网络虽然对非线性函数具有良好的逼近能力,但却不具动态性,所以就引入了递归神经网络——RNN。RNN相对于前向静态网络不同的就是信号从一个神经元到另一个神经元,并不会马上消失,而是继续存活。神经网络到循环神经网络

我们知道神经网络结构如下循环神经网络之 结构循环神经网络与传统网络(BP神经网络、CNN等)的区别传统的神经网络(包括CNN)输入和输出都是相互独立的。例如,图像上的狗和猫是独立分割开的。而对于有些任务,后续的输出和之前的内容是相关的,例如,“我是中国人,我的母语是______”RNN引入“记忆”的概念:“循环”二字来源于其每个元素都执行相同的任务但是输出依赖于“输入”和“记忆”RNN发展历史julyedu.comHopfieldnetworksJ.Hopfield19821986JordanNetworkElmanNetwork1990

J.ElmanBPTTP.WerbosHochreiter&Schmidhuber

LSTM1997Schuster&PaliwalBRNN双向长短时记忆循环神经网络A.GravesNeuralturingmachine神经图灵机2014Cho,etalGRU门循环单元M.Jordan早期(80、90年代)主要思想:重新使用参数和计算中期(90-2010)除LSTM以外,RNN基本从主流研究中消失了。当前(2010-)应用广泛:自然语言应用视频建模,手写识别,用户意图预测StackRNN栈递归神经网络2015Joulin&MikolovRNN神经元及参数主要由5个部分组成输入网络权值和阈值

求和单元传递函数输出循环神经网络之 结构

简单来看,把序列按时间展开Xt是时间t处的输入St是时间t处的“记忆”,St=f(UXt+WSt-1),f可以是tanh等函数Ot是时间t出的输出,比如是预测下个词的话,可能是Softmax输出的属于每个候选词的概率循环神经网络之 结构循环神经网络之 结构细节可以把隐状态St视作“记忆体”,捕捉了之前时间点上的信息。输出Ot由当前时间及之前所有的“记忆”共同计算得到。很可惜,实际应用中,St并不能捕捉和保留之前所有信息(记忆有限)不同于CNN,这里的RNN其实整个神经网络都共享一组参数(U,V,W),极大减小了需要训练和预估的参数量图中的Ot在有些任务下是不存在的,比如文本情感分析,其实只需要最后的output结果就行循环神经网络应用RNNs的作用词向量表达、语句合法性检查、词性标注等。在RNNs中,目前使用最广泛最成功的模型便是LSTMs(LongShort-TermMemory,长短时记忆模型)模型,该模型通常比vanillaRNNs能够更好地对长短时依赖进行表达,该模型相对于一般的RNNs,只是在隐藏层做了手脚。循环神经网络应用语言模型与文本生成(LanguageModelingandGeneratingText)给你一个单词序列,我们需要根据前面的单词预测每一个单词的可能性。语言模型能够一个语句正确的可能性,这是机器翻译的一部分,往往可能性越大,语句越正确。另一种应用便是使用生成模型预测下一个单词的概率,从而生成新的文本根据输出概率的采样。语言模型中,典型的输入是单词序列中每个单词的词向量(如One-hotvector),输出时预测的单词序列。语音识别(SpeechRecognition)语音识别是指给一段声波的声音信号,预测该声波对应的某种指定源语言的语句以及该语句的概率值。循环神经网络应用机器翻译(MachineTranslation)机器翻译是将一种源语言语句变成意思相同的另一种源语言语句,如将英语语句变成同样意思的中文语句。与语言模型关键的区别在于,需要将源语言语句序列输入后,才进行输出,即输出第一个单词时,便需要从完整的输入序列中进行获取。机器翻译如下图所示:循环神经网络应用图像描述生成(GeneratingImageDescriptions)和卷积神经网络(convolutionalNeuralNetworks,CNNs)一样,RNNs已经在对无标图像描述自动生成中得到应用。将CNNs与RNNs结合进行图像描述自动生成。这是一个非常神奇的研究与应用。该组合模型能够根据图像的特征生成描述。如下图所示:

循环神经网络应用如何训练RNNs对于RNN是的训练和对传统的ANN训练一样。同样使用BP误差反向传播算法,不过有一点区别。如果将RNNs进行网络展开,那么参数W,U,V是共享的,而传统神经网络却不是的。并且在使用梯度下降算法中,每一步的输出不仅依赖当前步的网络,并且还以来前面若干步网络的状态。比如,在t=4时,我们还需要向后传递三步,已经后面的三步都需要加上各种的梯度。该学习算法称为BackpropagationThroughTime(BPTT)。需要意识到的是,在vanillaRNNs训练中,BPTT无法解决长时依赖问题(即当前的输出与前面很长

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论