




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
循环神经网络与LSTM
RecurrentneuralnetworkandLongShort-TermMemory简述RNN简介julyedu.comRNN是一类以在网络中出现环为特点的网络模型,并且能存储着神经元这一时刻的输入与前一时刻输出的以来关系。前向静态神经网络虽然对非线性函数具有良好的逼近能力,但却不具动态性,所以就引入了递归神经网络——RNN。RNN相对于前向静态网络不同的就是信号从一个神经元到另一个神经元,并不会马上消失,而是继续存活。神经网络到循环神经网络
我们知道神经网络结构如下循环神经网络之 结构循环神经网络与传统网络(BP神经网络、CNN等)的区别传统的神经网络(包括CNN)输入和输出都是相互独立的。例如,图像上的狗和猫是独立分割开的。而对于有些任务,后续的输出和之前的内容是相关的,例如,“我是中国人,我的母语是______”RNN引入“记忆”的概念:“循环”二字来源于其每个元素都执行相同的任务但是输出依赖于“输入”和“记忆”RNN发展历史julyedu.comHopfieldnetworksJ.Hopfield19821986JordanNetworkElmanNetwork1990
J.ElmanBPTTP.WerbosHochreiter&Schmidhuber
LSTM1997Schuster&PaliwalBRNN双向长短时记忆循环神经网络A.GravesNeuralturingmachine神经图灵机2014Cho,etalGRU门循环单元M.Jordan早期(80、90年代)主要思想:重新使用参数和计算中期(90-2010)除LSTM以外,RNN基本从主流研究中消失了。当前(2010-)应用广泛:自然语言应用视频建模,手写识别,用户意图预测StackRNN栈递归神经网络2015Joulin&MikolovRNN神经元及参数主要由5个部分组成输入网络权值和阈值
求和单元传递函数输出循环神经网络之 结构
简单来看,把序列按时间展开Xt是时间t处的输入St是时间t处的“记忆”,St=f(UXt+WSt-1),f可以是tanh等函数Ot是时间t出的输出,比如是预测下个词的话,可能是Softmax输出的属于每个候选词的概率循环神经网络之 结构循环神经网络之 结构细节可以把隐状态St视作“记忆体”,捕捉了之前时间点上的信息。输出Ot由当前时间及之前所有的“记忆”共同计算得到。很可惜,实际应用中,St并不能捕捉和保留之前所有信息(记忆有限)不同于CNN,这里的RNN其实整个神经网络都共享一组参数(U,V,W),极大减小了需要训练和预估的参数量图中的Ot在有些任务下是不存在的,比如文本情感分析,其实只需要最后的output结果就行循环神经网络应用RNNs的作用词向量表达、语句合法性检查、词性标注等。在RNNs中,目前使用最广泛最成功的模型便是LSTMs(LongShort-TermMemory,长短时记忆模型)模型,该模型通常比vanillaRNNs能够更好地对长短时依赖进行表达,该模型相对于一般的RNNs,只是在隐藏层做了手脚。循环神经网络应用语言模型与文本生成(LanguageModelingandGeneratingText)给你一个单词序列,我们需要根据前面的单词预测每一个单词的可能性。语言模型能够一个语句正确的可能性,这是机器翻译的一部分,往往可能性越大,语句越正确。另一种应用便是使用生成模型预测下一个单词的概率,从而生成新的文本根据输出概率的采样。语言模型中,典型的输入是单词序列中每个单词的词向量(如One-hotvector),输出时预测的单词序列。语音识别(SpeechRecognition)语音识别是指给一段声波的声音信号,预测该声波对应的某种指定源语言的语句以及该语句的概率值。循环神经网络应用机器翻译(MachineTranslation)机器翻译是将一种源语言语句变成意思相同的另一种源语言语句,如将英语语句变成同样意思的中文语句。与语言模型关键的区别在于,需要将源语言语句序列输入后,才进行输出,即输出第一个单词时,便需要从完整的输入序列中进行获取。机器翻译如下图所示:循环神经网络应用图像描述生成(GeneratingImageDescriptions)和卷积神经网络(convolutionalNeuralNetworks,CNNs)一样,RNNs已经在对无标图像描述自动生成中得到应用。将CNNs与RNNs结合进行图像描述自动生成。这是一个非常神奇的研究与应用。该组合模型能够根据图像的特征生成描述。如下图所示:
循环神经网络应用如何训练RNNs对于RNN是的训练和对传统的ANN训练一样。同样使用BP误差反向传播算法,不过有一点区别。如果将RNNs进行网络展开,那么参数W,U,V是共享的,而传统神经网络却不是的。并且在使用梯度下降算法中,每一步的输出不仅依赖当前步的网络,并且还以来前面若干步网络的状态。比如,在t=4时,我们还需要向后传递三步,已经后面的三步都需要加上各种的梯度。该学习算法称为BackpropagationThroughTime(BPTT)。需要意识到的是,在vanillaRNNs训练中,BPTT无法解决长时依赖问题(即当前的输出与前面很长
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东现代学院《建设项目投资与融资》2023-2024学年第二学期期末试卷
- 平顶山工业职业技术学院《传热学》2023-2024学年第二学期期末试卷
- 江西省丰城市2024-2025学年初三下学期第八次质量监测化学试题含解析
- 内蒙古交通职业技术学院《云计算系统》2023-2024学年第二学期期末试卷
- 昆明医科大学《中医经典专题讲座》2023-2024学年第二学期期末试卷
- 四川省绵阳市安州区2024-2025学年初三下学期4月考生物试题含解析
- 辽宁工业大学《外国语言文学导论(2)》2023-2024学年第二学期期末试卷
- 四川交通职业技术学院《财务案例研究自学》2023-2024学年第二学期期末试卷
- 泉州幼儿师范高等专科学校《竞速轮滑》2023-2024学年第二学期期末试卷
- 四川省内江市东兴区市级名校2025届初三下学期阶段考试语文试题含解析
- 2025-2030中国生牛肉市场销售渠道与未来盈利模式预测研究报告
- 光的干涉衍射试题及答案
- 2025至2030年中国军用仿真(软件)行业发展战略规划及投资方向研究报告
- 第14课 辽宋夏金元时期的科技与文化-2024-2025学年七年级历史下册互动课堂教学设计宝典(统编版2024)
- 装修多人合伙协议书
- 2025年广东省深圳市21校初三一模英语试题及答案
- 乳业大数据分析与消费者洞察-全面剖析
- 土钉墙、喷锚护坡分包合同
- 工商企业管理毕业论文19904
- 2025湖北随州国资本投资运营集团限公司人员招聘27人易考易错模拟试题(共500题)试卷后附参考答案
- 2025年许昌电气职业学院单招职业技能测试题库附答案
评论
0/150
提交评论