版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
深度学习之循环神经网络
--RNN
王尚管优!X目录1:深度学习发展史2:从神经网络到深度学习3:循环神经网络基础21:深度学习发展史3深度学习发展史SVMBoostingDecisiontreeKNN…NeuralnetworkBackpropagation19862006DeepbeliefnetScienceSpeech20112012ComputervisionNLPSpeech……2014GeoffreyHinton1949Learningmodelofneurons1958PerceptronHebbRosenblattGeoffreyHintonDBNCNNRBMRNN…机器学习第一次浪潮:机器学习第二次浪潮浅层学习模型(ShallowLearning)深度学习模型(DeepLearning)FirstWinterofNNSecondWinterofNN4synapsedendriteCellbodySynapticterminalsAxon轴突末梢突触树突细胞体轴突w1x1xnΣ线性动态系统激励函数own神经元是构成神经网络的最基本单元(构件),因此,首要任务是构造人工神经元模型。细胞体Cellbody树突dendrite突触synapse轴突Axon来自其它神经元神经元模型5yθyaxox2x1xnw1w2wn•••w1x1xnΣ激励函数o=f(net)wnnet
=WTX
典型的激励函数(ActivationFunction):线性函数,非线性斜面函数,阶跃函数,S型函数等。神经元模型6InputLayerHiddenLayerOutputLayerx1xMh1hLo1oNw11wm1wM1wmLwMLw1Lv11vl1vL1vLN神经网络一般形式•
Nonlinearity非线性
•ParallelProcessing并行处理•Input—OutputMapping输入输出匹配
•Adaptivity自适应性ocx2x1xnw1w2wn•••72:从神经网络到深度学习8神经网络深度学习网络相似之处:不同之处:模拟人脑的分层网络结构;强调深度的重要性;突出特征学习的重要性;(逐层抽象)训练机制;9为什么需要深度?深层网络具有刻画复杂函数的能力103:循环神经网络(RNN)11递归神经网络模型12递归神经网络吸收了HMM模型的有限序列关联的思想。神经网络的隐藏层结构能够更好的表达有限的观察值背后的复杂分布。递归神经网络(RNN),是两种人工神经网络的总称:一种是时间递归神经网络(recurrentneuralnetwork);一种是结构递归神经网络(recursiveneuralnetwork);递归神经网络模型13时序扩展RecurrentNeuralNetwork14针对对象:序列数据。例如文本,是字母和词汇的序列;语音,是音节的序列;视频,是图像的序列;气象观测数据,股票交易数据等等,也都是序列数据。核心思想:样本间存在顺序关系,每个样本和它之前的样本存在关联。通过神经网络在时序上的展开,我们能够找到样本之间的序列相关性。RNN是一类扩展的人工神经网络,它是为了对序列数据进行建模而产生的。循环神经网络模型15激活函数RNN常用的激活函数是tanh和sigmoid。循环神经网络模型16softmaxSoftmax函数是sigmoid函数的一个变种,通常我们将其用在多分类任务的输出层,将输入转化成标签的概率。本质就是将一个K维的任意实数向量压缩(映射)成另一个K维的实数向量,其中向量中的每个元素取值都介于(0,1)之间。
循环神经网络模型17简单循环网络SRN神经元之间的连接权重在时域上不变。循环神经网络模型18随时间反向传播算法BPTTBP回顾:定义损失函数E
来表示输出
和真实标签y的误差,通过链式法则自顶向下求得E对网络权重的偏导。沿梯度的反方向更新权重的值,直到E收敛。 BPTT的本质其实和BP很像,就是加上了时序演化。定义权重U,V,W。
定义损失函数:我们将整个序列作为一次训练,所以需要对每个时刻的误差进行求和。循环神经网络模型19随时间反向传播算法BPTT目前的任务是求E对于U,V,W的梯度。定义E对于W的梯度(U,V同理):(1)求E对于V的梯度。先求E3
对于V的梯度:WVU其中:求和可得。其中:依赖于,而又依赖于和W
,依赖关系一直传递到t=0的时刻。因此,当我们计算对于W的偏导数时,不能把看作是常数项!循环神经网络模型20随时间反向传播算法BPTT(2)求E对于W
的梯度。注意,现在情况开始变得复杂起来。先求E3
对于W的梯度:WVU当我们求对于W的偏导时。注意到:求和可得。同样:依赖于,而又依赖于和U
。类似求W,当我们计算对于U的偏导数时,也不能把看作是常数项!循环神经网络模型21随时间反向传播算法BPTT(3)求E对于U的梯度。情况与W类似。先求E3
对于U
的梯度:WVU当我们求对于W的偏导时。注意到:求和可得。循环神经网络模型22随时间反向传播算法BPTT参数意义:Whv:输入层到隐含层的权重参数,Whh:隐含层到隐含层的权重参数,Woh:隐含层到输出层的权重参数,bh:隐含层的偏移量,bo输出层的偏移量,h0:起始状态的隐含层的输出,一般初始为0。
递归神经网络模型23随时间反向传播算法BPTT面临的问题:梯度消失问题梯度爆炸问题解决方案:选择其他的激活函数。例如ReLU。引入改进网络结构的机制,例如LSTM,GRU。现在在自然语言处理上应用十分广的的就是LSTM。THANKS24LSTM网络长短期记忆网络–通畅叫做”LSTMs”–是一种特殊的RNNs,它能够学习长期依赖。LSTM由Hochreiter&Schmidhuber(1997)引入,后来在很多人的努力下变得越来越精炼和流行25ft,it,ot分别为遗忘门、输入门、输出门26LSTMs的核心过程LSTM的第一步就是决定什么信息应该被神经元遗忘。这是一个被称为“遗忘门层”的Sigmod层组成的。它输入ht−1和xt,然后在Ct−1的每个神经元状态输出0~1之间的数字。“1”表示“完全保留这个”,“0”表示“完全遗忘这个”。27下一步就是决定我们要在神经元细胞中保存什么信息,这包括两个部分。首先,一个被称为“遗忘门层”的Sigmod层决定我们要更新的数值。然后,一个tanh层生成一个新的候选数值,Ct˜,它会被增加到神经元状态中。28下一步我们就去做。我们给旧的状态乘以一个ft,遗忘掉我们之前决定要遗忘的信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 警车观察窗安装改造协议
- 医疗器械场地平整施工合同
- 地下桑拿沉井施工协议
- 信息化一体机租赁合同
- 软件开发合同管理教案
- 通信工程设计师聘用合同模板
- 眼镜店店员招聘合同
- 电信基站建设顶管施工合同
- 机场安检区地砖铺装工程协议
- 工商企业管理个人职业生涯规划
- 国企纪检监察嵌入式监督的探索与实践
- 浅议小升初数学教学衔接
- 设备安装应急救援预案
- 深基坑工程降水技术及现阶段发展
- 暂堵压裂技术服务方案
- 《孔乙己》公开课一等奖PPT优秀课件
- 美的中央空调故障代码H系列家庭中央空调(第一部分多联机)
- 业主委员会成立流程图
- (完整版)全usedtodo,beusedtodoing,beusedtodo辨析练习(带答案)
- 广联达办公大厦工程施工组织设计
- 疑难病例HELLP综合征
评论
0/150
提交评论