深学习循环神经网络_第1页
深学习循环神经网络_第2页
深学习循环神经网络_第3页
深学习循环神经网络_第4页
深学习循环神经网络_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

深度学习之循环神经网络1目录1:深度学习发展史2:从神经网络到深度学习3:循环神经网络基础4:自然语言处理基础(扩充知识)21:深度学习发展史3深度学习发展史SVMBoostingDecisiontreeKNN…NeuralnetworkBackpropagation19862006DeepbeliefnetScienceSpeech20112012ComputervisionNLPSpeech……2014GeoffreyHinton1949Learningmodelofneurons1958PerceptronHebbRosenblattGeoffreyHintonDBNCNNRBMRNN…机器学习第一次浪潮:机器学习第二次浪潮浅层学习模型(ShallowLearning)深度学习模型(DeepLearning)FirstWinterofNNSecondWinterofNN4深度学习(多层神经网络)神经网络神经元5synapsedendriteCellbodySynapticterminalsAxon轴突末梢突触树突细胞体轴突w1x1xnΣ线性动态系统激励函数own神经元是构成神经网络的最基本单元(构件),因此,首要任务是构造人工神经元模型。细胞体Cellbody树突dendrite突触synapse轴突Axon来自其它神经元神经元模型6yθyaxox2x1xnw1w2wn•••w1x1xnΣ激励函数o=f(net)wnnet

=WTX

典型的激励函数(ActivationFunction):线性函数,非线性斜面函数,阶跃函数,S型函数等。神经元模型7InputLayerHiddenLayerOutputLayerx1xMh1hLo1oNw11wm1wM1wmLwMLw1Lv11vl1vL1vLN神经网络一般形式•

Nonlinearity非线性

•ParallelProcessing并行处理•Input—OutputMapping输入输出匹配

•Adaptivity自适应性ocx2x1xnw1w2wn•••8最简单的神经网络:Perceptrons9SingleLayerPerceptronsybx2x1xMw1w2wM•••Rosenblatt,1957u>0u<010两类样本:白色和黑色

分类错误的样本用红色轮廓目标:分类正确所有样本,直到没有红色轮廓的样本。W=[1.661.11]b=[1.25]W=[1.541.28]b=[-0.64]W=[1.161.63]b=[-1.8]W=[1.661.11]b=[-0.823]W=[1.49-1.39]b=[-0.743]SingleLayerPerceptrons:迭代过程where?11SingleLayerPerceptrons:局限性Theobjectiveisonlytofindthelinethatseparatestwolinearlyseparableclasses.Assoonasthefirstsolutionweightsvector,whichseparatesallthedatapairscorretly,isfound,therewillbenofurtherchangesofthevector.So,theperceptronlearningisnotanoptimizationmethod.线性可分问题Problems:itcannotseparatepatternswhenthereisanoverlappingofdataorwhenclassesarenotlinearlySeparable不能处理线性不可分问题x10011x20101d0110异或问题:120001AND1011OR1010XORx1x2y000100010111x1x2y000101011111x1x2y000101011110LinearSeparableProblem131010XORSingleLayerPerceptronsForXORproblem:1.introducingoneadditionalneuroninaspecialway;2.usingdifferentiableactivationfunction;◙

一个单级网络可以将平面划分成两部分,用多个单级网组合在一起,

就可以构成一个两级网,该网络可以被用来在平面上划分出一个封闭

或者开放的凸域来;◙

采用特殊的激励函数。142:从神经网络到深度学习15神经网络深度学习网络相似之处:不同之处:模拟人脑的分层网络结构;强调深度的重要性;突出特征学习的重要性;(逐层抽象)训练机制;16深度学习思想起源:人脑视觉机理后脑皮层的不同视觉神经元,与瞳孔所受刺激之间,存在某种对应关系。17人的视觉系统的信息处理是分级的;高层的特征是低层特征的组合,从低层到高层的特征表示越来越抽象,越来越能表现语义或者意图;抽象层面越高,存在的可能猜测就越少,就越利于分类;如何用计算机模拟?深度学习起源:人脑视觉机理18为什么需要深度?深层网络具有刻画复杂函数的能力19常见深度学习网络一览20深度学习网络按是否有监督分类:213:循环神经网络(RNN)22递归神经网络模型23递归神经网络吸收了HMM模型的有限序列关联的思想。神经网络的隐藏层结构能够更好的表达有限的观察值背后的复杂分布。递归神经网络(RNN),是两种人工神经网络的总称:一种是时间递归神经网络(recurrentneuralnetwork);一种是结构递归神经网络(recursiveneuralnetwork);递归神经网络模型24时序扩展RecurrentNeuralNetwork25针对对象:序列数据。例如文本,是字母和词汇的序列;语音,是音节的序列;视频,是图像的序列;气象观测数据,股票交易数据等等,也都是序列数据。核心思想:样本间存在顺序关系,每个样本和它之前的样本存在关联。通过神经网络在时序上的展开,我们能够找到样本之间的序列相关性。RNN是一类扩展的人工神经网络,它是为了对序列数据进行建模而产生的。RNN发展历史26HopfieldnetworksJ.Hopfield19821986JordanNetworkElmanNetwork1990

J.ElmanBPTTP.WerbosHochreiter&Schmidhuber

LSTM1997Schuster&PaliwalBRNNA.

GravesNeuralturingmachine2014Cho,etalGRUM.Jordan早期(80、90年代)主要思想:重新使用参数和计算中期(90-2010)除LSTM以外,RNN基本从主流研究中消失了。当前(2010-)应用广泛:自然语言应用视频建模,手写识别,用户意图预测StackRNN2015Joulin&Mikolov开源工具包:TheanoTorch

PyBrain

TensorFlow,,,RecurrentNeuralNetwork27RNN基本框架e.g.ImageCaptioning

image->sequenceofwords

e.g.SentimentClassificationsequenceofwords->sentimente.g.MachineTranslation

seqofwords->seqofwords

e.g.Videoclassificationonframelevel

RecurrentNeuralNetwork28典型应用:图像标注RecurrentNeuralNetwork29典型应用:语言生成RecurrentNeuralNetwork30典型应用:音乐作曲循环神经网络模型31激活函数RNN常用的激活函数是tanh和sigmoid。循环神经网络模型32softmaxSoftmax函数是sigmoid函数的一个变种,通常我们将其用在多分类任务的输出层,将输入转化成标签的概率。本质就是将一个K维的任意实数向量压缩(映射)成另一个K维的实数向量,其中向量中的每个元素取值都介于(0,1)之间。

循环神经网络模型33简单循环网络SRN神经元之间的连接权重在时域上不变。循环神经网络模型34随时间反向传播算法BPTTBP回顾:定义损失函数E

来表示输出

和真实标签y的误差,通过链式法则自顶向下求得E对网络权重的偏导。沿梯度的反方向更新权重的值,直到E收敛。 BPTT的本质其实和BP很像,就是加上了时序演化。定义权重U,V,W。

定义损失函数:我们将整个序列作为一次训练,所以需要对每个时刻的误差进行求和。循环神经网络模型35随时间反向传播算法BPTT目前的任务是求E对于U,V,W的梯度。定义E对于W的梯度(U,V同理):(1)求E对于V的梯度。先求E3

对于V的梯度:WVU其中:求和可得。其中:依赖于,而又依赖于和W

,依赖关系一直传递到t=0的时刻。因此,当我们计算对于W的偏导数时,不能把看作是常数项!循环神经网络模型36随时间反向传播算法BPTT(2)求E对于W

的梯度。注意,现在情况开始变得复杂起来。先求E3

对于W的梯度:WVU当我们求对于W的偏导时。注意到:求和可得。同样:依赖于,而又依赖于和U

。类似求W,当我们计算对于U的偏导数时,也不能把看作是常数项!循环神经网络模型37随时间反向传播算法BPTT(3)求E对于U的梯度。情况与W类似。先求E3

对于U

的梯度:WVU当我们求对于W的偏导时。注意到:求和可得。循环神经网络模型38随时间反向传播算法BPTT参数意义:Whv:输入层到隐含层的权重参数,Whh:隐含层到隐含层的权重参数,Woh:隐含层到输出层的权重参数,bh:隐含层的偏移量,bo输出层的偏移量,h0:起始状态的隐含层的输出,一般初始为0。

递归神经网络模型39随时间反向传播算法BPTT面临的问题:梯度消失问题梯度爆炸问题解决方案:选择其他的激活函数。例如ReLU。引入改进网络结构的机制,例如LSTM,GRU。现在在自然语言处理上应用十分广的的就是LSTM。4:自然语言处理基础404.1:什么是自然语言处理?概念:研究人和计算机之间用自然语言进行通信的各种理论和方法414.2:词向量421:传统的One-HotEncode

离散单独符号表示单词

将一个单词转换成一个很长的向量。例子:{0,0,0,0,0,,,1,,,,0}

缺点:

A:维数灾难,稀疏

B:不能反映出单词之间的相似性

2:分布式表示

将一个单词表示成固定维度(小维度)向量

分布式假设(distribute):上下文相似的词,其语义也相似

相近的词投影到高维空间后距离很近词的表示-词向量4.3:Word2Vec43现在常用的工具是Google2013年开源的Word2Vec:根据采用的策略和模型我们主要分为以下几类框架模型基于HierarchicalSoftMax策略CBOW模型Skip-gram模型基于NegativeSampling策略CBOW模型Skip-gram模型我们主要介绍架是Negat

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论