版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录1:深度学习发展史2:从神经网络到深度学习3:循环神经网络基础4:自然语言处理基础(扩充知识)1目录11:深度学习发展史21:深度学习发展史2深度学习发展史SVMBoostingDecisiontreeKNN…NeuralnetworkBackpropagation19862006DeepbeliefnetScienceSpeech20112012ComputervisionNLPSpeech……2014GeoffreyHinton1949Learningmodelofneurons1958PerceptronHebbRosenblattGeoffreyHintonDBNCNNRBMRNN…机器学习第一次浪潮:机器学习第二次浪潮浅层学习模型(ShallowLearning)深度学习模型(DeepLearning)FirstWinterofNNSecondWinterofNN3深度学习发展史SVMNeuralnetwork198620深度学习(多层神经网络)神经网络神经元4深度学习(多层神经网络)神经网络神经元4synapsedendriteCellbodySynapticterminalsAxon轴突末梢突触树突细胞体轴突w1x1xnΣ线性动态系统激励函数own神经元是构成神经网络的最基本单元(构件),因此,首要任务是构造人工神经元模型。细胞体Cellbody树突dendrite突触synapse轴突Axon来自其它神经元神经元模型5synapsedendriteCellbodySynaptyθyaxox2x1xnw1w2wn•••w1x1xnΣ激励函数o=f(net)wnnet
=WTX
典型的激励函数(ActivationFunction):线性函数,非线性斜面函数,阶跃函数,S型函数等。神经元模型6yθyaxox2x1xnw1w2wn•••w1x1xnΣ激InputLayerHiddenLayerOutputLayerx1xMh1hLo1oNw11wm1wM1wmLwMLw1Lv11vl1vL1vLN神经网络一般形式•
Nonlinearity非线性
•ParallelProcessing并行处理•Input—OutputMapping输入输出匹配
•Adaptivity自适应性ocx2x1xnw1w2wn•••7InputLayerHiddenLayerOutput因此,当我们计算对于W的偏AssoonasthefirstNegativeSamplingOutputLayer气象观测数据,股票交易数据等等,也都是序列数据。将一个单词表示成固定维度(小维度)向量Rosenblatt,1957基于HierarchicalSoftMax策略Rosenblatt,1957ComputervisionImageCaptioning
image->sequenceofwords(ShallowLearning)则对于brown单词而言1:什么是自然语言处理?先求E3对于V的梯度:4:自然语言处理基础(扩充知识)Backpropagation例子:{0,0,0,0,0,,,1,,,,0}changesofthevector.最简单的神经网络:Perceptrons8因此,当我们计算对于W的偏最简单的神经网络:8SingleLayerPerceptronsybx2x1xMw1w2wM•••Rosenblatt,1957u>0u<09SingleLayerPerceptronsybx2x1两类样本:白色和黑色
分类错误的样本用红色轮廓目标:分类正确所有样本,直到没有红色轮廓的样本。W=[1.661.11]b=[1.25]W=[1.541.28]b=[-0.64]W=[1.161.63]b=[-1.8]W=[1.661.11]b=[-0.823]W=[1.49-1.39]b=[-0.743]SingleLayerPerceptrons:迭代过程where?10两类样本:白色和黑色W=[1.661.11]b=基于HierarchicalSoftMax策略或者开放的凸域来;Skip-gram模型:word2vec中的基于NegativeSampling模型的两种方法。PerceptronsRecurrentNeuralNetwork类似求W,当我们计算对于U的偏导数时,也不(ShallowLearning)基于HierarchicalSoftMax策略SingleLayerPerceptrons:迭代过程Whv:输入层到隐含层的权重参数,(1)求E对于V的梯度。28]b=[-0.11]b=[1.Rosenblatt,195739]b=[-0.Skip-gram模型后脑皮层的不同视觉神经元,与瞳孔所受刺激之间,存在某种对应关系。模拟人脑的分层网络结构;Schuster&Paliwal对这个函数(模型)采用梯度下降算法进行训练负样本:(brown,dog)SingleLayerPerceptrons:局限性Theobjectiveisonlytofindthelinethatseparatestwolinearlyseparableclasses.Assoonasthefirstsolutionweightsvector,whichseparatesallthedatapairscorretly,isfound,therewillbenofurtherchangesofthevector.So,theperceptronlearningisnotanoptimizationmethod.线性可分问题Problems:itcannotseparatepatternswhenthereisanoverlappingofdataorwhenclassesarenotlinearlySeparable不能处理线性不可分问题x10011x20101d0110异或问题:11基于HierarchicalSoftMax策略Single0001AND1011OR1010XORx1x2y000100010111x1x2y000101011111x1x2y000101011110LinearSeparableProblem120001AND1011OR1010XORx1x2y000101010XORSingleLayerPerceptronsForXORproblem:1.introducingoneadditionalneuroninaspecialway;2.usingdifferentiableactivationfunction;◙
一个单级网络可以将平面划分成两部分,用多个单级网组合在一起,
就可以构成一个两级网,该网络可以被用来在平面上划分出一个封闭
或者开放的凸域来;◙
采用特殊的激励函数。131010XORSingleLayerPerceptron2:从神经网络到深度学习142:从神经网络到深度学习14神经网络深度学习网络相似之处:不同之处:模拟人脑的分层网络结构;强调深度的重要性;突出特征学习的重要性;(逐层抽象)训练机制;15神经网络深度学习网络相似之处:不同之处:模拟人脑的分层网络结深度学习思想起源:人脑视觉机理后脑皮层的不同视觉神经元,与瞳孔所受刺激之间,存在某种对应关系。16深度学习思想起源:人脑视觉机理后脑皮层的不同视觉神经元,与瞳人的视觉系统的信息处理是分级的;高层的特征是低层特征的组合,从低层到高层的特征表示越来越抽象,越来越能表现语义或者意图;抽象层面越高,存在的可能猜测就越少,就越利于分类;如何用计算机模拟?深度学习起源:人脑视觉机理17如何用计算机模拟?深度学习起源:人脑视觉机理17为什么需要深度?深层网络具有刻画复杂函数的能力18为什么需要深度?深层网络具有刻画复杂函数的能力18常见深度学习网络一览19常见深度学习网络一览19深度学习网络按是否有监督分类:20深度学习网络按是否有监督分类:203:循环神经网络(RNN)213:循环神经网络(RNN)21我们将整个序列作为一次训练,所以需要对每个时刻的误差进行求和。Joulin&Mikolov(2)求E对于W的梯度。优化目标为:最大化正样本的概率,同时最小化负样本的概率。基于HierarchicalSoftMax策略39]b=[-0.神经元是构成神经网络的最基本单元(构件),因此,首要任务是构造人工神经元模型。类似求W,当我们计算对于U的偏导数时,也不Rosenblatt,1957BackpropagationRosenblatt,1957根据采用的策略和模型我们主要分为以下几类同样:依赖于,而又依赖于和U。ForXORproblem:基于NegativeSampling策略Skip-gram模型bh:隐含层的偏移量,bo输出层的偏移量,其中:依赖于,而又依赖于和W,依赖关系Skip-gram模型SingleLayerPerceptrons:迭代过程分布式假设(distribute):上下文相似的词,其语义也相似深度学习(多层神经网络)递归神经网络模型22递归神经网络吸收了HMM模型的有限序列关联的思想。神经网络的隐藏层结构能够更好的表达有限的观察值背后的复杂分布。递归神经网络(RNN),是两种人工神经网络的总称:一种是时间递归神经网络(recurrentneuralnetwork);一种是结构递归神经网络(recursiveneuralnetwork);我们将整个序列作为一次训练,所以需要对每个时刻的误差进行求和递归神经网络模型23时序扩展递归神经网络模型23时序扩展RecurrentNeuralNetwork24针对对象:序列数据。例如文本,是字母和词汇的序列;语音,是音节的序列;视频,是图像的序列;气象观测数据,股票交易数据等等,也都是序列数据。核心思想:样本间存在顺序关系,每个样本和它之前的样本存在关联。通过神经网络在时序上的展开,我们能够找到样本之间的序列相关性。RNN是一类扩展的人工神经网络,它是为了对序列数据进行建模而产生的。RecurrentNeuralNetwork24RNN是RNN发展历史25HopfieldnetworksJ.Hopfield19821986JordanNetworkElmanNetwork1990
J.ElmanBPTTP.WerbosHochreiter&Schmidhuber
LSTM1997Schuster&PaliwalBRNNA.
GravesNeuralturingmachine2014Cho,etalGRUM.Jordan早期(80、90年代)主要思想:重新使用参数和计算中期(90-2010)除LSTM以外,RNN基本从主流研究中消失了。当前(2010-)应用广泛:自然语言应用视频建模,手写识别,用户意图预测StackRNN2015Joulin&Mikolov开源工具包:TheanoTorch
PyBrain
TensorFlow,,,RNN发展历史25HopfieldJ.Hopfield198RecurrentNeuralNetwork26RNN基本框架e.g.ImageCaptioning
image->sequenceofwords
e.g.SentimentClassificationsequenceofwords->sentimente.g.MachineTranslation
seqofwords->seqofwords
e.g.Videoclassificationonframelevel
RecurrentNeuralNetwork26RNN基RecurrentNeuralNetwork27典型应用:图像标注RecurrentNeuralNetwork27典型应用RecurrentNeuralNetwork28典型应用:语言生成RecurrentNeuralNetwork28典型应用RecurrentNeuralNetwork29典型应用:音乐作曲RecurrentNeuralNetwork29典型应用循环神经网络模型30激活函数RNN常用的激活函数是tanh和sigmoid。循环神经网络模型30激活函数RNN常用的激活函数是tanh和循环神经网络模型31softmaxSoftmax函数是sigmoid函数的一个变种,通常我们将其用在多分类任务的输出层,将输入转化成标签的概率。本质就是将一个K维的任意实数向量压缩(映射)成另一个K维的实数向量,其中向量中的每个元素取值都介于(0,1)之间。
循环神经网络模型31softmaxSoftmax函数是sig循环神经网络模型32简单循环网络SRN神经元之间的连接权重在时域上不变。循环神经网络模型32简单循环网络SRN神经元之间的连接权重在循环神经网络模型33随时间反向传播算法BPTTBP回顾:定义损失函数E
来表示输出
和真实标签y的误差,通过链式法则自顶向下求得E对网络权重的偏导。沿梯度的反方向更新权重的值,直到E收敛。 BPTT的本质其实和BP很像,就是加上了时序演化。定义权重U,V,W。
定义损失函数:我们将整个序列作为一次训练,所以需要对每个时刻的误差进行求和。循环神经网络模型33随时间反向传播算法BPTTBP回顾:定义(3)求E对于U的梯度。•Nonlinearity非线性基于NegativeSampling策略Rosenblatt,1957根据采用的策略和模型我们主要分为以下几类就可以构成一个两级网,该网络可以被用来在平面上划分出一个封闭则对于brown单词而言根据采用的策略和模型我们主要分为以下几类SingleLayerPerceptrons:迭代过程当前(2010-)应用广泛:•ParallelProcessing并行处理word2vec中的基于NegativeSampling模型的两种方法。沿梯度的反方向更新权重的值,直到E收敛。分布式假设(distribute):上下文相似的词,其语义也相似VideoclassificationonframelevelSchmidhuber注意到:Rosenblatt,1957bh:隐含层的偏移量,bo输出层的偏移量,现在常用的工具是Google2013年开源的Word2Vec:主要思想:重新使用参数和计算随时间反向传播算法BPTT循环神经网络模型34随时间反向传播算法BPTT目前的任务是求E对于U,V,W的梯度。定义E对于W的梯度(U,V同理):(1)求E对于V的梯度。先求E3
对于V的梯度:WVU其中:求和可得。(3)求E对于U的梯度。循环神经网络模型34随时间反向其中:依赖于,而又依赖于和W
,依赖关系一直传递到t=0的时刻。因此,当我们计算对于W的偏导数时,不能把看作是常数项!循环神经网络模型35随时间反向传播算法BPTT(2)求E对于W
的梯度。注意,现在情况开始变得复杂起来。先求E3
对于W的梯度:WVU当我们求对于W的偏导时。注意到:求和可得。其中:依赖于,而又依赖于同样:依赖于,而又依赖于和U
。类似求W,当我们计算对于U的偏导数时,也不能把看作是常数项!循环神经网络模型36随时间反向传播算法BPTT(3)求E对于U的梯度。情况与W类似。先求E3
对于U
的梯度:WVU当我们求对于W的偏导时。注意到:求和可得。同样:依赖于,而又依赖于循环神经网络模型37随时间反向传播算法BPTT参数意义:Whv:输入层到隐含层的权重参数,Whh:隐含层到隐含层的权重参数,Woh:隐含层到输出层的权重参数,bh:隐含层的偏移量,bo输出层的偏移量,h0:起始状态的隐含层的输出,一般初始为0。
循环神经网络模型37随时间反向传播算法BPTT参数意义:递归神经网络模型38随时间反向传播算法BPTT面临的问题:梯度消失问题梯度爆炸问题解决方案:选择其他的激活函数。例如ReLU。引入改进网络结构的机制,例如LSTM,GRU。现在在自然语言处理上应用十分广的的就是LSTM。递归神经网络模型38随时间反向传播算法BPTT解决方案:4:自然语言处理基础394:自然语言处理基础394.1:什么是自然语言处理?概念:研究人和计算机之间用自然语言进行通信的各种理论和方法404.1:什么是自然语言处理?40先求E3对于V的梯度:(ShallowLearning)Rosenblatt,1957Skip-gram模型后脑皮层的不同视觉神经元,与瞳孔所受刺激之间,存在某种对应关系。分布式假设(distribute):上下文相似的词,其语义也相似注意到:根据采用的策略和模型我们主要分为以下几类后脑皮层的不同视觉神经元,与瞳孔所受刺激之间,存在某种对应关系。Rosenblatt,1957导数时,不能把看作是常数项!根据采用的策略和模型我们主要分为以下几类3:循环神经网络(RNN)Skip-gram模型:深度学习(多层神经网络)当前(2010-)应用广泛:Backpropagation基于HierarchicalSoftMax策略负样本:(brown,dog)后脑皮层的不同视觉神经元,与瞳孔所受刺激之间,存在某种对应关系。优化目标为:最大化正样本的概率,同时最小化负样本的概率。因此,当我们计算对于W的偏4.2:词向量411:传统的One-HotEncode
离散单独符号表示单词
将一个单词转换成一个很长的向量。例子:{0,0,0,0,0,,,1,,,,0}
缺点:
A:维数灾难,稀疏
B:不能反映出单词之间的相似性
2:分布式表示
将一个单词表示成固定维度(小维度)向量
分布式假设(distribute):上下文相似的词,其语义也相似
相近的词投影到高维空间后距离很近词的表示-词向量先求E3对于V的梯度:4.2:词向量411:传统的On4.3:Word2Vec42现在常用的工具是Google2013年开源的Word2Vec:根据采用的策略和模型我们主要分为以下几类框架模型基于HierarchicalSoftMax策略CBOW模型Skip-gram模型基于NegativeSampling策略CBOW模型Skip-gram模型我们主要介绍架是NegativeSampling(负采样)模型4.3:Word2Vec42现在常用的工具是Google204.4:工作原理43NegativeSampling概念:把语料中一个词替换为别的词,构造语料D中不存在的词串作为负样本优化目标为:最大化正样本的概率,同时最小化负样本的概率。例子:假设我们的目标是根据目标词汇预测该目标词汇的上下文语料:Thequickbrownfoxjumpedoverthelazydog这里我们的上下文长度取1;则对于brown单词而言正样本:(brown,quick),(brown,fox)负样本:(brown,dog)4.4:工作原理43NegativeSampling概念:4.4:工作原理44对于一个给定的样本(w,Context(w)),我们使用二项逻辑回归对其样本进行建模得
NegativeSampling原理则其全部正样本的似然函数为则其全部负样本的似然函数为4.4:工作原理44对于一个给定的样本(w,Contex4.4:工作原理45我们同时最大化正样本概率最小化负样本的概率就得到下式对这个函数(模型)采用梯度下降算法进行训练4.4:工作原理45我们同时最大化正样本概率最小化负样本的概4.5:工作模式46word2vec中的基于NegativeSampling模型的两种方法。例子:Iamastudent;CBOW:知道am,student,去预测aSkip-gram模型:知道a,去预测am,student4.5:工作模式46word2vec中的基于Negative4.6:实验步骤47原始语料生成样本训练模型参数最终模型生成结果4.6:实验步骤47原始语料生成样本训练模型参数最终模型生成THANKS48THANKS48深度学习(多层神经网络)神经网络神经元49深度学习(多层神经网络)神经网络神经元49synapsedendriteCellbodySynapticterminalsAxon轴突末梢突触树突细胞体轴突w1x1xnΣ线性动态系统激励函数own神经元是构成神经网络的最基本单元(构件),因此,首要任务是构造人工神经元模型。细胞体Cellbody树突dendrite突触synapse轴突Axon来自其它神经元神经元模型50synapsedendriteCellbodySynaptInputLayerHiddenLayerOutputLayerx1xMh1hLo1oNw11wm1wM1wmLwMLw1Lv11vl1vL1vLN神经网络一般形式•
Nonlinearity非线性
•ParallelProcessing并行处理•Input—OutputMapping输入输出匹配
•Adaptivity自适应性ocx2x1xnw1w2wn•••51InputLayerHiddenLayerOutput深度学习思想起源:人脑视觉机理后脑皮层的不同视觉神经元,与瞳孔所受刺激之间,存在某种对应关系。52深度学习思想起源:人脑视觉机理后脑皮层的不同视觉神经元,与瞳后脑皮层的不同视觉神经元,与瞳孔所受刺激之间,存在某种对应关系。Computervision同样:依赖于,而又依赖于和U。Whh:隐含层到隐含层的权重参数,NegativeSampling原理Rosenblatt,1957RNN常用的激活函数是tanh和sigmoid。例如文本,是字母和词汇的序列;一种是结构递归神经网络(recursiveneuralnetwork);导数时,不能把看作是常数项!例子:假设我们的目标是根据目标词汇预测该目标词汇的上下文VideoclassificationonframelevelRecurrentNeuralNetwork•ParallelProcessing并行处理InputLayer当我们求对于W的偏导时。根据采用的策略和模型我们主要分为以下几类就可以构成一个两级网,该网络可以被用来在平面上划分出一个封闭基于HierarchicalSoftMax策略isnotanoptimizationmethod.solutionweightsvector,whichseparatesalltheSingleLayerPerceptrons:迭代过程为什么需要深度?深层网络具有刻画复杂函数的能力53后脑皮层的不同视觉神经元,与瞳孔所受刺激之间,存在某种对应关常见深度学习网络一览54常见深度学习网络一览54循环神经网络模型55激活函数RNN常用的激活函数是tanh和sigmoid。循环神经网络模型55激活函数RNN常用的激活函数是tanh和datapairscorretly,isfound,therewillbenofurtherCBOW:知道am,student,去预测aRecurrentNeuralNetworkGeoffreyHinton因此,当我们计算对于W的偏(ShallowLearning)Schuster&Paliwal概念:把语料中一个词替换为别的词,构造语料D中不存在的词串作为负样本Videoclassificationonframelevel1:什么是自然语言处理?bh:隐含层的偏移量,bo输出层的偏移量,根据采用的策略和模型我们主要分为以下几类Rosenblatt,1957深度学习思想起源:人脑视觉机理usingdifferentiableactivationfun
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二年级数学计算题专项练习1000题汇编
- 一年级数学(上)计算题专项练习汇编
- 2023年南宁市隆安县中医医院招聘笔试真题
- 权利保证书在交易中的重要性3篇
- 标准格式公司授权委托书3篇
- 柴山承包合同的续约法律要求3篇
- 机动车辆注册代理委托3篇
- 2024年新一代网络安全技术服务合同
- 2024员工离职后知识产权归属及使用授权合同3篇
- 2024年度大豆期货交易合作合同范本3篇
- 工程安全生产竣工评定表
- 5-工程地质勘察总说明书(崆峒区)
- 13《社会学的想象力》读书笔记
- 汉字的起源与发展
- 厦门大学招生宣传
- 第三单元复习 课件 语文小学四年级上册统编版(部编版)18张PPT
- 中药材的性状及真伪鉴别培训-课件
- Go语言Hyperledger区块链开发实战PPT完整全套教学课件
- 高速公路绿色品质工程建设
- 小学语文《黄山奇松》第1课时教学设计
- qingming scroll《清明上河图新解》英文PPT
评论
0/150
提交评论