人工智能导论-第四课自然语言处理_第1页
人工智能导论-第四课自然语言处理_第2页
人工智能导论-第四课自然语言处理_第3页
人工智能导论-第四课自然语言处理_第4页
人工智能导论-第四课自然语言处理_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1卷积神经网络网络结构前馈网络2卷积神经网络三个核心局部感受域每个隐层节点(神经元)只连接到图像某个足够小局部的像素点上3卷积神经网络三个核心局部感受域每个隐层节点只连接到图像某个足够小局部的像素点上权值共享同一个卷积核内,所有的神经元的权值是相同的4卷积神经网络三个核心局部感受域每个隐层节点只连接到图像某个足够小局部的像素点上权值共享同一个卷积核内,所有的神经元的权值是相同的池化卷积神经网络没有必要对原图像做处理,可以使用池化“压缩”方法5卷积神经网络卷积过程举个栗子6卷积神经网络卷积网络训练过程以船的识别为例输入图像=船,目标矢量=[0,0,1,0]1.使用随机值设置参数/权重,初始化滤波器2.接收训练图像作为输入,前向传播计算各类的输出概率3.计算输出层总误差4.使用反向传播算法,计算网络权重误差梯度,使用梯度下降算法更新滤波器值/权重以及参数值,使输出误差最小化5.对训练数据重复步骤1~47卷积神经网络卷积网络训练过程反向传播过程从高层到底层,逐层进行分析多层感知器层使用多层感知器的参数估计方法,得到最低一个隐层S的残差向量δs将残差传播到光栅化层

R,光栅化的时候并没有对向量的值做修改,因此其激活函数为恒等函数,其导数为单位向量。8卷积神经网络卷积网络训练过程反向传播过程从高层到底层,逐层进行分析光栅化层从上一层传过来的残差为重新整理成为一系列矩阵即可,若上一层Q有q个池化核,则传播到池化层的残差为9卷积神经网络卷积网络训练过程反向传播过程从高层到底层,逐层进行分析池化层应池化过程中常用的两种池化方案,反传残差的时候也有两种上采样方案最大池化:将1个点的残差直接拷贝到4个点。均值池化:将1个点的残差平均到4个点。传播到卷积层的残差为10卷积神经网络卷积网络训练过程反向传播过程从高层到底层,逐层进行分析卷积层卷积层有参数,所以卷积层的反传过程需要更新权值,并反传残差。先考虑权值更新,考虑卷积层某个“神经中枢”中的第一个神经元多层感知器的梯度公式11卷积神经网络卷积网络训练过程反向传播过程从高层到底层,逐层进行分析卷积层仅考虑对θ11的偏导数对卷积层P中的某个“神经中枢”p,权值更新公式为12卷积神经网络卷积网络训练过程反向传播过程从高层到底层,逐层进行分析卷积层考虑残差反传考虑淡蓝色像素点影响到的神经元如果前边的池化层Q′的某个特征图q′连接到这个卷积层P中的某“神经中枢”集合C,那么传播到q′的残差为13卷积神经网络卷积图像应用同一化核(Identity)边缘检测核(EdgeDetection)图像锐化核(SharpnessFilter)均值模糊(BoxBlur/Averaging)14传统神经网络不考虑历史数据历史可以帮助我们推测未来,不可轻易抛弃。15递归(循环)神经网络(RNN)“书读百遍,其义自见”研究表示,在大脑皮层中局部回路的基本连接可以通过一系列的互联规则所捕获,而且这些规则在大脑皮层中处于不断循环之中。模拟人脑利用历史信息来做决策两种不同神经网络的缩写。时间递归神经网络(recurrentneuralnetwork)结构递归神经网络(recursiveneuralnetwork)RNN由Hopfield网络启发变种而来,最早被应用于NLP,是深度学习的三大模型之一16递归(循环)神经网络(RNN)网络表现形式有循环结构,使得过去输出的信息作为记忆而被保留下来,并可应用于当前输出的计算中。RNN的同一隐层之间的节点是有连接的。17递归(循环)神经网络(RNN)ElmanRNN网络结构和符号形式化定义18递归(循环)神经网络(RNN)RNN网络训练算法时间反向传播(BackPropagationThroughTime,简称BPTT)问题建模确定隐层和输出层的输出函数假设隐层用激活函数sigmoid,在任意第t时间步,隐层的输出s(t)可表示为:在第t时间步的输出层o(t)可表示为:RNN网络训练算法问题建模对于分类模型,输出层还要利用softmax激活函数做归一化处理,将一个m维的向量压缩为一个m维的实数向量,最终输出形式为:优化目标函数构建损失函数,设法求损失函数最小值,形成优化目标函数J(θ)19递归(循环)神经网络(RNN)RNN网络训练算法参数求解和传统BP反向传播算法一样,BPTT算法的核心也是求解参数的导数利用随机梯度下降等优化策略,来指导网络参数的更新RNN常采用的激活函数是sigmoid,其导数值域锁定在[0,1/4]范围,随着传递时间步数的不断增加,梯度会呈现指数级递减趋势20递归(循环)神经网络(RNN)RNN网络问题原始RNN隐层中的神经元只有一个状态,记为h,它对短期输入非常敏感“天空中飞来一只__”“我在中国北京长大,我兄弟5人,我哥叫牛A,我还有三个弟弟分别叫牛C、牛D和牛F,我排名老二,因此大家都叫我牛B,我们都能说一口流利的__”。21递归(循环)神经网络(RNN)核心本质通过引入巧妙的可控自循环,以产生让梯度能够得以长时间可持续流动的路径。网络结构在原有神经元的基础上再增加一个状态,即c,让它“合理地”保存长期的状态。新增加的状态c,称为记忆单元态(cellstate),亦称为“记忆块(memoryblock)”,用以取代传统的隐含神经元节点。它负责把记忆信息从序列的初始位置,传递到序列的末端。22长短记忆网络(LSTM)长期状态c控制机制设计3把控制门开关(gate)打造一个可控记忆神经元23长短记忆网络(LSTM)前向计算“门开关”实际上是一个全连接网络层,它的输入是一个复杂的矩阵向量,输出是一个0到1之间的实数向量。LSTM通过调控某些全连接层网络参数,来达到调控输出的目的。如果输出可控,那么“门”的开和关就可以模拟出来。假设W是门的权重向量,b为偏置向量,“门”可表示为:24长短记忆网络(LSTM)前向计算遗忘门目的在于控制从前面的记忆中,丢弃多少信息,或者说要继承过往多大程度的记忆。可通过如下公式的激活函数来实现遗忘门前一隐层的输出st−1

与当前的输入xt的线性组合,然后利用激活函数,将其输出值压缩到0到1的区间之内。当输出值越靠近1,表明记忆体(cellblock)保留的信息就越多;反之,越靠近0,表明保留的就越少。25长短记忆网络(LSTM)前向计算输入门目的在于决定了当前时刻的输入信息xt,以多大程度添加至记忆信息流中。可通过如下公式的激活函数来实现26长短记忆网络(LSTM)前向计算候选门目的在于计算当前输入的单元状态。可通过如下所示的激活函数来实现。27长短记忆网络(LSTM)前向计算记忆更新通过遗忘门过滤掉不想保留得部分记忆,大小可记为:ft×Ct−1添加当前新增的信息,添加的比例由输入门控制,大小可记为:it×C′t然后将这两个部分线性组合,得到更新后的记忆信息Ct28长短记忆网络(LSTM)前向计算输出门作用在于控制有多少记忆可以用于下一层网络的更新中。可通过如下公式的激活函数来实现此外,用激活函数tanh把记忆值变换一下,将其变换为-1至+1之间的数。负值区间表示不但不能输出,还得压制一点,正数区间表示合理的输出。最终输出门的公式为29长短记忆网络(LSTM)LSTM训练反向传播算法前向计算每个神经元的输出值确定优化目标函数根据损失函数的梯度指引,更新网络权值参数30长短记忆网络(LSTM)自然语言处理32自然语言处理词的表示计算机表示词的意思通常使用语义词典,包含有上位词(is-a)关系和同义词集33自然语言处理词的表示语义词典存在的问题可能在一些细微之处有缺失,例如这些同义词准确吗:adept,expert,good,practiced,proficient,skillful?会错过一些新词,几乎不可能做到及时更新:wicked,badass,nifty,crack,ace,wizard,genius,ninjia有一定的主观倾向需要大量的人力物力很难用来计算两个词语的相似度34自然语言处理词向量one-hotrepresentation最简单的词向量方式举个栗子“话筒”表示为[000

1

000000000000…]

“麦克”表示为[00000000

1

0000000…]无法对词向量做比较,任意两个词之间都是孤立的35自然语言处理词向量使用上下文来表示单词使用共现矩阵(Cooccurrencematrix)一个基于窗口的共现矩阵例子窗口长度是1(一般是5-10)语料样例Ilikedeeplearning.IlikeNLP.Ienjoyflying36自然语言处理词向量共现矩阵存在的问题规模随着语料库词汇的增加而增加非常高的维度,需要大量的存储分类模型会遇到稀疏问题模型不够健壮解决方案:低维向量将最重要的信息存储在固定的,低维度的向量里:密集向量(densevector)SVD(奇异值分解)直接学习低维度的词向量37自然语言处理词向量SVD(奇异值分解)38自然语言处理词向量有趣的语义模式39自然语言处理词向量Distributedrepresentation直接学习低维度的词向量通过训练将某种语言中的每一个词映射成一个固定长度的短向量(当然这里的“短”是相对于one-hotrepresentation的“长”而言的),将所有这些向量放在一起形成一个词向量空间,而每一向量则可视为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性了。Word2vec与一般的共现计数不同,主要预测单词周边的单词预测一个窗口长度为c的窗口内每个单词的周边单词概率目标函数:对于一个中心词,最大化周边任意单词的log概率40自然语言处理词向量Distributedrepresentationword2vec中存在的线性关系可以很好的对词语相似度进行编码,在嵌入空间里相似度的维度可以用向量的减法来进行类别测试41自然语言处理语言模型“其实就是看一句话是不是正常人说出来的”语言模型形式化的描述就是给定一个字符串,看它是自然语言的概率P(w1,w2,…,wt),w1

到wt

依次表示这句话中的各个词。P(w1,w2,…,wt)=P(w1)×P(w2|w1)×P(w3|w1,w2)×…×P(wt|w1,w2,…,wt−1)常用的语言模型都是在近似地求P(wt|w1,w2,…,wt−1),比如n-gram模型就是用P(wt|wt−n+1,…,wt−1)近似表示前者。42自然语言处理训练语言模型经典之作Bengio等人在2001年发表在NIPS上的文章《ANeuralProbabilisticLanguageModel》用三层神经网络构建语言模型,同样也是n-gram模型43自然语言处理词向量评价词向量的评价大体上可以分成两种方式第一种是把词向量融入现有系统中,看对系统性能的提升;第二种是直接从语言学的角度对词向量进行分析,如相似度、语义偏移等提升现有系统直接用于神经网络模型的输入层将训练好的词向量作为输入,用前馈网络和卷积网络完成了词性标注、语义角色标注等一系列任务将词向量作为输入,用递归神经网络完成了句法分析、情感分析等多项任务。作为辅助特征扩充现有模型将词向量作为额外的特征来进一步提高命名实体识别和短语识别的效果44DL+NLP应用文本分类CNN网络(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论