




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1第10章循环神经网络和注意力机制10.1文本表示与词嵌入模型210.1文本表示与词嵌入模型
10.1.1文本表示基本方法One-hot向量:容易构建稀疏N-gram轻量级浅层文本处理3文本词频矩阵与TF-IDF变换词袋表示,又称计数向量表示。直观地,就是将所有单词放入一个袋子中,只考虑单词出现的频率,不考虑单词出现的顺序。文档词频矩阵由每个文档中单词(标记)出现的次数所构成的矩阵410.1.2NNLM模型当使用神经网络来处理语言时,如果使用基于局部表示的向量来作为网络的输入,那么输入层的维数非常大,会导致网络参数也非常多。为了避免这个问题,我们可以将高维的局部表示向量空间R映射到一个非常低维的空间。特别地,对于词的分布式表示(即低维稠密向量表示),我们经常叫做词嵌入56710.1.3Word2vec模型Word2Vec是一个著名的表示词嵌入的模型,它利用上下文的单词来训练词嵌入。Word2Vec实际上由两种模型组成:连续词袋模型(CBOW)和跳字模型(Skip-gram)。8CBOW模型连续词袋模型是用训练窗口中的上下文词来预测中心词,简单来说,它试图填补空白,以确定哪个词更适合给定的上下文词。连续词袋模型的神经网络结构如下:输入层:输入为一组上下文词的独热向量的拼接隐藏层(投影层):将上下文词的独热向量与投影矩阵相乘,得到维度为d的词嵌入,并将投影得到的结果求和。输出层:将维度为d的隐藏层作为输入,与参数矩阵相乘,得到形状为
的向量,这个向量经过softmax处理后,得到当前上下文对中心词的预测。910Skip-gram模型跳字模型尝试从中心词预测上下文词(与连续词袋模型相反)。跳字模型的神经网络结构如下:输入层:输入为一个中心词的独热向量。隐藏层(投影层):将中心词的独热向量与投影矩阵相乘,得到维度为d的词嵌入。输出层:将维度为d的隐藏层作为输入,与参数矩阵相乘,得到形状为的向量,这个向量经过softmax处理后,得到当前中心词对上下文的预测。111210.1.4Glove模型Glove模型通过学习单词的局部信息和全局信息,弥补了Word2Vec的缺点。符号定义:13公式推导:差值处理点积运算14指数变换对称性考虑15损失函数:161710.2循环神经网络传统神经网络特点:层级结构通常为每层神经元与下一层神经元全连接,同层的神经元之间不存在连接。所有的观测值都是相互独立地进行处理。传统神经网络的面临的问题:
(1)输入和输出具备明显的顺序特征。(时序数据) (2)Input和output的长度不同(输入和输出长度不固定的数据) (3)不能共享从文本不同位置所学习到的特征为解决这些问题,循环神经网络(RecurrentNeuralNetwork,RNN)应运而生。它添加了时间记忆功能,是传统神经网络的简单变体,但这一改变极大地推动了自然语言处理、语音识别等领域的发展。
1810.2.1研究问题与基本结构循环神经网络(RecurrentNeuralNetwork,RNN):是一类用于处理序列数据的神经网络。RNN的每个输入之间具有记忆性,模型根据过去的信息构建,并随着新信息的进入而不断更新。神经元不但可以接受其它神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。循环神经网络这种渐进式迭代,在语音识别、自然语言处理、机器翻译等领域发挥重要作用。19循环神经网络示意图20公式表达21
10.2.2随时间反向传播算法22232425梯度爆炸与梯度消失26对于梯度爆炸,可以通过权重衰减或者梯度截断来避免。对于梯度消失问题,更有效的方式是改变模型。10.2.3长短期记忆网LSTM27引入门控机制来控制信息的积累速度以及加入新的信息,并有选择的遗忘之前累积的信息。282910.2.4其他RNN网络30门控循环单元GRU:将输入门和遗忘门合并成一个更新门,控制当前状态需要从历史状态中保留多少信息,以及从候选状态中接受多少新信息3132深层循环神经网络如果将深度定义为网络中信息传递路径长度的话,循环神经网络可以看作是既“深”又“浅”的网络。一方面来说,如果我们把循环网络按时间展开,长时间间隔的状态之间的路径很长,循环网络可以看作是一个非常深的网络了。从另一方面来说,如果同一时刻网络输入到输出之间的路径xt→yt,这个网络是非常浅的。因此,我们可以增加循环神经网络的深度从而增强循环神经网络的能力。增加循环神经网络的深度主要是增加同一时刻网络输入到输出之间的路径xt→
yt,比如增加隐状态到输出ht→yt,以及输入到隐状态xt→ht之间的路径的深度。33堆叠循环神经网络一种常见的做法是将多个循环网络堆叠起来,称为堆叠循环神经网络(StackedRecurrentNeuralNetwork,SRNN)。34双向循环神经网络在有些任务中,一个时刻的输出不但和过去时刻的信息有关,也和后续时刻的信息有关。比如给定一个句子,其中一个词的词性由它的上下文决定,即包含左右两边的信息。因此,在这些任务中,我们可以增加一个按照时间的逆序来传递信息的网络层,来增强网络的能力。第1层按时间顺序,第2层按时间逆序。3510.3注意力机制
10.3.1注意力机制基本介绍认知神经学中的注意力:关注一些信息的同时忽略另一些信息的选择能力两种形式自上而下、有意识:聚焦式(鸡尾酒会,听见朋友说话)自下而上、无意识:显著性(听见有人喊自己的名字)36最大汇聚、门控:显著性注意力注意力分布:
(1)X:输入信息 (2)与任务相关的表示:查询向量q (3)注意力变量z
(4)选择第i个输入向量的概率注意力机制:(1)软注意力:加权平均(2)硬性注意力(3)键值对注意力(4)多头注意力(5)自注意力机制:忽略了位置信息,需要加入
37计算注意力分布38注意力打分函数:加权平均(软性注意力机制):39键值对注意力机制40自注意力机制如果要建立输入序列之间的长距离依赖关系,可以使用以下两种方法:一种方法是增加网络的层数,通过一个深层网络来获取远距离的信息交互;另一种方法是使用全连接网络,全连接网络是一种非常直接的建模远距离依赖的模型,但是无法处理变长的输入序列.不同的输入长度,其连接权重的大小也是不同的。自注意力也称为内部注意力(Intra
Attention),这时我们就可以利用注意力机制来“动态”地生成不同连接的权重,这就是自注意力模型(Self-AttentionModel).41多头注意力机制多头注意力(Multi-HeadAttention)是利用多个查询𝑸=[𝒒1,⋯,𝒒𝑀],来并行地从输入信息中选取多组信息.每个注意力关注输入信息的不同部分.
4210.3.2Transformer模型及其拓展较早的机器翻译模型多使用基于循环神经网络的序列到序列的模型,缺点是当序列很长时,由于循环神经网络的长期依赖问题,容易丢失输入序列信息。Transformer模型引入了自注意力机制,它允许模型在处理每个位置的输入时,动态地关注输入序列的不同部分,从而更好地捕捉长距离依赖关系。Transformer模型是一个基于多头自注意力的序列到序列模型,其整个网络结构可以分为编码器和解码器两部分:43序列编码4445解码器4647拓展BERT使用Transformer模型架构的编码器部分。模型包括两部分:预训练(pre-training)阶段和微调(fine-tuning)阶段。BERT在预训练阶段学到的通用语言表示可以在各种下游任务中进行微调,例如文本分类、命名实体识别、问答等BERT的出现对自然语言处理领域产
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 计算机技术在政策评估中的应用潜能试题及答案
- 化妆师考试试题、答案
- 社会公正与经济政策的关系试题及答案
- 流动机械基础试题及答案
- 软件设计趋势与试题及答案的变化
- 软件设计师考试优劣势分析试题及答案
- 网络信息安全等级测评试题及答案
- 如何通过数字技术提升政策实施效率试题及答案
- 公共政策中的性别视角试题及答案
- 软件项目管理中的技术应用探讨与试题答案
- 浅谈如何培养提升藏族学生的汉语思维 论文
- 酒水鉴赏与调酒技术智慧树知到答案章节测试2023年青岛恒星科技学院
- 读书笔记:《教育,向美而生》
- GB 5009.96-2016食品安全国家标准食品中赭曲霉毒素A的测定
- 排序算法及其算法分析课件
- 吸烟对人体危害和戒烟
- 子宫内膜增生课件
- 建筑施工安全技术统一规范
- 天津市新版就业、劳动合同登记名册
- 建设工程施工安全技术操作规程完整
- 送医护人员锦旗用语16字
评论
0/150
提交评论