《深度学习 》课件 第5章-深度序列模型_第1页
《深度学习 》课件 第5章-深度序列模型_第2页
《深度学习 》课件 第5章-深度序列模型_第3页
《深度学习 》课件 第5章-深度序列模型_第4页
《深度学习 》课件 第5章-深度序列模型_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

5深度序列模型目录

|

CONTENTS深度序列模型概述1Seq2Seq模型基础2融入注意力机制的Seq2Seq模型3Transformer模型基础4Transformer变体56总结深度序列模型概述11.1深度序列模型定义深度序列模型定义处理输入/输出为序列的神经网络(文本、语音、时间序列等)典型任务:情感分析(输入序列→分类标签)、机器翻译(序列→序列)模型结构示意图嵌入层转词为向量,特征层捕获上下文特征,输出层则根据任务需求进行映射。数学表示形式输入序列X={x₁,x₂,...,xₙ}→输出序列Y={y₁,y₂,...,yₘ}模型应用示例以翻译任务为例,'我爱AI'经过嵌入层转为向量,特征层捕获前后文关系,输出层逐词生成英文序列'IloveAI'。"嵌入层作用将由自然语言序列转化为计算机可以理解的词向量序列独热编码(One-Hot)独热编码又称作一位有效编码,单词的one-hot向量只有特征位的值为1,其余位数均由0填充。优点:是将自然语言序列转化为词向量序列最简单的方式缺陷:维度灾难(词表1万→1万维向量)、语义无关联(猫vs狗相似度为0)语义歧义问题:"bank"在金融/河岸场景下的独热编码相同独热编码矩阵示例包含独热编码矩阵。1.2模型嵌入层——独热编码(One-Hot)优点相比于One-Hot编码,Word2Vec模型生成的词向量通常具有较低的维度,能够捕捉到词语之间的语义关系,使得相似含义的词语在向量空间中距离较近缺点仍然无法解决一词多义问题,例如仍然无法区分"bank"在金融/河岸场景下的含义静态词向量(Word2Vec)简介:word2vec是谷歌团队于2013年提出的一种用于训练词向量的模型,该方法的出发点为两个含义相似的单词,应该具有相似的词向量。例如“猫”作为一种受欢迎的宠物,其对应的词向量应该和“狗”更相似,而不是和“苹果”或者“葡萄”等水果更相似CBOWCBOW:CBOW通过某个词周围的词语来预测当前词语Skip-GramSkip-Gram:Skip-Gram通过语料库中的某个词语预测周围的词语两种模型word2vec在训练时采用的方式是以词语来预测词语,共包含两种模型:跳字模型(Skip-Gram)和连续词袋模型(CBOW)Word2Vec1.2模型嵌入层——静态词向量(Word2Vec)1.2模型嵌入层——动态词向量(BERT、GPT)缺陷:计算资源消耗较高优点:动态地获取单词的词嵌入表示,可以更好地整合句子序列的语义信息,解决静态词向量无法辨别的一词多义问题0304动态词嵌入方法的做法是将自然语言序列输入到预训练模型中,取预训练模型对应的输出作为词语的词嵌入表示简介:随着大规模预训练模型的兴起,使用BERT、GPT等预训练模型对文本进行编码的动态词嵌入方法逐渐取代了word2vec等静态方法。0102动态词向量(BERT、GPT)1.3模型特征层模型特征层作用特征层将嵌入层得到的词向量进行变换,获取输入序列的各种特征。例子以序列为例,当文本序列经过嵌入层处理后,会转换成一个由词嵌入向量组成的序列。接下来,特征层会对这个词嵌入向量序列进行一系列的线性变换和非线性变换,旨在提取出对后续任务(如分类、生成等)有价值的特征。特征提取器在深度序列模型中为了更好地提取富含文本信息的语义特征,特征层一般采用RNN作为特征提取器。RNN能够处理序列数据,通过捕捉序列中的时间依赖性来提取特征。基础RNN的缺陷RNN处理长距离依赖时的能力不足。由于RNN在反向传播时,梯度会随着时间步长的增加而指数级衰减或增长,这导致模型在处理较长序列时难以捕捉到序列开始部分的信息(梯度消失问题)或导致模型训练不稳定(梯度爆炸问题)。因此,当句子长度超过一定阈值(如20个单词以上)时,基础RNN的性能会显著下降,甚至失效。RNN改进:在RNN的众多变体中,长短期记忆网络(LSTM)和门控循环单元(GRU)因其能够有效缓解基础RNN的梯度消失和梯度爆炸问题而备受青睐。1.3模型特征层LSTM和GRU引入了门控机制来控制信息的流动。这些门控机制能够有选择地保留或遗忘过去的信息,从而允许模型在处理长序列时能够捕捉到更远的上下文信息。LSTM:LSTM通过输入门、遗忘门和输出门来控制信息的流动输入门决定了新信息是否应该被添加到细胞状态中,遗忘门则决定了旧信息是否应该被保留,而输出门则控制了细胞状态中的信息是否应该被输出。这种设计使得LSTM能够长期保持信息,同时避免了传统RNN中的梯度消失问题。GRU:而GRU则通过更新门和重置门来实现类似的功能,但结构更为简单。更新门决定了前一时刻的状态信息有多少需要保留到当前时刻,而重置门则决定了前一时刻的状态信息有多少需要用于当前时刻的候选状态计算。与LSTM相比,GRU的参数更少,结构更简单,但在许多任务中却能达到与之相当甚至更好的性能。LSTM\GRU缺陷:在自然语言序列中,单词不仅与其左侧的单词有语义上的联系,而且也与其右侧的单词有关联。这种双向的语义依赖关系在LSTM和GRU中并未得到充分的利用,因为它们是基于单向序列处理的。进一步改进:因此为了更好地提取序列中的语义信息,特征层往往会采用双向循环神经网络来处理词嵌入序列,以此来得到富含上下文信息的语义特征1.4模型输出层作用:在自然语言处理模型中,输出层扮演着将特征层提取的语义特征转化为具体任务输出的关键角色。为了实现多任务处理,输出层需要针对不同的NLP任务进行适配,以满足不同场景下的需求。以下是对分类任务和生成任务中输出层设计的详细解析。分类任务(情感分析为例)特征向量:从特征层提取出的富含上下文信息的语义特征向量。全连接层:将特征向量映射到一个与任务类别数相匹配的维度空间。以情感分析为例,就是大小为情感极性个数的向量Softmax:对全连接层的输出进行归一化处理,得到每个类别的概率分布。标签概率:根据Softmax层的输出,选择概率最高的类别作为最终输出。以情感分析为例,最终输出是积极、消极或中立等情感极性的标签。生成任务(机器翻译)输出层则需要把隐藏状态映射到大小为语料库词语总数的向量,采用不同的解码策略从中选取某个词作为某个时刻的生成词。常见解码策略对比:贪心搜索:在每一步解码时,都选择当前概率最高的词作为输出。这种方法速度最快,但由于没有考虑后续步骤的影响,可能导致整体翻译质量较低。BeamSearch:在每一步解码时,都保留Top-k个候选词(即Beam宽度为k),并根据这些候选词组合出k个最优的翻译路径。在达到预设的结束条件后,从这些路径中选择得分最高的作为最终输出。BeamSearch方法能够在保证一定效率的同时,显著提高翻译质量。1.5情感分析任务流程示例以情感分析任务为例,进一步探讨深度序列模型的流程输入文本:“这家餐厅很好”分词过程嵌入层:将分词序列转化为词向量特征层:特征提取输出层:得到“positive”的情感极性标签对这一过程做进一步的抽象,可以将嵌入层和特征层两部分合并称作编码器,输出层称作解码器1.6编码器-解码器架构编码器(Encoder)定义:编码器是负责将输入数据转换为特征表示的神经网络部分。功能:接收原始输入数据(如文本序列、图像等)。通过一系列变换(如卷积、循环神经网络、注意力机制等)提取输入数据的特征。输出一个包含输入数据特征的向量表示(通常称为上下文向量或隐藏状态)。解码器(Decoder)定义:解码器是负责将编码器的特征表示转换为输出结果的神经网络部分。功能:接收编码器的特征表示作为输入。根据特征表示生成输出结果(如文本序列等)。可能使用与编码器相似的变换机制,但通常针对特定任务进行设计。1.7序列生成模型解决的问题自然语言处理领域的众多子任务中,一些任务的输入形式各不相同,输出却均为一段自然语言序列,我们常使用序列生成模型来解决这一类任务。根据输入的不同形式,可以将序列生成模型解决的问题分为以下几种类型(1)文本到文本生成任务。这类任务的输入同样是一段自然语言序列,常见的文本到文本生成任务有机器翻译、文本摘要生成、智能问答等;(2)数据到文本生成任务。这类任务的输入为结构化的数据,常见的结构化数据有表格、知识图谱等;(3)多媒体到文本生成任务。这类任务的输入来自于文本之外的模态,例如视频、音频等;(4)无条件文本生成任务。这类任务的输入为随机噪声,也可以把这类任务称作朴素的语言模型。Seq2Seq模型基础22.1Seq2Seq模型概述定义一种通用的框架,适用于处理输入和输出均为序列的任务,如机器翻译、文本摘要及对话生成等。奠基性工作:o

Sutskeveretal.(2014)提出了基于LSTM的Seq2Seq模型,从理论上奠定了RNNs在序列任务中的应用基础。o

Choetal.(2014)引入了门控循环神经网络(GRU)作为替代,简化了模型结构,提升了训练速度。突破传统限制:o

传统模型通常要求输入和输出长度相同,而Seq2Seq模型能够处理可变长度的输入输出序列。编码器-解码器架构:将输入压缩为语义向量,再逐词生成输出端到端学习:模型通过大规模数据训练,通过最小化预测输出和实际目标之间的误差,自动学习序列之间的映射关系,无需手动特征工程。核心思想提出背景2.2Seq2Seq模型结构与核心组件整体架构图示·

编码器:o

输入序列:[x₁,x₂,...,xₙ]

→嵌入层→RNN→隐藏状态序列

[h₁,h₂,...,hₙ]

→最终隐藏状态

解码器:o

初始输入:<SOS>,初始隐藏状态:C→RNN→输出词概率分布→采样词→循环至<EOS>关键符号与术语·

<SOS>:StartofSequence(解码启动信号)·

<EOS>:EndofSequence(终止条件)·

语义向量C:编码器最终隐藏状态,承载输入全局信息2.3编码器详解RNN的逐词编码过程步骤拆解:i.词嵌入:x→

e(如Word2Vec/Glove)ii.RNN计算:h=RNN(e,h₋₁)(隐藏状态迭代更新)iii.最终状态:C=h(输入序列的语义浓缩)RNN的局限与变体选择长序列问题:梯度消失/爆炸

LSTM/GRU

引入门控机制双向RNN:捕捉前后文信息(可选扩展)2.4解码器详解自回归生成过程推理阶段:O输入:前一时刻预测词

y₋₁(而非真实标签)。O输出:Softmax生成词表概率分布

取Top-1词或采样。训练阶段:OTeacherForcing:使用真实标签作为输入,加速收敛。解码终止策略硬终止:生成<EOS>符号。软终止:设定最大生成长度(如50词)。生成质量优化贪心搜索vs.BeamSearch:O贪心:每一步选概率最高的词(易陷入局部最优)。OBeamSearch:保留Top-K候选路径(平衡质量与计算开销)。2.5数学表示与训练方法概率分解公式链式法则:损失函数:负对数似然训练技巧梯度裁剪:防止RNN梯度爆炸。计划采样(ScheduledSampling):逐步从TeacherForcing过渡到自回归生成。案例:英语→法语翻译o输入:"Hello,howareyou?"o输出:"Bonjour,commentçava?"机器翻译案例:新闻文章→摘要o输入:长文本→输出:关键句组合文本摘要案例:客服机器人o输入:用户提问→输出:自动回复对话系统2.6经典应用场景2.7小结

·

推动了Encoder-Decoder范式在NLP中的广泛应用。·

统一框架解决序列生成问题Seq2Seq的核心贡献01·

多模态生成:图文结合(如图像描述生成)。·

低资源优化:少样本/零样本下的迁移学习。未来方向02融入注意力机制的Seq2Seq模型33.1传统Seq2Seq的局限性信息瓶颈问题·

固定长度向量C:长序列信息压缩导致细节丢失(如100词→1向量)。·

解码器单向量依赖:无法动态选择输入序列的关键部分。

案例对比:机器翻译VS人工翻译·

人工翻译:动态关注源语言不同位置(如动词→动词,名词→名词)。·

传统Seq2Seq:解码时仅依赖固定向量C,缺乏局部信息聚焦。

实验证据·

输入序列长度↑→模型性能显著下降(BLEU分数降低)。3.2注意力机制的灵感与动机认知启发·

人类注意力机制:选择性关注输入的不同部分(如视觉聚焦)。·

类比翻译:译员逐词翻译时动态参考源语句的对应位置。

核心目标·

动态上下文:解码时根据当前状态选择输入序列的关键信息。·

解决信息瓶颈:将编码器的全部隐藏状态(而非仅最后状态)传递给解码器。3.3注意力机制核心原理架构改进(对比传统Seq2Seq)·

编码器输出:保存所有时间步的隐藏状态序列

[h₁,h₂,...,hₙ]。·

解码器输入:o

每一步使用当前解码器隐藏状态

s

与编码器所有

hᵢ

计算注意力权重。o

生成动态上下文向量

c(替代固定向量C)。

注意力权重计算流程1.

相似度计算:(通过神经网络或点积计算)2.

权重归一化:3.

上下文向量生成:(加权求和编码器隐藏状态)。

集成到解码器解码器输入=前一步输出词+上下文向量

c。更新隐藏状态:3.4注意力机制的优势与效果核心优势

缓解信息瓶颈:充分利用编码器所有隐藏状态。

可解释性:通过热力图直观显示模型关注点。

长序列处理能力:在文本摘要、长文档翻译任务中性能显著提升。实验结果

BLEU分数对比:在英法翻译任务中,注意力模型提升10+分。

训练收敛速度:注意力机制加速模型收敛(减少30%训练时间)。3.5注意力机制变体与发展经典变体

加性注意力(Bahdanau):通过神经网络计算相似度。

乘性注意力(Luong):直接使用点积或矩阵乘法。

自注意力(Self-Attention):编码器内部捕捉长程依赖

→Transformer的前身。扩展应用

多层注意力:不同层关注不同粒度信息(如词级、句级)。

双向注意力:结合前向与后向编码器状态(用于阅读理解)。3.6小结注意力机制的意义

革命性贡献:推动Seq2Seq模型在复杂任务中的实用性(如长文本生成)。

通用范式:注意力机制已成为现代NLP模型的核心组件。未来方向

稀疏注意力:降低计算复杂度(如Longformer、BigBird)。

多模态注意力:跨模态信息对齐(如图像描述生成中的视觉-文本对齐)。Transformer模型基础44.1Transformer的诞生与核心思想融入注意力机制的Seq2Seq的局限性RNN依赖性:仍需循环网络生成隐藏状态序列。计算复杂度:传统注意力机制对长序列效率低下。提出背景·

论文:Google2017年《AttentionIsAllYouNeed》。·

目标:解决RNN的并行性与长程依赖问题。

核心创新·

去RNN化:完全依赖自注意力机制。·

并行编码:全位置同时计算,GPU利用率最大化。·

堆叠模块:多层相同结构提升模型容量。4.2整体架构架构图示·

编码器:6层相同模块,每层含自注意力+前馈网络。·

解码器:6层模块,增加掩码自注意力与交叉注意力。·

输入处理:词嵌入+位置编码→编码器→上下文向量。

关键流程1.

输入编码:词向量与位置编码相加。2.

编码器处理:多层自注意力提取全局特征。3.解码生成:自回归预测,逐步生成输出序列4.3自注意力与多头注意力机制自注意力计算

输入:词向量矩阵

线性变换生成Q,K,V。

公式:

缩放因子:防止点积数值过大导致梯度不稳定。多头注意力动机:捕捉不同子空间的语义关系(如语法、语义)。实现:将Q/K/V拆分为h个头(如8头),独立计算后拼接。

输出维度:h×dv→

合并后通过线性层映射。4.3自注意力与多头注意力机制自注意力计算

输入:词向量矩阵

线性变换生成Q,K,V。

公式:

缩放因子:防止点积数值过大导致梯度不稳定。多头注意力动机:捕捉不同子空间的语义关系(如语法、语义)。实现:将Q/K/V拆分为h个头(如8头),独立计算后拼接。

输出维度:h×dv→

合并后通过线性层映射。4.4

详细架构编码器层(EncoderLayer)·

步骤:i.

多头自注意力→残差连接+层归一化。ii.

前馈网络(FFN)→残差连接+层归一化。

解码器层(DecoderLayer)·

步骤:i.

掩码自注意力:防止解码时看到未来信息。ii.

交叉注意力:对齐编码器输出与当前解码状态。iii.

FFN→残差连接+层归一化。位置编码(PositionalEncoding)·

核心作用:为无位置感知的自注意力注入序列顺序信息。·

实现方式:o

正弦/余弦函数:固定模式,可泛化到长序列。o

可学习参数:训练中获得位置向量。

残差连接与层归一化·

残差连接:保留原始信息,缓解梯度消失(公式:输出=输入+子层(输入))。·

层归一化:加速训练收敛,稳定梯度流。Transformer变体55.1模块变体(架构级创新)-自注意力机制改进稀疏注意力(降低复杂度)

技术原理o局部窗口注意力(LocalWindow):每个token仅关注邻近区域(ViT中的分块处理)o全局token桥接(GlobalTokens):加入可学习的全局token聚合远程信息(BigBird)o随机稀疏采样(RandomSparse):随机选择部分位置计算(SparseTransformer)

典型模型oLongformer:滑动窗口(512→4096长度)+任务相关全局注意力oBigBird:结合局部+全局+随机注意力,数学证明逼近全注意力效果oRoutingTransformer:动态聚类生成稀疏连接模式高效注意力(线性复杂度)

低秩投影oLinformer:将K/V投影到低维空间,复杂度从O(n²)降为O(n)oPerformer:通过核函数近似(正交随机特征)实现线性计算

哈希分桶oReformer:局部敏感哈希(LSH)聚类相似token,仅计算桶内注意力

分块计算oBlockwiseTransformer:将序列分块,块内全连接+块间稀疏连接5.1模块变体(架构级创新)-位置编码创新绝对位置编码·

Sinusoidal编码:原始Transformer的正余弦函数·

可学习编码:BERT/GPT中随机初始化+端到端训练·

缺点:难以泛化到训练长度外的序列相对位置编码·

Shaw式编码:在自注意力计算中注入位置关系(如距离线性衰减)·

RPR(RelativePositionalRepresentations):将位置差映射为可学习向量(DeBERTa)·

XLNet式双流机制:分离内容与位置信息流旋转位置编码(RoPE)·

数学原理:通过复数域旋转矩阵融合绝对位置信息(Llama、PaLM采用)·

优势:长度外推性强,支持线性插值扩展上下文窗口5.1模块变体(架构级创新)-层归一化改进位置争议·

Post-LN(原始Transformer):残差连接后做归一化,训练稳定但收敛慢·

Pre-LN(主流方案):归一化移至残差前,加速训练但可能损失性能改进方案·

DeepNorm:对残差路径进行缩放(α=√(2N),N为层数),稳定千层模型训练(GLM-130B)·

RMSNorm:去除均值中心化,仅用方差归一化(节省15%计算量,Llama采用)·

SandwichNorm:前后双归一化(PaLM)5.1模块变体(架构级创新)-前馈层优化激活函数改进·

GatedLinearUnits(GLU):σ(W1X)⊗W2X(PaLM验证有效)·

GeGLU:GELU激活的GLU变体(T5v1.1)参数扩展·

专家混合(MoE):每个样本激活部分专家(SwitchTransformer)o

示例:64专家选2个,保持计算量不变但参数量翻倍·

并行前馈层:并行堆叠多个FFN层(PaLM使用8层并行)5.2应用变体(领域扩展)-NLP领域编码器架构·

BERT:掩码语言模型+下一句预测·

RoBERTa:动态掩码+更大批次训练·

ALBERT:参数共享+因式分解嵌入解码器架构·

GPT系列:单向注意力+自回归生成o

GPT-3:稀疏MoE结构o

GPT-4:多模态扩展·

BLOOM:多语言大模型(176B参数)编解码架构·

T5:统一文本到文本框架·

BART:去噪自编码器(适合文本生成)5.2应用变体(领域扩展)-CV领域图像分类·

ViT:将图像分割为16x16块序列o

数据不足问题:DeiT通过知识蒸馏解决·

MobileViT:轻量化设计(CNN+Transformer混合)目标检测·

DETR:基于查询的端到端检测o

改进版:DeformableDETR(可变形注意力加速收敛)图像生成·

ViT-VQGAN:Transformer替代CNN的VQGAN·

DiT:扩散模型+Transformer主干(StableDiffusion3采用)5.2应用变体(领域扩展)-多模态领域图文对齐·

CLIP:对比学习对齐图像-文本特征·

ALIGN:十亿级噪声数据训练视频理解·

ViViT:时空分离注意力(空间+时间轴)·

TimeSformer:划分时空块并行处理多模态生成·

Flamingo:冻结预训练模型+适配器微调·

KOSMOS-1:通用多模态对话模型总结66.1序列到序

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论