《深度学习》课件李侃第6-11章-深度生成网络 -无监督深度学习

上传人：q*** IP属地：山东上传时间：2025-04-09 格式：PPTX 页数：210 大小：7.05MB 积分：45 举报 版权申诉

已阅读5页，还剩205页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

汇报人:100871单击此处添加文本6深度生成网络目录

CONTENTS深度生成模型简介1基于玻尔兹曼机的方法2基于变分自动编码器的方法3基于生成对抗网络的办法4基于流模型的方法5基于扩散模型的方法6基于自回归网络的方法7大语言模型8深度生成模型简介16.1深度生成模型简介深度生成模型概念使用深度学习生成与训练数据集相似的新数据，结合监督与非监督学习，理解并模拟复杂现象的生成过程。模型特点（1）深度神经网络实现灵活的分布参数化（2）基于概率论的严格建模主要分类包括玻尔兹曼机、变分自编码器、对抗生成网络、流模型、扩散模型和自回归网络等技术路线。基于玻尔兹曼机的方法26.2基于玻尔兹曼机的方法由于BM算法精确率不高、推理速度较慢，其变体的流行程度已远远超过模型本身。主要变体包括受限玻尔兹曼机（RestrictedBoltzmannMachines，RBM）、深度置信网络（Deepbeliefnetwork，DBN）和深度玻尔兹曼机（DeepBoltzmannmachines，DBM）。它们能够学习高维特征和高阶概率依赖关系，可用于降维、特征提取等方面。玻尔兹曼机变体类型玻尔兹曼机（Boltzmannmachines，BM）是随机神经网络，具有对称连接，在图论上可理解为完全图。类似神经元的状态的值由概率统计法则确定，能量函数驱动概率分布。玻尔兹曼机概念6.2.1受限玻尔兹曼机（RBM）无向图模型中没有归一化的概率必须除以配分函数进行归一化才能得到有效的概率分布，目前计算配分函数主要以近似估计方法为主。第一类算法是通过引入中间分布直接估计配分函数的值，中间分布的计算需要使用蒙特卡洛马尔科夫链或重要性采样，如退火重要性抽样算法（AIS）。第二类计算配分函数的算法是构造新目标函数替代配分函数，避免直接求解配分函数的过程，包括得分匹配（SM）和噪声对比估计（NCE）。第三类算法是直接估计配分函数关于参数的近似梯度，包括对比散度（CD）、持续对比散度（PCD）和快速持续对比散度（FPCD）三种。RBM的基本结构配分函数估计方法受限玻尔兹曼机由可见层和隐藏层组成，两层神经元状态为0或1，表示激活或未激活。关键公式：（1）能量函数：

（2）联合概率分布：

（3）条件分布：6.2.1受限玻尔兹曼机（RBM）配分函数计算方法简介蒙特卡洛马尔科夫链（MCMC）：通过构建一个逐步转移的马尔科夫链来模拟目标概率分布，利用链上的样本点来近似计算复杂问题的解。该方法的关键在于确保马尔科夫链的稳态分布与目标分布一致。重要性采样（如退火重要性抽样算法AIS）：重要性采样是一种统计方法，它通过从一个容易采样的分布（称为重要性分布）中抽取样本，并调整这些样本的权重来估计目标分布的期望值。退火重要性抽样算法在此基础上融入了模拟退火的思想，通过逐步调整重要性分布使其逐渐接近目标分布，从而提高采样效率和解的质量。得分匹配（SM）通过优化概率密度函数的梯度来估计模型参数，避免了直接计算归一化常数。噪声对比估计（NCE）通过训练一个分类器来区分真实数据和噪声样本，以此估计目标分布的参数。对比散度（CD）是一种用于训练受限玻尔兹曼机（RBM）的算法，它通过交替更新隐藏层和可见层的单元来近似数据分布。持续对比散度（PCD）是CD的变种，它使用多个马尔科夫链样本而不是从头开始每次迭代，以提高训练的稳定性。快速持续对比散度（FPCD）进一步优化了PCD，通过在每次迭代中只更新一部分隐藏层单元来加速收敛。6.2.2深度置信网络（DBN）本质上是RBM目标函数的变分下界。目标函数多个隐藏层的神经元通常只取0和1，可见层单元可取二值或实数。顶部两层间是无向连接，其余为箭头指向可见层的有向连接。模型架构DBN是多隐藏层的有向概率图模型，相邻两层可通过RBM预训练，用于学习复杂的数据分布。使用贪婪学习算法调整模型参数使模型有容易训练的初始值，贪婪逐层预训练算法提供了两种获得和的方法。贪婪逐层预训练算法基于变分自动编码器的方法36.3.1VAE模型的基本原理VAE的目标函数是数据分布和重构的样本分布间距离的最小化，一般用KL散度衡量这两个分布之间的距离，但是由于数据分布是未知的，引入近似分布和近似后验分布。变分下界（ELBO）：目标函数VAE是通过编码-解码过程映射样本至服从高斯分布的隐藏变量，之后由隐藏变量产生样本，并使用KL散度优化目标函数的生成模型，可以学习给定数据的概率分布，并利用这些学到的分布来生成新的数据。编码器输出隐藏变量的概率分布的参数，解码器输出重构数据的概率分布。核心思想选择相同概率分布族的P(ε)，对P(ε)抽样得到的样本ε进行若干次线性变换就能获得在原始分布抽样的等价结果。由于采样不可导，不能用反向传播优化参数，因而引入确定性变换，提出了重参数化方法。公式：010203重参数化技巧6.3.1VAE模型的基本原理6.3.2几种重要的VAE结构辅助深度生成模型（AuxiliaryDeepGenerativeModels，ADGM）是效果好且有影响力的条件变分自编码器，其目标函数是无标签和有标签样本变分下界之和：L=L(x)+L(x,y)，可以用于监督学习或半监督学习。ADGM的编码过程由三个神经网络构成，ADGM的解码过程有两个神经网络。优势是没有削弱编码器，代价是需要5个神经网络，计算量更大。监督结构的变分自编码器IWAE是VAE的改进，通过弱化编码器缓解后验分布问题，提高生成模型性能。重要性加权自编码（ImportanceWeightedAuto-Encoders，IWAE）向量量化变分自编码器（VQ-VAE）首个使用离散隐藏变量的VAE模型，旨在训练出表示能力更强大的离散变量的先验分布，使模型有能力生成有意义的样本，避免后验崩溃（PosteriorCollapse）现象。基于生成对抗网络的方法46.4.1对抗生成网络的基本原理GAN训练困难，常出现梯度消失、模型崩溃和训练进度无明确目标等问题。GAN的问题可以看成是一个训练框架，理论上可以训练任意的生成模型。GAN通过生成器和判别器之间的对抗行为来优化模型参数，巧妙地避开求解似然函数的过程。生成对抗网络(GAN)是由两部分组成的框架：生成器(Generator)和判别器(Discriminator)。这两部分通过对抗过程相互竞争，最终目的是使生成器能够生成与真实数据分布无法区分的数据。目标函数：（1）判别器目标：

（2）生成器目标：

（3）最优判别器为：GAN的基本原理6.4.2对抗生成网络的稳定性研究通过限制判别器的Lipschitz约束，改善了梯度惩罚的局部有效性，实现简单且效果更优。将判别器中的所有参数都替换为

，只需把谱范数的平方作为正则化项，填加到判别器的目标函数中:SNGAN的收敛速度比WGAN-GP更快，且效果更好。谱归一化生成对抗网络(SNGAN)Wasserstein对抗生成网络(WGAN)用Wasserstein距离替代KL散度和JS散度，改变了生成器和判别器的目标函数，并用权重裁剪的方法对判别器施加Lipschitz约束以限制判别器的梯度。WGAN解决了GAN不稳定的问题，基本消除了简单数据集上的模型崩溃问题，也可以指示模型的训练进度。WGAN中生成器和判别器的目标函数分别为：WGAN在训练过程中会出现收敛速度慢、梯度消失或梯度爆炸等现象WGAN-GP直接将判别器的梯度作为正则项加入到判别器的损失函数中，该正则项通过惩罚梯度使判别器梯度在充分训练后达到Lipschitz常数K附近，因此该正则项被称为梯度惩罚，WGAN-GP能避免出现梯度消失或梯度爆炸的现象。加入梯度惩罚的判别器的目标函数为:Wasserstein对抗生成网络(WGAN)6.4.3对抗生成网络的结构发展基于残差网络的结构基于卷积层的结构CGAN和ACGAN是两种处理监督和半监督数据的结构，CGAN中判别器处理标签信息和样本，而ACGAN的判别器只负责样本真伪和标签预测，适用于半监督学习。监督结构和半监督结构ResNet结构的GAN模型以残差设计增强判别器和生成器深度，用上抽样替代反卷积。比如BiqGAN能生成逼真的图像，但需要大量标注数据训练。DCGAN是使GAN训练时的稳定性明显提高，用卷积和反卷积网络，各层均使中

南用批归一化。虽训练快、内存小，但反卷积的棋盘效应影响图像质量。基于流模型的方法56.5.1流模型的基本原理优化目标是获取转换函数参数，以求逆形式，但雅可比行列式计算复杂。优化参数与求逆挑战真实数据分布由转换函数映射到人为给定的简单分布，如果该转换函数是可逆的且可求出该转换函数的形式，则这个简单分布和转换函数的逆函数就能够构成一个深度生成模型。深度生成模型的一种方法要求转换函数的雅可比行列式计算简单，且逆变换计算量小，常设计为三角阵行列式，其值等于对角线元素乘积从而简化求解雅可比行列式的计算量。流模型的转换函数用神经网络表示，该神经网络相当于一系列转换函数作用效果的累积，如同水流，形成流模型框架。其对数似然为：第一项衡量了变换后数据z与已知分布P(z)的匹配程度，第二项反映了每次变换对概率密度的影响，常数项c用于标准化结果。流模型解决策略6.5.2常规流--NICE在每次耦合层后直接交换两部分元素的位置，从而增强非线性能力。维度混合将维输入变量分割成两部分，然后取如图变换，下一个隐藏层变量为h=[h1,h2]，这种只含有加性算法的耦合层被称为加性耦合层，加性耦合层的雅可比行列式是上三角行列式且对角线元素全部为1，使得雅可比行列式的值为1。消除了雅可比行列式的计算量。该转换函数的逆变换形式如下：加性耦合层NICE非线性独立成分估计.(NonlinearIndependentComponentsEstimation，NICE)是第一个流模型，是奠基性的流模型，后续的流模型大多基于它的结构和理论。NICE提出了三个重要的模型结构:加性耦合层、维数混合和维数压缩层，创新性地解决了可逆性和维数冗余问题。在最后一层和先验分布之间引入维数压缩层，如果某个方差接近0，说明其对应的维数所表示的流形已经塌缩为点，从而起到维数压缩的作用。维数压缩层6.5.2常规流--RealNVP对耦合层之间的分量随机打乱，再将打乱后的向量重新分割成两部分并输送到下个耦合层中。随机混合机制在原有的加性耦合层的基础上加入了乘性耦合，其雅可比行列式是对角线不全为1的下三角阵，为了保证可逆性需要约束雅可比行列式对角线各元素均大于0，因此RealNVP直接用神经网络输出logs。仿射耦合层RealNVP在NICE的基本结构上，通过仿射耦合层和随机打乱机制增强非线性能力，多尺度结构降低计算量和存储空间。6.5.2常规流--RealNVP掩码卷积层使用掩码增加样本通道数并降低空间维数，棋盘掩码是一种固定间隔的空间轴上的交错掩码，能够有效保留样本在空间的局部相关性。多尺度结构是一种逐层转换的方式，使数据的全部元素都可以在一个复合耦合层内进行转换，保留了原有方法中雅可比行列式容易计算的特点，减少模型复杂度和计算量的同时增加模型的生成能力。6.5.2常规流--GLOW置换矩阵用批次样本的均值和方差初始化参数和，是对先验分布的平移和缩放。Actnorm层GLOW是流式生成模型，是以NICE和realNVP为基础结构的模型，通过Actnorm和1x1卷积改进，优化置换矩阵，提升生成能力，但参数量大，训练成本高。用卷积运算改变置换通道的排列，用置换矩阵替代随机打乱并放到损失函数中一并优化以进一步提升模型效果。具体方法是通过一个随机旋转矩阵W置换输入轴通道的排列顺序使h=xW，为了保证转换函数的可逆性，方阵W初始化为随机正交矩阵。然后利用LU矩阵分解法分解正交矩阵W使W=PLU，则detW为：几乎没有改变原模型的计算量，且减少了待优化参数的数重。6.5.3流模型的衍生结构变分推理流模型结合了变分推断和流模型，通过将编码器输出的均值和方差用转换函数映射到更复杂的分布，再由解码器根据后验分布重构样本，使后验分布更接近真实，从而增强重构样本的准确性。归一化流变分推断(VINF)称之为平面流(PlanarFlow)。变分推理流iResNet是基于残差网络的生成模型，通过约束使残差块可逆，用近似方法计算残差块的雅可比行列式，解决深层网络的梯度消失问题，用于构建可逆的流模型。与其他流模型有本质区别：保留了ResNet的基本结构和拟合能力。i-ResNet的基本模块与ResNet相同，可以表示成y=x+G(x)。G(·)=F(Wx+b)使事

用普通激活函数时，其可逆性条件等价于权重矩阵W的谱范数小于1：i-ResNet使用迭代xn+1=y-G(xn)，雅可比行列式可以表示为：i-ResNet首先用恒等式将雅可比行列式绝对值的对数转化为求迹，并在使用级数展开形式后在第项截断，然后使用随机近似方法得到近似值。可逆残差网络(iResNet)6.6基于扩散模型的方法66.6.1扩散模型的基本原理正向扩散过程通过在数据样本上逐步添加高斯噪声，形成一个从0到纯噪声的马尔科夫过程，最终达到标准高斯分布。正向扩散过程原理扩散模型(DiffusionModel，DM)用于生成与训练数据相似的数据。从根本上说，DM的工作原理是通过连续添加高斯噪声来破坏训练数据，然后通过学习逆向的去噪过程来恢复数据。训练后，使用DM将随机采样的声传入模型中，通过学到的去噪过程来生成数据。DM包括正向的扩散过程和反向的逆扩散过程。核心流程6.6.1扩散模型的基本原理训练DM模型就是学习噪声序列的最小化均方误差，通过优化高斯分布间的距离。训练目标：最小化下式训练过程反向逆扩散过程是正向扩散的逆向去噪，通过神经网络求解近似的逆转分布，以还原原始信息。学习噪声预测：反向逆扩散过程原理给定噪声数据，通过特定公式从开始逐步去噪，生成过程≈2，最终得到0。生成采样过程6.6.2条件扩散模型的技术方案分类器无关的条件生成方案是条件扩散模型的简单方法，当数据和算力充足能实现精细的控制，但需要重新训练模型。分类器无关的条件生成方案分类器指导方案指在已训练的DM上添加分类器用于引导生成，以实现特定条件的控制。该方法训练成本低，但推断成本高，控制粒度粗糙。通过DM的正向扩散过程和噪声数据训练分类器，然后在生成采样过程中使用分类器进行指导，优化目标类别的生成。基于分类器指导的方案基于自回归生成网络的方法76.7.1自回归网络的基本原理NAR利用神经网络来捕捉数据中的复杂非线性关系。f

是一个由神经网络实现的函数，可以是多层感知机（MLP）、循环神经网络（RNN）或其他类型的神经网络。自回归是统计学中处理时间序列的方法，用同一变量之前各个时刻的观测值预测该变量当前时刻的观测值。用条件概率表示可见层数据相邻元素的关系，以条件概率乘积表示联合概率分布的模型都可以称为自回归网络。自回归网络的基本形式有三种：线性自回归网络、神经自回归网络（NeuralAutoregressiveNetwork,NAR）和神经自回归分布估计器（NeuralAutoregressiveDistributionEstimation，NADE）。线性自回归网络的核心思想是将当前时刻的输出视为过去时刻输出的线性组合加上一些噪声项。ai是自回归系数；p

是自回归阶数，即考虑多少个过去的输出。6.7.1自回归网络的基本原理——NADE模型（1）单元修正：hd的多次累加会使隐藏层单元越来越饱和，因此添加权重衰减参数以降低隐藏层单元的饱和现象。（2）NADE-k：根据CD-k算法的思想对可见层和隐藏层之间进行反复迭代，替代原始NADE的单次迭代，实验显示这种方法能有效提升NADE模型推断缺失值的能力，该模型可以称为NADE-k。（3）并行NADE：Reed等提出允许对某些像素组建模使之条件独立，只保留高度相关的临近像素，从而使NADE可以并行地生成多个像素，大大加快抽样速度，使隐藏变量和条件概率需要的计算量由O(h)锐减到O(logh)。结构优化NADE是一种基于深度学习的概率模型，用于估计数据的概率分布。NADE特别适用于处理离散数据，如图像像素值或文本数据。基础结构通过链式法则将高维数据的概率分解为条件概率乘积的方法进行建模：NADE可以利用上述公式独立参数化各层之间的权重。此外，模型中引入了附加的参数共享，将条件分布进行参数化，使得NADE在正向传播和均匀场推断中执行的计算大致相同。6.7.2自回归网络的衍生结构——像素循环神经网络像素循环神经网络（PixelRecurrentNeuralNetwork，PixelRNN）将图片的像素作为循环神经网络的输入，本质上是自回归神经网络在图片处理上的应用。该模型利用深度自回归网络预测图片的像素值，并提出三种不同的模型结构。模型结构特点缺点PixeICNN使用掩码卷积避免像素缺失，训练快、似然指标高生成样本模糊(感受野有限)RoWLSTM行卷积+LSTM捕捉长程依赖，漏斗形依赖区域遗漏部分像素信息DiagonalBiLSTM双向LSTM消除像素盲点，生成质量更高计算复杂度高，生成速度慢6.7.2自回归网络的衍生结构——掩码自编码器（1）支持深层扩展，性能与NADE相当（部分数据集更优）。（2）掩码设计灵活，适用于多模态任务。优势将自回归思想嵌入自编码器，通过在权重矩阵中设置某些连接为0，来屏蔽无关变量间的连接通道。这种方法称为掩码，它使得自编码器的输出能够表示为条件概率。输入数据为是二值时目标函数为交叉熵损失。核心思想给第

𝑙个隐层的第

𝑖个神经元分配数字大语言模型86.8.1模型架构生成式预训练大语言模型（PretrainedLanguageModel，PLM）基于Transformer解码器结构，采用自回归网络的训练方式，通过不断堆叠增大模型参数，不断增加训练数据，从而拟合到自然语言中细粒度的特征、学到文本中的高级概念。（1）编码器-解码器架构：传统的Transformer模型通常采用分离的编码模块和解码模块进行建模。其中，编码模块对输入进行深度编码以提取隐藏表示，解码模块基于编码结果递归预测输出。如T5和BART是基于此架构进行训练的。（2）因果解码器架构：在解码阶段限制每个token仅关注前面的内容。GPT-1、GPT-2、GPT-3、OPT、BLOOM等。此外，仅包含解码部分的模型结构也常被称为单向解码器结构。（3）前缀解码器架构（也称非因果解码器架构）：通过修正因果解码器的掩码机制，使其能够对前缀token执行双向注意力，并仅对生成的token执行单向注意力，与编码器-解码器架构类似，同时在编码和解码过程中共享相同的参数。通常，这种架构不会从头开始进行预训练，而是继续训练因果解码器，然后将其转换为前缀解码器以加速收敛，如GLM-130B和U-PaLM。6.8.2常用大模型——GPT系列（1）ChatGPT是在性能强大的GPT3.5模型上进行微调得到，具备了博学的基础。（2）GPT3采用纯自监督学习并依靠提示学习范式来挖掘其补全能力，而InstructGPT通过数据增强的监督信号微调提升了模型对人类指令的理解能力。（3）ChatGPT利用人类反馈强化学习（RLHF）来训练模型更好地理解和执行人类指令，通过奖励模型（RM）和参数更新来优化文本生成任务。ChatGPT主要涉及三方面技术生成式预训练Transformer（GenerativePretrainedTransformer，GPT）系列是自回归网络在文本生成领域的一座丰碑。模型参数量关键改进GPT-11.1亿预训练+微调范式，跨任务泛化能力GPT-215亿没有进行微调，但扩大预训练数据集GPT-31750亿零样本学习，上下文推理能力跃升ChatGPT基于GPT-3.5引入RLHF对齐人类意图，支持多轮对话与纠错6.8.2常用大模型——Llama系列Llama1有7B、13B、30B和65B四个参数量版本，各个参数量版本都在超过1万亿个token的语料上进行了预训练；Llama2有7B、13B、34B和70B四个参数量版本，将预训练的语料扩充到了2万亿token，同时将模型的上下文长度从2048翻倍到了4096，并引入了分组查询注意力机制（grouped-queryattention,GQA）等技术；Llama2Chat通过“预训练-有监督微调-基于人类反馈的强化学习”这一流程训练，有优异性能；Llama3包括8B和70B两个参数量版本，支持8K长文本，并采用了一个编码效率更高的tokenizer，词表大小为128K，使用了超过15万亿token的语料，在相同规模的大模型中取得了最优异的性能。Llama系列在Transformer架构基础上构建的，利用大规模数据集进行预训练。6.8.2常用大模型——Llama系列Llama模型在原始Transformer解码器的基础上进行了一些改动，以提高模型性能和训练稳定性，包括：前置的RMSNorm：RMSNorm是一种特征归一化方法，通过计算输入特征的均方根进行归一化，并乘以一个可学习的缩放参数，以提高训练稳定性和模型性能。Q、K上的RoPE旋转式位置编码：RoPE通过旋转查询（Q）和键（K）向量来引入位置信息，这种旋转模拟了序列中元素之间的相对位置，增强了模型对序列顺序的理解。Causalmask：Causalmask用于确保在自回归模型中，每个位置的预测只依赖于之前的位置，通过屏蔽未来位置的注意力权重来实现。使用分组查询注意力：分组查询注意力是将查询（Q）分为多个组，每组查询只与对应的键（K）和值（V）子集进行注意力计算，从而减少计算量并提高效率。6.8.2常用大模型——Llava系列（1）多模态指令跟随数据集：利用ChatGPT/GPT-4将图像文本对转换为适当的指令遵循数据格式，生成了包含对话式QA、详细描述和复杂推理三种类型的指令跟随数据。可扩充（2）大型多模态模型：通过连接CLIP的开放视觉编码器（从图像中提取特征）和语言解码器LLaMA（接收来自视觉编码器的特征以及其他文本输入，并生成相应的输出），并在生成的指令视觉语言数据上进行端到端微调（端到端微调意味着整个模型（包括视觉编码器和语言解码器）在特定的任务上进行联合训练）。Llava（LargeLanguageandVisionAssistant）是一个端到端训练的大型多模态模型，将视觉编码器和大语言模型连接起来，用于通用的视觉和语言理解。6.8.3预训练大语言模型的优化技巧——参数高效微调方法（1）Prefix/Prompt-Tuning通过在模型的输入或隐层添加k个额外可训练的前缀，只训练这些前缀参数。Prefix-Tuning在模型输入前添加一个连续的任务特定的向量序列，称为前缀，固定PLM的所有参数，只更新特定任务的前缀参数。PromptTuning简化了PrefixTuning，固定整个预训练模型参数，只允许将每个下游任务的额外k个更新的标记前置到输入文本中。PromptEnsembling方法集成预训练语言模型的多种prompts，通过在同一任务上训练N个prompts，创建N个独立的模型，共享核心的预训练语言建模参数，降低存储成本并使推理更高效。PEFT（ParameterEfficientFine-Tuning）方法可以分为三类：Prefix/Prompt-Tuning、Adapter-Tuning和LoRA。6.8.3预训练大语言模型的优化技巧——参数高效微调方法（2）Adapter-Tuning通过在预训练模型的每一层插入小的神经网络模块（适配器）来实现。这种方法在下游任务微调时只训练适配器的参数，而预训练模型的原始参数保持不变。由于适配器的参数数量远小于预训练模型，因此大大减少了计算和存储的开销，同时也保留了预训练知识。适配器主要有串联和并联两种形式。串联适配器在每个Transformer层的多头注意力映射后和两层前馈神经网络后各添加一次。适配器模块是一个瓶颈结构，由向下投影矩阵、非线性函数和向上投影矩阵组成，以及一个输出之间的残差连接。并联适配器则是将适配器模块与每层Transformer的多头注意力和前馈层并行计算集成。通过这种方式，Adapter-Tuning可以在不牺牲太多性能的前提下，显著减少模型微调时的参数量和计算资源需求，非常适合资源有限的情况下的模型部署和应用。6.8.3预训练大语言模型的优化技巧——参数高效微调方法（3）LoRA（Low-RankAdaptation）是一种针对大型预训练模型（如GPT-3）的参数高效微调方法。它通过引入低秩矩阵分解来近似模型权重矩阵W的参数更新，从而在训练时只需优化低秩矩阵参数。相比于全量微调，LoRA极大地减少了需要更新的参数数量，对于175B的GPT-3模型，LoRA的训练参数数量可以小到全量微调参数数量的0.01%。LoRA的核心思想是假设权重的更新在微调过程中具有较低的“内在秩”。通过对预训练模型的权重矩阵W进行低秩分解，将其表示为

的形式，其中

，且

。在训练过程中，

被固定不再进行梯度更新，只训练A和B。这样，LoRA不仅减少了内存开销，还提高了训练速度。在生产部署时，LoRA可以通过减去BA来恢复

，然后增加一个新的

，这是一个只需要很少内存开销的快速运算。与结构参数上微调的模型相比，LoRA推理过程中没有引入任何额外的延迟。对于用Adam训练的大型Transformer，若

，LoRA减少2/3的VRAM用量。另一个好处是，可以在部署时以更低的成本切换任务，只需更换LoRA的权重，而不是所有的参数。在GPT-3175B上训练时，与完全微调相比，速度提高了25%。6.8.3预训练大语言模型的优化技巧——提示学习提示学习通过提供提示来引导模型在特定任务上的表现，是一种为了更好的使用预训练语言模型的知识，采用在输入段添加额外的文本的技术。这种方法在自然语言处理等领域特别有效，因为它允许模型通过简单的提示而不是复杂的推理来完成任务。例如，在情感分类中，通过加入提示模板，模型可以直接生成所需的输出。当要判断“input=Ilovethismovie.”

的情感极性时，可以在输入的后面加上提示信息：“prompt=Ilovethismovie.Overall,itwasa[]movie.”，预训练的语言模型就可以在[]里面填入一个与情感相关的词。通过一系列合适的提示（prompts），一个完全由无监督训练方式得到的单一语言模型可以用来解决各种各样的下游任务。提示学习的应用不仅限于NLP，还扩展到了计算机视觉和多模态领域，显示出其在促进人工智能发展方面的巨大潜力。6.8.3预训练大语言模型的优化技巧——上下文学习上下文学习（In-ContextLearning,ICL）是一种新的范式，允许模型在不进行参数更新的情况下，通过在输入中加入几个示例来进行学习。这种方法的优点在于输入的形式是自然语言，可以更容易地与语言模型交互，并且可以通过修改模板和示例来说明所需要的内容，甚至可以将一些知识直接输入给模型。此外，ICL的学习方式更接近人类，即通过几个例子去类比，而不是像精调一样从大量语料中统计出规律。最后，相比于监督学习，ICL不需要进行训练，降低了模型适配新任务的成本。InContextLearning（ICL）的关键思想是从类比中学习。首先，ICL需要一些示例来形成一个演示上下文。这些示例通常是用自然语言模板编写的。然后ICL将查询的问题和一个上下文演示连接在一起，形成带有提示的输入，并将其输入到语言模型中进行预测。值得注意的是，与需要使用反向梯度更新模型参数的训练阶段的监督学习不同，ICL不需要参数更新，并直接对预先训练好的语言模型进行预测。6.8.3预训练大语言模型的优化技巧——量化技术量化技术是通过降低数值精度来减少深度学习模型的存储需求和计算复杂度的关键技术。参数量化：通过减少模型权重的位数来实现激活量化：对激活值（即网络层的输出）进行量化，通常需要动态调整量化范围以适应输出值的变化动态量化：在模型运行时根据数据的实际分布动态调整量化参数，后训练量化：在模型训练完成后应用，通过使用校准技术确定最优的量化参数量化感知训练：在训练过程中引入量化操作以提高模型性能和精度4646本章小结本章探讨了深度生成模型的核心概念及其架构，强调其在生成与训练数据相似样本方面的能力。这些模型通过深度神经网络参数化潜在生成过程，展现了灵活的表示能力。我们讨论了主要的深度生成模型，如变分自编码器（VAE）、生成对抗网络（GAN）、流模型和扩散模型，以及它们在无监督学习中的应用。随着对这些模型的进一步研究与优化，期待它们在多个领域实现更广泛的突破。6-1解释什么是深度生成模型，并列举其与传统生成模型的主要区别。6-2描述生成对抗网络（GAN）的基本架构，并解释其训练过程中可能遇到的挑战。6-3简述AE、VAE、GAN的联系和区别？6-4实现一个简单的GAN模型，并使用MNIST手写数字数据集进行训练。分析生成的样本质量。6-5解释变分自编码器（VAE）的工作原理，并描述其如何同时学习数据的生成和潜在表示。6-6简述扩散圆形的基本原理？6-7深度生成模型中的模式崩溃问题，并给出几种可能的解决方案。6-8什么是自回归模型，并讨论它们在生成图像方面的优势与局限性。6-9在扩散模型中，如何由状态x0得到xt时刻的分布?6-10在图像修复、超分辨率重建等任务中的应用，并给出相应的实验设计。思考题与习题477图神经网络目录

CONTENTS图神经网络概述1图卷积神经网络2图循环网络3图注意力网络4图神经网络概述11.1传统深度学习的局限性欧式空间数据的特点图像(网格结构)、文本(序列结构)、语音(时域信号)传统方法的不足

手工特征工程效率低(如PageRank仅利用结构信息)

CNN/RNN无法直接处理图结构数据非欧式空间数据的挑战

示例:社交网络(节点间关系复杂)、分子结构(拓扑不规则)、知识图谱(多关系图)

核心问题:如何建模不规则拓扑关系?如何聚合邻居信息?1.2图数据与图神经网络的兴起图数据的定义与表示

图结构：节点（Node）、边（Edge）、邻接矩阵（AdjacencyMatrix）

属性图：节点特征（Feature）、边权重（Weight）GNN的核心目标

结合图结构信息与节点特征，学习节点/边/图的嵌入表示

解决任务：节点分类、链接预测、图分类、聚类GNN的优势

对比传统方法：端到端学习、自动特征提取、可扩展性1.3图神经网络的发展起源-早期探索Sperduti等人(1990s):将递归神经网络(RNN)应用于有向无环图(DAG)目标:图结构分类(图级任务)局限性:仅支持特定图结构(DAG),无法处理节点级任务RNN在图结构上的首次尝试如何建模任意拓扑图(循环图、异构图)?如何聚合邻居信息并学习节点表示?图数据分析的早期挑战1.3图神经网络的发展起源-理论奠基-MarcoGori的突破性工作提出GNN概念（2005）：

突破RNN的DAG限制，支持任意拓扑图

支持节点级任务（如节点分类）

-FrancoScarselli的深化研究

核心贡献（2009）：基于巴拿赫不动点定理的迭代传播机制过程：通过多次迭代更新节点表示，直至收敛到稳定状态

特点：处理无向同构图（所有节点/边类型单一）示例图：社交网络（用户为节点，关注为边）

-早期GNN的局限性计算效率低（依赖不动点迭代）仅适用于静态同构图，难以扩展1.3图神经网络的发展起源-

CNN的启发-卷积神经网络（CNN）的三大特征局部连接、权重共享、多层结构对图数据的启示：图是天然的局部连接结构共享权重降低计算成本（对比传统谱方法）分层特征提取适合层次化图数据-CNN的局限性仅适用于欧式数据（图像、文本）关键问题：无法定义图上的局部卷积核与池化算子示例对比：图像（规则网格）vs.社交网络（不规则拓扑）-新兴研究方向将CNN迁移到非欧式数据→

几何深度学习（GeometricDeepLearning）核心目标：设计图上的卷积操作（GCN）1.3图神经网络的发展起源-图卷积神经的诞生图卷积神经网络（GCN）主要分为两大类：基于谱的方法和基于空间的方法。基于谱的方法（Spectral-based）：起源：Bruna等人（2013）利用谱图理论定义图卷积核心思想：在图频域进行信号滤波缺点：计算复杂，难以扩展基于空间的方法（Spatial-based）：起源：Micheli等人（2009）提出复合非递归层架构核心思想：通过邻居聚合直接定义局部操作优点：高效、可扩展

方法代表工作特点谱方法Bruna(2013)依赖图傅里叶变换，理论严谨但计算量大空间方法Micheli(2009)直接聚合邻居信息，灵活高效1.4图神经网络的设计-寻找图结构结构性场景vs.非结构性场景显式图结构：分子结构（原子为节点，化学键为边）社交网络（用户为节点，关注关系为边）隐式图构建：文本处理：全连接词图（节点为词，边为共现关系）图像处理：场景图（物体为节点，空间/语义关系为边）关键问题如何建模非结构化数据中的潜在关系？案例：推荐系统中用户-商品交互图的构建1.4图神经网络的设计-确定图类型与规模图类型的三维分类方向性：有向图（社交网络关注关系）vs.无向图（分子结构）同构性：同构图（单一节点/边类型）vs.异构图（电商网络：用户、商品、评论）动态性：静态图（知识图谱）vs.动态图（交通流量随时间的路网）图规模的影响小规模图（单GPU训练）vs.大规模图（分布式采样与训练）1.4图神经网络的设计-设计损失函数根据任务类型设计损失-节点级任务：分类任务→交叉熵损失（如Cora论文分类）回归任务→均方误差（如房价预测）-边级任务：链接预测→二元交叉熵（如社交网络好友推荐）-图级任务：图分类→对比损失（如分子毒性分类）根据训练类型设计损失-监督学习：标注数据驱动（如节点分类）-半监督学习：直推式学习（仅预测训练图中的未标记节点）归纳式学习（泛化到新图，如GraphSAGE）-无监督学习：图自编码器→重构损失（如DeepGraphInfomax）1.4图神经网络的设计-构建计算模块核心三大模块-传播模块：卷积算子（GCN、GAT）→聚合邻居特征循环算子（GGNN）→迭代更新节点状态跳跃连接→缓解过平滑（如ResGCN）-采样模块：邻居采样（GraphSAGE的随机游走）子图采样（Cluster-GCN的图分区）-池化模块：全局池化（平均/最大池化）层次化池化（DiffPool生成粗粒度图）模型架构设计多层堆叠：逐层提取高阶特征（类似CNN的深度结构）模块组合示例：GCN（传播）+TopKPooling（池化）→图分类模型1.5图神经网络计算模块-传播模块：卷积算子核心目标：通过信息传递与聚合更新节点/图表示卷积算子（ConvolutionOperators）·

图像卷积vs图卷积（对比示意图）o

图像卷积：规则网格、有序邻域、固定滤波器o

图卷积：非欧空间、无序邻域、动态聚合·

谱方法（SpectralMethods）o

理论基础：图傅里叶变换+谱域滤波器o

局限性：依赖图结构（拉普拉斯矩阵特征基）、泛化性差o

典型模型：ChebNet（切比雪夫多项式近似）、GCN（简化版谱方法）·

空间方法（SpatialMethods）o

直接聚合邻居信息，独立于图结构o

关键操作：消息传递（MessagePassing）+聚合（Aggregation）o

典型模型：GraphSAGE、GAT（引入注意力机制）1.5图神经网络计算模块-传播模块：循环算子·

参数共享机制：跨层共享参数，降低计算复杂度·

两类方法对比o

基于收敛的方法（如GGNN）：迭代更新直至稳态，捕捉长程依赖o

基于门控的方法（如Tree-LSTM）：引入GRU/LSTM门控单元，过滤噪声·

优势：时序建模能力、处理动态图1.5图神经网络计算模块-传播模块：跳跃连接·

问题背景：深层GNN的过平滑（Over-smoothing）与梯度消失·

解决方案o

残差连接：融合浅层与深层特征（例：ResGCN）o

门控跳跃：自适应调节信息流（例：HighwayGCN）o

稠密连接：跨层特征拼接（例：DenseGCN）·

经典模型：JK-Net（跳跃知识网络）、GCNII（深层GCN改进）1.5图神经网络计算模块-采样模块核心目标：解决大规模图计算的邻域爆炸问题与存储瓶颈采样动机·

问题背景：o

邻域爆炸（NeighborExplosion）：多层GNN的接受域随层数指数级增长o

存储限制：显存无法容纳全图邻接矩阵与节点特征·

采样意义：选择性计算关键节点信息，降低计算复杂度方法操作逻辑优点缺点典型模型逐点采样每节点独立采样部分邻居灵活适配异构邻域计算冗余、并行效率低GraphSAGE(随机采样)逐层采样每层采样固定共享节点集合计算高效、易于并行忽略节点邻域异质性FastGCN子图采样随机抽取子图（包含节点及其局部邻域）保留局部结构、内存友好全局信息可能丢失Cluster-GCN1.5图神经网络计算模块-采样模块关键技术细节·

逐点采样：o

邻居采样策略：均匀采样vs重要性采样（如按节点度加权）o

层级传播限制：限定每层采样邻居数（如GraphSAGE的固定K跳）·

逐层采样：o

共享分布设计：基于节点度或特征相似性定义概率分布o

小批量训练：通过蒙特卡洛估计缓解采样偏差·

子图采样：o

子图生成方法：§

随机游走（如GraphSAINT）§

图划分算法（如METIS社区划分）o

子图重叠控制：通过分区重叠保留跨子图信息1.5图神经网络计算模块-采样模块挑战与优化方向·

效率-信息完整性权衡：采样率与模型性能的平衡·

动态图采样：适应图结构随时间变化的场景·

可扩展性提升：分布式采样框架（如PyTorchGeometric的NeighborSampler）1.5图神经网络计算模块-池化模块核心目标：压缩图表示并提取多层次特征

任务驱动：o

节点级任务（如节点分类）：需保留局部特征o

图级任务（如图分类）：需生成全局表示·

方法分类：直接池化vs分层池化方法适用场景优势局限性直接池化小规模图/节点分类简单高效、低计算成本特征抽象能力有限分层池化大规模图/图分类多尺度特征、高表达能力实现复杂、训练难度大1.5图神经网络计算模块-池化模块直接池化（FlatPooling）·

常见方法：o

MaxPooling：取邻域特征最大值（保留显著特征）o

MeanPooling：计算邻域特征均值（平滑噪声）o

SumPooling：邻域特征求和（适用于稀疏图）o

GlobalPooling：全图特征聚合（如Readout函数）·

优点：计算简单、易于实现·

缺点：忽略图拓扑层次，难以捕捉多尺度特征1.5图神经网络计算模块-池化模块分层池化（HierarchicalPooling）核心思想：通过多级压缩逐步抽象图结构经典方法：i.

DiffPool（可微分池化）:§

学习软分配矩阵（节点→簇的映射）§

生成粗化图（簇间连边加权聚合）§

优点：端到端优化，支持任意图结构ii.

EigenPool（谱池化）:§

基于图傅里叶变换划分频段§

保留低频分量（捕捉全局结构）iii.

SAGPool（自注意力池化）:§

通过注意力分数选择关键节点§

动态调整池化粒度图卷积神经网络22.1基于谱的图卷积网络·

目标：将卷积操作扩展到图结构数据，利用图信号处理理论定义频域卷积。谱方法实现流程1.

信号变换：将节点特征XX

投影到谱域（傅里叶基）：X^=UTXX^=UTX。2.

频域滤波：设计滤波器gθ(Λ)gθ(Λ)，执行逐元素乘积：Y^=gθ(Λ)⊙X^Y^=gθ(Λ)⊙X^。3.

逆变换：将结果转换回空域：Y=UY^Y=UY^。·

核心问题：滤波器设计需满足局部性和计算效率。谱方法实现流程1.信号变换：将节点特征投影到谱域（傅里叶基2.频域滤波：设计滤波器，执行逐元素乘积3.逆变换：将结果转换回空域核心问题：滤波器设计需满足局部性和计算效率。·

优点：o

数学理论扎实（图信号处理理论支撑）。o

捕获全局结构信息（长程依赖）。·

缺点：o

计算昂贵：特征分解复杂度高，难以扩展到大图。o

拓扑敏感性：滤波器依赖固定图结构，无法泛化到动态图。o

缺乏可解释性：频域操作难以直观关联空间语义。2.1基于谱的图卷积网络经典模型与改进（1）SpectralNetwork[Brunaetal.,2014]

方法：直接在谱域中学习滤波器参数

局限性：o计算复杂度高（依赖特征分解，O(n3)）。o缺乏局部性（滤波器可能聚合非邻域节点）。（2）小波神经网络（GWNN）[Xuetal.,2019]

改进点：o小波基底：用稀疏小波基替代傅里叶基，提升局部性和稀疏性。o切比雪夫多项式近似：避免显式特征分解，复杂度降低至O(mn)（m为多项式阶数）。

优势：局部性、计算高效、稀疏性。（3）自适应图卷积网络（AGCN）[Lietal.,2018]

核心思想：动态学习图结构的潜在关系。o自适应拉普拉斯矩阵：通过马氏距离学习节点间特征相似性，构造任务相关的图结构。o残差子图：捕捉原始图未覆盖的拓扑模式。

优势：灵活适应不同图结构，缓解固定图拓扑的局限性。2.2基于空间的图卷积网络·

目标：直接在空域（节点域）定义卷积操作，通过聚合邻居信息生成节点表示。·

核心问题：中心节点选择：如何确定需要聚合信息的中心节点。感受域大小：选择多少层/多少跳（hop）的邻居（指数级扩展问题）。特征聚合函数：如何高效聚合邻居特征（均值、加权、注意力等）。·

优点：o

计算高效，支持大规模图处理。o

灵活适应动态图、异构图和复杂拓扑。o

局部性设计更符合直觉（类似传统CNN）。·

缺点：o

感受域设计依赖经验（如邻居数量、跳数）。o

长距离依赖需深层网络或特殊结构（如跳跃连接）。o

部分方法需预定义节点顺序（如PATCHY-SAN）。2.2基于空间的图卷积网络经典模型与解决方案（1）PATCHY-SAN[Niepertetal.,2016]·

流程三阶段：节点中心性度量：基于度、PageRank等指标排序节点，按间隔选取中心节点。邻域集合构建：通过BFS扩展邻居至固定大小，不足时重复采样一阶邻居。子图标准化：对邻域节点排序（如按边标签、度数），生成规则网格结构。·

优点：生成固定大小的子图，便于传统CNN处理。支持参数共享和并行计算。·

缺点：中心性指标选择敏感，可能丢失局部结构。邻域扩展策略易导致信息冗余或缺失。2.2基于空间的图卷积网络（2）扩散卷积网络（DCNN）[Atwood&Towsley,2016]·

核心思想：基于扩散过程（如随机游走）建模多跳邻居重要性。o

扩散核：利用概率转移矩阵Pk（k跳邻居权重）加权聚合特征。o

平移不变性：同构图输入产生相同输出。·

优点：o

自然捕获多跳邻居的衰减效应（距离越远权重越低）。·

缺点：o

稠密图下存储Pk张量导致内存爆炸。o

长距离依赖捕捉能力有限。2.2基于空间的图卷积网络3）GraphSAGE[Hamiltonetal.,2017]·

归纳式节点嵌入：学习生成节点表示的通用函数（非固定嵌入）。·

采样策略：i.

分层邻居采样：每层随机采样固定数量邻居（如K=25）。ii.

特征聚合函数：支持均值（Mean）、LSTM、池化（Pooling）等。·

优势：o

适用于动态图和新节点（无需全图重训练）。o

平衡计算效率与信息完整性。关键优化技术·

感受域控制：o

邻居剪枝：限制每层采样数量（如GraphSAGE）。o

层级跳跃连接：缓解指数级扩展问题（如JK-Net）。·

高效聚合函数：o

注意力机制：GAT（GraphAttentionNetwork）通过自适应权重聚合邻居。残差连接：防止深层网络信息丢失（如ResGCN）2.3总结空间方法vs谱方法维度谱方法空间方法理论基础图信号处理（频域变换）局部邻居聚合（空域操作）计算复杂度高（依赖特征分解）低（局部操作，支持并行）图结构依赖性强（需固定图结构）弱（支持动态图和新节点）适用性无向图、小规模图有向图、带权图、大规模图可解释性低（频域操作抽象）高（直观的邻居聚合过程）·

意义：空间方法凭借高效性和灵活性成为图卷积的主流范式。·

挑战：o

如何平衡局部与全局信息（如层次化聚合）。o

如何设计鲁棒的采样策略（避免信息丢失）。·

未来方向：o

动态图实时卷积（如时空图网络）。o

异构图的统一空间聚合框架（如异构图注意力）。图循环网络GRN33.1基于门控循环单元（GRU）的方法门控图神经网络（GGNN）1.

核心机制：▫固定循环步数（非收敛迭代）▫信息聚合函数：∑邻节点状态▫状态更新函数：GRU融合当前状态与邻域信息2.

应用场景：程序验证、状态推理任务门控图序列神经网络（GGS-NN）1.

创新点：▫图序列特征编码▫全局状态向量（GlobalState）设计▫双训练模式：全节点注释vs单节点端到端2.

性能优势：➢优于传统LSTM的归纳偏置能力➢动态图结构适应性强3.1基于门控循环单元（GRU）的方法模型核心模块状态更新维度复杂度GGNNGRU节点级O(Tn)GGS-NNGRU+Global图级聚合O(Tn²)GGT-NNGRU+Attention边-节点联合O(Tn³)门控图变换网络（GGT-NN）关键技术升级：▫边属性动态更新机制▫注意力驱动的图全局输出▫图灵机状态模拟（四状态自动机）任务表现：✓对话问答任务性能提升✖复杂度随问题规模指数增长3.2基于长短期记忆网络（LSTM）的方法树结构LSTM变体[Taietal.]1.

应用场景：语法树、分子结构等层次化图2.

Child-SumTree-LSTM▫子节点无序聚合（∑子节点隐藏状态）▫多遗忘门设计（每个子节点独立门控）N-aryTree-LSTM▫有序子节点处理（位置敏感参数矩阵）▫适用于固定分支结构（如二进制树）Sentence-LSTM(S-LSTM)1.

文本图构建：▫单词节点+超节点（全局信息枢纽）▫双向连接：单词↔相邻词+单词↔超节点2.

创新机制：▫分层信息传递：局部上下文+全局语义▫动态门控跨节点信息流3.

解决痛点：➢长距离依赖捕捉（通过超节点）➢语义组合性建模3.2基于长短期记忆网络（LSTM）的方法Sentence-LSTM(S-LSTM)3.3总结1.

在动态图(DynamicGraphs)中的潜在价值2.

与小样本学习结合的可能性1.

递归计算的串行性→难以并行化2.

深层传播中的梯度消失/爆炸1.

早期探索:验证了循环机制在图数据的可行性2.

技术遗产:✓全局状态设计→GAT的图注意力池化✓超节点机制→Graph-BERT的[CLS]节点历史地位现代启示性能瓶颈图注意力网络44.1背景与核心概念注意力机制的本质生物学启发：人类视觉的焦点选择与信息过滤机制计算视角：动态权重分配解决信息过载问题经典应用案例：Transformer在机器翻译中的序列建模

图神经网络痛点传统GNN的等权聚合缺陷（如GCN的固定权重）异构图/动态图中邻居节点重要性差异问题多关系数据中边特征的表达能力限制图注意力核心思想

动态邻居权重分配→自适应局部结构建模4.2基于自注意力的方法——GAT模型核心创新MaskedSelf-Attention层堆叠共享权重W实现参数效率LeakyReLU激活的注意力系数计算多头机制（Multi-head）并行独立计算→稳定训练+特征多样性输出策略：拼接（中间层）vs平均（最后一层）关键技术优势免图结构先验知识→适用于动态图线性时间复杂度→大规模图可扩展性隐式边特征学习→多关系建模潜力局限与改进方向批处理限制→内存优化策略（如NeighborSampling）重叠邻域计算冗余→缓存机制研究注意力头交互缺失→动态门控机制引入架构图示左：模型的注意力机制右：节点隐藏状态计算图，其中不同颜色的线条表示不同的注意力头4.2基于自注意力的方法——门控注意力网络（GaAN）·

改进点：o

键-值注意力机制（Key-ValueAttention）o

动态门控权重控制（SoftGate）核心差异：键值注意力+门控多头聚合优势：多源信息动态筛选能力代价：参数复杂度增加约30%特性GATGaAN注意力类型全连接层点积注意力多头处理等权重拼接门控权重聚合4.3基于层注意力的方法GAML模型突破多标签学习挑战：标签共现/排斥关系建模异构节点架构：数据节点+标签节点联合嵌入分层注意力机制第1层：子图结构重要性评估第2层：跨层级特征交互建模关键技术组件消息传递范式改进：标签节点作为信息中继HighwayNetwork应用：长程依赖捕捉可视化解释：注意力权重映射标签关联实验效果亮点准确率提升：较传统GCN提升15-20%可解释性证明：注意力热力图揭示标签依赖4.4挑战与发展方向现存问题:大规模图计算效率(邻居采样瓶颈)过平滑问题(深层网络性能下降)动态图适应能力前沿方向:注意力蒸馏(AttentionDistillation)时空图注意力(ST-GAT)量子注意力机制(实验阶段)8注意力机制目录

CONTENTS注意力机制简介1注意力模型基本架构2注意力机制分类3注意力模型4注意力机制简介18.1注意力机制简介基本概念：注意力机制源于人类视觉系统，旨在提高模型在处理信息时的效率和效果。核心思想是帮助模型对输入的每个部分赋予不同的权重，抽取出更加关键及重要的信息，使模型做出更加准确的判断，同时不会对模型的计算和存储带来更大的开销。注意力机制应用非常广泛，尤其是在Seq2Seq模型中，如机器翻译、语音识别、图像释义（ImageCaption）等领域。8.1注意力机制简介（1）在深度学习领域，注意力机制的雏形最早应用于计算机视觉领域的视觉注意力系统SBVA，将多尺度的图像特征组合成单一的显著性图。最后，利用一个动态神经网络，并按照显著性的顺序来高效的选择重点区域。

（2）谷歌DeepMind于2014年从机器模拟人的“视觉观察”角度出发，开发了一个新的基于注意力的任务驱动的神经网络视觉处理框架RAM，一个按照时间顺序处理输入的循环神经网络模型。

发展历程：8.1注意力机制简介（3）YoshuaBengio等学者2015年在ICLR上发表的文章将注意力机制首次应用到NLP领域，实现同步对齐和翻译，解决以往神经机器翻译(NMT)领域使用Encoder-Decoder架构的一个潜在问题，即将信息都压缩在固定长度的向量，无法对应长句子。（4）随后，他和合作者2015年在ICML上发表的文章将注意力机制引入到图像领域，提出了两种基于注意力机制的图像描述生成模型：使用基本反向传播训练的SoftAttetnion方法和使用强化学习训练的HardAttention方法。（5）2017年JianlongFu提出了一种基于CNN的注意力机制循环注意力卷积神经网络，可以递归地分析局部信息，并从所获取的局部区域中提取细粒度信息。此外，还引入了一个注意力生成子网络。（6）2017年，以编码器-解码器为基础的Transformer架构被提出，可以有效的解决RNN无法并行处理以及CNN无法高效的捕捉长距离依赖的问题，一系列以Transformer为基础模型的改进工作大量出现。

发展历程：注意力模型基本架构28.2注意力模型基本架构核心思想：根据输入的相关性来加权不同部分的信息基本公式：一个典型的注意力模型的主要组成部分：（1）输入嵌入层：将离散的输入数据（如单词或图像像素）转换为连续的向量表示。常用的嵌入方法包括Word2Vec、GloVe和预训练模型如BERT等（2）注意力计算层：是模型的核心部分，通过计算查询和键之间的相似度来决定值向量的加权方式。缩放点积注意力（ScaledDot-ProductAttention）是常见的计算方法。（3）前馈神经网络：在多头注意力层之后，通常会接一个前馈神经网络（FFN）。FFN由两个线性变换层和一个非线性激活函数（如ReLU）组成。（4）残差连接与层归一化：缓解深层网络训练中的梯度消失问题，帮助模型更有效地训练，并提高收敛速度和稳定性。注意力机制分类38.3注意力机制分类一般形式的注意力分布计算公式为：注意力分布ai可以解释为在给定任务相关的查询q时，第i个信息受关注的程度。常见的注意力打分函数s（xi,q）包括：依据注意力机制的一般作用机理，将其划分为一般模式注意力、键值对模式注意力、多头注意力。一般模式注意力8.3注意力机制分类软性注意力采用一种“软性”的信息选择机制对输入信息进行汇总，其选择的信息是所有输入信息在注意力分布下的期望，有选择的对所有输入施加注意力，并进行后续的信息整合，能够有效避免信息遗漏，但有可能关注冗余的信息。

硬性注意力只关注到某一个位置的信息，而忽略其他输入，能够有效过滤噪声信息，但是也可能会造成关键信息的遗漏。特别是当需要关注的内容较多时，该类硬性注意力并不适用。在实际应用中，软性注意力更为常见。8.3注意力机制分类键值对模式注意力用键值对（key-valuepair）格式来表示输入信息，其中“键”用来计算注意力分布ai，“值”用来计算聚合信息，其中：(K,V)

[(k1,v1)，…，（kN，vN）]：N个输入信息；q：给定相关任务的查询向量；s（ki,q）：打分函数键值对模式注意力计算公式如下：

需要注意的是，当

时，键值对模式就等价于一般的注意力机制。多头注意力多头注意力模式是指利用多个查询

[q1，…，qM]

，来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分：注意力模型48.4.1通道&空间注意力通道注意力旨在显示的建模出不同通道之间的相关性，通过网络学习的方式来自动获取到每个特征通道的重要程度，最后再为每个通道赋予不同的权重系数，从而来强化重要的特征抑制非重要的特征。空间注意力旨在提升关键区域的特征表达，本质上是将原始图片中的空间信息通过空间转换模块，变换到另一个空间中并保留关键信息，为每个位置生成权重掩膜（mask）并加权输出，从而增强感兴趣的特定目标区域同时弱化不相关的背景区域。8.4.1.1SE-Net发表于2018年的CVPR，是计算机视觉领域将注意力机制应用到通道维度的代表作，结构简单且效果显著，可以通过特征重标定的方式来自适应地调整通道之间的特征响应。（1）Squeeze

利用全局平均池化(GlobalAveragePooling,GAP)

操作来提取全局感受野，将所有特征通道都抽象为一个点；（2）Excitation

利用两层的多层感知机(Multi-LayerPerceptron,MLP)网络来进行非线性的特征变换，显示地构建特征图之间的相关性；（3）Transform

利用Sigmoid激活函数实现特征重标定，强化重要特征图，弱化非重要特征图。8.4.1.2GE-Net发表于2018年的NIPS，从上下文建模的角度出发，提出了一种比SE-Net更一般的形式。充分利用空间注意力来更好的挖掘特征之间的上下文信息。其包含两个主要的操作：（1）Gather

用于从局部的空间位置上提取特征；（2）Excite

用于将特征缩放至原始尺寸。8.4.1.3RA-Net发表于2017年CVPR，利用下采样和上采样操作提出了一种基于空间注意力机制的残差注意力网络。尝试在常规的分类网络中引入侧边分支，该分支同样是由一系列卷积和池化操作来逐渐地提取高级语义特征并增大网络的感受野，最后再将该分支直接上采样为原始分辨率尺寸作为特征激活图叠加回原始输入。8.4.1.4SK-Net发表于2019年的CVPR，研究的是卷积核之间的相关性，并进一步地提出了一种选择性卷积核模块。从多尺度特征表征的角度出发，引入多个带有不同感受野的并行卷积核分支来学习不同尺度下的特征图权重，使网络能够挑选出更加合适的多尺度特征表示，不仅解决了SE-Net中单一尺度的问题，而且也结合了多分枝结构的思想从丰富的语义信息中筛选出重要的特征。其突出特征在于：（1）Split

采用不同感受野大小的卷积核捕获多尺度的语义信息；（2）Fuse

融合多尺度语义信息，增强特征多样性；（3）Select

在不同向量空间（代表不同尺度的特征信息）中进行Softmax操作，为合适的尺度通道赋予更高的权重。8.4.1.5SPA-Net发表于2020年的ICME，并获得了最佳学生论文。利用多个自适应平均池化(AdaptiveAveratgePooling,APP)组成的空间金字塔结构来建模局部和全局的上下文语义信息，使得空间语义信息被更加充分的利用到。8.4.2混合注意力空间注意力由于将每个通道中的特征都做同等处理，忽略了通道间的信息交互；通道注意力则是将一个通道内的信息直接进行全局处理，容易忽略空间内的信息交互；混合注意力主要是共同结合了通道域、空间域等注意力的形式来形成一种更加综合的特征注意力方法。8.4.2.1CBAMCBAM发表于2018的CVPR，在原有通道注意力的基础上，衔接了一个空间注意力模块(SpatialAttentionModul,SAM)。SAM是基于通道进行全局平均池化以及全局最大池化操作，产生两个代表不同信息的特征图，合并后再通过一个感受野较大的7×7卷积进行特征融合，最后再通过Sigmoid操作来生成权重图叠加回原始的输入特征图，从而使得目标区域得以增强。总的来说，对于空间注意

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《深度学习 》课件 李侃 第6-11章-深度生成网络 -无监督深度学习

文档简介

温馨提示

最新文档

评论

相关文档

《深度学习》课件李侃第6-11章-深度生成网络 -无监督深度学习