




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
汇报人:100871单击此处添加文本6深度生成网络目录
|
CONTENTS深度生成模型简介1基于玻尔兹曼机的方法2基于变分自动编码器的方法3基于生成对抗网络的办法4基于流模型的方法5基于扩散模型的方法6基于自回归网络的方法7大语言模型8深度生成模型简介16.1深度生成模型简介深度生成模型概念使用深度学习生成与训练数据集相似的新数据,结合监督与非监督学习,理解并模拟复杂现象的生成过程。模型特点(1)深度神经网络实现灵活的分布参数化(2)基于概率论的严格建模主要分类包括玻尔兹曼机、变分自编码器、对抗生成网络、流模型、扩散模型和自回归网络等技术路线。基于玻尔兹曼机的方法26.2基于玻尔兹曼机的方法由于BM算法精确率不高、推理速度较慢,其变体的流行程度已远远超过模型本身。主要变体包括受限玻尔兹曼机(RestrictedBoltzmannMachines,RBM)、深度置信网络(Deepbeliefnetwork,DBN)和深度玻尔兹曼机(DeepBoltzmannmachines,DBM)。它们能够学习高维特征和高阶概率依赖关系,可用于降维、特征提取等方面。玻尔兹曼机变体类型玻尔兹曼机(Boltzmannmachines,BM)是随机神经网络,具有对称连接,在图论上可理解为完全图。类似神经元的状态的值由概率统计法则确定,能量函数驱动概率分布。玻尔兹曼机概念6.2.1受限玻尔兹曼机(RBM)无向图模型中没有归一化的概率必须除以配分函数进行归一化才能得到有效的概率分布,目前计算配分函数主要以近似估计方法为主。第一类算法是通过引入中间分布直接估计配分函数的值,中间分布的计算需要使用蒙特卡洛马尔科夫链或重要性采样,如退火重要性抽样算法(AIS)。第二类计算配分函数的算法是构造新目标函数替代配分函数,避免直接求解配分函数的过程,包括得分匹配(SM)和噪声对比估计(NCE)。第三类算法是直接估计配分函数关于参数的近似梯度,包括对比散度(CD)、持续对比散度(PCD)和快速持续对比散度(FPCD)三种。RBM的基本结构配分函数估计方法受限玻尔兹曼机由可见层和隐藏层组成,两层神经元状态为0或1,表示激活或未激活。关键公式:(1)能量函数:
(2)联合概率分布:
(3)条件分布:6.2.1受限玻尔兹曼机(RBM)配分函数计算方法简介蒙特卡洛马尔科夫链(MCMC):通过构建一个逐步转移的马尔科夫链来模拟目标概率分布,利用链上的样本点来近似计算复杂问题的解。该方法的关键在于确保马尔科夫链的稳态分布与目标分布一致。重要性采样(如退火重要性抽样算法AIS):重要性采样是一种统计方法,它通过从一个容易采样的分布(称为重要性分布)中抽取样本,并调整这些样本的权重来估计目标分布的期望值。退火重要性抽样算法在此基础上融入了模拟退火的思想,通过逐步调整重要性分布使其逐渐接近目标分布,从而提高采样效率和解的质量。得分匹配(SM)通过优化概率密度函数的梯度来估计模型参数,避免了直接计算归一化常数。噪声对比估计(NCE)通过训练一个分类器来区分真实数据和噪声样本,以此估计目标分布的参数。对比散度(CD)是一种用于训练受限玻尔兹曼机(RBM)的算法,它通过交替更新隐藏层和可见层的单元来近似数据分布。持续对比散度(PCD)是CD的变种,它使用多个马尔科夫链样本而不是从头开始每次迭代,以提高训练的稳定性。快速持续对比散度(FPCD)进一步优化了PCD,通过在每次迭代中只更新一部分隐藏层单元来加速收敛。6.2.2深度置信网络(DBN)本质上是RBM目标函数的变分下界。目标函数多个隐藏层的神经元通常只取0和1,可见层单元可取二值或实数。顶部两层间是无向连接,其余为箭头指向可见层的有向连接。模型架构DBN是多隐藏层的有向概率图模型,相邻两层可通过RBM预训练,用于学习复杂的数据分布。使用贪婪学习算法调整模型参数使模型有容易训练的初始值,贪婪逐层预训练算法提供了两种获得和的方法。贪婪逐层预训练算法基于变分自动编码器的方法36.3.1VAE模型的基本原理VAE的目标函数是数据分布和重构的样本分布间距离的最小化,一般用KL散度衡量这两个分布之间的距离,但是由于数据分布是未知的,引入近似分布和近似后验分布。变分下界(ELBO):目标函数VAE是通过编码-解码过程映射样本至服从高斯分布的隐藏变量,之后由隐藏变量产生样本,并使用KL散度优化目标函数的生成模型,可以学习给定数据的概率分布,并利用这些学到的分布来生成新的数据。编码器输出隐藏变量的概率分布的参数,解码器输出重构数据的概率分布。核心思想选择相同概率分布族的P(ε),对P(ε)抽样得到的样本ε进行若干次线性变换就能获得在原始分布抽样的等价结果。由于采样不可导,不能用反向传播优化参数,因而引入确定性变换,提出了重参数化方法。公式:010203重参数化技巧6.3.1VAE模型的基本原理6.3.2几种重要的VAE结构辅助深度生成模型(AuxiliaryDeepGenerativeModels,ADGM)是效果好且有影响力的条件变分自编码器,其目标函数是无标签和有标签样本变分下界之和:L=L(x)+L(x,y),可以用于监督学习或半监督学习。ADGM的编码过程由三个神经网络构成,ADGM的解码过程有两个神经网络。优势是没有削弱编码器,代价是需要5个神经网络,计算量更大。监督结构的变分自编码器IWAE是VAE的改进,通过弱化编码器缓解后验分布问题,提高生成模型性能。重要性加权自编码(ImportanceWeightedAuto-Encoders,IWAE)向量量化变分自编码器(VQ-VAE)首个使用离散隐藏变量的VAE模型,旨在训练出表示能力更强大的离散变量的先验分布,使模型有能力生成有意义的样本,避免后验崩溃(PosteriorCollapse)现象。基于生成对抗网络的方法46.4.1对抗生成网络的基本原理GAN训练困难,常出现梯度消失、模型崩溃和训练进度无明确目标等问题。GAN的问题可以看成是一个训练框架,理论上可以训练任意的生成模型。GAN通过生成器和判别器之间的对抗行为来优化模型参数,巧妙地避开求解似然函数的过程。生成对抗网络(GAN)是由两部分组成的框架:生成器(Generator)和判别器(Discriminator)。这两部分通过对抗过程相互竞争,最终目的是使生成器能够生成与真实数据分布无法区分的数据。目标函数:(1)判别器目标:
(2)生成器目标:
(3)最优判别器为:GAN的基本原理6.4.2对抗生成网络的稳定性研究通过限制判别器的Lipschitz约束,改善了梯度惩罚的局部有效性,实现简单且效果更优。将判别器中的所有参数都替换为
,只需把谱范数的平方作为正则化项,填加到判别器的目标函数中:SNGAN的收敛速度比WGAN-GP更快,且效果更好。谱归一化生成对抗网络(SNGAN)Wasserstein对抗生成网络(WGAN)用Wasserstein距离替代KL散度和JS散度,改变了生成器和判别器的目标函数,并用权重裁剪的方法对判别器施加Lipschitz约束以限制判别器的梯度。WGAN解决了GAN不稳定的问题,基本消除了简单数据集上的模型崩溃问题,也可以指示模型的训练进度。WGAN中生成器和判别器的目标函数分别为:WGAN在训练过程中会出现收敛速度慢、梯度消失或梯度爆炸等现象WGAN-GP直接将判别器的梯度作为正则项加入到判别器的损失函数中,该正则项通过惩罚梯度使判别器梯度在充分训练后达到Lipschitz常数K附近,因此该正则项被称为梯度惩罚,WGAN-GP能避免出现梯度消失或梯度爆炸的现象。加入梯度惩罚的判别器的目标函数为:Wasserstein对抗生成网络(WGAN)6.4.3对抗生成网络的结构发展基于残差网络的结构基于卷积层的结构CGAN和ACGAN是两种处理监督和半监督数据的结构,CGAN中判别器处理标签信息和样本,而ACGAN的判别器只负责样本真伪和标签预测,适用于半监督学习。监督结构和半监督结构ResNet结构的GAN模型以残差设计增强判别器和生成器深度,用上抽样替代反卷积。比如BiqGAN能生成逼真的图像,但需要大量标注数据训练。DCGAN是使GAN训练时的稳定性明显提高,用卷积和反卷积网络,各层均使中
南用批归一化。虽训练快、内存小,但反卷积的棋盘效应影响图像质量。基于流模型的方法56.5.1流模型的基本原理优化目标是获取转换函数参数,以求逆形式,但雅可比行列式计算复杂。优化参数与求逆挑战真实数据分布由转换函数映射到人为给定的简单分布,如果该转换函数是可逆的且可求出该转换函数的形式,则这个简单分布和转换函数的逆函数就能够构成一个深度生成模型。深度生成模型的一种方法要求转换函数的雅可比行列式计算简单,且逆变换计算量小,常设计为三角阵行列式,其值等于对角线元素乘积从而简化求解雅可比行列式的计算量。流模型的转换函数用神经网络表示,该神经网络相当于一系列转换函数作用效果的累积,如同水流,形成流模型框架。其对数似然为:第一项衡量了变换后数据z与已知分布P(z)的匹配程度,第二项反映了每次变换对概率密度的影响,常数项c用于标准化结果。流模型解决策略6.5.2常规流--NICE在每次耦合层后直接交换两部分元素的位置,从而增强非线性能力。维度混合将维输入变量分割成两部分,然后取如图变换,下一个隐藏层变量为h=[h1,h2],这种只含有加性算法的耦合层被称为加性耦合层,加性耦合层的雅可比行列式是上三角行列式且对角线元素全部为1,使得雅可比行列式的值为1。消除了雅可比行列式的计算量。该转换函数的逆变换形式如下:加性耦合层NICE非线性独立成分估计.(NonlinearIndependentComponentsEstimation,NICE)是第一个流模型,是奠基性的流模型,后续的流模型大多基于它的结构和理论。NICE提出了三个重要的模型结构:加性耦合层、维数混合和维数压缩层,创新性地解决了可逆性和维数冗余问题。在最后一层和先验分布之间引入维数压缩层,如果某个方差接近0,说明其对应的维数所表示的流形已经塌缩为点,从而起到维数压缩的作用。维数压缩层6.5.2常规流--RealNVP对耦合层之间的分量随机打乱,再将打乱后的向量重新分割成两部分并输送到下个耦合层中。随机混合机制在原有的加性耦合层的基础上加入了乘性耦合,其雅可比行列式是对角线不全为1的下三角阵,为了保证可逆性需要约束雅可比行列式对角线各元素均大于0,因此RealNVP直接用神经网络输出logs。仿射耦合层RealNVP在NICE的基本结构上,通过仿射耦合层和随机打乱机制增强非线性能力,多尺度结构降低计算量和存储空间。6.5.2常规流--RealNVP掩码卷积层使用掩码增加样本通道数并降低空间维数,棋盘掩码是一种固定间隔的空间轴上的交错掩码,能够有效保留样本在空间的局部相关性。多尺度结构是一种逐层转换的方式,使数据的全部元素都可以在一个复合耦合层内进行转换,保留了原有方法中雅可比行列式容易计算的特点,减少模型复杂度和计算量的同时增加模型的生成能力。6.5.2常规流--GLOW置换矩阵用批次样本的均值和方差初始化参数和,是对先验分布的平移和缩放。Actnorm层GLOW是流式生成模型,是以NICE和realNVP为基础结构的模型,通过Actnorm和1x1卷积改进,优化置换矩阵,提升生成能力,但参数量大,训练成本高。用卷积运算改变置换通道的排列,用置换矩阵替代随机打乱并放到损失函数中一并优化以进一步提升模型效果。具体方法是通过一个随机旋转矩阵W置换输入轴通道的排列顺序使h=xW,为了保证转换函数的可逆性,方阵W初始化为随机正交矩阵。然后利用LU矩阵分解法分解正交矩阵W使W=PLU,则detW为:几乎没有改变原模型的计算量,且减少了待优化参数的数重。6.5.3流模型的衍生结构变分推理流模型结合了变分推断和流模型,通过将编码器输出的均值和方差用转换函数映射到更复杂的分布,再由解码器根据后验分布重构样本,使后验分布更接近真实,从而增强重构样本的准确性。归一化流变分推断(VINF)称之为平面流(PlanarFlow)。变分推理流iResNet是基于残差网络的生成模型,通过约束使残差块可逆,用近似方法计算残差块的雅可比行列式,解决深层网络的梯度消失问题,用于构建可逆的流模型。与其他流模型有本质区别:保留了ResNet的基本结构和拟合能力。i-ResNet的基本模块与ResNet相同,可以表示成y=x+G(x)。G(·)=F(Wx+b)使事
用普通激活函数时,其可逆性条件等价于权重矩阵W的谱范数小于1:i-ResNet使用迭代xn+1=y-G(xn),雅可比行列式可以表示为:i-ResNet首先用恒等式将雅可比行列式绝对值的对数转化为求迹,并在使用级数展开形式后在第项截断,然后使用随机近似方法得到近似值。可逆残差网络(iResNet)6.6基于扩散模型的方法66.6.1扩散模型的基本原理正向扩散过程通过在数据样本上逐步添加高斯噪声,形成一个从0到纯噪声的马尔科夫过程,最终达到标准高斯分布。正向扩散过程原理扩散模型(DiffusionModel,DM)用于生成与训练数据相似的数据。从根本上说,DM的工作原理是通过连续添加高斯噪声来破坏训练数据,然后通过学习逆向的去噪过程来恢复数据。训练后,使用DM将随机采样的声传入模型中,通过学到的去噪过程来生成数据。DM包括正向的扩散过程和反向的逆扩散过程。核心流程6.6.1扩散模型的基本原理训练DM模型就是学习噪声序列的最小化均方误差,通过优化高斯分布间的距离。训练目标:最小化下式训练过程反向逆扩散过程是正向扩散的逆向去噪,通过神经网络求解近似的逆转分布,以还原原始信息。学习噪声预测:反向逆扩散过程原理给定噪声数据,通过特定公式从开始逐步去噪,生成过程≈2,最终得到0。生成采样过程6.6.2条件扩散模型的技术方案分类器无关的条件生成方案是条件扩散模型的简单方法,当数据和算力充足能实现精细的控制,但需要重新训练模型。分类器无关的条件生成方案分类器指导方案指在已训练的DM上添加分类器用于引导生成,以实现特定条件的控制。该方法训练成本低,但推断成本高,控制粒度粗糙。通过DM的正向扩散过程和噪声数据训练分类器,然后在生成采样过程中使用分类器进行指导,优化目标类别的生成。基于分类器指导的方案基于自回归生成网络的方法76.7.1自回归网络的基本原理NAR利用神经网络来捕捉数据中的复杂非线性关系。f
是一个由神经网络实现的函数,可以是多层感知机(MLP)、循环神经网络(RNN)或其他类型的神经网络。自回归是统计学中处理时间序列的方法,用同一变量之前各个时刻的观测值预测该变量当前时刻的观测值。用条件概率表示可见层数据相邻元素的关系,以条件概率乘积表示联合概率分布的模型都可以称为自回归网络。自回归网络的基本形式有三种:线性自回归网络、神经自回归网络(NeuralAutoregressiveNetwork,NAR)和神经自回归分布估计器(NeuralAutoregressiveDistributionEstimation,NADE)。线性自回归网络的核心思想是将当前时刻的输出视为过去时刻输出的线性组合加上一些噪声项。ai是自回归系数;p
是自回归阶数,即考虑多少个过去的输出。6.7.1自回归网络的基本原理——NADE模型(1)单元修正:hd的多次累加会使隐藏层单元越来越饱和,因此添加权重衰减参数以降低隐藏层单元的饱和现象。(2)NADE-k:根据CD-k算法的思想对可见层和隐藏层之间进行反复迭代,替代原始NADE的单次迭代,实验显示这种方法能有效提升NADE模型推断缺失值的能力,该模型可以称为NADE-k。(3)并行NADE:Reed等提出允许对某些像素组建模使之条件独立,只保留高度相关的临近像素,从而使NADE可以并行地生成多个像素,大大加快抽样速度,使隐藏变量和条件概率需要的计算量由O(h)锐减到O(logh)。结构优化NADE是一种基于深度学习的概率模型,用于估计数据的概率分布。NADE特别适用于处理离散数据,如图像像素值或文本数据。基础结构通过链式法则将高维数据的概率分解为条件概率乘积的方法进行建模:NADE可以利用上述公式独立参数化各层之间的权重。此外,模型中引入了附加的参数共享,将条件分布进行参数化,使得NADE在正向传播和均匀场推断中执行的计算大致相同。6.7.2自回归网络的衍生结构——像素循环神经网络像素循环神经网络(PixelRecurrentNeuralNetwork,PixelRNN)将图片的像素作为循环神经网络的输入,本质上是自回归神经网络在图片处理上的应用。该模型利用深度自回归网络预测图片的像素值,并提出三种不同的模型结构。模型结构特点缺点PixeICNN使用掩码卷积避免像素缺失,训练快、似然指标高生成样本模糊(感受野有限)RoWLSTM行卷积+LSTM捕捉长程依赖,漏斗形依赖区域遗漏部分像素信息DiagonalBiLSTM双向LSTM消除像素盲点,生成质量更高计算复杂度高,生成速度慢6.7.2自回归网络的衍生结构——掩码自编码器(1)支持深层扩展,性能与NADE相当(部分数据集更优)。(2)掩码设计灵活,适用于多模态任务。优势将自回归思想嵌入自编码器,通过在权重矩阵中设置某些连接为0,来屏蔽无关变量间的连接通道。这种方法称为掩码,它使得自编码器的输出能够表示为条件概率。输入数据为是二值时目标函数为交叉熵损失。核心思想给第
𝑙个隐层的第
𝑖个神经元分配数字大语言模型86.8.1模型架构生成式预训练大语言模型(PretrainedLanguageModel,PLM)基于Transformer解码器结构,采用自回归网络的训练方式,通过不断堆叠增大模型参数,不断增加训练数据,从而拟合到自然语言中细粒度的特征、学到文本中的高级概念。(1)编码器-解码器架构:传统的Transformer模型通常采用分离的编码模块和解码模块进行建模。其中,编码模块对输入进行深度编码以提取隐藏表示,解码模块基于编码结果递归预测输出。如T5和BART是基于此架构进行训练的。(2)因果解码器架构:在解码阶段限制每个token仅关注前面的内容。GPT-1、GPT-2、GPT-3、OPT、BLOOM等。此外,仅包含解码部分的模型结构也常被称为单向解码器结构。(3)前缀解码器架构(也称非因果解码器架构):通过修正因果解码器的掩码机制,使其能够对前缀token执行双向注意力,并仅对生成的token执行单向注意力,与编码器-解码器架构类似,同时在编码和解码过程中共享相同的参数。通常,这种架构不会从头开始进行预训练,而是继续训练因果解码器,然后将其转换为前缀解码器以加速收敛,如GLM-130B和U-PaLM。6.8.2常用大模型——GPT系列(1)ChatGPT是在性能强大的GPT3.5模型上进行微调得到,具备了博学的基础。(2)GPT3采用纯自监督学习并依靠提示学习范式来挖掘其补全能力,而InstructGPT通过数据增强的监督信号微调提升了模型对人类指令的理解能力。(3)ChatGPT利用人类反馈强化学习(RLHF)来训练模型更好地理解和执行人类指令,通过奖励模型(RM)和参数更新来优化文本生成任务。ChatGPT主要涉及三方面技术生成式预训练Transformer(GenerativePretrainedTransformer,GPT)系列是自回归网络在文本生成领域的一座丰碑。模型参数量关键改进GPT-11.1亿预训练+微调范式,跨任务泛化能力GPT-215亿没有进行微调,但扩大预训练数据集GPT-31750亿零样本学习,上下文推理能力跃升ChatGPT基于GPT-3.5引入RLHF对齐人类意图,支持多轮对话与纠错6.8.2常用大模型——Llama系列Llama1有7B、13B、30B和65B四个参数量版本,各个参数量版本都在超过1万亿个token的语料上进行了预训练;Llama2有7B、13B、34B和70B四个参数量版本,将预训练的语料扩充到了2万亿token,同时将模型的上下文长度从2048翻倍到了4096,并引入了分组查询注意力机制(grouped-queryattention,GQA)等技术;Llama2Chat通过“预训练-有监督微调-基于人类反馈的强化学习”这一流程训练,有优异性能;Llama3包括8B和70B两个参数量版本,支持8K长文本,并采用了一个编码效率更高的tokenizer,词表大小为128K,使用了超过15万亿token的语料,在相同规模的大模型中取得了最优异的性能。Llama系列在Transformer架构基础上构建的,利用大规模数据集进行预训练。6.8.2常用大模型——Llama系列Llama模型在原始Transformer解码器的基础上进行了一些改动,以提高模型性能和训练稳定性,包括:前置的RMSNorm:RMSNorm是一种特征归一化方法,通过计算输入特征的均方根进行归一化,并乘以一个可学习的缩放参数,以提高训练稳定性和模型性能。Q、K上的RoPE旋转式位置编码:RoPE通过旋转查询(Q)和键(K)向量来引入位置信息,这种旋转模拟了序列中元素之间的相对位置,增强了模型对序列顺序的理解。Causalmask:Causalmask用于确保在自回归模型中,每个位置的预测只依赖于之前的位置,通过屏蔽未来位置的注意力权重来实现。使用分组查询注意力:分组查询注意力是将查询(Q)分为多个组,每组查询只与对应的键(K)和值(V)子集进行注意力计算,从而减少计算量并提高效率。6.8.2常用大模型——Llava系列(1)多模态指令跟随数据集:利用ChatGPT/GPT-4将图像文本对转换为适当的指令遵循数据格式,生成了包含对话式QA、详细描述和复杂推理三种类型的指令跟随数据。可扩充(2)大型多模态模型:通过连接CLIP的开放视觉编码器(从图像中提取特征)和语言解码器LLaMA(接收来自视觉编码器的特征以及其他文本输入,并生成相应的输出),并在生成的指令视觉语言数据上进行端到端微调(端到端微调意味着整个模型(包括视觉编码器和语言解码器)在特定的任务上进行联合训练)。Llava(LargeLanguageandVisionAssistant)是一个端到端训练的大型多模态模型,将视觉编码器和大语言模型连接起来,用于通用的视觉和语言理解。6.8.3预训练大语言模型的优化技巧——参数高效微调方法(1)Prefix/Prompt-Tuning通过在模型的输入或隐层添加k个额外可训练的前缀,只训练这些前缀参数。Prefix-Tuning在模型输入前添加一个连续的任务特定的向量序列,称为前缀,固定PLM的所有参数,只更新特定任务的前缀参数。PromptTuning简化了PrefixTuning,固定整个预训练模型参数,只允许将每个下游任务的额外k个更新的标记前置到输入文本中。PromptEnsembling方法集成预训练语言模型的多种prompts,通过在同一任务上训练N个prompts,创建N个独立的模型,共享核心的预训练语言建模参数,降低存储成本并使推理更高效。PEFT(ParameterEfficientFine-Tuning)方法可以分为三类:Prefix/Prompt-Tuning、Adapter-Tuning和LoRA。6.8.3预训练大语言模型的优化技巧——参数高效微调方法(2)Adapter-Tuning通过在预训练模型的每一层插入小的神经网络模块(适配器)来实现。这种方法在下游任务微调时只训练适配器的参数,而预训练模型的原始参数保持不变。由于适配器的参数数量远小于预训练模型,因此大大减少了计算和存储的开销,同时也保留了预训练知识。适配器主要有串联和并联两种形式。串联适配器在每个Transformer层的多头注意力映射后和两层前馈神经网络后各添加一次。适配器模块是一个瓶颈结构,由向下投影矩阵、非线性函数和向上投影矩阵组成,以及一个输出之间的残差连接。并联适配器则是将适配器模块与每层Transformer的多头注意力和前馈层并行计算集成。通过这种方式,Adapter-Tuning可以在不牺牲太多性能的前提下,显著减少模型微调时的参数量和计算资源需求,非常适合资源有限的情况下的模型部署和应用。6.8.3预训练大语言模型的优化技巧——参数高效微调方法(3)LoRA(Low-RankAdaptation)是一种针对大型预训练模型(如GPT-3)的参数高效微调方法。它通过引入低秩矩阵分解来近似模型权重矩阵W的参数更新,从而在训练时只需优化低秩矩阵参数。相比于全量微调,LoRA极大地减少了需要更新的参数数量,对于175B的GPT-3模型,LoRA的训练参数数量可以小到全量微调参数数量的0.01%。LoRA的核心思想是假设权重的更新在微调过程中具有较低的“内在秩”。通过对预训练模型的权重矩阵W进行低秩分解,将其表示为
的形式,其中
,且
。在训练过程中,
被固定不再进行梯度更新,只训练A和B。这样,LoRA不仅减少了内存开销,还提高了训练速度。在生产部署时,LoRA可以通过减去BA来恢复
,然后增加一个新的
,这是一个只需要很少内存开销的快速运算。与结构参数上微调的模型相比,LoRA推理过程中没有引入任何额外的延迟。对于用Adam训练的大型Transformer,若
,LoRA减少2/3的VRAM用量。另一个好处是,可以在部署时以更低的成本切换任务,只需更换LoRA的权重,而不是所有的参数。在GPT-3175B上训练时,与完全微调相比,速度提高了25%。6.8.3预训练大语言模型的优化技巧——提示学习提示学习通过提供提示来引导模型在特定任务上的表现,是一种为了更好的使用预训练语言模型的知识,采用在输入段添加额外的文本的技术。这种方法在自然语言处理等领域特别有效,因为它允许模型通过简单的提示而不是复杂的推理来完成任务。例如,在情感分类中,通过加入提示模板,模型可以直接生成所需的输出。当要判断“input=Ilovethismovie.”
的情感极性时,可以在输入的后面加上提示信息:“prompt=Ilovethismovie.Overall,itwasa[]movie.”,预训练的语言模型就可以在[]里面填入一个与情感相关的词。通过一系列合适的提示(prompts),一个完全由无监督训练方式得到的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 简单空调维修合同范本(2025版)
- 合同协议管理规定(2025版)
- 二年级数学(上)计算题专项练习汇编
- 2025年度大型商场中央空调系统深度清洗与维护服务合同
- 二零二五年度酆素离婚协议风险评估合同
- 二零二五年度房产分割与离婚后财产共享协议
- 二零二五年度大数据应用项目保证担保合同风险预警
- 二零二五年度老旧小区综合改造装修合作协议
- 二零二五年度酒类产品国际市场拓展与代理合同
- 2025年房地产企业法律劳动合同对价及违约责任合同
- 解除租赁合同协议书范本样本
- 产品展示合同范本
- 《规模养殖场抗菌药使用减量化养殖技术规范 第一部分:生猪》
- 企业税务筹划与申报计划三篇
- QCT1190-2023汽车离合器分泵
- 2024年重庆市中考道德与法治试卷真题A卷(含官方答案)
- 【对员工跳槽现象的探究8000字(论文)】
- FZT 73001-2016 袜子行业标准
- 《集成光学课程简介》课件
- 新HSK一至六级词汇表
- 热衷硬质合金项目投资计划书
评论
0/150
提交评论