




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能技术基础生成式人工智能模型第九章
生成式人工智能模型(AIGeneratedContent)是基于统计学习算法和深度神经网络的人工智能模型,能够从数据中学习并生成新的、与原始数据类似或不同的数据。生成式人工智能模型的目标是通过生成数据来模仿人类创作的过程。AIGC目前已经在许多领域得到了广泛的应用,如自然语言处理(NLP)、图像生成、音频合成、视频生成等。
本章重点阐述几种经典生成模型的工作原理与应用,包括VAE、GAN以及流模型,特别是目前AICG的主流模型——扩散模型与稳定扩散模型。9生成式人工智能模型简介目录Contents9.1变分自编码器(VAE)生成对抗网络(GAN)流模型(Flow-basedModel)扩散模型(DiffusionModel)稳定扩散模型(StableDiffusionModel)本章小结9.29.39.49.59.601变分自编码器9.1变分自编码器9.1.1原理概念变分自编码器VAE是一种对自编码网络改进的生成模型,其基本结构由编码器(Encoder)与译码器(Decoder)组成。编码器将输入编码为低维数据,即将数据“压缩”或者转换为一种低维的编码特征,实现降维与压缩,建立一种高维形象数据与低维度抽象特征码的对应关系。译码器则是从特征码空间重构出等同于输入数据的形象数据,建立了一种低维度特征码与高维度形象数据的映射关系。由于采用了无监督的训练方式,这种结构也称为自编码器。编码器-译码器基于训练数据所产生的特征码空间与训练数据样本一一对应,没有训练的数据则无法从特征码空间生成。9.1变分自编码器9.1.1原理概念变分自编码器(VariationalAutoencoder)不再像自编码器那样对训练数据一一编码,而是利用神经网络训练出一组以均值和方差为输出参数的混合高斯模型,以该模型作为隐变量,译码器从混合高斯模型中采样重构出高维形象数据,由于高斯混合模型是一种连续分布,在添加扰动基础上将产生出相似于训练数据的新数据,从而实现了生成功能。样本空间中的每个样本通过神经网络编码器产生一个对应的高斯分布,如A,B,C,用均值与方差表示,从而整体形成混合高斯模型。译码器工作时,则是从混合高斯模型分布中进行采样,进而生成与样本相似但又不同的新数据。9.1变分自编码器9.1.2训练方法VAE的训练方式属于没有标签的无监督训练方式,即输入数据和输出数据均是一样的样本,旨在通过自编码的方式,训练出隐空间编码,进行生成工作时,直接从隐空间编码中采样即可。由VAE模型生成的人脸图像混合概率密度函数:损失函数:02生成对抗网络9.2生成对抗网络生成对抗网络(GenerativeAdversarialNetworks,GAN)是一种生成式模型,目的是生成与源数据分布类似的数据,简单来说就是“照猫画虎”的过程。生成对抗网络由一个生成器与一个判别器组成。生成器学习从潜在空间到感兴趣数据分布的映射,判别器则将生成器生成的候选者与真实数据分布区分开来,而生成器则要尽可能地欺骗判别器。生成器和判别器相互对抗、不断调整参数,最终目的是使判别器无法判断生成器输出结果的真假。9.2生成对抗网络假设需要生成器能够生成一个老虎的图像,那么训练集将设定为一系列的老虎图像。开始时生成器从噪声中也许能生成出一只狗的图像,判别器给出的狗与虎的相似度很小,进而反馈回生成器以调整生成器的参数,若干次循环后,生成器从生成狗的图像逐渐能够生成出一只猫之后,判别器无法从颜色外形等简单特征中分辨出猫和虎的区别,则对自身进行参数修正,以学习虎的纹理细节以判断猫和虎的区别,进而在两者参数不断更新且相互博弈对抗中使生成器逐渐生成出与训练集相似的图像,以达到最终实现生成的目的。生成对抗网络GAN的结构图
生成对抗网络GAN的结构主要由两部分组成,以神经网络为基础的生成器与判别器。
生成器从噪声中生成感兴趣的欲生成的内容,判别器将训练数据与生成的结果进行判别。生成器根据判别器的结果进行调整,判别器根据训练数据与生成结果进行调整。两者相互成就。9.2.1基本原理9.2生成对抗网络基于MLP与CNN的GAN结构生成对抗网络是一种对神经网络的训练思路,具体的网络结构可由各种神经网络模型实现。如多层感知机MLP,以及卷积神经网络CNN等。左图给出了一种可选的网络结构。9.2.2实现GAN网络的基本结构LSGANMLP等传统GAN结构在训练过程中经常出现梯度消失问题。为了克服这个问题,采用最小二乘的损失来缓解LSGAN。从平方误差的角度出发,判别器对生成样本和真实样本进行编码,分别为a和b,生成器将生成样本编码为c并以此对判别器进行欺骗,进而目标函数可表达为:EBGANEBGAN是一种将能量模型应用到GAN网络的成功案例,判别器取代概率形式而作为能量函数(或对比函数)明确地构建了EBGAN框架。WGAN模式崩溃在GAN生成器训练时经常发生,即生成器只能产生非常相似的样本,可以用Wasserstein距离解决上述问题。Wasserstein距离能使两个分布没有任何重叠或相距甚远时,也可以反应他们之间的距离。9.2生成对抗网络Mode分数Mode分数是Inception分数的改进,添加了关于生成样本和真实样本预测的概率分布相似性度量。为在给定真实样本下边缘标注分布在真实数据分布上的积分。与Inception分数不同,它能通过散度度量真实分布与生成分布之间的差异。9.2.3GAN训练中的生成与训练集之间的相似评价方法Inception分数对于一个在ImageNet训练良好的GAN,其生成的样本送入Inception网络测试时,对于同一个类别的图片,其输出的概率分布应该趋向于一个脉冲分布,以保证生成样本的准确性;而对于所有类别,其输出的概率分布应该趋向于一个均匀分布,保证生成样本的多样性,不出现模式崩溃的问题。核最大均值差异对于核最大均值值的计算,首先需要选择一个核函数k,这个核函数把样本映射到再生希尔伯特空间。在给定一些固定的核函数k下,它度量了真实分布与生成分布之间的差异。Wasserstein距离也叫推土机距离,Wasserstein距离度量实际的有限样本逼近以衡量两个分布之间的相似性,当选择了合适的特征空间,评估度量效果较好,但是计算复杂度随着样本数量的增加而增高。GAN网络在训练中需要对生成数据与训练数据之间的相似度进行评价,评价指标大多数基于样本进评估,这些度量方法均是对生成样本与真实样本提取特征,然后在特征空间做距离度量。常见度量方法介绍如下:FréchetInception距离FID是计算真实样本和生成样本在特征空间之间的距离来进行评估的。根据高斯模型的均值和协方差来计算两个高斯分布的Fréchet距离。鲁棒性较好,计算效率高效。1-NN分类器采用最近邻分类器对样本检验以评估两个分布是否相同。给定两组样本,如果二者接近,则精度接近50%,否则接近0%。对于GAN的评价问题,可分别用正样本的分类精度,生成样本的分类精度去衡量生成样本的真实性和多样性。03流模型9.3流模型GAN网络在训练时容易出现模式坍塌或训练困难的局面,虽然VAE一定程度上解决了GAN网络训练不收敛、采样生成数据简单等问题,然而VAE模型只能通过优化下边界函数问题,存在计算复杂、训练时间长等问题。流模型(Flow-basedModel)是一种不同于上述两种模型的新思路。其核心思想是将复杂分布数据多次转化生成简单数据分布,利用转化的可逆性,实现将简单数据逐步生成出相同风格的复杂分布数据,以达到数据生成的目的。9.3流模型9.3.1流模型工作原理流模型基于一系列具有可逆双向变换的函数,建立起一种先验分布与实际数据分布间的映射关系,其中先验分布较为简单,而实际数据分布较为复杂。根据概率密度的变量替换公式,不需要显式地计算实际数据分布的概率密度函数,而是通过先验分布的概率密度以及映射过程产生的Jacobian行列式计算即可。通过复合多个可逆函数以增强模型复杂度以及非线性拟合能力。
流模型中,寻找或给定一种已知的可逆变换f,将给定复杂分布数据(如训练集数据)转化为简单数据分布,从而实现给定随机简单分布后生成特定复杂数据。流模型的转化过程可通过如下式进行表示其中,欲生成的复杂数据x的分布函数px(x)可以由f(x)的分布通过某种对f(x)转化来表达,其中detDf(x)为函数f(x)的Jacobian矩阵行列式的值,f(x)为可逆函数。因此,复杂的生成问题转化为复杂的变换问题。然而该方法中一个较为苛刻的条件是需要一个可逆的转化函数。非线性流模型非线性流模型相对于线性流模型,具有更强的表达能力和更灵活的变换形式。非线性流模型的变换通常采用复杂的非线性函数,如神经网络。非线性流模型的参数学习通常采用变分自编码器(VAE)或类似的方法。9.3.2流模型的常见分类方法线性流模型线性流模型是最简单的一种流模型,将生成过程拆分为一系列线性变换。在每个步骤中,输入变量与一个可学习的权重矩阵进行乘法操作,然后将结果加上一个可学习的偏置向量。线性流模型的参数可以通过最大似然估计进行学习,通过反向传播算法进行优化。潜在流模型潜在流模型是一种基于潜变量(LatentVariables)的流模型,它通过对输入数据进行潜变量变换,使得潜变量与输入数据具有相同的统计性质。潜在流模型通常采用层次结构来建模潜变量与输入数据之间的关系,从而实现更灵活的生成过程。潜在流模型的学习和优化通常采用基于似然的推理方法进行。能量守恒流模型是一种基于能量函数的流模型,它将生成过程看作是从一个初始分布向目标分布转移的过程。能量守恒流模型的参数学习是通过最小化生成数据与真实数据之间的能量差异来实现的。根据流模型中转化函数f的设计,流模型通常分为线性流模型(LinearFlow-basedModel)、非线性流模型(NonlinearFlow-basedModel)、潜在流模型(LatentFlowModel)以及能量守恒流模型(Energy-basedFlowModel):9.3流模型9.3.3流模型的常见分类方法9.3流模型逐函数流模型即对每步的转换均设计转换方法,即f1、f2、...、fn-1、fn分别采用不同函数完成,然而这样将操作无法将复杂采样数据特征联系在一起,且难以制作太多步骤,计算十分繁琐,训练也存在困难。线性函数流模型转换函数采用线性函数:耦合流模型考虑到计算量的问题以及计算复杂性问题,可以考虑将训练数据进行拆分自回归流模型自回归意味着新数据的预测是基于模型过去的数据来进行的,如果设某图像数据的概率分布为p(x),是像素的联合概率分布
,当前像素的预测是以前一像素为条件预测,因此设计进而像素的联合概率近似为条件概率的乘积如下:04扩散模型9.4扩散模型扩散模型(DiffusionModel)是2020年提出的一种生成模型,但其处理问题的思路可追溯至2015年,所涉及理论为随机过程与随机微分方程。扩散模型借鉴了分子随机运动的现象,在微观上每个分子的运动为布朗运动,但通过能量调控能使其在宏观上展现出不同的特征。我们无法直接调控每个分子团的运动方式,但能够得知其无规则运动服从的分布。通过外力作用,每次改变一小步,逐步将完全随机运动的分子团约束在特定状态下,完成“生成”过程。9.4扩散模型9.4.1去噪扩散概率模型DDPM扩散模型是一种基于神经网络的生成模型,经过样本数据训练后,能够从简单分布数据中生成特定复杂分布数据,即将纯高斯噪声生成指定类型的数据。正向加噪过程:假设初始分布数据为x0,对其不断添加高斯噪声分布,逐步产生x1、x2、…、xt-1、xt直至xT,成为完全高斯分布噪声。所添加的噪声是已知的,通常为高斯噪声,多次添加噪声的操作过程是一个平稳马尔科夫链。反向恢复过程:完全混乱的噪声中逐步恢复出特定分布数据。由xt逆扩散至xt-1的处理过程是未知且困难的,因此训练一个U-Net网络来估计xt至xt-1的噪声,由于每一步骤的逆过程是不同的,因此t也作为参数作为网络的训练数据。9.4扩散模型9.4.1去噪扩散概率模型DDPM正向加噪过程:反向恢复过程:已知:求:贝叶斯:9.4扩散模型9.4.1去噪扩散概率模型DDPM由于
是来源于前向扩散时的噪声,在已知xt-1情况下添加z获取了xt,而
是用于估计从xt重构xt-1时的噪声模型,因此训练
的近似神经网络模型时,输入数据为xt和t,输出数据为能够形成xt-1的噪声,不同模糊步骤t的情况下输出噪声不同,所以损失函数表达如下其中,N为标准正态分布基本的扩散模型随着正向扩散过程的增加,会导致训练数据增多,计算量增大,并且生成时间也会延长。因此,针对扩散模型的改进版本被相继提出。9.4扩散模型9.4.2基于分数匹配的随机微分方程扩散模型
扩散模型中噪声增加与减少可以采用一种分数评价方法,其核心思想是在对训练数据添加逐渐增强的高斯噪声时,训练一个深度神经网络模型进行表征,用以评价噪声的强度,且该评价分数同时可作为生成模型的条件分数。由于评价分数与训练之间相互独立,所以能够使用分数作为噪声估计的同时评价采样技术以生成新样本。
将DDPM和SGM拓展到无限扩散步长或无穷噪声的情况中,其扰动过程和去噪过程是随机微分方程的解(StochasticDifferentialEquation,SDE)。在扩散过程中,通过微小扰动添加噪声,使得复杂的数据分布平滑过渡到简单已知先验分布,进而反向求解SDE,逐渐去除噪声转换为复杂分布。反向过程中求解SDE以得分作为目标函数,采用神经网络估计分数,最终生成结果。
基于分数的随机微分方程扩散模型实际上是用缓慢增加的噪声破坏训练数据,然后学习扭转这种破坏形成的过程以生成新模型,这其中采用了评价分数的机制。9.4扩散模型9.4.2基于分数匹配的随机微分方程扩散模型正向加噪过程:逆向去噪求解过程:离散化数据前向加噪反向去噪数据预测可能的求解过程加噪求解9.4扩散模型9.4.2基于分数匹配的随机微分方程扩散模型具体的生成过程如下:前提是已经训练了一个表示噪声评分的神经网络9.4扩散模型9.4.3扩散模型的采样生成
扩散模型生成问题中,如前述随机微分方程扩散模型,在生成时需要离散化微分方程进行求解,从而存在离散误差,离散的步数影响到最终的采样误差,步数越小、数量越多生成结果越精确,然而势必导致计算时间长的问题。因此,
在采样生成问题上存在无学习采样和有学习模型提高采样效率两类方法。无学习采样有学习采样SDE求解器:随机微分方程求解器SDE求解器分为离散化和数值求解两个步骤。离散化通常采用欧拉方法或Euler-Maruyama方法进行离散化。然后,使用如Runge-Kutta法来求解离散化的等式。ODE求解器:常微分方程求解器ODE求解器是解决常微分方程的算法。首先将常微分方程组转化为离散时间点上的等式,然后使用数值求解器来求解这些等式知识蒸馏是一种基于“教师-学生网络思想”的训练方法,常用于模型压缩。做法是先训练一个教师网络,利用该教师网络的输出和数据的真实标签去训练学生网络。将“知识”从具有高学习能力的复杂模型转移到简单模型中。扩散模型中,将知识从一个采样模型逐步提炼到另一个时。学生模型在被训练成与教师模型一样接近产生单步样本之前,从教师模型中重新加权。在每个蒸馏过程中,学生模型可以将其采样步骤减半。05稳定扩散模型9.5稳定扩散模型扩散模型由于其强大的生成能力与灵活性,已经被用于解决各种具有挑战性的任务,包括机器视觉、自然语言处理、多模态学习等。通过对其增加条件控制以生成人们所期望的内容,增加引导信息与条件机制即进一步实现文本生成图像、文本生成文本、图像生成图像、图像生成文本等。稳定扩散模型主要增加了语言引导,实现了文字生成图像的目的。输入一些提示词,由AI完成的画作,如“外星的飞船”,“科技感的相机”,“原始的土著人”,“电影感的充满神奇植物的原野”9.5稳定扩散模型9.5.1LDM隐式扩散LDM解决了当图像尺寸增大时带来的计算量剧增问题,尤其是在增加了注意力机制情况下所引起的计算量问题。一张128×128的图像是64×64图像像素的4倍,注意力机制层增加以后需要42倍的内存和计算量,一张普通的1080×1080图像将比之增加约642倍内存与计算量,这是巨大的资源开销。1.采用VAE结构来压缩图像到一个更小的维度。从而简化了去噪扩散模型的训练和采样过程。2.VAE将图像压缩至隐空间编码,在隐空间进行扩散与逆扩散操作。3.条件控制以实现生成控制,条件可以是特征图、文本等,即通过条件生成指定需求的结果,通过连接开关实现交叉注意力的融合。LDM结构图潜在空间扩散过程去噪像素空间去噪过程交叉注意力开关连接堆积连接输入条件语义图文本知识图图像9.5稳定扩散模型9.5.2文本与图像的关联方法—CLIP模型图像的接收往往采用编码器或U-Net结构,将文字创建数值表示形式,嵌入到网络中,作为条件控制输入至U-Net,文本描述转换为特征向量,该特征向量能够与图像特征向量进行相似度比较,从而令全噪声图像向着被控制方向生成结果。文本编码图像编码图像编码文本编码预训练预训练建立标签分类数据库预训练使用zero-shot预测预训练9.5稳定扩散模型9.5.3其它条件下的生成模型文字通过编码与图像编码嵌在一起时,能够控制图像向着与文字描述方向生成,尽管采用很多方法进行优化,然而生成结果有时并不理想,这是因为文字与图像的关联性很弱,生成模型具有不依赖文字仍能生成的特点,进而偏离了文字提示语的预期结果。将文字进行编码后嵌入图像空间,同理图像、语音等均可实现编码后嵌入图像空间以控制图像生成方法与条件控制。条件控制的生成结果信息融合的修补功能9.5稳定扩散模型9.5.4视频生成不同训练规模的对比Sora模型2024年初OpenAI公司在DALL-E模型基础上建立了文本-视频生成模型Sora,由于该模型继承了DALL-E3的画质和遵循指令的能力,因此能够深度模拟真实物理世界,且能生成具有多个角色、包含特定运动的复杂场景,该模型根据用户输入的提示文本能够创建出长达60秒的逼真视频。能适应不同分辨率输出无限循环场景9.5稳定扩散模型9.5.4视频生成OpenAI公司发布的Sora模型是一种以文本为条件的结合了Transformer架构的扩散模型(ScalableDiffusionModelswithTransformers,DiT),主体是稳定扩散模型,仅将其中的U-Net网络更换为N个改进的Transformer。DiT结构在Sora模型中的成功应用主要得益于如下几点的改进:潜在空间编码,将扩散模型应用于图像、视频的潜在编码空间;Token的使用,将图像、视频与文本等多种信息进行统一编码,随机变换Patch尺寸、数量能够实现变尺度的生成结果,并且实现变尺度的输入。9.5稳定扩散模型9.5.4扩散模型的应用一种利用扩散特性实现的语义分割示意图。通过聚类找出每个像素可能的类别,进而使用扩散思路逐步对像素进行分类、分割。该方法可视为一种优化过程,通过优化一个能量函数来逐步改进模型的预测结果。在这种情况下,扩散过程可以被看作是在优化过程中的一种迭代算法,每次迭代都会逐步改进模型的预测结果。参考论文:DmitryBaranch
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公证处委托书的法律意义3篇
- 住宅小区电梯选购招标启事3篇
- 合同评审表物资采购控制2篇
- 房产抵押贷款合同范本模板3篇
- 保证书中的违规之谜3篇
- 前期物业服务合同3篇
- 二手房屋借款协议3篇
- 债转股投资协议书范本3篇
- 好老师工作计划6篇
- 完整涂料购销合同范本2篇
- 2025年装维智企工程师(三级)复习模拟100题及答案
- 国家管网集团西南管道昆明输油气分公司突发环境事件综合应急预案
- 停送电培训课件
- 医院培训课件:《核心制度-护理值班和交接班制度》
- 解题秘籍05 圆的综合问题(9种题型汇-总+专题训练)(解析版)-2025年中考数学重难点突破
- 美学《形象设计》课件
- 江苏省建筑与装饰工程计价定额(2014)电子表格版
- 2022年续聘申请书
- 单片机病房呼叫系统设计
- 交通信号系统红绿灯安装专项施工方案
- DB14∕T 2024-2020 出口水果包装厂管理规范
评论
0/150
提交评论