大模型具身智能机器人AIGC与扩散学习

上传人：逗*** IP属地：宁夏上传时间：2025-03-19 格式：PPTX 页数：20 大小：5.48MB 积分：20 举报 版权申诉

已阅读5页，还剩15页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大模型具身智能机器人AIGC与扩散学习1主要内容23TransformerVisionTransformer（ViT）StableDiffusion（SD）1TransformerTransformer基本原理：综览4Attentionisallyouneed

1.Input：接受输入数据，通过输入tokenizer和Embedding预处理；

2.Encoder（编码器）：由多个相同的层（Nx）堆叠而成。每一层包括多头自注意力机制（Multi-HeadAttention）和前馈神经网络（FeedForward），并且每个子层后都进行加和归一化（Add&Norm）；

3.Decoder（解码器）：解码器也由多个相同的层（Nx）堆叠而成，每层包括一个额外的掩码多头自注意力机制（MaskedMulti-HeadAttention），用于处理输入数据的注意力计算。此外，解码器还包括与编码器类似的多头自注意力机制和前馈神经网络；

4.输出（Output）：解码器的输出通过线性层（Linear）和Softmax函数，生成最终的输出概率分布（OutputProbabilities）。Tranformer模型架构4.输出3.Decoder2.Encoder1.输入Transformer基本原理：Encoder51.tokenizer（分词器）：文本输入首先通过分词器进行处理，将句子分割成独立的词语或子词单元。例如，句子"yejiangchen"被分割成三个独立的词：ye，jiang，和chen；2.Embedding（词嵌入）：分词后的词语被转换为向量表示，通过词嵌入层（EmbeddingLayer）生成对应的词向量。这些向量表示保留了词语的语义信息，便于后续处理。

yejiangchen2.EncoderTransformer基本原理:Encoder61.positionalencoding（位置编码）：由于Transformer模型没有内置的顺序信息，需要通过位置编码来添加位置信息。位置编码使用正弦和余弦函数来生成，位置编码的关键点是将数值控制在-1到1之间；2.Attention（注意力）：需要引入三个矩阵，分别是Q（Query），K（Key）和V（Value）。注意力机制需要引入三个矩阵，分别是Q（Query），K（Key），和V（Value）。注意力机制的计算过程如下：首先，将输入向量（X）分别通过三个权重矩阵得到Q，K，V矩阵；然后，计算Q和K的点积，并进行缩（Scale）操作，得到注意力得分；对得分进行Softmax处理，得到注意力权重；最后，将注意力权重与V矩阵相乘，得到最终的注意力输出。Attention机制拆解2.EncoderTransformer基本原理:Encoder7Multi-HeadAttention机制拆解3.Multi-HeadAttention（多头注意力）：多头注意力机制通过并行计算多个注意力头，使模型能够捕捉到输入序列中不同位置之间的关系。具体过程如下：ScaledDot-ProductAttention（缩放点积注意力）：每个注意力头都进行缩放点积注意力计算，包括线性变换、缩放、Softmax和加权求和。并行计算多个注意力头：输入向量（X）通过多个注意力头并行计算，得到多个注意力输出（Z1,Z2,...,Zh）。连接注意力头的输出：将所有注意力头的输出连接（Concat）在一起，得到一个新的表示。线性变换：对连接后的表示进行线性变换，生成最终的注意力输出（Z）。2.EncoderTransformer基本原理:Encoder8Add&Norm机制拆解1.Add（加法）：在Z的基础上加一个残差块X，防止在深度神经网络训练中发生退化问题。残差连接（ResidualConnection）通过将输入直接添加到输出，使模型能够更有效地训练深层网络。

2.Normalize（归一化）：在神经网络训练前对输入数据进行归一化，以保证每层的输入具有相同的分布，进而加速训练并提高模型的稳定性。

3.Feed-ForwardNetworks（前馈神经网络）：编码器的每一层包含一个前馈神经网络。前馈神经网络由两个线性变换层和一个激活函数ReLU组成。输入数据通过第一个线性变换层（weightlayer），进行ReLU激活，最后通过第二个线性变换层（weightlayer），生成最终的输出。2.EncoderTransformer基本原理：Decoder91.Decoder（解码器）：与Encoder块相比，Decoder块多了一个MaskedMulti-HeadAttention。这个额外的MaskedMulti-HeadAttention是Decoder与Encoder的主要区别之一。Decoder的输入分为两类：一种是训练时的输入，一种是预测时的输入；2.paddingmask（填充掩码）：填充掩码用于处理变长序列，将填充的部分标记为无效，以避免这些填充部分对模型训练产生影响；3.sequencemask（序列掩码）：序列掩码用于解码器的MaskedMulti-HeadAttention中，确保解码器只能看到当前位置之前的序列，防止模型在生成序列时“偷看”未来的信息。3.Decoder2.Encoder2VisionTransformer（ViT）VisionTransformer（ViT）基本原理（pytorch）111.LinearProjectionofFlattenedPatches模块（Embedding层）：将输入的图像数据转换为可以输入到Transformer编码器中的序列化表示，其中包括了patch+position+learnableembedding。

2.Transformerencoder（Transformer编码层）：向量表示被输入到Transformer编码器中。每个Transformer编码器包含多头自注意力机制和前馈神经网络，用于捕捉全局信息和学习特征表示。这一部分是VisionTransformer中最关键的组件。

3.MLPHead（用于分类的全连接层）：在经过一系列Transformer编码器之后，模型的输出会被送入一个包含多层感知机（MLP）的输出层中，用于最终的分类或其他计算机视觉任务。VisionTransformer（ViT）架构VisionTransformer（ViT）基本原理（pytorch）121.LinearProjectionofFlattenedPatches模块：（1）将输入的原始图像切分成大小相同的图像块，以ViT-B/16为例，将输入图片(224x224)按照16x16大小的Patch进行划分，划分后会得到16×16=196，每个Patch数据shape为[16,16,3]；（2）对于每个图像块，通过一个线性变换（一个卷积层）将其映射成一个一维特征向量，也称为PatchEmbedding。以ViT-B/16为例：每个Patch数据通过映射得到一个长度为768的向量，即[16,16,3]->[768]；（3）串联所有PatchEmbedding：将所有图像块经过PatchEmbedding后得到的向量表示串联在一起，形成一个序列化的特征矩阵。以ViT-B/16为例，将196个Patchs串联起来，最终组成[197,768]的二维token向量，token的个数是197（196

patch+1

classtoken），维度是768。

VisionTransformer（ViT）架构VisionTransformer（ViT）基本原理（pytorch）132.Transformerencoder（Transformer编码层）：Transformer编码层是ViT的核心部分，通过将输入的图像划分为固定大小的图像块，并通过线性投影、位置编码和可学习类嵌入转换为序列化表示，然后通过多头自注意力机制捕捉不同位置之间的依赖关系。每个编码层包含前馈神经网络和加法归一化层，以提取和强化特征表示，多个编码器层的堆叠使得输入序列的特征表示逐步被提取和强化。

VisionTransformer（ViT）架构VisionTransformer（ViT）基本原理（pytorch）143.MLPHead（用于分类的全连接层）：在经过Transformer编码器处理后，得到的类嵌入向量包含了整个输入图像的信息，并被送入多层感知机（MLP）进行分类处理。MLP由多个全连接层和激活函数组成，经过一系列线性变换和非线性激活后，生成用于分类的输出向量，最后通过Softmax函数转换为类别概率分布，完成最终的分类任务。

VisionTransformer（ViT）架构3StableDiffusionStableDiffusion基本原理16Diffusionmodel：扩散模型是生成模型，用于生成与训练数据相似的数据。从根本上讲，扩散模型的工作原理是通过连续添加高斯噪声破坏训练数据，然后通过学习反转这个噪声过程来恢复数据。训练后，可以使用扩散模型通过简单地通过学习的去噪过程传递随机采样的噪声来生成数据。前向过程（forwardprocess）：又称为扩散过程（diffusionprocess），整体是一个参数化的马尔可夫链。从初始数据分布出发，每步在数据分布中添加高斯噪音，持续T次

反向过程（reverseprocess）:和前向过程同理，反向过程也是一个马尔可夫链。StableDiffusion训练过程17StableDiffusion的整个训练过程在最高维度上可以看成是如何加噪声和如何去噪声的过程，并在针对噪声的“对抗与攻防”中学习到生成图片的能力。StableDiffusion整体的训练逻辑也非常清晰：从数据集中随机选择一个训练样本；从K个噪声量级随机抽样一个timestep；将timestep对应的高斯噪声添加到图片中；将加噪图片输入U-Net中预测噪声；计算真实噪声和预测噪声的L2损失；计算梯度并更新SD模型参数。StableDiffusion训练过程18SD模型是生成式模型：输入可以是文本、文本和图像、以及更多控制条件等，输出是生成的图像；SD模型属于扩散模型：扩散模型的特点是生成过程分步化与可迭代，这让整个生成过程更加灵活，同时为引入更多约束与优化提供了可能；SD模型是基于Latent的扩散模型：将输入数据压缩到Latent隐空间中，这比起常规扩散模型，大幅提高计算效率的同时，降低了显存占用，成为了SD模型破圈的关键一招。StableDiffusionUNet模型结构19U-Net是Stable

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大模型具身智能机器人AIGC与扩散学习

文档简介

温馨提示

最新文档

评论

大模型具身智能机器人AIGC与扩散学习

文档简介

温馨提示

最新文档

评论

相关文档