多模态基础大模型技术白皮书

上传人：1*** IP属地：山西上传时间：2024-09-03 格式：DOCX 页数：184 大小：1.15MB 积分：19.9 举报 版权申诉

已阅读5页，还剩179页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

3 6 6 18 27 38 51 54 72 76 4.3从谋求模型与数据规模的“极致”，向 80 90 92 1伴随互联网/行业大数据、并行计算能力、机器学习算法的突破和人Transformer、华为盘古、悟道、ERINE、M6等大规模预训练模型快件下“大数据+大模型”的大规模预训练范式转变，即基于海量广域第二名。2019年以后，基于自监督学习的语言模型已成为基础性方2破很相似，标志着一个大模型时代的开始。当下，自然语言处理模型(State-Of-The-Artmodel,S使不同领域任务在统一框架下实现基于低标注代价的性能提升？一34562多模态基础大模型国内外发展现状7L(x)=ilogP(xi|xi-k,…,xi-1;θ)自编码的预训练方法代表性的工作是掩码语言模型，如BERT。简单来说，模型需要通过对于遮盖数据的预测进行参数优化。如图8对于句子x，假设其中存在m个需要预测的词汇，那么其损失函L(x)=Σi1logP([mask]i=yi|x-,θ)9MASS能够对编码器和解码器进行联合训练提高特征抽取和语言模型要和对话生成等，进行参数微调能够获得较好的性能。BART通过先损坏文档再解码恢复的策略实现从损坏文档到原始文档之间的鲁棒映射。另一类方法使用注意力机制将理解和生成任务结合起来，如和性能表现；MacBERT[15]则使用相似词替换[MASK]字符，以缓和预融合多语言的预训练模型旨在使用同一套参数处理多种不同的多语言融合的预训练模型往往能够在跨语言任务上取得不错的一些工作希望将知识图谱中的事实三元组信息融入到预训练模阶段使用知识对于文本表示进行增让，如K-BERT[16]，它使用树状更深层次的信息，从而在后续的解码阶段模型才能够生成语义通顺、PLATO-XL[17]也成为了全球最大的对话生成模型。2019年百度发布了通用领域的对话模型PLATO，该模型首次提出了将离散隐变量与Transformer的编码器-解码器结构相结合，离散隐变量的每一个取增加训练集数据，将模型增加到16亿参数。此外，PLATO-2将具体估模型则用来学习回复的一致性从而选择最合适的回复。PLATO-XL以生成更加流程一致的回复。PLATO-XL凭借其千亿级的训练语料和百亿级的参数规模已经在各类评估指标上显著超越了目前主流的对Facebook提出的Blender对话模型具有仅次于PLATO-XL的94三个子模型：检索模型、生成模型、检索+生成模型。检索模型以对方式，首先检索出候选的回复，再将该候选传入生成器中作为参考，1）模型会经常重复对方的说话内容，产生较为普遍的迎合式或2）模型无法记住所有的历史信息，也无法根据对话内容建立逻3）模型缺乏对知识和客观事实的理解，除非针对特定领域精心意力、混合专家模型（MixtureofExpert）等。最近，混合专家模由于超大规模预训练模型本身大量的参数难以进行全参数的微而同时不可忽视的是，无监督/自监督学习这类方法已经革新了自然/自监督学习将是实现人类智能的关键，被广泛认为是通往通用人工习到的视觉特征迁移到下游任务（downstreamtask），使用少量带202122深度图像聚类：深度图像聚类[26]是将聚类与深度结合的方法，弃填补0像素值，之后利用卷积神经网络的编码-解码结示。在训练完成后，将编码-解码模块的部分参数作为预训练模型应23了极大的突破，其成功基于两方面：1).视觉Transformer的提出，为计算机视觉和自然语言处理的预训练统一奠定了基础；2).分析了MAE[28]的框架图如图2.2-6所示。图像经过线性层映射成词条在密集预测的下游任务中使用。此外微软亚研院提出的BEiT[29]、24），MoCo：此方法基于对比学习的基础上提出了记忆池(memorybank)，该方法使用一个在内存中的memorybank保存以往样本的特25SimCLR：此方法基于对比学习的基础上，将同一个批次(batch)比学习的思想，即对于同一图像的不同视角仍然是一个类别。BYOL26表方法：DeepMind提出的多任务学习框架[38]，中科院自动化所提DeepMind提出的方法由4个自监督任务组成：(a)切片的相对位27学习工作iBoT[40]，参考MST利用教师模型产生的信息给予学生模2829归预测编码VQ-APC(Vector-来源：https://arxiv.or2019年台湾大学AndyT.Liu等人提出了一种新的语音表示学习方法Mockingjay[48]，该方法使用双向的TransformerEncoder30别、基于语音的情感分析等。除此之外，实验证明用Mockingjay方现；在Mockingjay模型的基础上，该团队又提出了两种进阶优化版来源：/31络，并且加入了一个VQ模块学习离散化的特征，在下游任务上取得来源：https://arxiv.or32来源：https://arxiv.or除了上述介绍的一系列基于掩码重构的预训练方法，AlexanderH.Liu等人提出一种使用两侧帧的信息预测中间帧信息的预训练方[51],通过感受野限制信息的前向传递过程来确保重建过程只依赖于(mask)的帧前后的帧，从而可以进一步提升模来源：https://arxiv.or33比学习的语音预训练模型CPC[52]，模型直接使用原始音频数据作为来源：https://arxiv.orWav2Vec[53]，如图2.3-8所示，将原始音频信号作为输入，然后应34文网络将编码器的多个时间步组合在一起以获得上下文表示。Wav2Vec首次尝试使用卷积神经网络用于ASR领域通过对比学习令当前输出的特征去预测未来时刻的特征。通过来源：/pub/2019_Wav2Vec_interspeech.pdf进阶优化版本VQ-Wav2Vec[54]了同年自然语言处理NLP领域提出来的BERT中的思想，首先在信息捕捉能力，在各种下游任务中都能达到当时的最佳性能。35图2.3-9VQ-Wav2Vec框架图来源：/2020年Facebook该团队再次将VQ-Wav一步的改进和优化，将原先VQ-Wav2Vec两阶段的预训练合并到了一接在下游任务进行微调。Wav2Vec2.0能够学习到用于解决自监督任来源：/pdf/2006.11477.pdf36督语音表征的新方法HuBERT[56]，HuBERT借鉴了自监督视觉表HuBERT通过学习未掩码音频的连续表征编码以及捕捉所学表征词汇资源。HuBERT在语音识别、语音生成、语音压缩等多种语音任来源：https://arxiv.or37预测的方法对离散化的语音进行建模。Wav2Vec-BERT使用端到端的等下游任务上进一步刷新了同期最好模型的性能。一种利用多个自监督训练任务来学习语音表示的工作问题无关语音型可以学习到问题无关的语音特征。通过P来源：https://arxiv.or38随着基于TransformerEncoder的BERT[59]的出现，基于大规等。VL-BERT提出一种图像+文本的多模态预训练模型，该模型将图像的文本描述和目标区域作为BERT的输入，通过随机掩码(mask)掉视频+文本的预训练模型，使用融合文本信息和视频序列作为输入。UNITER提出了一种多任务的多模态预训练方法，相对于其它方法，作者增加了图文匹配模块，来更进一步建立图像与文本之CLIP[65]等。ViLBERT提出使用Tra测和图文匹配预测两种预训练任务。LXMERT呈现与ViLBERT类似的双流结构，主要的不同在于LXMERT引入视觉问答作为预训练任务，因而在下游的视觉问答任务能够实现比ViLBERT更高的性能。CLIP39[65]模型是一个双塔结构，一条分支使用ResNet/ViT进行图像特征编码，另一条分支使用BERT进行文本特征编码，最后使用对比学习越来越多的关注。该系列模型采用Transformer的解码部分。GPT-3机构发布基于大规模预训练的文本到图像生成一个鳄梨形状的扶手椅。虽然DALL-E在一定程度上提供了对少量物对象时，DALL-E容易混淆对象及其颜色之间的关联，成功率会急剧），现比DALL-E更好的结果，同时只需微调就能执行超分辨率、风格迁40M6[72]等。VL-T5使用编解码结构，将一系列多模态任务都统一建预训练任务。阿里巴巴达摩院提出M6模型，共享编码器和解码器的任务。实体概念等先验语义知识，学习真实世界的语义关系。具体来说，念的语义表示。相较于BERT学习原始语言信号，ERNIE直接对先验一个知识增强的ERNIE模型[74]，与百度所提出的ERNIE不同的是，该模型修改了BERT的结构，将知识图谱引入到了模型中，能同时在41研究者设计了一种新型预训练目标，即随机Mask掉一些对齐了输入齐。现存的预训练表征模型只利用局部上下文预测Token，但ERNIE的新目标要求模型同时聚合上下文和知识事实的信息，并同时预测比如，微软和华盛顿大学提出OSCAR模型[75]，引入目标类别标签（objecttags）作为桥梁，来连接视觉和文本模态，帮助更好地对2.4.6大规模超参模型的优化方法与泛化理论42监督/自监督预训练模型上的应用还少有出现。此外，用千万量级数模型参数数量并不能很好地描述模型复杂度，特别是当模型的43在人工智能平台方面，2016年谷歌DeepMind开源了DeepMindLab3D游戏平台，主要面向智能体的人工智能研究，代表性工作包括AlphaGo[95]、AlphaZero[96]、具有计划能力的MuZero[97]和提供的游戏、网站或其他的应用程序评价和训练一个AI通用智能模型，代表性的工作是Gym训练接口和GPT-3系列。2019年谷歌在GoogleCloudNext2019大会推出了AI平台，便于开发人员和数据学习表格(AutoMLTables)获取数据库中的表数据并自动创建模型预Vision)便于在边缘设备上部署并检测图片中的物体。这些工具和服务可以组合起来应用在特定垂直领域，譬如新零售、搜索等。2018年脸书开源强化学习AI平台Horizon主要解决端到端行业应用的强化学习平台，主要应用在机器人和游戏等场景。大模型方面，国际上比较有代表性的单位有OpenAI、微软、谷据和参数呈指数上升，通过无监督学习条件下的“大数据+大模型”44模仿写作、翻译、聊天、生成代码、数学分析、制作简历、设计网页等，因此吸引了全球AI领域的关注，被广泛认为是通往通用人工智能(AGI)的重要途径之一。GPT-3采用预训练语等方法，证明了基于“大数据+大规模”的技术路计算机代码并具有巨大的潜力——如果它创建的计算机代码被证明源下，其训练速度上比Google之前研发的最大模型T5-XXL还要快4倍。它由混合专家（MixofExpert，MoE）AI模型范式发展而来。45的图像可以像在现实世界中拍摄的一样。与此同时发布的Megatron驱动的Megatron-Turing自然语言生成模型（MT-），这是迄今为止训练的最大和最强大的解码语言模型。这个模型包括微调可以提高GPT-3在某些任务上的性能。OpenAI还发现，结果质46调，一个用户能够将正确输出率从83%提高到95%。另一用户通过每周添加他们产品的新数据，将错误率降低了50%。型开发平台、大模型高效推理工具包BMInf、全新升级的AI文图绘举办新闻发布会，联合发布全球首个知识增强千亿大模型——“鹏），47技术，模型参数压缩率可达99.98%。压缩版模型仅保留0.02%参数大模型为核心，基于全栈国产化基础软硬件平台，可支撑全场景AI音生图，将开拓AI在视频配音、语音播报、标题摘要、海报创作等更多元场景的应用。48构为：最底层是微芯片层；第二层是百度自研的深度学习框架百度在开发方式方面提供云和端两种开放的方式-云端结合。最右侧的AI市场是为开发者和合作伙伴、企业搭建的上下游产品服务交易阿里云AI平台依托其算法技术、云计算基础设施和平台服务，了MoE模型，并通过更细粒度的CPUoffload技术，最终实现为通用性AI大模型，M6拥有多模态、多任务能力，尤其擅长设计、用前景。与传统AI相比，大模型拥有成百上千倍神经元数量，认知49需能耗，能让一辆汽车在地月之间往返一趟。2021年5月，通过专家并行策略及优化技术，达摩院M6团队将万亿模型能耗降低超过为强大的AI处理能力。华为云盘古系列大模型包括NLP（中文语言）结合，盘古大模型能快速实现不同场景的适配，加速AI行业应用，族还在不断壮大，2021年9月华为云新推出盘古药物分子大模型，其研究了17亿个小分子的化学结构，可以高效生成药物新分子，计定向优化，实现全流程的AI辅助药物设计。结合华为云盘古大模型50腾讯云TI平台是基于腾讯云强大计算能力的一站式机器学习生训练、评估和预测。TI系列产品支持公有云访问、私有化部署以及专属云部署。TI-ACC是腾讯云AI和优图实验室最新发布的一款AI类任务1.0和1.1中拿下业界第一的好成绩。腾讯云自然语言处理2021年9月28日，浪潮人工智能研究院宣布推出大模型“源51和570GB训练数据集，“源1.0”的参数规模增加了其人工智能战略愿景，提出了三个核心行动支柱1）投资并规强国的领导地位2）支持向人工智能赋能经济转型，从英国创新中获益，确保人工智能惠及所有产业和地区3）确保英国获得人工智能技术的治理权，以鼓励创新和投资，保护公众和基本价值观。会—国家人工智能咨询委员会（NAIAC）。该委员会将就人工智能相5253超大规模训练数据的可用性。未来AI发展的最大趋势主要包括：从再变成小模型等。同时以低代码低成本高效率的AI模型算法快速开这些趋势上的变化，在应用层面上也早有显露。实现AI模型工业化的必要条件是标准化、轻量化和通用化，并结合SaaS商业模式54可行路径，将打破传统AI模型“手工作坊式”的行业瓶颈。3多模态大模型关键技术量的无标注文本数据上采用相应的训练方法训练得到最终的预训练种技术也成为了预训练大模型关键技术之一。为此，本节将从务的应用方式以及预训练大模型的并行训练与部署等四个方面对大55单词的表示向量X，X由单词的嵌入表达（Embedding就的编码信息传递到解码器中，解码器依次会根据当前看见过的单词组成的。针对句子中的每个词，自注意力根据输入线性变换得到的56(ResidualConnection)用于防止网络退化，Norm表示层归一化57基于微调的方法是指在完成预训练模型在大规模无标注数据上型针对不同任务的微调方式，在BERT模型中，针对文本分类模型，微调时在每个输入对应的[CLS]表示后接一个全连接层作为分类输出拼接，之后再采用输出中的[CLS]的表示做分类。对于58等有具体情感倾向的词，最后再将这些词映射为相应的情感类别中，的预训练语言模型可以被用来解决各种各样的下游任59采用多机多卡的训练方式是缓解大规模预训练模型难以训练的步等问题受到了许多关注，各种训练框架也应运而生。Nvidia开发的Megatron-LM训练框架可以直接将大规模预训练语言模型在多机行的能力，并支持APEX的混合精度加速训练，下图为Megatron-LM60基于MoE的预训练模型提供了高效的分布式训练框架。将大规模的预训练语言模型通过知识蒸馏缩减为小规模模型成为了实际应用中常用的方式。知识蒸馏使用教师模型(在这里即为大规模预训练模型)的输出和数据的真实标签去训练学生模型。这样可以将甚至3D（视频），这就造成在同等参数规模下，视觉模型往往具有前视觉大模型在模型规模上落后于文本等领域模型规模的主要原因。6162（a）ViT大模型训练曲线与批次大小关系图（b）ViT大模型训练曲线与学习率大小关系图（AdamW优化器）（c）ViT大模型训练曲线与学习率大小关系图（LAMB优化器）MOCOv3发现这种不稳定性主要是由于训练过程中梯度的突变导略，掩码比例高达75%，并且实验表明这种预训练方式不仅能够获得63随着模型参数规模的不断增大，性能也趋向饱和[11,12,20]，如图图3.2-2稠密大模型训练时间显著增加【图片来源于[19]】64图3.2-3模型大小、数据集大小与上下游任务精度关系【图片来源于[20]】家模型（MoE,MixtureofExperts）。稀疏扩容最早应用于NLP领在视觉预训练任务中，也有少部分工作尝试对模型进行稀疏扩容在ImageNet上的精度只略高于现有中型模型。此65图3.2-4SwitchTransformer稀疏扩容示意图【图片来源于[21]】66某个评估方式下性能表现好并不代表在其他评估方式下具备同样的67此外，视觉大模型方面，面对多种多样的视觉任务，采用APC和VQ-APC都是基于自回归的语音预训练模型，模型的输入68Mockingjay是一种使用双向Transformer编码网络在大规模无过过去时刻的信息对未来时刻的信息进行预测，而Mockingjay通过过去和未来帧的信息来共同预测当前帧的信息。为了实现这一点，通过该任务来学习语音的特征表示。掩码声学建模的方式与Bert中掩码语言建模的方式（MaskedLanguageModel）类似，选择15%的80%会被置为0，10%保持不变，另外10%替换成其他任意帧，型根据上下文信息对被遮盖的帧进行预测，模型使用L1损失函数来69神经网络（CNN）作为非线性编码器将分割的时间窗口上每个观测值主要方法是将来自于当前上下文特征表示相隔k个步长的样本作为前上下文特征之间的互信息同时最小化负样本与当前上下文特征之70VQ-Wav2Vec在Wav2Vec的基础上做了进一步的改进，在特征编码器的后面加了一层量化模块，使用K-means或者Gumbal-softmax1）使用CNN特征编码器、量化模块、CNN上下文模块，基于对2）基于VQ-Wav2Vec的离散化输出，参考BWav2Vec2.0又在VQ-Wav2Vec的基础上将训练流程做了进一步优71不同于其他语音无监督学习方法，Wav2Vec2.0没有尝试对音频些建模单元使得模型将注意力集中在代表语音音频的最重要因素上。Wav2Vec2.0只需要很少的训练数据就可以取得不错的性能，通过跨语言的预训练，Wav2Vec2.0还可以学习多种语言使用的语音单元，极大地降低了很多小语种语音识别中资源不足的问题。HuBERT是一种使用掩码预测任务（maskedpredition）来学习通过在聚类和预测过程之间交替，HuBERT会随着时间的推移改进其722）每一帧获取学习目标之后，针对掩码的位置，进行掩码预测3）进行迭代式的聚类，基于之前的预训练模型，根据预训练模HuBERT成功实现了对语音信号的直接语言建模，在低资源语音73目前应用深度学习技术时通常把数据获取和数据处理两部分分计算的网络模型结构，改进甚至是替代Transformer。74效的训练方式。现在的预训练都是基于Softmax、回归或者对比损失预训练模型通常需要领域标注数据进行微调来实现具体下游任75级训练，从而得到小模型。第二种方式类似现在NLP中非常火的prompt方法，它跟蒸馏其实非常像，相当于预先找到了一个最佳的764多模态大模型产业分析NLP领域几乎所有的同期最好模型都是少数几个基于Transformer的771科技部新一代人工智能发展研究中心：《中国新一代人工智能发展报告》78适配训练套件和AI算法工具包等。基础软硬件已经成为人工智能基），79但只是单纯在现有基础上进行扩大，并且发现ROI（投资回报率）比804.4多模态大模型成为人工智能基础设施，模型研发从“手工作坊”行业痛点。大部分AI项目落地还停留在“手工作坊”阶段，要实现AI模型落地全流程，需要包括确定需求、数据收集、模型算法训练调优、应用部署和运营维护等阶段。这需要AI研发人员扎实的专业知识和协同合作能力。近期比较有影响力的DALL-E和CLIP，前者是用于给定模板化文本输81于词条级别(Token-level)、模态级别(M以多模态大模型为核心的通用人工智能平台上，可以让AI模型研发82人效低。作为AI新基础设施的多模态预训练大模型成为降低人员研大模型可以解决传统AI模型难以泛化和复制的难题，基于大模型可快的完整链条闭环，大幅提升AI模型的开发效率，降低面向不同项5多模态大模型典型应用及潜在应用场景83题，用户才愿意为此买单，实现AI模型赋能各行各业。媒体多模态大模型”，将加速推动AI在如视频配音、语音播报、标以及手势/触觉等其他方式。对话一般包括闲聊、知识型问答和任务84要应用场景。大模型有助于实现更智能的对话客服服务应用。根据85平台、大模型高效推理工具包BMInf、全新升级的AI文图绘画大师赋能产业应用案例：冬奥会语音播报数字人和OPPO小布助手问答系小布助手开放式对话的长尾问题，单条回答建设成本降低99%。86DeepMind联合谷歌旗下生物科技公司Calico，开发了一种结合87流程。但是基于文到图生成技术，可以直接把流行的款式描述输入88使用原来5%左右的样本，通过率就可以达到百分之八十五以上。这把主播的话转化成文字，需要把主播说话时非常口语化的部分去掉，89906多模态大模型发展规划建议速完善国产基础软硬件体系，以及加强AIforScience等人工智能6.1打造工业化范式的多模态大模型生态91荐引擎、AI助理等多模态应用服务，让多模态预训练模型实现研发6.2持续完善国产基础软硬件支撑体系但经过几年努力，像华为的昇思MindSpore，百度的飞桨PaddlePaddle以及寒武纪芯片等都形成了自有生态，实现了从“不可用”92练和推理套件研发，推动国产AI计算设施与行业已有业务系统实现6.4健全人工智能产业应用政策标准，大力培养复合型人才93[1]MatthewE.Peters,MarkNeumann,MohitIyyer,MattGardner,ChristopherClark,KentonLee,LukeZettlemoyer.Deepcontextualizedwordrepresentations.NAACL2018[2]AlecRadford,KarthikNarasimhan,TimSalimans,andIlyaSutskever,ImprovingLanguageUnderstandingbyGenerativePre-Training.201894[3]JacobDevlin,Ming-WeiChang,KentonLee,andKristinaToutanova.BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding.arXiv:1810.04805v2[4]AlecRadford,JeffreyWu,RewonChild,DavidLuan,DarioAmodei,andIlyaSutskever.LanguageModelsareUnsupervisedMultitaskLearners.2019.[5]TomB.Brown,BenjaminMann,etal,LanguageModelsareFew-ShotLearners.arXiv:2005.14165[6]ZhilinYang,ZihangDai,YimingYang,JaimeCarbonell,RuslanSalakhutdinov,QuocV.Le.XLNet:GeneralizedAutoregressivePretrainingforLanguageUnderstanding.NeurIPS2019[7]KaitaoSong,XuTan,TaoQin,JianfengLu,andTie-YanLiu.MASS:maskedsequencetosequencepre-trainingforlanguagegeneration.ICML2019.[8]MikeLewis,YinhanLiu,NamanGoyal,MarjanGhazvininejad,AbdelrahmanMohamed,OmerLevy,VeselinStoyanov,andLukeZettlemoyer.BART:denoisingsequence-to-sequencepre-trainingfornaturallanguagegeneration,translation,andcomprehension.arXiv:1910.13461,2019.[9]LiDong,NanYang,WenhuiWang,FuruWei,XiaodongLiu,YuWang,JianfengGao,MingZhou,andHsiao-WuenHon.Unifiedlanguagemodelpre-trainingfornaturallanguageunderstandingandgeneration.InNeurIPS,pages13042–13054,2019.[10]YinhanLiu,MyleOtt,NamanGoyal,JingfeiDu,MandarJoshi,DanqiChen,OmerLevy,MikeLewis,LukeZettlemoyer,andVeselinStoyanov.RoBERTa:ArobustlyoptimizedBERTpretrainingapproach.arXivpreprintarXiv:1907.11692,2019.[11]JunqiuWei,XiaozheRen,XiaoguangLi,WenyongHuang,YiLiao,YashengWang,JiashuLin,XinJiang,XiaoChen,andQunLiu.NEZHA:Neuralcontextualizedrepresentationforchineselanguageunderstanding.arXivpreprintarXiv:1909.00204,2019.[12]ZhengyanZhang,XuHan,ZhiyuanLiu,XinJiang,MaosongSun,andQunLiu.ERNIE:enhancedlanguagerepresentationwithinformativeentities.InACL,2019.[13]YuSun,ShuohuanWang,YukunLi,ShikunFeng,HaoTian,HuaWu,andHaifengWang.ERNIE2.0:Acontinualpretrainingframeworkforlanguageunderstanding.InAAAI,2019.95[14]ShizheDiao,JiaxinBai,YanSong,TongZhang,andYonggangWang.ZEN:pre-trainingchinesetextencoderenhancedbyn-gramrepresentations.arXivpreprintarXiv:1911.00720,2019.[15]YimingCui,WanxiangChe,TingLiu,BingQin,ShijinWang,GuopingHu.RevisitingPre-TrainedModelsforChineseNaturalLanguageProcessing.EMNLP2020[16]WeijieLiu,PengZhou,ZheZhao,ZhiruoWang,QiJu,HaotangDeng,andPingWang.K-BERT:Enablinglanguagerepresentationwithknowledgegraph.InAAAI,2019.[17]SiqiBao,HuangHe,FanWang,HuaWu,HaifengWang,WenquanWu,ZhihuaWu,ZhenGuo,HuaLu,XinxianHuang,XinTian,XinchaoXu,YingzhanLin,ZhengyuNiu.PLATO-XL:ExploringtheLarge-scalePre-trainingofDialogueGeneration.arXiv:2109.09519[18]VictorSanh,LysandreDebut,JulienChaumond,ThomasWolf.DistilBERT,adistilledversionofBERT:smaller,faster,cheaperandlighter.NeurIPS2019[19]ZhiqingSun,HongkunYu,XiaodanSong,RenjieLiu,YimingYang,DennyZhou.MobileBERT:aCompactTask-AgnosticBERTforResource-LimitedDevices.ACL2020[20]ZifengWang,ZizhaoZhang,Chen-YuLee,HanZhang,RuoxiSun,XiaoqiRen,GuolongSu,VincentPerot,JenniferDy,TomasPfister.LearningtoPromptforContinualLearning.arXiv:2112.08654v1[21]RuiqiZhong,KristyLee,ZhengZhang,DanKlein.AdaptingLanguageModelsforZero-shotLearningbyMeta-tuningonDatasetandPromptCollections.EMNLP2021[22]BenjaminNewman,PrafullaKumarChoubey,NazneenRajani.P-Adapters:RobustlyExtractingFactualInformationfromLanguageModelswithDiversePrompts.arXiv:2110.07280v1[23]JingL,TianY.Self-supervisedvisualfeaturelearningwithdeepneuralnetworks:Asurvey[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2020.[24]ZhangR,IsolaP,EfrosAA.Colorfulimagecolorization[C].Europeanconferenceoncomputervision.Springer,Cham,2016:649-666.[25]CaronM,BojanowskiP,JoulinA,etal.Deepclusteringforunsupervisedlearningofvisualfeatures[C].ProceedingsoftheEuropeanConferenceonComputerVision(ECCV).2018:132-149.96[26]LedigC,TheisL,HuszárF,etal.Photo-realisticsingleimagesuper-resolutionusingagenerativeadversarialnetwork[C].ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2017:4681-4690.[27]PathakD,KrahenbuhlP,DonahueJ,etal.Contextencoders:Featurelearningbyinpainting[C].ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2016:2536-2544.[28]HeK,ChenX,XieS,etal.Maskedautoencodersarescalablevisionlearners[C].ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition,2021.[29]BaoH,DongL,WeiF.BEiT:BERTPre-TrainingofImageTransformers[J].arXivpreprintarXiv:2106.08254,2021.[30]XieZ,ZhangZ,CaoY,etal.SimMIM:ASimpleFrameworkforMaskedImageModeling[J].arXivpreprintarXiv:2111.09886,2021.[31]HeK,FanH,WuY,etal.Momentumcontrastforunsupervisedvisualrepresentationlearning[C].ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2020:9729-9738.[32]ChenX,FanH,GirshickR,etal.Improvedbaselineswithmomentumcontrastivelearning[J].arXivpreprintarXiv:2003.04297,2020.[33]ChenX,XieS,HeK.Anempiricalstudyoftrainingself-supervisedvisionTransformers[J].arXivpreprintarXiv:2104.02057,2021.[34]ChenT,KornblithS,SwerskyK,etal.Bigself-supervisedmodelsarestrongsemi-supervisedlearners[J].arXivpreprintarXiv:2006.10029,2020.[35]ChenT,KornblithS,NorouziM,etal.Asimpleframeworkforcontrastivelearningofvisualrepresentations[C].Internationalconferenceonmachinelearning.PMLR,2020:1597-1607.[36]ChenT,KornblithS,SwerskyK,etal.Bigself-supervisedmodelsarestrongsemi-supervisedlearners[J].arXivpreprintarXiv:2006.10029,2020.[37]GrillJB,StrubF,AltchéF,etal.Bootstrapyourownlatent:Anewapproachtoself-supervisedlearning[C].ConferenceandWorkshoponNeuralInformationProcessingSystems,2020.[38]DoerschC,ZissermanA.Multi-taskself-supervisedvisuallearning[C].ProceedingsoftheIEEEInternationalConferenceonComputerVision.2017:2051-2060.97[39]LiZ,ChenZ,YangF,etal.MST:MaskedSelf-SupervisedTransformerforVisualRepresentation[C].ConferenceandWorkshoponNeuralInformationProcessingSystems,2021.[40]ZhouJ,WeiC,WangH,etal.iBOT:ImageBERTPre-TrainingwithOnlineTokenizer[J].arXivpreprintarXiv:2111.07832,2021.[41]ZhaiX,KolesnikovA,HoulsbyN,etal.ScalingvisionTransformers[J].arXivpreprintarXiv:2106.04560,2021.[42]AbnarS,DehghaniM,NeyshaburB,etal.Exploringthelimitsoflargescalepre-training[J].arXivpreprintarXiv:2110.02095,2021.[43]FedusW,ZophB,ShazeerN.SwitchTransformers:Scalingtotrillionparametermodelswithsimpleandefficientsparsity[J].arXivpreprintarXiv:2101.03961,2021[44]RuizCR,PuigcerverJ,MustafaB,etal.ScalingVisionwithSparseMixtureofExperts[C].Thirty-FifthConferenceonNeuralInformationProcessingSystems.2021.[45]LouY,XueF,ZhengZ,etal.Sparse-mlp:Afully-mlparchitecturewithconditionalcomputation[J].arXivpreprintarXiv:2109.02008,2021.[46]Chung,Yu-AnandGlass,James.Generativepre-trainingforspeechwithautoregressivepredictivecoding.ICASSP2020[47]Yu-AnChung,HaoTang,andJamesGlass.Vector-QuantizedAutoregressivePredictiveCoding.Proc.Interspeech2020，pp.3760-3764[48]AndyT.Liu,Shu-wenYang,Po-HanChi,Po-chunHsu,Hung-yiLee.Mockingjay:UnsupervisedSpeechRepresentationLearningwithDeepBidirectionalTransformerEncoders.ICASSP2020[49]ShaoshiLing,YuzongLiu,JulianSalazar,KatrinKirchhoff.DeepContextualizedAcousticRepresentationsForSemi-SupervisedSpeechRecognition.ICASSP2020[50]ShaoshiLing,YuzongLiu.DeCoAR2.0:DeepContextualizedAcousticRepresentationswithVectorQuantization.ICASSP2021[51]Liu,AlexanderandChung,Yu-AnandGlass,James.Non-AutoregressivePredictiveCodingforLearningSpeechRepresentationsfromLocalDependencies.arXivpreprintarXiv:2011.00406[52]Oord,Aaronvanden,YazheLi,andOriolVinyals.Representationlearningwithcontrastivepredictivecoding.arXivpreprintarXiv:1807.03748,2018.98[53]SteffenSchneider,AlexeiBaevski,RonanCollobert,MichaelAuli.Wav2Vec:UnsupervisedPre-trainingforSpeechRecognition.Interspeech2019[54]AlexeiBaevski,SteffenSchneider,MichaelAuli.VQ-Wav2Vec:Self-SupervisedLearningofDiscreteSpeechRepresentations.ICLR2020[55]AlexeiBaevski,HenryZhou,AbdelrahmanMohamed,MichaelAuli.Wav2Vec2.0:AFrameworkforSelf-SupervisedLearningofSpeechRepresentations.NeurIPS2020[56]Wei-NingHsu,BenjaminBolte,Yao-HungHubertTsai,KushalLakhotia,RuslanSalakhutdinov,AbdelrahmanMohamed.HuBERT:Self-SupervisedSpeechRepresentationLearningbyMaskedPredictionofHiddenUnits.ICASSP2021[57]Yu-AnChung,YuZhang,WeiHan,Chung-ChengChiu,JamesQin,RuomingPang,YonghuiWu.W2v-BERT:CombiningContrastiveLearningandMaskedLanguageModelingforSelf-SupervisedSpeechPre-Training.arXiv:2108.06209[58]SantiagoPascual,MircoRavanelli,JoanSerrà,AntonioBonafonte,YoshuaBengio.LearningProblem-AgnosticSpeechRepresentationsfromMultipleSelf-SupervisedTasks.Interspeech2019[59]JacobDevlin,Ming-WeiChang,KentonLee,andKristinaToutanova.2019.BERT:Pre-trainingofdeepbidirectionalTransformersforlanguageunderstanding.InProc.ofNAACL2019.[60]SuW,ZhuX,CaoY,etal.VL-BERT:Pre-trainingofGenericVisual-LinguisticRepresentations[J].2019.[61]SunC,MyersA,VondrickC,etal.Videobert:Ajointmodelforvideoandlanguagerepresentationlearning[C].ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.2019:7464-7473.[62]ChenYC,LiL,YuL,etal.Uniter:Universalimage-textrepresentationlearning[C].Europeanconferenceoncomputervision.Springer,Cham,2020:104-120.[63]LuJ,BatraD,ParikhD,etal.Vilbert:Pretrainingtask-agnosticvisiolinguisticrepresentationsforvision-and-languagetasks[J].arXivpreprintarXiv:1908.02265,2019.[64]TanH,BansalM.Lxmert:Learningcross-modalityencoderrepresentationsfromTransformers[J].arXivpreprintarXiv:1908.07490,2019.[65]AlecR,JongWK,ChrisH,etal.CLIP:ConnectingTextandImages.Technicalreport,OpenAI.99[66]RadfordA,WuJ,AmodeiD,etal.Betterlanguagemodelsandtheirimplications[J].OpenAIBloghttps://openai.com/blog/better-language-models,2019,1:2.[67]BrownTB,MannB,RyderN,etal.Languagemodelsarefew-shotlearners[J].arXivpreprintarXiv:2005.14165,2020.[68]RameshA,PavlovM,GohG,etal.Zero-shottext-to-imagegeneration[J].arXivpreprintarXiv:2102.12092,2021.[69]DingM,YangZ,HongW,etal.CogView:MasteringText-to-ImageGenerationviaTransformers[J].arXivpreprintarXiv:2105.13290,2021.[70]ChoJ,LeiJ,TanH,etal.Unifyingvision-and-languagetasksviatextgeneration[J].arXivpreprintarXiv:2102.02779,2021.[71]XuH,YanM,LiC,etal.E2E-VLP:End-to-EndVision-LanguagePre-trainingEnhancedbyVisualLearning[J].arXivpreprintarXiv:2106.01804,2021.[72]LinJ,MenR,YangA,etal.M6:Achinesemultimodalpretrainer[J].arXivpreprintarXiv:2103.00823,2021.[73]SunY,WangS,LiY,etal.Ernie:Enhancedrepresentationthroughknowledgeintegration[J].arXivpreprintarXiv:1904.09223,2019.[74]ZhengyanZhang,XuHan,ZhiyuanLiu,XinJiang,MaosongSun,QunLiu.2019.ERNIE:EnhancedLanguageRepresentationwithInformativeEntities.InProc.OfACL2019.[75]LiX,YinX,LiC,etal.Oscar:Object-semanticsalignedpre-trainingforvision-languagetasks[C].EuropeanConferenceonComputerVision.Springer,Cham,2020:121-137.[76]ZhuL,YangY.Actbert:Learningglobal-localvideo-textrepresentations[C].ProceedingsoftheIEEE/CVFconferenceoncomputervisionandpatternrecognition.2020:8746-8755.[77]P.Goyaletal.,“Accurate,LargeMinibatchSGD:TrainingImageNetin1Hour,”*arXiv:1706.02677,2021[78]D.Park,J.Sohl-Dickstein,Q.Le,andS.Smith,“TheEffectofNetworkWidthonStochasticGradientDescentandGeneralization:AnEmpiricalStudy,”inICML,2019[79]F.Niu,B.Recht,C.Re,andS.J.Wright,“HOGWILD!ALock-FreeApproachtoParallelizingStochasticGradientDescent,”,arXiv:1106.5730,2011[80]L.Nguyen,P.H.Nguyen,M.Dijk,P.Richtarik,K.Scheinb

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

多模态基础大模型技术白皮书

文档简介

温馨提示

最新文档

评论

多模态基础大模型技术白皮书

文档简介

温馨提示

最新文档

评论

相关文档