2023预训练大模型前景探讨_第1页
2023预训练大模型前景探讨_第2页
2023预训练大模型前景探讨_第3页
2023预训练大模型前景探讨_第4页
2023预训练大模型前景探讨_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

预训练大模型前景探讨Content什么是预训练大模型预训练大模型的研究现状和发展趋势预训练大模型应用前景展望总结Content什么是预训练大模型预训练大模型的研究现状和发展趋势预训练大模型应用前景展望总结1_1_PAGE1/40什么是预训练大模型?人工智能研究的新范式深度学习模型参数规模大、训练数据大非特定任务预训练,可以应用于广泛的下游任务又被称为基础模型(FoundationModels)什么是预训练大模型?人工智能研究的新范式深度学习模型参数规模大、训练数据大非特定任务预训练,可以应用于广泛的下游任务又被称为基础模型(FoundationModels)Bommasanietal.,OntheOpportunitiesandRisksofFoundationModels,arXiv:2108.07258[cs.LG]PAGEPAGE2/40涌现和同质化Bommasanietal.,OntheOpportunitiesandRisksofFoundationModels,arXiv:2108.07258[cs.LG]预训练大模型的特点预训练大模型的特点PAGEPAGE3/40预训练大模型的参数规模预训练大模型的参数规模4_4_PAGE1/402021-10-11刚刚发布预训练大模型给我们带来了什么?预训练大模型给我们带来了什么?PAGEPAGE5/40海量无标注或弱标注数据的利用(自监督学习)预训练++性能的普遍提高少样本和零样本的学习多语言表达能力多模态交互海量无标注或弱标注数据的利用(自监督学习)海量无标注或弱标注数据的利用(自监督学习)PAGEPAGE6/40Devlinetal.,BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding,arXiv:1810.04805,2018预训练预训练+微调框架:下游任务模型结构的简化/性能的普遍提高PAGEPAGE7/40Devlinetal.,BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding,arXiv:1810.04805,2018少样本和零样本的学习少样本和零样本的学习PAGEPAGE8/40Brownetal.,LanguageModelsareFew-ShotLearners,arXiv:2005.14165,2021多语言表达能力多语言表达能力9_9_PAGE2/40/google-research/bert/blob/master/multilingual.md多模态交互多模态交互10_10_PAGE1/40Bommasanietal.,OntheOpportunitiesandRisksofFoundationModels,arXiv:2108.07258[cs.LG]OpenAIDALL-Edemo,source:/blog/dall-e/FacebookAIWav2Vec2.0/blog/wav2vec-20-learning-the-structure-of-speech-from-raw-audio/Content什么是预训练大模型预训练大模型的研究现状和发展趋势预训练大模型应用前景展望总结Content预训练大模型的研究现状和发展趋势如何做得更大?如何更能干?如何应用和推理?1111/40如何做得更大?模型参数数量反应了模型的容量(Capacity)模型的参数规模还可以大幅度增长单一集中式模型所使用的算力几乎达到极限,除非出现新的计算模式(如量子计算)(如MoE,Mixture-of-Experts模型表达能力(Capacity)稀疏模型稀疏模型SparseTransformers12_12_PAGE1/40SparsefactorizationsoftheattentionmatrixwhichreducethistoO(n√n):Childetal.,GeneratingLongSequenceswithSparseTransformers,arXiv:1904.10509Relatedwork:BigBird(Zaheeretal.2020,NeurIPS),Longformer(Beltagyetal.2020),Reformer(Kitaevetal.2020,ICLR),Routing(Royetal.2021,ACL),稀疏模型稀疏模型MoETransformers13_13_PAGE1/40IntroducesMixture-of-Experts(MoE)incomponentsJasonBrownlee,AGentleIntroductiontoMixtureofExpertsEnsembles(blog)Switch(Google,2021.01)Backbone:T5Parameters:1571B,15layers,2048expertsDataset:C4(180Btokens)Router:switchrouting(top-1)Fedusetal.,SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsity.arXiv:2101.03961,2021routing(Google)单个expert可以减少通信代价,提升训练速度Fedusetal.,SwitchScalingtoParameterModelswithSimpleandEfficientSparsity.arXiv:2101.03961,2021routing(Google)通常从N个expert中选择2个进行稀疏路由Shazeeretal.,OutrageouslyLargeNeuralNetworks:TheSparsely-GatedMixture-of-ExpertsLayer.arXiv:1701.06538,2017Hashrouting(Facebook)不需要router的学习,通过设定token-expert的映射来指导路由Rolleretal.,HashLayersForLargeSparseModels.arXiv:2106.04426,2021Domainrouting(AI2&Facebook)对不同领域数据设置不同的expert,根据领域进行路由Gururanganetal.,DEMixLayers:DisentanglingDomainsforModularLanguageModeling.arXiv:2108.05036.2021Content预训练大模型的研究现状和发展趋势如何做得更大?如何更能干?如何应用和推理?异构数据引入异构数据引入PAGEPAGE14/40大规模预训练语言模型强大的能力可以从更多样的数据中吸收知识同时,更多样的知识来源可以互相增强,使得大规模预训练语言模型更加强大多模态融入程序代码图文预训练模型图文预训练模型:关键在于怎么进行模态之间的交互PAGEPAGE15/40Loss进行模态交互ALIGN,WENLAN模型Encoder或(和)Decoder的self-attention进行模态交互:Encoder:SOHODecoder:DALL-E,FrozenMix:M6,OPTEncoder-decoder结构中Decoder的cross-attention进行模态交互ALBEF图文预训练模型图文预训练模型:CLIP:典型双塔模型16_16_PAGE1/40ConnectingTextandImagesbyContrastiveLanguage-ImagePre-training,OpenAI2021globalfeature来进行对比学习OpenAI4亿单语言数据库CLIP_SMALL:+GPT(12L-8head-emb512)CLIP_LARGE:+GPT-BASE(12L-12head-emb768)zero-shot像分类,image-text检索

Zero-shotImageClassificationImage-textretrievalConnectingTextandImagesbyContrastiveLanguage-ImagePre-training,OpenAI2021图文预训练模型图文预训练模型:Dall-E:典型单塔模型Zero-ShotText-to-ImageGeneration.OpenAI,Zero-ShotText-to-ImageGeneration.OpenAI,202117_PAGE1/40视觉模态(numericdata):用等模型的encoder成某个模态的contextualizedtokenizerdecoder作为generator恢复到原本模态文本(symbolicdata):本身就是离散的,普通的文本tokenizer将视觉token和文本token连接成一个序列,用LM进行训练(类似GPT)ImageGeneration图文预训练模型图文预训练模型:Frozen:典型小样本模型MultimodalMultimodalFew-ShotLearningwithFrozenLanguageModels,Deepmind202118_PAGE2/40预训练固定住7B纯文本预训练模型GPT,训练prefix(prompt)使用ImageCaption为训练目标在CC12M数据集上面fine-tune一个NF-ResNet-50模型few-shot(in-context)learning能力和NLP的Pre-fixtuning的异同固定住纯文本预训练大模型,只fientune可学习的Prefix跨模态Prefix这个Prefix是sample-dependent的,不同的图片会产生不同的PrefixVQA:Inference:图文预训练模型图文预训练模型:ALBEF:典型cross-attention模型19_19_PAGE1/40预训练图像pre-trained文本pre-trainedBERT图像VIT最后一层[CLS]特征和文本BERT第六层[CLS]特征做image-textcontrastivelearning文本部分做maskedlanguagemodeling图像特征输入到文本decoder(BERT后六层)以cross-attention作了多模态交互之后做image-textmatching拥有类似gpt-3的跨模态few-shot(in-context)learning能力多种下游任务包括image-text检索、VQA、VE、AlignbeforeFuse:VisionandLanguageRepresentationLearningwithMomentumDistillation,Salesforce2021Image-textRetrieval:VisualGrounding:AlignbeforeFuse:VisionandLanguageRepresentationLearningwithMomentumDistillation,Salesforce2021知识融入知识融入2020/40Yangetal.,ASurveyofKnowledgeEnhancedPre-trainedModels,arXiv:2110.00269Triplet-EnhancedPLMsPAGEPAGE21/40Zhangetal.,ERNIE:EnhancedLanguageRepresentationwithInformativeEntities,ACL2019知识融入:知识融入:Entity-EnhancedPLMsPAGEPAGE22/40Xiongetal.,PretrainedEncyclopedia:WeaklySupervisedKnowledge-PretrainedLanguageModel,ICLR2020加入检索加入检索PAGEPAGE23/40为什么PLMs需要Retrieval更忠实于客观事实的文本生成适配高速动态变化的客观世界知识对于Retrievalaugmented我们需要关注在Pre-training还是Fine-tuning阶段做retrievalRetrieval到的(多个)文档如何建模Retriever与Generator(Predictor)是否端到端训练加入检索:加入检索:REALM(Retrieval-augmentedPre-training)PAGEPAGE24/40RetrievalAugmented的预训练预训练阶段同时训练Retriever和Generator从原始BERT单纯的模式记忆->检索+记忆KnowledgeRetrieverMLMobject可提供远程监督信号训练RetrieverEnd2End训练的最大挑战:DocumentIndexupdate异步MIPS更新Guu,Kelvin,etal."Realm:Retrieval-augmentedlanguagemodelpre-training."加入检索:加入检索:RAG(Retrieval-augmentedGeneration)Lewis,Lewis,Patrick,etal."Retrieval-augmentedgenerationforknowledge-intensivenlptasks."PAGE25/40在fine-tuning阶段使用retriever和REALM虽同为End2endtraining,但RAG并不更新document索引和REALM类似,直接将检索文档和query拼接建模,都会受制于encoder的max-seq-length优化目标RAG-SequenceModel:Model:加入检索:加入检索:FiD(FusioninDecoder)PAGEPAGE26/40FiD给出一种在Decoder端进行信息融合的方式Encoder端文档独立编码文档间的交互通过decoder端的Cross-Attention实现FiD可以更加高效地利用多文档信息Generator与Retriever解耦,使用上较REALM和RAG更加灵活CrossAttentionScore具备一定的可解释性在问答生成,对话生成等任务上均取得了的效果Izacard,Gautier,andEdouardGrave."Leveragingpassageretrievalwithgenerativemodelsforopendomainquestionanswering."Content预训练大模型的研究现状和发展趋势如何做得更大?如何更能干?如何应用和推理?如何更有效地训练?如何更有效地训练?PAGEPAGE27/40大规模预训练模型因模型巨大,每次训练代价极高,如何节约成本、高效训练,成为必须考虑的重要问题:分布式并行训练迁移学习(尽量复用已有大模型参数)持续训练(增量式训练、终身学习,避免灾难性遗忘)三维并行训练三维并行训练PAGEPAGE28/40+Pipeline并行+模型并行Batch维度的切分PipelineLayer维度的切分射,可自由扩展,高效训练如盘古ケ、GPT3等千亿参数级别的模型/en-us/research/blog/deepspeed-extreme-scale-model-training-for-everyone/训练状态并行训练状态并行PAGEPAGE29/40Feature:inner-layer维切分。allgather和reduce-catter分别和正、反向运算并行。fp16运算,优化器及参数采用fp32。重计算重计算PAGEPAGE30/40正向activation不存,反向计算时,重新计算正向activation,时间换空间。异构计算异构计算PAGEPAGE31/40过去几年,模型规模增大了1000但是并行计算设备的内存只增大了5倍(GPU16G到80G)将一部分训练计算转移到CPU将一部分存储放在Host内存。有代表性AdamOptimizerState是Weight的2175B参数量的GPT3模型,就有350B的OptimizerState;AdamOptimizer调度到HostCPU执行,OptimizerState存储到Host内存;极大节省GPU,NPU等计算内存空间。

OptimizerCPU执行Content预训练大模型的研究现状和发展趋势如何做得更大?如何更能干?如何应用和推理?PAGEPAGE32/40如何应用和推理?价太高基于Prompt的微调模式受到广泛关注基于Adapter的微调模式也可以适用于大规模预训练模型,但近期进展不大传统的模型蒸馏也变得代价极高,因为蒸馏过程需要在大量的数据上进行推理其他模型压缩算法如量化、剪枝等等都面临新的问题PromptingMethodsforDownstreamTasksPromptingMethodsforDownstreamTasksPAGEPAGE33/40Liuetal.,Pre-train,Prompt,andPredict:ASystematicSurveyofPromptingMethodsinNaturalLanguageProcessing,arXiv:2107.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论