2024万亿规模中文多模态预训练模型M6_第1页
2024万亿规模中文多模态预训练模型M6_第2页
2024万亿规模中文多模态预训练模型M6_第3页
2024万亿规模中文多模态预训练模型M6_第4页
2024万亿规模中文多模态预训练模型M6_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

万亿规模中文多模态预训练模型M6⽬录M6模型简介M6从百亿到万亿的技术迭代M6能⼒的下游应⽤M6⽂到图⽣成模型创新背景预训练技术的时代背景:大规模数据与极致算力的结合,自监督学习对标注样本需求大大降低的同时,能获取比较通用&以大力出奇迹的风格,用更少的模型,做更多的事情 MoCo多模态:不同模态(模型)之间的协同是当下AI的一个短板,具备长期的研究意义。自然语言可以链接不同模态的语义/文案生成/图文互搜/客服&问答/安全审核/分类…】,场景丰富、标注数据少,需要预训练任务提供隐式的知识M6Milestone M6:Multi-Modality-to-Multi-ModalityMultitaskMega-transformer2020.03.30——Vision-and-LanguageInteractionforMulti-modalPretraining,1.7亿2021.01.05——M6百亿多模态预训练模型达成&基础下游模型2021.02.27——M6千亿多模态预训练模型达成&文到图生成模型2021.05.31——M6万亿多模态预训练模型达成&内部业务实践与服务化M6-模型 M6模型架构:基于自注意力的transformer模块同时兼容理解任务&生成任务,容易scaleupPatch-basedbackbone(Resnet50/EfficientNet/VIT/…)替换ObjectDetectionbackboneM6多任务预训练:利用不同的mask理解和生成。m6:achinesemultimodalpretrainer,/abs/2103.00823,KDD21’M6-参数ScaleUp 参数&算力探索国外研究机构的众多NLP/CV预训练模型的实践经验表明,参数越多效果越好;国内算力&infra起步较晚在阿里的infra环境下,探索了大规模模型&数据并行对CV/NLP这类预训练模型的支持,1B10B100B1000BandMore?10B标准dense模型:zero-optimizer,cpuoffload节省显存dense模型scaleup难度高,ROI产出低,需要寻求更高效的解决方案caseheadshiddenNum.layersSeqlenBatchsizeNum.GPUspeed10Bdense12840965014432*256256220samples/sScaleto100Bdense128921610014448321.7samples/sMOE-Transformer示例

功效:FLOPS(算力)固定情况下,参数增大难点:Expert间LoadBalanceCapacityLimitAuxiliaryLoss内部TF-Whale的并行框架支持M6高效分布式训练利用Whale实现Mixture-of-Experts的并行算子;采用ep+dp的混合并行模式;结合GradientCheckpoint、Optimizer峰值显存优化、通信池化、混合精度、编译优化等技术减少GPU高训练效率;千亿模型128张A100可以实现1400+samples/s参数大小对下游任务的影响 参数大小对下游任务的影响 VQA(FMIQA)LM ImageCaptioning

Classification480V10032G完整实现了万亿参数M6模型的训练,并report收敛情况AdamAdafactor省显存,但也带来极大的收敛难度探索了MoE结构在大模型中的各种训练问题,提出了ExpertPrototyping的方法,最终实现5倍加速对比Nvidia(3072GPU/万亿)、Google(2048TPU/万亿)更高效,算力资源降低8成,且效率提升近11倍ExploringSparseExpertModelsandBeyond,/abs/2105.15082ExploringFactorsinMoEModels Expertcapacitytoavoidoverload#tokensinabatchN:#expertsK:top-kroutingTheEffectofSparseActivation Computationefficiency(GFLOPs)oftop-kroutingwithdifferentkTrainingspeed(ms)ofmodelswithdifferenttop-kroutingstrategies.增加top-k个数,会降低效率,提升模型实际容量,提升效果;一定程度上增大capacity会降低效率但提升模型能力; 12ExpertPrototypingofMoEExpertPrototypingofMoE希望用相同的参数量,增加模型的表达能力希望能提升topk的执行速度增加top-k个数,会降低效率,提升效果;一定程度上增大capacity会降低效率但提升模型能力;分组topk能在提升效率的情况下保持模型效果通用下游任务(Text2ImageSyntesis)图——>(ageapt,VQ)文——>文生成(Q,续写,datatet)图文互搜(搜索)通用能力:图到文生成(描述/推荐理由) M6-small:经典的西装领设计,修饰颈部线条,凸显女性的干练气上身挺括有型。M6-median:纯色西装领外套,经典西装领,精致的走线工艺,腰间腰带日扣收腰,立体显瘦,袖口荷叶边拼接设计,抬手臂间,带出妩媚温柔的女人味。衣身面料凹凸有致,丰富衣服层次感。M6-large:一款简约不失优雅气质的风衣,采用经典翻领设计,完美修饰脸型。腰间系带装饰,可根据自身需求调节松紧度,穿着舒适方便。两侧大口袋点缀,丰富层次感很实用。M6M6通用能力:图到文生成(VQA) 通用能力:写作训练 M6M6通用能力:其他用法,e.g.,zero-shot分类 M6特色下游任务:文到图生成多模态预训练模型工业级应用落地现状 工业界的特点:数据类型多、场景丰富、标注数据少目前阿里内部使用m6已落地的业务场景,抽象出的典型任务:生成类任务:(fewshot)文案生成素材生成服饰设计推荐理由生成

检索类任务:文本搜索图文匹配talk2car

分类任务:评论情感分类(zeroshot/fewshot)分类下游任务Finetune:用户可以自定义model在m6的基础上进行finetune加contrastiveloss在m6上获得更好的检索效果在inference阶段修改变成data2text…M6下游任务:文本到图像的生成M6下游任务:文本到图像的生成Stage1 Stage2利用预训练语言模型做图像生成,核心方法在于两阶段学习。1负责学习图像的离散code表示,我们使用做能还原更加高清的图像2使用预训练的M6做text+code的联合学习,利用语言模型的训练目标,构建文本和图像离散表示的关联生成阶段,M6根据输入文本生成code序列,并利用1的decoder将code序列还原成图像工业级AIDesigner工业级AIDesigner根据潮流趋势文本的描述,自动产出细节清晰的服装图破洞牛仔裤吊带法式甜美连衣裙更可控的图像生成更可控的图像生成Controls(TC)VisualControls(VC)PreservationControls(PC)Combinationsof1/2/3

Autoregressive的方式生成难以满足比如PC这类的需求,不太灵活UFC-BERT:UnifyingMulti-ModalControlsforConditionalImageSynthesis,/abs/2105.14211#Task1:MaskedSequenceModeling,similartoMLMinBERTFourmaskstrategies:(1)randomlymask;(2)maskalltokens;(3)maskthetokenswithinsomeboxedareasoftheimage;(4)maskthetokensoutsidesomerandomboxedareasoftheimage.Fourcombinationsofcontrolsignals:<TC,VC>,<TC>,<VC>,<empty>(probabilities0.20,0.55,0.20,0.05)#Task2:相关性(inbatchcontrol作为负样本)#Task3:真实性(前一版模型产出作为负样本)InferenceMask-Predictpredictsalltargettokensgivenafully-maskedsequenceatthefirstiterationre-maskandre-predictasubsetoftokenswithlowprobabilityscoresforaconstantnumberofiterations.

PNAGbasedonth

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论