




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多模态大模型:开放世界理解谢春宇/360多模态团队负责人DataFunSummit#202422图文多模态大模型3360多模态大模型探索44业务落地实践什么是大模型大算力大数据大大算力大数据大参数什么是大模型大参数大算力大数据大参数大算力大数据背景o人工智能AGI,我们需要什么?ChatGPT的发布标志着自然语言处理技术迈入了一个全新的阶段。自2022年底亮相以来,它凭借其惊人的语言生成能力,迅速成为AI领域的焦点。ChatGPT能够进行连贯、深度的对话,甚至创作诗歌、撰写文章,展现出了前所未有的创造力和理解力。这一突破不仅激发了公众对于AI技术的兴趣,还加速了科技界对通用人工智能(AGI)的研究步伐。在教育、写作、娱乐等多个领域,ChatGPT的应用潜力正在被不断挖掘。教育工作者利用它辅助教学,作家借助它激发灵感,企业则将其融入客户服务,提高了效率与体验。同时,ChatGPT也引发了关于AI伦理、隐私保护及就业市场变革的广泛讨论,促使社会各界思考如何在享受AI红利的同时,建立相应的监管框架,确保技术的健康发展。总之,ChatGPT的出现不仅是技术上的革新,更是对人类社会未来发展路径的一次深刻启示。背景o人工智能AGI,我们需要什么?•GPT4做为新一代的GPT模型•增加了对视觉模态输入的支持,这意味着它能够理解图像并进行相应的自然语言生成•增加了多模态能力的GPT4也带来了应用层面的更多可能•GPT-4V•增强的视觉能力•分析和理解图像内容,提供描述、识别对象,甚至解释场景•根据图像生成创意文本格式•翻译图像中的文本,强大的OCR能力•GPT-4O•具备原生多模态能力•支持文本、音频、图像任意组合•性能提升,更快的响应速度背景o视觉能力是通用人工智能AGI需必备的基础能力——人类智能本身高度依赖于视觉感知理解世界情境感知理解世界学习能力识别物体学习能力交互能力预测运动视觉-语言跨模态学习•Vision-languagecrossmodallearning,亦称为VLP(Vision-LanguagePretrain)、VLM(Vision-LanguageModel代表性的工作是20年OpenAI的CLIP,开启和引领了CV多模态研究的大模型时代视觉-语言跨模态学习0.4BRadford,Alec,JongWookKim,ChrisHalacy,AdityaRamesh,GabrielGoh,SandhiniAgarwal,GirishSastryetal."Learningtransferablevisualmodelsfromnaturallanguage视觉-语言跨模态学习中文图文跨模态模型R2D2图文跨模态学习带来的基于内容的图文互检能力对于互联网搜索来说具有非常重要的落地价值,来自于360搜索的实际业务需求非常强烈。360搜索:使用跨模态模型之前的搜索结果360搜索:使用跨模态模型之前的搜索结果360搜索:使用跨模态模型之后的搜索结果视觉-语言跨模态学习中文图文跨模态模型R2D2•2300万训练数据,在中文图文检索任务上达到•双塔base+单塔head的混合模式•专门针对数据噪声设计的momentum-updatedencoder和maskedinput+softlabel双蒸馏视觉-语言跨模态学习•伴随着算法和模型,我们一同开源了对应的图文跨模态•伴随着算法和模型,我们一同开源了对应的图文跨模态数据集Zero,包含2.5亿中文图文对数据•基于用户点击CTR筛选,数据质量更高2.5亿1亿2300万3000万22图文多模态大模型3360多模态大模型探索44业务落地实践图文多模态大模型LMM的研发回顾•LMM=LargeMultimodalModel,之前亦称为MLLM(MultimodalLargeLanguageModel目前也有小部分工作为了强调视觉能力将其称为LVM(LargeVisionModel)。LMM是在单文本模态的语言模型LLM基础上发展起来的研究方向,旨在解决纯文本语言模型LLM只能理解文本输入的先天缺陷,赋予大模型对多模态信息混合输入的理解和处理能力,在此基础上可以再进一步实现多模态信息的混合输出能力•相关的研究路线主要分为两条:一条是原生多模态路线,模型设计从一开始就专门针对多模态数据进行适配设计,代表性的工作有MSRA的KOSMOS、Google的Gemeni、OpenAI的GPT-4O;另一条是单模态专家模型缝合路线,通过桥接层将预训练的视觉专家模型与预训练的语言模型链接起来,代表性的工作有23年1月Saleforce的BLIP-2,以及近期GPT-4O5-14-2024的IdeficsGPT-4O5-14-2024Qwen-VL8-15-2023Qwen-VL8-15-2023开源InternVL26-25-2024开源LLaVA4-17-2023开源Gemini12-6-2023Idefics24-15-2024开源图文多模态大模型路线选择路线选择 •原生多模态路线的理论上限更高,但对应的是训练成本远高于缝合路线;•缝合路线因为可以复用各个单模态领域的已有成果,因此具有很经济的训练成本优势。•少数的巨头机构采用的是原生多模态路线,其它绝大多数企业和学界研究机构采用的是缝合路线图文多模态大模型第一代LMM•多模态LMM的研发从22年底到现在,从整个业界的角度来观察,有着非常明显的代际更替•第一代LMM(22年11~23年6月)的代表性工作主要包括BLIP-2,LLaVA,miniGPT4以及国内智谱的VisualGLM、阿里的mPLUG-owl、自动化所的X-LLM、IDEA的Ziya-Visual等。360人工智能研究院在23年5月开源的SEEChat(360VL的前身)也属于第一代LMM。•这一代LMM的能力主要为针对图像内容的对话和问答,支持的图像分辨率非常低(224×224研发的重心主要聚焦在模态对齐的原型验证上证上图文多模态大模型第二代LMM•第二代LMM的研发,时间上大致为23年6~11月。•从第二代LMM的研发开始,整个业界开始呈现出研发投入逐渐增强,研发竞争急剧扩大的情况。•第二代LMM从研发的角度主要是要为LMM增加目标定位的能力,相比粗粒度的图像内容问答,增加目标定位能力是多模态LMM能够在Agent、机器人、自动驾驶、安防巡检等场景中落地实用的必要前提图文多模态大模型第三代LMM•从23年11月~至今,业界已经转入第三代LMM的研发。•第二代LMM的研发中暴露出以下几个关键问题,需要在第三代LMM的研发中进一步解决I.高分辨率输入的支持•2代LMM的分辨率基本都处在336~448之间II.图文模态间的竞争•几乎所有的工作都回避了语言模型能力下降的问题III.多模态的ScalingLaw•缝合路线的天花板是否已经出现图文多模态大模型高分辨率输入的支持•第一代LMM所能处理的图像分辨率固定为224(对应图像token数32~256第二代LMM的典型分辨率是336~448。图文多模态大模型•多任务训练一直以来存在任务间竞争的问题•在多模态LMM的研发上,多任务的竞争问题更为显著,特别是视觉模态vs文本模态的竞争融合路线:在多模态训练时加入文本数据,来缓解LLM的遗忘问题OptionI:保持LLM原有能力,型融合设计和训练的难度更高。代表性的工作是做为LMM先驱的Flamingo。模型结构上专门设计了多模态融合的缝合层,内嵌的LLM训练时固定不受影响。360SEEChat和智谱OptionI:保持LLM原有能力,型融合设计和训练的难度更高。代表性的工作是做为LMM先驱的Flamingo。模型结构上专门设计了多模态融合的缝合层,内嵌的LLM训练时固定不受影响。360SEEChat和智谱图文多模态大模型•缝合路线目前最大的障碍:不具有很好的data-performancescalingup能力•当前缝合路线的模型结构基本已经收敛为imageencoder+projector+LLM的结构,其中imageencoder负责图像编码,LLM负责对话逻辑,projector作为缝合层将视觉编码器和语言模型进行桥接缝合•但是当前以LLAVA为代表的浅层缝合模型,通常在百万训练量级后就已经饱和,将训练量提高到千万甚至几亿的量级并不能带来LMM模型能力的明显提升•背后的根本原因,要追溯到缝合路线下LMM中内嵌的语言模型能力是否需要保持上•两种解决方案:•方案一:在imageencoder+projector上做文章,将海量数据的信息在预训练阶段训练到视觉编码器和缝合层中,语言模型参数仅在最后的指令微调阶段参与训练。代表性的工作包括国内零一万物的Yi-VL,书生浦语InternLM-XComposer-VL,韩国KaKaoBrain的Honeybee等•方案二:在多模态训练过程中也同步加入相当比例的纯文本训练数据同时进行训练,代表性的工作包括Apple的MM1和国内幻方的图文多模态大模型图文多模态大模型•模型结构:采用BLIP2的ViT和Q-Former作为视觉编码器,采用Vicuna作为文本解码器,通过一个线性映射层将视觉特征映射到文本表示空间•模型训练:冻结视觉编码器和文本解码器,只训练线性映射层•Pre-traing:5M图文数据对齐•SFT:3.5K人工矫正数据图文多模态大模型•模型结构:采用CLIPVIT-L/14作为视觉编码器,采用Vicuna作为文本解码器,通过一层MLP做线性映射•模型训练:•Pre-traing:从CC3M中通过限制caption中名词词组的最小频率过滤出595k图文数据,冻住视觉编码器和文本解码器,只训练线性映射层•SFT:映射矩阵与语言模型均更新图文多模态大模型LLaVA-1.5•数据•增加更多微调数据•Region-levelVQA•中英双语ShareGPT•对特定问题设计prompt•模型•增加VLconnector容量•提升模型分辨率•更大杯LLM图文多模态大模型•混合分辨率支持•自适应选择最佳缩放尺寸2x2,2x3等•模型•性能更好的LLM(Mistral-7B、Nous-Hermes-2-Yi-34B•数据•高质量GPT-4V数据(LAION-GPT-V和ShareGPT-4V)•用户反馈真实数据•增强OCR能力(DocVQA、SynDog-EN等)•加强图表理解能力(ChartQA,DVQA,和AI2D)图文多模态大模型DeekSeek-VL•视觉编码器•384分辨率SigLIP与1024分辨率SAM的结合,全局+细节•语言能力退化?•联合视觉语言预训练中加入大量纯文本数据图文多模态大模型••模型•SigLIP+PerceiverResampler+Mistral-7B•Resampler降低图像token,提升效率•保持aspectratio,4cropsandoriginal数据•interleaved数据•图文对(高质量的人工标注PMD+高噪声的laion)•Cauldron微调数据图文多模态大模型InternVL2•大容量ViT:InternViT-6B•性能更强的LLM:InternLM2/Llama3•动态高分辨率策略•视频等更多数据的引入22图文多模态大模型3360多模态大模型探索44业务落地实践360多模态大模型探索基于单模态专家缝合方案的多模态模型SEEChat•SEEChat项目(/360CVGroup/SEEChat)重点是将视觉能力与已有的LLM模型相融合,打造侧重视觉能力的多模态语言模型MLLM。在多模态能力的实现路线上,我们选择了能够充分复用不同领域已有成果的单模态专家模型缝合路线(Single-modalExpertsEfficientintegration)•主打能力:oo严格超集:SEEChatMLLM的视觉能力做为内嵌语言模型的严格超集存在,强调不影响语言模型原有的能力oOVD:在对图像内容的整体理解之外,能够同步给出涉及目标在图像中出现的位置360多模态大模型探索oSEEChat•浅层融合模型,主打Dialogue+Captioning+OVD能力模型StageIImage-TextAlignmentHuman-TextAlignmentrStageIIIDomainAlignment360多模态大模型探索oStageII初版多轮对话效果5-18-2023360多模态大模型探索oStageII初版多轮对话效果5-18-2023这张照片显示了一名男子站在一辆出租车前,出租车停在路边,窗外是一栋高楼和街道。背景是一栋高楼和街道,树木和路灯照亮了城市。图像中的人穿着黑色衬衫和白色裤子,戴着黑色帽子。图像中的树木这张照片是在夜晚拍摄的,所以背景中的高楼和街道被树木和路灯照亮,出租车停在路边。这是一张城市夜景的照片,可以让人感受到城市360多模态大模型探索oStageII初版多轮对话效果5-18-2023这张图片展示了一个街头市场,人们站在一个货架前,手里拿着各种这张图片展示了一个街头市场,人们站在一个货架前,手里拿着各种一栋建筑,屋顶上有一个遮阳伞。图片中的人穿着衣服,看起来很高这张图片的日期和时间未知。从图片的背景来看,可可以看出人们穿着夏季服装,比如短袖衬衫和短裤。在这种情况下,SEEChat图片中的人似乎正在看报纸,但我没有注意到他们是否在阅读。360多模态大模型探索•实验探索•数据••数据•开源数据•开源数据•Lai•Laion,Zero等中英文原生数据•Recaption数据•GeneralVQA,OCR,Counting,Detection等•Vicuna1.5••Visionencoder•CLIP-Vit•高分辨率策略•滑动窗口•高分辨率visionencoder•Connector360多模态大模型探索•结合实验探索和内部数据积累,SeeChat升级为360VL•2024年5月发布开源版360VL,在MMMU开源模型中排名第一https://github/360CVGroup/360VLhttps://huggingface.co/qihoo360/360VL-8Bhtt
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论