版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多模态大模型:开放世界理解背景图文多模态大模型360多模态大模型探索业务落地实践1234什么是大模型大参数大算力大数据什么是大模型大数据大参数大算力背景人工智能AGI,我们需要什么?ChatGPT的发布标志着自然语言处理技术迈入了一个全新的阶段。自2022年底亮相以来,它凭借其惊人的语言生成能力,迅速成为AI领域的焦点。ChatGPT能够进行连贯、深度的对话,甚至创作诗歌、撰写文章,展现出了前所未有的创造力和理解力。这一突破不仅激发了公众对于AI技术的兴趣,还加速了科技界对通用人工智能(AGI)的研究步伐。在教育、写作、娱乐等多个领域,ChatGPT的应用潜力正在被不断挖掘。教育工作者利用它辅助教学,作家借助它激发灵感,企业则将其融入客户服务,提高了效率与体验。同时,ChatGPT也引发了关于AI伦理、隐私保护及就业市场变革的广泛讨论,促使社会各界思考如何在享受AI红利的同时,建立相应的监管框架,确保技术的健康发展。总之,ChatGPT的出现不仅是技术上的革新,更是对人类社会未来发展路径的一次深刻启示。背景人工智能AGI,我们需要什么?GPT4做为新一代的GPT模型增加了对视觉模态输入的支持,这意味着它能够理解图像并进行相应的自然语言生成增加了多模态能力的GPT4也带来了应用层面的更多可能GPT-4V增强的视觉能力分析和理解图像内容,提供描述、识别对象,甚至解释场景根据图像生成创意文本格式翻译图像中的文本,强大的OCR能力GPT-4O具备原生多模态能力支持文本、音频、图像任意组合性能提升,更快的响应速度背景视觉能力是通用人工智能AGI需必备的基础能力——人类智能本身高度依赖于视觉感知理解世界学习能力情境感知识别物体交互能力预测运动……视觉-语言跨模态学习Vision-language
cross
modal
learning,亦称为VLP(Vision-Language
Pretrain)、VLM(Vision-LanguageModel),代表性的工作是20年OpenAI的CLIP,开启和引领了CV多模态研究的大模型时代Li,Yingming,MingYang,andZhongfeiZhang."Multi-viewrepresentationlearning:Asurveyfromshallowmethodstodeepmethods."arXivpreprintarXiv:1610.012061
(2016).视觉-语言跨模态学习Radford,Alec,JongWookKim,ChrisHallacy,AdityaRamesh,GabrielGoh,SandhiniAgarwal,GirishSastryetal."Learningtransferablevisualmodelsfromnaturallanguage
supervision."InInternationalconferenceonmachinelearning,pp.8748-8763.PMLR,2021.1.8B5B5B0.4BCLIP'20ALIGN'21BASIC'22DFN'23Data
Size视觉-语言跨模态学习中文图文跨模态模型
R2D2图文跨模态学习带来的基于内容的图文互检能力对于互联网搜索来说具有非常重要的落地价值,来自于360搜索的实际业务需求非常强烈。360搜索:使用跨模态模型之前的搜索结果360搜索:使用跨模态模型之后的搜索结果视觉-语言跨模态学习中文图文跨模态模型
R2D22300万训练数据,在中文图文检索任务上达到SOTA双塔base
+单塔head的混合模式专门针对数据噪声设计的momentum-updated
encoder和masked
input
+
softlabel双蒸馏[1]XieChunyu,etal.CCMB:ALarge-scaleChineseCross-modalBenchmark[C]//Proceedingsofthe31stACMInternationalConferenceonMultimedia.2023:
4219-4227.视觉-语言跨模态学习中文图文跨模态模型
R2D2伴随着算法和模型,我们一同开源了对应的图文跨模态数据集Zero,包含2.5亿中文图文对数据基于用户点击CTR筛选,数据质量更高2300万3000万1亿2.5亿Zero
V1WenLan'21WuKong'22Zero
V2Data
Size背景图文多模态大模型360多模态大模型探索业务落地实践1234图文多模态大模型LMM的研发回顾LMM
=
Large
Multimodal
Model,之前亦称为MLLM(Multimodal
Large
Language
Model),目前也有小部分工作为了强调视觉能力将其称为LVM
(Large
Vision
Model)。LMM是在单文本模态的语言模型LLM基础上发展起来的研究方向,旨在解决纯文本语言模型LLM只能理解文本输入的先天缺陷,赋予大模型对多模态信息混合输入的理解和处理能力,在此基础上可以再进一步实现多模态信息的混合输出能力相关的研究路线主要分为两条:一条是原生多模态路线,模型设计从一开始就专门针对多模态数据进行适配设计,代表性的工作有MSRA的KOSMOS、Google的Gemeni、OpenAI的GPT-4O;另一条是单模态专家模型缝合路线,通过桥接层将预训练的视觉专家模型与预训练的语言模型链接起来,代表性的工作有23年1月Saleforce的BLIP-2,以及近期的Idefics2和InternVL2等工作Gemini12-6-2023闭源GPT-4O5-14-2024闭源Qwen-VL8-15-2023开源LLaVA4-17-2023开源Idefics24-15-2024开源InternVL26-25-2024开源图文多模态大模型路线选择原生多模态路线的理论上限更高,但对应的是训练成本远高于缝合路线;缝合路线因为可以复用各个单模态领域的已有成果,因此具有很经济的训练成本优势。少数的巨头机构采用的是原生多模态路线,其它绝大多数企业和学界研究机构采用的是缝合路线SimVLMCoCaCogVLMPALIIDEFICSFlamingoPALM-E卡*月2905801374064781305198455801305198450500010000150002000025000SimVLM 290CoCaCogVLM 137PALI 406IDEFICS 478FlamingoPALM-E图文多模态大模型第一代LMM多模态LMM的研发从22年底到现在,从整个业界的角度来观察,有着非常明显的代际更替第一代LMM(22年11~23年6月)的代表性工作主要包括B
L
I
P
-
2
,LLaVA,miniGPT4以及国内智谱的VisualGLM、阿里的mPLUG-owl、自动化所的X-LLM、IDEA的Ziya-Visual等。360人工智能研究院在23年5月开源的SEEChat
(360VL的前身)也属于第一代LMM。这一代LMM的能力主要为针对图像内容的对话和问答,支持的图像分辨率非常低(224×224),研发的重心主要聚焦在模态对齐的原型验证上图文多模态大模型第二代LMM第二代LMM的研发,时间上大致为23年6~11月。从第二代LMM的研发开始,整个业界开始呈现出研发投入逐渐增强,研发竞争急剧扩大的情况。第二代LMM从研发的角度主要是要为LMM增加目标定位的能力,相比粗粒度的图像内容问答,增加目标定位能力是多模态L
M
M
能够在Agent、机器人、自动驾驶、安防巡检等场景中落地实用的必要前提图文多模态大模型第三代LMM从23年11月~至今,业界已经转入第三代LMM的研发。第二代LMM的研发中暴露出以下几个关键问题,需要在第三代LMM的研发中进一步解决III.高分辨率输入的支持2代LMM的分辨率基本都处在336~448之间图文模态间的竞争几乎所有的工作都回避了语言模型能力下降的问题多模态的ScalingLaw缝合路线的天花板是否已经出现图文多模态大模型高分辨率输入的支持第一代LMM所能处理的图像分辨率固定为224(对应图像token数32~256),第二代LMM的典型分辨率是336~448。主要制约因素是训练的成本和语言模型的窗口大小:一方面图像分辨率越高,图像编码后的image
token数越多,对应的训练成本越高;另一方面23年语言模型的输入窗口大小普遍在1K左右,过长的图像编码token长度会压缩文本输入的空间,导致问答能力的下降。图像分辨率支持不够高带来的问题,一方面是LMM在图像对话/问答中对细节的理解能力受限,另一方面更为重要的是作为通用模型的LMM很难在下游任务上实现对传统专业模型的超越,这也是目前LMM在实际落地应用中的最显著障碍目前第三代LMM模型通过将输入图像切块的方式已基本解决了高分辨率图像支持的技术障碍,同期语言模型的输入窗口也普遍从1K提升到4K、8K甚至几十万字,24年2月后开始陆续有第三代LMM的工作实现了高分辨率以及混合分辨率的支持,代表性的工作有LLaVA1.6,阿里的QwenVL-plus/max,金山的Monkey,旷视的Vary等工作。图文多模态大模型Option
I:
保持LLM原有能力,模型融合设计和训练的难度更高。代表性的工作是做为LMM先驱的Flamingo。模型结构上专门设计了多模态融合的缝合层,内嵌的LLM训练时固定不受影响。360
SEEChat和智谱的CogVLM采取了类似方案。优点是严格能力超集,缺点是训练难度更高。OptionII:
当前大多数工作的选择则是在LMM上放弃文本模态的能力,只强调视觉模态的能力。为了尽可能提升LMM在视觉任务上的表现,将LLM打开参与视觉任务训练。这么做的优点是可以降低LMM在模型设计和训练上的难度,容易刷高LMM在视觉任务上的指标,但LLM会发生显著的遗忘效应。图文模态间的竞争多任务训练一直以来存在任务间竞争的问题在多模态LMM的研发上,多任务的竞争问题更为显著,特别是视觉模态vs文本模态的竞争融合路线:在多模态训练时加入文本数据,来缓解LLM的遗忘问题图文多模态大模型多模态Scaling
Law缝合路线目前最大的障碍:不具有很好的data-performancescaling
up能力当前缝合路线的模型结构基本已经收敛为image
encoder
+
projector
+
LLM的结构,其中image
encoder负责图像编码,LLM负责对话逻辑,projector作为缝合层将视觉编码器和语言模型进行桥接缝合但是当前以LLAVA为代表的浅层缝合模型,通常在百万训练量级后就已经饱和,将训练量提高到千万甚至几亿的量级并不能带来LMM模型能力的明显提升背后的根本原因,要追溯到缝合路线下LMM中内嵌的语言模型能力是否需要保持上两种解决方案:方案一:在image
encoder+
projector上做文章,将海量数据的信息在预训练阶段训练到视觉编码器和缝合层中,语言模型参数仅在最后的指令微调阶段参与训练。代表性的工作包括国内零一万物的Yi-VL,书生浦语InternLM-XComposer-VL,韩国KaKaoBrain的Honeybee等方案二:在多模态训练过程中也同步加入相当比例的纯文本训练数据同时进行训练,代表性的工作包括Apple的MM1和国内幻方的Deepseek-VL等工作图文多模态大模型Gemini12-6-2023GoogleGPT-4O5-14-2024OpenAIIdefics24-15-2024Hugging
FaceDeepSeek-VL3-18-2024幻方360VL5-16-2024360研究院InternVL26-25-2024上海AI
LAB第一代LMM第二代LMM第三代LMM图文多模态大模型MiniGPT4模型结构:采用
BLIP2
的
ViT
和Q-Former
作为视觉编码器,采用Vicuna
作为文本解码器,通过一个线性映射层将视觉特征映射到文本表示空间模型训练:冻结视觉编码器和文本解码器,只训练线性映射层Pre-traing:5M图文数据对齐SFT:3.5K人工矫正数据图文多模态大模型LLaVA模型结构:采用
CLIP
VIT-L/14作为视觉编码器,采用
Vicuna
作为文本解码器,通过一层MLP做线性映射模型训练:Pre-traing:从
CC3M
中通过限制
caption
中名词词组的最小频率过滤出595k图文数据,冻住视觉编码器和文本解码器,只训练线性映射层SFT:映射矩阵与语言模型均更新图文多模态大模型LLaVA-1.5数据增加更多微调数据VQARegion-level
VQA中英双语ShareGPT对特定问题设计prompt模型增加VL
connector容量提升模型分辨率更大杯LLM图文多模态大模型LLaVA-Next混合分辨率支持自适应选择最佳缩放尺寸1x1,1x2,1x3,1x4,1x5,
1x6,2x2,2x3等模型性能更好的LLM(Mistral-7B、Nous-Hermes-2-Yi-34B数据高质量GPT-4V数据(LAION-GPT-V
和ShareGPT-4V)用户反馈真实数据增强OCR能力(DocVQA、SynDog-EN等)加强图表理解能力(ChartQA,
DVQA,
和
AI2D)图文多模态大模型DeekSeek-VL视觉编码器384分辨率SigLIP与1024分辨率SAM的结合,全局+细节语言能力退化?联合视觉语言预训练中加入大量纯文本数据图文多模态大模型Idefics2模型SigLIP+Perceiver
Resampler+Mistral-7BResampler降低图像token,提升效率保持aspectratio,4
cropsandoriginal数据interleaved数据图文对(高质量的人工标注PMD+高噪声的laion)PDF文件(OCR-IDL,PDFA,Rendered
Text)Cauldron微调数据图文多模态大模型InternVL2大容量ViT:InternViT-6B性能更强的LLM:InternLM2/Llama3动态高分辨率策略视频等更多数据的引入背景图文多模态大模型360多模态大模型探索业务落地实践1234360多模态大模型探索基于单模态专家缝合方案的多模态模型SEEChatSEEChat项目(/360CVGroup/SEEChat)重点是将视觉能力与已有的LLM模型相融合,打造侧重视觉能力的多模态语言模型MLLM。在多模态能力的实现路线上,我们选择了能够充分复用不同领域已有成果的单模态专家模型缝合路线(Single-modal
Experts
Efficient
integration)主打能力:严格超集:SEEChat
MLLM的视觉能力做为内嵌语言模型的严格超集存在,强调不影响语言模型原有的能力OVD:在对图像内容的整体理解之外,能够同步给出涉及目标在图像中出现的位置360多模态大模型探索模型BLIP-2ViT+Qformer
+projectionlayer+chatGLM6B+
LoRAStage
IImage-TextAlignment训练数据23M中文图文对[1]
+
BLIP-CapFilt方法重新生成caption,只训练projection
layerStage
IIHuman-TextAlignmentV1.0
通用领域模型:Instruction-followingdata(LLAVA158k+miniGPT43.5k)finetuneprojection
layer+chatGLM+
LoRAStage
IIIDomainAlignmentV1.1
领域适配模型:Instruction-followingdata,按照LLAVA方式半自动化标注一批领域数据SEEChat浅层融合模型,主打Dialogue
+
Captioning
+OVD能力[1]XieC,CaiH,LiJ,etal.CCMB:ALarge-scaleChineseCross-modalBenchmark[C]//Proceedingsofthe31stACMInternationalConferenceonMultimedia.2023:
4219-4227.360多模态大模型探索Stage
II初版多轮对话效果
5-18-2023360多模态大模型探索Stage
II初版多轮对话效果
5-18-2023User 详细描述这张图片。SEEChat这张照片显示了一名男子站在一辆出租车前,出租车停在路边,窗外是一栋高楼和街道。背景是一栋高楼和街道,树木和路灯照亮了城市。图像中的人穿着黑色衬衫和白色裤子,戴着黑色帽子。图像中的树木和路灯照亮了城市,背景中的高楼和街道。User这是白天还是晚上?SEEChat这张照片是在夜晚拍摄的,所以背景中的高楼和街道被树木和路灯照亮,出租车停在路边。这是一张城市夜景的照片,可以让人感受到城市的喧嚣和繁忙。User 出租车是什么颜色的?SEEChat 出租车是黄色的。User 站在前面的是男人还是女人?SEEChat 站在前面的是男人。User 图片里路灯是什么颜色的?SEEChat 图像中的路灯是黄色的。360多模态大模型探索Stage
II初版多轮对话效果
5-18-2023User 详细描述这张图片。SEEChat这张图片展示了一个街头市场,人们站在一个货架前,手里拿着各种商品。货架上堆满了各种商品,包括蜡烛、糖果、咖啡和茶。背景是一栋建筑,屋顶上有一个遮阳伞。图片中的人穿着衣服,看起来很高兴,手里拿着商品。User天气怎么样?SEEChat这张图片的日期和时间未知。从图片的背景来看,可能是一个阳光明媚的天气,遮阳伞的阴影覆盖在建筑上。User 有几个人?SEEChat 根据图片中人的数量,很难确定一共有几个人。User 房子是什么颜色的?SEEChat 房子的颜色是白色的,可能是奶油色或浅黄色。User 什么季节?SEEChat 这张图片很难准确地推断是哪个季节。User 根据人们穿的衣服推测是哪个季节。SEEChat可以看出人们穿着夏季服装,比如短袖衬衫和短裤。在这种情况下,可能正处于夏季或炎热季节。User有人在看报纸吗?SEEChat图片中的人似乎正在看报纸,但我没有注意到他们是否在阅读。360多模态大模型探索实验探索模型LLMsQWen2Llama3Vicuna1.5ChatglmVisionencoderSiglipCLIP-VitDFN高分辨率策略滑动窗口高分辨率vision
encoderConnectorMLPPerceiver
resamplerCNN数据开源数据Laion,Zero等中英文原生数据Recaption数据GeneralVQA,OCR,Counting,Detection等内部数据360多模态大模型探索结合实验探索和内部数据积累,SeeChat升级为360VL2024年5月发布开源版360VL,在MMMU开源模型中排名第一/360CVGroup/360VLhttps://huggingface.co/qihoo360/360VL-8B
https://huggingface.co/qihoo360/3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《侦查策略》课件
- 外阴湿疹的临床护理
- 孕期中暑的健康宣教
- 传导性耳鸣的健康宣教
- 这位厅官的讲话火了
- 双曲线定义课件
- 你们想错了课件
- 化脓性腮腺炎的健康宣教
- 科学探究:物质的比热容课件沪科
- 鼻毛孔粗大伴白色分泌物的临床护理
- 分布式光伏工程报价参考
- 幼儿园大班安全活动《交通安全伴我行》课件
- 三年级下册混合计算题100道及答案
- 北京西城实小2024-2025学年六年级数学第一学期期末综合测试试题含解析
- 食品供应投标方案(技术方案)
- 2025年研究生考试考研法律硕士专业基础(法学397)试卷及答案指导
- 2024-2030年炔草酯全产业竞争状况监测及未来需求趋势分析报告(-版)
- 2024年高考语文复习试题汇编:文学类文本阅读(含解析)
- 门桥式起重机市场发展预测和趋势分析
- 2022新教材苏教版科学5五年级下册全册教学设计
- Unit 5 The colourful world Part A(教学设计)-2024-2025学年人教PEP版(2024)英语三年级上册
评论
0/150
提交评论