多模态大模型LMM与细粒度开放世界目标检测_第1页
多模态大模型LMM与细粒度开放世界目标检测_第2页
多模态大模型LMM与细粒度开放世界目标检测_第3页
多模态大模型LMM与细粒度开放世界目标检测_第4页
多模态大模型LMM与细粒度开放世界目标检测_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

冷大炜360人工智能研究院视觉方向负责人工作。演讲主题:多模态大模型LMM与细粒度开放世界目标检测360人工智能研究院360ArtificialIntelligenceInstitute多模态大模型LMM与细粒度开放世界目标检测2人工智能研究院简介360人工智能研究院360ArtificialIntelligenceInstituteo人工智能研究院o视觉引擎360人工智能研究院360Artificial360ArtificialIntelligenceInstitute3360人工智能研究院360Artificial360ArtificialIntelligenceInstitute360人工智能研究院360Artificial360ArtificialIntelligenceInstitute视觉引擎贡献了其中的5/75360人工智能研究院360ArtificialIntelligenceInstitute44多模态大模型LMM细粒度开放世界目标检测6360人工智能研究院360Artificial360ArtificialIntelligenceInstitute大算力大算力7360人工智能研究院360Artificial360ArtificialIntelligenceInstitute大模型算法大参数大参数89视觉-语言跨模态学习360人工智能研究院360ArtificialIntelligenceInstitute•Vision-languagecrossmodallearning,亦称为VLP(Vision-LanguagePretrain)、VLM(Vision-LanguageModel代表性的工作是20年OpenAI的CLIP,开启和引领了CV多模态研究的大模型时代Li,Yingming,MingYang,andZhongfeiZhang."Multi-viewrepresentationlearning:Asurveyfromshallowmethodstodeepmethods."arXivpreprintarXiv:1610.012061(2016).视觉-语言跨模态学习360人工智能研究院360ArtificialIntelligenceInstitute0.4BCLIP'20ALIGN'21BASIC'22DFN'23Radford,Alec,JongWookKim,ChrisHallacy,AdityaRamesh,GabrielGoh,SandhiniAgarwal,GirishSastryetal."Learningtransferablevisualmodelsfromnaturallanguagesupervision."InInternationalconferenceonmachinelearning,pp.8748-8763.PMLR,2021.视觉-语言跨模态学习360人工智能研究院360ArtificialIntelligenceInstitute•图文跨模态学习带来的基于内容的图文互检能力对于互联网搜索来说具有非常重要的落地价值,来自于360搜索的实际业务需求非常强烈。360搜索:使用跨模态模型之前的搜索结果360搜索:使用跨模态模型之后的搜索结果视觉-语言跨模态学习360人工智能研究院360ArtificialIntelligenceInstitute•2300万训练数据,在中文图文检索任务上达到•双塔base+单塔head的混合模式•专门针对数据噪声设计的momentum-updatedencoderXie,Chunyu,etal."ZeroandR2D2:Alarge-scaleChinesecross-modalbenchmarkandAvision-languageframework."arXivpreprintarXiv:2205.03860(2022).360人工智能研究院360Artificial360ArtificialIntelligenceInstitute原始的互联网图文对,caption的描述通常并不无关词噪声夹杂的现象视觉-语言跨模态学习•伴随着算法和模型,我们一同开源了对应的图文跨模态360人工智能研究院360ArtificialIntelligenceInstitute2.5亿2300万3000万ZeroV1WenLan'21WuKong'22ZeroV2视觉-语言跨模态学习360人工智能研究院360ArtificialIntelligenceInstitute•图文跨模态模型带来的一个全新能现开放集的目标分类(Open-setImageClassification亦即zero-shotimageclassification基于内容的IoT安防视频分析开放世界目标检测•是分类任务的升级,也是分割任务的基础•获取目标的位置和大小信息对于视觉信息的理解至关重要360人工智能研究院360ArtificialIntelligenceInstitute?BoCheng,etal."HiCo:HierarchicalControllableDiffusionModelforLayout-to-imageGeneration."acceptedbyNeuraIPS24开放世界目标检测360人工智能研究院360ArtificialIntelligenceInstitute•待检测目标需要在模型训练前就提前定义,且是闭集•高度依赖人工标注的有监督数据;修改目标定义意味着要从头重新标注•数据标注成本随着待检测目标的数量呈超线性增长,无法扩展到千类甚至万类的目标检测场景开放世界目标检测360人工智能研究院360ArtificialIntelligenceInstitute•利用跨模态模型的跨模态分类能力,将目标检测与大模型zero/few-shot能力相结合,能够很好的克服传统方法的前述问题,实现对任意类型和数量的目标进行检测,无需事先定义Gu,Xiuye,Tsung-YiLin,WeichengKuo,andYinCui."Open-vocabularyobjectdetectionviavisionandlanguageknowledgedistillation."arXivpreprintarXiv:2104.13921(2021).开放世界目标检测360人工智能研究院360ArtificialIntelligenceInstituteLi,Jincheng,etal."WhatMakesGoodOpen-VocabularyDetector:ADisassemblingPerspective."arXivpreprintarXiv:2309.00227(2023).开放世界目标检测360人工智能研究院360ArtificialIntelligenceInstitute•开放世界目标检测竞赛:为促进OVD方向国内研究人员的交流,我们与中国图象图形学学会合作,举办了中山以及百度、字节、滴滴等132支队伍的参与。https://360cvgroup.github.io/OVD_Contest/360人工智能研究院360Artificial360ArtificialIntelligenceInstituteo分类:CLIP提供的开放集分类能力缺乏局部性开放世界目标检测360人工智能研究院360ArtificialIntelligenceInstitute•分类:CLIP-ViT-B/32•定位:所有方法在COCO-Base上训练(base•实验表明,无论是提升RPN的泛化性还是OVD检测的性能Li,Jincheng,etal."WhatMakesGoodOpen-VocabularyDetector:ADisassemblingPerspective."arXivpreprintarXiv:2309.00227(2023).开放世界目标检测360人工智能研究院360ArtificialIntelligenceInstituteCLIP的跨模态对比学习是以图像vs文本的整CLIP训练里使用的文本是带有极高噪声的短文Li,Jincheng,etal."WhatMakesGoodOpen-VocabularyDetector:ADisassemblingPerspective."arXivpreprintarXiv:2309.00227(2023).多模态大模型LMM360人工智能研究院360ArtificialIntelligenceInstitute视觉能力是通用人工智能AGI需必备的基础能力•22年被媒体誉为“AIGC元年”,这一年中AI绘画和chatGPT相继引爆了全球科技界,成为人工智能领域的两大里程碑事件,特别是chatGPT的推出,又重新点燃了人们对通用人工智能AGI的新一轮期待,chatGPT所表现出来的前所未有的逻辑能力和推理能力,让众多AI领域的专家和研究人员不禁为之赞叹。与此同时,更多的企业和机构也开始尝试将chatGPT应用于自己的业务中,希望通过人工智能的力量来提升工作效率和解决难题。•chatGPT是基于GPT3.5开发的纯文本单模态的语言模型,对于它的下一代更新,我们之前猜测除了文本能力的继续提升外,从单模态过渡到多模态将是更为关键的一点,23年3月15日GPT4的推出,证实了我们的推测:GPT4做为新一代的GPT模型,增加了对视觉模态输•增加了多模态能力的GPT4也带来了应用层面的更多可能,比如在电商领域中,商家可以将产品图像输入GPT4进行描述生成,从而为消费者提供更加自然的商品介绍;在娱乐领域中,GPT4可以被用于游戏设计和虚拟角色创造,为玩家带来更加个性化的游戏体验和互动快乐。视觉能力一向被视为一个通用人工智能AGI智能体所需必备的基多模态大模型LMM360人工智能研究院360ArtificialIntelligenceInstitute基于单模态专家缝合方案的多模态模型SEEChat•SEEChat项目(/360CVGroup/SEEChat)于23年3月启动,目标是将视觉能力与已有的LLM模型相融合,打造侧重视觉能力的多模态模型。在多模态能力的实现路线上,我们选择了能够充分复原有的能力步给出涉及目标在图像中出现的位置。这项多模态能力将有望对未来的机器人和自动驾驶产生重多模态大模型LMM360人工智能研究院360ArtificialIntelligenceInstitute工作为了强调视觉能力将其称为LVM(LargeVisionModel)。LMM是在单文本模态的语言模型LLM基础上发展起来的原生多模态路线o模型backbone基于多模态数据从头训练单模态专家缝合路线o原生多模态路线o模型backbone基于多模态数据从头训练单模态专家缝合路线o分别复用各个模态已有的预训练模型,基于projector进行拼接和微调训练融合路线o基于缝合路线进行初始化,然后过渡到基Wu,S.,Fei,H.,Qu,L.,Ji,W.andChua,T.S.,2023.Next-gpt:Any-to-anymultimodalllm.arXivpreprintarXiv:2309.05519.多模态大模型LMM360人工智能研究院360ArtificialIntelligenceInstitute•多模态LMM的研发从23年初到现在,从整个业界的角度来观察,有着非常明显的代际更替•第一代LMM(23年1~6月)的代表性阿里的mPLUG-owl、自动化所的X-LLM、IDEA的Ziya-Visual等。360人SEEChat(360VL的前身)也属于第一代LMM。•这一代LMM的能力主要为针对图像内容的对话和问答,支持的图像分辨率非常低(224×224研发的重心主要聚焦在模态对齐的原型验证上多模态大模型LMM360人工智能研究院360ArtificialIntelligenceInstitute••原生多模态路线的理论上限更高,但对应的是训练成本远高于缝合路线;•缝合路线因为可以复用各个单模态领域的已有成果,因此具有很经济的训练成本优势。•少数的巨头机构采用的是原生多模态路线,其它绝大多数企业和学界研究机构采用的是缝合路线CogVLMSimVLM CogVLMSimVLM478478406406卡*月多模态大模型LMM•从第二代LMM的研发开始,整个业界开始呈现出研发投入逐渐增强,研发竞争急剧扩大的情况。•第二代LMM从研发的角度主要是要为LMM增加目标定位的能力,相比粗粒度的图像内容问答,增加目标定位能力是多模态LMM能够在Agent、机器人、自动驾驶、安防巡检等场景中落地实用的必要前提360人工智能研究院360ArtificialIntelligenceInstitute名称名称机构Apple+哥大原生缝合Y文本能力下降Y开源Y主打特性CogVLM智谱+清华YNYWisconsin大学YYYVQA,无目标定位能力,无in-conlearning能力AnyMALYY视觉+听觉输入GPT-4VOpenAIY-KOSMOS-2.5Y-文档级文字识别北大YYYIn-contextlearning,无目标定位能力Qwen-VLYYYcontextlearning能力NeXT-GPT新加坡国立YYY多模态输入+多模态输出Skywork-MM9.5昆仑天工YYYVQA,无目标定位能力,无in-conlearning能力8.1DeepmindY-机器人规划CM3LeonY-多模态原生输入输出智源Y-Y原生多模态输入,输出通过拼接方式做了图像生成Shikra商汤YYYY-多模态大模型LMM360人工智能研究院360ArtificialIntelligenceInstitute•原SEEChat在第二代时更名为360VL,•在相比第一代LMM更好的图像对话/问答能力基础上,提供以自由对话的方式实现对图像中目标位置的开放世界检测能力多模态大模型LMM360人工智能研究院360ArtificialIntelligenceInstitute•从23年11月~至今,业界已经转入第三代LMM的研发。•第二代LMM的研发中暴露出以下几个关键问题,需要在第三代LMM的研发中进一步解决•2代LMM的分辨率基本都处在336~448之间•几乎所有的工作都回避了语言模型能力下降的问题•缝合路线的天花板是否已经出现•检测能力仍是所有LMM的能力短板多模态大模型LMM360人工智能研究院360ArtificialIntelligenceInstitute•第一代LMM所能处理的图像分辨率固定为224(对应图像token数256~512第二代LMM的典型分辨率是336~448。•主要制约因素是训练的成本和语言模型的窗口大小:一方面图像分辨率越高,图像编码后的imagetoken数越多,对应的训练成本越高;另一方面23年语言模型的输入窗口大小普遍在1K左右,过长的图像编码token长度会压缩文本输入的空间,导致问答能力的下降。•图像分辨率支持不够高带来的问题,一方面是LMM在图像对话/问答中对细节的理解能力受限,另一方面更为重要的是作为通用模型的LMM很难在下游任务上实现对传统专业模型的超越,这也是目前LMM在实际落地应用中的最显著障碍。•目前第三代LMM模型通过将输入图像切块的方式已基本解决了高分辨率图输入窗口也普遍从1K提升到4K、8K甚至几十万字,24年2月后开始陆续有第三代LMM的工作实现了高分辨率以及混合分辨率的支持,代表性的工作有多模态大模型LMM360人工智能研究院360ArtificialIntelligenceInstitute•多任务训练一直以来存在任务间竞争的问题融合路线:在多模态训练时加入文本数据,来缓解来缓解LLM的遗忘问题和训练的难度更高。代表性的工作是做为LMM先驱的Flamingo。模型结构上专门设时固定不受影响。360SEEChat和智谱的CogVLM采取了类似方案。优点是严格能力OptionII:当前大多数工作的选择则是在LMM上放弃文本模态的能力,只强调视觉模态的能力。为了尽可能提升LMM在视觉任务上的表现,将LLM打开参与视觉任务训练。这么做的优点是可以降低LMM在模型设计和训练上的难度,容易刷高LMM在视觉任多模态大模型LMM360人工智能研究院360ArtificialIntelligenceInstitute•缝合路线目前最大的障碍:不具有很好的data-performancescalingup能力•当前缝合路线的模型结构基本已经收敛为imageencoder+projector+LLM的结构,其中imageencoder负责图像编码,LLM负责对话逻辑,projector作为缝合层将视觉编码器和语言模型进行桥接缝合•但是当前以LLAVA为代表的浅层缝合模型,通常在百万训练量级后就已经饱和,将训练量提高到千万甚至几亿的量级并不能带来LMM模型能力的明显提升•背后的根本原因,要追溯到缝合路线下LMM中内嵌的语言模型能力是否需要保持上•两种解决方案:•方案一:在imageencoder+projector上做文章,将海量数据的信息在预训练阶段训练到视觉编码器和缝合层中,语言模型参数仅在最后的指令微调阶段参与训练。代表性的工作包括国内零一万物的Yi-VL,书生浦语InternLM-XComposer-VL,韩国KaKaoBrain的Honeybee等•方案二:在多模态训练过程中也同步加入相当比例的纯文本训练数据同时进行训练,代表性的工作包括Apple的MM1和国内阿里的QwenVL-max以及幻方的DeepseekVL等工作 ?多模态大模型LMM360人工智能研究院360ArtificialIntelligenceInstituteIAA是研究院自主研发的新型多模态网络结构,目的一方面是寻找降低多模态大模型中内嵌语言模型在训练过程中出现的灾难性遗忘问题,另一方面是探索多模态大模型的插件机制,形成基础模型+专用插件的生态蓝图IAA网络通过不同于Flamingo的内嵌网络插层方式,显著降低了多模态大模型中内嵌语言模型在训练过程中出现的灾难性遗忘问题Wang,Bin,ChunyuXie,DaweiLeng,andYuhuiYin."IAA:Inner-AdaptorArchitectureEmpowersFrozenLargeLanguageModelwithMultimodalCapabilities."arXiv:2408.12902(2024).多模态大模型LMM360人工智能研究院360ArtificialIntelligenceInstituteWang,Bin,ChunyuXie,DaweiLeng,andYuhuiYin."IAA:Inner-AdaptorArchitectureEmpowersFrozenLargeLanguageModelwithMultimodalCapabilities."arXiv:2408.12902(2024).多模态大模型LMM360人工智能研究院360ArtificialIntelligenceInstitute•目标检测能力是GPT-4V的显著短板GPT-4V的目标检测能力是其最明显的短板之一•第二代LMM已经验证目标检测能力在LMM上实现是可行的Chen,Keqin,etal."Shikra:Unleashingmultimodalllm’sreferentialdialoguemagic."arXivpreprintarXiv:2306.15195(2023).开放世界目标检测360人工智能研究院360ArtificialIntelligenceInstituteCLIP的跨模态对比学习是以图像vs文本的整CLIP训练里使用的文本是带有极高噪声的短文Li,Jincheng,etal."WhatMakesGoodOpen-VocabularyDetector:ADisassemblingPerspective."arXivpreprintarXiv:2309.00227(2023).细粒度开放世界目标检测360人工智能研究院360ArtificialIntelligenceInstitute•Discernanddetectopenworldobjectwithdifferentdetailedattributes对开放世界中的具有不同细节属性的目标进行区分并检测检测的能力练方式下可以实现基础的目标检测检测的能力练方式下可以实现基础的目标检测OVD实现的优秀载体细粒度开放世界目标检测细粒度图文对齐•360VL3.0在MMMU/MMBench上,在开源模型中排名第一360人工智能研究院360ArtificialIntelligenceInstitute细粒度开放世界目标检测•当前的评测以比较简单的RefCOCO为主,缺乏在专业检测benchmark上的验证图片总量bbox总量每张图片bbox均值valtestAtestBvaltestAtestBvaltest360人工智能研究院360ArtificialIntelligenceInstitutedesktopapplecomputer细粒度开放世界目标检测•LLAVA1.5在COCO上的测试结果表明:•通用模型(只包含RefCOCO数据)在COCO上的表现非常差•SFT阶段加入COCO数据(117K)后AP值有明显提升,但依然差强人意•小目标上的检测性能显著低于median/large360人工智能研究院360ArtificialIntelligenceInstituteAPAP50AP75AP_sAP_mAP_lGeneralSFTonlyfinetune41.743.344.643.045.625.146.9[1]Chen,Ting,SaurabhSaxena,LalaLi,DavidJ.Fleet,andGeoffreyHinton."Pix2seq:Alanguagemodelingframeworkforobjectdetection."arXivpreprintarXiv:2109.10852(2021).细粒度开放世界目标检测360人工智能研究院360ArtificialIntelligenceInstitute•基于360VL3.07B实验:•提高分辨率可以显著提升LMM的目标检测能力•扩大检测任务的预训练数据规模可以小幅度提升LMM的目标检测能力APAP50AP75提高分辨率50.5扩大预训练数据42.145.843.045.6360人工智能研究院360Artificial360ArtificialIntelligenceInstitute细粒度开放世界目标检测360人工智能研究院360ArtificialIntelligenceInstituteCOCOtrain860001val图片总量bbox总量•LMM拟合了COCOtrainset的bbox分布,COCOtrain860001val图片总量bbox总量•当前简单的自回归训练方式,导致LMM在检测上的召每张图片bbox均值COCOtrainsetbboxdistributionCOCOvalidationsetbboxdistribution细粒度开放世界目标检测•基于S-DETR[1]构造伪标签对GT的缺失进行补充360人工智能研究院360ArtificialIntelligenceInstituteAPAP50AP75AR@100提高分辨率50.543.1扩大预训练数据数据42.145.8伪标签提高LMM召回47.366.251.260.243.045.6[1]Hou,Xiuquan,etal."Salie

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论