版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
书生·万象多模态大模型的
技术演进与应用探索演讲人:
王文海目录1
多模态大模型研究背景
2
大规模视觉语言模型对齐
3
强多模态模型构建4
不止于语言输出:通专融合研究背景:大语言模型&多模态大模型历史:“特定任务+大数据”取得巨大成功
一个模型解决一个问题德州扑克首次在多人复杂对局中超越人类深度学习理论突破深度置信网络1000类,
100万数据人脸识别LFW识别率99%,超过人类以视觉为核心的多模态大模型有望在众多领域带来AI生产力革命大规模语音识别
Switchboard错误降低9%
AlphaGo4:1李世乭未来:“通用性”一个模型多种任务多种模态/OpenGVLab/InternVL201120142019AlphaFoldImageNet竞赛围棋比赛蛋白质结构预测准确率新高2006202120122016研究背景:大语言模型&多模态大模型DeepSeekBaichuanInternLMChatGLMdec-onlyenc-onlyQwenenc-decli研究背景:大语言模型&多模态大模型/OpenGVLab/InternVLInternVLMiniCPMCogVLM研究背景:大语言模型&多模态大模型[1]LiJ,LiD,Savarese
S,etal.Blip-2:Bootstrappinglanguage-imagepre-training
with
frozenimageencodersandlargelanguagemodels[C]//Internationalconferenceonmachinelearning.
PMLR,2023:19730-19742.[2]
LiuH,LiC,
WuQ,etal.
Visualinstruction
tuning[J].
Advancesinneuralinformationprocessing
systems,2024,36.[3]
Wang
W,LvQ,
Yu
W,etal.Cogvlm:
Visualexpert
forpretrainedlanguagemodels[J].arXiv
preprint
arXiv:2311.03079,2023./OpenGVLab/InternVL1.QFormer[1]3.MoE
[3]2.
MLP[2]目录1
多模态大模型研究背景
2
大规模视觉语言模型对齐
3
强多模态模型构建4
不止于语言输出:通专融合InternVL:大规模视觉语言模型对齐传统视觉/视觉-语言基础模型范式已落后于大语言模型的发展,亟需新的范式来推动其发展20122021•
与LLM参数量差距过大•
与LLM表征不一致•训练数据单一、数据量小visionencodervisionencodertextencoder判别式预训练AlexNet、
ResNet对比式预训练CLIP、ALIGNimagetextcontrastiveclassesimagevisionencodervisionencodertextencoder渐进式对齐训练书生图文大模型-InternVL•60亿参数视觉模型+1000亿参数语言模型•渐进式对齐视觉基础模型和语言模型表征•大规模、多来源图文多模态训练数据传统视觉/视觉-语言基础模型范式已落后于大语言模型的发展,亟需新的范式来推动其发展20122021
2023大模型时代InternVL:大规模视觉语言模型对齐largelanguagemodel>100Bscaling
upvisionencoderto6B#params•
与LLM参数量差距过大•
与LLM表征不一致•训练数据单一、数据量小判别式预训练AlexNet、
ResNetimage
textprompt对比式预训练CLIP、ALIGNimagetextlanguage
modelfeaturealigningcontrastivegenerativeclassesimage<10B设计1:扩大视觉模型至6B参数步骤1:固定
60亿参数,网格搜索模型宽度、深度
、
MLP
Ratio和Attention
Head维度步骤2:使用CLIP作为代理任务,找到在速度、准
确性和稳定性之间取得平衡的模型InternVL:大规模视觉语言模型对齐核心思想:扩大视觉基础模型并为通用视觉语言任务进行对齐/OpenGVLab/InternVL设计1:扩大视觉模型至6B参数基于原始ViT结构,通过搜索模型深度{32,48,64,80},注意力头维度{64,
128}
,
以及MLP比率{4,8},将视觉模型扩大至6B参数,找到速度、精度、稳定性平衡的模型InternVL:大规模视觉语言模型对齐/OpenGVLab/InternVLInternVL:大规模视觉语言模型对齐设计2:渐进式的图像-文本对齐策略阶段1:利用海量带噪声的图文数据进行对比学习预训练(~5B图像)核心思想:扩大视觉基础模型并为通用视觉语言任务进行对齐/OpenGVLab/InternVL设计2:渐进式的图像-文本对齐策略阶段1:利用海量带噪声的图文数据进行对比学习预训练(~5B图像)阶段2:利用过滤后的高质量图文数据进行对比学习和生成式联合训练(~1B图像)InternVL:大规模视觉语言模型对齐核心思想:扩大视觉基础模型并为通用视觉语言任务进行对齐/OpenGVLab/InternVL设计2:渐进式的图像-文本对齐策略阶段1:利用海量带噪声的图文数据进行对比学习预训练(~5B图像)阶段2:
利用过滤后的高质量图文数据进行对比学习和生成式联合训练(~1B图像)InternVL:大规模视觉语言模型对齐筛选指标:CLIP相似度,水印概率,
unsafe概率,美学指标,图片分辨率,caption长度等/OpenGVLab/InternVL设计2:渐进式的图像-文本对齐策略阶段1:利用海量带噪声的图文数据进行对比学习预训练(~5B图像)阶段2:利用过滤后的高质量图文数据进行对比学习和生成式联合训练(~1B图像)阶段3:利用高质量Caption/VQA/多轮对话数据进行SFT训练(~4M图像)InternVL:大规模视觉语言模型对齐核心思想:扩大视觉基础模型并为通用视觉语言任务进行对齐/OpenGVLab/InternVL多模态对话数据收集包含图像描述、物体检测、
OCR、科学、
图表、数学、常识、文档、多轮对话、文本对话...InternVL:大规模视觉语言模型对齐/OpenGVLab/InternVLInternVL:大规模视觉语言模型对齐从适配视觉感知任务,到适配通用视觉语言任务,极大地扩宽了模型的适用范围LikeViT-22BLike
CLIPLike
GPT-4VImage-Text
RetrievalZero-Shot
ImageCLS.ImageVisualQuestionAnsweringImageClassification…Semantic
SegmentationMulti-Round
Dialogue…Object
DetectionInstanceSegmentationSemanticSegmentationImageClassificationGenericVision-LanguageTasks/OpenGVLab/InternVLVisual
PerceptionTasksCaptioning在多种通用视觉语言任务上的取得了最好的性能,包括:1)视觉任务:图像/视频分类,语义分割;2)视觉-语言任务:图像/视频-文本检索,零样本图像分类;3)通用视觉问答:图像描述,视觉问答,多轮对话InternVL:大规模视觉语言模型对齐/OpenGVLab/InternVLInternVL:大规模视觉语言模型对齐ImageI
∈
RH×W×3InternViT-6BF
∈
R
×
×C对于视觉任务,
InternVL的视觉编码器,即InternViT-6B,可以直接用作视觉主干网络仅用不到不到三分之一参数量,实现了与ViT-22B相当的性能/OpenGVLab/InternVLImage-LevelTasksPixel-LevelTasks多语言的零样本图文检索评测检索性能优于CLIP、
OpenCLIP、
CoCa等模型InternVL:大规模视觉语言模型对齐-C对于视觉语言任务,
有两种变体:
InternVL-Cand
InternVL-G-GInternVL:大规模视觉语言模型对齐强零样本图像、视频分类能力/OpenGVLab/InternVL/OpenGVLab/InternVL零样本视频分类能力评测零样本图像分类能力评测•即插即用的为现有扩散模型增加多语言能力•只需要英文数据训练,即可泛化到其他语言•支持多种语言的混合输入,甚至是
emoji•无需额外训练,即可兼容社区模型,如ControlNet
,
LCM
,
LoRA
等InternVL
+
Language
Adapter
->Zeroshot多语言内容生成(UNet,Transformer)(1)
OverallArchitecturehttps://githu/mulanai/MuLanDenoisingModelLanguage
Adapter
InternVL
Text
Encoder/OpenGVLab/InternVLTextEncoder/sNoisyLatentOutputInternVL
+
Language
Adapter
->Zeroshot多语言内容生成只需要英文数据,即可支持超多语言
https://github.com/mulanai/MuLan/OpenGVLab/InternVL加泰罗尼亚语阿尔巴尼亚语斯洛伐克语阿塞拜疆语简体中文繁体中文乌克兰语匈牙利语土耳其语阿拉伯语中英混合捷克语荷兰语希腊语越南语波斯语印尼语Emoji俄语德语韩语英文法语日语InternVL
+
Language
Adapter
->Zeroshot多语言内容生成即插即用,无需对Diffusion
Model做额外训练https://githu/mulanai/MuLan/OpenGVLab/InternVLDreamshaperRealisticVisionSDXL
LightningLoRA
(Lego)3DAnimationAnimateDiffSDXLTurboCartoonmixControlNetMVDreamLCM目录1
多模态大模型研究背景
2
大规模视觉语言模型对齐
3
强多模态模型构建4
不止于语言输出:通专融合增强图文多模态对话能力
3个关键点主体(强基础模型):更大的视觉模型可以包含更广
的视觉domain,抽取更强的视觉表征,更强的语言模型有更强的语言能力、世界知识和推理能力动态分辨率(火箭头):模型需要根据任务调整不同的分辨率。对于一些图像细节的理解任务,如:文档理解,高分辨率非常重要。但是对于一些常见的问答任务又不需要大分辨率。燃料(高质量数据集):多语言、多来源、精细标注InternVL
1.5:接近商用性能的开源多模态大模型/OpenGVLab/InternVLGrok-1.5VGPT-4VClaude-3OpusGemini
Pro
1.553.6%56.8%59.4%58.5%52.8%49.9%50.5%52.1%88.3%78.2%88.1%80.3%78.1%78.0%-73.5%76.1%78.5%80.8%81.3%85.6%88.4%89.3%86.5%68.7%61.4%49.8%67.5%MMMUMulti-disciplineAI2DDiagramsRealWorldQAReal-worldunderstandingChartQAChartsInternVL
1.545.2%53.5%80.7%80.6%83.8%90.9%66.0%InternVL
1.5:接近GPT-4V的开源多模态对话模型和头部商用模型对比/OpenGVLab/InternVLTextVQAText
readingMathVistaMathDocVQADocumentsBenchmarkInternVL
1.5:接近GPT-4V的开源多模态对话模型分辨率对性能的影响/OpenGVLab/InternVL在MMMU,
MMBench等评测上比肩GPT-4o和Gemini
Pro
1.5加速Scaling
Law曲线,仅需原有的1/5的算力
即可取得同等的效果算力渐进式对齐训练,通过模型"从小到大"、数据"从粗到精"的渐进式的训练策略,以较低的成本完成了大模型的训练,在有限资源下展现出卓越的性能表现书生·万象
InternVL2.0:全方面提升筛选数据扩大模型损失函数小模型+大数据
仅需20%算力资源,比肩顶级闭源多模态大模型/OpenGVLab/InternVL大模型
+小数据
高效对齐传统scaling
Law高质量精选数据海量带噪数据百亿参数模型千亿参数模型高效
预训练大模型
+和头部商用模型对比书生·万象
InternVL2.0:全方面提升更强的OCR能力:毛笔字+竖排+繁体/OpenGVLab/InternVL更强的图表理解能力/OpenGVLab/InternVL细节文字理解+文字深层含义/OpenGVLab/InternVL细节文字理解+文字深层含义/OpenGVLab/InternVL结合专业知识问答/OpenGVLab/InternVL理解人工布置的巧妙之处/OpenGVLab/InternVL图-文-动作结合回答/OpenGVLab/InternVLhttps://github图像细节理解+精确定位Model
NameVision
PartLanguage
PartHF
LinkMS
LinkDocumentInternVL2-1BInternViT-300M-448
pxQwen2-0.5B-Instruct
link
link
docInternVL2-2BInternViT-300M-448
pxinternlm2-chat-1-8b
link
link
docInternVL2-4BInternViT-300M-448
pxPhi-3-mini-128k-inst
ruct
link
link
docInternVL2-8BInternViT-300M-448
pxinternlm2_5-7b-chat
link
link
docInternVL2-26BInternViT-6B-448px-
V1-5internlm2-chat-20b
link
link
docInternVL2-40BInternViT-6B-448px-
V1-5Nous-Hermes-2-Yi-
34B
link
link
docInternVL2-Llama3
-
76BInternViT-6B-448px-
V1-5Hermes-2-Theta-
Llama-3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公共关系管理制度培训
- 燃气泄漏应急处理培训
- 2024年01月11288现代管理原理期末试题答案
- 2014年主流-参考资料-rfid电子标签系统及产品研发经典案例
- 《小学生地图知识》课件
- 西北大学《新闻摄影》2021-2022学年第一学期期末试卷
- 西安邮电大学《微型计算机原理与接口技术》2023-2024学年第一学期期末试卷
- 第八单元实验活动5常见金属的物理性质和化学性质教学设计-2024-2025学年九年级化学人教版(2024)下册
- DB11/447-2015 炼油与石油化学工业大气污染物排放标准(北京市地方标准)
- 临床路径具体实施办法
- 生物-安徽省2025届高三第一次五校(颍上一中、蒙城一中、淮南一中、怀远一中、涡阳一中)联考试题和答案
- 2023年民航东北空管局人员招聘考试真题
- 老年人护理风险防控
- 云南省高中信息技术学业水平考试知识点复习
- 2024年供应链金融服务平台合作协议
- 养老院防恐防暴应急预案
- 2024高考物理一轮复习:牛顿运动定律(测试)(学生版+解析)
- 成绩差的家长会发言稿
- 2021大学生个人职业生涯规划书6篇
- 乡村振兴的实践探索学习通超星期末考试答案章节答案2024年
- 电站安全操作规程
评论
0/150
提交评论