书生万象大模型的技术演进与应用探索_第1页
书生万象大模型的技术演进与应用探索_第2页
书生万象大模型的技术演进与应用探索_第3页
书生万象大模型的技术演进与应用探索_第4页
书生万象大模型的技术演进与应用探索_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

书生·万象多模态大模型的目录/OpenGVLab/InternVL未来:“通用性”一个模型多种任务多种模态深度学习理论突破深度置信网络AlphaFold蛋白质结构预测准确率新高围棋比赛AlphaGo4:1李世乭历史:“特定任务+大数据”取得巨大成功未来:“通用性”一个模型多种任务多种模态深度学习理论突破深度置信网络AlphaFold蛋白质结构预测准确率新高围棋比赛AlphaGo4:1李世乭ImageNetImageNet竞赛2016200620212012201620062021大规模语音识别 大规模语音识别 德州扑克首次在多人复杂对局中超越人类人脸识别LFW识别率99%,超过人类以视觉为核心的多模态大模型有望在众多领域带来AI生产力革命lili/OpenGVLab/InternVL/OpenGVLab/InternVL/OpenGVLab/InternVL目录传统视觉/视觉-语言基础模型范式已落后于大语言模型的发展,亟需新的范式来推动其发展visionvisionvision•训练数据单一、数据量小传统视觉/视觉-语言基础模型范式已落后于大语言模型的发展,亟需新的范式来推动其发展visionvisionvisionvision•训练数据单一、数据量小•60亿参数视觉模型+1000亿参数语言模型•渐进式对齐视觉基础模型和语言模型表征•大规模、多来源图文多模态训练数据核心思想:扩大视觉基础模型并为通用视觉语言设计1:扩大视觉模型至6B参数/OpenGVLab/InternVL/OpenGVLab/InternVL设计1:扩大视觉模型至6B参数基于原始ViT结构,通过搜索模型深度{32,48,64,80},注意力头维度{64,128},以及MLP比率{4,8},将视觉模型扩大至6B参数,找到速度、精度、稳定性平衡的模型核心思想:扩大视觉基础模型并为通用视觉语言设计2:渐进式的图像-文本对齐策略核心思想:扩大视觉基础模型并为通用视觉语言设计2:渐进式的图像-文本对齐策略设计2:渐进式的图像-文本对齐策略阶段1:利用海量带噪声的图文数据进行对比学习预训练(~5B图像)阶段2:利用过滤后的高质量图文数据进行对比学习和生成式联合训练(~1B图像)筛选指标:CLIP相似度,水印概率,unsafe概率,美学指标,图片分辨率,caption长度等核心思想:扩大视觉基础模型并为通用视觉语言设计2:渐进式的图像-文本对齐策略从适配视觉感知任务,到适配通用视觉语言任务,极大地扩宽了ImageClassificationImageClassificationSemanticSemanticSegmentationImageClassificationImageClassificationObjectObjectDetectionInstanceSegmentationZeroInstanceSegmentationZero-ShotImageCLS.CaptioningSemanticCaptioningSemanticSegmentation…VisualQuestionAns…VisualQuestionAnsweringMulti-RoundDialogueMulti-RoundDialogue……I∈RH×W×3F∈R××C仅用不到不到三分之一参数量,实现了与ViT检索性能优于CLIP、OpenCLIP、CoCa等模型强零样本图像、视频分类能力/OpenGVLab/InternVLhttps://github/OpenGVLab/InternVL/OpenGVLab/InternVLInternVL+LanguageAdapter->Zeroshot多语言内容生成OutputOutput(UNet,Transformer)•即插即用的为现有扩散模型增加多语言能力•只需要英文数据训练,即可泛化到其他语言InternVL+LanguageAdapter->Zeroshot多语言内容生成只需要英文数据,即可支持超多语言/mulanai/MuLanInternVL+LanguageAdapter->Zeroshot多语言内容生成即插即用,无需对DiffusionModel做额外训练AnimateDiffAnimateDiff目录/OpenGVLab/InternVL):):理解,高分辨率非常重要。但是对于一些常):53.6%56.8%53.6%56.8%59.4%58.5%52.8%49.9%50.5%52.1%88.3%78.2%88.1%80.3%78.1%78.0%-73.5%76.1%78.5%80.8%81.3%85.6%88.4%89.3%86.5%68.7%61.4%49.8%67.5%AI2D45.2%53.5%80.7%80.6%83.8%90.9%66.0%/OpenGVLab/InternVL/OpenGVLab/InternVL渐进式对齐训练,通过模型"从小到大"、数据"从粗到精"的渐进式的训练策略,以较低的成本完成了大模型的训练,在有限资源下展现出卓越的性能表现大模型大数据仅需20%算力资源,比肩顶级闭源多模态大模型高效预训练仅需20%算力资源,比肩顶级闭源多模态大模型/OpenGVLab/InternVL更强的OCR能力:毛笔字+竖排+繁体更强的图表理解能力细节文字理解+文字深层含义细节文字理解+文字深层含义结合专业知识问答理解人工布置的巧妙之处httpshttps://github/OpenGVLab/InternVL

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论