行业多模态大模型训推加速落地思考-阿里云+谢榛

上传人：策*** IP属地：山西上传时间：2025-01-06 格式：DOCX 页数：51 大小：2.86MB 积分：19.9 举报 版权申诉

已阅读5页，还剩46页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

阿里云/行业多模态模型负责人，高级算法专家行业多模态模型迭代范式多模态生成多模态生成参数：1.5B、7B、72B、xxxB看见且看懂：动态分辨率、OCR增强、视觉内容解析听见且听懂：多语言理解、音乐鉴赏、情感分析等能力长上下文窗口、代码、数学、多语言多模态检索多模态检索多模态内容生成多模态内容理解多模态内容生成多模态大模型MLLM/VLM多模态大模型MLLM/VLM性本本否低高否低低高弱能能高高强ASurveyofLLMASurveyonMultimodalLargeLanguageModels2024.02.12024.2-Gemini2024.02.12024.2-MeteorChameleonInternVL1.5Grok-1.5VInternLM-XComposer2-4KHDFerret-UICuMo,Ovis……Claude-3.5Sonnet2024.06.212024.6EVLMVILA^2Llava-NextVideoPaliGemmaInternvLInternVL2InternLM-XComposer2.5SOLO,IDA-VLM，MoME,SlowFast-LLaMA……Grok-22024.08.132024.8Mini-InternVLCAriaCAriaNVLMmPLUG-DocOwl22024.11-122024.11-12Pixtral,Ferret-UI2……MoE-LLaVAMeituanMoblieVLMV2LWMDeepSeek-VLMini-GeminiMM1LLaVA-Next,ALLaVA2024.4-5GPT-4o2024.05.132024.7ParrotGLM-4VVideoLLaMA2Phi-3-VisionLlava-NextInterleaveCambrain-1EVE,LongVA……Llava-NextOneVisionmPLUG-Owl3MoMaTransFusionBLIP-3LongVILACogVLM2SHOW-O,Eagle2024.9-10LLaMA3.2Qwen2-VL2024.09.18O1-Pro2024.12.09Gemini2.02024.12.11LLaVA-cotTokenFlowMoE端侧/小模型全模态(+audio)decoder-onlyReasoning行业多模态场景-AIcitychallengeAIcitychallenge有CVPR和英伟达主办，旨在推动智慧城市发展随着⼤模型技术爆发，2024年特此开设多模态城市交通安全分析赛道3.环境背景复杂4.结果长文本描述modeldatadatafusedfusedmodelsmodelsVLMsVLMs行业模型迭代行业模型迭代Pipeline多模态RAG领域/动态知识CityLLaVA:EfficientFine-tuningforVlmsinCityScenarioThe1stPlaceSolutiontoThe8thNVIDIAAICityChallenge(CVPR2024workshop)Track2Global&LocalViewswithVisualPromptsQA自动生成关键点提炼视觉提示扩写改写LoRA及其变种LoRA及其变种全量微调方法说明添加低秩矩阵来适应新任务，显著减少可训练参数数量更新模型的所有参数添加新transformerlayer/MLP等模型层，新层经过ZeRO初始化，保证模型增量训练的稳定性适用场景目标场景和任务在基模训练基本覆盖；微调主要聚焦关注点，调整整输出形式；数据量较小，GPU资源不足目标场景和任务在基模几乎不覆盖，基模在该场景能力较差；训练的数据量较大，GPU资源充足有相对足够的场景数据，希望尽可能减少训练造成灾难性遗忘，对于模型推理时延变长不敏感优点训练消耗资源小；减少过拟合；模型不会产生额外的推理时部署成本较低；通常可以在新的场景和新的任务上达到很好的性能；学习新知识能力强；兼顾学习新知识的能力，保持模型的通用能力；比全量微调就更好的稳定性缺点无法学习到太多新的知识；在复杂或较为困难的任务上作用不大；训练所需的机器资源庞大；数据量较低时容易过拟合及灾难性遗忘；额外的推理的成本；KV-Cache优化、量化加IVTP：指令指导的视觉Token剪枝技术(a)与模型架构紧密耦合：ViT和LLM之间插入可学习的聚合模块，如BLIP2、Qwen-VL等，难以移植到其他模型框架BLIP2利用多层transformer压缩视觉tokenQwen-vlQwen-vl通过单层互注TokenPacker在ViT和LLM中引入更为细粒度的视觉token聚合策更为细粒度的视觉token聚合策略量(b)针对纯视觉ViT剪枝：ViT内部各层中插入聚合模块，如ELIP、ToMe等，VLM冻结视觉编码Tome在ViT中插入token聚合层结构ELIP利用文本信息指导ViT层间的视觉token压缩IVTP：指令指导的视觉Token剪枝技术(a)与模型架构紧密耦合：ViT和LLM之间插入可学习的聚合模块，如BLIP2、Qwen-VL等，难以移植到其他模型框架(b)针对纯视觉ViT剪枝：ViT内部各层中插入聚合模块，如ELIP、ToMe等，VLM冻结视觉编码(c)分别在ViT和LLM中进行双阶段剪枝，考虑可迁移性、端否是弱业界方法b是否强ours是是强IVTP：指令指导的视觉Token剪枝技术有选择性地剔除冗余的视觉信息，精简token表征，在尽量不影响模型效果的前提下提升模型训练和推理效率。STEP1：在视觉编码器，提出分组token修剪（GTP）模块根据ViT中的内在视觉CLStoken筛选低信息内容的冗余tokenSTEP2：在LLM的浅层，引入CLIP将文本指令聚合到文本CLStoken，再次利用GTP模块，消除与当前query相关性低的视觉tokenIVTP：指令指导的视觉Token剪枝技术有选择性地剔除冗余的视觉信息，精简token表征，在尽量不影响模型效果的前提下提升模型训练和推理效率。实验结果表明，在12个基准测试中，实验结果表明，在12个基准测试中，精度几乎无损（小于1%）的情况下，视觉token数量减少了88.9%，计算复杂度降低了超过46%，显著超过了现有的token剪枝方法`IVTP方法计算复杂度下降39.6%比同等指标下SOTA下降31.4%原始图像TopK原始图像TopKours原始图像TopKours特征可视化`重训练后，比无剪枝baseline精度更高可以以更少的token保证精度模型效果基本无损时（误差0.5%）IPTV方法计算复杂度下降40.9%比同等指标下SOTA下降23.7%。总结-takeawayl模型发展关注点：理解生成统一、MoE、端侧/小模型、全模态(+audio)、Reasoning等l行业多模态大模型效果提升：prompt优化；⾼效微调；RAG/推理增强l多模态大模型能力提升l1）高效视觉表征或训练方法；l2）理解与生成更高效的结合；l3）高效的数据构建生成方法；l多模态RAG、智能体l大模型高效训推、模型小型化文字建议字体中文字体：微软雅黑文字建议字体中文字体：微软雅黑为保证文件兼容性，如无特殊情况，请勿使用其他艺术字体英文&数字字体Arial使用专有的英文字体可以使版面更加美观，可以让强调的英文&数字细节显示更优美，经得起放大细看考虑到工作效率，非重要的文件无需考虑此项，而对文本中的英文数字单独设置字体。字号标题字号：28*可以多使用8为尾数的字号，如：18、28、48、6

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

行业多模态大模型训推加速落地思考-阿里云+谢榛

文档简介

温馨提示

最新文档

评论

行业多模态大模型训推加速落地思考-阿里云+谢榛

文档简介

温馨提示

最新文档

评论

相关文档