彭厚文-腾讯混元多模态大模型技术实践_第1页
彭厚文-腾讯混元多模态大模型技术实践_第2页
彭厚文-腾讯混元多模态大模型技术实践_第3页
彭厚文-腾讯混元多模态大模型技术实践_第4页
彭厚文-腾讯混元多模态大模型技术实践_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

彭厚文腾讯混元多模态模型负责人目前专注于多模态基础模型研发、曾任微软亚洲研究院主管研究员。在人工智能领域国际期刊和会议如TPAMI、CVPR、NeurIPS等发表学术论文30余篇,担任PatternRecognition期刊副主编,ACMMultimedia会议领域主席。演讲主题:腾讯混元多模态技术实践混元大模型的“前世今生”:从零自研、持续成长腾讯混元大模型正式发布24Q224Q1混元位居沙利文测评的第一象限24Q3文生文、多模态理解、文生图均位居33混元多模态发展路线•图、视频生文:输入是图像和视频以及文字指令,输出是对图像和视频的内容理解这张图什么意思?这张图什么意思?混元多模态大模型-预训练与模型结构模型结构模型结构•图片:VisionTransformer(ViT)•视频:参数复用理解多图、多视频帧•视觉-语言(文本)适配器•链接视觉-语言模态的“桥梁”•大语言(文本)模型•理解视觉内容和文字的“大脑中枢”预训练预训练•多阶段预训练策略从粗到细分门别类构建和优化从粗到细分门别类构建和优化1.分门别类:10大垂类topic覆盖理解/创作/问答/推理/专业领域等基础识别知识问答基础识别知识问答内容创作分析推理多轮对话描述OCR图表数学代码2.任务多样复杂:图片复杂度x文本问题复杂度•统计类图表(柱状图、折线图、饼图、散点图、表格、散点图、热力图、复杂图表)•思维类图表(程序流程图、数据流程图、业务流程图、工作流程图、架构图、树状图、思维导图、锥形、甘特图等)OCR图片类型:•自然场景(街景、路标、广告牌、发票、商标、菜单...)2.难点:数据杂乱、数据敏感(法律风险、用户隐私)数据预处理数据泛化数据清洗数据使用过滤隐私数据答案改写纠错数据筛选数据去重多轮合并过滤隐私数据答案改写纠错数据筛选数据去重多轮合并多轮拆分相似检索效果:日志挖掘提升指令覆盖丰富度,提升指令理解渲染渲染图表型财报分析:极端长宽比图片图像描述:一图胜千言图表型财报分析:极端长宽比图片图像描述:一图胜千言更详细的描述Q:腾讯上半年情况怎么样?A:根据图片中的财务表现摘要,腾讯2024年上半年的经营盈利为103,288百万元人民币,每股盈利如下:摊薄每股盈利为9.377人民币元因此,腾讯2024年上半年的经营盈利为103,288百万元人民币,基本每股盈利为9.590人民币元,摊薄每股盈利为9.377人民币元。Q:Markdown形式列出腾讯经营资料信息A:现状:中文超越GPT-4V水平完成情况:6月评测结果与GPT-4o同处第一梯队,位居国内第一总分:比GPT-4v高15.6分,比国内第2名高5.4分(75.9vs.跃分项能力:OCR,图像分析推理,图生文视觉数学,图像内容创作,多轮对话等5项能力达到国内第一SuperCLUE-V多模态理解榜单(8月)位居国内应用能力应用能力卓越领导者腾讯Hunyuan卓越领导者腾讯Hunyuan-vision竞争梯队国内大模型国外大模型技术探索者潜力探索者技术探索者[1]Gartner报告预测,到2030年,合成数据在AI模型中的使用将完全超过真实数据[2]除此之外,Epoch指出,自然数据在2026-2030不能满足LLM训练需求•指令数据合成与进化n基于MoE架构的多模态大模型技术路线•性能更优:相同训练成本,MoE性能优于稠•MoEScalingLaw业界公开可参考探索少•训练稳定性差,专家定义、负载不均衡或专家表征趋同•ScalingLaw:探索数据、参数、学习率(LR)、批量大小(BS)、Expert数量等缩放特性•路由机制:探索DomainRouting、共享专家Top-K路由、补偿策略等•效率优化:专家异构、层级异构、线性Attention、混合低精度等•“准确、及时、精细”的奖励反馈是驱动大模型能力提•精细:过程式奖励模型(PRM)带来更大效果提升•关注用户体验,避免“高分低能”•Benchmark评测存在Bias,与真实用户场景不同•评价标准覆盖模型能力评测,与用户体验评测构建短视频多模态理解框架,理解并提取用户潜在商业需求与广告营销表达核心洞察提取多模态素材提取和理解核心洞察提取多模态素材提取和理解分享XX烟酰胺搓泥宝膏去角质效果商业价值:强混元多模态理解热死了热死了,我刚出去一会儿胳膊就晒成构建直播带货实时理解流程,识别不同时刻在播商品,及时捕获用户商业需求与广告营销表达直播间多模态内容提取和理解直播间多模态内容提取和理解商品1商品1:自行车商品2:滑行垫商品2:滑行垫商品3:羽毛球训练器商品3:羽毛球训练器腾讯视频微信搜一搜腾讯视频•需求:•需求:用大模型来提升复杂问题、代码、数学、创作等生成类query的AI元宝AI搜索调用量•需求:解决模糊的、口语化、场景化的用户找片搜索结果合格视频源文件视频帧图基于混元内容审核大模型,信安人工审核提效22%,AMS广告内容审核漏放率降低20%视频源文件视频帧图审核1S(完整视频20+min容易漏过腾讯文档:思维图表ToB:多模态小程序代码生成,AI教育小助手•小程序编程场景:小程序教育版AI助手小程序教育版上线AI编程助手,面向师生推广小程序开发教育,累计650+所试用学校,~200所已认证学校产品创新:支持专业复杂分析的个人助手ChatGPT技术演进展示了大模型在横向多模态和纵向深度思考两个维度上的持续创新2023.32024.9横向:多模态2024.52024.2纵向:深度思考2022.112023.92023.32024.9横向:多模态2024.52024.2纵向:深度思考2022.112023.9未来探索:往更深刻和更广度的智能前进广度理解认知空间全模态大模型拓宽与物理世界交互方式广度理解认知空间全模态大模型拓宽与物理世界交互方式理解物理世界深度在环境中行动的能力在环境中行动的能力解决奥赛学科难题探索知识边界29/67未来研究方向:探索智能的广度各模态神经网络趋向统一文语言模型隐马尔科夫模型HMM统计特征神经网络模型卷积神经网络CNN统一的神经网Transformers大语言模型未来:未来:全模态过去:单模态•…现在:双模态现在:双模态•…定理证明系统AlphaProof生成证明代码并与证明环境交互几何求解系统AlphaGeometry2构造辅助条件使用几何求解器2024.7:谷歌DeepMind2024.7:谷歌DeepMind发布数学大模型,今年IMO竞赛中达到人类选手的银牌水平2024.9:OpenAI发布GPT-o1模型开启推理算力新ScalingLawAIME数学竞赛:从GPT-4oAIME数学竞赛:从GPT-4o的13%准确率提升至83%选手水平(金牌门槛359.71)混元进展:•使用自动化定理证明工具,利用自推理和规则合成方式构造高质量数理证明思维链数据•混元定理证明器在MiniF2F评测集取得业内领先的准确率•7B小模型也可解决部分学科竞赛类问题Atari(2013)•2024.5月开源混元DIT:业界

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论