版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
预训练语言模型从海量数据中自动学习知识Ø
Big-data
Driven,模型基于大规模语料训练而成;Ø
Multi-tasks
Adaptive,支持多种任务,包括自然将模型在大规模无标注数据上进行自监督训练得到预训练模型将模型在下游各种自然语言处理任务上的小规模有标注数据进行微调得到适配模型语言生成NLG和自然语言理解NLU类的任务;Ø
Few-shot
(Zero-shot),在少甚至无标注样本的条件下支持推理(自监督学习)。AI大模型就是预训练语言模型通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型预训练语⾔模型“预训练+微调”技术范式⼤注不务有据模型预训练模型微调最终模型产业研究战略规划技术咨询2Ø
2017
年,Google提出Transformer
框架在机器翻译中取得显著进步,其分布式学习和强大编码能力受到广泛关注。Ø
2018
年
和
OpenAI
基于Transformer
提出了预训练语言模型
BERT
和
GPT,显著提高了NLP
任务的性能,并展示出广泛的通用性。众多预训练模型相继涌现,OpenAI
以
GPT2、GPT-3、ChatGPT
等系列模型为代表,持续引领大模型时代的浪潮大模型发展历程跨模态模型计算机视觉AlexNet(图灵奖得主Hinton)CAN(Gioodfellow.图灵奖得主Bengio)感知ResNetViTDALL
E2GPT-4V(MSR.(Google)(OpenAI)(OpenAI)引用183222)201220132014201520162017201820192020202220222023自Word2Vec(Google.Attention(图灵奖得主Bengio)Transforme
BERTGPT-2(OpenAI)GPT-3(OpenAI)Foundatio
PaLMChatGPT(OpenAI)然语言处理认知Google.(Google)(Google)Model(Stanford)GLM(洁华)引用78550)引用91332)GPTERNIE(百度)CPM(智源)(OpenAI)预训练模型大模型:大模型驱动的群体智能行业白皮书产业研究战略规划技术咨询3大模型参数规模不断增长,推动
AIGC技术升级。AIGC技术发展的背后是大模型(Foundation
Models)技术的持续迭代。从
2017
年
Transformer
结构的提出,加速了深度学习模型的参数学习能力。另一方面,GPU算力也在指数级增长。图1:2018-2023
年模型参数规模变化图图2:CPU与GPU算力演进比较:techovedas,国元证券:中国人工智能系列白皮书产业研究战略规划技术咨询4英伟达每2年推出一个微架构,对产品线进行升级,6
月
2
日,英伟达在
Computex
2024大会上发布了至2027年的芯片路线图,GPU迭代周期由
2年缩短到1年,走类似英特尔的Tick-Tock
模式(一年工艺一年架构)。同时,英伟达践行“Buy
More
Save
More”让算力成本指数级下降。图3:英伟达GPU架构演进图图4:训练芯片算力成本呈下降趋势Ø
我国高端GPU芯片进口从2019年以来就一直有被限制,只是之前主要针对的厂商是AMD,在应用场景上又以超算中心为主;Ø
2023年10月17日,美国加强了面向中国市场的AI芯片禁令。其中明确将性能、密度作为出口标准,将单芯片超过300teraflops算力,以及性能密度超过每平方毫米370gigaflops的芯片都纳入了禁止出口行列。禁令涉及A100、H100等主流AI训练用英伟达GPU。:浙商证券研究所、证券研究所产业研究战略规划技术咨询5中国在高质量数据获取方面面临挑战,主要由于缺乏完善的数据法规、行业内固有的竞争性保密性,对开源合作文化的不足中国科技企业的市场导向和商业化压力常使得大厂技术部门在追求KPI的同时,难以专注于前言技术的研发行业高精数据短缺商业化压力大相较于英文、中文高质量开源数据非常少,特别是在构建通用领域大模型的百科类、问答类、图书贡献、学术论文、报告杂志等高质量内容中国科技企业较少开展全球化经营,导致在营收、人才获取、全球化商业场景方面制约明显中文语料短缺全球化经营数据人才发展AI大模型相关的软硬件技术需要大量人才,大量的优秀本科生选择出国深造,而其中超过60%的毕业生选择在海外工作,导致长期的优秀人才流失。另外在中西方脱钩的背景下,美西方限制了对中国高科技人才的培养与学术合作交流人才流失与人才短缺数据和语料的同质化由于各类政策低,导致的基础数据和语言语料同质化和商业模式复制壁垒产业研究战略规划技术咨询6科技大厂创业新势力综合各测评平台的方法论来看,在基础能力的测评维度基本相同,仅测评数据集和评估权重占比不同;而在基础能力之外,各测评平台侧重点不同OpenCompass
2.0
ꢃIDCꢀꢁꢂüüüüüüüüüüüüüüüꢍꢎCodeTo
C通用场景类Agent超长文本道德责任AgentꢏꢐOtherTo
B特定行业类特定行业类IDC测试题目分为基础能力和应用能力两个大类共7个维度IDC采取实测的方式,成立产品测试团队,通过多个维度对基础大模型及相关产品进行评测,并邀请外核委员会的监督下,最终得出各厂商的评估结果,供用户选型参考。家团队深入分析各个产品答案准确性、合理性等,在审ꢀꢁꢂꢃꢄꢅꢂꢃ问答理解代码类创作表达类推理类数学类常识、专业知识、多语言、多模态、角色扮演+多轮对话、安全陷阱问答理解类推理类小学数学、初中数学高中数学、高等数学toC通用场景类生活助手办公工具数学类情感推理、演绎推理、逻辑推理、归纳推理、类比推理金融:推荐场景代码生成、编程翻译代码解释、代码纠错代码自动补全工业:产品设计辅助&&生产规划教育:智能问答、试题生成法律:智能法律助手,法律咨询医疗:问诊,用药咨询科研金融/咨询服务:财报/市场分析互联网/媒体:文案/海报设计、广告词创作、视频生成场景文字创作&创意、内容改写/续写、修改/润色、文字处理、编辑/语义匹配、摘要提取、关键、字提炼、标题生成、文本风格迁移、图像创作、短视频创作(文生视频)、其他创作(文学艺术、商业通toB特定行业类推理类创作表达类生成代码文档零售/电商:客服问答单元测试用)产业研究战略规划技术咨询9我们跟踪研究了多个通用大模型,其中包括:Ernie-4.0Qwen-Max-0428SenseChat
V5Tencent
HunyuanSpark
4.0
UltraPangu
5.0Yi-LargeGLM-4Baichuan4CongRong
2.0产业研究战略规划技术咨询10在2024年,大模型的技术发展将趋向多功能与小型化,同时产业端将强调自主研发和行业标准化ꢀꢁꢂꢃꢄꢂ模型整合统一国产AI芯片自主研发未来的技术演进方向是实现大模型底层框架的整合与标准化,从多样的架构(如双编码器、单边解码等)转向统⼀的、效率最优化的开源底层框架,提升模型的通⽤性和可维护性。为确保中国大模型的长远发展和避免外部制裁风险,国内AI计算芯片的自主研发将成为关键战略方向。参数规模扩展数据产权标准深化为确保模型质量和性能,未来的大模型将采⽤更深层的⽹络结构和更庞⼤的数据集进⾏预训练,尤其在数据量和参数量上将迎来显著跃升。优化和完善现有数据标准和规范,是推动大模型“燃料”质量提升和数量增长的重要驱动力,在2024年将作为产业发展的首要任务。多模态融合“套壳”微调策略大模型将逐渐融入图⽚、⾳频、视频等多种模态信息,实现跨模态的交互与理解,从⽽拓宽其应⽤场景和实⽤价值。为满足产业实际需求并适应中小企业的发展特点,“套壳”微调(即在现有大模型基础上进⾏针对性调整)将成为除行业巨头外企业的主要发展策略。大模型小模型化人工智能伦理责任在产业应⽤层⾯,结合底层基础大模型和针对特定⾏业的精简数据微调,将训练出更为实用、更易于产业落地的小型化大模型。随着大模型性能的飞速提升和实⽤性的增强,确保AI技术与社会伦理道德标准相⼀致将成为⼤模型持续发展的关键考量因素。:沙利文中国大模型测评报告产业研究战略规划技术咨询11ꢄꢇꢈꢙꢚꢕꢛꢜꢝꢞꢀꢁꢂꢃꢄꢅꢆꢇꢈꢉMMLUꢊꢋꢌꢍꢎꢄꢇꢈꢏꢐꢑꢒꢓꢔꢕꢖꢑꢗꢘ大模型的知识密度每8个月左右会翻一倍,同等知识量的模型参数量会减半右图显示了过去四年大语言模型在
MMLU榜单(评估大模型知识能力)上的性能表现,红色曲线表明,大模型的知识密度平均每8个月左右会翻一倍,同等知识量的模型其参数量会减半知识密度=知识量/参数量:面壁智能公众号产业研究战略规划技术咨询ꢙꢚꢛꢜꢀꢁꢂꢃꢄꢅꢆGPT-4Vꢇꢈꢉꢊꢋꢌꢍꢎꢍꢏꢐꢑꢒꢓꢔꢕꢖꢗꢘ在2024年5
月发布的多模态
大模型MiniCPM-Llama3-V
2.5
仅凭
8B
参数,实现了“以最小参数,撬动最强性能”的最佳平衡点。面壁智能迭代的最新版本MiniCPM-S
1.2B采用了高度稀疏架构,通过将激活函数替换为
ReLU及通过带渐进约束的稀疏感知训练,巧妙地解决了此前主流大模型在稀疏激活上面临的困境。在通用大模型越来越卷参数规模和算力的情况下,如何通过架构和算法创新去规避算力和成本的短板,我们认为小参数、高性能模型是一个重要的趋势,特别对于手机、车载终端而言,这样的端侧模型具有现实的需求。:面壁智能公众号产业研究战略规划技术咨询13ꢀꢁꢂꢃꢄ文心一言沿袭了
ERNIE
3.0
的海量无监督文本与大规模知识图谱的平行预训练算法,模型结构上使用兼顾语言理解与语言生成的统一预训练框架。为提升模型语言理解与生成能力,研究团队进一步设计了可控和可信学习算法。ꢅꢆꢄ结合百度飞桨自适应大规模分布式训练技术和“鹏城云脑Ⅱ”领先算力集群,解决了超大模型训练中的多个公认技术难题。在应用上,首创大模型在线蒸馏框架,大幅降低了大模型落地成本与百度的方案类似,各科技大厂基于云平台、算力基础设施和大模型技术相结合,推动行业应用落地,汽车产业链当然也是最重要的落地场景之一。:文心一言官网产业研究战略规划技术咨询14对自动驾驶而言,与所有AI应用类似,算力、算法、和数据三要素都必不可少规模法则驱动下,海量的算力成为开发优秀AI算法的基础ꢀꢁꢂꢃ数据的体量、质量、以及收集方式、处理方式、以及模型的训练和验证体系都考验着开发者的技术和工程能力如何构建一个性能优异且稳定可靠的算法来支撑功能落地,亦尤为关键ꢄꢅꢆꢃꢀꢇꢂꢃ目前海外特斯拉、Wayve、Comma.ai,国内包括小鹏、理想、到端自动驾驶方案,在算法上端到端已经成为大势所趋。、蔚来汽车、元戎启行、商汤、地平线等诸多玩家都提出自己的端但在发展路径上,行业预计也会经历渐进的过程。早期玩家致力于将算法从模块化架构平稳过渡到端到端,远期大语言模型和端到端基础模型有望结合形成“系统一”和“系统二”共同赋能自动驾驶,最终强大的通用人工智能(AGI)或许可覆盖所有驾驶能力。端
到
端
模
型AGI通用世界模型多模态大语言模型产业研究战略规划技术咨询15竞争因素评选原则•
单一场景的技术积累;•
广泛的汽车行业客户与量产应用;场景ꢀꢁ可以允许“套壳”与API调用;•数据服务ꢂꢃꢄ•
单场景技术方向的领先发展潜力;算法•
多场景的覆盖能力与量产应用;•
持续的产品迭代能力;场景数据走向通用世界模型的潜力;ꢅꢆ•ꢂꢃꢄ•
四种竞争要素缺一不可;•
持续的产品迭代能力;算力算法•
逐步建立于自研芯片或者国产芯片的算数据框架力建设;ꢇꢈꢂꢃꢄ•
汽车行业的合作与量产应用;16ꢀꢁꢂꢃꢄꢅꢆꢇꢈꢉꢊꢋꢁꢌꢍꢙꢚꢛꢜꢝꢞꢟꢊꢠꢄꢬꢘꢭꢮꢯꢎꢏꢐꢑꢒꢓꢔꢕꢖꢗꢘꢂꢃꢄTier1ꢡꢢꢣꢤꢥꢦꢧꢨꢒꢓꢩꢪꢫ产业研究战略规划技术咨询17ꢋꢌꢍꢎ
ꢏꢐꢑꢒ
ꢓꢔꢕꢖ
ꢗꢘꢙꢚꢛꢜꢝꢞ
ꢟꢠꢡꢢ
ꢣꢤꢥꢉ
ꢦꢧꢏꢐ供应商1供应商2供应商31ꢀꢁꢂ主机厂1主机厂2……2ꢃꢄꢅꢆ主机厂N公司13
ꢇꢈꢉ公司2ꢊ产业研究战略规划技术咨询18Ernie-4.0SenseChat
V5Tencent
HunyuanSpark
4.0
UltraPangu
5.0FSD
V12.3XGPTDrive
GPT2.0DFM-2MiniCPM产业研究战略规划技术咨询19百度BAIDUꢀꢁꢂꢃꢄꢅꢆØ
2024年6月28日,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰在WAVE
SUMMIT深度学习开发者大会2024上宣布了文心一言的最新数据,并正式发布文心大模型4.0
Turbo、飞桨框架3.0等最新技术“文心一言”
发展历程2023.03.162024.06.28文心一言大模型4.0Turbo2021.12文心一言大模型3.0全球最大中文跨模态生成模型Ernie-viLG2021.072023.10全球首个知识增强百亿大模型Ernie3.0文心一言大模型4.02021.12全球首个知识增强千亿大模型鹏程·百度·文心2019.03中国首个正式开放的预训练模型Ernie1.02021.09全球首个百亿中英对话生成模型Plato-XL2019.07全球首个大规模隐变量对话模型Plato航空航天气象&海洋能源动力座舱散热材料研发天气预报新药研发凸包能预测疫苗设计ꢄꢅꢎꢀꢁ&飞行器&汽车风阻预测蛋白质结构预测百度自研昆仑芯,同时也与国内外机构合作,搭建算力中心和异构计算平台ꢂꢃ数据驱动机理驱动数理融合ꢍꢏꢎꢆꢇ其飞桨框架已经更新到3.0版本。实现大模型混合并行训练策略、编译器自动优化、大模型多硬件适配和推训一体PaddleScience
PaddleHelix
DeepXDENvidiaModulusDeePMD-kitNvidiaModulusꢈꢉꢊꢋꢈꢉꢎ开发飞桨的各类组建飞桨深度学习框架算子库计算库ꢂꢃꢎ高阶自动微分
原生复数机制线性代数运算
······概率统计
方程符号化定义神经算子学习
······ꢌꢍ文心一言推出多种功能各有侧重的文心大模型,包括文心轻量级、文心3.5、文心4.0、文心4.0工具版。大范围分布式并行计算编译器硬件算子适配其中,文心轻量级模型适合解决确定场景的问题;文心3.5适用于日常信息处理和文本生成任务;文心4.0模型参数更大、具备更强的理解能力、逻辑推理能力与更丰富的知识,提供专业且深入的帮助;文心4.0工具版则基于智能体技术,善于综合运用多种工具和数据,按要求完成非常复杂的任务。最新发布的文心4.0
Turbo则是文心4.0的升级版。算力中心智算中心ꢄꢅ产业研究战略规划技术咨询22ꢀꢁꢂꢃꢄꢅꢆꢇꢈꢉꢊꢋꢊꢌꢍꢎ⾃动化深度学量⼦机器学习⽣物计算工具与组建强化学习联邦学习图学习科学计算资源管理与调度⼯具习低代码开发⼯具预训练模型应⽤⼯具可视化分析⼯具安全与隐私⼯具云上部署编排⼯具IntelNVIDIAArm学习与实训社区端到端开发套件语音理解文字识别图像分类目标检测图像分割图像生成大模型推训一体•••CPU:飞腾、海光、鲲鹏、龙芯、申威操作系统:麒麟、统信、普华基础模型库自然语言处理计算机视觉语音推荐时间序列文心大模型AI芯片:昆仑芯、海光、寒武纪、瑞芯微、算能、高通、Graphcore、Ambarella开发训练推理部署核心框架动态图大规模分布式训练模型压缩边缘与移动端推理引擎前端推理引擎静态图产业级数据处理服务器推理引擎服务化部署全场景统一部署••与浪潮、中科曙光等服务器厂商合作形成软硬一体的全栈AI基础设施能源影视金融社科航天城市制造传媒自然语言处理视觉跨模态生物计算文心一言
ERNIE
BotOCR图像表征学习VIMER-StrucTexT文档智能ERNIE-Layout化合物表征学习HelixGEM对话
PLATO-XL|搜索
ERNIE-Search跨语言ERNIE-M
|代码
ERNIE-Code多任务视觉表征学习VIMER-UFO文图生成ERNIE-ViLG蛋白质结构预测HelixFoldꢄ语言理解与生成
ERNIE单序列蛋白质结构预测HelixFold—Single视觉处理多任务学习VIMER-TCIR视觉-语言ERNIE-ViLERNIE
3.0Zeus|鹏城-百度·文心ERNIE
3.5
|
ERNIE
4.0自监督视觉表征学习VIMER-CAE语言-语言ERNIE-SAT产业研究战略规划技术咨询24与主机厂合作落地应用于提升百度自动驾驶感知算法名称:知识增强的汽车行业大模型——吉利-百度·文心文心大模型在百度感知2.0中发挥了重要作用,主要提升3D感知能力,解决远距离检测和长尾物体识别两大难题。使用了百度文心ERNIE
3.0大模型,在智能客服知识库扩充、车载语音系统短答案生汽车领域知识库构建三个任务上进行了微调与验证。该大模型在2300万条吉利汽车专业领域无标注数据上进行模型预训练,并联合双方的工智能专家和汽车行业专家一起研发。百度使用半监督、自训练方案对大模型进行训练Ø
先用有标签数据对模型进行初始启动训练,后将模型在无标签数据上进行推理得到伪标签,最后合并有标签数据和伪标签数据对模型进行进一步训练。如此往复。Ø
训练完感知大模型后,百度利用知识蒸馏的方法将伪标签用于车载小模型的学习,从而增强车载小模型的远距离感知能力。HUAWEIꢀꢁꢂꢃꢄꢅꢆ2024ꢀꢁꢂꢃꢄꢅꢆꢇ常务董事、
云CEO张平安指出,正在通过“云网端芯”架构上的协同创新,来构建可持续发展的AI算力基础,包括云基础设施系统架构创新、芯端算力上云、面向AI的网络架构升级三大方面。⼀切⼀切ꢈꢉꢊ⼀切ꢈꢎꢏꢋꢌꢍ云推出了全新的CloudMatrix架构,以“一切可池化”“一切皆对等”“一切可组合”三大创新设计,从算力规模、扩展模式和使用模式上,匹配超大规模的算力诉求,通过技术创新来解决行业难题。透过CloudMatrix架构创新展现云全栈的AI能力,包含盘古大模型、昇腾AI云服务、分布式QingTian架构、AI-Native
Storage和全球存算网等。272024ꢀ6ꢁ22ꢂꢃꢄꢅꢆꢇꢈꢉꢊꢋ2024ꢌHDC2024ꢍꢎ常务董事、云CEO张平安正式发布盘古大模型5.0,在全系列、多模态、强思维三个方面全新升级;还分享了盘古大模型在自动驾驶、工业设计、建筑设计、具身智能、媒体生产和应用、高铁、钢铁、气象等领域的丰富创新应用和落地实践,持续深入行业解难题。ꢀꢁꢂꢃEIꢄꢅꢆꢇꢈꢈꢉꢊꢋꢁꢂꢃꢌꢍꢎꢏꢐꢑꢒꢓꢔꢕꢖꢗꢘꢙꢚꢛꢜꢝꢞꢟꢠꢡꢢꢣꢤ•该平台基于盘古大模型和ModelArtsAI开发生产线,已经在多个车企和商用车场景中成功运用。Ø
通过数智融合架构打破数据、AI资源管理边界,在一个平台即可完成开发、测试、交付上线工作,让业务创新提效2倍,实现数据加速;该平台基于盘古大模型和ModelArts
AI开发生产线,提供了数据生成、自动标注、模型训练、云端仿真、虚实结合仿真、数据闭环等一系列能力。该平台预集成了超过25万个场景库,包括500多类功能场景和200多项测评指标体系,将传统纯实车测试时的场景搭建工作从数天降低到分钟级,车企还可以基于盘古训练出自己需要的模型。Ø
借助盘古大模型在认知、感知、决策、优化等全领域的能力,车企可以快速基于盘古训练出自己需要的模型,实现算法加速;Ø
基于昇腾AI云服务,可针对自动驾驶300+算法进行优化,60+实现精度性能提升,可以做到千卡训练数月不中断,实现算力加速。目前上述三种合作落地(工程师仅需调用数据分类的工作)。但是大模型的训练成本高昂。GPT-3训练一次的成本可能在1200万人民币。而
方面,在训练千亿参数的盘古大模型时,也调用了超过2000块自动驾驶相关大模型中,只有场景理解大模型已有客户(比亚迪)云提供的API就可以用场景理解大模型来完成给视频2024年6月22日,盘古大模型5.0通过创新的可控时空生成技术,结合场景视频生成、4D
BEV视频生成、自动驾驶仿真库及路网信息,能更好地理解物理规律,大规模生成和实际场景相一致的驾视频数据,还可以灵活增加控制条件,生成不同路况、不同光、不同天气的训练视频数据,加速自动驾驶技术的快速成熟。的昇腾910,进行了超过2个月的训练,成本极高。一方面选择小样本训练,通过自监督的方法,以更少的标注数据来做训练,以降低成本;另一方面盘古大模型的三层架构能在结构上实现降本。L0层是通识性的大模型,具备鲁棒性和泛化性;大模型训练好了之后不用再重复训练,只需在L1和L2层做适应性训练,成本关系是上一层的5-10%。产业研究战略规划技术咨询Ø云是具备自动驾驶数据闭环工具链全栈自研能力的云厂商之一。除了给用户提供大模型的能力外,云也可以提供数智融合架构、ModelArtsAI开发生产线、昇腾AI云服务等一系列配套设施,用户可以在加速和算力加速。云的自动驾驶开发平台上同时实现数据加速、算法Ø
ModelArts
AI开发生产线包含DataTurbo、TrainTurbo、InferTurbo
三部分,分别提供数据加载、模型训练、模型推理的加速工具,倍速提升模型训练效率。Ø
为了应对模型训练的算力需求,各家科技公司、主机厂等纷纷开始自建/合建算力中心,打造算力集群。据中心同时上线了昇腾AI云服务,为模型训练提供澎湃算力,单集群性能可达2000P
Flops。云在乌兰察布和贵安数自动驾驶研发平台解决方案架构图大规模的算力集群通常会面临业务连续性的问题,因为单点故障就可能导致整个大规模分布式任务失败。为保证训练任务不中断,云开发了断点续训的方法,假如在训练过程中出现了单点故障,系统会将这个点排除掉,用新的节点替换掉故障节点,并且原地重启。据悉,昇腾AI云服务可以实现千卡训练一个月以上不中断,断点恢复时长不超过10分钟。产业研究战略规划技术咨询30科大讯飞KEDAXUNFEIꢀꢁꢂꢃꢄꢅꢆ2023ꢀ10ꢁ24ꢂꢃꢄꢅꢆꢇꢈꢉꢊꢋꢅꢌꢍV3.0ꢃꢎꢅꢏꢐꢑꢒꢓꢔꢕꢊꢋ3.0ꢔꢖꢗꢈꢘꢙꢚꢛAIꢜꢝꢞꢏꢃꢏꢟꢠꢡꢢꢣꢤꢥꢦAIꢧꢨꢕ2024ꢀ6ꢁ27ꢂꢃꢈꢉꢩꢊꢋꢅꢌꢍ4.0ꢪꢫꢕ星火大模型在识别中,两人混叠场景准确率已经到了91%,三人混叠场景准确率达85%以上。在-5dB的高噪场景,噪音已经比人讲话还要高不少的情况下,星火语音识别依然能做到90%以上的准确率。“2023年到2024年的国际连续最权威的语音识别比赛,国际多通道语音分离和识别大赛CHiME-7,星火继续拿了全球第一;今年的上
半
年
国
际
声
学
、
语
音
和
信
号
处
理
会
议
I
C
A
S
S
P
2
0
2
4(International
Conference
on
Acoustics,
Speech,
and
SignalProcessing)的旗舰赛事——国际车载多通道语音识别挑战赛科大讯飞是全球第一,这个不是中文的,是英文和多语种的比赛。”语音交互已经搭载了5700多万辆的汽车,去年中国500多万辆汽车出海,成为中国出海的“新三样”,其中的多语种智能语音技术几乎全是科大讯飞提供的。科大讯飞与红旗、奇瑞、广汽、一汽签订了战略合作协议,越来越多的车企开始用讯飞星火“能听会说、能理解会思考”的汽车方案。产业研究战略规划技术咨询32ꢀꢁꢂꢃꢄꢅꢆꢇꢈꢉꢊ智能座舱中可以实现全双工交互,实现多语种多方言的免切换交流,多情感多模态的拟人交互,而且能够多模态感知,知道驾驶人身体健康程度,是否疲劳、血压过高、心跳过快;还可以贯穿内外信源,在车上完成任务,科大讯飞星火有了语言理解,就可以更自由地对接外部信源了。除了急速的语音对话、多方言多语种之外,通过多模态的识别,它可以了解到你的身体参数,知道你是否疲劳驾驶、是否有异常情况。星火在汽车的音效上还有一个非常重要的特点,通过AI大模型和音效结合,可以把十几万的国产车音效,做到比四五十万的车的音效还好,40多万的车可以超过柏林之声的音效。不仅音效提升,开车时可以随时要求去掉原唱,跟着它的伴唱、对唱、分享等,这些都是大模型带来的功能,产业研究战略规划技术咨询33ꢀꢁꢂꢃꢄꢅꢆꢇꢈꢉꢊ2.0“随着大模型具身智能的帮助,今天的陪伴机器人,尤其是人形机器人开始进入到全新的发展阶段,未来如果没有陪伴机器人,老年社会的幸福是没有办法保障的。”通过大模型可以在后台做理解、做规划,在前端通过专门的硬件设备实现麦克风阵列,实现人脸、手势的各种识别,从而可以“听说看认”,最后再与机器人厂商共同来做具身模型,把这个能力开放给讯飞星火的合作伙伴。直接用科大讯飞的方案,每一个机器人厂商都可以定制自己的机器人超脑。2022年推出讯飞超脑平台,是专门给机器人的机器人超脑平台1.0,现在已经有410家机器人企业,大概占了至少60%的机器人市场份额。机器人超脑平台进一步升级。升级的核心是后端星火超脑2.0的硬件版,能够极大地提升具身智能和最后相关的理解能力,包括任务规划和前端的摄像头、麦克风一体化的模块。产业研究战略规划技术咨询34ꢀꢁꢂꢃꢄꢅꢆꢇꢈꢉꢊꢋꢌꢍꢎꢏꢐꢑꢒꢓꢔꢕꢖꢗꢘꢙꢚV4.0ꢛꢜꢝꢞꢟꢎꢝꢠꢡꢢ目标可以更好地照进现实。这个是什么目标?能不能用一句话提要求,大模型就能理解我的意图,然后分解出这句话所对应的各个步骤的任务,然后找到每个任务所对应的工具,让每个工具去调用内外部的各种信息,有的是内部信息,有的是外部信息,最后完成任务给出结果,这就叫智能体。简单地说,就是叫它干一件事,它能自动规划,找到工具自动完成。ꢣꢤꢥꢦꢜꢝꢞꢧꢨꢐꢩ
ꢪꢎꢫꢬꢝꢠ第一
是
AI的原子能力,比如人工智能开放平台上的各种各样的专有能力,会成为工具被它调用;第二个是各种外部信源;最后要打通公司内部系统。这三个能力构建起来,再有大模型能力,就可以搭建企业智能体了。在这方面科大讯飞已经走在了行业前列,不仅有了基本能力,现在AI的原子能力有400多项,已经集成了外部的90多个重要的信源,关乎到研、产、供、销、服、管各个领域,天气、股票、航班等这些全部都在。打通了内部IT、ERP财务、法务、OA等系统。产业研究战略规划技术咨询商汤科技SENSETIMEꢀꢁꢂꢂꢃꢄꢅꢆ2024ꢀ7ꢁ5ꢂ2024ꢀ4ꢁ23ꢂ2024ꢀ2ꢁ商汤科技在WAIC
2024举办“大爱无疆·向新力”人工智能论坛,发布国内首个具备流式原生多模态交互能力大模型日日新SenseNova
5.5,综合性能较两个月前的日日新5.0提升30%,交互效果和多项核心指标实现对标GPT-4o。商汤科技发布日日新5.0(SenseChat
V5),采用混合专家架构(MoE),参数量高达6000亿,支持200K的上下文窗口。据官方披露,SenseChat
V5具备更强的知识、数学、推理及代码能力,综合性能全面对标GPT-4
Turbo。升级至SenseNova4.0,日日新·商量大模型各版本同步升级至V4。在2023世界人工智能大会(WAIC)上展示6000亿参数基模型性能全面提升。大量使用合成高阶思维链数据,提升推理思维能力,在数理逻辑、英文、指令跟随等方面能力增强明显。率先推出国内首个“所见即所得”模型「日日新
5o」,流式多模态交互,带来全新AI交互模式。端侧模型全面升级,发布「日日新
5.5
Lite」,相比4月5.0版模型精度提升10%,推理效率提升15%,首包延迟降低40%。产业研究战略规划技术咨询37插件、app和API公有云、私有化部署开发者生态应用层插件库提示词广数据标注服务评测工具型管理发布串联层Function
callCode
interpreter沙盒环境商汤大模型体系知识融合安全和价值观对齐MOE混合专家数据平台文生图模型人像模型3D物体生成模型行业数据自动爬取自动标注/人工Refine大批量数据自动清洗自动采集和分类回流自动PROMPT构建数据质量评估通用对话代码生成逻辑推理多模态感知模型模型层模型模型模型基础底座大模型训练工具推理部署工具预训练、微调、RLHF工具MOE、多模态、Embedding训练思维链和自反思迭代系统多后端支持Trt\ft\triton\PPI动态批次、调度MOE、多模态、Embedding训练和扩编容基础多语言扩展/多人设支持上下文长度扩增代码和数理逻辑训练千卡并行训练工具云边端支持国产化芯片适配压缩优化INT8\INT4模型水印、编译加密和授权层算力支撑NV商汤算力中心国产化STPU``````产业研究战略规划技术咨询38目前商汤绝影已经合作蔚来汽车、吉利极氪、广汽埃安、哪吒汽车等品牌车型,此外,虽然具体车型未明确提及,但商汤绝影已与本田、比亚迪、长城、红旗、奇瑞等超过30家国内外车企合作,覆盖了超过90款车型。ꢋꢌꢍꢎꢏꢐ商汤绝影打造了高性能异构计算平台ꢄꢂꢅꢆHyperPPL。它综合了大语言模型、多商汤绝影还在进一步探索舱驾融合,实现智能驾驶和智能座舱在硬件、软件及应用层面的全面融合,提升用户体验、降低系统成本,进一步打破舱内外的界限和束缚,涌现更多创新功能,带来更安全、更加全方位,更具人文关怀的新体验。ꢇꢈꢉꢊ模态模型、CNN模型、前后处理完整的优化能力。HyperPPL目前扩展并支持主流车载计算硬件,兼容多种主流操作系统,适配多个车载芯片的部署平台,使得商汤绝影原生多模态大模型在主流芯片平台均可快速部署上线。同时,H
y
p
er
PPL
支
持
f
l
ash
decode、segment
prefill等400多个硬件算子,并对算子进行性能优化,同时量化支持int8、int4模式,并支持训练后量化,从而实现极致推理效率。ꢀꢁꢂꢃ7月5日上午,在WAIC
2024人工智能论坛上,商汤绝影宣布在行业率先实现原生多模态大模型的车端部署,并在现场演示了搭载在200
TOPS+平台上的8B模型(即80亿参数)车端部署方案,展示强多模态感知和交互能力。商汤绝影车载端侧8B多模态模型可以实现首包延迟可低
至
3
0
0
毫
秒
以
内
,
推
理
速
度
4
0Tokens/秒。商
汤
绝
影
为
智
能
汽
车
前
瞻
构
建
了UniAD、DriveAGI以及面向座舱的多模态场景大脑等系列原生态大模型,加速端到端自动驾驶和大模型在智能座舱场景的落地;全栈的数据生产管线,实现大模型的高质量训练。腾讯TENCENTꢀꢁꢂꢃꢄꢅꢆꢄꢅꢆꢇꢀꢁ在预训练上从零启动训练,优化预训练算法及策略,精调及强化学习,改进注意力机制,并开发了思维链新算法。Ø2022年4月,腾讯首次对外披露混元AI大模型的研发进展。基于腾讯太极机器学习平台进行研发,借助
GPU
算力,实现快速的算法迭代和模型训练。在全球MSR-VTT,MSVD,LSMDC,
DiDeMo
和
ActivityNet
五大跨模态视频检索数据集榜单中,“混元”AI
大模型先后拿下第一名的成绩2022年12月,混元推出国内首个低成本、可落地的NLP万亿大模型。2023年2月,腾讯针对类
ChatGPT
对话式产品成立混元助手(HunyuanAide)项目组。ꢈꢉꢊꢋꢌꢍ采用的是自主研发的机器学习框架Angel,训练速度相比业界主流框架提升1倍,推理速度比业界主流框架提升1.3倍。ØØØ2023年9月,混元AI大模型正式发布。ꢎꢏꢐꢑꢆꢇ采用基于云星星海自研服务器的新一代HCC高性能算力集群,搭载了超强算力GPU,性能提升了3倍。ꢂꢃ完整覆盖NLP、CV、多模态、文生图等基础模型和众多行业模型;跨模态视频检索、中文语义理解能力领先。ꢄꢒꢓꢔꢕꢎꢖꢗꢘꢙꢚꢛꢜꢝꢘꢙꢚꢛØ业界最⾼为AI⼤模型带来Ø拥有超千亿参数规模,预训练语料超2万亿tokens,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。腾讯表示,混元大模型的中文能力已经超过GPT3.5。3.2Tꢞꢟꢠꢡ10ꢢꢞꢟꢣꢤꢥꢦ通过自研TiTa协议和自研TCCL通信库,星脉网络可将网络利用率从普通提升到90%以上,极大提高整体集群的算力利用率。腾讯新一代计算集群可以帮助混元NLP大模型训练在同等数据集下,将训练时间由50天缩短到4天。网的60%Ø产业研究战略规划技术咨询41ꢀꢁꢂꢃꢖꢗꢈꢉꢖ结合腾讯云,有系统的研发布局和解决方案ꢄꢅꢖꢒꢓꢖ腾讯副总裁汤道生表示混元大模型已经支持了内部600多个应用,同时开拓更多调用大模型的产业场景,满足客户生图文、生图、生视频、生3D的需求。不同客户场景,对模型也有不同需求。除了混元外,腾讯云也支持客户选择其他模型,有些客户也会用腾讯的模型工具来精调其他开源模型如百川、GLM等。腾讯各事业部结合产品思考怎么用AI来提升用户体验、提高使用效率。比如在CSIG的企业应用中,腾讯会议就用大模型来生成会议纪要,腾讯乐享就用大模型构建熟悉企业文档库的智能助手,Coding研发平台用大模型来生成代码。产业研究战略规划技术咨询42根据腾讯的规划,混元大模型将作为行业大模型服务的底座,企业不仅可以直接通过API调用混元,也可以将混元作为基底模型,为不同产业场景构建专属应用。目前,混元支持金融、公共服务、社交媒体、电子商务、交通运输、游戏等行业。具备上下文理解和长文记忆能力,流畅完成各专业领域的多轮问答。在多个场景下,腾讯混元大模型已经能够处理超长文本,通过位置编码优化技术,混元大模型对于长文处理效果和性能得到了提升。多轮对话内容创作逻辑推理AI问答支持文学创作、文本摘要、角色扮演能力准确理解用户意图,基于输入数据或信息进行推理、分析座舱应⽤(计划推出)支持AI输入文字内容,然后给出相应的回答,可有效解决事实性、时效性问题,提升内容生成效果。具有识别“陷阱”的能力,通过强化学习方法拒绝被“诱导”,当用户可能问出难以回答甚至无法回答的问题,针对此类安全诱导类问题的拒答率可以提升20%,减少了错误、无效回答的情况,提升回答内容的可信度。基于座舱垂域大模型的应用,结合感知车辆感知数据、语音输入和用户行为分析等因素,该模型能够提供场景化分析和智能决策,带给用户更自然的对话体验、生成式的交互界面、多样化的场景编排和更个性化的出行服务建议等。多模态(计划推出)AI绘画,使用者描述画面内容,根据关键字生成画作。产业研究战略规划技术咨询43特斯拉TESLAꢀꢁꢂꢃꢄꢃꢅꢆꢇ从CNN单head⽹络迭代ꢀꢁꢂꢃꢄꢅ2021ꢆ
引入BEV+Transformer,将多摄像头数据统一成俯视角度。2022ꢆ
提出Occupancy
Networks判断空间占用。规划层引入交互搜索,逐步增加约束条件(其他参与者博弈行为)做最优路径规划。2023ꢆ8ꢇ26ꢈ
特斯拉演示FSD
Beta
V12,是有史以来第一个端到端AI自动驾驶系统(Full
AI
End-to-End)。2024ꢆ1ꢇ
特斯拉FSD
v12
开始正式向用户推送,将城市街道驾驶堆栈升级为端到端神经网络。ꢉꢊꢀꢋꢀꢁꢂFSDØ
没有规则代码,只有神经网络。市面上常见的自动驾驶系统,大多采用分模块设计,包括感知、决策、控制三个模块,各任务内部采用各自的算法模型。ØV12的C++代码控制减少了10倍,从2万多行减少到2千行。特斯拉99%的决策都交给神经网络给出,视觉输入,控制输出,就像人类大脑一样。另外,它所拥有的超强能力,是经过巨量的「视频数据」、1万个H100加持下完成的。FSDBetaV12仍在调试中,因此还没有确定正式发布的时间。产业研究战略规划技术咨询45小鹏XIAOPENGꢀꢁXGPTꢂꢃꢄ2024ꢙ5ꢚ20ꢛ小鹏汽车举办了一场主题为“开启AI智驾时代”的AI
DAY活动,展示了在AI方面的最新进展,并宣布将全面推送AI天玑系统。AI天玑系统包括AI智驾和AI座舱。小鹏汽车自动驾驶端到端大模型包括深度视觉感知神经网络XNet、规划大模型
XPlanner和大语言模型XBrain三种AI角色:AI小P-生活助理,人机共驾-AI保镖和出行助理-AI司机XBrain:更像人类的大脑,为智能驾驶系统提供了理解和学习能力。它能够处理复杂场景,快速响应各种驾驶环境中的指令。XBrain可以识别待转区、潮汐车道、特殊车道和路牌文字,并根据这些信息做出安全高效的驾驶决策。XNet:类似于人类的眼睛,是一个结合动态视觉、静态视觉和2K纯视觉技术的深度感知神经网络。它能够以裸眼3D效果重构现实世界的3D图像,感知范围扩大了两倍,相当于1.8
个足球场的面积,并能识别50多种目标物,使驾驶系统的视野更加清晰、广阔。AI司机,拥有AI代驾、AI泊车功能,全面覆盖行车、泊车在内的全场景,使得车辆能洞悉外界环境,为驾驶者提供实时信息,确保行车的安全性和便捷性。小鹏大语言模型Xbrain和天玑系统智能座舱方案融合了智谱AI的基座大模型和多模态模型。XPlanner:更像人类的小脑,是基于神经网络的规划大模型。通过大量的数据训练,它逐渐进化出类似人类驾驶员的操作能力,使驾驶过程更加平稳,提升了用户的驾驶舒适性和安全性。ꢀꢁꢂꢃꢄꢅꢆꢇꢈꢉꢊꢋꢌꢍꢎꢏꢂꢃꢐꢑꢒꢓꢁꢔꢕꢖꢀꢁꢗꢘ产业研究战略规划技术咨询47毫末智行HAOMOꢀꢁꢂꢃDRIVEGPT2023ꢀ4ꢁ11ꢂ2023ꢀ10ꢁ11ꢂØ
第八届HAOMO
AI
DAY上,毫末智行正式对行业首发了DriveGPT
1.0自动驾驶生成式大模型,同时也公布了其中文名“雪湖·海若”。Ø
第九届HAOMO
AI
DAY上,毫末智行CEO顾维灏详细介绍了毫末DriveGPT大模型在推出200天后的整体进展。首先是DriveGPT训练数据规模提升。截至2023年10月DriveGPT雪湖·海若共计筛选出超过100亿帧互联网图片数据集和480万段包含人驾行为的自动驾驶4D
Clips数据。进一步升级引入多模态大模型,获得识别万物的能力;与NeRF技术进一步整合,渲染重建4D空间;借助LLM(大语言模型),让自动驾驶认知决策具备了世界知识。产业研究战略规划技术咨询49ꢀꢁꢂꢃØDriveGPT首先通过构建视觉感知大模型来实现对真实物理世界的学习,将真实世界建模到三维空间,再加上时序形成4D向量空间;毫末进一步引入开源的视觉文本多模态大模型,构建更为通用的语义感知大模型,实现文、图、视频多模态信息的整合,从而完成4D向量空间到语义空间的对齐,实现跟人类一样的“识别万物”的能力。ꢄꢁꢂꢃØ基于通用语义感知大模型提供的“万物识别”能力,DriveGPT通过构建驾驶语言(DriveLanguage)来描述驾驶环境和驾驶意图,再结合导航引导信息以及自车历史动作,并借助外部大语言模型LLM的海量知识来辅助给出驾驶决策。毫末基于DriveGPT大模型开发模式的七大应用实践,包括驾驶场景理解、驾驶场景标注、驾驶场景生成、驾驶场景迁移、驾驶行为解释、驾驶环境预测和车端模型开发。对于今年火热的大模型上车,毫末智行有前瞻性的策略。在车端模型开发模式变革方面,毫末尝试用蒸馏的方法,也就是用大模型输出的伪标签作为监督信号,让车端小模型来学习云端大模型的预测结果,或者通过对齐Feature
Map的方式,让车端小模型直接学习并对齐云端的Feature
Map,从而提升车端小模型的能力。产业研究战略规划技术咨询50ꢀꢁ·ꢂꢃꢄMANAOASISꢅꢆꢆꢇꢈꢉꢊꢉꢋꢌꢍꢎꢏꢐꢑꢒ2023ꢓ1ꢔ5ꢕ合作伙伴:毫末智行&火山引擎联合打造Ø
能力:该智算中心每秒浮点运算达67亿亿次,存储带宽每秒2T,通信带宽每秒800G。Ø
数据管理能力方面:毫末智行建立了面向大规模训练的Data
Engine,从单帧单要素变为连续帧全要素。实现百P数据筛选速度提升10倍、百亿小文件随机读写延迟小于500微秒;Ø
算力优化方面:毫末与火山引擎联合部署了Lego高性能算子库、ByteCCL通信优化能力以及大模型训练框架,可以让算力进一步优化;Ø
训练效率方面:基于Sparse
MoE,通过跨机共享,轻松完成千亿参数大模型训练,且百万个Clips(毫末视频最小标注单位)训练成本只需百卡周级别,训练成本降低100倍。ꢖꢗꢘꢉꢋꢌꢍꢙꢚꢛꢜꢝ2000ꢞGPUꢟꢠꢡꢢꢣꢤꢥꢦꢧꢨꢎꢩꢪꢫꢬꢭꢠꢇꢈꢮꢯꢰꢱꢲ90%ꢳꢴꢵꢶꢷꢸꢨꢹꢺꢝꢻ产业研究战略规划技术咨询51思必驰AISPEECHꢀꢁꢂꢃꢄꢅꢆꢇ2021ꢀ,发布UniDU(DFM-0),即统一生成式对话理解框架;2022ꢀ,统一理解、生成、表征等任务,研发DFM-1,即统一生成式通用对话基础模型,作为10亿及大模型进行小规模产品应用;2023ꢀ7ꢁ12ꢂ,思必驰正式发布自研的对话式语言大模型DFM-2,并与梅赛德斯-奔驰、上汽通用五菱、长城汽车、合众新能源、博泰车联网、联通智网等多家汽车产业链上的企业举行了签约仪式。DFꢃꢄꢅꢆꢇꢈꢉꢊꢋꢌꢍꢎꢏꢐꢑꢒꢓꢔꢕꢖꢗꢘꢆꢇꢈꢉꢙꢚꢛ提升人机语言交互五种核心能力:外部信源增强的精准推理决策、基于深度认知的通用语义理解、基于文档理解的可信主动知识问答、面向用户个性化的多人设交互、面对复杂任务的自动规划与执行;大模型与全链路综合对话技术能力的联动。如数字人、语音合成技术ꢜꢝꢞꢟ将DUI平台与DFM-2大模型相结合,推出DUI2.0,升级对话式AI全链路技术,并应用于多个领域ꢠꢡꢢꢇDUI
2.0在智能汽车领域的应用为:思必驰汽车语音助手天琴系统全面升级至6.0,支持多模态、多意图、多音区、全场景多轮连续对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业办公墙纸装饰协议
- 商场摊位租赁合同:鲜花绿植租赁
- 市场营销总监聘用协议律师
- 假山医院景观施工合同
- 酒店清水池防水施工合同
- 海南省博物馆聘用合同指南
- 皮革行业合同管理样本
- 智能医疗弱电综合布线施工合同
- 眼镜专柜租赁合同模板
- 商务中心会议厅翻新合同
- 人工智能训练师的工作内容
- 开展老人防诈骗知识讲座
- 汕头大学汇报模板
- 《重庆森林》都市的孤独
- 广西壮族自治区河池市都安瑶族自治县2023-2024学年六年级上学期期末英语试题
- 矿山行业创新与科技进步
- 2024心肺复苏培训课件完整版
- 优化献血服务流程
- 未来医疗2024年的AR手术眼镜
- 严重心律失常的急救处理
- 放射科未来五年发展规划(2021-2025)
评论
0/150
提交评论