2024汽车AI大模型TOP10分析报告_第1页
2024汽车AI大模型TOP10分析报告_第2页
2024汽车AI大模型TOP10分析报告_第3页
2024汽车AI大模型TOP10分析报告_第4页
2024汽车AI大模型TOP10分析报告_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

预训练语言模型预训

调将模型在大规模无标注数据上进行自监督训练得到预训练模型将模型在下游各种自然语言处理任务上的小规模有标注数据进行微调得到适配模型AI大模型就是预训练语言模型通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型预训练语⾔模型“预训练

+

微调”技术范式⼤规模⽆标注⽂本数据模型预训练不同特定任务有标注训练数据模型微调测试数据最终模型Big-data

Driven,模型基于大规模语料训练而成;Multi-tasks

Adaptive,支持多种任务,包括自然语言生成NLG和自然语言理解NLU类的任务;Few-shot

(Zero-shot),在少甚至无标注样本的条件下支持推理(自监督学习)。产业研究

战略规划

技术咨询2大模型发展历程2017年,Google提出Transformer

框架在机器翻译中取得显著进步,其分布式学习和强大编码能力受到广泛关注。2018

Google

OpenAI

基于Transformer

提出了预训练语言模型

BERT

GPT,显著提高了NLP

任务的性能,并展示出广泛的通用性。众多预训练模型相继涌现,OpenAI以

GPT2、GPT-3、ChatGPT

等系列模型为代表,持续引领大模型时代的浪潮CAN(Gioodfellow.图灵奖得主Bengio)Word2Vec(Google.引用78550)Attention(图灵奖得主

Bengio)ResNet(

MSR.引用183222)Google.引用91332)Transformer(

BERT(Google)GPT(OpenAI)GPT-2(OpenAI)GPT-3(OpenAI)Foundation

PaLM(Google)ChatGPT(OpenAI)ViT(Google)DALL

E2(OpenAI)GPT-4V(OpenAI)ERNIE(百度)CPM(智源)Model(Stanford)

GLM(洁华)201220132014201520162017201820192020202220222023跨模态模型预训练模型大模型计算

AlexNet机

(图灵奖得主视

Hinton)觉自然语言处理认知感知来源:大模型驱动的群体智能行业白皮书产业研究

战略规划

技术咨询3大模型参数规模不断增长,推动AIGC技术升级。AIGC技术发展的背后是大模型(Foundation

Models)技术的持续迭代。从2017年Transformer

结构的提出,加速了深度学习模型的参数学习能力。另一方面,GPU算力也在指数级增长。图1:2018-2023

年模型参数规模变化图来源:中国人工智能系列白皮书图2:CPU与GPU算力演进比较产业研究

战略规划

技术咨询4英伟达每2年推出一个微架构,对产品线进行升级,6

2

日,英伟达在

Computex

2024大会上发布了至2027年的芯片路线图,GPU迭代周期由

2年缩短到1年,走类似英特尔的Tick-Tock

模式(一年工艺一年架构)。同时,英伟达践行“Buy

More

Save

More”让算力成本指数级下降。图3:英伟达GPU架构演进图

图4:训练芯片算力成本呈下降趋势我国高端GPU芯片进口从2019年以来就一直有被限制,只是之前主要针对的厂商是AMD,在应用场景上又以超算中心为主;2023年10月17日,美国加强了面向中国市场的AI芯片禁令。其中明确将性能、密度作为出口管制标准,将单芯片超过300teraflops算力,以及性能密度超过每平方毫米370

gigaflops的芯片都纳入了禁止出口行列。禁令涉及A100、H100等主流AI训练用英伟达GPU。来源:浙商证券研究所、华泰证券研究所产业研究

战略规划

技术咨询5,行业高精数据短缺相较于英文、中文高质量开源数据非常少,特别是在构建通用领域大模型的百科类、问答类、图书贡献、学术论文、报告杂志等高质量内容数据人才中文语料短缺产业研究

战略规划

技术咨询6数据和语料的同质化商业化压力大全球化经营人才流失与人才短缺科技大厂创业新势力产业研究

战略规划

技术咨询7综合各测评平台的方法论来看,在基础能力的测评维度基本相同,仅测评数据集和评估权重占比不同;而在基础能力之外,各测评平台侧重点不同屧⯈倁

OpeThCompass

2.0

⺶ⷂ

AgentIDC

To

C通用场景类To

B特定行业类LaThguageKThowledgeReasoThMathCode騕阌焒駮䲀槏俚㳔♣焺Other⪼♑产业研究

战略规划

技术咨询8问答理解类推理类数学类创作表达类代码类㕈熝茤ⲇ 䍎氠茤ⲇ问答理解类常识、专业知识、多语言、多模态、角色扮演+多轮对话、安全陷阱推理类情感推理、演绎推理、逻辑推理、归纳推理、类比推理创作表达类文字创作&创意、内容改写/续写、修改/润色、文字处理、编辑/语义匹配、摘要提取、关键、字提炼、标题生成、文本风格迁移、图像创作、短视频创作(文生视频)、其他创作(文学艺术、商业通用)数学类小学数学、初中数学高中数学、高等数学推理类代码生成、编程翻译代码解释、代码纠错代码自动补全生成代码文档单元测试toC通用场景类生活助手办公工具toB特定行业类工业:产品设计辅助&&生产规划教育:智能问答、试题生成法律:智能法律助手,法律咨询医疗:问诊,用药咨询科研金融:推荐场景金融/咨询服务:财报/市场分析互联网/媒体:文案/海报设计、广告词创作、视频生成场景零售/电商:客服问答IDC测试题目分为基础能力和应用能力两个大类共7个维度IDC

采取实测的方式,成立产品测试团队,通过多个维度对基础大模型及相关产品进行评测,并邀请外部专家团队深入分析各个产品答案准确性、合理性等,在审核委员会的监督下,最终得出各厂商的评估结果,供用户选型参考。产业研究

战略规划

技术咨询9我们跟踪研究了多个通用大模型,其中包括:Qwen-Max-0428SenseChat

V5Ernie-4.0Tencent

HunyuanSpark4.0

UltraYi-LargeGLM-4Pangu

5.0Baichuan4CongRong

2.0产业研究

战略规划

技术咨询10在2024年,大模型的技术发展将趋向多功能与小型化,同时产业端将强调自主研发和行业标准化䪫勘盛☋╃盛为确保中国大模型的长远发展和避免外部制裁风险,国内AI计算芯片的自主研发将成为关键战略方向。优化和完善现有数据标准和规范,是

推动大模型“燃料”质量提升和数量增长的重要驱动力,在2024年将作为产业发展的首要任务。为满足产业实际需求并适应中小企业的发展特点,“套壳”微调(即在现有大模型基础上进⾏针对性调整)将成为除行业巨头外企业的主要发展策略。随着大模型性能的飞速提升和实⽤性的增强,确保AI技术与社会伦理道德标准相⼀致将成为⼤模型持续发展的关键考量因素。模型整合统一未来的技术演进方向是实现大模型底层框架的整合与标准化,从多样的架构(如双编码器、单边解码等)转向统⼀的、效率最优化的开源底层框架,提升模型的通⽤性和可维护性。参数规模扩展为确保模型质量和性能,未来的大模型将采⽤更深层的⽹络结构和更庞⼤的数据集进⾏预训练,尤其在数据量和参数量上将迎来显著跃升。多模态融合大模型将逐渐融入图⽚、⾳频、视频等多种模态信息,实现跨模态的交互与理解,从⽽拓宽其应⽤场景和实⽤价值。大模型小模型化在产业应⽤层⾯,结合底层基础大模型和针对特定⾏业的精简数据微调,将训练出更为实用、更易于产业落地的小型化大模型。来源:沙利文中国大模型测评报告产业研究

战略规划

技术咨询11来源:面壁智能公众号ꁩ⹜㎃䌑㝕騕阌埛㒘㐃

M┪M溸L䙎U茤囒銩⶿楓駬⛓㝕埛㒘焒駮茤ⲇ㝕埛㒘僓♣溸䷧㸸㴼䔾大模型的知识密度每8个月左右会翻一倍,同等知识量的模型参数量会减半右图显示了过去四年大语言模型在

MMLU榜单(评估大模型知识能力)上的性能表现,红色曲线表明,大模型的知识密度平均每8个月左右会翻一倍,同等知识量的模型其参数量会减半知识密度=知识量/参数量产业研究

战略规划

技术咨询12来源:面壁智能公众号갫濫㝃僓埛ꭊ䘒㙨埛ꪍ㒘

⹨俚GPꓪT婞-4㐃Vꄢ寊庱䌐罥溸⭀┯⻎긖㚧冝茤在

2

0

2

4

5

型MiniCPM-Llama3-V

2.5

仅凭

8B

参数,实现了“以最小参数,撬动最强性能”的最佳平衡点。面壁智能迭代的最新版本MiniCPM-S

1.2B采用了高度稀疏架构,通过将激活函数替换为

ReLU及通过带渐进约束的稀疏感知训练,巧妙地解决了此前主流大模型在稀疏激活上面临的困境。在通用大模型越来越卷参数规模和算力的情况下,如何通过架构和算法创新去规避算力和成本的短板,我们认为小参数、高性能模型是一个重要的趋势,特别对于手机、车载终端而言,这样的端侧模型具有现实的需求。产业研究

战略规划

技术咨询13来源:文心一言官网与百度的方案类似,各科技大厂基于云平台、算力基础设施和大模型技术相结合,推动行业应用落地,汽车产业链当然也是最重要的落地场景之一。砯岻呻厜┪文心一言沿袭了

ERNIE

3.0

的海量无监督文本与大规模知识图谱的平行预训练算法,模型结构上使用兼顾语言理解与语言生成的统一预训练框架。为提升模型语言理解与生成能力,研究团队进一步设计了可控和可信学习算法。駕绿┪结合百度飞桨自适应大规模分布式训练技术和“鹏城云脑Ⅱ”领先算力集群,解决了超大模型训练中的多个公认技术难题。在应用上,首创大模型在线蒸馏框架,大幅降低了大模型落地成本产业研究

战略规划

技术咨询14规模法则驱动下,海量的算力成为开发优秀AI算法的基础到端自动驾驶方案,在算法上端到端已经成为大势所趋。但在发展路径上,行业预计也会经历渐进的过程。早期玩家致力于将算法从模块化架构平稳过渡到端到端,远期大语言模型和端到端基础模型有望结合形成“系统一”和“系统二”共同赋能自动驾驶,最终强大的通用人工智能(AGI)或许可覆盖所有驾驶能力。对自动驾驶而言,与所有AI应用类似,算力、算法、和数据三要素都必不可少数据的体量、质量、以及收集方式、处理方式、以及模型的训练和验证体系都考验着开发者的技术和工程能力砯ⲇ㺂긖俚䰕做긖砯岻㺂긖目前海外特斯拉、Wa如何构建一个性能优异且稳定可靠的算法来支撑功能落地,亦尤为关键端到端模

型多模态大语言模型AGI通用世界模型产业研究

战略规划

技术咨询15㐙冎㝕埛㒘㝕鉿埛╃㒘ꄽ氠㝕埛㒘四种竞争要素缺一不可;持续的产品迭代能力;逐步建立于自研芯片或者国产芯片的算力建设;汽车行业的合作与量产应用;多场景的覆盖能力与量产应用;持续的产品迭代能力;走向通用世界模型的潜力;单一场景的技术积累;广泛的汽车行业客户与量产应用;可以允许“套壳”与API调用;单场景技术方向的领先发展潜力;数据服务场景场景数据算法算力算法数据框架产业研究

战略规划

技术咨询16ꄽ氠㝕埛㒘⪫⺶┬屋鉿╃䍎氠㐙冎蔦Ⲙ뎴뎬做呿ガ⹿㺥㒍稝㝕埛㒘╭勨⸅⻔璇䪫⚕╃鿛㒘Tier1䳀둛㵊䨮俠✅闌⬑做呿皶◚ⲇ㎃稝⹨┱脢产业研究

战略规划

技术咨询171❵䍎ガ供应商1供应商2供应商32 尸鿕⪫⺶主机厂1主机厂2……3 ⮃鉿气䘒主机厂N公司1公司2蔦Ⲙ뎴뎬 冝茤䍵薷 煝⹿駦駉 觝ꨆ䲀䌦 㵊䨮劚ⲏ 騕꼟ⲙ䩘 俚㲼㳙气 ⪾麄冝茤产业研究

战略规划

技术咨询18百度BAIDU倁䖦┞阌㝕埛㒘2024年6月28日,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰在WAVE

SUMMIT深度学习开发者大会2024上宣布了文心一言的最新数据,并正式发布文心大模型4.0

Turbo、飞桨框架3.0等最新技术2019.03中国首个正式开放的预训练模型Ernie1.02019.07全球首个大规模隐变量对话模型Plato2021.07全球首个知识增强百亿大模型Ernie3.02021.09全球首个百亿中英对话生成模型Plato-XL2021.12全球最大中文跨模态生成模型Ernie-viLG2021.12全球首个知识增强千亿大模型鹏程·百度·文心2023.03.16文心一言大模型3.02023.10文心一言大模型4.02024.06.28文心一言大模型4.0

Turbo“文心一言”

发展历程产业研究

战略规划

技术咨询21㐙&冎航空航天

气象&海洋飞行器&汽车风阻预测能源动力

材料研发座舱散热

天气预报新药研发凸包能预测疫苗设计蛋白质结构预测砯ⲇ数据驱动机理驱动数理融合PaddleSciencePaddleHelixDeepXDENvidia

ModulusNvidia

ModulusDeePMD-kit算力中心智算中心䍎氠螅䑑䈰缀⪾䐮呻厜算子库高阶自动微分

原生复数机制线性代数运算

······大范围分布式并行计算编译器计算库概率统计

方程符号化定义神经算子学习

······硬件算子适配飞桨深度学习框架砯ⲇ㺂百度自研昆仑芯,同时也与国内外机构合作,搭建算力中心和异构计算平台厜卐㺂其飞桨框架已经更新到3.0版本。实现大模型混合并行训练策略、编译器自动优化、大模型多硬件适配和推训一体䈰⪾㺂开发飞桨的各类组建䍎氠㺂文心一言推出多种功能各有侧重的文心大模型,包括文心轻量级、文心3.5、文心4.0、文心4.0工具版。其中,文心轻量级模型适合解决确定场景的问题;文心3.5适用于日常信息处理和文本生成任务;文心4.0模型参数更大、具备更强的理解能力、逻辑推理能力与更丰富的知识,提供专业且深入的帮助;文心4.0工具版则基于智能体技术,善于综合运用多种工具和数据,按要求完成非常复杂的任务。最新发布的文心4.0

Turbo则是文心4.0的升级版。产业研究

战略规划

技术咨询22IntelNVIDIACPU:飞腾、海光、鲲鹏、龙芯、申威操作系统:麒麟、统信、普华AI芯片:昆仑芯、海光、寒武纪、瑞芯微、算能、高通、

Graphcore、Ambarella与浪潮、中科曙光等服务器厂商合作形成软硬一体的全栈AI基础设施工具与组建端到端开发套件基础模型库核心框架量⼦机器学习⽣物计算云上部署编排⼯具⾃动化深度学习强化学习联邦学习图学习

科学计算低代码开发⼯具预训练模型应⽤⼯具可视化分析⼯具资源管理安全与隐私⼯与调度⼯具具语音理解文字识别图像分类目标检测图像生成大模型推训一体图像分割自然语言处理计算机视觉语音时间序列文心大模型推荐动态图产业研究

战略规划

技术咨询23大规模分布式训练产业级数据处理静态图模型压缩边缘与移动端推理引擎前端推理引擎服务器推理引擎服务化部署全场景统一部署学习与实训社区开发训练推理部署낚咮☋╃绣广䍳㳔▣┱䐷徏䐷侒䌐⺬倁䖦㝕埛㒘鉿╃㝕閕埛能源金融航天制造传媒城市社科影视自然语言处理文心一言

ERNIE

Bot对话

PLATO-XL|搜索

ERNIE-Search跨语言

ERNIE-M

|代码

ERNIE-Code产业研究

战略规划

技术咨询24语言理解与生成

ERNIEERNIE

3.0

Zeus

|鹏城-百度·文心ERNIE3.5|ERNIE

4.0视觉OCR图像表征学习

VIMER-StrucTexT多任务视觉表征学习

VIMER-UFO视觉处理多任务学习

VIMER-TCIR自监督视觉表征学习

VIMER-CAE跨模态文档智能ERNIE-Layout文图生成ERNIE-ViLG视觉-语言ERNIE-ViL语言-语言ERNIE-SAT生物计算化合物表征学习

HelixGEM蛋白质结构预测

HelixFold单序列蛋白质结构预测HelixFold—Single与主机厂合作落地名称:知识增强的汽车行业大模型——吉利-百度·文心使用了百度文心ERNIE

3.0大模型,在智能客服知识库扩充、车载语音系统短答案生成、汽车领域知识库构建三个任务上进行了微调与验证。该大模型在2300万条吉利汽车专业领域无标注数据上进行模型预训练,并联合双方的人工智能专家和汽车行业专家一起研发。应用于提升百度自动驾驶感知算法文心大模型在百度感知2.0中发挥了重要作用,主要提升3D感知能力,解决远距离检测和长尾物体识别两大难题。百度使用半监督、自训练方案对大模型进行训练先用有标签数据对模型进行初始启动训练,后将模型在无标签数据上进行推理得到伪标签,最后合并有标签数据和伪标签数据对模型进行进一步训练。如此往复。训练完感知大模型后,百度利用知识蒸馏的方法将伪标签用于车载小模型的学习,从而增强车载小模型的远距离感知能力。产业研究

战略规划

技术咨询25华为HUAWEIⶶ╬漽⺜㝕埛㒘2024┿汕☭䈰冝茤㝕⚷华为常务董事、华为云CEO张平安指出,华为正在通过“云网端芯”架构上的协同创新,来构建可持续发展的AI算力基础,包括云基础设施系统架构创新、芯端算力上云、面向AI的网络架构升级三大方面。⼀切⺪尊⼀切溻㸉瞏⼀切⺪缀⻉华为云推出了全新的CloudMatrix架构,

以“

一切可池化”“一切皆对等”“一切可组合”三大创新设计,从算力规模、扩展模式和使用模式上,匹配超大规模的算力诉求,通过技术创新来解决行业难题。透过CloudMatrix架构创新展现华为云全栈的AI能力,包含盘古大模型、昇腾AI云服务、分布式QingTian架构、AI-NativeStorage和全球存算网等。产业研究

战略规划

技术咨询272024䌑6劓22傽㐃ⶶ╬䐷⹿脢㝕⚷2024HDC

2024┪华为常务董事、华为云CEO张平安正式发布盘古大模型5.0,在全系列、多模态、强思维三个方面全新升级;还分享了盘古大模型在自动驾驶、工业设计、建筑设计、具身智能、媒体生产和应用、高铁、钢铁、气象等领域的丰富创新应用和落地实践,持续深入行业解难题。盘古大模型5.0包含不同参数规格的模型,以适配不同的业务场景。十亿级参数的PanguE系列可支撑手机、PC等端侧的智能应用;百亿级参数的PanguP系列,适用于低时延、高效率的推理场景;千亿级参数的Pangu

U系列适用于处理复杂任务;万亿级参数的Pangu

S系列超级大模型能够帮助企业处理更为复杂的跨领域多任务。盘古大模型5.0能够更好更精准地理解物理世界,包括文本、图片、视频、雷达、红外、遥感等更多模态。在图片和视频识别方面,可支持10K超高分辨率;在内容生成方面,采用业界首创的STCG(

SpatioTemporalControllableGeneration,可控时空生成)技术,聚焦自动驾驶、工业制造、建筑等多个行业场景,可生成更加符合物理规律的多模态内容。复杂逻辑推理是大模型成为行业助手的关键。盘古大模型5.0将思维链技术与策略搜索深度结合,极大地提升了数学能力、复杂任务规划能力以及工具调用能力。产业研究

战略规划

技术咨询28该平台基于盘古大模型和ModelArtsAI开发生产线,已经在多个车企和商用车场景中成功运用。该平台基于盘古大模型和ModelArts

AI开发生产线,提供了数据生成、自动标注、模型训练、云端仿真、虚实结合仿真、数据闭环等一系列能力。该平台预集成了超过25万个场景库,包括500多类功能场景和200多项测评指标体系,将传统纯实车测试时的场景搭建工作从数天降低到分钟级,车企还可以基于盘古训练出自己需要的模型。2024年6月22日,盘古大模型5.0通过创新的可控时空生成技术,结合场景视频生成、4D

BEV视频生成、自动驾驶仿真库及路网信息,能更好地理解物理规律,大规模生成和实际场景相一致的驾驶视频数据,还可以灵活增加控制条件,生成不同路况、不同光照、不同天气的训练视频数据,加速自动驾驶技术的快速成熟。䰕ⶶ╬◥EI劚ⲏ☋⿣ꌄꌄꪍ㹐먹ⶶ╬◥ꄽꁩ漽⺜㝕埛㒘鰘茤蔦Ⲙ뎴뎬䐷⹿䌐⺬产业研究

战略规划

技术咨询29⺪♨㵄楓┩㺂Ⲏꅌ通过数智融合架构打破数据、AI资源管理边界,在一个平台即可完成开发、测试、交付上线工作,让业务创新提效2倍,实现数据加速;借助盘古大模型在认知、感知、决策、优化等全领域的能力,车企可以快速基于盘古训练出自己需要的模型,实现算法加速;基于昇腾AI云服务,可针对自动驾驶300+算法进行优化,60+实现精度性能提升,可以做到千卡训练数月不中断,实现算力加速。目前上述三种华为自动驾驶相关大模型中,只有场景理解大模型已有客户(比亚迪)合作落地(工程师仅需调用华为云提供的API就可以用场景理解大模型来完成给视频数据分类的工作)。但是大模型的训练成本高昂。GPT-3训练一次的成本可能在1200万人民币。而华为方面,在训练千亿参数的盘古大模型时,也调用了超过2000块的昇腾910,进行了超过2个月的训练,成本极高。一方面选择小样本训练,通过自监督的方法,以更少的标注数据来做训练,以降低成本;另一方面盘古大模型的三层架构能在结构上实现降本。L0层是通识性的大模型,具备鲁棒性和泛化性;大模型训练好了之后不用再重复训练,只需在L1和L2层做适应性训练,成本关系是上一层的5-

10%。华为云是具备自动驾驶数据闭环工具链全栈自研能力的云厂商之一。除了给用户提供大模型的能力外,华为云也可以提供数智融合架构、ModelArtsAI开发生产线、昇腾AI云服务等一系列配套设施,用户可以在华为云的自动驾驶开发平台上同时实现数据加速、算法加速和算力加速。ModelArts

AI开发生产线包含DataTurbo、TrainTurbo、InferTurbo

三部分,分别提供数据加载、模型训练、模型推理的加速工具,倍速提升模型训练效率。为了应对模型训练的算力需求,各家科技公司、主机厂等纷纷开始自建/合建算力中心,打造算力集群。华为云在乌兰察布和贵安数据中心同时上线了昇腾AI云服务,为模型训练提供澎湃算力,单集群性能可达2000P

Flops。大规模的算力集群通常会面临业务连续性的问题,因为单点故障就可能导致整个大规模分布式任务失败。为保证训练任务不中断,华为云开发了断点续训的方法,假如在训练过程中出现了单点故障,系统会将这个点排除掉,用新的节点替换掉故障节点,并且原地重启。据悉,昇腾AI云服务可以实现千卡训练一个月以上不中断,断点恢复时长不超过10分钟。产业研究

战略规划

技术咨询30科大讯飞KEDAXUNFEI駗낚儘挩㝕埛㒘2023䌑10劓24傽璇㝕駗낚⹿䉘儘挩㝕埛㒘V3.0┢㝕茤ⲇ䭥缩䳀ⶬն儘挩3.0ⶬ绣⼅⹿䑑㸉騅յAI☭駦ⲍ茤茤㝉䩤ꅐ剳╗䙎溸AIⲙ䩘ն2024䌑6劓27傽⹿䉘◗儘挩㝕埛㒘4.0曬勔ն星火大模型在识别中,两人混叠场景准确率已经到了91%,三人混叠场景准确率达85%以上。在-5dB的高噪场景,噪音已经比人讲话还要高不少的情况下,星火语音识别依然能做到90%以上的准确率。“2023年到2024年的国际连续最权威的语音识别比赛,国际多通道语音分离和识别大赛CHiME-7,星火继续拿了全球第一;今年的上半年国际声学、

语音和信号处理会议ICA

S

S

P

2024

(InternationalConferenceonAcoustics,Speech,andSignalProcessing)的旗舰赛事——国际车载多通道语音识别挑战赛科大讯飞是全球第一,这个不是中文的,是英文和多语种的比赛。”语音交互已经搭载了5700多万辆的汽车,去年中国500多万辆汽车出海,成为中国出海的“新三样”,其中的多语种智能语音技术几乎全是科大讯飞提供的。科大讯飞与红旗、奇瑞、广汽、一汽签订了战略合作协议,越来越多的车企开始用讯飞星火“能听会说、能理解会思考”的汽车方案。产业研究

战略规划

技术咨询32ⶬ绣◗儘挩尸鿕冝茤䍵薷智能座舱中可以实现全双工交互,实现多语种多方言的免切换交流,多情感多模态的拟人交互,而且能够多模态感知,知道驾驶人身体健康程度,是否疲劳、血压过高、心跳过快;还可以贯穿内外信源,在车上完成任务,科大讯飞星火有了语言理解,就可以更自由地对接外部信源了。除了急速的语音对话、多方言多语种之外,通过多模态的识别,它可以了解到你的身体参数,知道你是否疲劳驾驶、是否有异常情况。星火在汽车的音效上还有一个非常重要的特点,通过AI大模型和音效结合,可以把十几万的国产车音效,做到比四五十万的车的音效还好,40多万的车可以超过柏林之声的音效。不仅音效提升,开车时可以随时要求去掉原唱,跟着它的伴唱、对唱、分享等,这些都是大模型带来的功能,产业研究

战略规划

技术咨询33⹿䉘駗낚勨㊮☭鱪荆䌐⺬2.0“随着大模型具身智能的帮助,今天的陪伴机器人,尤其是人形机器人开始进入到全新的发展阶段,未来如果没有陪伴机器人,老年社会的幸福是没有办法保障的。”通过大模型可以在后台做理解、做规划,在前端通过专门的硬件设备实现麦克风阵列,实现人脸、手势的各种识别,从而可以“听说看认”,最后再与机器人厂商共同来做具身模型,把这个能力开放给讯飞星火的合作伙伴。直接用科大讯飞的方案,每一个机器人厂商都可以定制自己的机器人超脑。2022年推出讯飞超脑平台,是专门给机器人的机器人超脑平台1.0,现在已经有410家机器人企业,大概占了至少60%的机器人市场份额。机器人超脑平台进一步升级。升级的核心是后端星火超脑2.0的硬件版,能够极大地提升具身智能和最后相关的理解能力,包括任务规划和前端的摄像头、麦克风一体化的模块。产业研究

战略规划

技术咨询34⻄璀㐙冎⚳㴼⯜䘤▂闌⬑䍎氠溸劅⻑┞⪫ꓧ

駗낚儘挩V4.0㐃冝茤✅┪溸茤ⲇꂛ婢

目标可以更好地照进现实。这个是什么目标?能不能用一句话提要求,大模型就能理解我的意图,然后分解出这句话所对应的各个步骤的任务,然后找到每个任务所对应的工具,让每个工具去调用内外部的各种信息,有的是内部信息,有的是外部信息,最后完成任务给出结果,这就叫智能体。简单地说,就是叫它干一件事,它能自动规划,找到工具自动完成。䵴䐮⚕╃冝茤✅䌐⺬劅ꓨ锢溸┩뀉茤ⲇ第一是AI的原子能力,比如人工智能开放平台上的各种各样的专有能力,会成为工具被它调用;第二个是各种外部信源;最后要打通公司内部系统。这三个能力构建起来,再有大模型能力,就可以搭建企业智能体了。在这方面科大讯飞已经走在了行业前列,不仅有了基本能力,现在AI的原子能力有400多项,已经集成了外部的90多个重要的信源,关乎到研、产、供、销、服、管各个领域,天气、股票、航班等这些全部都在。打通了内部IT、ERP财务、法务、OA等系统。产业研究

战略规划

技术咨询35商汤科技SENSE

TIMEガ尐傽傽假㝕埛㒘在2023世界人工智能大会(WAIC)上展示2024䌑4劓23傽2023䌑7劓 2024䌑2劓2024䌑7劓5傽升级至SenseNova4.0,日日新·商量大模型各版本同步升级至V4。商汤科技发布日日新5.0(SenseChat

V5),采用混合专家架构(MoE),参数量高达6000亿,支持200K的上下文窗口。据官方披露,SenseChat

V5具备更强的知识、数学、推理及代码能力,综合性能全面对标GPT-4

Turbo。商汤科技在WAIC

2024举办“大爱无疆·向新力”人工智能论坛,发布国内首个具备流式原生多模态交互能力大模型日日新SenseNova

5.5,综合性能较两个月前的日日新5.0提升30%,交互效果和多项核心指标实现对标GPT-4o。傽傽假

5.5╭锢剳假掾6000亿参数基模型性能全面提升。大量使用合成高阶思维链数据,提升推理思维能力,在数理逻辑、英文、指令跟随等方面能力增强明显。率先推出国内首个“所见即所得”模型「日日新

5o」,流式多模态交互,带来全新AI交互模式。端侧模型全面升级,发布「日日新

5.5

Lite」,相比4月5.0版模型精度提升10%,推理效率提升15%,首包延迟降低40%。产业研究

战略规划

技术咨询37应用插件、app和API开发者生态插件库应用商店公有云、私有化部署提示词广场数据标注服务评测工具串联Function

callCode

interpreter

沙盒环境知识融合安全和价值观对齐MOE混合专家模型管理服务发布模型通用对话模型商汤大模型体系基础底座大模型代码生成模型逻辑推理模型多模态感知模型文生图模型人像模型3D物体生成模型行业数据自动爬取自动采集和分类回流自动标注/人工Refine大批量数据自动清洗自动PROMPT构建数据质量评估数据平台基础底座大模型基础层商汤算力中心STPU预训练、微调、

RLHF工具算力支撑MOE、多模态、

Embedding训练思维链和自反思迭代系统国产化NV``````多语言扩展/多人设支持上下文长度扩增代码和数理逻辑训练千卡并行训练工具多后端支持Trt\ft\triton\PPI动态批次、调度和扩编容MOE、多模态、

Embedding训练云边端支持国产化芯片适配压缩优化INT8\INT4模型水印、编译加密和授权训练工具推理部署工具产业研究

战略规划

技术咨询38目前商汤绝影已经合作蔚来汽车、吉利极氪、广汽埃安、哪吒汽车等品牌车型,此外,虽然具体车型未明确提及,但商汤绝影已与本田、比亚迪、长城、红旗、奇瑞等超过30家国内外车企合作,覆盖了超过90款车型。蔦Ⲙ뎴뎬商汤绝影为智能汽车前瞻构建了

UniAD、DriveAGI以及面向座舱的多模态场景大脑等系列原生态大模型,加速端到端自动驾驶和大模型在智能座舱场景的落地;全栈的数据生产管线,实现大模型的高质量训练。薷뎴鄌⻉商汤绝影还在进一步探索舱驾融合,实现智能驾驶和智能座舱在硬件、软件及应用层面的全面融合,提升用户体验、降低系统成本,进一步打破舱内外的界限和束缚,涌现更多创新功能,带来更安全、更加全方位,更具人文关怀的新体验。盛➆ꌄ翤7月5日上午,在WAIC

2024人工智能论坛上,商汤绝影宣布在行业率先实现原生多模态大模型的车端部署,并在现场演示了搭载在200

TOPS+平台上的8B模型(即80亿参数)车端部署方案,展示强多模态感知和交互能力。商汤绝影车载端侧8B多模态模型可以实现首包延迟可低至

3

00

毫秒以内,

推理速度

4

0Tokens/秒。䐻卐駉砯䌐⺬商汤绝影打造了高性能异构计算平台

HyperPPL。它综合了大语言模型、多模态模型、CNN模型、前后处理完整的优化能力。HyperPPL目前扩展并支持主流车载计算硬件,兼容多种主流操作系统,适配多个车载芯片的部署平台,使得商汤绝影原生多模态大模型在主流芯片平台均可快速部署上线。同时,

H

y

p

e

r

P

P

L

支持f

l

a

s

h

de

c

o

de

、segment

prefill等400多个硬件算子,并对算子进行性能优化,同时量化支持

int8、int4模式,并支持训练后量化,从而实现极致推理效率。产业研究

战略规划

技术咨询39腾讯TENCENT营駗庌⩧㝕埛㒘僓ꭊ2022年4月,腾讯首次对外披露混元AI大模型的研发进展。基于腾讯太极机器学习平台进行研发,借助

GPU

算力,实现快速的算法迭代和模型训练。在全球MSR-VTT,MSVD,LSMDC,

DiDeMo

ActivityNet

五大跨模态视频检索数据集榜单中,“混元”AI

大模型先后拿下第一名的成绩2022年12月,混元推出国内首个低成本、可落地的NLP万亿大模型。2023年2月,腾讯针对类

ChatGPT

对话式产品成立混元助手(HunyuanAide)项目组。2023年9月,混元AI大模型正式发布。杅掾砯岻做긖勨㊮㳔▣呻厜采用的是自主研发的机器学习框架Angel,训练速度相比业界主流框架提升1倍,推理速度比业界主流框架提升1.3倍。㕈熝駦偢做긖采用基于云星星海自研服务器的新一代HCC高性能算力集群,搭载了超强算力GPU,性能提升了3倍。砯ⲇ겐聁䨿㕈◟溸羱缘䍐䍵儘茺羱缘䍐䍵3业.界2T最ꄽ⾼⟥䊎㶄

为10A⠩I⼤ꄽ模⟥型带䙎来茤䳀ⶬ通过自研TiTa协议和自研TCCL通信库,星脉网络可将网络利用率从普通以太网的60%提升到90%以上,极大提高整体集群的算力利用率。腾讯新一代计算集群可以帮助混元NLP大模型训练在同等数据集下,将训练时间由50天缩短到4天。产业研究

战略规划

技术咨询41㕈熝駦偢埛┱㒘䑜硅亦槏呻䈰厜⪾㝕埛㒘┱埛㒘ガ䍕䍎氠㐙冎㕈熝駦偢㺂⾕䈰⪾㺂结合腾讯云,有系统的研发布局和解决方案埛㒘㺂腾讯副总裁汤道生表示混元大模型已经支持了内部600多个应用,同时开拓更多调用大模型的产业场景,满足客户生图文、生图、生视频、生3D的需求。不同客户场景,对模型也有不同需求。除了混元外,腾讯云也支持客户选择其他模型,有些客户也会用腾讯的模型工具来精调其他开源模型如百川、GLM等。䍎氠㺂腾讯各事业部结合产品思考怎么用AI来提升用户体验、提高使用效率。比如在CSIG的企业应用中,腾讯会议就用大模型来生成会议纪要,腾讯乐享就用大模型构建熟悉企业文档库的智能助手,Coding研发平台用大模型来生成代码。产业研究

战略规划

技术咨询42庌⩧AI㝕埛㒘╭锢茤ⲇ庌⩧AI㝕埛㒘toB䍎氠根据腾讯的规划,混元大模型将作为行业大模型服务的底座,企业不仅可以直接通过API调用混元,也可以将混元作为基底模型,为不同产业场景构建专属应用。目前,混元支持金融、公共服务、社交媒体、电子商务、交通运输、游戏等行业。多轮对话具备上下文理解和长文记忆能力,流畅完成各专业领域的多轮问答。在多个场景下,腾讯混元大模型内容创作已经能够处理超长文本,通过位置编码优化技术,混元大模型对于长文处理效果和性能得到了提升。支持文学创作、文本摘要、角色扮演能力逻辑推理准确理解用户意图,基于输入数据或信息进行推理、分析AI问答支持AI输入文字内容,然后给出相应的回答,可有效解决事实性、时效性问题,提升内容生成效果。具有识别“陷阱”的能力,通过强化学习方法拒绝被“诱导”,当用户可能问出难以回答甚至无法回答的问题,针对此类安全诱导类问题的拒答率可以提升20%,减少了错误、无效回答的情况,提升回答内容的可信度。多模态(计划推出)AI绘画,使用者描述画面内容,根据关键字生成画作。座舱应⽤(计划推出)基于座舱垂域大模型的应用,结合感知车辆感知数据、语音输入和用户行为分析等因素,该模型能够提供场景化分析和智能决策,带给用户更自然的对话体验、生成式的交互界面、多样化的场景编排和更个性化的出行服务建议等。产业研究

战略规划

技术咨询43特斯拉TESLA杅偅䬕盛⯒盛㝕埛㒘产业研究

战略规划

技术咨询452021䌑

引入BEV+Transformer,将多摄像头数据统一成俯视角度。2022䌑 提出Occupancy

Networks判断空间占用。规划层引入交互搜索,逐步增加约束条件(其他参与者博弈行为)做最优路径规划。2023䌑8劓26傽 特斯拉演示FSD

BetaV12,是有史以来第一个端到端AI自动驾驶系统(FullAIEnd-to-End)。2024䌑1劓 特斯拉FSD

v12开始正式向用户推送,将城市街道驾驶堆栈升级为端到端神经网络。呦䖦杅掾感知、决策、控制杅偅䬕䠋焒㺂 从CNN单head⽹络迭代杅偅䬕

FSDV12的C++代码控制减少了10倍,从2万多行减少到2千行。特斯拉99%的决策都交给神经网络给出,视觉输入,控制输出,就像人类大脑一样。另外,它所拥有的超强能力,是经过巨量的「视频数据」、1万个H100加持下完成的。FSD

Beta

V12仍在调试中,因此还没有确定正式发布的时间。小鹏XIAOPENG㸰먹XGPT㝕埛㒘47XBrain:更像人类的大脑,为智能驾驶系统提供了理解和学习能力。它能够处理复杂场景,快速响应各种驾驶环境中的指令。XBrain可以识别待转区、潮汐车道、特殊车道和路牌文字,并根据这些信息做出安全高效的驾驶决策。XNet:类似于人类的眼睛,是一个结合动态视觉、静态视觉和2K纯视觉技术的深度感知神经网络。它能够以裸眼3D效果重构现实世界的3D图像,感知范围扩大了两倍,相当于1.8

个足球场的面积,并能识别50多种目标物,使驾驶系统的视野更加清晰、广阔。XPlanner:更像人类的小脑,是基于神经网络的规划大模型。通过大量的数据训练,它逐渐进化出类似人类驾驶员的操作能力,使驾驶过程更加平稳,提升了用户的驾驶舒适性和安全性。煝⹿駦駉㸰먹ꂖ㸞㝕埛㒘䑜⪝鿕鿵駦駉⾕♣焺䐷⹿䳀ⶬ煝⹿侞椚产业研究

战略规划技术咨询2024䌑5劓20傽DAY活动,展示了在AI方面的最新进展,并宣布将全面推送AI天玑系统。AI天小鹏汽车举办了一场主题为“开启AI智驾时代”的AI玑系统包括AI智驾和AI座舱。冝뎴做긖小鹏汽车自动驾驶端到端大模型包括深度视觉感知神经网络XNet、规划大模型

XPlanner和大语言模型XBrainAI司机,拥有AI代驾、AI泊车功能,全面覆盖行车、泊车在内的全场景,使得车辆能洞悉外界环境,为驾驶者提供实时信息,确保行车的安全性和便捷性。小鹏大语言模型Xbrain和天玑系统智能座舱方案融合了智谱AI的基座大模型和多模态模型。AI䍵薷三种AI角色:AI小P-生活助理,人机共驾-AI保镖和出行助理-AI司机毫末智行HAOMO孉勒冝鉿DRIVEGPT2023䌑4劓11傽第八届HAOMO

AI

DAY上,毫末智行正式对行业首发了DriveGPT

1.0自动驾驶生成式大模型,同时也公布了其中文名“雪湖·海若”。2023䌑10劓11傽第九届HAOMO

AI

DAY上,毫末智行CEO顾维灏详细介绍了毫末DriveGPT大模型在推出200天后的整体进展。首先是DriveGPT训练数据规模提升。截至2023年10月DriveGPT雪湖·海若共计筛选出超过100亿帧互联网图片数据集和480万段包含人驾行为的自动驾驶4D

Clips数据。进一步升级引入多模态大模型,获得识别万物的能力;与NeRF技术进一步整合,渲染重建4D空间;借助LLM(大语言模型),让自动驾驶认知决策具备了世界知识。产业研究

战略规划

技术咨询49䠋焒ꮕ嫙駌焒ꮕ嫙毫末基于DriveGPT大模型开发模式的七大应用实践,包括驾驶场景理解、驾驶场景标注、驾驶场景生成、驾驶场景迁移、驾驶行为解释、驾驶环境预测和车端模型开发。对于今年火热的大模型上车,毫末智行有前瞻性的策略。在车端模型开发模式变革方面,毫末尝试用蒸馏的方法,也就是用大模型输出的伪标签作为监督信号,让车端小模型来学习云端大模型的预测结果,或者通过对齐Feature

Map的方式,让车端小模型直接学习并对齐云端的Feature

Map,从而提升车端小模型的能力。产业研究

战略规划

技术咨询50곣弮·缻嵌MANA

OASISˋˋ孉勒冝鉿冝砯╚䖦⹿䉘僓ꭊ2023䌑1劓5傽合作伙伴:毫末智行&火山引擎联合打造能力:该智算中心每秒浮点运算达67亿亿次,存储带宽每秒2T,通信带宽每秒

800G。数据管理能力方面:毫末智行建立了面向大规模训练的Data

Engine,从单帧单要素变为连续帧全要素。实现百P数据筛选速度提升10倍、百亿小文件随机读写延迟小于500微秒;算力优化方面:毫末与火山引擎联合部署了Lego高性能算子库、ByteCCL通信优化能力以及大模型训练框架,可以让算力进一步优化;训练效率方面:基于Sparse

MoE,通过跨机共享,轻松完成千亿参数大模型训练,且百万个Clips(毫末视频最小标注单位)训练成本只需百卡周级别,训练成本降低100倍。睘┞劻冝砯╚䖦☆♕◗鱪ꁩ2000䑳GPUⷒ⻑缩ꂖ⚷周䰕╃ⲏ⹿㺥ꅌ䍳㙨Ⲏ孉勒潨⯼䉂缋㸞90%溸㝕㒘駕绿⚈ⲏꁙ瓌ꁩ⹜产业研究

战略规划

技术咨询51思必驰AISPEECH䘽䖪뎦╚厀㝕埛㒘2021䌑,发布UniDU(DFM-0),即统一生成式对话理解框架;2022䌑,统一理解、生成、表征等任务,研发DFM-1,即统一生成式通用对话基础模型,作为10亿及大模型进行小规模产品应用;2023䌑7劓12傽,思必驰正式发布自研的对话式语言大模型DFM-2,并与梅赛德斯-奔驰、上汽通用五菱、长城汽车、合众新能源、博泰车联网、联通智网等多家汽车产业链上的企业举行了签约仪式。DFM-2儱⪾劔ꄽ氠冝茤յꦎ㸉㒍㔔溸鉿╃騕阌駉砯㝕埛㒘ꄽ氠冝茤⹴焒駮提升人机语言交互五种核心能力:外部信源增强的精准推理决策、基于深度认知的通用语义理解、基于文档理解的可信主动知识问答、面向用户个性化的多人设交互、面对复杂任务的自动规划与执行;大模型与全链路综合对话技术能力的联动。如数字人、语音合成技术DUI

2.0在智能汽车领域的应用为:思必驰汽车语音助手天琴系统全面升级至6.0,支持多模态、多意图、多音区、全场景多轮连续对话。注:DUI开放平台,是思必驰

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论