【甲子光年】2024自动驾驶行业报告-“端到端”渐行渐近_第1页
【甲子光年】2024自动驾驶行业报告-“端到端”渐行渐近_第2页
【甲子光年】2024自动驾驶行业报告-“端到端”渐行渐近_第3页
【甲子光年】2024自动驾驶行业报告-“端到端”渐行渐近_第4页
【甲子光年】2024自动驾驶行业报告-“端到端”渐行渐近_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

出品机构:甲子光年智库智库院长:宋涛报告撰写:翟惠宇发布时间:2024.07*甲子光年智库分析师胡博文对本次报告撰写亦有贡献。Part01发展背景:汽车智能化正加速普及P02Part02趋势辨析:端到端自动驾驶的价值P09

Part03厂商实践:技术路线的选择与践行P18

Part04未来展望:端到端的挑战与未来式P26

目录

智能化水平已经成为国内汽车消费者最核心的购买因素之一。益浓厚。

o超半数的汽车消费者将智能化水平作为购车时的关键考量因素,他们追求更先进的自动驾驶体验、更智能的座舱环境以及更个性化的驾驶乐趣。o

智能化在购车决策中的重要性日益凸显,这也促使众多汽车制造商加快了智能化技术的研发和工程投入;继续航里程和用车成本之后,智能化已成为新能源汽车竞争的主要领域,未能跟上智能化步伐的汽车品牌可能会逐渐失去市场竞争力。o国内汽车工业在电动化和智能化领域的迅猛发展,正在重塑消费者的购车偏好,消费者对于自动驾驶技术、智能座舱等高端智能化功能的兴趣日图1:购车时“智能化”考量因素高居第二59%用车成本低智能化程度高图2:自动驾驶、智能座舱、42%动力性能OTA能力受广泛关注更先进的自动驾驶功能原生新能源汽车平台智能座舱体验更好OTA能力更强续航里程表现驾驶乐趣更高造型设计美观售后体验更好保养成本低配置表精炼乘坐更舒适获取牌照外观时尚噪音小环保43%40%43%48%47%47%47%62%65%31%30%39%51%51%51%54%

智能驾驶渗透提速,“智能化”竞争进入白热化。oNOA技术的渗透率正迅速提升:自2022年“量产元年”起,高速NOA和城区NOA的普及率显著增长。目前,高速NOA的渗透率已超10%,城市NOA也超过了3%。

o

在众多厂商的推动下,重视“智能化”的汽车越来越受消费者青睐,尤其是那些配备自动泊车和L2.5以上级别NOA功能的车型;这些车型已成为车企竞争的焦点,预示着未来缺乏NOA功能的车辆可能失去竞争力。

图1:高速NOA渗透率持续增长(%)

标配

选配

合计o自动驾驶功能的普及,得益于车企的持续投入和消费者对这些技术的接受度,这已成为汽车市场竞争力的关键。图2:城市NOA渗透率持续增长(%)

合计

标配

选配1210865432Feb-23Feb-24Feb-23Feb-24May-

23May-

23Aug-23Aug-23Ju

l-

23Ju

l-

23Apr-23Apr-23Sep-

23Sep-

23Nov-23Nov-23Mar-

24Dec-23Mar-

23Dec-22Mar-

23Dec-22Mar-

24Dec-23Oct-23Oct-23Jan-24Jan-23Jan-23Jun-23Jan-24Jun-234201014

自动驾驶科技公司排队冲击IPO,智驾加速普及,行业正在苏醒。o

尽管一级市场融资受到整体投融资环境的影响,但自动驾驶公司通过不断优化核心软硬件产品,向更务实的L2辅助驾驶转型,加速了智能驾驶的商业化进程,众多企业开始准备IPO。

o同时,随着智能驾驶功能的普及,消费者对其正面认知逐渐增强

,乘用车自动驾驶市场稳步增长,这促使主机厂与智能驾驶解决方案供应商之间的合作更加紧密,进一步推动了智能驾驶技术的商业化应用。

禾赛科技美股2023年2月上市激光雷达传感器

海创光电科创板2023年5月提交申请激光雷达传感器 黑芝麻智能港交所2023年6月提交申请自动驾驶计算芯片 如祺出行港交所2023年8月提交申请Robotaxi、网约车运营文远知行美股2023年8月完成IPO备案自动驾驶解决方案、Robotaxi 赛目科技港交所2023年10月提交申请ICV仿真测试、验证知行科技港交所2023年12月已上市自动驾驶解决方案激光雷达传感器Robotaxi、Robotruck、智能驾驶解决方案智能驾驶解决方案自动驾驶计算芯片、智能驾驶解决方案智能驾驶解决方案自动驾驶解决方案一级市场融资难造血能力待提升需要研发投入2024年1月已上市2024年4月完成IPO备案

2024年3月提交申请

2024年3月提交申请2024年5月提交申请2024年6月完成IPO备案速腾聚创

小马智行纵目科技地平线佑驾创新

Momenta图达通

美股2023年8月完成IPO备案激光雷达传感器订单需求扩张业绩快速上涨产品性能提升表:2023年起,自动驾驶厂商扎堆IPO港交所美股港交所港交所港交所美股计划上市地主营业务企业名称IPO进程

智驾量产车上路,数据飞轮已经转了起来。o自BEV(鸟瞰视图)结合Transformer架构成为自动驾驶感知领域的主要发展方向以来,数据驱动在其中扮演的角色愈发关键;众多汽车制造商和自动驾驶解决方案提供商都已构建数据闭环系统,以支持自动驾驶系统的模型训练和持续迭代。o目前,配备高级智能驾驶功能的汽车已实现规模化部署,这为自动驾驶算法的持续创新和优化提供了坚实的数据支撑。•人工智能技术加持

,数据筛选、标注、训练、验证形成全链路闭环

,持续迭代智能驾驶产品•相比过去工程师制定的规则算法

,能够实现低成本、高效率的系统迭代•由此实现闭环自动化

,数据驱动自动驾驶

,在为现有车辆进行OTA功能升级的同时

,为后续更高级别的自动驾

驶车辆做准备图:打造数据闭环,量产时代下的自动驾驶应用部署为数据驱动提供条件影子模式触发数据回传AI驱动的数据闭环———含数据积累———含打造数据闭环

升级现有智能车量产项目提供海量车端大数据:训练高阶自动驾驶算法智能驾驶汽车规模化自动驾驶智算中心L3/L4量产上车OTA部署算法升级数据分析数据标注数据采集算法部署模型训练模型验证

自动驾驶技术发展与普及的背后,是底层AI技术的进步。oA

I技术的应用场景众多,自动驾驶无疑是其中的核心议题;它不仅代表了技术应用的前沿,也是产学两界AI专家不懈追求、共同攻克的领域。o自动驾驶行业的发展与AI技术的每次飞跃紧密相连:从卷积神经网络(CNN)、循环神经网络(RNN)、生成对抗网络(

GAN)到Transformer,每一次技术革新背后,都伴随着深度学习等基础AI技术的突破性进展。正是AI技术的持续进步,构成了自动驾驶技术不断演进和成熟的基础动力。图:

自动驾驶技术的主要迭代路径

RNN(

LSTM)

+GAN•

更擅长处理时间序列数据+生成高质量合成数据•

预测车辆未来轨迹能力•长期时序建模能力弱;数据质量难把控;实时性要求无法满足BEV+Transformer•结合Transformer更强的处理序列数据和复杂上下文关系方面的能力,

实现更精确的环境感知、更长远的运动规划和更全局化的决策CNN(卷积神经网络)•图像识别处理表现优秀;有效处理传感器数据融合•

需要大量数据标注;时序任务处理能力偏弱BEV(鸟瞰视角)•

直观且丰富的车身周边环境表示•

需要复杂的传感器数据融合与校准,计算量庞大OCC+Transformer•Occupancy

Network基于学习进行

三维重建

,是BEV的3D迭代至今Transformer大模型基于大规模数据

训练,具备更强的鲁棒性与泛化能力,

在自动驾驶行业大方异彩CNN

提出后,深度学习进入爆

发期,自主学习能力被释放201620182020那么,下一步?20112022

AI大模型技术已经在自动驾驶领域得到广泛应用。oTransformer大模型技术在自动驾驶领域并非新近出现,其实早在ChatGPT之前,这一技术就已被应用于自动驾驶的感知任务。o

特斯拉在2021年就展示了其基于BEV视角结合Transformer的感知方案

,此后,国内厂商纷纷跟进并进行创新,这间接加速了2022年之后高阶智

能驾驶方案的快速落地。o

从云端的模型训练到车端的模型部署

,大模型技术已被广泛应用于数据处理、模型融合与优化等多个环节,显著提高了模型训练的效率和系统的

整体性能。图:从云端到车端,大模型已经在

自动驾驶感知模块开始规模化应用

数据挖掘

大模型的泛化性能用于挖掘长尾数据,如使用CLIP模型进行基于文本描述的图像数据检索。知识蒸馏 利用大模型通过自监督学习预训练,配合极少量人工标注微

,实现自动标注视频clip数据。 利用大模型检测真值固定的物体,如

车道线、交通灯等

,这些物体的位置不受天气、时间等因素的影响。 使用自回归编解码网络将BEV特征解

码为结构化的拓扑点序列

,实现车道

拓扑预测。 将处理不同子任务的小模型合并成一

个大模型,在车端进行联合推理计算,提高感知算法的准确性和实时性。

感知

预测决策控制 使用NeRF技术隐式存储场景,通过渲染图片的监督学习学出

场景的隐式参数,实现场景重建和高真实感数据生成。 大模型通过学习海量数据中的特征

,然后用来配合中、小模

型的训练,提高中、小模型的性能。数据生成车道拓扑预测物体检测

数据自动标注云端合并不同小模型车端Part02创新思路:端到端自动驾驶的价值P09Part01发展背景:汽车智能化正加速普及P02Part04未来展望:端到端的挑战与未来式P26Part03厂商实践:技术路线的选择与践行P18目录

传统模块化自动驾驶存在信息传递损耗、计算效率低下等问题。o

传统自动驾驶系统已经发展得相当成熟,通常采用模块化串联的部署方式:其核心模块涵盖感知、定位、预测、决策和控制等,每个主要模块及其子模块都承担着特定的职责

,且每个模块的输入通常来源于前一模块的输出。

o

模块化设计的优势在于能够将复杂的自动驾驶任务分解为更小、更易于管理的子任务

,同时便于问题的追踪和定位;然而

,随着自动驾驶技术向数据驱动的方向发展,模块化设计的某些局限性也逐渐显现

,例如信息传递过程中可能出现的损耗、计算延迟以及累积误差等问题。控制模块转向油门/电门刹车PID/MPC传感器摄像头激光雷达毫米波雷达轮速IMU规划模块全局路径规划车辆行为决策预测模块车辆行为预测行人行为预测任务多且散导致低效复合误差难以修正系统构建与维护成本高误差累积影响安全性信息的损耗与丢失图:传统自动驾驶的模块化部署目标跟踪底盘通信车道线识别红绿灯识别障碍物识别传感器融合userid:532115,docid:166896,date:2024-07-05,sgpjbg.com血定位模块感知模块高精地图车辆定位

从系统架构的变化趋势上看,自动驾驶系统模块是在不断融合的。o

模块化自动驾驶的核心在于不同子模型在各个模块中的嵌套与协同工作。然而

,随着Transformer架构等先进AI技术的发展,模型间的界限正逐渐变得模糊。原本独立的子任务模型正逐步被更大规模的神经网络模型所取代

,特别是在感知模块

,BEV结合Transformer方案的广泛应用预示着数据驱动的深度学习神经网络正日趋成熟。BEV+Transformer极大推动自动驾驶通用感知网络的发展速度o从架构的角度来看

,随着模型融合的趋势,自动驾驶系统的终极形态很可能是One

Model

,即一个狭义上的端到端神经网络模型。Learning-Based更少的工程更多的数据端到端全栈神经网络Rule-Based更多的工程

适量的数据图:自动驾驶系统模块的融合趋势预测、决策模块也正在神经

网络化的进程中目标跟踪定位规划目标检测决策预测后融合地图控制预测多传感器融合规划定位地图决策控制预测规划网络

控制通用感知网络

端到端路线为自动驾驶进一步突破提供了一种可能性。广阔的想象空间。

o端到端自动驾驶神经网络的实现将带来一系列优势

:它将完全基于数据驱动进行全局任务优化,拥有更简洁的系统架构,更高的计算效率以及更强的泛化能力。然而

,它也面临着对算力和数据的巨大需求,以及尚未解决的黑盒问题和幻觉问题

,这些问题需要随着技术的进步而逐步克服。渗透•由数据驱动的方式来解决自动驾驶长尾问题•

更好、更快的纠错能力•

避免上游模块错误的过度传导o随着感知、预测和决策等关键模块逐渐实现神经网络化,端到端自动驾驶的路径已经清晰可见,为自动驾驶技术向L4级别无人驾驶的迈进提供了更好的计算效率•模型集成统一

,减少模块间的信息延迟和冗余,提升计算效率参数过大

,算力不足大模型的幻觉问题不可解释与安全性End-to-End端到端自动驾驶模型避免累计误差完全由数据驱动更强的泛化性

感知

↓•

具备零样本学习能力,在未知场景仍可正确决策传感器获取的原始数据直接输出车辆驾驶动作决策

预测

控制基于统一的神经网络,端到端的核心是信息的无损传递。o自动驾驶领域尚未就“端到端”概念达成统一认识。一般而言,端到端自动驾驶指的是从原始传感器数据输入直接到控制指令输出的连续学习与决策过程,过程中不涉及任何显式的中间表示或人为设计的模块。o

尽管端到端自动驾驶的具体定义仍存在一定的模糊性,但其核心理念是避免信息在传递过程中的损耗。端到端自动驾驶:统一的神经网络架构,一步到位输出车辆指令感知/定位预测控制规划端到端大模型

信息的无损传递

周边环境

传感器传感器 执行器车辆状态

执行器车辆状态

周边环境模块化架构端到端架构

融合趋势下

,“端到端”从感知走向决策,再走向联合一体化。o

特斯拉FSDV12的卓越性能令业界观察家印象深刻

,它确实摒弃了之前FSD方案中多年积累的代码,但其端到端方案的成功也离不开其在过去十年在人工智能和智能驾驶领域的深厚积累。

o

端到端自动驾驶技术的发展遵循着渐进的路径:目前,BEV+OCC+Transformer已经实现了感知模块的端到端架构,决策模块也在逐步从依赖手写规则向基于深度学习的模式转变

,最终目标是实现模块化联合与单一模型的端到端自动驾驶。

端到端自动驾驶大模型•

仍然保留两个模块独立训练,而预测与决策

规划模块神经网络化•

通过人工定义的方式制定接口•BEV+Transformer推动感知方案性能提升•

决策规划模块仍然基于规则•

没有模块间的明确划分,是单一模型•

基于RL或IL等深度学习方式进行模型训练•

模块间以特征向量为输出与输出•

两个模块通过梯度传导的方式同时训练图:端到端自动驾驶系统架构演进BEV

FeaturePlanning

Former“端到端”感知(现有主流架构)隐式表达特征国--------------BEV感知

AI

PlannerLearning-BasedRule-BasedOne

Model端到端模块化联合端到端Rule-Based

Planner决策规划模型化(生成式AI大模型)BEV感知人为定义接口人为定义接口

瞄准“全局最优”,端到端路线的提出有望有效缓解模块化架构的弊端。o模块化自动驾驶系统面临信息丢失、计算效率低、累积误差以及维护成本等问题,这些问题难以回避

,需要新的思路去解决。o

端到端自动驾驶通过将传感器收集到的全面信息作为输入,在单一网络中直接生成车辆的控制指令或运动规划。这种设计使得整个系统针对最终

目标进行优化,而非仅仅针对某个独立的子任务

,从而实现自动驾驶性能的全局最优化。o随着高质量数据的不断积累和模型的持续优化

,端到端架构有望展现出比传统模块化架构更优越的自动驾驶性能。•一体化的模型结构能够减少信息传递的延迟,加快系统反应•消除各模块之间信息传递的误差累积,全栈神经网络的上下层之间可以

做到全量信息传递•不仅感知模块,决策规划与控制模块也由数据驱动,实现全栈数据驱动•无需或仅需少量人工编码、手写规则,简化开发流程•提升数据规模与质量能够显著提升产品性能,不断提升系统的能力上限•端到端是一体化架构,为汽车行驶的全局任务为统一目标联合训练•避免模块化的单独优化•不需要通过频繁的patch和参数调整修正图:端到端自动驾驶的特点与优势模块化

端到端3

消除误差2

全局最优1

数据驱动PerformanceTime行为克隆学习方法具体方法定义特点优势劣势当前发展阶段模仿学习(IL)行为克隆(BC)通过监督学习模仿

专家行为简单直接,易于实

现实现简单,计算效

率高无法捕捉专家决策

复杂性,对数据分

布偏移敏感广泛应用,但面临

泛化和鲁棒性挑战模仿学习逆最优控制通过专家演示学习尝试解释专家行为可能更好地理解任学习奖励函数困难,主要用于研究,实(IL)(IOC)奖励函数背后的意图务结构需要大量专家数据际应用较少强化学习(RL)强化学习(RL)通过试错学习最优

策略能够处理高维输入

和连续动作空间理论上能学习更优

策略需要大量数据和计

算资源,训练不稳

定在模拟环境中有进

展,真实应用挑战

大others策略蒸馏(PolicyDistillation)训练辅助网络来指

导主网络学习利用辅助网络的知

识来提升主网络性

能可以提高学习效率

和策略性能需要设计合适的辅

助网络和训练策略研究阶段,探索如

何有效传递知识others模型预测控制(MPC)利用模型预测未来

状态来进行控制决

策考虑未来状态,可

以优化长期行为能够考虑未来预测,

提高策略鲁棒性计算成本高,需要

精确模型研究和特定应用中

使用,需要进一步

优化模仿学习与强化学习是端到端自动驾驶的主要训练方法。o

模仿学习(Imitation

Learning)和强化学习(Reinforcement

Learning)是当前用于训练端到端神经网络的两种主要方法。o

模仿学习主要通过逆最优控制(InverseOptimalControl)和行为克隆(BehaviorCloning)来实现,其核心理念是让智能体通过模仿专家的行为来学习最优策略。而强化学习则是一种通过试错来学习的领域,其中奖励函数的设计是一个关键挑战。图:端到端自动驾驶背后的基本训练方法逆最优控制强化学习

各类基础模型有望为自动驾驶带来新维度上的能力。正在被积极开发。

大视觉模型(VFM)•目标检测和跟踪:VFM在3D物体检测和分割方面的能力,对于自动驾驶的感知系统升级至关重要;•仿真和测试:VFM的视频生成能力,为创建逼真的驾驶场景提供了支持,这对于自动驾驶系统的安全性和可靠性提升有极大潜力。大语言模型(LLM)•推理和规划

:LLM利用其在逻辑推理、代码生成和翻译方面的专长,为自动驾驶的路径规划和决策制定提供支持;•用户交互:通过理解自然语言并执行用户指令,LLM使智能驾驶系统更加用户友好,实现个性化体验;•常识性驾驶知识

:LLM的预训练能力使其能够理解和应用驾驶常识,可能替代传统的基于规则的系统。多模态大模型(MFM)•视觉理解与空间推理

:MFM结合了视觉和语言信息,展现出卓越的视觉理解和空间推理能力,对自动驾驶系统的决

策过程至关重要;•综合感知与预测

:MFM通过整合视觉和语言数据,提高了对环境的感知精度和对其他交通参与者行为的预测准确性。o

这些基础模型通过预训练获得了推理能力和丰富的知识,能够升级传统的基于规则的if-else系统。出色的泛化能力能够应对自动驾驶技术发展中的挑战,提升在感知、预测、规划等关键领域的性能,升级自动驾驶仿真和测试环节的技术手段。o

大型语言模型、视觉模型(如世界模型)、以及多模态大型模型等基础模型展现出了强大的能力,并且这些能力正在自动驾驶技术的融合应用中大模型之于

自动驾驶汽车仿真与测试路径预测

感知决策一体化

视频生成/世界模型视觉理解与推理人机交互/个性化

路径规划

大语言模型大视觉模型

环境感知多模态大模型

GPT-4Vision、LLaVA等GAIA、SORA等ChatGPT、LLaMA等Part03厂商实践:技术路线的选择与践行P18Part02创新思路:端到端自动驾驶的价值P09

Part04未来展望:端到端的挑战与未来式P26

目录

发展背景:汽车智能化正加速普及Part

01P02MmomenT

O

端到端自动驾驶部分厂商o端到端自动驾驶正迅速成为自动驾驶行业的新焦点,吸引了多种类型的参与者投身于这一路线

,涵盖了车企、人工智能企业、自动驾驶技术公司、机器人公司以及自动驾驶芯片制造商。

o随着对“端到端”理念的共识逐步建立,预计将有更多的企业加入这一行列

,各自发挥专长,共同推动端到端自动驾驶技术的繁荣发展。图:端到端自动驾驶行业代表玩家(不完全整理)人工智能公司/自动驾驶解决方案供应商模块化联合端到端一体化端到端模型车企/新势力

端到端玩家简析-特斯拉落地的公司。

oFSDV12在复杂场景下展现了卓越的泛化能力,且其驾驶风格不再局限于传统的规则遵循

,而是变得更加灵活

,类似于经验丰富的驾驶员,能够根据实际情况做出适应性调整。

图2:特斯拉FSD已经累计开了10亿英里*该数据仍然在持续、快速上涨

,赋能FSD的迭代更新。o

特斯拉在端到端自动驾驶算法领域的领先地位,得益于在FSD真实里程积累和超大规模算力投入方面的深厚基础,这也是特斯拉最大的竞争优势。o

特斯拉无疑是电动汽车和自动驾驶行业的领军者,它已于2024年1月向北美用户正式推送FSDV12,成为首家在量产车型上实现端到端自动驾驶*相当于30万块NvidiaA100算力总和

,为端到端自动驾驶模型训练提供充沛算力。图1:特斯拉算力储备将在2024年10月达到100EFLOPS

端到端玩家简析-Wayveo

成立于2017年的Wayve,是一家位于英国伦敦的自动驾驶技术公司,以其创新的端到端机器学习技术而著称

,专注于开发具有高度适应性和可扩展性的端到端自动驾驶系统。

VLAM模型o

Wayve在端到端自动驾驶技术领域取得了显著进展,先后推出了大型语言模型LINGO-1/2,视觉生成模型GAIA-1,以及专为高级自动驾驶仿真训练和测试而设计的PRISM-1。

PRISM•

仅依靠纯视觉信息

,即可进行精确的

4D场景重建(空间+时间),用于自动驾驶的模拟仿真测试.

增强其自动驾驶技术的测试和训练·

同时发布了wayvescenes

101

Benchmark基准数据集LINGO-2使用自然语言训练,可解释Al驾驶模型,

显著提升了系统的可解释性最新发布的LINGO-2增加了人机交互功能,司机可通过语言命令控制汽车能够通过视频、动作和文本生成真实驾驶视频的生成式Al世界模型生成多个合理的未来,时长可达几分钟

可通过语言、动作进行控制生成的内容图:将世界模型融入自动驾驶,Wayve加速端到端一体化模型的研发迭代速度wayvevision

LanguageAction

Model4D场景重建模型/合成数据way

vevisionModelDrivingActionText视频生成模型GAIA-

1LearnedqueriesVideoinputText端到端玩家简析-元戎启行o元戎启行于2024年北京车展上隆重推出了其即将量产的高端智能驾驶平台DeepRoute

IO

,该平台采用了端到端自动驾驶模型,标志着元戎启行成为国内首批将端到端大型模型成功应用于量产车辆的人工智能企业。oCEO周光曾表示:“DeepRoute

IO平台不依赖高精度地图

,应用端到端模型,具有极佳的综合性能以及更强的长尾场景处理能力。目前,IO平台已在城市线级不同的多个城市进行泛化测试,这些等级不同的城市人口均超千万

,道路情况极具代表性。IO平台推向消费者市场后,所到之处

都能开

,任何场景都好开。”•

元戎的DeepRoute

IO方案,无需开发、训练多个模型,将感知、预测、规划等

全打通•

端到端模型实现输入图像后,直接输出

控制动作•Mapfree全域点到点•

更擅长处理复杂路况•

信息处理无减损•

驾驶行为更加“人性化”

端到端模型开展道路测试

n

2023.8Learning-Based更少的工程更多的数据Rule-Based更多的工程

适量的数据图:元戎启行的端到端融合演进路线通用感知网络控制预测规划网络目标跟踪预测后融合规划控制决策目标检测决策定位地图控制规划地图预测定位多传感器融合n

2022n

2017

端到端玩家简析-商汤绝影o商汤科技及其联合实验室提出了行业内首个感知与决策一体化的自动驾驶通用模型UniAD

,该模型荣获了2023年CVPR的最佳论文奖。进一步地,在2024年,商汤科技推出了适用于实车部署、面向量产的真正端到端自动驾驶解决方案UniAD。

oUniAD模型将感知、决策、规划等关键模块整合到一个全栈的Transformer端到端模型中,通过联合训练保留了各个模块的特性。它实现了感知与决策的一体化,同时保持了模块化系统的优势

,便于进行问题的回溯和分析。

UniAD端到端解决方案演进路径

•UniAD包括四个基于Transformer解码器的感知、预测模块和

一个规划器•并不限于特定的Transformer解码器,可以加入其他的替代方

案进行感知与BEV特征提取•查询Q起到连接管道的作用,方便联合训练与交互建模•将各个任务进行层级式的结合,并对不同任务间的信息进行了

充分的交互•通过端到端联合训练避免了多任务训练的融合难题,实现全局

最优,同时保留了分模块系统的优势,可以抛出中间模块的结果进行白盒化分析统一的感知决策规划模型

Learning-Based,联合训练摄像头激光雷达毫米波雷达超声波雷达高精地图摄像头激光雷达毫米波雷达超声波雷达SD地图摄像头激光雷达毫米波雷达超声波雷达高精地图决策规划Rule-Based决策规划

Learning-Based感知模块

Learning-Based感知模块

Learning-Based

UniAD:Planning-orientedAutonomous

Driving,UniAD的联合训练实现方法两段式端到端网络真·端到端UniAD基于规则的网络

端到端玩家简析-小鹏o

在2024年的520AI

Day上,小鹏汽车发布了其端到端大模型,该模型由三个关键组成部分构成:XNet感知神经网络、XPlanner规划控制大模型以及XBrain大语言模型。

o小鹏计划让其端到端智能驾驶大模型实现“每2天迭代一次”的快速更新周期。按照这一规划,预计在未来18个月内,小鹏的XNGP系统的能力将实现30倍的提升(接管率指标)。

图:小鹏发布端到端大模型,面向旗下量产车型•

AI大语言模型,是自动驾驶汽车的“大脑”•具备理解学习能力,泛化能力提升

,可处理复杂甚至未知场景•系统能够认识待转区、潮汐车道、特殊车道、路牌文字

,秒懂各种令行禁止、快慢缓急的行为指令,进而做出兼顾安全、性

能的拟人驾驶决策•

深度视觉感知神经网络

,是自动驾驶汽车的“眼睛”•

聚合了动态XNet、静态XNet和纯视觉2K占用网络•感知范围提升2倍

,面积可达1.8个足球场大小,能精准识别50+

个目标物

,让用户如同拥有鹰眼视觉•基于神经网络的规划大模型

,是自动驾驶汽车的“小脑”•拥有“老司机般的脚法”

,前后顿挫减少50%、违停卡死减少40%、安全接管减少60%•

让用户舒适性、安全性体验大幅提升升级XPlannerXNetXPlanner感知规划控制端到端玩家简析-华为乾崑o华为在2024年4月推出了新品牌乾崑及其新一代智能驾驶解决方案ADS3.0

,该方案以GOD网络和PDP网络为核心,实现了端到端的智能驾驶。oGOD大网络具备识别白名单和异形障碍物的能力,同时能够感知道路结构和场景语义

,从而更全面地理解驾驶环境。而PDP预测决策与规划网络

的加入,显著提升了方案的通行效率,使得复杂路口的通过率达到96%以上。通过快速的更新迭代

,ADS3.0将能帮助车主实现“越开越好开”和“行驶更类人”的目标。

华为乾崑ADS3.0架构

感知

(理解驾驶场景)

预测与决策PDP网络预决策规划一张网•相较于ADS

2.0

,ADS

3.0在感知部分采用GOD大感知网络,决策规划部分采用PDP网络,完成了决策规划模块的神经网络化;•ADS

3.0可实现车位到车位的NCA领航辅助功能,实现从公开道路到园区道路再到地下车位全场景贯通;•云端训练,快速迭代:学习训练算力达3.5E

FLOPS

,每天学习里程

3000万+公里

,5天一次模型更新速度。类别ADS

1.0ADS

2.0ADS

3.0发布时间2021年4月2023年4月2024年4月软件架构BEVBEV+GOD网络GOD网络+PDP网络核心功能NCA领航辅助(上海、广州、深圳等)NCA领航辅助

(全国高速、城区)NCA领航辅助(全国高速、城区,实现

点到点)搭载车型极狐阿尔法S、阿维塔11问界M5/M7/M9

,阿维

塔11/12

,智界S7享界S9(预计),后续有

更多品牌与车型加入华为历代ADS智驾方案特性运动控制RadarvisionNavigationLidarGOD网络Part02创新思路:端到端自动驾驶的价值P09

Part03厂商实践:技术路线的选择与践行P18

Part04未来展望:端到端的挑战与未来式P26

目录

发展背景:汽车智能化正加速普及Part

01P02

算力、数据与可解释性,是端到端模型上车的主要挑战。o

尽管端到端架构相较于传统的模块化自动驾驶展现出了诸多优势

,并且吸引了众多汽车制造商、科技公司以及其他自动驾驶领域的企业参与,端到端自动驾驶在落地和商业化方面仍然面临诸多挑战。

1巨额投入成本

2弱解释性问题3优质大规模数据o

构建所需的强大算力、获取用于模型训练的高质量海量数据,以及端到端大模型的“不透明性”和“解释性不足”,都是制约产品性能提升和安全保障的关键问题

,需要行业各方共同努力,携手解决。

与大语言模型刚问世时类似

,端到端的训练方式让模型不可避免地存在不可解释性•自动驾驶的“失效成本”很高,强调安全底线,需要设置额外的完全边界做冗余•

大模型需要大算力

,需要厂商不

断提升GPU的采购规模

,这意味着端到端模型的训练成本非常高昂•

AI厂商均在算力层面的投入

,但

国内GPU的限制仍是挑战•

大模型需要大数据,本质上来讲,端到端自动驾驶是海量驾驶视频

片段的学习(压缩与升华)•

需要极大规模的高质量数据,采集、清洗、筛选都是难点7系统的安全性保障……4技术路线不确定6

团队组织变革5缺乏验证方法厂商类型厂商名称智算中心建设算力水平车企特斯拉Dojo智算中心100000

PFLOPS长安长安智算中心1420

PFLOPS吉利星睿智算中心810

PFLOPS理想理想智算中心1200

PFLOPS小鹏“扶摇”智算中心600

PFLOPS蔚来蔚来智算中心-科技公司/供应商商汤绝影商汤智算中心12000

PFLOPS华为车BU云智算中心3500

PFLOPS毫末智行“雪湖·绿洲”智算

中心670

PFLOPS

算力储备需要大量投入,这是国内厂商追上特斯拉需要翻越的壁垒。o端到端自动驾驶大模型本质上是从大量的优质驾驶视频片段中提取和压缩驾驶知识与习惯的过程,这与ChatGPT等生成式大语言模型类似

,都需要强大的算力和海量数据来支撑模型的训练。

o近年来,国内主流汽车企业和新兴造车势力都在加快算力储备的建设,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论