汽车行业车载智能计算平台深度研究_第1页
汽车行业车载智能计算平台深度研究_第2页
汽车行业车载智能计算平台深度研究_第3页
汽车行业车载智能计算平台深度研究_第4页
汽车行业车载智能计算平台深度研究_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汽车行业车载智能计算平台深度研究一、概况:计算平台是自动驾驶系统“大脑”,供应生态多样核心结论:自动驾驶汽车围绕感知、决策和执行三大环节构建软硬件系统。车载智能计算平台是自动驾驶汽车的“大脑”,主要负责完成感知环节的识别融合任务以及整个决策环节,需要处理海量数据和进行复杂的逻辑运算。为满足高算力需求,目前车载智能计算平台集成多个SoC,每个SoC集成多类计算单元(如CPU、GPU、FPGA、ASIC等)。同时,车载智能计算平台还需要高效的软件架构支持应用开发。其软件架构高度分层化和模块化,主要分为系统软件(虚拟机、操作系统和中间件)、功能软件和应用程序三层。相较于传统零部件,车载智能计算平台涉及各类芯片和软件,供应商来自不同领域,供应生态多样。主要有三类参与者:OEM主要负责应用软件和部分功能软件,传统Tier1在中间层布局较深,芯片商提供硬件以及部分系统软件。另外还有算法方案解决商、Robotaxi厂商、专业系统软件商等。1.1自动驾驶系统架构:传感器+车载智能计算平台+执行系统自动驾驶系统是一个复杂的系统。为实现从A地到B地的驾驶过程,需要自动驾驶系统完成感知、决策、执行3大任务。感知:感知环节是实现自动驾驶的前提和基础,其主要功能是解决2个问题:环境识别(周边环境如何)和自身定位(在哪里)。环境识别(周边环境如何):感知系统利用摄像头、激光雷达、毫米波雷达、超声波雷达等传感器获取道路环境的信息,并对传感器数据进行处理、融合、理解,实现对车辆、行人等障碍物的识别,以及对车道线、红绿灯等交通标识的检测。自身定位(在哪里):利用全球导航卫星系统(GNSS)、惯性测量单元(IMU)、高清地图、车速传感器等获取车辆自身空间状态信息。环境状态信息以及自身状态信息为后续车辆预测、规划等决策环节提供依据。决策:决策环节是自动驾驶的核心,其主要功能是回答几个问题:预测(接下来会发生什么)、决策(该做什么)、规划(怎么做)。在感知环节完成对自身精确定位和对周围环境准确理解的基础上,决策环节主要是对接下来可能发生的情况进行准确预测,对下一步行动完成准确判断和规划,并选择合理的路径达到目标,指导执行系统对车辆进行控制。执行:自动驾驶系统最终要借助对车辆的控制达到自动驾驶的目的。执行环节负责将决策和规划落实为切实的行为。执行系统控制器(如底盘控制器、动力系统控制等)接收决策系统输出的目标路径轨迹,通过一系列结合自身属性和外界物理因素的动力学计算,转换成对油门、刹车、转向的控制,尽可能控制车辆按目标速度和方向行驶。完成上述3大任务需要车端系统、云端系统的支持,以及各类技术(如先进的整车电子电气架构、OTA、V2X等)的保障。完备的车端系统是自动驾驶功能实现的主要装备保障,仅靠车端系统即可实现初级和部分中级自动驾驶功能。车端系统主要包括:感知定位传感器系统、车载智能计算平台(简称计算平台)和底盘/动力系统。车载智能计算平台:如同人类大脑,完成感知环节的识别融合任务以及整个决策环节。自动驾驶几乎所有的计算都集中在计算平台。各类专用、通用芯片组成的硬件资源为计算平台提供算力保障。基于虚拟机、各类操作系统、中间件的系统软件架构为自动驾驶算法和功能实现提供软件平台。AI算法、滤波算法、规划算法等基础算法库以及保障工程实现的安全、备份、通信等基础功能库组成的功能软件为差异化的应用实现提供基础模块支持。计算平台的软硬件的差异是各厂商自动驾驶功能差异的核心所在,计算平台性能优良体现厂商自动驾驶技术实力的高低。底盘/动力系统:如同人类手脚,负责执行环节。底盘/动力系统包括对应的控制器和机械执行机构。底盘系统负责实现车辆转向和制动,动力系统负责车辆驱动。对于自动驾驶汽车,执行机构电子化,以及更进一步的线控技术是执行系统的基本技术要求。比如电子油门、电子助力转向、电子助力制动等。执行机构电子化实现人机解耦和自动控制。比如传统的真空助力制动系统只有当驾驶员踩动制动踏板,刹车助力系统才会工作。采用电动助力系统后,驾驶员不踩制动踏板,只要启动助力电机也能推动制动主缸,最终产生制动。1.2什么是车载智能计算平台?车载智能计算平台是实现高阶自动驾驶的必选方案。自动驾驶过程中需要一个强劲的“大脑”来统一实时分析、处理海量的数据与进行复杂的逻辑运算,对计算能力的要求非常高。计算平台本质也是嵌入式系统,相比于汽车传统控制器ECU(比如:发动机ECU、变速器TCU、车身BCM、电池BMS、电机MCU、整车VCU),其硬件和软件的复杂度更高,算力更高,功能更强。硬件方面,汽车传统ECU主要采用MCU(微控制单元,MicrocontrollerUnit)实现简单的计算和逻辑判断。智能计算平台通常使用单个甚至多个集成CPU、GPU、FPGA或AISC的SoC,可实现大量数据的并行计算和复杂的逻辑功能。软件方面,传统ECU软件架构较为简单,底层操作系统OSEK,中间件采用CPAUTOSAR框架,顶层为应用程序。部分功能简单的控制器甚至不需要使用操作系统和中间件。智能计算平台软件架构更复杂,层次更多,自下而上包括虚拟机、操作系统(支持多类实时与非实时操作系统)、中间件、功能软件和应用软件。1.2.1车载智能计算平台架构计算平台的功能实现需要丰富的硬件资源和复杂的软件支持。不同硬件资源的集成形成计算平台的硬件架构,将复杂的软件分层化处理构成了计算平台的软件架构。硬件架构:片内引入专用计算单元、板上集成多SoC自动驾驶中央计算平台的结构通常包括电路PCB板、散热部件和外壳。电路PCB板是计算平台是功能实现的核心,即是通常所称的计算平台“硬件”。中央计算平台硬件架构可分为三层:

板级:即PCB板,其上集成了SoC、I/O接口、内存、电源模块以及其他电子器件。更高阶的自动驾驶功能对计算平台的算力要求越来越高,考虑冗余的功能安全要求,单SoC设计已经无法满足要求,计算平台需要集成多个主SoC。片级:即系统级芯片(SoC),主控芯片上集成了多个和多类计算单元。在传统PC时代,各个核心芯片都是以独立的方式存在,比如英特尔和AMD的CPU、NVIDIA的GPU等。到了移动互联网时代,由于体积功耗方面的要求,主芯片集成度大幅提升,除了CPU和GPU,通常还包含了音频、多媒体、显示、安全、通信、AI计算等子单元。高度集成的SoC自然成为自动驾驶计算平台的首选。核级:即芯片的计算单元,如CPU、GPU、FPGA、ASIC等。不同种类的计算单元有各自的优势,分别负责不同任务。CPU通用性最强,主要负责复杂逻辑运算;GPU通用性不如CPU,但计算能力高,适合同时处理大量的简单计算任务,如运行深度学习算法;FPGA和ASIC是专用型计算单元,针对某类运算定制,以达到最优的性能和功耗比。这类计算单元主要用来运行如神经网络等AI算法。系统软件:承上启下,实现应用软件与物理硬件分离。系统软件自下向上分为三层。1)虚拟机(Hypervisor):通过将虚拟化将物理硬件隐藏,实现多个操作系统共享一个芯片;

2)操作系统内核:即狭义操作系统(如OSEKOS、QNX、Linux)。内核提供操作系统最基本的功能,负责管理系统的进程、内存、设备驱动程序、文件和网络系统,决定着系统的稳定性和性能;

3)中间件:处于功能应用和操作系统之间,提供标准接口、协议,保证上层软件具有较高的移植性。功能软件:为自动驾驶功能提供共性功能模块。其可进一步分成两层,下层为实现自动驾驶的基础模块(如基础算法、功能安全、通信存储等),上层为自动驾驶子功能模块(如感知、定位、预测等)。应用程序:实现具体的自动驾驶功能。开发者根据自身产品功能定义,利用功能软件层提供的基础库,设计出具体的应用功能,比如低等级的ADAS辅助驾驶功能(AEB、ACC等)、较高等级的自动驾驶功能(APA、TJP、HWP等)、甚至L4以上的自动驾驶功能。1.2.2车载智能计算平台怎样实现功能车载智能计算平台开发流程计算平台软件开发依赖大量数据验证,实现高级别的自动驾驶功能需要长期的开发周期。厂商通常为计算平台预埋充足的硬件资源,逐步完善和解锁性能更优的功能。OTA(尤其是FOTA)使计算平台软件迭代更新成为可能。车载计算平台算法开发和升级通常包含以下几个步骤:

1)数据采集。利用具有自动驾驶能力或者数据采集能力的车(要求包含GPS、惯导、摄像头、毫米波雷达、激光雷达等所有传感器,底盘动力为线控系统,车上有数据采集控制器),实时采集车辆看到的各种场景,以及对应场景下车辆运行的状态。2)构建场景样例。将采集的数据上传到云端数据中心,数据中心端依靠人力或全自动化清洗和标注数据,形成大量的场景。3)算法训练。将大量场景样例输入初始算法模型,不断调整模型参数使模型输出与目标一致。4)仿真验证。将训练好的模型和其他的软件算法集成,在云端的仿真器平台做模拟的仿真,验证软件算法的准确性和可靠性。5)实车路测。将软件算法刷写进车载计算平台,进行实际路测。在实测中发现问题,针对性的采集特定区域的数据,再完成算法训练优化,在进行仿真和实测。6)OTA更新计算平台。车辆销售后,厂商根据实际道路的数据和用户反馈,对软件算法进行升级,通过OTA更新用户车载计算平台软件。车载智能计算平台工作过程车载智能计算平台的职责是完成感知环节的识别融合任务以及整个决策环节。1)识别融合:摄像头、激光雷达等传感器实时采集路况信息,通过以太网传输至车载中央计算平台,感知模块根据输入图像信息调用一系列基础算法模块对信号进行滤波、识别。这类算法程序利用中间层提供的统一接口访问操作系统。操作系统在经过虚拟机调用SOC中的GPU或FPGA或ASIC相关资源完成的数据处理。2)决策:感知模块完成处理将结果数据通过中间层传递给决策模块。同样,决策模块调用基础算法模块,层层经过中间层、操作系统和虚拟机调用CPU等硬件资源完成复杂计算。决策结果即目标路径、车速等信息再经过以太网从中央计算平台传递至底盘、动力域控制器。1.3车载智能计算平台供应生态车载智能计算平台主要有三大类参与者:整车厂商、传统汽车零部件商、硬件厂商。另外还有算法方案解决商、Robotaxi厂商、专业系统软件商等。1)整车厂商:定义和开发自动驾驶功能应用。整车厂商根据市场需求和产品定位,设计自动驾驶功能。大部分整车厂商主要关注车载智能计算平台应用软件的开发。各家整车厂商自动驾驶技术水平差异显著。特斯拉是自动驾驶汽车的领导者,研发能力覆盖应用软件、功能软件甚至底层系统软件,同时能够根据自身算法需求自研专用AI芯片。为打造差异竞争,造车新势力较传统厂商在汽车智能化领域布局节奏更快。小鹏汽车软件自研能力强,包括视觉感知、激光雷达感知、高精度定位规划等算法已经实现全栈自研。蔚来汽车和理想汽车也搭建了强大的自动驾驶研发团队。传统整车厂商部件节奏较慢,主要依赖供应商提供解决方案。比如吉利汽车极氪001采用Mobileye的软硬件方案,北汽蓝谷采用华为的软硬件方案,上汽知己算法开发由Momenta提供支持。未来,整车厂商首先立足应用层软件开发,进而向下延申提升功能算法、系统软件架构的自研能力,甚至设计部分专用芯片,达到软硬一体化设计能力。2)传统零部件Tier1:布局中间件为主。在传统汽车控制器中,如大陆、博世等零部件商为整车厂商提供硬件(向芯片商采购)和软件平台(基于CPAUTOSAR的操作系统和中间件),支持整车厂商应用开发。对于车载智能计算平台,汽车零部件厂商继续发挥车规级开发能力的优势,为计算平台提供满足车规要求的中间件。未来,汽车零部件商将向上层功能软件和应用解决方案布局,同时向下部件操作系统甚至硬件层。3)硬件厂商:为计算平台提供各类芯片。传统汽车控制器采用MCU,主要芯片供应商是英飞凌、IT和NXP。他们在汽车芯片领域深耕,为博世、大陆提供芯片用于开发ECU。自动驾驶对硬件算力要求更高,GPU以及FPGA、ASIC等高性能专用芯片开始应用到汽车。如英伟达、高通、英特尔等消费产品芯片供应商进入汽车供应链。基于高壁垒的芯片及配套系统软件,实力强的芯片商将能力圈向应用层拓展。如Mobileye、华为可提供软硬件的全套解决方案。二、硬件结构:集成化是趋势,开放性是核心2.1核级:硬件最底层,自动驾驶促进专用性提升2.1.1是什么:硬件层面底层架构L2以上自动驾驶需要处理雷达及相机等传感器输入的数据,数据量指数级增长,因此需要基于深度学习的AI算法实现数据处理能力的飞跃。传统ADAS层面处理器计算单元CPU已无法满足AI算法需求,目前已开发多种架构计算单元,主要分为通用型(CPU、GPU)和专用型(FPGA、ASIC)两大类。通用芯片:CPU、GPUCPU(CentralProcessingUnit,中央处理器):计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。优点:CPU有大量的缓存和复杂的逻辑控制单元,非常擅长逻辑控制、串行的运算。缺点:不擅长复杂算法运算和处理并行重复的操作。类比来看,CPU就像是教授,复杂问题都可以解决,但是让他做100道小学算术题也需要一定时间。GPU(GraphicsProcessingUnit,图像处理器):也称显示核心,是一种做图像和图形相关运算工作的微处理器。优点:核心数非常多,可以支撑大量数据的多核并行计算。缺点:管理控制能力弱,功耗高。类比来看,GPU就像100个小学生,虽然复杂问题无法解决,但是同时做100道小学算术题却可以很快完成。专用芯片:FPGA、ASICFPGA(FieldProgrammableGateArray,现场可编程逻辑门阵列):是一个可编程芯片,用户可以自定义芯片内部的电路连接来实现特定功能,常用于算法训练优化。优点:可以无限次编程,延时性比较低,实时性最强,灵活性最高。缺点:开发难度大、价格比较昂贵。ASIC(ApplicationSpecificIntegratedCircuit,特殊应用集成电路):ASIC已经制作完成并且只搭载一种算法和形成一种用途,一旦设定制造完成,内部电路以及算法就无法改变。优点:体积小,功耗低,性能以及效率高,量产成本非常低。缺点:首次“开模”成本高,灵活性不足。代表性神经网络处理器包括谷歌公司研发的张量处理器(TensorProcessingUnit,TPU),以及特斯拉自研的神经网络处理器(NeuralNetworkProcessingUnit,NPU)等。从计算能力、通信延迟、成本三个核心维度对四种架构进行比较:

计算能力:ASIC>FPGA>GPU>CPU。CPU和GPU作为通用芯片,适用范围较广,由于GPU集成大量内核,因此并行计算能力高CPU近百倍。但是通用芯片势必会造成过程冗余,导致AI算力浪费,因此算力显著低于专用芯片。专用芯片包含ASIC和FPGA,其中ASIC专用性更强,针对单一算法和功能优化最佳,因此算力强于FPGA。通信延迟:ASIC≈FPGAFPGA>GPU≈CPU。专用芯片开发语言难度大,适用性较差,因此开发成本高于通用芯片。其中ASIC由于无法编程,对算法以及硬件的封装程度更高,因此开发成本高于FPGA。量产成本:FPGA>ASIC>GPU≈CPU。由于ASIC是一次封装完成的芯片,后续量产标准化程度高,量产成本很容易下降,而FPGA每一片都要进行调试,因此量产成本ASIC占优。2.1.2趋势:由通用走向专用自动驾驶芯片架构的技术发展趋势主要考虑以下四个维度:

第一点,算力要求高。由于处理的传感器信息需要大量冗余,对终端算力要求极高,并且车速越快,对计算能力要求越高;

第二点,终端计算的实时性要求极高。任何超出一定范围的延迟,都有可能造成事故,因此终端会负责自动驾驶的核心计算和决策功能;

第三点,能效要求高。否则降低车辆续航,影响驾驶体验。高能耗同时带来的热量也会降低系统稳定性。例如支持L4的NVIDIADrivePegasus功耗为460W,只能应用于小规模的测试车;

第四点,可靠性要求高。真正满足车规的自动驾驶芯片需要在严寒酷暑、刮风下雨或长时间运行等恶劣条件下,都有稳定的计算表现。目前自动驾驶硬件架构方案主要为GPU+FPGA异构。GPU适用于单一指令的并行计算,主要负责并行处理数据;FPGA与之相反,适用于多指令、单数据流,主要负责训练优化算法。当前阶段还处于算法快速迭代时期,需要依托FPGA可编程性,进行开发过程不断试错。因此结合两者优势,形成当下主流GPU+FPGA的异构解决方案。未来自动驾驶芯片的核心架构是ASIC。当前阶段FPGA的优势是算法快速迭代背景下开发的便利性,当自动驾驶汽车量产,形成了较为稳定的算法后,ASIC的量产低成本、性能高、功耗低等优势就可以体现。类比来看,FPGA就是乐高搭建模型,可以低成本快速测试性能,而ASIC是开模具,虽然首次开模成本高,但是后续量产成本低且性能更好。因此,我们认为短期内还是会以GPU+FPGA异构为主,量产后会逐渐向ASIC迁移。2.1.3格局:GPU、FPGA寡头垄断,ASIC仍是蓝海总体来看,传统CPU行业龙头是英特尔和高通,GPU行业龙头是英伟达,FPGA行业龙头赛灵思,只有ASIC领域暂未形成明显的龙头。2.1.3.1GPU全球GPU市场已经进入了寡头垄断的格局。在传统GPU市场中,排名前三的英伟达、AMD、英特尔的营收几乎可以代表整个GPU行业收入。其中,2019年英伟达的收入占56%、AMD占26%、英特尔占18%,英伟达占据绝对的行业垄断地位。2.1.3.2FPGA目前的FPGA市场由海外巨头赛灵思和Altera主导,两者共同占有80%的市场份额。2015年Intel决定以167亿美元收购FPGA生产商Altera,IBM也和赛灵思联合宣布开展一项多年战略协作,打造更高性能的数据中心应用,IT大厂的介入也说明了FPGA在AI领域的重要地位。国产FPGA起步较晚,技术水平落后2-3代。FPGA细分领域具有技术壁垒高、资金投入大的特点,国外头部企业历经多年发展形成了技术和专利方面的高壁垒,造成国内企业发展受限,目前只能从低端产品切入,通过技术升级不断向高端产品演化。因此,部分厂商弱化芯片制造业务,主攻深度学习算法解决方案,为FPGA提供更优化的算法结构,提升芯片性能,代表公司深鉴科技2018年以3亿美金的价格被赛灵思收购。2.1.3.3ASIC目前国外主要以谷歌为主导,国内主要是寒武纪。人工智能领域的ASIC专用芯片仍是一片蓝海,尚未出现足以垄断市场的巨头公司。在ASIC芯片领域,国内厂商已经取得了一定成绩。以比特大陆、嘉楠耘智为代表的矿机厂商采用的ASIC芯片已经达到了7nm制程,在国际中处于较先进地位。寒武纪科技推出的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越CPU和GPU。2.2片级:系统级芯片,集成化趋势显著2.2.1是什么:片上芯片,多个计算单元的集合定义:系统级芯片(SystemonChip,SoC)是指多个计算单元集成到一块芯片上,从而实现功能集成的设计方案。传统汽车芯片为微控制器(MicroControlUnit,MCU),又称单片机,简单来说是就是将简化版CPU与功能部件集成在一个芯片上,形成“芯片级芯片”,通常只能完成单一信号控制,实现单一功能。随着自动驾驶级别提升,需要实现的功能增多,计算能力要求更高,MCU已不满足需求,因此将多个计算单元集成到一块芯片上形成“系统级芯片”。结构:SoC=n1*CPU+n2*GPU+n3*FPGA+n4*ASIC+其他功能单元(ISP、VP等)。以英伟达

Xavier为例对SoC架构进行说明。通常SoC会集成计算单元和功能单元两部分,计算单元包含通用芯片CPU和GPU,总计占据约1/2的面积,部分计算单元包含专用芯片FPGA和ASIC,面积占比约为1/20。功能单元主要包含数据存储和数据预处理两部分,其中数据存储和调用主要通过内存实现,内存就像局部地区建立的一个仓库;数据预处理包含用于图像信号预处理的ISP芯片、视频解码器VP等器件。2.2.2趋势:集成化、高算力、先进制程、开放化自动驾驶芯片是硬件部分核心,也是自动驾驶方案竞争的制高点,目前技术快速迭代背景下存在三点趋势:

第一点,集成化,MCU加速走向SoC。伴随整车电子E/E架构集中度提升(分布式→域集中式→中央集中式),起决策作用的单元由ECU→DCU→中央计算平台,ECU数量大幅精简,因此其内含MCU芯片数量下降,加速MCU向集成度更高的SoC升级。第二点,高算力,同时兼顾算力功耗比。硬件层面,提升单车智能化程度、实现高级别自动驾驶的核心是提升系统级芯片算力,因此提升芯片算力仍然是厂商研发考虑的第一要素。目前阶段,芯片算力可类比智能手机发展过程的相机像素,虽然拍照效果受算法、相机像素、传感器等多方面因素影响,但是像素提升带给消费者的感知最强烈,消费者也更愿意支付高像素带来的溢价。同理,自动驾驶芯片算力也具有类似的消费属性,因此短期来看,厂商势必会通过提高芯片算力来抢占市场高点。第三点,先进制程,5nm/7nm是未来趋势。晶体管是芯片的最小组成单元,可以把晶体管比作水池,水流从源极流入漏极,栅极就相当于两个水池之间的水管,栅极的最小宽度(栅长)就是制程。水管越短,水流越快完成水池间运输,水流在水管内的摩擦损耗越小。制程类比水管长度,越宽电流通过时的损耗越大,外部表现就是器件发热和功耗增大。因此制程减小是技术发展趋势。第四点,开放化,OEM对功能拓展性的需求促进了芯片开放化趋势。主机厂需要在硬件基础上进行功能开发,因此底层芯片开放性越高,越有利于主机厂进行功能拓展。在这背景下,自研能力较强的主机厂(如特斯拉)选择了自研芯片,实现了底层完全开放;而像英伟达等厂商推出的芯片开放性也不断增强,供主机厂修改部分不断扩充,因此得到更多主机厂青睐;相反的,开放性较差的厂商(Mobileye、地平线)则逐渐被主机厂抛弃,只能在完全没有自研意愿的主机厂中寻求剩余机会。2.2.3格局:L2以上自动驾驶消费电子领域巨头弯道超车四类核心玩家:传统汽车芯片厂商(瑞萨、Mobileye等)、消费电子芯片厂商(英伟达、高通等)、研发能力较强的主机厂(特斯拉)及科技公司(华为、地平线、黑芝麻)。传统汽车芯片厂商具备汽车产业链优势,但是芯片功能相对单一,采取基于ADAS不断补充功能实现更高级别自动驾驶的“自下而上”的策略;随着L2+高级别自动驾驶逐渐落地,传统单一功能汽车芯片已无法满足要求,具备较强AI计算优势的消费电子芯片厂商快速切入,凭借“自上而下”的策略实现弯道超车。此外,具备较强研发能力的主机厂(特斯拉)及部分科技公司(华为、地平线、黑芝麻)也是主要玩家。各厂商能力:第一梯队是芯片巨头英伟达和高通,一流芯片算力基本在100TOPS以上,算力功耗比3.0以上。英伟达新一代Orin单芯片算力254TOPS,相比其他厂商普遍高4-10倍。具体来看,英伟达相对高通功耗控制较差,算力功耗比相对偏低。第二梯队是特斯拉和黑芝麻,与第一梯队芯片工艺能力还有较大差距,单芯片算力70TOPS左右。第三梯队是Mobileye和地平线,单芯片算力普遍比较低(25TOPS以下),仅能实现L2及以下功能。华为相对特殊,昇腾910芯片算力高达640TOPS,功耗310W,虽然单纯算力达到世界顶尖水平,但是整体能效控制较差,算力功耗比仅为2.1。总体来看,芯片目前处于技术快速迭代期,算力不断提升,厂商纷纷加入算力游戏,开展高算力芯片军备竞赛。2.2.3.1

英伟达:起步早、势头猛、布局快起步早:入局已有六年之久,保持两年更新频率。智能驾驶领域英伟达前后已推出4代芯片(其他厂商普遍1-2代),2015年最早推出Parker芯片,面向ADAS应用,不具备深度学习功能。2017年推出首款自动驾驶AI芯片Xavier,可以满足L2/3级应用,2019年推出高算力芯片Orin,满足L4/5级应用。计划2021年推出下一代超高算力芯片Atlan。具体历代AI芯片来看,英伟达均采用CPU+GPU+ASIC的技术路线。Xavier芯片除集成GPU、CPU、ISP等标准组件外,创新集成DLA。DLA是ASIC架构专用引擎,可以高效处理深度学习算法,使单芯片算力由20TOPS提升至30TOPS。DLA面积仅为GPU的1/8,然而贡献算力是GPU的1/2(DLA=10TOPS,GPU=20TOPS),因此DLA可以大幅提升芯片算力功耗比,也印证了ASIC架构的优越性。Xavier芯片参数:三星12nm工艺,算力30TOPS,功耗30W,算力功耗比1.0。Orin架构与Xavier基本相同,采用三星8nm工艺,算力254TOPS,功耗65W,算力功耗比3.9。Atlan是L5终极解决方案:2021年4月GTC上英伟达发布下一代数据中心级别SoC,命名为Atlan,首次实现单芯片算力超过1000TOPS,面向2025年L5自动驾驶应用。创新点在于英伟达自研新一代CPU(Grace),用于大规模人工智能和高性能计算应用,计划2023年投产。首次集成DPU(Bluefield-3),实现了10倍的性能飞跃,能够替代300个CPU核,以400Gbps的速率,对网络流量进行保护、卸载和加速。我们认为,英伟达宣传高算力Atlan更多目的是为拉对手军备竞赛,压迫对手跟进算力游戏,以此凸显自身芯片研发能力优势,Orin还是其未来五年内主要产品。2.2.3.2

高通:起步晚,实力强,扩展性起步晚:由于收购恩智浦失败,高通在智能驾驶领域入局较晚。与英特尔收购Mobileye类似,高通也想通过收购恩智浦切入ADAS,从而往更高级别自动驾驶延伸。2016年10月,高通宣布收购恩智浦,收购价为470亿美元。2018年7月,由于政策原因,高通宣布放弃收购恩智浦。本次收购失败严重拖累了高通在自动驾驶领域的布局,直接导致高通入局相对英伟达晚了三年,目前也仅发布了一代芯片。扩展性:依托智能座舱同源性向自动驾驶扩展。高通在智能座舱领域一骑绝尘,市场份额高达70%,国外最紧密合作者是美国通用,国内是长城WEY。智能座舱芯片是前哨战,自动驾驶芯片才是制高点,由于智能座舱和自动驾驶同源性较强,厂商为降低开发费用和周期,会选用适配性较好的同一架构芯片,因此高通可以凭借智能座舱领域优势快速向自动驾驶扩展。代表案例:长城WEY“咖啡智能”平台已采用高通自动驾驶芯片。优劣势分析:高通优势在于强大的生产制造能力,凭借多年智能手机芯片霸主地位以及智能座舱领域垄断优势,对于量产落地的功耗控制能力较强,维持高算力的同时算力功耗比通常在4以上;同时,高通已布置了非常多的芯片产线,可以通过多产线去摊薄研发成本,进一步取得自动驾驶芯片成本优势。劣势主要还是入场太晚,在近两年各厂商“跑马圈地”的情况下,没有形成大规模的客户群体。2.2.3.3

特斯拉:逐步自研,软带动硬逐步自研:自研新一代FSD3.0自动驾驶SoC。特斯拉一直以来都是自动驾驶领域的领路人,软件部分视觉算法能力全球领先。硬件部分,早期特斯拉基于MobileyeEyeQ4芯片实现ADAS级别应用,2015年后转用

英伟达

Xavier芯片开发L2级别自动驾驶,然而外采方案下芯片核心架构在芯片厂商手中,特斯拉自主开发受限,难以实现软硬件充分适配,因此特斯拉决定自研芯片SoC,并计划于2021年推出最新一代FSD3.0。FSD3.0采用了CPU+GPU+ASIC架构。FSD3.0中特斯拉核心自研部分是NPU,NPU是ASIC架构的处理器,适用于进行深度学习计算。NPU中间的核心组件是乘加累计器(MultiplyAccumulateCell,MAC),可以提供9216(96*96)个计算单元,每个单元可以完成8位的乘积运算和32位的加法运算,所以一个时钟周期可以完成9216*2=18432次的int8的操作,NPU的频率是2GHz,其运算能力2GHz*18432/1000=36.86TOPs(int8)。自研芯片采用三星14nm工艺,总体表现为算力72TOPS,功耗36W,算力功耗比2.0。2.2.3.4Mobileye:起点高,进步慢,被替换起点高:Mobileye是ADAS芯片绝对龙头。Mobileye的EyeQ系列芯片在2004年就开始研发,2007年发布的第一代EyeQ1芯片是较早应用于自动驾驶的AI芯片之一(仅实现辅助驾驶功能)。目前ADAS领域年出货量近2000万颗芯片,市占率高达60%。进步慢:Mobileye业务模式是向OEM提供定制化ADAS和自动驾驶方案,然而2015年,Mobileye发布了一款新的芯片EyeQ4,该芯片建立在多核架构的基础上,用于在ADAS中进行计算机视觉处理。区别于主流CPU架构(ARM、X86),EyeQ4采用了小众的多MIPS处理器,导致其通用性和可开发性较差。EyeQ4算力2.5TOPS,功耗仅3W,相比EyeQ3算力提升近10倍,功耗仅增加0.5W,说明Mobileye优势在于功耗控制,但是整体算力还是偏低。优劣势分析:优势在于成本低,全栈黑盒子方案降低OEM研发开销;此外,算法与芯片都是自主研发,适配性好,芯片开发度高。总体来看和特斯拉特点很像,Mobileye就像不造车的特斯拉,但是硬件能力比特斯拉强。劣势在于全栈黑盒可开发性较差,无法满足有自研需求的OEM;同时,MIPS架构CPU通用性较差,难以形成良好的软件生态。2.2.3.5华为:起步晚、布局广、受制裁起步晚:华为2018年才发布第一款AI处理器昇腾310,算力16TOPS,功耗8W,算力功耗比达2.0。昇腾910是目前单芯片算力最强的一款芯片,它是一款面向服务器的AI芯片,对标英伟达、谷歌同类产品,算力高达640TOPS,功耗为310W,能效比达2.1。昇腾310与910都采用了达芬奇架构。不同于传统的支持通用计算的CPU和GPU,也不同于专用于某种特定算法的专用芯片ASIC,达芬奇架构本质上是为了适应某个特定领域中的常见的应用和算法,通常称之为“特定域架构”。具体来说,达芬奇架构采用3DCube针对矩阵运算做加速,每个AICore可以在一个时钟周期内实现4096个MAC操作,相比传统的CPU和GPU实现数量级的提升,从而大幅提升单位功耗下的AI算力。同时,达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元,同时支持多种精度计算,能够实现云、到边缘、到端、到物联网端的全场景覆盖。最后,达芬奇架构具有统一性,在面对云端、边缘侧、端侧等全场景应用开发时,只需要进行一次算子开发和调试,就可以应用于包括麒麟芯片在内的不同平台,大幅降低了迁移成本。基于昇腾910,华为开发了:1)Atlas800训练服务器,具有最强算力密度、超高能效与高速网络带宽等特点,可以广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的行业领域。2)Atlas900AI集群,由数千颗昇腾910组成,总算力达到256P~1024PFLOPS

@FP16,相当于50万台PC的计算能力,可以让人类更高效的探索宇宙奥秘、预测天气、勘探石油,加速自动驾驶的商用进程。昇腾芯片因其独特的达芬奇架构,可以在云、到边缘、到端、到物联网端等实现全场景覆盖,不仅仅是在车端,在智慧城市、交通、金融、能源、园区管理等领域昇腾芯片都可以提供服务,这意味着华为可以凭借其庞大的客户群体摊薄研发费用。受制裁:由于受到美国制裁,华为最大的问题就是供应链安全,短期内可以依靠他们已经囤积的一些芯片去支撑,等消耗完库存后,会被迫切换到28nm工艺,这种在能效比上会很差。所以长期来看,如果国内先进芯片生产、先进材料,EDA软件上不来,美国短期内又不会解除对他的制裁,那么华为发展高阶高算力的自动驾驶就存在很大的困难。优劣势分析。优势:1)成本低,降低OEM研发开销;2)除了ARMCPU可能要买ARM公司的授权之外,其它几种硬件引擎都可以自研,研发能力很强;3)在云、边缘、端、物联网端都有布局,业界布局最广。劣势:

1)芯片能效相比高通英伟达还有一定差距;2)受制裁,芯片生产可能受限。2.2.3.6黑芝麻:能效高、潜力强能效高:黑芝麻目前主要有三款芯片,A500、A1000L、A1000,在芯片能效比上黑芝麻达到了世界顶级水准。华山一号A500在2019年8月发布,算力5-10TOPS,功耗2W,使用台积电

28nm工艺。A500内部的ISP、视觉处理加速引擎、UltraDLAI加速引擎等内核均为黑芝麻自主设计,而像CPU、部分DSP等内核则使用了供应商的IP。华山二号A1000在2020年6月发布,算力40–70TOPS,相应功耗为8W,能效比超过6TOPS/W。A1000内置了8颗CPU核心,包含DSP数字信号处理和硬件加速器,使用台积电16nm工艺。目前黑芝麻在与中国一汽合作落地A1000,与上汽合作落地A500。优劣势:专注于SoC芯片研发,芯片能力较强,但与高通、英伟达、华为没法比,在国内自动驾驶芯片上仅次于华为,但是与Tier1、OEM的合作不足。2021年开始与国汽智控合作,进行计算平台与软件算法的开发,在软件上布局很晚,能力较弱。2.2.3.7地平线:循序渐进、开放性循序渐进:地平线一步一个脚印,采取循序渐进的自动驾驶产业化路线,芯片算力逐年提高的同时,能效比也在稳步提升,这主要得益于地平线提供一整套芯片及配套软件工具链+算法方案。在SoC芯片方面,地平线目前量产的主要有征程1.0、征程2.0和征程3.0。开放性:自研视觉算法+AI开源工具链,赋能车厂ADAS能力。地平线一直面向深度学习这种新一代AI技术,相对没什么包袱,能更加开放。征程二代芯片可以支持车企开发ADAS,前向视觉感知计算可以支持很多差异化功能,如车辆、行人、车道线检测、测距测速等,车企也可以把芯片用于汽车座舱的智能交互,如语音识别、眼球追踪。此外,地平线提供工具链和算法参考模型,从而车企可以自由定义产品。地平线在自动驾驶领域的布局相当广泛。地平线J2已经搭载在长安汽车

UNI-T、上汽智己、奇瑞新能源蚂蚁上,J3搭载在赢彻科技自动驾驶卡车上,同时与广汽合作开发广汽版J3。与大陆集团在ADAS和高等级自动驾驶领域深度合作,与豪威、斑马智行等合作布局智能座舱领域,与易图通合作布局众包高精度地图领域,与大唐移动在5G+AI面向车路协同智能网联展开合作。总地来看,劣势:SoC芯片算力较差;优势:开放的商业模式,软件能力很强,AI算法能力一流,自动驾驶领域布局广泛,与Tier1、OEM的合作广泛。2.3板级:域控制器,当前域融合,未来中央化2.3.1是什么:硬件层面总体单元定义:域控制器是自动驾驶计算平台硬件层面的总体单元。域控制器(DomainControlUnit,DCU)的概念最早是由以博世、大陆、德尔福为首的Tier1提出,为解决信息安全以及ECU瓶颈问题。根据汽车电子部件功能将整车划分为动力总成,车辆安全,车身电子,智能座舱和智能驾驶等不同域,利用处理能力更强的多核CPU/GPU芯片相对集中的去控制每个域,以取代目前的分布式汽车电子电气架构(EEA),形成域集中式架构。结构:DCU=n*SoC+接口+内存。从现有控制器硬件架构看多颗/多核芯片以及冗余架构是域控制器设计主流设计,核心包括SoC、I/O接口以及内存。其中SoC主要负责提供决策,数量根据功能而定;I/O接口主要负责输入多传感器感知信息,比如摄像头、毫米波雷达、激光雷达等,通过后融合模式将感知信息直接输入域控制器,以及将控制信号输出给相应执行器件;内存主要负责提供数据暂时存储、传输等功能。2.3.2趋势:域集中向域融合转化汽车电子电气架构由分布式向域集中式转化:

目前,主机厂正在应用第一类分布式E/E架构,分为模块化和集成化两个阶段。模块化阶段:每个功能具备独立ECU;集成化阶段:架构设计趋向功能集成,多个ECU之间进行融合。之后,主机厂将采用第二类域集中式E/E架构,分为集中化和域融合两个阶段。集中化阶段:开始出现域控制器DCU,实现部分功能集成,融合部分ECU;域融合阶段:开始出现跨域中心控制器MDC,特斯拉Model3是代表车型。未来,主机厂将采用第三类中央集中式E/E架构,分为车载计算平台和车-云计算两个阶段。车载计算平台阶段:采用的是车载平台和区域导向架构;车-云阶段:车辆的决策阶段在云端完成。MDC优势:1)能够将感知与决策分开,传感器与ECU不再是一一对应的关系。对于OEM,有MDC之后,可以随意更换传感器的供货商。2)MDC平台本身的可扩展性,MDC所能够对接的传感器类型与数目并不固定,可以根据OEM的需求对应开发。2.3.3格局:芯片厂向上拓展,主机厂向下挤压三类主要玩家:芯片厂、传统Tier1、主机厂。第一类,芯片厂。由于域控制器的核心部件是SoC,因此主要芯片厂商依靠芯片制造能力向域控制器拓展,通过收购、合作等方式快速切入DCU赛道,通常是同期推出新一代SoC与相应域控制器。代表公司包括英伟达、高通、Mobileye、华为、地平线等。第二类,传统Tier1。传统汽车半导体行业中,芯片厂商扮演的是Tier2的角色,通常需要Tier1对芯片进行进一步开发,以实现主机厂具体车型的适配。自动驾驶阶段,该模式依然在延续,代表公司包括:德赛西威、德尔福、采埃孚等。第三类,主机厂。主机厂外采

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论