版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、背景 4二、车载智能计算趋势与挑战 51.传感器及控制单元复杂繁多 52.环境感知融合带来实时数据处理挑战 63.算法模型尚不能很好应对长尾场景 74.Al算法演进周期快于智能芯片设计周期 85.大算力低功耗的车载智能计算芯片方案缺乏 86.功能安全是底线 9三、软件定义汽车 101.软件定义汽车的驱动力 112.系统架构革新 123.云原生技术极大提升研发效率 154.边缘算力预埋与车云协同计算提升汽车长期价值 17四、异构计算芯片 191.车载智能计算SoC架构 212.能耗与性能 223.功能安全 244.信息安全 27五、车载智能计算软硬协同优化 291.自动驾驶算法向端到端大模型演进 292.软硬协同优化的难点 303.NPU软硬协同设计创新 354.异构感知计算流水线优化 365.辅助驾驶、自动驾驶案例 376.智能座舱案例 43六、总结与展望 47一、背景智能化、面向服务的基础架构、软件定义汽车等已经成为各大汽车厂商竞相追逐的热点和差异化的焦点。高算力域控制器、智能座舱、辅助驾驶、自动驾驶等人工智能算法应用越来越受到各大汽车制造商、汽车零部件供应商、算法和系统集成商的重视和关注,并迅速成为投资和竞争的重点。软件和算法在智能驾驶汽车中越来越重要而且成为了差异化竞争的关键。软件价值的提升意味着未来汽车更多的创新将集中在电子和软件部分。领先的底层架构、出色的软件迭代、持续优化和不断进化的硬件技术,将加速整个汽车行业的转型与变革。随着芯片技术、硬件技术、软件技术、人工智能、深度学习算法等迅猛发展,智能计算已是大势所趋,车载智能计算软硬件平台和服务的竞争在汽车行业中据IHS调研的数据显示,中国购车消费者对于智能座舱科技的关注度要高于美国、日本、英国等多个国家,对于座舱智能科技水平的关注仅次于安全配置,甚至超过动力、价格、能耗等指标。据HIS调研预测,到2030年,汽车智能座舱的全球市场规模将达到681亿美元,而中国市场规模将超过1600亿元;全球占比将超过37%,成为全球主要的智能座舱消费市场。另据Tractica预测,2025年汽车人工智能硬件、软件和服务市场将达到265亿美元。麦肯锡的一份调研也显示,2030年全自动驾驶汽车可能占全球乘用车销量的15%,2040年时,将上升到80%。自动驾驶目前是一个相对新生的市场,相信随着人工智能技术、法律监管的完善以及消费者接受度的提升,自动驾驶市场会进一步扩大。当然,人工智能技术是实现汽车智能化的最核心要素之一,它包括机器学习、深度学习、自然语言处理、计算机视觉等软件工程、算法的演化。其中算法模型的演化需求,以及纷繁复杂极大驱动了车载智能计算芯片创新。今年以来,ChatGPT的惊人效果标志着人工智能领域的又一次重大里程碑,同时还掀起了一场深刻的软件开发变革,这就是大数据和大模型驱动的软件开发2.0新范式,将在未来的数年内深刻影响45《车载智能计算芯片白皮书(2023)》感知雷达摄像头高精度地图及定位器定位执行来同时处理多个具有挑战性的任务(例如,对象提取、检测、分割、跟踪等)。根据LucidMotors的研究人员测算,智能汽车每小时各种传感器累计产生的数据量大约为1.4TB-19TB。来源:StephanHeinrich,LucidMotors,FlashMemorySummit2017图二:车载传感器数量及带宽L2级别及以下的驾驶辅助系统所需处理的数据量小且算法模型简单,因此小算力芯片与算法的强耦合即可满足系统需求。随着激光雷达等高性能传感器的量产上车以及智能驾驶系统算法的泛化性提升,面向量产乘用车的全场景自动驾驶点到点通行链路正逐步打通。对于L3级别及以上的智能驾驶系统而言,传感器数量的增加及多路高分辨率摄像头带来海量实时环境感知数据,外加算法模型的复杂程度不断增加,计算平台的处理能力面临巨大挑战。3.算法模型尚不能很好应对长尾场景超过95%的车祸是由于各种人为错误造成的,但是对于完全自动驾驶技术量产而言,在伦理、法律要求下,Al技术不成熟导致车祸是不能容忍的。使用更先进的Al模型算法,采用更为完备的训练标注数据,虽然可以提高自动驾驶的安全性和准确性,然而,极端情况仍然是需要人类驾驶者来干预,至少目前为止还没有算法可以解决所有的极端场景。即便随着自动驾驶汽车不断的里程突破,很多时候在人类看来是非常低级错误的自动驾驶事故案例也时有发生。从自动驾驶算法角度来看,每一个低级失误导致的事故案例,都反映了Al算法或者模型的不完备性,我们是无法接受自动驾驶算法犯低级错误,哪怕错误概率低至0.01%。模型的泛化性不佳是其中的重要原因之一,突破点在于通用人工智能(AGI,ArtificialGeneral4.Al算法演进周期快于智能芯片设计周期去10年时间里,差不多每年都有会新的深度学习算法模型出现。据统计,大概每14个月,新的模型就能将计算效率提升一倍,但典型的车载芯片开发周期需要三年。算法优化会对计算平台架构带来巨大的挑战,计算平台架构必须根据算法的特点进行特定优化,才能保持足够的计算效率和性能。这种进化速度上的不匹配,对芯片公司的算法能力提出更高要求,需要对算法的发展趋势进行预判,前瞻性地将其计算特点融入到芯片架构设计当中,使得芯片经过三年的研发,在推出市场的时候,硬件利用率,达到真正意义上向后兼容软件算法创新,这是非常难的。5.大算力低功耗的车载智能计算芯片方案缺乏驶技术都在基于GPU(图形处理芯片)进行Al(深度神经网络)计算。但GPU不像定制芯片(ASIC)那样高能效比或具有成本效益。最大的问题之一是功耗,要使L3以上的工作完美无缺,我们需要L2L3L4L56.功能安全是底线传感器数量20+25+表一:自动驾驶等级与算力需求20+300+4000+功能安全指电子电器及其相关软件本身,通过其内置的安全机制,将伤害人类或损坏物品的潜在风险降低到可容忍的范围。在航空、工业、公共交通等路上行驶的汽车在功能安全上面临更多的挑战:汽车作为非常重要的交通工具,早已走入千家万户,汽车作为日常消费品,市场竞争非常充分,用户对于价格非常敏感。航空、工业以及公共交通等领域可靠性要求更高,涉及功能安全可以通过更多的冗余设计达到,而各大汽车制造商在成本控制上则要苛刻得多,在成本可控的前提下,达到功能汽车使用场景和范围非常宽泛,作为全天候高频使用,且不同驾驶人员使用习惯不同,外加一般车辆的使用周期8-10年,在此期间关键零部件需要能始终保持正常运转,可靠性测试验证的周期长、10《车载智能计算芯片白皮书(2023)》期待软件定义的新功能,例如驾驶辅助系统、自动驾驶、车载娱乐和智能网联等。这些需求的演变催生了新的商业模式和新的工程研发协作方式。据东吴证券数据显示,2021Q1,全球智能手机的渗透率高达90%,智能手机与移动互联网在过去15年左右时间的兴起与繁荣,硬件的性能持续提升,新技术层出不穷,软件生态、软件应用的价值都获得了巨大的市场回报。虽然手机生产厂商通常每半年到一年推出新款手机设备,但是消费者无需购买最新款手机硬件,仅通过系统升级和软件更新,也可以体验性能提升和更多功能。消费者在智能手机和移动互联的使用习惯和意愿上,成功延伸至汽车领域,比如车载信息娱乐、智能网联、人机交车辆信息娱乐、远程信息处理或车辆诊断系统的软件升级不再需要能够接收无线(OTA)更新,其中包括安全补丁、信息娱乐改进、自动驾驶、辅助驾驶等车辆核心功用户行为等都会产生大量数据,这些数据有机会完成本地实时分析或者发送到云端处理,使主机厂能够深入了解汽车状态和用户使用习惯,并改进汽车软件生命周期管理、开发个性化功能,与消费者建汽车产业朝着电动化、智能化、网联化以及共享化发展,汽车作为一个包含机械动力的数字化信息终端,许多重要的功能特性需要借助软件和算法来完成,比如智能语音控制车内空调温度,检测驾激光雷达、超声波雷达等各种传感器,这些传感器数据都会实时汇总,辅助驾驶员安全驾驶,其中大据统计,相比波音787飞机代码行约为650万行,目前中高端汽车的软件代码超过1.5亿行,软件占汽车生产总成本约10%,相信随着更多软件、算法、应用的部署,软件占总成本将逐步提高,甚至超过总车成本50%。1.4价值链迁移,软件将成为新的业务增长点伴随汽车电子的兴起,汽车行业迎来了技术革新潮流,汽车零部件竞争激烈,价值和利润率越来越低,传统汽车销售模式在汽车交付给终端消费者的时候,销售即完成。相较于特斯拉汽车的销售模式,在汽车交付之后,通过FOTA(FirmwareOver-The-Air)或者SOTA(SoftwareOver-The-Air)等方式完成汽车软件更新升级,持续收取用户服务费用,例如预装特斯拉FSD硬件的汽车消费者,可以以每月199美元的费用订阅Autopilot自动驾驶服务,软件订阅模式意味着已售车辆在将来还会持续为特斯拉公司贡献收入,也为软件定义汽车带来新的营收价值。2.系统架构革新电子电气架构(简称EEA),指汽车上所有的电子和电气部件,以及这些部件之间的拓扑结构和连接线束。当下汽车以分布式EEA为主,一个ECU对应一个或者少数几个功能,每个ECU包含嵌入式软件,并通过CAN、FlexRay等总线技术连接。通常主机厂只是根据市场需求不断增加ECU和调整线束拓扑,车载线束已经变得非常冗余且拓扑结构复杂,智能车引入三电系统(动力电池、驱动电机和电控系统)则进一步加剧了EEA的复杂程度,特别是智能座舱、自动驾驶需要更多的ECU和传感器,但传统分布式EEA已经碰到传输瓶颈,算力和总线信号传输速度远远落后于电动化和智能化需求,继续沿用现有分布式EEA来完成不断演变的智能汽车功能需求,成为了不太可能完成的任务。当下,大多数量产汽车都是采用分布式电子电气架构,一辆汽车有多个小型固定功能电子控制单元(ECU),它们由许多不同的供应商设计,软硬件高度耦合,如果需要新增功能,相应的ECU和软件需要改动,车内线束等可能也需要改变,带来更多系统集成、验证等工作,成本极高,因此在功能升级方面,不具备灵活性。域集中式电子电气架构则将同一功能域下的多个ECU整合到域控制器中,降低链接的复杂性,也同时缩短线束长度,降低成本和重量,典型域控制器是车载信息娱乐系统出现,中央集成式电子电气架构(车轮上的数据中心)将进一步整合域控制器,高性能服务器芯片将然后将数据转发到高性能中央计算单元进行高速处理。随着电子电气架构的不断演进变革,计算硬件单元更加集中,ECU件不再基于特定的ECU来开发,而是具备可移植性、可扩展性,也更容易迭代更新,当然对计算芯片的性能要求也会越来越高,由于计算趋于集中,支持不同工作负载的高性能异构计算芯片(SystemonChip)和标准化的编程接口,将会是软件定义汽车功能的硬件基础。分布式EE案构(-2015)云教据心云教据心城集中式架构(20214)中失集成式EE聚构(20254)2.2面向服务架构是软件基础2.2.1面向信号架构(SignalOrientedArchitecture)面向信号架构是分布式电子电气架构中汽车软件的常用开发架构,由于ECU的功能是固定的,彼此通过LIN/CAN等总线进行点对点通信,软件提前编写并固化在ECU内运行,随着汽车功能越来越多越来越复杂,ECU的数量也急剧增多,微小的功能改动都可能会引起整车通信甚至其它ECU软件的更新,这种架构不具备灵活性和扩展性,开发和验证的成本非常高。2.2.2面向服务架构(ServiceOrientedArchitecture)面向服务架构(ServiceOrientedArchitecture,简称SOA)在软件、信息通信领域是非常成熟、常见的软件架构设计理念,它鼓励提供抽象访问接口和模块化软件组件的方式,让软件模块很容易在不同场景下复用,通常以SoftwareDevelopmentKits(SDK)、软件库、以及远程调用的方式提供,上层系统通过复用和自由组合既有软件模块,可以实现快速开发特定的功能,并能降低测试验证成本和开发周期。高内聚、松耦合、可扩展性强是SOA架构的核心特点。直用软丹直用软丹规划决策虚应化管进及矿要动等硬件平自功能安全基本服务环装感知执行控制核CPU图四:智能汽车SOA架构示意图硬件定义了SOA的能力边界,底层硬件通常包括核心的Al计算单元,通用计算单元以及控制单元(包括各种传感器、执行器ECU等)。系统软件则提供了丰富的硬件访问抽象接口、虚拟化、应用操作系统、实时操作系统以及各种通信协议封装等功能。异构计算硬件与系统软件的接口标准化以及它们的软件开发者生态,决定了应用开发者的准入门槛。采用ArmCPU计算核心的车载SoC平台,很容易实现虚拟化并与Linux、Android、RTOS、GCC编译器、Java虚拟机等系统软件完美集成,为上层应用开发者提供与手机、桌面、数据中心等应用几乎相同的开发、调试体验,让移动互联网的开发者近乎无缝将大量功能代码模块迁移到车载应用软件中。3.云原生技术极大提升研发效率随着汽车系统软件的复杂性越来越高,特别是自动驾驶、辅助驾驶等新型应用的诞生,应用程序代码变得日益复杂,为了快速满足各种不断变化的消费者需求,由此产生的软件开发、部署和管理方式也有别于传统车载嵌入式系统开发。云原生开发模式降低了整个云基杂性,非常适用于汽车应用开发,其中基于微服务容器架构,可以大量复用工作负载的基础技术代码,以及模块化部署方式,这些都在传统的智能手机和企业应用中已经得到了大量的验证。云原生技术有利于企业在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的师很容易对系统进行频繁的代码变更。云原生技术对于汽车应用开发而言,意味着转向基于云的开发模式,实现在云端开发软件并直接部署于边缘端的汽车上。开发者随时极大缩短车载系统应用的开发和部署周期。Compte车C集群Conguteysosbperesol图五:云原生的虚拟仿真与真实部署3.1.1云原生技术与车载研发融合关键应用与常规应用混合编排简化部署复杂度:车载软件在本质上可以是同时部署运行关键应用和常规应用微服务的。关键应用对安全性和实时性的要求更高,相应的微服务从硬件资源调度和依赖的软件库必须得到相应的优先级部署。比如某些微服务可能需要满足ISO26262规范定义的ASIL-B/ASIL-D的完整性级别,引入经过安全认证的编译器、运行框架或者SDK,这些编译器和工具将作为基于微服务容器的一部分进行集成。另外,现有的云原生基础设施及容器编排技术,可以感知软硬件特征,特别是嵌入式车载硬件系统的功能特性,按照需求把相应的微服务部署到最合适的节点上,并以最佳方式运行。快速云端仿真验证测试:车载系统开发人员可以在云端运行模拟运行软件系统。弹性可扩展是云计算非常重要的特性,作为DevOps基础架构的一部分,云可以提供大量的硬件资源,方便开发者提供大量的数据输入,模拟成百上千的真实使用场景,甚至可以同时在数千个云端服务器节点上启动执行。这种大规模的仿真测试,如果在实际的车载嵌入式系统中来完成,需要的时间会极其漫长。根据Arm对客户的初步调查,大约70%的车载软件系统模拟测试,是完全可以基于弹性云环境执行的。车载硬件计算平台与软件系统同步开发:从软件开发人员的角度看,基于云的执行环境和汽车边缘计算环境之间,实现指令集架构(ISA)和CPU架构对等,意味着可以进一步降低开发成本和周期。以基于Arm的车载计算平台为例,开发者可以在AWS的Graviton(ArmCPU)实例上编写、测试和运行应用,实现完整的端到端基于ArmCPU技术的云到汽车边缘计算,开发人员甚至可以不用交叉编译代码,在车载硬件计算平台没有量产前,就可以在非常贴近实际场景中完成验证。编译器和模拟器也可以最大效率利用硬件计算资源,避免因最终部署环境的不一致,导致大量程序代码异常在与车载SOAFEE是车厂、一级供应商、半导体、软件和云技术头部企业等携手合作,为软件定义汽车开发了基于开放标准的新架构,它用经过验证的云原生增强技术,与汽车应用中必需的实时和安全功能一起运作,快速无缝地满足软件定义汽车的应用需求开发。此外,由这些企业组成的特别兴趣小组(SIG,SpecialInterestGroup)还为SOAFEE定义了参考实现,通过开源软件的形式免费发布,以度地提高兼容性,也为功能安全设计提供更快的途径。4.边缘算力预埋与车云协同计算提升汽车长期价值随着SOA的域集中式EEA的逐步应用普及,以及车端算力的快速增长,智能汽车将成为一个移动的超级计算机,车端软件复杂度也将不断提升,并逐渐形成多个分层:OS/Middleware层,Al与大数据层,数据智能的应用层。凭借算力、软件和通信的能力、智能汽车具备可持续迭代的能力,也将有越来越多的数据驱动智能应用在智能汽车上出现,包括智能座舱、辅助驾驶、智能诊断、用户行为模型、智能热管理、智能底盘等。而在车端数据的采集和智能应用的运行均依托车载智能计算,大数据开发则集中在云端,为了提高数据采集、算法部署的效率,需要通过中间件软件来封装车云异构。团环团环为为主ca刑ca刑生数数重分析ios车云通讯车云通讯牌度数据采康(15%)牌度数据采康(15%)(20%70%),完不显算法开发工具算法开发工具云端管理平台灵活灵活数据部署vADS智驾数据引攀边像计算引攀边缘数据库执心功:时乐、食稳录,执心功:时乐、食稳录,囊税教力元素:自时海税(0%)40%),元护重不足主施芯片:S32GsimGones算力元象:同关本身以能(70%)安数验来集(20%)这缘计(10%-50%),元涂严型不足,不同于手机、桌面、数据中心或者一般边缘计算场景对于智能计算芯片的需求,从软件定义汽车图像处理、通用计算等异构计算等。安谋科技的IP产品基本覆盖各种计算场景,如图六所示,SoC芯片开发商可以根据计算类型和密集程度,选择相应的IP计算核心组合,加速车载芯片研发周期。传感器数据等。安谋科技的计算IP核心产品主要分类如下:CPU(中央处理单元)是一种通用任务处理器,非常适合运行复杂的逻辑串行任务,安谋科技CPU产品根据系统复杂度和场景,划分3个大系列:Cortex-A:高性能、高吞吐流水线作业,支持多核并行运行、软件管理中断、现代操作系统支持(如Linux),并提供高级编程模型接口,常见于高性能应用程序运行场景,比如海量信号数据格式转换;oCortex-R:实时数据处理,软件管理中断,快速中断响应以及多核支持,常见于需要实时性要求非常苛刻的场景,比如汽车制动和转向控制器;0Cortex-M:为面积、功耗以及实时操作系统(RTOS)特别优化的处理器,提供简单编程模型接口,由硬件管理中断,适用于功耗要求非常高的场景,比如蓝牙钥匙、胎压监测等;GPU(图形处理单元)是用于高速图形渲染的处理器,因其有多个高度并行内核(可以多达数百甚至上千个微内核)处理数学矩阵运算,通常用于图形渲染操作,也可以完成部分AlNPU(神经网络处理单元)是为深度神经网络推理而定制的逻辑电路实现,具有低功耗、速ISP(图像信号处理器)是将图像传感器(比如一个或者多个摄像头信号数据)实时转化成多种格式的数据输出,方便人类观看或者其它机器视觉应用进一步处理。Security(信息安全)是一个包含硬件、软件、工具包,支持应用程序不可知的安全子系统,车辆控制、智能座舱、辅助驾驶、自动驾驶等场景和通常的边缘计算场景相比,需要更高的性能,更低的功耗,更及时的响应,更可靠稳定,更保密安全,且成本可控,以满足安全驾驶的苛刻需求。车载应用开发往往需要同时使用上述多种异构计算单元提供算力保障,不同计算单元协同工作,平衡1.车载智能计算SoC架构辅助驾驶和自动驾驶运行时软件与芯片硬件是紧密耦合的,从汽车行业发展趋势看,域集中式电子电气架构和更为激进的中央集中式电子电气架构是产业发展方向,无论是哪一类电子电气架构,车载SoC都会更加复杂,需同时具有多路传感器接口(包括摄像头、雷达、超声波雷达、激光雷达等)、能安全的特殊需求,这些都需要完整无缝衔接运行,并且可以支撑上层各种特定虚拟化软件应用。如图七所示,安谋科技提供了车载智能计算SoC所需要的几乎全部核心IP,以及底层硬件计算单元配套的驱动、编译器、工具链等系统软件集等,以满足虚拟化和上层应用开发所需的仿真、调试等快速开发、测试和部署运行需求。图七:安谋科技车载智能SoC概念设计方案21《车载智能计算芯片白皮书(2023)》2.能耗与性能2020年6月,权威杂志《科学》发表MIT、英伟达和微软研究人员的联合论文,论文指出:随着,随着摩尔定律放缓,Al计算性能提升在于软件工程,算法,硬件架构联合优化,行业正在迎来顶层设图八:后摩尔时代的计算效能提升该论文从侧面揭示了一个重要趋势:随着Al计算的兴起,计算规模扩大了2~3个数量级,算法、软件和架构开始引领芯片创新,行业进入了软件定义智能计算芯片时代。车载智能计算芯片上,Al计算加速器(深度神经网络加速器)的能耗通常较大,灵活可配置的系统架构,可以极大降低功耗,提高性能,降低晶体管数量,让PPA(Performance、Power、Area)达到最优,但达到这个目的,通常有如下技术难点:2.1突破冯·诺伊曼“瓶颈”传统冯·诺伊曼计算架构,程序和数据保存在内存中,处理器和内存是分开的,数据在两者之间移动。这种计算架构导致数据在内存和处理器间的传输延迟不可避免。例如DDR最高带宽理论值约为30-80GB/s,且随机数据访问时的带宽要远低于理论值。而一次深度神经网络的推理过程涉及的计算中间数据量远高于此,比如:VGG16网络有138.36M个权重参数,一次推理过程需要154.7G次乘累加运算。深度神经网络加速器(NPU)最重要的优化手段之一是降低对内存访问的频率,有利于降低系统功耗,并缩短推理计算的延迟。比如根据不同类型场景需求中的神经网络模型特性,设定NPU内SRAM大小,降低DDR内存访问的概率。甚至当模型无法全部一次性加载到NPU中时,也可以通过灵活的数据替换策略和对稀疏矩阵数据优化压缩等手段,大大降低内存访问频率和带宽延迟。2.2灵活性与性能的平衡基于深度神经网络推理的NPU,包含大量乘加操作以及标量数学运算单元,由于神经网络算法不同,其网络结构也会有较大差异,因此在定制相应的Al加速器单元时,往往操作粒度越细灵活度越高,NPU内部实现也更加复杂,反之灵活度低,甚至只支持特定网络模型,但是NPU内部实现则相对简单。安谋科技"周易"NPU内部包含标量处理单元(ScalarUnit)、张量处理单元(TensorProcessingCluster)以特定Al操作(FixFunction)硬件加速单元实现,并定义了一套完备的Al推理计算的指令集,并通过上层系统软件驱动以上模块协同交互,完成基于各种深度神经网络类型的推理计算任务,实现运行效率和通用性的兼顾。2.3通用性和专用性兼顾通用型Al推理处理器,由于内部复杂且有部分冗余设计,与特定神经网络模型加速的处理器相比,性能很难做到绝对优势,一些NPU厂商会通过固化部分常用运算算子,确保针对特定模型算法也有显著加速效果。安谋科技"周易"NPU本身配合专有工具链和编译器,能支持数百个各类音视频及其它数据类型的神经网络应用,并在架构设计上已经特别优化支持VisionTransformer、3D神经网络等,对处理像素级别处理应用等均有很好的性能优化。在推理准确率允许范围内,降低推理时的量化比特精度,既可以大大降低运算单元的计算量,又置的权重精度,支持INT4、INT8、INT12、INT16、FP16等。多种推理数据类型支持,兼顾了推理精度和效率,比如在推理精度满足需求的前提下,用户可以选用INT4的权重值;创新性的INT12支持,虽然NPU单核内部运算已经是并行计算,但是同一时间只会有一个推理计算任务进行。先进的多核方案,能够使单块SoC硅片充分发挥硬件的算力,每个计算核心可以完成不同的推理计算或者多个计算核心共同完成同一个推理计算任务,理论上算力可以做到并行叠加,甚至可满足数千TOPS算力需求。不过多核设计中,系统软件对于多核任务的调度优化十分重要,需要合理将任务分配到不同计算核心并监控其运行状态,随着并行任务的增多,任务调度器本身也会成为性能瓶颈。安谋科技"周易"NPU多核架构则采用先进的硬件任务调度管理器,相比使用控制处理器(如CPU、DSP等)来调度多核任务的架构设计,能够克服随着算力增加而产生调度瓶颈的问题,并且可以使HostCPU软件设计和维护更加简化和高效。3.功能安全涉及到安全应用的汽车芯片必须满足系统的ISO26262要求,其中包括半导体嵌入式存储器等。功能安全强调应对两类失效:系统性失效和随机硬件失效。对于前者除了公司层级需要具备合规的功能安全流程外,更需在产品研发的生命周期下严格遵循功能安全流程,从而将系统性失效的风险控制在对应汽车安全完整性等级(ASIL)要求的范围内。对于后者可用失效模式影响和诊断分析进行定量证明,芯片内的功能安全机制是可以保证诊断覆盖率,达到或者超过ISO26262相图九:功能安全两类失效类型针对随机硬件失效的各种失效模式,需要有相应的功能安全机制进行应对。包括用于保护内部故障的Parity、针对复杂逻辑的硬件冗余和锁步、以及探测门级随机硬件失效所需运行的软件自测库等等。由此可见,为了应对随机硬件失效,额外的硬件及软件安全机制的设计均是不可或缺的。在具体的产品开发实践中,以安谋科技开发的STAR-MC2为例,该处理器使用了以下机制来实现错误的检测和处理:·处理器设计了内存保护单元,安全态标记单元等进行软件访问权限管理,保护软件系统的正确运行;常等错误行为进行相应的处理和纠正;·处理器的存储器和总线接口上,引入ECC(错误数据纠正)或者Flopparity(校验)设计,对存储数据读写错误进行检测和纠正;·处理器设计了一个可编程的内建存储自测试模块,可以对存储单元进行测试;25《车载智能计算芯片白皮书(2023)》26《车载智能计算芯片白皮书(2023)》ASILB的诊断能力,但是,往往有ASILD的系统能力要求。这主要是为了方便用户在集成过程中减少免干扰分析方面的工作量。3.5系统集成STL一般独立于HAL并专属于特定硬件,STL根据会应用或RTOS的指令有选择的执行硬件测试过特定API来改变STL行为模拟硬件故障的进行系统集成测试。不过STL调用期间一般需要屏蔽外部4.信息安全智能汽车的信息安全,是确保自动驾驶边缘计算系统免受外部非法入侵或者攻击的核心基础。操作系统安全、控制系统安全和通信安全。汽车安全要求HSM(HardwareSecurityModule-硬件安全模块)已经成为智能汽车的安全基础,也是行业的默认标准。“山海”SPU是安谋科技自主研发的专门应用于汽车行业的HSM解决方案,能够广泛应用于自动驾驶芯片,智能座舱、域控制器、中央网关等不同的应用场景,"山海"SPU还支持功能安全为智能汽车BootROMBootROMSRAM28A/Applitations/AlorithmUnifiedEnd-To-EndToolsNNCompilerOpencl/CCompilerProfierarmComputetbraySimuator基于BEV+Transformer的端到端自动驾驶大模型实现感知未策一体化DF/G面对自动驾驶海量长尾场景的挑战,大模型已经表现出巨大的潜力,目前这一"BEV+Transformer"的模型需要上亿级别的参数量。在未来十年,端到端的模型需要更大参数规模,甚至到同时,随着算法的日益复杂,原先简单的大规模并行计算架构也难以为继,智能计算与逻辑计算开始深度耦合,例如,为了实现更高效率的稀疏化等优化手段,通过CPU对数据进行调度,可以实现更好的NPU计算利用率,因此,NPU算力的增长会同步带动对于CPU算力的需求。2.软硬协同优化的难点芯片设计、生产与场景落地往往是不同的厂商参与,芯片设计和生产由于其一次性投入非常大,特别是针对汽车的智能计算芯片而言,只有足够的场景覆盖才会有较大出货量,所以车载芯片在其设计之初就会保留一定通用性。对于特定场景的软件开发团队而言,一方面需要与芯片及基础软件开发团队通力合作,通过软件优化的方式充分发挥芯片及硬件的计算效能;另外一方面,通用芯片很难针对所有场景都实现特别优化。因此,实际场景中的计算性能发挥往往与芯片最佳性能差距较大,其中的难点主要体现在如下几个方面:2.1Al算法迭代创新周期很快人工智能领域软件迭代的速度非常快,据斯坦福大学以人为本人工智能研究所发布的《2022年人工智能指数报告》指出,2021年全球人工智能相关的公开专利数量超过14万件,是2015年的30倍,年复合增长率高达76.9%。因此,固化的硬件设计难以满足日益增长的算力需求和日新月异的算法演化需求,特别是在车载计算硬件平台,一旦发布,则存在于汽车的完整周期,要满足未来8-10年的软件和算法迭代,选定合适的硬件计算平台,甚至预埋部分额外算力,可以与未来的软件、算法升2.2Al模型计算模式差异性大31《车载智能计算芯片白皮书(2023)》车载Al应用目前以推理为主,算法模型是在云端提前训练好,下载部署到车端,但是目前不存在一个统一的深度神经网络模型,适用于所有的Al场景,往往不同具体场景有多种类型的算法模型适用,这些不同类型的模型共同驱动Al推理芯片的架构演进。比如早期CNN模型采用若干个卷积层作用于输入图像以生成低维特征,然后再将几个全连接层用作分类器产生识别结果的输出;ResNet则主要基于稠密矩阵,使用了多分支和并行层,以实现多尺度采样和避免梯度消失;而对于推荐系统而言,可能需要非常大的甚至跨越节点才可以存放下的稀疏2.3端到端异构计算流水线设计与参数调优复杂异构计算是车载高性能Al应用的典型流水线作业计算方式,既复用了传统CPU的成熟软件生态,也可以结合场景,用特定硬件加速器完成Al推理、前处理和后处理,真正成本等。从软件与算法角度,需要对Al任务进行分割,确认相应的硬件加速器使用,建立合理的计算流水线以及设定相应的处理参数和调度策略,确保环境感知数据通过不同步骤(硬件加速单元)不会32《车载智能计算芯片白皮书(2023)》2.4指令集定义兼顾灵活性和性能和软件的接口,并明确了处理器单元能够做什么以及如何完成,也是用户能够与硬件交互的唯一方式。硬件加速算子粒度是确保架构可编程性、实现软件优化、适应未来算法演进需求的关键,在此基础上,定义完备且稳定的指令集,在软件和硬件迭代不同步的情况下,仍然可以通过微架构和芯片制"周易"NPU指令集是专门为Al处理器设计的一套异构指令集,以传统VLIW为基础,包含可编程标量,矢量处理器指令集和Al专用计算处理指令集,兼顾了灵活性和Al处理的高效性,并以此拓展成可支持静态形(StaticShape)和动态形(DynamicShape)模型输入数据。"周易"指令集的设计思想是面向通用Al数据处理,尽可能把Al相关的计算转移到NPU上面执行,并且提供编程友好的接口来支持开发者进行自定义开发。指令集对开发者开放,开发者除了使用内建优化算子库之外,更可实现整个NPU的灵活编程,以满足用户日益增长的定制化、差异化的神经网络算法部署需求。Al推理计算是非常复杂的过程,对于延迟要求非常高,采用多核并行架构可以有效提高性能是高性能SoC上的常见做法,并行架构在数据访问延迟、计算核心作业调度、计算核心控制、多层次缓存结构、虚拟化以及进程间切换等方面,涉及到编译器、多核编程,数据压缩、量化等众多细节,这些对Al应用开发者而言并非完全透明,甚至需要开发者对性能数据进行调试、跟踪、分码编写、调试涉及的SDK/API调用规范,可以简单理解为编程模型。深入理解编程模型,需要对硬件33《车载智能计算芯片白皮书(2023)》架构有一定理解,也是充分发挥应用程序计算性能的前置条件,但是对于很多Al应用开发者而言,理解硬件架构并非易事,因此统一的编程模型至少带来如下好处:编程学习曲线:对于应用开发者而言,熟练使用同一套编程API和编程方式,有助于降低开发人员学习成本和团队沟通成本,提高日常开发工作效率,也有助于保持软硬件平台演化的一致性。比如深度学习主流框架之一的Keras,代码简单很容易扩展,非常直观的定义神经网络,初学者非常容易入门,最初Keras为了训练自定义的神经网络,采用了Theano作为默认的后端实现来完成Al训练,随着TensorFlow训练框架的兴起,Keras也支持TensorFlow以及其它多个Al训练框架为其后端执简化调试部署:同一个系列不同版本的芯片,功能或者性能可能有所不同,芯片厂商提供统一的SDK,可以屏蔽芯片实现细节和硬件差异,可以避免用户代码的改动甚至可以避免用户代码重新编译。对于Al应用开发者而言,可以做到开发环境调试和目标设备运行基本保持一致,特别是目标设备不完全一致时,也会极大简化开发、调试和部署的工作量,降低成本。比如ApacheTVM项目两个主要功能为:将深度学习模型编译成最小可部署的与硬件无关模块;根据后端执行加速器硬件特性,自动生成和优化模型,提高性能;ApacheTVM目前可以支持的后端比如生成CPU、GPU、VM以及部分自定义的NPU代码和模型,极大简化开发者的调试部署时间。2.6编译器技术硬件执行体设计者,会根据计算特征,将计算瓶颈相关运算固化成硬件指令,采用硬件加速单元会针对不同场景,使用不同的算法模型,完成相应的计算任务,即便是同一类型的算法模型,也会根据能效和性能需要,进行必要的参数调整。编译器技术虽然可以帮助软件开发者将高级语言翻译成机器可执行机器语言,但是编译器通常都是基于规则来完成机器语言的翻译和优化,在实际运行中,由3PartyRuntimeNPUDriversArmMallGPU于输入条件和场景不同,编译器无法针对运行时的场景进行优化,此时则需要软件工程师对芯片硬件架构体系有一定了解,针对场景编写出硬件优化的代码,并指导编译器优化编译。3.NPU软硬协同设计创新对于Al芯片而言,能够通过软件在运行时重新配置、实时动态改变功能,以运行不同计算任务,满足不同场景需求至关重要。Al芯片的运行时实时动态重新配置称为可重构计算技术,可重构计算技术允许硬件架构不变,通过软件来完成计算任务设定,同时具备CPU的灵活性和ASIC的高性能和低功耗,被认为是突破性的下一代集成电路技术,为Al芯片带来了极高的灵活度和适用范围。可重构技术与系统软件紧密耦合,普通Al应用软件开发并不能直接针对Al芯片进行编程。"周易"NPU是典型的可重构Al芯片技术,通过CompassSDK可以完成典型Al模型的转化和代码编译,使得Al模型可以运行在包含"周易"NPUIP的芯片之上。最新发布的X2系列NPU产品针对自动驾驶领域计算芯片,单核MAC阵列,在配置成INT8*INT8或者INT8*INT12时,可以提供10TOPS的算力,INT16*INT16时可以提供2.5TOPS的算力,并支持混合精度神经网络推理部署。除了精度的动态配置外,"周易"NPU还可以在运行时配置,以支持各种Al模型的动态切换。UnifiedUnifiedEnd-To-EndToolsProfilerDebuggerIDE/GUI图十二:"周易"NPU软件技术栈如图十二蓝色部分所示,“周易"NPU工具链可以把典型的Al训练框架生成的模型,转化成"周易"NPU可执行文件,并在转化编译过程中,针对目标平台芯片进行诸如低精度量化等优化执行码操作,极大方便Al算法和软件工程师部署模型推理和性能调优。目前已支持160多个常用的Al模型算子,其开放的软件技术架构,也方便Al开发者自定义算子。随着"周易"NPU技术的不断演化,更多新的Al芯片将不断量产,软件与算法开发者均可以借助"周易"NPU工具链,完成代码模型对Al芯片产品的适配、调试或者仿真测试,实现软件算法开发对芯片的解耦,提高车载自动驾驶软件的研发效率。Al编译器可以将机器学习模型转换为对应Al芯片上的运行代码(通常作为某种形式的深度神经网络执行),甚至针对特定模型和目标芯片特性进行优化。一方面软件屏蔽了Al芯片的底层技术细节,降低自动驾驶算法落地的工程开发难度,另外一方面,随着算法和模型的不断演进,对于未来出现的新算法和模型支持也能做到一定程度上的支持,确保硬件平台向后兼容性。4.异构感知计算流水线优化车载智能计算平台在辅助驾驶或者自动驾驶场景中,对于环境数据感知有着非常苛刻的延迟要求,其中数据传输及处理涉及到多个功能模块。在SoC设计时,不同功能IP模块往往由不同厂商提供,针对特定场景优化,需要这些模块间形成可以直接通信的系统方案。比如:多路摄像头及其它传感器输入的环境感知数据,会实时输入给NPU模块。高性能的车载智能计算SoC内部,让NPU模块与GPU、ISP、VPU等模块协同工作以达到最佳的效率是非常重要的。安谋科技推出的DFC(DirectFrameConnection)技术,避免ISP(ImageSignalProcessor)输出数据写入DRAM(延迟通常在50-100ns)内存,然后NPU再从DRAM内存读取数据并处理的过程,在芯片设计时,工程师可以根据场景需求,灵活配置DFC内部SRAM(延迟通常在1-2ns)大小,桥接诸如标准的"玲珑"ISP和"周易"NPU模块,极大降低数据延迟和功耗,提高数据处理吞吐率,NPU数据总线图十三:DFC技术示意图5.辅助驾驶、自动驾驶案例用场景的拓展和深入新问题、新挑战需要新的算法,再加上编译器以及整个硬件系统架构持续往前演进,通过实X9SP盖开w/Ows视《车载智能计算芯片白皮书(2023)》工征程5在设计理念上,不仅注重Al计算效率的优化,更重要的是考虑了数据全流程的优化,从数据的预处理到中间的Al计算,以及数据后处理,都有对应的硬件加速单元,并且充分保证了处理环节的衔接性,最终获得了60ms的业界最低延迟记录。BPUBPU●贝叶斯是先进处理器技术的集大成者u在征程5的贝叶斯架构BPU的诸多亮点中,高度的并行化是其核心,包括硬件和软件的并行化:在硬件层面有三层并行化:39《车载智能计算芯片白皮书(2023)》1.数据并行:跨多个单元计算多个数据;2.Kernel并行:在MAC脉动卷积单元中,在多个Kemel上计算相同的输入数据,并行生成多个特征图;3.单元并行:单元独立或同时工作,并以最佳方式消耗内部数据。在软件层面也有三层并行化:1.算子并行:编译器可以在同
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 北师大五年级上册数学知识
- 2024-2025学年浙江省宁波市小学四年级上学期期末英语试卷与参考答案
- 电力企业财务状况质量分析
- 开展幼小衔接工作实施方案
- 中职生劳动教育全套课件电子教案教学教程整套全书
- 制造业管理培训生座谈会方案
- 怀化学院《舞蹈教学法》2023-2024学年第一学期期末试卷
- 药店卫生管理感控制度
- 怀化学院《常微分方程》2023-2024学年第一学期期末试卷
- 华中师范大学《自然地理学理论与进展》2021-2022学年第一学期期末试卷
- 粮食仓储场建设项目可行性研究报告
- 输送机施工方案.doc
- 海澜之家特许经营协议合同
- 大众汽车入侵北美市场
- 建设银行员工劳动合同
- 医院医用气体管路的设计计算(2014)
- 人教版统编高中语文“文学阅读与写作”学习任务群编写简介
- SQE质量月报参考格式
- 初中物理实验室课程表
- CTQ-2型支线接触网故障智能切除装置概述
- 砂石料取样试验标准与规范
评论
0/150
提交评论