产业策略自动驾驶系列:FSDV12将迎重大架构变化“端到端自动驾驶”影响几何_第1页
产业策略自动驾驶系列:FSDV12将迎重大架构变化“端到端自动驾驶”影响几何_第2页
产业策略自动驾驶系列:FSDV12将迎重大架构变化“端到端自动驾驶”影响几何_第3页
产业策略自动驾驶系列:FSDV12将迎重大架构变化“端到端自动驾驶”影响几何_第4页
产业策略自动驾驶系列:FSDV12将迎重大架构变化“端到端自动驾驶”影响几何_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

证券研究报告请务必阅读正文之后第23页起的免责条款和声明中信证券CITICSECURITIES中信证券研究部核心观点连一席产业策略首席分析师特斯拉多次表示FSDV12将实现全新的“端到端自动驾驶”,模型架构将迎来重大变化。对于新架构的技术细节和潜在影响,市场仍有较多疑惑和分歧。根据特斯拉对外披露的信息及马斯克在X平台(前推特)发布的信息,我们推测特斯拉内部目前有两条“端到端”路线同步在研:1)级联式端到端神经网络;2)WorldModel。我们认为,FSDV12是前者的可能性较大,有望于明年初落地,以更好地实现L3能力;WorldModel仍较为新兴,但中长期有望成为自动驾驶乃至具身智能领域的基础模型,可类比GPT之于LLM连一席产业策略首席分析师▍可能性1(较高级联式端到端神经网络,大幅提升训练效率和性能上限,有望助力自动驾驶系统更好地实现L3能力,但能否迈向L4仍待观望。沈思越产业策略分析师技术本质:系统从输入到输出,全程使用神经网络算法,无需任何人工规则介入。当前,自动驾驶模型多为模块化架构,感知预测、规划、控制等不同任务分属于多个不同的小模型,且下游规控环节普遍仍以规则为主。而“端到端”神经网络在输入图像后,可直接输出转向、刹车、加速等控制指令。为提升训练效果,“端到端”的大神经网络可能由多个小的子神经网络级联而成。但与传统模块化架构用“规则”连接模块不同,级联式神经网络的子模块是以“神经网络”的方式自行训练堆叠,因此可通过数据驱动优化整个端到端模型,避沈思越产业策略分析师潜在影响:更好地实现L3能力。端到端/神经网络的核心好处在于模型迭代的关键由“工程师”变为了更易于规模化的“数据和算力”,因而训练效率和性能上限有望得到显著提升。落到实处,我们认为端到端方案所展示出的性能潜力有望大幅提升自动驾驶系统的接管水平,从而实现真正无可争议的L3能力(例如达到每周接管1次)。但端到端模型的“黑盒”问题目前产业界尚未有十分成熟的解决方案,因此我们认为,其最终能否迈向追求极致安全性的L4全无人驾驶仍待观望。发展进度:有望搭载于FSDV12,明年初正式落地的可能性较大。2023年8月26日,马斯克在X平台(前推特)进行了FSDV12demo的驾驶直播。我们认为,尽管直播中展现出的能力距离正式推送给消费者仍有距离,但可基本推断当前的V12模型已十分接近端到端,再配合特斯拉在数据和算力上的巨大投入,V12接下来至年底的迭代速度有望大幅加快。▍可能性2(较低WorldModel,有望打造自动驾驶领域的基础底座,引领视觉的GPT时刻;目前或仍处于GPT-1阶段,但发展速度值得期待,中长期看或对行业格局产生颠覆性影响。技术本质:无需标注、自监督的预训练模型。WorldModel可生成自动驾驶相关的连续帧视频场景,其本质是对视频中的丰富语义以及背后的物理规律进行学习,从而对物理世界的演化产生深刻理解。基于WorldModel所提供的丰富语义信息以及对世界强大的理解力,自动驾驶模型的感知与预测能力有望得到显著提升,规划、控制等下游任务也有望迎刃而解。潜在影响:为自动驾驶提供了一套未经证明的新路径,若得以走通,将对行业产生较大颠覆。中短期来看,WorldModel或将主要应用于数据合成和仿真模拟环节,厂商的车队规模对算法训练的重要性或有所下降,数据闭环的框架也将有所改变。长期来看,WorldModel有潜力成为自动驾驶乃至具身智能领域的基础模型,可类比GPT为所有NLP问题提供了一个通用解。考虑到更标准中信证券CITICSECURITIESCITICSECURITIES请务必阅读正文之后的免责条款和声明化的解决方案和更巨大的资金投入(资金需求或是这一代BEV+Transformer方案的数倍行业内有望出现少数几家强大的WorldModel基础模型层平台方,以SaaS或API的方式为主机厂/运营方提供自动驾驶能力,行业格局和合作模式或将发生较大变化。发展进度:仍处早期,但发展速度值得期待。我们认为,特斯拉、Wayve等公司不约而同地在今年推出WorldModel,很大程度上是受到了GPT的启发。目前,WorldModel或仍处于GPT-1的阶段,但考虑到目前行业整体对“大模型”潜力的强烈共识、算力的升级以及以特斯拉为代表的玩家此前积累的海量数据,我们认为WorldModel从0到1的爆发或较ChatGPT更快(OpenAI从GPT-1至GPT-3.5共历经4年)。▍国内玩家距离“端到端”仍有较远距离。无论是级联式端到端神经网络还是WorldModel,我们总结其核心壁垒皆在于:1)专业的AI人才团队,2)海量的视频数据,以及3)巨大的算力投入。国内主机厂从2023年开始陆续实现这一代“BEV+Transformer”架构的量产上车,尽快实现“脱图”以及尽可能多地“开城”是国内智驾车企当前的重点。对于下一代的“端到端”技术路线,国内主机厂目前最快也仍处于早期预研阶段,且在人才、数据、算力三方面较特斯拉皆有较大差距,因此从预研到上车乐观看或也需3年左右的时间。而对于前景更不明朗的WorldModel(或需等待特斯拉有更多成果展示面临着较大销售和交付压力的国内主机厂,在新技术的人才和资源投入上或也有所保留。相较之下,我们认为,特斯拉、华为等行业巨头在资金和资源上更占优势;而WAYVE、极佳科技等初创企业的目标和精力更为聚焦,也有望吸引到更多的AI人才,类似于当年的OpenAI。▍风险因素:特斯拉端到端技术路线发展不及预期;特斯拉FSDV12推送进度不及预期;云端训练算力出现较大紧缺;中国玩家追赶进度不及预期等。中信证券CITICSECURITIESCITICSECURITIES请务必阅读正文之后的免责条款和声明报告缘起 5可能性1:级联式端到端神经网络,大幅提升训练效率和性能上限 6本质:全程使用神经网络,无需人工规则介入 6影响:有望助力FSD更好地实现L3能力,但能否迈向L4仍待观望 8进度:FSDV12搭载概率大,有望明年初落地;国内距离“端到端”仍有较远距离 可能性2:WorldModel,有望引领视觉的GPT时刻 本质:自监督的预训练模型,有望打造视觉领域的基础底座 影响/进度:或仍处于GPT-1阶段,中长期或对行业格局产生颠覆性影响 风险因素 21插图目录图1:马斯克在X平台表示FSDV12将是“完全端到端自动驾驶”(左)并进行FSDV12 5图2:特斯拉引领下一代“端到端”技术路线,国内玩家普遍仍处于“BEV+Transformer”阶段 5图3:特斯拉FSDBetaV10至V12版本的架构变化(红色为神经网络,绿色为规则代码) 6图4:模块化和端到端自动驾驶系统原理 7图5:商汤科技感知决策一体化模型UniAD技术架构 8图6:端到端自动驾驶模型的训练方式 8图7:大模型的涌现能力 9图8:学术界正在探讨可解释AI模型(interpretableandexplainableAImodels)的可能 图9:LINGO-1可对其驾驶行为和意图进行解释 图10:WAYVELINGO-1模型示意图 图11:8月26日的特斯拉直播中,FSDV12的表现十分接近人类司机 图12:特斯拉算力预期图 图13:特斯拉D1vs英伟达GPU 图14:主要车企/自动驾驶厂商的智算中心 图15:特斯拉WorldModel核心逻辑 图16:特斯拉WorldModel生成的场景画面 图17:特斯拉WorldModel所构建的场景可根据Prompt进行变化 图18:WAYVEGAIA-1模型生成的画面 图19:极佳科技世界模型DriveDreamer核心框架 图20:极佳科技世界模型DriveDreamer可用于生成未来的驾驶场景和合理的驾驶行为 图21:WorldModel有望成为视觉领域的基础模型 图22:马斯克在X平台两次提到DiffusionModel 图23:DiffusionModel的工作原理是加噪声和去噪的过程 图24:DiffusionModel有助于生成高质量的图像 中信证券CITICSECURITIESCITICSECURITIES请务必阅读正文之后的免责条款和声明图25:WorldModel中短期或将主要应用于数据合成和仿真模拟环节,改变数据闭环的框架和流程 图26:特斯拉历史算力规模预估(个) 21图27:WorldModel或仍处于GPT-1阶段 21中信证券CITICSECURITIESCITICSECURITIES请务必阅读正文之后的免责条款和声明▍报告缘起特斯拉自2020年起在感知端引入BEV算法,后又配合Transformer和OccupancyNetwork(占用网络大幅提升视觉方案的感知精确度。国内厂商普遍于2023年开始BEV上车,使得“无图”城区领航成为可能。进入2023年,特斯拉开始向下一代自动驾驶模FSDV12版本将实现“端到端”的自动驾驶(End-to-EndAIfromImagesintoSteering,Brakes&AccelerationOut8月26日,马斯克在X平台上进行了FSDV12工程版的首次试驾直播。特斯拉作为目前自动驾驶行业引领技术潮流的存在,使得“端到端自动驾驶”走向台前并引发资本市场关注。但对于新模型的技术细节和潜在影响,市场仍有较多的疑惑和分歧。根据特斯拉对外披露的信息及马斯克在X平台发布的信息,我们推测特斯拉内部目前我们认为,FSDV12是前者的可能性更大,根据马斯克多次公开表态和V12demo8月底的直播表现,我们预计V12有望于明年初正式上车;而后者仍较为新兴,但中长期有望成为自动驾驶乃至具身智能的基础模型(FoundationModel可类比GPT之于LLM。本篇报告将重点探讨上述两类“端到端”模型未来将如何影响和改变特斯拉FSD乃至整个自动驾驶产业。图2:特斯拉引领下一代“端到端”技术路线,国内玩家普遍仍处于“请务必阅读正文之后的免责条款和声明V11V11▍可能性1:级联式端到端神经网络,大幅提升训练效率和性能上限“端到端”的本质是从系统输入到输出,全程使用神经网络算法,无需任何人工规则介入。当前,自动驾驶模型多为模块化架构,感知预测、规划、控制等不同任务分属于多个不同的小模型,感知端通过BEV+Transformer架构已基本实现神经网络运算,但下游的规控环节则普遍仍以规则为主(rule-based,即工程师编写条件规则代码)。相较之下,特斯拉的自动驾驶模型神经网络参与度最高,FSD每一次大版本的迭代本质上就是将更多子任务交由神经网络完成,而减少人工规则的数量。而FSDV12所谓的“完全端到端”,就是在一个大的神经网络模型中输入图像后,直接输出转向、刹车、加速等控制指令,无需任何规则代码。根据机器学习专家JamesDouma在与X平台/Youtube博主HerbertOng对谈中的介绍:在FSDBetaV10中,仅感知端及规划端包含神经网络,且规划模块仍以规则为主;V11引入了更多的神经网络,包括将Bag-o-bits转换器与感知神经网络合并、新增多步骤规划神经网络、控制神经网络等;V12则致力于将所有模块集成为一个大的神经网络。根据马斯克2023年8月2日的X平台发文,目前“车辆控制”是FSD端到端模型中的“最后一块拼图”,这将使得现在约30万行的C++控制代码减少至约3000行。神经网络有神经网络参与+Bag-o-有神经网络参与V10V10(Bag-o-bits包括停车标志、车道线、神经网络神经网络(Bag-o-bits转换器与感知神经网络合并为一个单一的神经网络,直接输神经网络+人工规则神经网络+人工规则V12神经网络V12中信证券CITICSECURITIESCITICSECURITIES请务必阅读正文之后的免责条款和声明模块化自动驾驶(o)传感器感知决策规划控制执行器模块化自动驾驶(o)传感器感知决策规划控制执行器端到端自动驾驶端到端自动驾驶资料来源:“End-to-EndDeep为提升训练效果,“端到端”的大神经网络可能是由多个小的子神经网络级联而成。据机器学习专家JamesDouma的介绍,对于一个从未训练过的大神经网络,初期训练信号通常非常弱(weaktrainingsignal训练难度很大。因此,可先在子系统(subsystem)或子模块(block)层面对较小的神经网络进行训练,训练到一定程度后,再将其堆叠为一个大的端到端神经网络,再做进一步训练。尽管同样为模块级联,但传统的模块化架构中,模块与模块间通常是通过某些规则进行连接,因此无法进行整体的自动优化;而对于级联式神经网络,子模块间则是用神经网络的方式自行训练堆叠,因此可以用数据驱动的方式优化整个“端到端”模型,也就避免了“局部最优,而非全局最优”的困境。商汤科技的感知决策一体化的自动驾驶通用大模型UniAD就利用了类似的思路,该研究论文《Planning-orientedAutonomousDriving(以路径规划为导向的自动驾驶)》(YihanHu,JiazhiYang,LiChen等著)斩获了2023届CVPR的最佳论文奖(BestPaperAward这也是CVPR历史上第一篇以自动驾驶为主题的最佳论文。在UniAD大模型中,检测、跟踪、建图、轨迹预测、障碍物预测以及规划等子模块共享BEV特征,并利用Transformer网络,连接整合至一个端到端框架下。具体来说,摄像头采集图像会通过Transformer映射至BEV空间;TrackFormer(跟踪模块)根据BEV信息推理出目标物的检测和跟踪信息;MapFormer(建图模块)根据BEV信息实时构建地图;随后MotionFormer(轨迹预测模块)会根据TrackerFormer、MapFormer和BEV的结果,计算预测周围物体的整体轨迹;OccFormer(障碍物预测模块)则会根据上述信息输出占用网络的障碍物预测;最后Planner模块会进行整个大模型的最终输出。论文中提到,为了得到更稳定的训练结果,UniAD的训练分为两个阶段,先对感知模块(包括跟踪和建图)做数次训练(实验中为6次再对模型整体进行多次训练(实验中为20次)。中信证券CITICSECURITIESCITICSECURITIES请务必阅读正文之后的免责条款和声明对于神经网络组成的端到端架构,模型迭代的关键由“工程师”变为了更易于规模化的“数据和算力”,因而训练效率和性能上限有望得到显著提升。落到实处,我们认为端到端方案有望助力FSD以及其它自动驾驶系统更好地走向L3。但端到端模型的“黑盒”问题目前产业界尚未有十分成熟的解决方案,因此其最终能否迈向追求极致安全性的L4全无人驾驶仍待观望。端到端/神经网络的核心好处在于大幅提升模型的训练效率和性能上限。传统自动驾驶模型中,规则的占比较高,想要提升模型性能,就需要大量优秀的工程师编写海量的规则中信证券CITICSECURITIESCITICSECURITIES请务必阅读正文之后的免责条款和声明代码并持续优化,模型的上限也取决于规则代码的质量。而对于以神经网络为主的端到端模型,性能提升的关键由“人”变为了“数据和算力”,后者更可规模化,同时也更有可能出现大语言模型中的“涌现”概念(即当模型突破某个规模时,性能突然显著提升)。这或也是为何马斯克在2023年6月接受CNBC的采访中表示,FSD有望在未来两年迎来自己的ChatGPT时刻(马斯克原话:IthinkTeslawillhavesortofaChatGPTmoment,ifnotthisyear,I'dsaynolaterthannextyear)。落到实处,我们认为该端到端方案有望助力FSD更好地走向L3。由于法规限制,FSD目前在美国仍属L2+,驾驶员不可脱手脱脚,并自行承担事故责任。而从技术的角度,根据36氪网站上的文章《智驾开城,没有“银子弹”》(2023/8/25,作者:李安琪FSD目前的主动接管里程约60公里/次(被动接管里程将更长这能否被视为“具备L3的能力”目前尚有争议。而我们认为,端到端方案所展示出的性能潜力有望大幅提升FSD的接管水平,从而实现真正无可争议的L3能力(例如达到每周接管1次)。但端到端模型的最大痛点在于可解释性差,能否迈向L4目前仍待观望。端到端自动驾驶模型并非特斯拉首创,此前在学术和产业界已有诸多探讨,最早的端到端自动驾驶模型可追溯至1998年的ALVINN项目,可在大学校园里以55英里的时速行驶。但端到端模型迟迟未能真正量产上车,主要原因在于端到端模型近乎黑盒的工作模式使得其出现问题时较难追溯根本原因,也就是无法针对某一个具体的bug进行定向优化。即使是采用级联式神经网络,也只能推测而无法证明感知、预测等子模块的中间输出结果和规划模块的最终输出结果之间究竟存在何种逻辑关系。事实上,端到端大模型之所以能够出现涌现,也正是得益于这种“不可解释性”。而自动驾驶又涉及安全性,容错率远低于ChatGPT等语言模型,因此端到端的黑盒问题显得更为致命。我们认为,FSD目前作为乘用车智驾系统,即使未来法规放开后走向L3,也仍有驾驶员作为兜底,因此特斯拉可在效率、成本和绝对的安全之间进行平衡,无需追求99.99%的安全性,只需“远比人安全”即可。但对于全无人的L4而言,“自动驾驶车辆究竟该追求多高的安全性”以及“系统是否需要具备可解释性”等问题,将在法律、道德和舆论层面受到更多挑战。中信证券CITICSECURITIESCITICSECURITIES请务必阅读正文之后的免责条款和声明Wayve推出的Lingo-1模型为自动驾驶端到端提供了一种可能的解法,但仍处于早期研究阶段。AI模型的可解释性问题是学术界重要的研究方向之一。2023年9月14日,英国自动驾驶公司Wayve宣布推出用于自动驾驶的视觉语言动作模型(VLAM)LINGO-1,将大语言模型和自动驾驶视觉模型进行深度融合。具体来说,LINGO-1可回答关于驾驶场景和驾驶行为的各种问题,例如“形容一下你所处的路况”、“你目前最关心的三个目标物是什么”、“你为什么放慢速度”等。LINGO-1主要靠人类专家对驾驶场景的语言解说数据进行训练,截至9月准确率达到了人类水平的60%。LINGO-1为端到端自动驾驶模型的黑盒问题提供了一个可能的解法,有望帮助人类理解AI模型究竟在“想什么”,但目前仍处于早期研究阶段,其准确度、泛化能力、幻觉率等各方面皆有较大的提升空间。图8:学术界正在探讨可解释AI模型(interpret中信证券CITICSECURITIESCITICSECURITIES请务必阅读正文之后的免责条款和声明becausethereisavbecausethereisavWhat’syourplanforbecausethereisavanWhat’syourplanfor马斯克在X平台表示,特斯拉FSD将于下一代V12版本实现“端到端”自动驾驶,我们认为其所谓的End-to-EndAI采用级联式神经网络的概率大。而对于FSDV12在8月26日的直播,我们认为,尽管其所展现出的能力距离正式推送给消费者仍有距离,但可基本推断当前的V12模型或已十分接近端到端,再配合特斯拉在数据和算力上的巨大投入,V12接下来的迭代速度有望大大加快,正式推送时间点为明年初的可能性较大。但对于国内主机厂,乐观看“端到端”上车或也仍需3年左右的时间。特斯拉FSD将于下一代V12版本实现“端到端”自动驾驶,采用级联式神经网络的概率大。根据马斯克2023年5月的X输出转向、刹车、加速等控制信号的端到端AI模型(End-to-EndAIfromImagesintoSteering,Brakes&AccelerationOut)”。而根据传记作家WalterIsaacson在2023年9月发布的《马斯克传》中的介绍,特斯拉2023年年初才开始正式训练端到端模型,其训练方式主要是向神经网络投喂大量特斯拉车主的驾驶视频,初期就投喂了约1000万个视频片段(videoclips)。书中还提到,为了让神经网络学会“正确开车”,特斯拉会有选择性地筛选出“良好的驾驶行为”片段,再让神经网络进行学习。这也意味着在模型正式训练前的数据处理清洗阶段,需要有人工标注员对视频进行评估和打分。FSDV12在直播中表现流畅自信,处理十分接近人类司机,但尚不成熟。8月26日,马斯克在X平台进行了一场45分钟的FSDV12试驾直播。马斯克驾驶着一辆搭载FSDV12工程版的ModelS从特斯拉湾区PaloAlto的总部出发,中间多次改变目的地,最后回到总部。行驶路段整体难度适中,尽管有一些具有挑战的场景(如施工、环岛等且路线并未提前规划,但PaloAlto属于特斯拉车辆较多的区域,训练数据应较为丰富。中信证券CITICSECURITIESCITICSECURITIES请务必阅读正文之后的免责条款和声明具体表现上,V12在许多场景中的处理十分接近人类司机。例如直播中,特斯拉在面对STOPSIGN标志时并未完全停止,这主要是由于V12并未编写“看到STOPSIGN需完全停车”的规则代码,而训练数据集中的人类司机在面对STOPSIGN时基本不会选择停车而是减速通过。又例如直播中当特斯拉与一位骑行者同时在路口等待红灯,当绿灯亮起后,骑行者行驶在特斯拉的右前方,此时前方对向车道也有来车,特斯拉选择加速超过骑行者,而在过去情况下根据规则代码特斯拉可能会选择急刹。马斯克也在直播中多次强调,某些场景在数据库中“从未见过”(例如施工标记和锥桶某些场景模型中并未编写对应的规则代码(例如过减速带时需要减速而是“完全靠神经网络基于视频进行训练”。但直播中也出现了一次较为致命的接管,位于直行车道等待红绿灯的特斯拉在前方左转灯变绿后选择起步并企图闯红灯,最终被马斯克接管。马斯克表示,后续需向V12投喂更多类似的“红绿灯”视频数据,以解决此次failurecase(失败案例)。FSDV12接下来的迭代速度有望大大加快,数据和算力是关键,落地时间点为明年初的可能性较大。尽管V12在直播中展现出的能力距离正式推送给消费者仍有距离,但从马斯克直播中的言论以及V12的部分表现来看,V12背后的模型已开始学习人类司机的驾驶行为,或已十分接近端到端。我们认为,架构的颠覆远比V12在直播中的表现更为重要,端到端最大的好处在于训练效率的提升,训练的关键从“人”转变为了“数据和算力”,而这两者正是特斯拉的强项和发力点所在:-数据方面,《马斯克传》(WalterIsaacson著)中提到,特斯拉每天可访问来自其车主约1600亿帧的视频,用于FSD的训练。同时,马斯克在8月26日的直播请务必阅读正文之后的免责条款和声明中提到,FSDV12接下来将会开始向车主推送影子模式,在车辆后台进行运行对比,我们认为这将进一步增强特斯拉数据采集的效率和质量。-算力方面,特斯拉工程技术总监TimZaman在X平台发文表示,特斯拉已于8月28日起正式启动了由10000块英伟达H100GPU组成的算力集群。此外,特斯拉自研的Dojo超算中心也于今年7月量产,特斯拉规划至2024年年底为Dojo投入10亿美元,至2024年年初成为全球规模最大的5台超级计算机之一。特斯拉D1A100804nm算力(FP32)22.6TFLOPS我们认为,端到端神经网络模型的核心壁垒在于:专业的AI人才团队、海量的视频数据以及巨大的算力投入,国内主机厂乐观看或也仍需3年时间以实现“端到端”上车。小鹏、华为、理想等国内主机厂从2023年开始陆续实现这一代“BEV+Transformer”架构的量产上车。目前,尽快实现“脱图”以及尽可能多地“开城”是国内智驾车企的重点。而对于下一代的“端到端”架构,国内主机厂最快的也仍处于早期研发的阶段。据36氪网站上的文章《CVPR最佳论文:大模型成就端到端自动驾驶》(2023/6/25,作者:李安琪),小鹏和理想目前都在筹备研发全栈端到端的自动驾驶方案,但效果还不太好。我们认为,特斯拉之所以能够在短短的八个月时间内完成令人惊喜的端到端demo亮相,主要是得益于其在过去3-4年的时间里打造了百万级别的车队规模并积累了丰富的数据飞轮经验,同时还有强大的AI算法团队和雄厚的财力。而国内主机厂在AI人才团队、请务必阅读正文之后的免责条款和声明汽车销量规模、数据闭环能力、云端算力储备等方面皆有提升空间,即使现在开始投入研发,其神经网络模型的训练效率也势必会与特斯拉存在较大差距。公司算力中心算力地点合作伙伴特斯拉Dojo超算中心单个DojoExaPOD算力1.1EFLOPS(BF16精度),计划2024年10月总算力规模达100EFLOPS(另有大量英伟达A100/H100GPU)-“扶摇”智算中心2022年8月宣布建成时算力为600PFLOPS乌兰察布阿里云蔚来“蔚来云”智算中心不详合肥不详理想理想智算中心据新智驾报道,理想智算中心算力至少750PFLOPS(FP16精度),报道中预计23Q3交付完成火山引擎吉利星睿智算中心2023年2月正式启用,算力达810PFLOPS,计划至2025年将算力扩充至1.2EFLOP湖州阿里云毫末智行雪湖绿洲2023年1月宣布成立,算力达670PFLOPS火山引擎▍可能性2:WorldModel,有望引领视觉的GPT时刻WorldModel可预测动态视频的“下一帧”,需要模型对物理世界有强大的认知力和理解力。在2023年CVPR大会上,特斯拉和Wayve分别展示了其目前正在研发的全新模型WorldModel(Wayve模型名为GAIA-1)。WorldModel可生成自动驾驶相关的连续帧视频场景,并根据指令(Prompt)进行变化,例如让视频中的车辆直行、右转甚至偏离路面开到草地上等等。本质上,WorldModel学习的是视频中的丰富语义以及背后的物理规律,从而对语言、语义以及世界演化的规律产生深刻理解。例如有人从人行道向马路上扔了一个乒乓球,乒乓球会以怎样的抛物线和轨迹进行运动;又例如前方发生交通事故后,包括伤员、警车、救护车、路人等不同的交通参与者会有什么行为等。特斯拉研发总监A在CVPR大会上特别提到,特斯拉的WorldModel生成的是多个摄像头多视角的场景,而从目前展示出的成果来看,其WorldModel所生成的内容在不同视角中的动态行为皆能保持相对稳定,这说明模型已开始初步理解物体的一些物理变化规律。国内玩家极佳科技和清华大学也在联合构建自己的世界模型DriveDreamer。根据其论文《DriveDreamer:TowardsReal-world-drivenWorldModelsforAutonomousDriving》(XiaofengWang,ZhengZhu,GuanHuang等著DriveDreamer的输入条件除了初始参考帧(referenceframe)外,还可增加对应的道路结构信息(包括HDMap和3D框,可通过人工标注或已有的BEV感知方法得到)作为约束条件,并利用ActionFormer预测未来的道路结构特征;上述条件输入至Auto-DM后,将生成可控的未来驾驶视频;同时请务必阅读正文之后的免责条款和声明DriveDreamer还可根据过去的驾驶行为信息以及从Auto-DM中提取的多尺度特征来生成合理的未来驾驶行为,即合理预测驾驶动作的能力。ImageImageInput请务必阅读正文之后的免责条款和声明WorldModel的本质是无需标注、自监督的预训练模型,有望成为视觉领域的基础模型(FoundationModel)。WorldModel的训练任务是视频帧的预测,而视频属于序列数据,因此可进行自监督训练,类似于GPT利用词语接龙或词语填空的方式进行文本预测的自监督训练。中长期来看,WorldModel有潜力成为自动驾驶乃至具身智能领域的基础模型,可类比GPT模型为所有NLP问题提供了一个通用解。具体来说,ChatGPT在语言通用模型GPT的基础上,针对专门的对话场景,进行RLHF训练(ReinforcementLearningfromHumanFeedback,基于人类反馈的强化学习从而实现更好的互动沟通效果。与之类似,基于WorldModel所提供的丰富语义信息以及对世界强大的理解力,自动驾驶模型的感知与预测能力有望得到显著提升,规划、控制等下游任务也有望迎刃而解。中信证券CITICSECURITIESCITICSECURITIES请务必阅读正文之后的免责条款和声明场景视频、语言文本、操作信号…WorldModel自动驾驶、具身智能…DiffusionModel(扩散模型)或是WorldModel背后的核心技术之一。马斯克在X平台两次提到,针对视觉领域,DiffusionModel或比Transformer更为高效。极佳科技的世界模型DriveDreamer也利用了DiffusionModel来构建对复杂环境的表征,以帮助WorldModel更好地理解复杂的自动驾驶场景。DiffusionModel是生成式模型的一种,其工作原理是通过学习数据集的扩散过程来生成数据的可能性分布,即先随机添加噪声来破坏训练数据,再学习逆转的去噪过程,以生成样本。DiffusionModel的应用使得图像生成有了新的可能,目前最为火热的图像生成模型,包括OpenAI的DALL-E、Google的Imagen和StabilityAI的StableDiffusion,皆是基于DiffusionModel来完成的。最近,新兴的DiffusionModel已开始扩展至视频乃至3D内容生成领域,并展示出了强大的能力。中信证券CITICSECURITIESCITICSECURITIES请务必阅读正文之后的免责条款和声明资料来源:哈佛大学官网《MathematicalFoWorldModel为自动驾驶提供了一套未经证明的新路径,若得以走通,将对行业产生较大颠覆。我们对WorldModel的潜在影响进行可能性推演:中短期来看,WorldModel或将主要应用于数据合成和仿真模拟环节,厂商的车队规模对算法训练的重要性或有所下降,数据闭环的框架也将有所改变。长期来看,WorldModel有潜力成为视觉领域的基础模型,行业内有望出现少数几家强大的平台方,以SaaS或API的方式为主机厂/运营方提供自动驾驶能力,而打造WorldModel的关键仍在于人才、数据和算力。中短期来看,WorldModel或将主要应用于数据合成和仿真模拟环节,影响数据闭环和模型训练的流程和效率。考虑到现实世界的复杂程度超乎想象,即使借助于规模庞大的量产车队,也难以遍历所有情形,因此引入仿真模式测试(Simulation)成为自动驾驶模型训练的必要手段。仿真模拟的核心在于真实性,传统仿真平台基于WorldSim+Unreal等游戏引擎搭建,真实度不够高,因此更多用于测试验证,而非算法训练。2022年以来,Nerf(Neuralradiancefield,神经辐射场)、DiffusionModel、WorldModel等新技术的出现提升了仿真平台的模拟保真度,使得仿真训练的质量大幅提升。相较之下,WorldModel的还原度最高,同时可用于合成实车运行时很难收集到的cornercases,且无需标注、灵中信证券CITICSECURITIESCITICSECURITIES请务必阅读正文之后的免责条款和声明场景挖掘、场景库建设、仿真测试等模型开发、调优、测评等场景挖掘、场景库建设、仿真测试等模型开发、调优、测评等原始数据结构化数据数据清洗、脱敏脱密等活高效,因而有望大幅提升模型的训练效率。而当生成式AI成为数据的主要来源后,厂商的车队规模将不再是自动驾驶能力的关键,数据闭环的框架和流程也将有所改变。数据挖掘、数据质量运营、自动化标注、人工标注等初期与真实数据进行配合,并进行逐步替代长期来看,当WorldModel成为视觉领域的基础模型后,可能出现少数几个平台型玩家,对自动驾驶行业格局产生较大影响。无论是语言还是视觉领域,长期来看基础模型都有望收敛至少数几个平台型玩家,而绝大多数应用都将围绕着这些基础模型进行开发。这主要是由于:一方面,基础模型的参数量巨大、工程化复杂,同时需要庞大的数据集及高昂的算力成本;另一方面,基础模型具有较强的通用性和泛化性。具体来说,在原来的技术路线下,自动驾驶算法需根据车端传感器的配置、位置乃至车型的尺寸进行调整。即使特斯拉将其现在的FSD算法代码开源,国内主机厂的适配工作量也不容小觑。包括前文中提到的“级联式端到端神经网络”,标准化程度也有限。这也是为什么目前主机厂都追求自研,且自研能力强的主机厂也走在了智驾行业的前列。但对于WorldModel而言,由于对世界有了强大的感知和理解力,传感器和车型将不再是限制,云端调参将成为WorldModel的核心,而车端部署时标准化程度有望明显提高,这将为平台型玩家的诞生奠定基础。而当少数平台型玩家的WorldModel性能足够成熟强大后,就有望通过SaaS或API的方式为主机厂/运营方提供高性价比的自动驾驶能力。谁能成为WorldModel的平台型玩家?关键仍在于人才、数据和算力;资金投入需求较“BEV+Transformer”或有数倍增长。与作为更纯粹的自监督预训练大模型,同样需要专业的AI人才团队、海量的视频数据以及巨大的算力储备。资金投入方面,尽管WorldModel所需要的工程师人数有所减少,但对AI人才质量的要求将明显提升,同时考虑到算力需求的大幅增长,整体资金需求较这一代“BEV+Transformer”或有数倍增长。我们认为,特斯拉、华为等行业巨头在资金和资源上更占优势;而WAYVE、极佳等初创企业的目标和精力更为聚焦,也有望吸引到更多的AI人才,类似于当年的OpenAI。而国内主机厂或许对WorldModel已有所关注,但在激烈的竞争环境下,各家普遍有较大中信证券CITICSECURITIESCITICSECURITIES请务必阅读正文之后的免责条款和声明20的销售和量产交付压力,且目前WorldModel的前景也尚不明朗(或需等待特斯拉有更多成果展示因此大家在人才和资源投入上或有所保留。-人才:AI模型的首要难点在于人,团队不在大而在精,OpenAI也仅百人规模。WorldModel的研发要求团队同时具有大模型、视觉和自动驾驶的背景知识和能力。同时,大模型的训练涉及数据存储、算法设计优化、超大规模算力集群、分布式通信等诸多工程化问题。这也是为何OpenAI相当重视算法和工程团队之间的紧密配合,搭载了有工程能力的算法团队和有算法理解的工程团队。-数据:根据《马斯克传》(WalterIsaacson著)中的介绍,马斯克在开发“端到端神经网络”时发现,至少需要超过100万个视频片段,神经网络才会开始发挥性能。而对于WorldModel究竟需要多少数据量,目前尚无定论。但可以确定的是,基础模型对于数据的需求一定是海量的。据36氪网站上的文章《人类数据,要被OpenAI用完了,然后呢?》(2023/7/17,作者:极客公园OpenAI从GPT-1到GPT-3,训练数据集从4.5GB指数级增长到了570GB。此外,与此前的数据驱动模型类似,WorldModel同样对数据的质量有较高的要求。-算力:相较于文字,图像的信息密度明显更低,因此训练同等水平的CV基础模型比NLP模型需要更高的算力。WorldModel的训练究竟需要多少算力目前尚未有定论,但从特斯拉的算力投入来看,较此前的“BEV+Transformer”架构至少有数倍乃至数十倍的提升。目前国内车企普遍选择与云厂商合作打造智算中心,算力水平普遍在小几千张英伟达A100。而根据知名半导体分析机构Semianalysis的预估,特斯拉在2022年年底约拥有等效约1万张英伟达A100的算力。此外,根据特斯拉AI团队(Tesla_AI)2023年6月在X平台公布的算力规划图,特斯拉目标至2024年2月将算力规模扩大至全球前五规模,对应10万张英伟达A100算力总和;2024年10月算力总规模达100EFLOPS,对应30万张英伟达A100算力总和。从成本来看,据雷锋网报道,理想汽车智算中心向火山引擎购买了300多台英伟达服务器算力的公有云服务,算力在FP16精度下至少达750PFLOPS。根据A100FP16精度下312TFLOPS的算力计算(未采用稀疏技术理想智算中心约租用了2400张英伟达A100的算力。据36氪网站上的文章《ChatGPT们难以复制张A100组成的DGXA100服务器售价约19.9万美元,对应300台的合计成本一台8张英伟达A100服务器包三年340万元人民币的租金计算,租赁300多台服务器三年需投入超10亿元人民币,平均每年投入约3-4亿元人民币。而特斯拉于今年8月底表示将启用1万张英伟达H100GPU进行FSD训练,据HPCwire,英伟达H100当前售价约3万美元,对应1万张英伟达H100合计售价约21亿元。此外,特斯拉还于今年7月表示,计划至20请务必阅读正文之后的免责条款和声明21--2024/07~20000WorldModel刚刚起步,目前或仍处于GPT-1前后阶段,但进展速度值得期待。我们认为,特斯拉、Wayve等公司之所以不约而同地在今年推出WorldModel,很大程度上是受到了ChatGPT的启发。当OpenAI为生成式AI指明了一条“大模型”的道路方向后,视觉模型有望追随文本从“判别式AI到生成式AI再到基础大模型”的发展路径。OpenAI自2018年初发布GPT-1到2022年初发布GPT-3.5,历时4年。而考虑到目前行业整体对“大模型”潜力的强烈共识、算力的升级以及以特斯拉为代表的玩家此前积累的海量数据,我们认为WorldModel从0到1的爆发或更快。根据特斯拉工程师PhilDuan在今年CVPR上的介绍,特斯拉今年初才开始研发WorldModel,不到半年就展示出了不错的demo能力,这或是得益于特斯拉此前所积累的海量场景数据。GPT发布时间线VS特斯拉WorldModel发布时间线GPT-1GPT-2GPT-3GPT-3.52018201920202021 特斯拉在CVPR首次提及WorldModel▍风险因素特斯拉端到端技术路线发展不及预期;特斯拉FSDV12推送进度不及预期;云端训练算力出现较大紧缺;中国玩家追赶进度不及预期等。中信证券CITICSECURITIESCITICSECURITIES请务必阅读正文之后的免责条款和声明22▍相关研究产业策略自动驾驶系列—三大拐点共振,看好智能驾驶新一轮行情(2023-09-04)产业策略研究—三大拐点共振,自动驾驶奇点时刻已至(PPT)(2023-09-04)产业策略自动驾驶系列—L2+前装量产开启L4雄关漫道,Momenta何以转动“飞轮”从头越?(2023-08-23)产业策略自动驾驶系列—自动驾驶3.0时代,数据闭环能力将成胜负手(2023-08-16)产业策略自动驾驶产业研究系列—斯年智驾:场景物流无人驾驶领军者,商业化奇点临近(2023-08-11)产业策略独角兽系列报告—独角兽十问十答系列23:打造大模型时代的AI基础软件平台–九章云极(2023-08-10)产业策略独角兽系列报告—独角兽十问十答系列22:工业AI视觉平台的领导者–阿丘科技(2023-08-08)产业策略专题—自动驾驶的“cha

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论