人形机器人的AI算法分析_第1页
人形机器人的AI算法分析_第2页
人形机器人的AI算法分析_第3页
人形机器人的AI算法分析_第4页
人形机器人的AI算法分析_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人形机器人的AI算法分析1.安信智能科技研究框架当下,我们正处于下一代计算平台构建成型的起点上,以“智能”的真正实现为总纲,技术维度的要素创新,包括混合虚拟现实(MR)、人机共生/协同(AI)两个方向,其中MR本质上是重构时空,人机共生/协同本质上是混合平台,混合平台又包括不同的工程方案——人形机器人(以机器为智能载体)、脑机接口(以人为智能载体)。工程方案理论上会有无穷多,具象的工程方案探索,严格意义上仍在初期(目前仅基于视觉的技术探索),但所有的工程方案都可以收拢到具体的技术路径中,任何技术路径的目标是实现虚拟现实,即模糊掉虚拟与现实之间的边界。目前主流的技术路径为,一是以AR的技术路径去实现,但现阶段AR相关技术仍待攻克;二是先VR再迭代至MR,以VR作为过渡。混合平台是智能实现的另一条技术路径。如果将人的身体看作“硬件”,智能的实现过程,也是新智能交互硬件层出不穷、旧硬件迭代甚至是重塑的过程。因此,未来的智能硬件不仅包括冷冰冰的电子器件本身,也包括人类和电子器件之间不同程度的耦合,即指向人机共生/协同。在这条技术路径上,脑机接口与人形机器人是不同的工程方案,即智能的实现分别以人、机器人为载体。2.产业趋势:机器智能“模型”系统迎来拐点,“行动”系统蓄势待发根据陆奇对于人工智能进化路径的理解,人作为最成熟的通用智能体,在处理外部环境时依次用到了“信息”系统、“模型”系统、“行动”系统,分别获取数据信息、分析处理信息并做出决策、基于决策目标做出行动。机器如果想要发展成为像人一样的通用智能体,则也需要有这三个系统,其演进的过程可以简单的概括为机器感知世界、理解世界、参与世界。而前沿科技研究转化为生产力有一定的过程,引发生产力大变革的拐点在于当应用这项技术的边际成本转化为某些特定公司固定成本时,产业浪潮出现。(资料来源:奇绩创坛)我们认为这背后原因是当应用技术的边际成本转化为固定成本的时候,行业可以发挥规模效应分摊技术成本,且减少了重复资源浪费。回溯机器智能的进化史进行梳理,互联网时代推动“信息”系统成熟化,使得今天信息获取的成本极低;“模型”系统正走过拐点,大模型所带来的泛化能力使模型生产的边际成本下降,转化为特定大公司如OpenAI背后的算力、人才、数据成本;仍有待突破、充满挑战的是“行动”系统的智能化:1)互联网时代推动“信息”系统成熟化——机器能够感知人类世界现实物理世界的信息以各种形式存在,如纸质的文字、对话、图像等,机器如果需要和物理世界进行交互,识别信息是第一步。1995年进入互联网时代,PC、互联网的普及加速了信息的线上化,使物理世界能够转化为机器可读取的信息,目前物理世界的线上化率已经达到较高的水平,体现为:过去十年移动互联网发展进一步加速了用户上网率的提升,截止2022年,全球互联网用户规模为53.9亿,相较于2013年增长92.5%,上网用户的渗透率达到67.9%;2022年中国互联网用户为10.67亿,较2013年增长72.65%,中国上网用户的渗透率高于全球水平,达到75.6%。互联网上覆盖了丰富多元的用户场景,以中国互联网应用为例,2022年网民使用率排名前五大的应用类别为即时通信、网络视频、短视频、网络支付、网络购物,分别为97.2%、96.5%、94.8%、85.4%、79.2%,涵盖了通讯、娱乐、购物的用户需求。此外线上办公、网约车、互联网医疗场景应用的网民使用率也分别达到了50.6%、40.9%、39.6%,也体现出用户生活的全面线上化趋势。用户规模增长及线上用户场景的多元化也在推动数据量的快速增长,从而提供了海量的信息供机器进行学习。根据Statista给出的数据,2016-2020年全球产生的数据量依次是18ZB、26ZB、33ZB、41ZB、47ZB,数据量增长的复合增速是27.11%。我们认为随着各类应用的用户使用率提升,未来全球产生的数据量规模也将加速增长。2)大模型展示出泛化能力,“模型”系统正走过拐点——机器能够理解人类世界得益于数据、算力滋养,神经网络模型能力逐步显现,行业主流模型从CNN、RNN走向Transformer。2006年提出深度学习算法后,神经网络结构经历了RNN、CNN等几代的进化,在视觉领域取得了非常显著的突破,2014年3月,香港中文大学多媒体实验室自主研发的DeepID系列面部识别算法准确率达到98.52%,在全球范围内首次超过人眼识别准确率,突破工业应用的红线。因为语序对于语义理解很重要,而不同语言间语序的重心又有所不同,因此在小模型阶段CNN、RNN算法在语言模型并未取得显著进步,因此这一阶段人工智能技术的突破主要体现在计算机视觉领域。2016年AlphaGo打败世界围棋冠军李世石,进一步引爆了人工智能的浪潮,推动人工智能应用在金融、安防等场景的渗透率提升及全球人工智能创业热潮。但这一阶段均为小模型,需要针对不同场景重新标注数据对模型进行训练,人工标注成本较高且模型泛化能力较差,导致拓展项目边际成本较高而收入增长速度缓慢。2017年谷歌在论文《AttentionIsAllYouNeed》中提出了Transformer架构,Transformer架构基于自注意力机制,通过赋予权重能够并行化处理序列间关联关系,在自然语言处理领域中得到了广泛的应用,如机器翻译、文本分类和生成模型等。GPT系列模型提出“预训练-微调”的模式,表明训练模型具备规模效应。OpenAI在Transformer架构的基础上又进一步提出GPT模型,其突破在于训练时采用“预训练-微调”的模式,先采用大量无标注的语料预训练语言模型,然后对预训练好的语言模型进行微调,将其迁移到有监督学习的任务上。我们认为这种模式所产生的价值在于提供了将训练模型的边际成本转化为固定成本的模型架构,针对更底层通用的能力抽取出来训练大模型共担成本,而针对特定场景的部署只需要少量数据就能够进行训练,从而体现出规模效应的可行性。从GPT-3开始表现出涌现能力,大模型不仅具备规模效应,还产生了能力跃迁。随着模型参数增加及语料库的丰富,到GPT-3上模型参数达到1750亿,模型开始体现出涌现能力,即不仅体现出训练成本的规模效应,还带来模型能力的增加,这推动了学术界、产业界对于大模型的追捧,比如谷歌的BERT、智源悟道、百度文心、华为盘古、阿里达摩院M6等大模型。GPT系列模型取得的成果给计算机视觉模型也带来了很多启发,被用于图像分类、图像切割等领域,例如商汤目前拥有320亿参数的视觉大模型,是亚洲最大的视觉大模型之一。GPT-4实现多模态能力,感知能力极大提升。GPT-1到GPT-3.5均为语言大模型,GPT-4增加了视觉模型,并实现了语言与视觉跨模态信息的对齐,类似于人类认知世界时,眼睛看到的图像信息会帮助我们加深对事物的认知,而反过来因为具备认知能力,看到不认识的事物时也能知道其功能,会提升视觉识别信息的能力,因此多模态能力的建立帮助机器提高了感知能力,并为复杂场景中的决策规划打好了基础,进而机器能够发挥计算优势,给出更好的行动方案。3)基于“信息-模型“系统,“行动”系统到来有望加速——机器智能参与人类世界指向“行动”系统,我们把执行操作的场景分解为物理世界与数字世界:在数字世界:体现为机器基于特定目标,自主完成任务并且自我迭代,对应于当前研究热度较高人工智能代理Agent,目前已经出现的产品包括Auto-GPT、BabyAGI、AgentGPT、MicrosoftJarvis、ChaosGPT等;在物理世界:交互需要借助相应的躯体,由此引出具身智能的概念。具身智能指智能体(可以是生物或机械),通过与环境产生交互后,通过自身的学习,产生对于客观世界的理解和改造能力,自动驾驶、智能机器人等即为典型的智能硬件产品。在实际生活中已经出现了很多机器人,如工业场景的码垛机器人、搬运机器人,商业服务场景的送餐机器人等,我们认为其与智能硬件的区别在于,传统机器人是基于固定坐标系进行特定执行操作的机器人,并不具备实时感知能力。传统机器人若想要向智能机器人升级,其优势在于执行控制模块具有优势积累,需要补足感知及决策模块。特斯拉人形机器人是目前最激进的智能硬件,且产品迭代速度很快。与现有机器人不同,特斯拉人形机器人以自动驾驶FSD为支撑,实时获得环境信息并进行决策规划,最终输出行动指令,形成了“感知-决策规划-运动控制”的实时交互反馈机制。为了增强机器人的普适性,将其设置为人形,是因为现实物理世界是基于人的视角、交互习惯所设置的,采用人形能够用第一视角理解环境场景。从2021年8月特斯拉在其首届AIDay上首次公开展示人形机器人的概念机TeslaBot至今,其研发迭代速度非常快:2021年8月,首届AIDay公开展示人形机器人概念机TeslaBot;2022年2月,推出人形机器人原型机,并作为开发平台进行深度研发;2022年8月,第二届AIDay,展示实体版本人形机器人,可以直立行走、浇花、搬运东西等,但灵活度相对较低,上下舞台时需要一定的人员协助;2023年5月,特斯拉2023年投资者大会发布人形机器人最新研发进展,其已经学会了缓慢前行。机器人潜在应用场景空间广阔。在2022年特斯拉的AIDay上,马斯克提出特斯拉机器人最初的定位是替代人们从事重复枯燥、具有危险性的工作,但远景目标是让其服务于千家万户,比如做饭、修剪草坪、照顾老人等。随着硬件成本下降,有望推动用户需求增长,我们认为推驱动用户买单的主要原因包括但不限于劳动力成本上涨、劳动力短缺、安全考虑等。此外,由于涉及的场景较为广泛,我们判断除了人形机器人外,未来可能还会衍生出更多不同形状的智能硬件,其核心在于实时感知与交互性,而外在躯体的样式可以根据所处场景进行适配,采用不同的执行器,可以预见机器人未来的市场空间非常广阔。一旦人形机器人落地,“行动”智能系统产业化拐点或将加速到来。从软件层面看,参考人是目前最强大的通用智能体,人形机器人的算法难度最高,若算法能在人形机器人上实现,向其他场景泛化本质上是降维;其次从硬件层面,执行器等零部件若能共用产线,会因为量产规模的增加而带来单个零部件的成本下降。因此综上,我们认为人形机器人达到一定成熟度后,面向不同场景需求而研发具有“行动“系统的智能交互硬件的边际成本也将显著下降,从而推动产业化浪潮的加速来临。3.自动驾驶FSD有望迎来量产落地特斯拉人形机器人的软件算法建立在自动驾驶所积累的数据、算法架构基础之上,由于目前官方披露人形机器人的算法相关数据相对较少,我们将先以自动驾驶FSD算法为基础进行原理的解释,进而说明人形机器人与整车算法的不同来帮助理解人形机器人算法研发所处阶段。参考前述“三位一体结构化模式”,自动驾驶方案主要有感知、决策规划、运动控制三个模块,其中感知层相当于自动驾驶的“眼睛”,帮助汽车理解所处的外部环境,感知模型的输出是基础;建立在准确、可靠的感知输出结果上,决策规划模型相当于“大脑”,对自车及周边环境轨迹进行预测,通过打分机制筛选出最优运动轨迹输出给运动控制模块;获得行动轨迹后,运动控制模块将其分解为方向转向、行车速度等操作指令,将其传输给方向盘、油门、刹车等执行器进行操作,最终实现对汽车的控制。而运动控制一旦发生,必然产生空间位移,这需要感知模型实时获取空间位移信息变化,重新评估决策形成正向反馈。在上述处理流程中,数据、算力发挥重要支撑作用。特斯拉自动驾驶自研方案经历四次重要迭代,当前形成了“BEV+Transformer+时序信息+占用网络”的核心架构。特斯拉自动驾驶方案早期由供应商Mobileye提供,2016年双方终止合作后,特斯拉经历了与英伟达短暂合作后,转向全栈自研,从技术落后到引领行业发展,特斯拉的技术方案主要经历了以下四次关键的技术迭代升级:2018年构建了多任务学习神经网络架构HydraNet,相较于此前单一目标检测遵循一个通用的网络结构,HydraNet能够完成多头共用的任务,减少重复计算;2020年特斯拉团队对底层代码进行重写及网络重构,引入了Transformer的架构,将2D图像复原至3D视角,使得自动驾驶方案环境感知的能力有了质的飞跃,BEV+Transformer的架构解决了行车过程中大多数共通的场景,但驾驶的安全性仍受到很多长尾场景的挑战;2021年至今特斯拉BEV+Transformer架构输出的3D空间基础上使用视频信息作为训练模型的数据集,引入了时序信息,使3D空间转化为4D空间,这样能够很好的解决物体、行人被遮挡的场景;2022年AIDay上特斯拉引入了占用网络,环境中的物体无法用模型穷举实现识别,占用网络通过将空间分割为体积不等的体素,预测其是否被占用,从而解决通用障碍物的识别的问题。3.1.感知层:进入“4D重建+占用网路”阶段,感知体系已较为成熟在自动驾驶传感器领域,一直分为视觉派和雷达派两大派系,最简单的区别就是:前者主张使用高清摄像头+视觉识别算法,后者主张除摄像头外,再加入激光雷达、超声波雷达、毫米波雷达等感知硬件提高信息冗余以保证系统稳定。特斯拉坚持第一性原理,是视觉派的坚定拥护者。特斯拉认为就像人只需要眼睛和大脑就可以完成对周围环境的感知一样,自动驾驶也只需要借助摄像头和算法就能够实现这样的能力。早期由于算法能力不足,特斯拉传感器套件中除了八个摄像头外,还包括一个前置雷达和车辆周围的几个超声波传感器。2021年特斯拉宣布向TeslaVision方案过渡,从2022年10月上旬开始,特斯拉为北美、欧洲、中东和中国台湾制造的所有Model3和ModelY不再使用超声波传感器,而是完全依赖TeslaVision来实现自动驾驶功能。当前特斯拉车上共有8颗摄像头,分别分布在左右前翼子板各1个,左右B柱各1个,后牌照上方各1个,前挡风玻璃后各3个,8颗摄像头视野范围达到360度,对周围环境的监测距离最远可达250米。每个摄像头采集分辨率为1280×960、12-Bit、36Hz的RAW格式图像作为信息输入。上述摄像头捕捉到的视觉信息作为感知层的输入,经过一系列神经网络的处理将输出4D向量空间,其操作步骤依次如下:1)相机校准:对摄像头采集信息进行色温、位移的校准,调整为标准虚拟相机数据,做校正变换后,之前模糊的图像会变得清晰;2)通过RegNet、BiFPN两个神经网络结构提取单视角图像特征;3)利用Transformer架构及占用网络对单视角特征进行转换及三维重建,包括先将为每个相机对应的图像特征转换为Key和value,再进行表搜索找到关联关系进行空间拼接,之后根据摄像头、IMU等传感器采集的时序特征进行时空联合对齐,最终转化4D空间(包含空间中的x、y、z坐标及时间t),之后会采用反卷积的方式将其对应到8个摄像头中,若存在偏差则继续修正重建效果。在上述感知操作的流程中,我们强调三个关键的技术:1)HydraNets:共用主干网络,模型训练边际成本低使业务拓展性强特斯拉视觉感知网络的基础结构是由主干(Backbone)、颈部(Neck)与头部(Head)共同组成,早期在图像检测任务中,特斯拉针对每个任务都设计了一套神经感知网络,分别由各自的backbone-neck-head构成。2019年对架构进行调整,提出多头任务处理架构HydraNets,简称九头蛇网络,这种架构是将主干网络合并,由一个共同共享的主干并分支成多个头。与此前的架构相比,其好处在于:可以避免不同任务间重复计算,提高运行效率;拓展性极强,当需要优化的新场景出现,只需要针对其特定的需求进行单独微调,既不影响现有任务运行,同时也能有效降低新业务研发的边际成本。比如针对大车开过会带起尘雾的场景,特斯拉会用自己的车队采集特殊场景数据,进行训练后加载Head部分即可。2)Transformer架构:推动感知从2D视角走向4D重建,提高感知效率与可靠性Transformer架构优势是使用注意力机制处理输入和输出之间的依赖关系,通过赋予权重找到关联关系。特斯拉2020年将Transformer引入感知模型,2020年特斯拉AIday上介绍展示了如何将检测到的物体、可驾驶空间和其他物体放入BEV鸟瞰图中,实现了环境感知从局部到整体的统一对齐,早期受限于数据质量、算力等诸多因素,BEV的输出仍为2D俯视图,与车所面临的3D物理空间中还是存在很大的不同,进而产生很多问题,比如无法估计物体的高度,以及在高度方向上如有多个障碍物可能检测不到等。随着数据、算力等综合能力的提升,Transformer架构能够处理参数量及数据量增加,帮助BEV鸟瞰图从2D俯视图升级为3D空间,更进一步地,由于坐标系相同,还可以进行时序融合形成4D空间。Transformer架构完成了从摄像头捕捉的2D信息向4D向量空间的转换,使感知可靠性、标注效率大幅提升。早期特斯拉在感知层做标注时是基于单张2D图片进行标注,这种情况下标注误差很大,比如在图片中标注远处车道线时可能会出现位置偏移,从而导致汽车行驶过程转弯时间预估不准确或者压线等情况出现。在依托Transformer重建的4D空间下所带来的好处是:1)降低标注误差,4D空间相较于2D单视角图像对空间的认知更加全面,而且在被数学表示的空间,对于长度、速度等环境信息的认知更具体;2)提高标注效率,在4D向量空间中可以对建模后的场景进行拖拽、旋转等数字化的操作,为自动标注打好了基础。从而提高标注效率,根据特斯拉披露信息,2021年后在重建好场景中对单个clip进行标注的平均时间小于0.1hrs,对单个clip计算的平均时间为0.5hrs,相较于早期的图像标注效率有了大幅提高。3)占用网络:解决通用障碍物识别问题,为安全兜底特斯拉在2020-2022年围绕4D空间重建取得的进步,为占用网络的实现带来了可能性,只用网络指预测汽车周围所有物体的体积占用率,即将世界划分为一系列3D网格单元(也被称为体素)后,预计3D空间中的每个体素或连续点都有被占用的概率以及它的未来运动。2022CVPR及AIday上,特斯拉对占用网络OccupancyNetwork进行了详细的介绍,其实现的关键包括:在提取图像特征后利用transformer机制计算得出3D空间的占据体积概率,定义哪个单元被占用,哪个单元是空闲的;在获得空间占用情况后,再结合里程计信息融合时序信息,构建4D向量空间;对于单个物体而言,网格单元的大小可以被调整,以保证尽可能多地包裹到所有的物体;4D空间中除了反映空间占用情况外,还用不同的颜色表示物体的速度、方向等信息;若物体之间若存在关系,还有一条有语义信息的边;基于4D空间所描述的特征及预测的轨迹方向,最终输出occupancyVolume及动态的occupancyflow。占用网络帮助特斯拉解决了通用障碍物识别的问题,增强了自动驾驶的安全性。在行驶的道路上,会遇到许多cornercase,其中可能包含很多数据库中并不存在的物体,比如侧翻的大卡车等,基于视觉感知的方案因无法获取其信息而决策失误发生事故。在占用网络下,类似情况会将其标注为空间占用,并根据感知信息为其赋予速度等值,根据以上信息车便能进行做出避让等操作,因此我们认为占用网络是对数据库之外的信息识别的有效补充,进而为安全兜底。经过上述感知过程,特斯拉感知模块最终有三个输出,分别是占用网络、车道线Lane及障碍物信息objects,得益于特斯拉大量的细节工作,输出的结果质量好、精度高,其将作为决策规划的输入,决定了后续工作的高度。3.2.决策规划:系高维非凸问题,引入神经网络求解效率提升自动驾驶问题是高维度空间中的非凸问题,求解最优路径挑战很大。自动驾驶决策规划模块需要解决的问题是在接收到感知模块输出后,在其所重建好的空间中找到一条轨迹可以最大限度地提高汽车的安全性、舒适性和效率,将车辆规划至目的地,因此其本质是找到一条满足约束的最优路径,如果用数学方法求解,自动驾驶的规划求解是在高维空间中解非凸问题,求解后得出的最优解可能只是局部最优,但考虑到安全问题,自动驾驶决策规划必须要尽可能达到全局最优。特斯拉决策规划的工作可以简单的理解为两部分工作,一是通过决策树生成潜在路径,二是通过打分机制对决策树剪枝,找到最优路径。在决策树生成时,特斯拉参考蒙特卡洛模拟生成了交互树,其生成是由粗到细的:1)在感知输出的占用网络、车道线、车道拓扑关系基础上粗生成行驶目标,给出车可能到达的车道线及行驶区域;2)利用传统优化算法,生成可能到达目标的行驶路径;3)动态博弈,考虑t+1、t+2等时间内与周边障碍物的交互博弈,继续生成新的轨迹。模型被引入决策树生成,显著缩短规划路径生成时间。在决策树生成的过程中,特斯拉以数学优化为主,特斯拉针对优化求解进行了诸多工程上的优化以缩短决策规划时间,能够在1-5ms内完成计算,但是如若面对更复杂的城市场景中可能仍无法满足需求,2022年AIDay特斯拉介绍在生成网络时使用了轻量化的神经网络帮助快速生成规划路径,标志着模型被引入了决策规划中,在模型助力下,目前可以在100us内生成一个候选规划路径。决策树剪枝是第二步,在有限的时间内完成响应需要拒绝掉一些偏差较大的方案。特斯拉也同样运用了传统优化方法及数据驱动下的神经网络模型结合的方式,其评价的维度主要包括了碰撞可能性、舒适度分析、类人程度、被接管的概率等。基于这些评分维度,最终筛选出最优的规划轨迹,作为决策规划的输出。综上,特斯拉的决策规划方案在解决自动驾驶高维非凸问题上是结合了优化与神经网络的算法,如何平衡决策效率与安全性是当前决策规划任务的关键挑战。其中采用优化求解是建立在工程师可解释的人类驾驶规则上进行编码,保证了算法的可解释性,相对更安全可控;而结合神经网络计算是为了提高生成及筛选最优轨迹的效率,同时也能对不可建模的驾驶经验进行建模,从而推动自动驾驶走向更类人化的步骤,但由于模型是黑盒,具有不可解释性,在安全失误率容忍度极低的驾驶场景的应用仍较为谨慎。决策规划输出的轨迹体现在特斯拉中控屏幕上为长度、方向变化的指示线,其本质上包含了目标位置、方向、速度及加速度等信息,这些信息被拆解为执行指令,作为运动控制模块的输入,进一步给到执行器。3.3.运动控制:仅执行决策指令,在工业上较为成熟当决策规划模块输出轨迹后,由于其本身包含了方向、速度、加速度等信息,进一步地分解为具体的指令,会交给域控制器MCU调用执行器进行操作。在运动控制方面,其承担的主要角色是做执行操作,这里主要是传统的工控软件,在行业内都比较成熟,并不涉及特别多AI算法,因此本文在此不做展开。3.4.数据及标注:特斯拉领先之关键,已建立强大自迭代体系从上述“感知-决策规划-运动控制”三个模块的方案介绍中,我们可以看到数据是重要的原料,如何得到大量、便宜且优质的数据对模型训练和结果输出都起到关键作用。特斯拉自动驾驶方案的数据源包括车辆采集数据、仿真数据、影子模式三种,其中:1)自车辆采集数据是特斯拉自有车队及量产出售给用户的车辆上的摄像头实时采集的数据,是特斯拉训练模型的主要数据来源;2)仿真模拟数据是为了补充通过车端摄像头所无法采集到的长尾数据,以尽可能补全模型训练时所可能遇到的场景;3)影子模式,指特斯拉的自动驾驶模型部署到车端后在后台运行,其执行输出与驾驶员操作时的不一致数据,这部分数据作为很珍贵的异常数据用于为模型纠偏,帮助模型训练结果更加类人。数据来源一:车辆采集数据车辆采集数据以Clip作为最小标注单元。在感知部分,我们详细介绍了特斯拉车上的8颗摄像头所采集的视觉数据,该数据通常为一段45-60s的视频格式的路段数据。除了摄像头视觉传感器之外,车上还包括惯性测量单元(IMU)、GPS、里程计等传感器,其中IMU是负责測量物体在三維空間中的角速度和加速度,並以此解算出物体的姿态,主要用以保持平衡;GPS用于导航定位;里程计是用于测量汽车的速度、加速度信息。综上摄像头、IMU、GPS、里程计等传感器采集的数据会构成一个最小标注单元,被成为Clip。每个Clip数据都经过RegNet、BiFPN提取图像特征进行特征融合,结合位置、速度、加速度以及时序特征等信息,用于实现将自身所处的物理世界转化至4D空间中,进而通过标注分解出静态路网与动态障碍物等感知任务的结果,用于后续输出。与需要自建车队,装配昂贵的激光雷达,雇佣工程师驾驶车辆采集数据的自动驾驶团队不同,Tesla依靠实际卖出的车辆采集数据,不但获取车辆销售利润,还能依靠特斯拉车主来采集数据。2018年至今特斯拉每年车的销量持续提升,其中2022年、2023H1的销量分别为124.71台、85.91万台,分别同比增长40.34%、57.42%。截止2023年6月底,特斯拉售出的车辆累计达到435.51万辆。上百万辆车在路上行驶帮助特斯拉产生了源源不断便宜的数据,特斯拉FSDbeta版本从上车部署至2022年已经累计采集超过20亿英里的数据,而且预计随着FSD用户渗透率提升,所能够采集的里程数将呈现加速增长。从数据的质量来看,由于数据来自于不同区域、不同驾驶风格车主真实环境决策有关的感知数据,数据多元且价值也极高。数据来源二:仿真模拟数据仿真模拟数据在自动驾驶方案中非常重要:1)模拟现实中无法采集到的长尾场景、极端场景,提高数据的多元性;2)对于长尾场景而言,实车采集与标注成本太高,可以通过仿真模拟降低成本;3)除了直接在虚拟场景中进行仿真训练,特斯拉还希望可以在仿真环境中重现真实世界场景,以便可以复现FSD失败的场景,实现在仿真环境下的优化迭代后再反哺汽车算法模型,实现“数据闭环”。在仿真环节,最核心的工作是对环境进行充分建模,特斯拉采用的是游戏领域非常成熟的渲染引擎工具UnrealEngine(简称UE),其生成的物体非常逼真。特斯拉会在离线大模型上构建的4D空间,先用UE生成静态物体,如车道线、建筑物、树木等,然后在上面增加车流或者行人等动态流,以模拟所需要训练的场景数据。生成的仿真模拟数据作为重要的数据元之一,用以训练云端大模型,以帮助特斯拉提高自动驾驶能力。根据2021年TeslaAIDay公开的信息,特斯拉总共已经绘制了2000+公里的道路环境,通过仿真获得的虚拟数据规模已达到37.1亿张图片及4.8亿标注,且已实际融入车端模型中。AIGC兴起也在推动仿真模拟能力提升。自动驾驶方案供应商Wayve目前正在尝试利用ChatGPT等语言大模型结合生成环境指令,在虚拟环境中实现环境感知与模型训练,这能够帮助降低采集数据的成本。我们认为基于此,仿真模拟的重要性或将被大幅提升,帮助完善训练工具。数据来源三:影子模式影子模式是运行在特斯拉车辆上的后台程序,用户接触不到影子模式,但是在每台特斯拉车辆上,影子模式“如影随形”,随时为数据采集做着准备。在影子模式下,特斯拉关注的是FSD版本运行时所作出的决策与人类驾驶员操作间的差异,会对产生偏差前后的数据进行重点采集并回传至云端,将这段异常数据作为输入,对训练好的感知、规控模型进行纠偏。影子模式的引入及持续迭代下,推动了特斯拉的自动驾驶操作更加类人化。得益对这三类数据的处理,特斯拉形成了持续正反馈迭代的数据引擎及强大的自动标注工具。车辆采集数据、影子模式、仿真模拟数据有两个方面的作用:1)用于训练云端在线的感知、决策、控制模型,训练好的模型会通过定期OTA的方式将新的版本推送至车端进行部署,车端会基于新的软件版本处理,从而回传给云端更有价值的数据,形成迭代反馈;2)用于训练离线大模型,离线大模型也在对感知的世界进行了4D重建,随着模型能力不断提升,模型对于真实世界重建的准确度、精度持续提升,不断趋近于真值时,其可以被用作特斯拉自动标注的工具,其本质是“对照标尺”,当新的数据流进入到大模型后,只要通过与“标尺”比对就能快速完成特征识别,从而提高标注效率。如前文所述,2020年引入BEV视图时进入了自动标注的时代,针对每一个Clip标注时间由2019年的3.5hrs缩短至0.1hrs。同时特斯拉做了许多数据安全的工作:1)来自于车端的数据一部分作为训练数据进入模型,还有一部分将验证数据集被保留,作为真值数据用于评判模型的能力;2)特斯拉在自动标注的基础上也保留了手工标注。对于自动标注的数据,工程师会不断进行数据抽检,对于被标记错的数据集,通过手工标注的方式进行修正。总结来看,我们认为特斯拉的数据满足以下特点:大量、便宜、质量高且具备多样性,构成其最核心竞争壁垒:大量:如前所述,累积售出450多万辆车在路上行驶为特斯拉贡献了持续不断的数据;其次随着算法能力升级,目前摄像头采集数据格式已经升级为视频,其中包含的信息量将较之前更加丰富;便宜:特斯拉车主相当于特斯拉“免费外包车队”,帮助其采集路网等真实世界的数据,随着车辆的增加,获取某个长尾场景数据的概率变得更高,从逻辑上讲边际成本更低;其次特斯拉数据-模型训练的正反馈机制也在推动仿真能力的提升,进一步降低数据获取成本;质量高:相较于手动在2D图像中标注,自动标注工具在4D空间中标注数据产生的质量更高;其次安全校验及手动标注的工作也在持续提高数据质量;多元性:销量背后意味着用户多元性,保证了数据集的差异性;特斯拉只关注有价值的数据信息,比如在行程过程中大量顺利通过的道路数据对提高模型训练并不意义,可能还会产生一定回传成本,特斯拉可能会直接丢弃;仿真能力使特斯拉具备主动生产长尾数据的能力,从而补全数据种类。根据特斯拉2022AIDay上披露数据,特斯拉将这些有价值数据按照场景种类进行存储,训练数据集达到23.2万帧,验证数据集达到0.38万帧。3.5.算力:自研芯片性能可期,投产Dojo应对潜在增长需求处理如此庞大的数据,强大的算力支撑也非常重要。在自动驾驶方案中涉及云端与车端算力,其中云端算力主要用于训练大模型,包括感知、决策规划及控制算法模块,同时还需要训练离线大模型作为标注数据的工具以及进行仿真模拟训练,在训练模型时因为需要不断调整参数导致算力的需求非常大,而且对于并行算力的要求会较高;车端模型是对已经在云端完成训练的模型进行部署,模型参数已经固定,仅对摄像头等传感器采集的数据进行运算即可,对算力的消耗相对较小。特斯拉芯片从采购转向自研,增强对硬件性能掌控力。在HW1.0时代,特斯拉采用了来自Mobileye的EyeQ系列芯片。进入HW2.0时代,特斯拉找到了英伟达作为Mobileye的替代,采用定制版的英伟达DrivePX2自动驾驶计算平台(由1颗TegraParker芯片和1颗Pascal架构GPU芯片构成)。后来又升级为HW2.5,增加了一颗TegraParker芯片。但无论是Mobileye还是英伟达,都无法满足特斯拉对于性能、研发进度、成本、功率方面的要求。而且随着硬件量产出货所推动的算力需求增长,芯片供应链安全对于特斯拉的重要性愈发凸显,2016年前AMD首席架构师JimKeller加入特斯拉,任职Autopilot硬件工程师总裁,特斯拉开始走上芯片自研之路。特斯拉2021年发布D1芯片及Dojo超级计算机:1)D1芯片:制程工艺是7nm,由台积电代工,设计参数为645平方毫米面积、500亿个晶体管、11英里的内部走线、400WTDP(ThermalDesignPower热设计功耗,指正常工作环境的负载功耗),单颗芯片有354个节点,实现了超强算力和超高带宽;2)DOJOPOD云端机柜:每个Dojo都集成了120个训练模块,单个训练模块包含25个D1芯片内置3000个D1芯片,拥有超过100万个训练节点,算力达到1.1EFLOP,相邻芯片之间延迟较低,配合特斯拉自创高宽带、低延迟的连接器,是世界上首屈一指的超级计算机。整体来看,特斯拉的芯片虽然距离英伟达仍有一定差距,但得益于自身业务体系对AI需求经验,其产品在AI训练应用上仍极具竞争力。云端算力占用率较高,2023年7月正式投产Dojo。特斯拉目前使用的是基于英伟达芯片的超算集群,相当于14000块A100的算力。根据特斯拉首席工程师TimZaman对外表示,他们的计算集群仅有0.3%的空闲时间,其中84%的时间都在处理高优先级的任务,因此急需更多计算资源。2023年7月特斯拉Dojo正式投产,预计2024年10月特斯拉的算力总规模将达到dato投入资金规模为56亿。在车端,以HW3.0提供144TOPs为主,预计未来将进一步提高算力。特斯拉硬件体系至今迭代四版,从2019年发布的HW3.0使用的是特斯拉自研的FSD车端芯片,2019年上线的第一代FSD芯片由三星代工,制程为14nm,2023年已经升级为7nm芯片。算力方面,单颗芯片72TOPs,2颗芯片算力共144TOPS。对比国内自动驾驶车企的算力芯片,目前较为主流的是NVIDIAOrin芯片,其单芯片算力已经达到250TOPS,而且如果未来决策规划模型化,可能占用更多的算力,因此硬件版本升级可能会给到更多的算力,来保证一定的硬件性能冗余以支持后续模型能力的迭代升级。4.人形机器人产业链4.1.Optimus:以FSD体系为基础,指向人形对软硬件适配调整与自动驾驶算法方案类似,智能机器人的软硬件构成上主要包括五大组成部分,分别是:感知系统,包括摄像头、麦克风、距离感应器、压力感应器等,产品较为成熟,需要解决精度等问题;运算系统及其软件:理解及感知环境、拆解任务和路径规划、执行任务,难度在于数据少、虚拟世界与物理世界存在适配问题;驱动系统:分为液压驱动、电机驱动两种,要求轻便、灵活、体积小,抗摔、耐撞等;末端执行系统:如关节执行器,如谐波减速器、无框力矩电机等,难点在于控制抓握力度、灵活性等方面;能源供应系统:主要是电池供应。依据上述的模块,我们对特斯拉2022年AIDay及2023年投资者大会上公布的关于人形机器人Optimus的参数进行汇总梳理如下:人形机器人重量为73kg,几乎与成年人重量相当,在静坐时的功率为100W,快走时的功耗为500W;能源供应依靠电池,电池容量2.3kWh容量,支持52V电压,内置电子电气元件的一体单元。Optimus的大脑由单块FSDChip组成,若参照自动驾驶HW3.0芯片则预计算力为72TOPS。在感知算法层面,人形机器人依赖于自动驾驶FSD算法,也采用了纯视觉感知方案,共配置有3颗摄像头,分别是左右眼各一个以及一颗鱼眼广角,同样也是提取图像特征后进行3D重建,对于空间中的物体通过占用网络进行识别输出。对比自动驾驶中占用网络,因为室内环境小目标比较多,我们可以看出机器人场景的单元格更加稠密。视觉导航方面:与车一样,人形机器人也是基于关键点的视觉导航,但是不同于车在户外有车道线,室内没有车道线,机器人对可通行空间也是通过矢量图描述的。影子模式:与车类似,人形机器人也采用类似于影子模式的方法,一种模式是采集人在执行操作时的发力大小、发力方向等信息,模拟人的执行动作;另一种方式是类似于比下方右图,由工程师头戴摄像头将其所看到的桌面拍摄传输给机器人,其在仿真环境下做出动作决策,与人的动作进行对比,从而获得差异数据用于训练机器人模型更类人。运动控制:与自动驾驶类似,人形机器人的规划控制输出也是双足的运动轨迹,但不同点在于,机器人给出运动轨迹之后,还需要根据轨迹预测脚掌的落地位置。平衡控制:在波士顿动力的双足机器人中,推倒测试是常见的一种测试平衡的机制。类似地,特斯拉人形机器人也做了相关测试,以测试机器人对外界环境的躲避及运动平衡等。硬件方面,人形机器人做了诸多仿生设计及针对算法的优化调整。TeslaBot基于特斯拉汽车的工程技术,并且针对人形机器人做了针对性的调整,例如减少零部件的复杂度等。特斯拉在参考生物学结构的同时,还通过软硬件配合的方式,让机器人进行多模态的学习,对机械结构进行扭矩等力学方面的进行微调。目前整个躯干拥有200+DoF自由度,手部自由度达到27DoF。灵巧手:2022年AIDay上公布的Optimus光手掌区域就用了6个驱动执行器,具有11档的自由度,拥有自适应的抓握角度、20磅(9公斤)负荷、工具使用能力、小物件精准抓握能力等等。膝关节:特斯拉希望Optimus的关节希望尽量复刻生物学上的非线性逻辑,也就是贴合膝关节直立到完全弯曲时的受力曲线。为此,Optimus的膝关节使用了类似于平面四杆机构的设计,最终发力效果会更接近人类。电机驱动:下图橙色部分均为Optimus的电机驱动器,相当于人的“肌肉“,也都是特斯拉完全自研的。考虑到机器人运动的灵活度,Optimus具有较多的自由度,因此其单独的电机数量远远超过车的电机。特斯拉希望尽可能地减少执行器的种类,降低软件标定难度,因此特斯拉举了28种人类常见活动,比如抬举手臂、弯曲右膝等,通过分析这些活动反馈的云数据,找出各类运动的相对共同点,然后就可以尽量减少专门设计执行器的种类,基于以上原因最终设计了6种各自独特的执行器。4.2.建立在智能驾驶体系之上,人形机器人导入速度预计很快4.2.1.硬件架构无须破旧立新,共享汽车零部件供应体系在硬件本体上,人形机器人无须破旧再立新,可以直接采用中央式架构。车的电子电器架构经历了从分布式走向集中式的架构。汽车作为百年工业,已经形成了非常标准的零部件体系,但是其是分布式架构,相当于零部件的控制“各自为政”,但是到智能化阶段,分布式架构使信号传输有很多的问题,使模型计算的能力无法快速下达到执行器,因此逐步走向集中式架构,特斯拉2012年开始交付ModelS,至2017年交付Model3才全面开启电子电气架构的变革。不同于整车成熟的产品体现,人形机器人是过去并不存在产品,无须破旧再立新,这使得特斯拉可以完全根据自身对产品的定义进行零部件设计及选型,对产品的形态、研发量产节奏有了更强的掌控力。得益于汽车供应链的积累及大规模零件的生产经验,特斯拉能够为Optimus挑选尽可能保证成本、效率的原材料。根据我们对产业的调研,特斯拉在选择人形机器人零部件的供应商时会优先选择整车供应商,因为彼此具备更扎实的合作信任关系,而且在同种零部件上,由于车与机器人共用同一种零部件,会因为零部件量产规模的上升而带来硬件成本的下降。三花智控系特斯拉整车供应商,根据公司公告,公司已经在对机器人机电执行器方面展开持续研究和产品开发工作。4.2.2.与智能汽车本质均为智能交互硬件,复用算法模型及数据体系人形机器人与智能汽车本质上都是具备实时感知能力的智能交互硬件,可以直接复用自动驾驶模型及数据体系。我们认为自动驾驶为人形机器人搭好了“场”,人形机器人可以复用的部分包括:1)感知模块的4D重建、占用网络;2)数据及自动标注工具;3)仿真模拟环境;4)共享强大的云端算力设施及芯片能力。在以上可复用的部分,只需要针对人形机器人场景采集相应的数据训练即可,不存在技术性的难度,难度在于工作量的积累。两款产品的不同是因为所处的场景及面对的任务不同导致规控体系差异,特别是机器人高达200多个自由度导致其规控更加复杂,但是自动驾驶所积累的工作是地基,0-1的工作很难,而扎实的基础将使1-10的工作加速迭代。根据2023年股东大会上马斯克透露信息,特斯拉已经打通了FSD和机器人的底层模块,实现了一定程度的算法复用。自动驾驶积累的工程化经验有利于加速机器人正向研发。自动驾驶方案使特斯拉已经积累了智能硬件开发中所需要的“发现问题、采集数据、标注数据、训练模型、解决问题”的工程化经验,能够加速机器人正向研发过程。体现在:1)如前文所述的九头网络架构,在一定程度上,人形机器人与自动驾驶可以共用感知的backbone,所处理的任务主要体现在neck、head层的差异,而在处理尘雾等场景时积累的经验能够帮助机器人迭代;2)在规控、安全性等方面,两款硬件也具备一定的借鉴经验,比如基于汽车的碰撞模拟软件,能够为Optimus编写跌倒测试软件。4.2.3.大模型加速智能驾驶方案迭代,机器人大模型领域成果频出以ChatGPT、AIGC为代表的大模型热潮对自动驾驶行业掀起了新一轮变革。马斯克此前在社交网络称将推出FSDv12.0端到端版本,并于近日透露团队已经在对规控模块进行AI化,其是完全自动驾驶的最后一块拼图,一旦完成,将推动自动驾驶方案迎来下一阶段的质的飞跃。得益于大模型能力,国内车企也在积极推动BEV+Transformer这套无图方案在量产车上的落地,并给出了无图方案扩城的规划,比如小鹏提出XNGP将在下半年拓展到全国50城。可以预见。自动驾驶方案的突破将大大推动人形机器人方案的实现。以李飞飞具身智能研究、谷歌RT-2为代表,机器人大模型领域成果频出。李飞飞团队研究实现了零样本的日常操作任务轨迹合成,也就是机器人从没见过的任务也能一次执行,连给他做个示范都不需要。可操作的物体也是开放的,不用事先划定范围,开瓶子、按开关、拔充电线都能完成。7月29日,纽约时报记者在谷歌实验室看到新推出的Rt-2模型驱动的机器人,桌子上放着狮子、鲸鱼和恐龙三个塑料雕像,当工程师给机器人发出指令“捡起灭绝的动物”,机器人抓起了恐龙。以上的突破主要来自于语言大模型的助力,具体来看体现在:增强对于环境感知的能力首先,语言大模型能够帮助机器人更好的理解人类指令。在大模型时代到来之前,人们训练机器人,通常针对每个任务进行优化,比如抓取某种玩具,需要足量的数据,机器人才能准确地从各个角度、各个光线下识别这种玩具,抓取成功。而让机器人意识到自己有抓取玩具的任务,也需要对机器人进行编程才能解决。其次,基于语义理解物体,人形机器人面临更多开放的场景,涉及到不同的物体,如果只依赖于数据标注的方式识别物体效率较低,能基于语义对应该物体的属性、特征,能够提高对环境感知的效率,快速做出决策。比如,为了更准确高效应对车道线,特斯拉借用语言模型编写了一套车道语义拓扑图,对于车道线的连通性,用一个时序模型建模(自然语言模型)将整个路口用若干格子表示;自车在起始点坐标为其赋任务指示token‘start’,路标检测信息、移动轨迹矩阵作为特征,将不同路口间的连接关系储存为节点的配对,从而建立语义网络。多模态对齐推动端到端方案落地加速自动驾驶与人形机器人方案端到端的实现。基于前述介绍,我们把“感知、决策规划、运动控制”划分为三个相对独立的模块,前者的输出作为后者的输入,依次完成操作,但是参考人在开车时的模式,我们看到外界环境做出反应时并不会反映静态路网、运动轨迹,而是直接输出转方向盘,加速或者减速的操作,其本质是三个相对独立的模块融合成为一整个大模型,我们认为它其实也体现了不同模态数据的对齐。我们认为特斯拉提出的端到端的方案是本质上就是在完成视觉图像输入到方向盘转向及加减速之间的对齐。类似的,谷歌的RT-2模型本质上实现“语言-视觉-动作”三个模态的对齐。谷歌RT-1是个视觉-语言模型(VLMs),实现的功能是将一个或多个图像作为输入,并生成一系列通常表示自然语言文本的标记。而RT-2通过将VLM预训练与机器人数据相结合,直接控制机器人,形成强大的视觉-语言-动作(VLA)模型,使机器人可以进行推理、问题解决并解释信息,以在真实世界中执行各种任务,其或将成为构建通用机器人的一把钥匙。因此,综合上述软硬件的积累及优势,我们认为人形机器人的产业链导入速度可能会比此前自动驾驶的产业导入速度更快。4.3.开放场景人形机器人相较于自动驾驶面对更多挑战4.3.1.特斯拉缺乏语言大模型能力,需要补齐语料数据如前所述,李飞飞具身智能、谷歌RT-2的成果依赖于语言大模型的推动,包括理解人机交互指令,以及基于语义理解识别家庭场景中种类繁多的物体,还需要对不同物体背后的功能、重量、硬度等属性进行了解,才能做出决策规划,比如是否需要避障等。而语言大模型的训练需要大规模的语料数据,谷歌得益于搜索引擎积累了大量优质的语料数据,而特斯拉在过去缺乏相关语料资源的积累,因此仍需要一定的时间对其进行补充。我们认为特斯拉收购Twitter的原因与之有关,将获得大量的语料数据帮助提升人形机器人的能力。4.3.2.人形机器人运动控制具有极大难度首先,机器人200多个自由度,规划求解可能会导致计算量暴增。根据莫拉维克悖论,对计算机而言实现逻辑推理等人类高级智慧只需要相对很少的计算能力,而实现感知、运动等低等级智慧却需要巨大的计算资源,其背后的原因是求解难度非常大。我们在前面介绍自动驾驶决策控制时解释了车的算法是高维的非凸问题,其实车上只有6个自由度,分别是表示位置坐标的x、y、z、时间t、速度、加速度,而人形机器人所对应的机械原理会更加复杂和精细,全身有200多个自由度,这意味着在优化求解时计算量将暴增。而且机器人在更开放的场域,可能面对更强的安全约束条件,所以如何在计算时能够使其收敛至最优解也会面临较多的挑战。假设决策规划通过模型化实现,我们认为如果采用影子模式进行模型训练,则还需要进行人体运动控制的数据,比如握力方向、握力大小等,因此为了训练人形机器人达到更加类人的效果,特斯拉还需要做大量的数据采集工作或者在仿真环境下进行模拟仿真。第二,灵活性要求动态计算,对软硬件响应速度及配合提出较高要求。人形机器人如果想要达到人类操作的灵活性,所需要做出的运动控制都是实时且连续的,这就意味着在极短的时间内发生了位移,就需要感知算法在动态的情况下进行连续计算,计算时间差缩短对硬件的灵敏度、软件计算速度都提出很高的要求。第三,硬件降本产生的零部件调整,与软件算法稳定性之间存在平衡。2022年AIday上马斯克提出人形机器人未来的售价将为2万美金,我们预计仍需要一段时间完成硬件的降本,因此目前部分结构件仍处于正向研发阶段,以保证达到降本的需求。但由于软硬件方案是相互耦合的,硬件降本导致零部件方案变化,会导致人形机器人算法跟着调整,影响软件方案的开发节奏;其次,由于软件算法与硬件的稳定性与精度有很高的要求,这在一定程度上会推高硬件成本,因此研发的过程就需要不断在算法稳定性与硬件降本间进行平衡,对工程师团

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论