




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机械设备行业专题研究:人形机器人需要怎样的大模型?人形机器人商业化痛点:通用性受限高需求+低供给的商业化矛盾长期存在高需求:人形机器人的潜在应用场景广泛。在工业生产中,人形机器人可应用于汽车、3C等行业,替代人类完成组装和质检等重复枯燥的任务;在日常生活中,人形机器人可以提供打扫卫生、做饭、照顾老人和教育小孩等多种服务;此外,人形机器人还可以替代人类完成灾难救援等危险性任务。目前全球范围内人口老龄化问题正在加剧,劳动力成本不断提升,未来人形机器人市场空间广阔。低供给:绝大多数人形机器人未实现商业化落地。早在1973年早稻田大学就研发出世界上第一款全尺寸人形机器人Wabot-1;同样为了实现人形机器人领域的梦想,本田于1986年开始秘密研发机器人双足结构,经过多次迭代后,本田正式于2000年推出Asimo机器人,后由于Asimo年租金高达2000万日元,难以商业化应用,本田研发团队于2018年解散;波士顿动力Atlas也迟迟未实现大规模商业化应用;特斯拉Optimus的最新进展是能够依靠视觉对物体分类并完成瑜伽动作,也未能大规模商业化应用。目前绝大多数人形机器人并未实现大规模商业化落地。通用性受限导致商业化落地困难我们认为通用性受限是人形机器人长期面临高需求和低供给现象的原因。依托于工业机器人的快速发展,执行类零部件的成本在人形机器人大规模放量后有望显著下降,因此我们认为硬件成本高昂并不是人形机器人长期面临高需求和低供给现象的原因。早稻田大学Wabot、本田Asimo以及波士顿动力Atlas代表了早期各家企业在人形机器人领域的探索。Wabot受限于当时的技术水平,运动能力较差;本田Asimo运动能力、智能化水平有所提高,但由于应用场景限制,难以大规模推广;波士顿动力Atlas的运动性能进一步提高,但也未实现大规模应用。我们认为,人形机器人追求极致的运动性能意义有限,其未能大规模商用的核心原因是通用性受限。通用性受限体现在目前机器人对用户主体专业要求高和应用场景局限。1)用户主体:传统人形机器人偏向于是一种可编程的专用设备,需要高级算法工程师进行编码设定才能正常运控,普通用户难以直接参与。如果普通用户能与人形机器人实现交互,将会大大降低使用门槛,进而促进人形机器人走向大规模应用;2)应用场景:人形机器人的应用场景不能仅局限于训练场景,还需要能够在开放式的复杂环境中完成各种任务。早期波士顿动力的Atlas虽然能够完成后空翻等高难度动作,但是其在用户主体和应用场景方面均有欠缺,一方面其需要机器人工程师进行控制,普通人难以直接使用;另一方面,Atlas最初是面向灾难救援进行设计,并且存在维护困难、漏液等问题,可靠性较差,应用场景受限。通用性如何拓宽:大模型充当大脑实现任务级交互硬件vs软件:硬件不是掣肘,软件为发展正循环的第一步硬件不是掣肘,软件阻碍机器人通用性的提升。2013年波士顿动力基于早期的PETMAN设计了面向灾难救援的Atlas人形机器人。经过多次迭代后,Atlas已经脱离了外接电源,通过电液混合驱动结合IMU、编码器、摄像头、激光雷达和力传感器实现了跳越、后空翻等高难度动作,在运动能力上远超近年来发布的人形机器人。但这些动作都源自提前创建的行为库。因此我们认为,硬件并不是机器人通用性的掣肘,软件限制了机器人应用场景的推广,阻碍了其通用性的提高。软件升级是实现人形机器人发展正循环的第一步。我们认为人形机器人的发展存在正循环,其包含三个阶段:1)软件升级后,机器人通用性提高,人形机器人实现初步商业化落地;2)规模化商用后,规模效应下,硬件成本降低,企业投入更多研发资金;3)更多的研发投入促进软硬件迭代升级,人形机器人性能提升后,将进一步打开应用空间。因此,我们认为,目前阶段软件升级迫在眉睫,机器人通用性提高后,实现商业化落地,才能真正实现形机器人发展的“正循环”。大脑vs小脑:大脑负责任务级交互,小脑负责低层级运控机器人控制软件可分为5个层级,任务级为最高层级。机器人控制框架一般采用层级控制(HierarchicalStructure)方法,根据《Robotics:Modelling,PlanningandControl》和2023年8月珞石机器人CTO韩峰涛在专栏文章中的描述,我们将机器人控制层级分为任务级、技能级、动作级、基元级和伺服级。任务级包括任务定义与描述、任务分解与动作拆分等;技能级负责将拆分后的动作转化为符号指令;动作级、基元级和伺服级属于传统工业机器人的范畴,包括控制、执行、反馈等环节。实现任级级交互可大大提高人形机器人通用性。以“去接一杯水”为例,实现这一动作需要在不同层级上实现不同的任务。任务级:1)任务定义与描述:去接一杯水;2)任务分解与动作拆分:把从拿杯子、打开水龙头到接水的过程拆分为一个个的细小动作;技能级:3)生成符号指令:将一系列动作用计算机编程语言表示;动作级/基元级/伺服级:4)控制-执行-反馈:根据符号指令完成一系列动作。在传统机器人中,前三步由机器人工程师完成,只有第四步是机器人自主完成,实现任务级交互后,前三步可由机器人自主完成,用户只需要发送任务指令即可,用户主体从工程师变为普通用户。同时,传统机器人需要根据不同场景进行特定编程,实现任务级交互后,人形机器人可以在开放式场景中自主完成各类任务。类比人体结构,“大脑”是实现机器人任务级交互的主力军。在人体结构中,大脑主要负责抽象思维和感知协调,与机器人任务级交互的功能相似;小脑和脑干主要负责维持躯干平衡、控制姿态和步态,与动作级、基元级和伺服级的功能相似。以智元机器人为例,其EI-Brain可分为云端超脑、大脑、小脑、脑干,其中大脑负责完成任务级和技能级的调度,小脑负责指令级的调度,脑干负责伺服机的调度。大模型为人形机器人理想大脑,可提升人形机器人通用性大模型的能力与任务级交互的要求相匹配,为人形机器人理想“大脑”。以LLM大语言模型为例,其具备多个领域的基础知识、强大的内容生成能力、良好的上下文理解、自然语言连续对话能力和强大的小样本学习能力,可以与任务级交互中的任务描述、任务分解、运行代码生成和任务过程交互等要求相匹配。我们认为,大模型为人形机器人理想的“大脑”。大模型较传统AI模型有更强的泛化能力,可提高人形机器人通用性。在算法中,整个世界及规律犹如一座山脉,而小模型只是其中的一个小山包,无法看到小山包之外的东西。大模型提供了整个山脉的抽象信息,而不是具体的地理数据,这些抽象信息基于自然语言和符号进行训练,因此大模型可以解决边角场景、OOD泛化性问题。以往的AI模型多是特定领域的专用模型,拓展新场景应用需要再经过一边“数据收集-标注-训练-部署-应用”的流程,很难应用在周围环境频繁变化的场景下。而大模型的出现,让成本较高的垂直领域AI开发,变成了“训练大模型+特定任务微调”的形式,大幅提高了开发速度,可提高人形机器人在不同场景和任务下的执行成功率,从而提高人形机器人的通用性。大模型终需具备自主可靠决策+多模态感知+实时精准运控能力机器人大模型的最终目标是提升机器人在不同场景和任务下执行的成功率。人形机器人作为具身智能的理想载体,不仅需要在“任务层”上将一项具体的任务拆解为一项项具体的子任务,还需要切实地执行这些子任务,实现与物理世界的交互,因此机器人大模型的执行成功率是衡量机器人智能化程度的重要指标。为了提升执行成功率,大模型需要具备以下3+2种能力:对于限定的应用场景和任务,需要具备:1.自主可靠决策能力:大模型需要结合任务基础和物理基础,自主地将高层级的任务分解为可执行/可靠的子任务。任务基础提供了任务的目标和方向,包括大模型对高层级语言指令的理解,对完成该任务一般步骤的掌握,需要具备强大的语言理解能力和常识积累;物理基础用于判断完成子任务的可能性,包括大模型对外部环境的感知、对自身状态的监控和对物理规则的理解,需要具备强大的感知能力和物理理解能力。2.多模态感知能力:大模型需要具备丰富的外部感知(视觉、听觉、触觉等)和内部感知(力矩、IMU等),以便获取外部环境和自身状态等信息,并基于获取的信息,做出正确的决策。同时,感知的获取不是静态的,在运控的过程中,需要实时实地获取、理解和关联这些感知信息,才能更好的完成与环境的物理交互。3.实时精准运控能力:大模型需要以任务目标为导向,结合动态反馈的多模态感知信息,实时精准地完成运动控制。人形机器人运动控制需要具备实时性和精准性,两者共同决定人形机器人运动控制的效率和质量。实时性是指机器人接收到控制指令后,能够在极短时间内做出反应并完成动作,例如人形机器人在执行任务时,若遇到障碍物,需要及时做出规避动作;精准性是指机器人执行动作的精准度,包括位置精度、速度精度和力矩精度等,需要大模型具备较强的计算能力。面对多样复杂的应用场景和任务,需要具备:4.泛化能力:泛化是指模型在新的对象、背景和环境下的适应能力,例如机器人在一个环境中学会了如何开门,之后即使门的形状、大小和开门方式不同,也能够完成开门这一动作。大模型预训练的数据集是在限定场景中收集的,不可能包含现实世界中所有的应用场景,因此大模型需要具备泛化能力,来面对纷繁复杂的现实世界。5.涌现能力:涌现是指模型表现出机器人训练数据之外的任务执行能力,例如在RT-2中符号理解、推理和人类识别三类不在训练数据中的涌现任务,RT-2也能以较高的正确率完成。经过多种机器人多场景数据训练的RT-2-X涌现能力约为RT-2的3倍,可以完成的动作指令从绝对位置(存在于训练数据中)拓展至相对位置(训练数据中未出现)。目前进展:大模型不断迭代升级,拓宽能力圈我们按照大模型发布时间,依次对多个主流机器人大模型的能力进行拆解:1.SayCan:为实现自主可靠决策做出贡献,将LLMs引入到机器人决策中,可将高层级任务拆分为可执行的子任务;2.Gato:为实现多模态感知做出贡献,将多模态的信息token化,输入到transformer架构中;3.RT-1:为实现实时精准运控做出贡献,基于包含机器人轨迹数据的transformer架构,可以输出离散化的机器人动作token,同时收集了大量的机器人数据;4.PaLM-E:将自主可靠决策和多模态感知两种能力相结合,将多模态信息以类似语言序列的方式,输入到预先训练的LLMs中,得到VLM(视觉语言模型),输入端为多模态信息,输出端为文本决策;5.RoboCat:最重要的贡献是可以自主生成训练数据集,其将多模态模型Gato与机器人训练数据集相结合,可以实现自我学习;6.RT-2:有机结合5种能力,将token化后的机器人数据输入到VLM模型中,得到VLA(视觉-语言-动作模型),不仅实现了自主可靠决策、多模态感知和实时精准运控能力的结合,同时展现出泛化能力和涌现能力;7.RT-X:5种能力全面提升,在保留RT-1和RT-2原有架构的基础上,经过多种机器人多场景数据集的训练,各项能力均有提升。SayCan:为实现自主可靠决策做出贡献SayCan由基于LLMs的Say和判断可执行性的Can组成。2022年4月,谷歌机器人团队联合EverydayRobots开发出用于机器人决策的模型SayCan。该模型将机器人的决策过程拆分为两部分——Say和Can:1)Say主要由LLMs组成:负责理解高层级任务的含义,并且将高层级任务分解为子任务;2)Can由预训练得到的Affordance函数构成:结合机器人的自身状态和周围的环境,将Say给出的子任务和预先设定可完成的子任务进行比对,判断其是否可执行。虽然该模型可以执行子任务,但执行操作是事先编码设定的,主要贡献在于为人形机器人的决策提供思路,首先基于大语言模型的常识积累,提出解决任务的一般步骤,其次根据现实条件,判断子任务的可执行性,从而得出自主可靠的决策。Affordance函数可以淘汰不可执行的决策,提高自主可靠性。由于Say部分只是从语义层面对抽象指令进行分解,并未考虑现实基础,其分解出的子命令可能在现实中不可执行。在第一步中,尽管LLMs认为“拿取海绵”是正确的动作,但Affordance函数根据视觉信息认为这是不可能一步执行的,因此选择了“寻找海绵”。由此可见,SayCan大模型可以帮助机器人做出可靠决策。SayCan在真实厨房任务中规划成功率为81%。SayCan执行101个任务的结果如下:在模拟厨房的任务中,SayCan模型的规划成功率为84%,执行成功率为74%。真实厨房环境中,SayCan的规划成功率相比在模拟厨房中降低3pct至81%,执行成功率降低14pct至60%。此外,SayCan的规划成功率可以随着LLMs的改进而提高。Gato:为实现多模态感知做出贡献Gato将多模态信息token化后输入transformer架构。2022年5月,GoogleDeepMind推出多模态通用智能体Gato。该模型的基础架构是将文本、图像、关节力矩、按键等信息序列化为扁平的token序列,将其输入到统一的transformer框架中处理,可以完成600多个不同的任务,包含离散控制(雅达利、推箱子游戏)、连续控制(机器人控制、机械臂控制)、NLP领域的对话,CV领域的描述生成等。该模型的训练方式是纯监督学习,训练数据包括文本、图像、本体感知信息、关节力矩、按键等各类模态的离散或连续型的观测、动作数据,多样化的数据使得Gato具备在具体场景中解决复杂问题的能力。Gato在模拟任务中表现优异,参数越多性能越好。在604个模拟任务中,有450多个任务可以达到专家水平的50%。研究人员评估了3种不同参数的模型:79M模型、364M模型和1.18B模型(Gato),实验结果表明,在相等的token数下,模型的参数越多,模型性能越好。RT-1:为实现实时精准运控做出贡献RT-1将机器人轨迹数据输入transformer架构,可得到离散化动作token。其主体包括:1)卷积神经网络(EfficientNet):通过ImageNet预训练得到,用于处理图像和文本,以提取与任务相关的视觉特征,但其参数较少,严格意义上不属于大模型范畴;2)token学习器:计算出嵌入transformer中信息的token;3)transformer:处理输入的token,并预测离散化的机器人动作token。动作包括用于臂(arm)移动的七个维度(x、y、z、滚动、俯仰、偏航、夹具的打开)、用于基座(base)移动的三个维度(x、y、偏航),以及用于在三种模式(控制手臂、基座或终止)之间切换的额外离散维度(mode)。RT-1以3Hz速度执行闭环控制并和命令动作,直到产生终止动作或耗尽预设时间步长。RT-1的重要贡献之一是收集了大量的机器人真实数据。Google依靠自身强大的资金和科研实力,耗时17个月,在13台机器人上收集了13万条机器人数据,覆盖超过700个机器人相关任务。大量的机器人真实数据,使得RT-1在训练完成后具有良好的泛化能力。与其他基准模型相比,面对未见过的指令、不同干扰对象的数量、不同的背景和环境,装配了RT-1的机器人均能较好地适应。此外,通过将真实数据、模拟环境生成的数据和其他型号机器人生成的数据相整合,训练出的RT-1泛化能力进一步提升。PaLM-E:将自主可靠决策和多模态感知相结合PaLM-E将多模态大模型拓展至机器人领域,可生成决策文本。2023年3月,Google和柏林工业大学的研发团队推出通用多模态大模型PaLM-E。该模型融合了Google当时最新的大型语言模型PaLM和最先进的视觉模型ViT-22B,可以结合传统运控算法执行复杂的机器人任务。PaLM-E大模型的输入端是连续的、可感知的数据,包括视觉、连续状态估计值和文本等多模态信息。多模态信息以类似于语言序列的方式输入到语言模型PaLM中,使其可以理解这些连续数据,从而能够基于现实世界做出合理判断。PaLM-E是一个仅具有解码器的语言模型,可以自动地根据前缀或提示生成文本结果。PaLM-E拥有强大的正迁移能力和语言能力。研究人员发现,通过混合任务训练得到的PaLM-E大模型,在单一任务的表现优于单一任务训练得到的大模型,例如PALM-E经过包含三种抓取任务的数据集训练后,在单一抓取任务中的执行成功率或准确度高于经过单一抓取任务训练的模型。此外,PaLM-E中语言模型越大,在进行机器人任务训练中,保持的语言能力就越强,例如PaLM-E-562B基本保留了所有的语言能力。RoboCat:可以自主生成训练数据集,实现自我学习RoboCat将多模态模型Gato与机器人数据集相结合。2023年6月,GoogleDeepMind推出了RoboCat,一种可以自我改进、自我提升的用于机器人的AI智能体。研究人员将多模态模型Gato与包含各种机器人手臂图像和动作的训练数据集相结合,使得RoboCat具有在模拟环境与物理环境中处理语言、图像和动作等任务的能力。前文提到的RT-1和PaLM-E所使用的绝大部分机器人数据通过人工示范与人工遥控操作的方式收集而来,所消耗的时间和人工成本较高。RoboCat最大的创新点在于可以利用少量人工收集的真实机器人数据集,自主生成新的训练数据集。RoboCat针对每个新任务/机器人的训练周期包括五个阶段,过程中可自主生成训练集:1)通过人工控制机械臂,收集100-1000个新任务/机器人的演示过程;2)针对该新任务/机器人,创建一个专门的衍生智能体(Agent);3)衍生智能体(Agent)对该新任务/新机器人进行平均10000次练习,生成更多训练数据;4)将演示数据和自生成数据合并到RoboCat已有的训练数据集中;5)在新的训练数据集上训练得到新版本的RoboCat。RoboCat经过自我学习,执行成功率由36%提升到74%。面对一项新任务时,最初版本的RoboCat在经过500次演示训练后,执行成功率仅为36%;经过自我学习的训练周期后,执行成功率提升至74%。此外,根据论文显示,RoboCat在现实世界中的执行成功率要远高于传统基于视觉的模型。RT-2:VLA模型将5种能力有机结合RT-2将视觉语言模型和机器人动作相结合。2023年7月,GoogleDeepMind发布RT-2,并将其定位为新型的视觉语言动作(VLA)模型。RT-2将token化后的机器人数据输入到VLM中,实现闭环的机器人控制。该模型兼具视觉语言模型和机器人动作的优势:1)VLM经过海量互联网数据集的训练后,具备强大的语义推理和视觉解析能力;2)机器人动作数据的引入使模型能够理解机器人行动,从而根据当前状态预测机器人的下一步动作。基于原有的VLM模型PaLM-E和PaLI-X,RT-2具备良好的泛化能力和涌现能力。Google选择了原有的VLM模型PaLM-E和PaLI-X,在预训练的基础上进行联合微调,得到实例化的RT-2-PaLM-E和RT-2-PaLI-X。实例化后进行了超过6000次的机器人实验,结果显示RT-2具备:1)较强的泛化能力:面对训练数据中未出现的物体、背景和环境,RT-2系列模型能够以远超基准对比模型的成功率完成任务;2)较好的涌现能力:对于符号理解、推理和人类识别三类不存在于机器人训练数据中的涌现任务,RT-2系列模型也能以较高的正确率完成。RT-X:经过多个数据集训练后,5种能力全面提升RT-X在保持原有架构的基础上,经过多个数据集训练,得到RT-1-X和RT-2-X。2023年10月,GoogleDeepMind开放训练数据集OpenX-Embodiment,其包含超过100万条真实的机器人轨迹数据,涵盖22种机器人和527项技能(160266项任务)。多样化的数据集使得RT-X模型具备了在多种环境中处理各类任务的能力,机器人能够更灵活地适应不同的应用场景,例如仓库搬运、防爆救险、家庭护理等。RT-1-X在特定任务上的平均性能较RT-1和原始模型提高50%。虽然RT-1-X与RT-1的网络架构相同,但因为RT-1-X采用了多样化的数据集进行训练,RT-1-X模型在特定任务上(如开门)的平均性能比RT-1和原始模型提升50%。RT-2-X涌现能力约为RT-2模型的3倍,泛化能力约为原始模型的3倍。1)涌现是指模型表现出训练数据集之外的执行能力。RT-2-X涌现能力约为RT-2的3倍,动作指令从传统的绝对位置拓展至相对位置。例如,之前机器人只能理解将苹果放在桌子的右上角的绝对位置指令,如今可以理解将苹果放在可乐和杯子中间的相对位置指令。2)泛化是指模型在新场景下的适应能力。RT-2-X的泛化能力约为原始模型的3倍,从27.3%提高至75.8%。此外,更高的模型容量和多种机器人
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安东集团海纳面试题及答案
- 过渡环节策略培训
- 2025年中国女士紧身裤行业市场全景分析及前景机遇研判报告
- 2025年中国男士豪华手表行业市场全景分析及前景机遇研判报告
- 2025年中国耐损鞋行业市场全景分析及前景机遇研判报告
- 采样领域廉洁教育体系建设
- 肿瘤护理述职报告
- 心力衰竭内科诊疗体系
- 从接受美学的角度解析文学翻译中译者的能动作用
- 肿瘤中级实践能力区别
- 安徽省教师资格认定体检表
- 国开《毛泽东思想和中国特色社会主义理论体系概论》专题1-8试题及答案
- UPS跳切试验报告
- 共享直播创业方案
- Spark大数据技术与应用教学大纲
- 篮球场、羽毛球场项目施工方案
- HTRI培训教程41课件
- JJG 97-2001测角仪
- GB/T 4743-2009纺织品卷装纱绞纱法线密度的测定
- GB/T 18971-2003旅游规划通则
- GB/T 14513.1-2017气动使用可压缩流体元件的流量特性测定第1部分:稳态流动的一般规则和试验方法
评论
0/150
提交评论