人形机器人报告(一):大模型视角下人形机器人的现在和未来_第1页
人形机器人报告(一):大模型视角下人形机器人的现在和未来_第2页
人形机器人报告(一):大模型视角下人形机器人的现在和未来_第3页
人形机器人报告(一):大模型视角下人形机器人的现在和未来_第4页
人形机器人报告(一):大模型视角下人形机器人的现在和未来_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内容目录人形机器人的核心价值来自通用性 4大模型加速人形机器人产业化落地 6技术和成本限制人形机器人的产业化 6LLM:人工智能迈出走向AGI的重要一步 9人形机器人:机器人领域的Agent 15人形机器人的落地需要具体场景 22未来推演:自动驾驶发展历程给人形机器人的启示 25自动驾驶在港口、矿山已经取得进展 25大数据大模型驱动的方案成为趋势 27端到端的大模型或是终极方案 29风险提示 31图表目录图表1:工业机器人市场规模 4图表2:工业机器人在不同行业、不同场景的应用成熟度 4图表3:汽车总装线依然大量依赖人工 5图表4:谷歌everydayrobot(左)、波士顿动力Spot(中)和特斯拉Optimus(右) 6图表5:2022年比亚迪员工人数 6图表机器人的前身 7图表机器人可以完成倒水任务 8图表机器人可以做出各种手势 8图表9:波士顿动力推出的代表性产品 8图表10:AI发展的三次浪潮 10图表生成式发展历程 10图表12:公元前9000年至今的通用目的技术(GPT) 图表13:AIAgent通过与真实世界交互,构建了完整的“感知-认知-执行”的信息闭环 12图表14:复旦大学团队提出Agent框架包括控制、感知、行动三个模块 13图表15:Open认为Agent是用LLM(大脑)+记忆+规划+工具使用 13图表16:人类与协同的三种模式 14图表17:LLM-basedagents主要研究方向 14图表18:斯坦福构建的虚拟小镇,里面有25个Agents生活 15图表19:传统机器人的两大挑战 15图表20:单纯的大预言模型会给出不合情景的回答 16图表21:SayCan模型结合输出结果的相关性和可执行性,综合做出最佳选择 16图表22:研究人员让Saycan模型执行的101个任务 17图表23:Saycan模型在各模型下的执行成功率 17图表24:把chatGPT引入机器人改变了过去人机交互的逻辑 17图表25:RT-1模型结构 18图表26:RT-1模型的执行成功率要高于其他模型 18图表27:Palm-E是一个多模态语言具身模型 19图表28:搭载GooglePaLM-E模型的机器人从抽屉里拿出薯片 19图表29:机器人控制算法一般是双层结构 20图表30:使用强化学习做机器人运动控制 20图表31:RT-2在大模型的基础上用机器人数据微调,然后输出机器人动作 20图表32:RT-2模型在理解、推理方面的能力要显著优于模型 21图表33:RT-2模型在未知场景的表现明显优于模型 21图表34:google在机器人大模型领域研究进展 21图表35:特斯拉在2022年4月迈出第一步 22图表36:2023年9月特斯拉发布的视频中进行瑜伽和物品分拣 22图表37:2023年月-gen2可以完成深蹲动作 22图表38:2023年月-gen2搭配触觉传感器拿起鸡蛋 22图表39:人形机器人潜在落地场景 23图表40:小米科技人形机器人的1+N+X战略 24图表41:优必选walker机器人的六大应用场景 24图表42:digit机器人在工厂搬运 25图表43:digit机器人收到命令后的思考过程 25图表44:踏歌智行的国家能源胜利一号露天煤矿项目 26图表45:踏歌智行基于车、地、云协同的“旷谷”解决方案 26图表46:踏歌智行的车载硬件方案 26图表47:华为在天津港实现L4级自动驾驶 27图表48:自动驾驶进入3.0时代 28图表49:自动驾驶的数据闭环 28图表50:使用英伟达EmerNeRF进行仿真 29图表51:关于自动驾驶端到端方案的论文数量明显增加 29图表52:端到端方案与传统方案的对比 30图表53:特斯拉基于占用网络的感知 30图表54:特斯拉基于车道线和物体算法(lane&object)的感知 30人形机器人的核心价值来自通用性如何增强机器人的泛用性是行业一直致力解决的问题。传统的工业机器人并不能直接使用,需要被系统集成商集成后使用。机器人的系统集成需要对客户工艺的深刻理解,是高度定制2022年工亿,并不是一个非常大的市场。图表1:工业机器人市场规模中国工业机器人市场规模70060050040030020010002019 2020 2021 2022资料来源:,IFR,五矿证券研究所3C、纺织、包装等行业,但在这些行业之中依然有大的总装环节95%汽车总装的时候需要工人进入车内空间操作,单个工人使用的10个,并非简单、单一的操作。图表2:工业机器人在不同行业、不同场景的应用成熟度资料来源:iresearch五矿证券研究所图表3:汽车总装线依然大量依赖人工资料来源:AI汽车制造业,五矿证券研究所小米集团高级副总裁曾学忠认为,在未来智能制造体系里面,自动化设备、人形机器人以及人将以7:2:1黄金法则来组成。未来70%的对制造质量和制造效率要求高的工作依靠自动化设备来完成;20%高复杂度、高柔性的场景需要人形机器人来完成;10%是工作还是要依靠人,因为最终数据与价值的管理还是要依靠人,人才可以定义价值。根据智研咨询,2022年中国自动化设备的市场规模达到2909亿元,全球自动化设备达到2308亿美元。以此推算,仅在工业制造领域,人形机器人未来潜在市场规模约660亿美元(全球市场)。人形机器人会带来整个自动化市场的扩张。我们希望机器人渗透到社会的方方面面帮助我们工作,但当前的工业机器人需要系统集成商去安装部署,所以很难渗透到非标准化的场景之中,这限制了整个行业的市场规模。我们认为,依赖人形机器人的泛用性,未来机器人可以从标准化工业场景进一步渗透到非标准化场景,也包括建筑、商业导览、医疗护理、教育培训、家庭服务等非工业领域。这将会给机器人行业带来远超之前的市场空间。“人形”只是表象,通用++机械臂上衍化而来。人形机器人的“小脑”运动控制算法,是在四足机器人的基础上发展而OptimusSpot这everyday这样的轮式机器人。图表4:谷歌everydayrobot(左)、波士顿动力Spot(中)和特斯拉Optimus(右)资料来源:机器人大讲堂、新智元、特斯拉,五矿证券研究所人形机器人潜在的市场规模是巨大的。比亚迪2022年年报披露,比亚迪共有员工57.01万人,其中生产工人44.21万人,占比78%。可见即使在高度自动化的汽车行业,依然有大量10%(4.4万人1:12088亿元市场规模。图表5:2022年比亚迪员工人数财务人员,行政人员,2527,0.4%25751,4.5% 销售人员,23690,4.2%

技术人员,76016,13.3%生产人员,442076,77.5%资料来源:wind,五矿证券研究所大模型加速人形机器人产业化落地以chatGPT为代表的新一代人工智能技术,让人形机器人的场景落地进度大大加快。LLM+AIAgent,是大模型落地的重要场景之一。基于“常识”的语义理解,2)复杂任务的分解。赋予人形机器人更好的人机交互能力、规划决策能力,解决了传技术和成本限制人形机器人的产业化早在年,日本早稻田大学就制造出了世界上第一台人形机器人WABOT-1。WABOT-1WABOT-14510年,WABOT-2具有与日本人进行自然对话的能力,还能用眼睛看乐谱,用手脚灵活地演奏电子琴,具有演奏中级难度音乐的能力。此外,它还可以识别歌声,自动进行转录。尽管人形机器人早已出现,但商业化落地始终没有成功。本田、波士顿动力曾尝试过人形机器人的商业化,均已失败告终。本田的ASIMO机器人本田的ASIMO(中文名:阿西莫)机器人,是全球最早实现双足行走能力的机器人。“ASIMO200010311986年。年,本田制造的第一台机器人被称为E0。E0只有“下半身”而且走得很慢,有时20秒才能完成一个步骤,所以也被称为静态步行。年,本田推出E1,可以执行“动态步行”,更加类似人的步伐。年,本田陆续推出了E4\E5\E6。此时机器人已经可以轻松在斜坡、楼梯、崎岖不平的路面行走。年,本田推出P1/P2/P3机器人,看起来更具“人形”,可以抓住物品、推动小车、在外力作用下保持平衡。ASIMO2006年、年推出了第二代、第三代ASIMOASIMO579km/h的行走速度,可以上下楼梯、开瓶、倒水,还可以对周围人群或动物的位置、动作和行动路线进行预估判断。图表6:ASIMO机器人的前身资料来源:VTEC范儿,五矿证券研究所2011年福岛核电站事故发生后,民众希望把ASIMO派到核电站进行灾后救援工作,但本田表示“现在还没有达的高达300-400万美金的造价也决定了ASIMO很难商业化落地。628ASIMO的研发,以专注于该技术的更多实际应用。图表机器人可以完成倒水务 图表机器人可以做出各种势 资料来源:VTEC范儿,五矿证券研究所 资料来源:机器人大讲堂,五矿证券研究所波士顿动力TheLaboratory(Marc2005年,波士顿动力和美国国防高等研究计划局合作的四足机器人Big和用于逼真人体模拟的DI-guyLS3、cheetah、Atlas、Spot等。图表9:波士顿动力推出的代表性产品产品 图片 产品介绍产品 图片 产品介绍BigDog(2005)LS3(2012)Cheetah(2012)

135采用15450等。1.7509的负载。dog122448/SpotSpot(2015)0.947545公斤的有效12petmanpetman(2009)Petman的设立目的是为美军测试防护服性能,是波士顿的动力的首个双足机器人,需要拖着电缆在履带上晃晃悠悠地行走Atlas(2013)波士顿动力最著名的机器人,以年第三代28感知到的数据规划,完成一些列跑酷动作资料来源:新智元、古月居、百度百科、澎湃、搜狐、钢铁侠科技,五矿证券研究所应用场景,波士顿动力的机器人很价格,由于以军用为目标进行研发更看重性能要求,波士顿动力的机器人采用了高成本的液压驱动的系统。液压驱动系统的优点是明显的——抗负载刚性大、驱动力大,但功耗高、自重更重,也很难降本。波士顿动年推出了首款商用机械狗745万年spot400台。201330亿美元被googleX20178880%30亿美元下降到亿美元。LLM:人工智能迈出走向AGI的重要一步基于对于智能的不同理解,人工智能产生了不同的流派。符号主义:符号主义认为智能是基于逻辑规则的符号操作,人的认知活动是符号计算的过程。智能的核心就是根据某套规则做出理性决策。1956~1986年,符号主义经历了从一枝独秀到逐渐衰落的过程,对应人工智能发展的第一次浪潮。当时AI的主要成就是用机器证明的办法证明和推理一些知识,能够解开拼图或实现简单的游戏。但当时的人工智能却几乎无法解决任何实用的问题。联结主义:联结主义也被称为仿生学派,认为智能是脑神经元构成的信息处理系统。他们认为大脑是由神经元构成的神经网络联结而成,而人类智能的实现过程就是通过神经网络中神70(1976-2006)和第三次人工智能浪潮(2006至今)。两者的划分点在于深度学习算法:随着硬件瓶颈的突破、模型的进步,深度学习算法取得突破并在第三次浪潮中被广泛运用。行为主义:行为主义也被称之为进化主义,认为智能是通过感知外界环境做出相应的行为。符号主义和联结主义并未真正解决智能体与真实物理世界交互的难题,在可解释性、鲁棒性方面也面临很大挑战。莫拉维克悖论(要让电脑如成人般地下棋是相对容易的,但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的)就体现了很多学者的担忧。布鲁克斯从控制论角度出发,强调智能是具身化和情境化的,智能体必须拥有“身体”并通过与真实世界的交互来发育或进化出智能。行为主义希望能够通过模拟生物的进化机制,使机器获得自适应能力。2AlphaGoAI;另一个是以chatGPT为代表的生成式AI。图表10:AI发展的三次浪潮资料来源:腾讯STAC科创联合大会,五矿证券研究所AI2060Eliza2014年生成对抗网络GAN(Generative随着Auto-Encoder)、扩散模型等新训练方法的提出和应用,生成式AI迎来了高速发展。图表11:生成式AI发展历程资料来源:2023年全球生成式AI产业研究报告,五矿证券研究所生成式AI领域最大的突破还是来自于大语言模型(Largemodels,LLM)。2017年提出transformer202211openAI上线了chatGPT202311亿,成为历史上增长最快的应用。3AI推出chatGPT35的基础上进一步拥有多模态能力,可以接受图像输入并理解图像内容。GPT惊人的展现出了创造力,因而有观点认为GPT正在逐渐演化为一种“通用人工智能”(ArtificialGeneralIntelligence,AGI),尽管这种观点并未达成一致。中科院院士张钹认为,“chatGPT向通用人工智能迈出了一步”。微软也在《人工通用智能的星星之火:GPT-4的早期实验》一文指出,“GPT-4能力的通用性,与跨越广泛领域的众多能力相结合,以及它在广泛的任务范围上达到或超越人类水平的表现,使我们可以轻松地说,GPT-4是迈向AGI的重要一步”。GPT之前,研究的主阵地是专用或者功能性先在下棋、计算、图像识别、语音识别等专业细分领域入手,在专业领域有足够积累之后逐步演化为通用智能,是以往人工智能发展的主流路径。大模型打开了一条“先通后专”的人工智能发展路径。AI先具备庞大的先验知识库和通识理解能力,在此基础上我们再给AI赋予专业能力,会让很多原来不可能的任务变得简单。比如,让机器人把桌上垃圾扔到垃圾桶里,不再需要告诉它垃圾是什么、垃圾桶是什么,这些都在预训练的大模型里。具备通识理解能力的大模型,将作为一项通用目的技术赋能各行各业,成为经济增长的重要引擎。现代经济增长理论有“通用目的技术”(GeneralPurposeT)的概Purpose。通用目的技Bresnahan普遍适用性;进步性,通过创新孕育性,通用目的技术的创新会促进相关应用技术的创新。Lipsey等人在《Economictransformations:generalpurposetechnologieslong-termeconomic》中曾对历史上的通用目的技术进行900024种技术可以称为通用目的技术。陈永伟则在《作为GPT的GPT:通用目的技术视角下新一代人工智能的机遇与挑战》一文指出,生成式AI也应当可以被认为是通用目的技术。图表12:公元前9000年至今的通用目的技术(GPT)编号技术时间分类1分类21动物驯化公元前9000-8000年流程型技术材料技术2动物驯养公元前8500-7500年流程型技术材料技术、能源技术、交通技术3矿石冶炼公元前8000-7000年流程型技术材料技术4轮子公元前4000-3000年产品型技术工具、交通技术5写作公元前3400-3200年流程型技术信息和通讯技术6青铜公元前2800年产品型技术材料技术7钢铁公元前1200年产品型技术材料技术8水车中世纪早期产品型技术能源技术9三桅帆船15世纪产品型技术交通技术10印刷术16世纪流程型技术信息和通讯技术11蒸汽机18世纪晚期到19世纪早期产品型技术能源技术12工厂体系18世纪晚期到19世纪早期组织型技术组织技术13铁路19世纪中期产品型技术交通技术14铁轮船19世纪中期产品型技术交通技术15内燃机19世纪晚期产品型技术能源技术16电力19世纪晚期产品型技术能源技术17汽车20世纪产品型技术交通技术18飞机20世纪产品型技术交通技术19大规模生产20世纪组织型技术组织技术20计算机20世纪产品型技术信息和通讯技术21精益生产20世纪组织型技术组织技术22互联网20世纪产品型技术信息和通讯技术23生物技术20世纪流程型技术材料技术24纳米技术21世纪某个节点流程型技术材料技术资料来源:作为GPT的GPT:通用目的技术视角下新一代人工智能的机遇与挑战,五矿证券研究所AIAgent的落地方式逐步得到认可。AIAgent的核心意义在于补足了执行环节,强调大模型与真实世界的互动,从而构建了完整的信息闭环。完全基于互联网的文字、图片信息训练而来的GPT具有一定的通识能力和推理能力,展现出了智慧的火花。但这种智能是“纸上谈兵”,缺乏对现实世界复杂性和多样性的深刻。图文是一种抽象的、高度凝练的信息,在传递信息的时候也遗漏了很多信息,这从根本上决定了大模型存在一些难以避免的局限性。我们认为,大模型需要与真实世界产生互动,并通过“具身交互”构建多模态的“感知-认知-执行”的完整信息闭环。AI三大学派中的行为主义学派有类似的观点——行为主义学派认为,智能体必须拥有“身体”并通过与真实世界的交互来发育或进化出智能。图表13:AIAgent通过与真实世界交互,构建了完整的“感知-认知-执行”的信息闭环资料来源:五矿证券研究所目前对AIAgentTheRisePotentialofLargeeMlBsdAts:ASyAIAt(rin感知(perception)、行动(action)。OpenAILilianWengAIAgent的形容是:Agent=LLM+记忆+规划+工具使用。其中是核心大脑;记忆、规划、工具使用则Agents系统实现的三个关键组件。一般认为,AIAgent是具有自主性、反应性、积极性和社交能力特征的智能实体,本质是一个可以感知其环境、在给定目标下做出决策并采取行动的系统。图表14:复旦大学团队提出AIAgent框架包括控制、感知、行动三个模块资料来源:TheRiseandPotentialofLargeLanguageModelBasedAgents:ASurvey,五矿证券研究所图表15:OpenAI认为Agent是用LLM(大脑)+记忆+规划+工具使用资料来源:腾讯研究院,五矿证券研究所Agent更强调“执行”,会带来人与人工智能交互模式的巨大改变。AI至今与人(mbig(oilt(Aent嵌入模式。用户使用提示词来设定目标,然后AI协助用户完成这些目标,比如普通用户向生成式AI输入提示词创作小说;副驾驶(Copilot)模式。人类和AI更像是合作伙伴,共同参与到工作流程中,各自发挥作用。模式。人类设定目标和提供必要的资源,然后AI独立地承担大部分工作,最后人类监督进程以及评估最终结果。图表16:人类与AI协同的三种模式资料来源:腾讯研究院,五矿证券研究所Emig模式和iltAI只是起到提升效率的作用。AI的智能水平尚未达到完美,使用Agent的交互模式更为高效,将会更大程度的使人类从重复复杂的劳动中释放,带来更好的使用体验。面壁智能认为,大模型想要落地到具体场景,AIAgent是重要路径,它代表的是比“裸”模型更拟人的使用体验;未来万物都会是Agent,比如电饭锅可以是Agent,放入食材后,我们跟它说要熬粥,它就会根据熬粥的逻辑,去设定相应的加热方式。目前学术界针对LLM-basedagents的研究主要集中在社会科学、自然科技、机械工程三个领域。其中在计算机科学和软件工程、机器人和具身智能方面的研究成果相对较多。图表17:LLM-basedagents主要研究方向LLM-basedagentsLLM-basedagents社会科学领域自然科学领域机械工程领域心理学政治经济学社会模拟 法学 研究助理文件数据管理实验助手自然科学教育土木工程计算机科学和软件工程工业自动 机器人化 具身智能资料来源:ASurveyonLargeLanguageModelbasedAutonomousAgents,五矿证券研究所我们认为,AIAgent的重要一步risepotentialofBasedAgentsAAGI语言模型已经来到了第二级。依靠LLM-basedAgents感知和行动,人工智能将达到第三、第四级。进一步通过多个Agent互动,则有潜力来到第五级——代理社会。Smallville的虚拟小镇,25个AIAgents至举办情人节派对,每个agent都有独特的个性和背景故事。图表18:斯坦福构建的虚拟小镇,里面有25个AIAgents生活资料来源:机器之心,五矿证券研究所人形机器人:机器人领域的AIAgent我们把人形机器人理解为大模型在机器人领域的一种AIAgent。通过大模型,机器人具备了自然语言和视觉/触觉的多模态交互能力、适应多场景的泛化能力,这是之前的机器人所做不到的。图表19:传统机器人的两大挑战资料来源:CornellUniversity,五矿证券研究所在LLM模型出现后,学术界进行了大量研究,把LLM的语义理解能力和推理生成能力引入到机器人,让LLM来充当机器人的“大脑”。在引入LLM的过程中,首先遇到的问题是:最初的LLM是一个语言模型,并不是以物理世界为基础的。这使得LLM会给出一些正确的,但和当时的情景格格不入、毫无用处的输出。图表20:单纯的大预言模型会给出不合情景的回答资料来源:DoAsICan,NotAsISay:GroundingLanguageinRoboticAffordances,五矿证券研究所2le提出的SyanSyCnLM和valuecti。Mfunction还会对(affordance)SayCan模型综合两个打分,给出最合适的结果。图表21:SayCan模型结合LLM输出结果的相关性和可执行性,综合做出最佳选择资料来源:DoAsICan,NotAsISay:GroundingLanguageinRoboticAffordances,五矿证券研究所研究人员以Palm和FLAN2个SayCanSayCan个任务,结果显示两个模型都取得了较好的成果。在模拟环境下Palm-SayCan84%,FLAN-SayCanPalm-SayCan的74%,FLAN-SayCan61%。图表22:研究人员让模执行的101个任务 图表23:Saycan型在各型下执行功率资料来源:DoAsICan,NotAsISayGroundingLanguageinRoboticAffordances,五矿证券研究所

资料来源:DoAsICan,NotAsISayGroundingLanguageinRoboticAffordances,五矿证券研究所2ChatGPTRoboticsDesignPrinciplesAbilities。文模型的输出内容是文字,不能操作机器人的动作,因此微软提出了使用API调用的方法:事先定义好API的输出文本(prompt)API接口,最终实现通过自然语言控制机器人。微软指出,在这个过程中,API的名字定义至关重要。好的API命名可以让选择正确的API接口。文章中,研究人员要求ChatGPT编写一种算法,让无人机能够在不撞上障碍物的情况下到达空中的目标位置。ChatGPT立即理解了研究人员的任务,并编码了算法的大部分关键构建块。一个好的输出文本(prompt)是大语言模型能否成果的关键。但prompt工程复杂且耗时,Robotics研究工具PromptCraftprompt和对话例子。图表24:把chatGPT引入机器人改变了过去人机交互的逻辑资料来源:ChatGPTforRobotics:DesignPrinciplesandModelAbilities,五矿证券研究所12模型。RTRobotics。谷歌通过RT-1第一次证明了,通过庞大的、多样化的、任务无关的数据,机器人也可以展现出泛化性,执行一些未曾见过的任务。131713万个片段的也强调,因为收集真实世界机器人数据非常困难,因此模型的泛化和微调能力非常关键。RT-1是一个基于机器人数据的端到端模型,输入端是一小段图像序列和用文本描述的任务,输出端是动作指令,包括7个维度的手臂动作指令(armmovement)、3个维度的基础移动指令(basemovement)和1个维度的状态切换指令(modes)。FilM网络进行预处理;tokenlearner计算出一组token;3)使用transformer模型计算token。图表25:RT-1模型结构资料来源:RT-1:RoboticsTransformerforReal-WorldControlatScale,五矿证券研究所研究人员让机器人执行了超过700项任务,结果显示:在之前见过的场景、之前未见过的场景、被干扰场景、背景更换场景,搭载RT-1模型的机器人都展现出了更高的成功率。图表26:RT-1模型的执行成功率要高于其他模型资料来源:RT-1:RoboticsTransformerforReal-WorldControlatScale,五矿证券研究所3月,Google发布了视觉语言模型PaLM-EPaLM-E的名称来自于google之前发布的PaLM预训练算法,和机器人的身体E(embodied)。谷歌和柏林工业大学称,aLM-E(Vision-Language,可以在不需要再训练的情况下执行各种任务。通过语言模型与视觉模型相结合,PaLM-E5620亿。PaLM-E的创新之处在于:PaLM-E首次把具身信息(包括自然语言、视频、传感器状态等非文字信息)非文字信息token化,统一输入到模型之中。图表27:Palm-E是一个多模态语言具身模型资料来源:PaLM-E:AnEmbodiedMultimodalLanguageModel,五矿证券研究所PaLM-E展示了long-horizon场景1下的能力。当研究人员要求机器人“把抽屉里的薯片拿过来”,PaLM-E可以为一个有“手臂”的移动机器人平台生成行动计划,并自行执行任务。图表28:搭载GooglePaLM-E模型的机器人从抽屉里拿出薯片资料来源:PaLM-E:AnEmbodiedMultimodalLanguageModel,五矿证券研究所PaLM-E和微软使用大模型充当的是机器人的“大脑”,而没有介入“小脑”也就是底层的控制算法。微软、PaLM-E模型最后输出的都是文字,并通过文字调用API来实现最终的控制。最底层的控制算法依然是传统的控制方法。目前主流的足式机器人控制方法是双层结构。最常见的方案是基于模型预测控制(ModelPredictive,MPC)的上层轨迹规划和基于动力学模型的下层全身关节力控(Whole-BodyWBC)。这种方法的典型代表是MIT的minicheetah。但MPC+WBC的方法需要复杂的建模和繁琐的人工调参,生成的动作在自然度和灵活性上也有所欠缺。也有一些研究使用了强化学习(Reinforcement的方法,好处是没有模型的限制,对复杂环境适应力更强。为了满足强化学习所需要的庞大数据,一般会把机器人放在仿真环境训练,之后再迁移到真实世界的机器人。由于仿真环境无法100%模拟真实世界,因此会有sim-to-real的问题。1Long-horizon场景:指需要结合环境进行多次预测以完成任务的复杂场景图表29:机器人控制算一般双层构 图表30:使用强化学习机器运动制 资料来源:小米技术,五矿证券研究所 资料来源:姚期智:机器人迈向具身通用人工智能,五矿证券研究所7月,Google模型。是一个视觉-语言动作(VLA)RT2通过海量的互联网数据对视觉语言模型进行预训练,然后再用少量的机器人的数据进行微调,并使模型直接可以输出机器人的动作。RT-255B(RT-1)。图表31:RT-2在大模型的基础上用机器人数据微调,然后输出机器人动作资料来源:RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControl,五矿证券研究所研究人员对RT-2模型进行了和RT-1一样的测试。结果显示,RT-2的理解能力、推理能力、针对未知场景的泛化能力都显著优于RT-1模型。图表32:RT-2模型在理解、推理方面的能力要显著优于RT-1模型资料来源:RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControl,五矿证券研究所RT-2在未见过的场景下,表现明显要比RT-1好,说明RT-2拥有更好的泛化性。图表33:RT-2模型在未知场景的表现明显优于RT-1模型资料来源:RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControl,五矿证券研究所图表34:google在机器人大模型领域研究进展使使的输出内容更合理泛化性2022.12RT-12023.7RT-2

2023.3Palm-E562B参数参数有泛化性

55B参数VLA模型,直接作资料来源:google,五矿证券研究所特斯拉将FSD技术复用到人形机器人,率先开启产业化。马斯克表示特斯拉已经打通了FSD和optimus的底层模块,实现了一定程度的算法复用。Optimus的神经网络是端到端的:输入视频,输出动作。尽管当下时点来看,人形机器人的能力仍有不足,但已经显示出了非常快的进化速度,这背年以来人工智能技术的突飞猛进。还是以特斯拉为例,20224月,optimus迈20239月的最新视频,optimus可以做到:1)基于纯视觉和编码器定位四肢;2)根据颜色分类物块;3)较为流畅的行走并做一些简单的瑜伽动作。12optimus-gen2视频,机器人的行动流畅度大幅度提升,搭配手部的触觉传感器可以用双指拿起鸡蛋。图表35:特斯拉在年4月出第步 图表36:2023年9月斯拉布的频中进行伽和品分拣资料来源:特斯拉AIday2022,五矿证券研究所 资料来源:特斯拉,五矿证券研究所图表37:2023年12月以完深蹲作 图表38:2023年12月配触传感拿起蛋资料来源:特斯拉AIday2022,五矿证券研究所 资料来源:特斯拉,五矿证券研究所人形机器人的落地需要具体场景机器人引入大模型后拥有了“常识”,并带来了一定的泛化能力,解决了自然语言理解和任务规划的两大难题。但这种解决方案仍然有很多不足:OpenAI在2021年解散了旗下的机器人团队,核心原因就是难以获取数据。由于互联网的发达,我们有丰富的文字、图像信息可供大模型训练,但可用于机器人训练的数据十分宝贵。Google的机器人数据是历时超过17个月在13个机器人上收集而来,成本高昂。虽然模型数据量的增加可以显著提升模型的泛用性和效果,但这样的数据采集效率明显无法支撑大模型的需1但是仿真软件毕竟无法完全模仿现实世界,在仿真世界训练的算法平移到现实世界后,模采用类似RT-2的方法,基于互联网的文字、图片数据训练获得场景。现阶段大多数论文都局限于桌面操作。虽然桌面上有很多难题,但当机器人移动时,情况通常会变得更加复杂安全性。大模型内部是一个黑箱,无法保证安全性,但机器人要在真实环境运行,可能造成的潜在伤害更大。模型过大,训练成本过高。成功率。真实世界的应用场景中,一般需要99%以上的准确性和可靠性。然而目前学术文章中大多数结果的最高成功率在80%左右。而要进一步提升成功率,难度会指数级增加。500Hz的水平,而目前谷歌研发人形机器人的商业化离不开具体的场景。基于大模型在当前时点的不足,我们认为想要制作出像真正人类一样,可以胜任多场景下复杂任务的机器人,是非常遥远的。但是,基于特定场景下的、具有一定程度泛用性的人形机器人则有很大概率落地。人体具有多个自由度来适应真实世界的各种环境。受限于技术,现阶段人形机器人最多也就几十个自由度,我们需要根据具体的使用场景简化机器人的设计、控制复杂度,降低对机器人泛用性的要求,使人形机器人更快落地。的发展进入正向循环,是必经之路。基于场景的人形机器人商业化思路得到政策认可。工信部在《人形机器人创新发展指导意见》中,明确提出把特种环境、制造业、民生作为人形机器人落地的三个重点方向。特种环境,主要是指恶劣条件、危险场景,包括要地警戒守卫、民爆、救援等。这些场景对人形机器人复杂地形行走的鲁棒性、态势感、决策能力、高精度操作能力提出挑战。制造业典型场景,主要是面向3C和汽车领域,包括装配、检测、转运、维护等工序,支撑制造业的柔性制造需求。民生领域,以医疗、家政、农业、物流为重点,重点在于提升人形机器人的交互可靠性和安全性。特种环境制造业民生要地警戒守卫特种环境制造业民生要地警戒守卫民爆救援3C/汽车装配、转运、检测、维护柔性制造医疗家政农业物流资料来源:人形机器人创新发展指导意见,五矿证券研究所企业主动明确应用场景,对接下游需求。小米为机器人规划的发展路径是从单点到多点,最终发展成为生态。短期小米的人形机器人扎根某一个具体场景,以完成1-2个工种为目标。中期人形机器人将融入小米制造的多个场景规模化应用。这个过程小米会搭建泛化平台,积累数据、迭代模型。长期小米的人形机器人将会扩展更多场景。图表40:小米科技人形机器人的1+N+X战略资料来源:小米集团,五矿证券研究所walker6大应用场景:展馆展厅、影视综艺、科研高校、家庭服务、仓储物流、办公场景。41walker资料来源:优必选,五矿证券研究所10DigitDigit1.756516公斤的物体。Digit具备自Digit机器人的引入,则的身形非常适合在仓库移动3年2iit机器人搭载了Miit发出命令之后,Digit可以自主思考,拆解任务并完成。图表42:机器人在工厂搬运 图表机器人收到命令的思过程资料来源:X科技馆,五矿证券研究所 资料来源:机器之能,矿证券研究所未来推演:自动驾驶发展历程给人形机器人的启示自动驾驶汽车和人形机器人作为具身智能的两大形式,在很多地方都有相通之处。何小鹏认为,自动驾驶本质上是机器人科学,智能汽车公司最终也会和机器人公司在技术、产品、生态等等方面融合。参考自动驾驶的发展历程,我们认为人形机器人的发展也会有3个趋势:结合具体的落地场景可以简化机器人结构,规避技术难题,加快人形机器人落地;随着人形机器人对大数据、大模型的要求越来越高,数据闭环能力越来越关键;当前阶段区分规划算法、控制算法的多模块的方案将会更容易落地,但连接LLM和控制算法的Prompt自动驾驶在港口、矿山已经取得进展自动驾驶的发展,也是从特定场景开始落地。在矿山、港口等特定场景,自动驾驶已经取得了亮眼的进展。矿山自动驾驶矿山环境不存在交通法规问题,且车辆路线相对固定,车速大多在40km/h以下,非常适合开展自动驾驶。此外,矿区生产运输车辆大、盲区多,夜晚作业疲劳驾驶,如何杜绝安全事故一直是生产企业关注的重点。90年代,2014年伴随着无人驾驶发展才逐渐成熟。矿山无人驾驶车辆落地过程一般分为三个阶段:工程师跟车作业阶段、安全员随车阶段及无安全员运行阶段。踏歌智行在年完成了无人驾驶矿卡和宽体车的应用,开始落地“安全员下车”。24L4级别自动驾驶商业化落地的难得亮点。图表44:踏歌智行的国家能源胜利一号露天煤矿项目资料来源:踏歌智行,五矿证券研究所目前从事矿山无人驾驶业务的主要企业包括踏歌智行、慧拓智能、易控智驾、伯镭科技等。据工信部赛迪顾问数据统计,截至2022年6月,踏歌智行在矿区无人驾驶领域市占率为45.1%,位居行业首位。GlobalData公布的2023年第一季度全球矿业新锐公司排名中,踏歌智行位列中国第一、全球第六,也是榜单中唯一的矿区无人驾驶科创公司。图表45:踏歌智行基于、地云协的“谷”决方案 图表46:踏歌智行的车硬件案资料来源:踏歌智行,五矿证券研究所 资料来源:踏歌智行,五矿证券研究所港口自动驾驶港口自动驾驶因为半封闭及标准化程度高等特点而被视为最有潜力落地自动驾驶的场景之一。中国港口自动驾驶自2020年开始在政策推动下加速,发展至今呈现“百家争鸣、百花齐放”的发展态势。截至2023年3月底,全国各港口和内陆口岸开展自动驾驶测试或运营的场景已近40家,其中,无人驾驶集卡已超过250台,平板式自动导引车近320台。港口自动驾驶的代表项目是华为参与的天津港第二集装箱码头。华为从2020年开始参与天津港第二集装箱码头的设计规划实施和运营,目前已经实现了港口L4级别自动驾驶。通过IGV(Intelligent高效协同作业实现全局效率最优。通过北斗+5G+90%0.1%。图表47:华为在天津港实现L4级自动驾驶资料来源:华为,五矿证券研究所类比自动驾驶,我们认为人形机器人的落地场景需要有以下特点:1)强需求,在恶劣环境条件下的作业、高危作业、重复性高强度作业对人形机器人有较高的需求;2)场景适度复杂,简单空旷场景工业机器人可以胜任,过于复杂多变的环境则对技术的挑战太大。综合以上两点,我们认为在民爆、救援、制造

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论