版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
%%%%目
录01
什么是具身智能?02
本轮大模型进步对具身智能影响03
巨头的布局和行动04
投资关注点%%3%%%%%具身智能技术演进逻辑大模型高泛化性思维链能力需要应对从未见过的场景需要拆解复杂任务以及根据环境变化调整动作具身智能机器人相关厂商:特斯拉Optimus、宇树智能、云深处、优必选等相关厂商:达闼、优必选等服务场景机器人劳动场景机器人短期方案:LLM+感知算法+决策控制算法短期方案:感知算法+复杂决策控制算法改良方案:微软ChatGPTforRobotics中期方案:多模态大模型+控制算法当前已有项目:谷歌PaLM-E当前已有项目:远期方案:VLA大模型谷歌RT-2资料:长江证券研究所。4%%%%01什么是具身智能?%%5%%%%%01
具身智能有哪些特点?
具身智能机器人需要以第一人称的身份融入周边环境具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。第三人称只能做到旁观式学习,而第一人称可以主动与现实世界互动,通过物理形态的互动中汲取新知识。第一人称与第三人称交互方式第一人称与第三人称智能资料:机器之心,长江证券研究所。6%%%%01
具身智能需要高泛化性
具身智能机器人需要与复杂世界进行互动,因此决策控制系统需要高泛化性当前机器人的感知、决策、控制系统由大量传统算法组合而成,如SLAM算法、路径规划算法等;而传统算法模型即使经历大量的训练,仍存在较多小概率场景(corner
case)难以覆盖,泛化能力较低。以特斯拉自动驾驶系统Copilot为例,2021年特斯拉辅助自动驾驶系统错误地把卡车的白色货厢识别成了天空,导致Model
Y撞上货车发生车祸。纯白的货车停在十字路口属于小概率场景,自动驾驶算法由于没有经过同场景训练,所以无法生成对应决策。传统机器人规划算法较为复杂早期特斯拉自动驾驶功能难以应对小概率场景,造成车祸资料:CSDN,新智元,长江证券研究所。%%7%%%%%01
具身智能需要思维链能力
具身智能需要拆解复杂任务以及根据环境变化不断调整自己的动作和任务目标,因此需要思维链能力在现实世界中,机器人难以一次性完成整个复杂动作,因此需要将复杂动作拆解成多个简单步骤完成;此外,由于现实世界远比机器人训练场景复杂,机器人不是唯一客体,所以在任务过程中会受到各种干扰,环境也会不断变化;因此具身智能机器人需要较强的思维链能力。以下图为例,向PaLM-E机器人发出任务指令:“把零食从抽屉中拿给我”,机器人将其拆解为5个步骤。在执行过程中,人类把机械臂抓取的零食打落回抽屉。搭载PaLM-E的机械臂仍能调整任务目标,完成任务。PaLM-E机器人把任务拆解成多个步骤完成资料:《PaLM-E:
An
Embodied
Multimodal
Language
Model》Danny
Driess
etal.,长江证券研究所。8%%01
大模型是具身智能机器人的必备选项
大模型具备高泛化性与思维链能力,因此成为具身智能系统必备选项%%大模型的出现有望彻底颠覆机器人的软件开发范式。预训练赋予了大模型知识压缩的能力,因此预训练后的大模型具备较高的泛化能力,可以应对从未见过的任务场景。有较高泛化能力的系统可以应对小概率场景(corner
case),有望大幅度降低了算法开发的复杂度。当模型的参数扩大到一定的量级,大模型会涌现出思维链能力。因此大模型是具身智能机器人的必备选项。大模型通过预训练+调参提高泛化性预训练+调参=目标模型参数量扩大涌现出思维链能力大规模无标注数据任务特定训练数据数据模型预训练(Pre-training)模型微调(Fine-tuning)最终模型泛用性增强根据场景调整得到特定所需资料:清华NLP团队,openBMB,《Chain-of-Thought
Prompting
Elicits
Reasoning
in
Large
Language
Models》Jason
Weiet
al,长江证券研究所。%%9%%%%01
具身智能是大模型的终极应用场景
从文本到图像再到现实世界,具身智能是大模型的终极应用场景%目前大模型技术已从单纯的大语言模型(LLM)发展到图像-语言多模态模型(VLM);随着谷歌图像-语言-动作多模态模型(VLA)的推出,大模型有望在人形机器人场景快速渗透。从文本到图像再到现实世界,大模型的数据模态逐渐丰富,数据规模的数量级迅速增长,大模型的应用场景和价值量也成比例扩张,具身智能有望在未来成为大模型终极应用场景。大模型的进化图像-语言-动作大语言模型文本处理图像-语言多模态模型文生图、图生文多模态模型具身智能模态数据规模应用场景扩大模态数据规模应用场景扩大ChatGPT、Claude、LLaMA、讯飞星火PaLM-E、DALL-ERT-2资料:长江证券研究所。10%%%%02本轮大模型进步对具身智能的影响?%%11%%%%02
人形机器人可以分为服务型和劳动型
按照使用场景的不同,人形机器人可以分为服务型机器人和劳动型机器人%服务型机器人主要用于客服与接待场景,此类场景对人机交互有较高需求,因此服务型机器人通常外表高度拟人,配备了人机交互系统,有成熟的语言识别、合成算法;但往往机械硬件配置较低,机动性差,难以完成精细动作。服务型机器人的主机厂有达闼、优必选等。劳动型主要用于工业、电力巡检、安防等场景,可以将人力从简单重复劳动或者重体力劳动中解放出来。劳动型机器人重视精准动作控制,通常配备高性能电机、高强度关节,机动性较强,但难以完成复杂的人机交互。劳动型机器人的主机厂有特斯拉、云深处、宇树科技等。服务型机器人:达闼CloudGinger2.0劳动型机器人:特斯拉Optimus资料:达闼官网,特斯拉官网,长江证券研究所。12%%%%02
服务型机器人-短期方案
服务型机器人的短期方案:大语言模型(LLM)+感知算法+决策控制算法大语言模型的出现给服务型机器人带来了巨大的技术供给。在大模型出现之前,服务型机器人的人机交互主要靠深度学习模型完成,但深度学习没有文本生成能力,所以针对不同的问题只能给出固定答案,且由于泛化性较低只能解决常见问题。在大模型出现之后,机器人人机交互能力大幅度提高,只需在大模型下游搭配语音算法即可解决覆盖绝大部分服务场景。机器人的大模型系统搭载于云端,全部语言交互由云端计算生成。在运动控制方面,由于服务型机器人不需要精准动作行为,所以决策控制算法相比劳动型机器人较为简单。服务型机器人的大模型仅仅用于人机交互方面,无法对机器人的决策控制产生影响。交互能力:大模型+语音算法动作控制:机器视觉+决策控制算法语音解析算法语音输入传感器图像/位置输入文本输入LLM感知算法决策算法控制算法电机云端计算本地计算人类外界环境文本输出语音合成算法语音输出动作输出资料:长江证券研究所。%%13%%%%%02
劳动型机器人-短期方案
劳动型机器人的短期方案:感知算法+复杂决策控制算法短时间内,由于多模态大模型发展尚不成熟,大模型仅能在人机交互方面为机器人赋能,在运动控制方面仍需技术迭代。所以在动作控制方面,劳动型机器人的动作由感知算法配合复杂的决策控制算法共同完成。由于机器视觉技术仍存在短板,所以机器人往往还需要激光/IMU等传感器配合其感知环境。常见的感知算法常见的规划算法常见的控制算法资料:CSDN,长江证券研究所。14%%%%02
人型机器人中期方案
人型机器人的中期方案:图像-语言大模型(VLM)+控制算法VLM大模型将文本数据与图像数据混合编码喂入深度神经网络架构训练,得到了具有图像逻辑思维能力的多模态大模型。和传统的感知决策控制算法相比,VLM可以参与人形机器人的决策,仅控制部分需要传统算法参与。此方案在决策方面有较强的泛化能力,可以应对从未见过的场景,并且具备逻辑推理能力。目前该技术方案的瓶颈在于图像-语言多模态大模型尚未发展成熟,预计仍需要1-3年时间VLM才能在机器人场景获得较高的渗透率。谷歌PaLM-E多模态大模型资料:《PaLM-E:
An
Embodied
Multimodal
Language
Model》Danny
Driess
etal.,长江证券研究所。%%15%%%%%02
人型机器人远期方案
人型机器人的远期方案:图像-语言-动作多模态大模型(VLA)VLA模型是人形机器人触及具身智能的关键因素。相比于图像-语言模型,VLA把机器人动作数据也作为一种模态融入大模型算法,因此可以用单个模型完成感知、决策、控制全流程计算。将动作数据作为模态融入后,机器人动作将成为思维链的一环,因此决策与控制的衔接更流畅,更具逻辑性。目前VLA方案的瓶颈在于机器人动作数据难以匹配其他两种模态的数据规模,所以三种模态的同步数据较为稀少,需要VLM中期方案的长期积累。VLA方案预计需要2-5年时间才能获得较高渗透率。VLA模型需要将机器人动作作为模态编入大模型资料:谷歌RT-2官网,《RT-2:
Vision-Language-Action
ModelsTransfer
WebKnowledge
toRobotic
Control》,Brohan
et
al.,长江证券研究所。16%%%%03巨头的布局和行动?%%17%%%%%03
短期:决策控制算法改良-ChatGPTforRobotics
微软推出了ChatGPTforRobotics模式,可以大幅度提高算法开发效率在人类用自然语言指派任务后,ChatGPT可以迅速根据要求生成相应的代码,机器人会根据代码完成对应任务。以往面对新任务时需要人工开发算法,ChatGPTforRobotics模式可以大幅度降低新任务的算法开发难度。ChatGPTforRobotics模式缺点:本质上决策还是由人类来做,需要人实时监督,所以距离具身智能仍有一段距离;决策过程需要人与ChatGPT的多轮互动,所以动作延迟较大。ChatGPTforRobotics可以根据自然语言生成控制代码资料:微软官网,长江证券研究所。18%%%%03
中期VLM方案:PaLM-E
中期方案目前的典型产品为谷歌研发的PaLM-E大模型PaLM-E大模型有5620亿参数,可以通过简单指令自动规划计划步骤,实现在两个不同实体上的执行规划以及长距离的任务。颠覆以往机器人只能实现固定路径行为或者需要人工协助才能完成的长跨度任务。PaLM-E具备较强的思维链能力和无样本学习能力,可实现基于图像内容的逻辑推理。谷歌PaLM-E大模型具备较高泛化性和逻辑推理能力资料:《PaLM-E:
An
Embodied
Multimodal
Language
Model》Danny
Driess
etal.,长江证券研究所。%%19%%%%03
远期VLA方案:谷歌RT-2大模型
远期方案的典型产品为谷歌推出的RT-2模型%RT-2是首个用视觉-语言-动作(VLA)模态来控制机器人的大模型。RT-2模型控制的机器人具备符号理解(Symbol
understanding)、推理(Reasoning)和人类识别(Human
recognition)三大能力。RT-2将机器人运动数据作为一种模态,混合编入PaLI-X多模态大模型和PaLM-E多模态大模型的语言-图像大模型(VLM),并通过联合调参的方式构建出VLA模型。调参得到的RT-2大模型展现出了较强的性能,符号理解、推理和人类识别的能力相比于采用VLM的RT-1模型的性能提升了约2-3倍。此外RT-2还具备较强的思维链能力,可以完成多步骤逻辑推理;模型在输入图像数据后会首先输出语言规划结果,再把语言规划结果分解成机械臂动作完成。RT-2可以将复杂任务拆成简单多步骤完成RT-2具备较强的视觉符号理解、推理、人类识别能力资料:《RT-2:
Vision-Language-Action
Models
Transfer
WebKnowledge
toRobotic
Control》,Brohan
etal.,长江证券研究所。20%%%%03
特斯拉人形机器人
特斯拉Optimus2022年9月特斯拉在AI
DAY上发布了人形机器人Optimus
原型机。2023年5月特斯拉股东会上视频展示迭代后的Optimus,相比上一次亮相,迭代后的Optimus在电机扭矩和力度控制等方面更精确,并能探索和记忆环境,算法与人形机器人底层模块的耦合性大为改善,并进入了特斯拉工厂执行简单的任务。在软件系统方面,Optimus机器人继承了特斯拉的FSD智能驾驶系统,算力芯片复用了HW3.0。预计量产后的Optimus机器人单价有望低于20000美元。特斯拉OptimusOptimus部分硬件参数资料:特斯拉官网,Verge,长江证券研究所。%%21
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度山西省高校教师资格证之高等教育心理学过关检测试卷B卷附答案
- 通信行业:6G概念及远景白皮书
- 企业融资协议2024格式
- 2024临时活动场地租赁协议样本
- 2024快递业务重要客户服务协议
- 2024手工礼品定制协议
- 2024年施工协议追加条款格式
- 二手房销售预订协议格式 2024
- 2024年度新款手机租赁协议文本
- 2024年建筑项目分包协议样本
- 建设银行员工劳动合同
- 浙江大学学生社团手册(08)
- 水利水电工程专业毕业设计(共98页)
- 医院医用气体管路的设计计算(2014)
- 人教版统编高中语文“文学阅读与写作”学习任务群编写简介
- SQE质量月报参考格式
- 初中物理实验室课程表
- CTQ-2型支线接触网故障智能切除装置概述
- 砂石料取样试验标准与规范
- 运营管理已完毕第七讲库存
- 罗马数字对照表
评论
0/150
提交评论