机械设备深度报告:机器人如何进行复杂操作和自主移动_第1页
机械设备深度报告:机器人如何进行复杂操作和自主移动_第2页
机械设备深度报告:机器人如何进行复杂操作和自主移动_第3页
机械设备深度报告:机器人如何进行复杂操作和自主移动_第4页
机械设备深度报告:机器人如何进行复杂操作和自主移动_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录TOC\o"1-2"\h\z\u斯坦福推出擅长家务的MobileALOHA,特斯拉Optimus能叠衣服 5机器人如何进行复杂操作:多种AI训练路径实现运动控制及环境交互 8虚拟仿真(Sim2Real) 8动作捕捉或遥操作(Tele-operation) 9模仿学习(MimicPlay) 10VLM(VisionLanguageModels)+小模型 12VLA(VisionLanguageAction) 13机器人如何实现自主移动:SLAM技术的应用 14风险提示 18图表目录图表1:MobileALOHA主控制炒虾仁 5图表2:研发人员遥作MobileALOHA训练并掌技能 6图表3:MobileALOHA器人硬件情况 6图表4:特斯拉人形人Optimus叠衣服 7图表5:主流AI训练路优劣对比及代表队 8图表6:VIMA接收多态prompts并执行指定任务 9图表7:Optimus工程人员穿戴设备为AI训练做示 10图表8:基于MimicPlay框架的模仿学习的阶段 11图表9:通过模仿学机器人执行任务的功显著提升 11图表10:Figure01操作咖啡机(左)及自纠(右) 12图表11:PaLM-E为机器人决策并抵抗任务间干扰 13图表12:VLM从网络和RT-1机器人数据中学习而演化成新的VLA 14图表13:VLA模型控制器人抓取灭绝动物 14图表14:涌现能力成率对比 14图表15:SLAM与构成主移动导航的各领关图 15图表16:SLAM根据传器不同的分类情况 16图表17:6种代表性SLAM算法的综合比较 17图表18:2022-2029E球SLAM市场规模(亿美) 17图表19:SLAM技术的他应用场景及国内表司 18MobileOptimus2024DeepMindMobileALOHA图表1:MobileALOHA自主控制炒虾仁资料来源:斯坦福MobileALOHA项目开源网页,斯坦福大学团队重心在于机器人通过人类示教动作学习模仿操作技巧与身体控制,即依托MobileALOHA系统收集的数据进行模拟学习的训练。其论文中对于MobileALOHA的定义是一种用于收集双臂运动数据的低成本全身遥操作系统。在视频演示中,MobileALOHA迅速且流畅地完成了包括炒虾、清理桌面、水洗盘子、桌椅等多个非标准化的动作。根据项目团队的描述,为了实现相关功能,实验人员会首先操作机器人对每个任务的流程进行50次学习。经过协同训练后的机器人在自主完成炒虾、存放锅具、呼叫电梯等复杂移动和操作任务时成功率可以达到90。同时,团队还设计了远程操作系统,让用户可以通过远程控制的方式控制机器人作业。图表2:研发人员遥操作MobileALOHA训练并掌握技能资料来源:《MobileALOHA:LearningBimanualMobileManipulationwithLow-CostWhole-BodyTeleoperation》(ZipengFuetal.),MobileALOHA3.2为开源。移动底座——一台AgileXTracerAGV运动系统——两个Viperx3006dof机械臂视觉系统——3个480×640分辨率、50Hz的罗技C922xRGB摄像头Nvidia3070TiInteli7-12800H的消费级笔记本电脑供电系统——1.26kWh、重14kg的电池ALOHA1.5m100N1.6m/s100kg12h。图表3:MobileALOHA机器人硬件情况资料来源:《MobileALOHA:LearningBimanualMobileManipulationwithLow-CostWhole-BodyTeleoperation》(ZipengFuetal.),上述成本和配置就能打造出在家庭环境下能够实现诸多功能的MobileALOHA,其关键在于机器人的运动控制及交互,和自主移动两方面。ALOHAMobileALOHA在作为移动底座的AGVAGVSLAM时隔不久,特斯拉也发布了关于机器人执行复杂操作的演示视频。1月16CEOXOptimusOptimusOptimusOptimus图表4:特斯拉人形机器人Optimus叠衣服资料来源:网易,MobileALOHAOptimusDeepMindAutoRTSARA-RTAI制及环境交互ChatGPTPaLM-EVLMAIAIAIVLMVLAAI图表5:主流AI训练思路优劣对比及代表团队优势劣势代表团队虚拟仿真训练成本相对较低仿真数据与现实情况偏差较大英伟达动作捕捉/遥操作过程直接有效,适合实际应用场景,与人形机器人匹配度高数据采集成本高,且核心依赖真人特斯拉等多家人形机器人厂商模仿学习可泛化性强,省略繁琐编程科研场景居多,泛化后可靠性存疑斯坦福大学、卡内基梅隆大学、FigureVLM可以执行复杂指令而无需重新训练,且能形成细分场景数据壁垒决策端和执行端割裂带来的时滞,小模型数据获取难度大谷歌、MetaVLA感知-决策-动作闭环,避免了复杂的信息转换大模型实时性较差,执行成功率有待提升谷歌DeepMind资料来源:虚拟仿真(Sim2Real)虚拟仿真(Sim2Real,全称SimulationtoRealityAItransferlearning二是安全问题。由于强化学习需要通过智能体在环境中进行大范围的随机采样来进行试错,因而在某些时刻其做出的行为可能会损伤机器人自身(例如手臂(RealityGapAIVIMA。VIMA2022Transformer大学、加州理工学院等多方的研究者们合作完成。VIMA智能体能够接受提示图表6:VIMA接收多模态prompts并执行指定任务资料来源:VIMA项目开源网页,高效的程序框架用以合成多样、稳定的抓取姿势数据。通过该框架,团队为ShadowHandDexGraspNet1335355动作捕捉或遥操作(Tele-operation)动作捕捉或遥操作是指将真人执行指令的动作通过传感器等设备精准复制MobileALOHA2023AI图表7:Optimus工程人员穿戴设备为AI训练做演示资料来源:集微网,RoboticsX模仿学习(MimicPlay)2023MimicPlayMobileALOHA图表8:基于MimicPlay框架的模仿学习的三阶段资料来源:《MimicPlay:Long-HorizonImitationLearningbyWatchingHumanPlay》(ChenWangetal.),图表9:通过模仿学习后机器人执行任务的成功率显著提升资料来源:《MimicPlay:Long-HorizonImitationLearningbyWatchingHumanPlay》(ChenWangetal.),卡内基梅隆大学团队也提出了一种高效、一次性机器人学习算法,称为WHIRL(In-the-WildHumanImitatingRobotLearning。Figure01仅用10202418AIFigureBrettAdcockFigure0110Figure01图表10:Figure01操作咖啡机(左)及自我纠错(右)资料来源:搜狐,VLM(VisionLanguageModels)+小模型VLM+VLMVLMVLMVLMSay-Can、PaLM-EMetaImageBindVLM3PaLM-EPaLM-E(PathwaysLanguageModelwithPaLM-540BViT-22BTransformer为一种多模态具身PaLM-EPaLM-E图表11:PaLM-E为机器人决策并抵抗任务期间的干扰资料来源:澎湃,VLM在实际运动控制问题上会出现实时性较差的缺陷,故目前主流方案是VLMVLA(VisionLanguageAction)VLAVLMVLADeepMind20237RT-2VLART-1RT-2VLA图表12:VLM从网络和RT-1机器人数据中学习从而演化成新的VLA资料来源:DeepMind,VLMVLMRT-2MveckeantoTalorSiftVLART-2RT-1VC1。图表13:VLA模型控制机器人抓取灭绝动物 图表14:涌现能力成功率对比 资料来源:DeepMind, 资料来源:DeepMind,VLAVLAAI机器人如何实现自主移动:SLAMSLAM是实现机器人自主导航和后续交互的关键技术之一。SLAM即SimultaneousLocalizationandMapping,SLAMSLAMSLAM单/(Filter-Based)SLAM(Graph-Based)的SLAM。SLAMMobileALOHASLAMAGV图表15:SLAM与构成自主移动导航的各领域关系图资料来源:思岚科技,SLAMSLAMSLAMSLAM。SLAMCartographerKarto,SLAMLIO-SAM、LOAMSLAMORB-SLAM3、VINS-Fusion图表16:SLAM根据传感器不同的分类情况资料来源:深圳市众星智能,SLAM包SLAMSLAM、3DTSDFSLAMSLAMSLAMSLAMSLAMSLAMSLAMSLAM图表17:6种代表性SLAM算法的综合比较传感器鲁棒性定位精度建图面积建图质量实时性能可扩展性硬件需求工程实现难度Cartographer2DLidar高高大高适中中较高中Karto2DLidar+ROS适中中中高高适中较高低LIO-SAM3DLidar中中中高高适中适中较高LOAM3DLidar,适用慢速移动场景中中小高高较差较高低ORB-SLAM3视觉中高中中高适中较低较高VINS-Fusion视觉和惯性高高中高中高较高较高资料来源:深圳市众星智能,MarketMonitorGlobal2022SLAM3.30CAGR34.7202929.23图表18:2022-2029E全球SLAM市场规模(亿美元)资料来源:MarketMonito

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论