具身智能机器人学习算法DEXIL详解_第1页
具身智能机器人学习算法DEXIL详解_第2页
具身智能机器人学习算法DEXIL详解_第3页
具身智能机器人学习算法DEXIL详解_第4页
具身智能机器人学习算法DEXIL详解_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

具身智能机器人学习算法DEXIL详解1主要内容2Dexcap论文详解Dexcap代码详解1Dexcap论文详解Dexcap基本原理

Abstract4从人类手部运动数据中进行模仿学习,是赋予机器人现实世界操作能力的一个有前景的途径。尽管其潜力巨大,但现有的手部运动捕捉系统的可移植性和将运动捕捉数据转化为有效控制策略的困难仍是重大挑战。为了解决这些问题,本文提出了一个便携的手部运动捕捉系统DEXCAP,以及一个新的模仿算法DEXIL,用于直接从人类手部运动捕捉数据中训练灵巧机器人的技能。DEXCAP基于SLAM和电磁场技术,结合环境的3D观察,实现了对手腕和手指动作的精准跟踪。通过丰富的数据集,DEXIL利用逆运动学和基于点云的模仿学习算法,帮助机器人复制人类手部动作。此外,DEXCAP还提供了一个“人在回路”纠错机制,可以通过人类操作进一步提升机器人的表现。通过六项灵巧操作任务的大量评估,本文的方法不仅展现了卓越的性能,还展示了该系统从非实验室环境中采集高质量数据的能力,为未来的灵巧操作数据收集方法奠定了基础。更多详情请访问:https://dex-cap.github.io。DEXCAP有助于收集高质量的人手动作捕捉数据和3D观察利用这些数据,DEXIL将其调整为机器人化身,并训练控制策略来执行相同的任务UMI基本原理Introduction5我们应该如何展示复杂的操控技能,以便机器人能够学习现有方法的不足UMI框架:通过人类演示物理接口和策略接口解决上述问题UMI框架主要贡献:提供了一个实用且可访问的解决方案,能够在任何环境中展示各种动作,同时保持高效的技能转移Dexcap基本原理Introduction6如何通过模仿学习(IL)使用机械手完成人类水平的动作现有方法的不足一种新型便携式人手动作捕捉系统DEXCAP一个模仿学习框架DEXIL1.DEXCAP:实时跟踪手腕和手指的动作,以实现灵巧的操作任务2.DEXIL:利用手部动作捕捉数据和点云观察,直接学习灵巧的操作技能3.人在环校正:人在环校正机制与DEXCAP,显著提高复杂任务中的机器人性能Dexacap框架主要贡献:硬件系统1:便携式人手动作捕捉系统DexCap

7DEXCAP系统的设计围绕着四个核心目标展开1.详细的手指运动跟踪:系统必须能够精确地捕捉到手指的复杂运动,特别是在执行灵巧操作任务时。2.精确的6自由度(6-DoF)手腕姿态估计:系统需要精确跟踪手腕在空间中的位置和姿态,涵盖六个自由度(位置的三维坐标和手腕的旋转角度),以确保手部操作的准确性。3.统一坐标系下的3D观测记录:系统要能够在一个与手部动作对齐的统一坐标系中,记录3D环境的观测信息,确保手部动作与环境信息能够在同一坐标框架下进行处理。4.出色的便携性:系统必须便于携带,能够在各种现实环境中进行数据采集,支持在野外或非实验室环境中的日常活动数据收集;5.零妥协的可扩展性:简单校准、低成本构建、高鲁棒性硬件系统1:便携式人手动作捕捉系统DexCap

81.详细的手指运动跟踪目标:准确跟踪操作任务中的手指动作技术:系统使用Rokoko动作捕捉手套,手套内嵌electromagneticfield(EMF)传感器。与视觉系统相比,它在处理遮挡问题时表现更好,后者在手与物体交互时常常出现遮挡问题工作机制:每个指尖都嵌有微型磁性传感器,信号接收器安装在手套背侧,通过测量从接收器到传感器的相对3D位移来确定优势:该系统能够避免手与物体交互时常见的视觉遮挡时的问题,确保在复杂场景下的鲁棒性硬件系统1:便携式人手动作捕捉系统DexCap

92.精确的6自由度(6-DoF)手腕姿态估计目标:追踪手腕(对应末端TCP)在空间中的位置和姿态,这对于机器人操作至关重要技术:系统采用SLAM(同时定位与建图)技术,通过安装在手套上的IntelRealsenseT265相机实现手腕的6-DoF跟踪,这些相机结合双目鱼眼镜头拍摄的图像与IMU(惯性测量单元)数据,生成环境地图,实现对手腕六自由度姿势的一致跟踪优势:便携性:相机无需依赖第三方摄像头,即可跟踪手腕姿态,确保手腕即使不在视线内也能准确捕捉;长时间精度:SLAM技术可以利用环境地图自动校正位置漂移,使得它在长时间数据采集中依然保持可靠;姿态信息:IMU提供了手腕的关键姿态信息,这对于后续训练机器人的操作策略非常重要硬件系统1:便携式人手动作捕捉系统DexCap

103.3D环境观测与校准目标:在数据采集过程中,不仅捕捉手部运动,还要记录3D环境观测,以训练机器人操作策略(视觉模态)技术:设计了可穿戴的相机背心,其中搭载了一个安装在胸部的IntelRealsenseL515RGB-DLiDAR相机,用于在数据采集过程中采集环境视觉数据校准过程:设计了一个3D打印的相机架,确保相机帧之间保持一致的变换;在数据采集开始前,所有跟踪相机都放置在相机架上的固定槽位进行校准。校准后,这些相机被移到手部安装的相机槽位,开始记录手部运动;手部姿态数据通过初始的固定变换转换到胸部相机的观测框架中;为了稳定相机框架并减少人体运动对采集数据的影响,LiDAR相机下方安装了另一枚鱼眼跟踪相机,进一步提升SLAM性能硬件系统1:便携式人手动作捕捉系统DexCap

114.系统便携性目标:确保整个系统具有便携性、可扩展性,能够适应现实环境中的数据采集组件:核心计算设备是IntelNUC13Pro小型

PC,放置在背包中;系统由一个40000mAh的移动电源供电,能支持大约40分钟的连续数据采集设计特点:轻便:整个背包总重量仅为

3.96

磅;快速设置:DexCap系统设计为可以快速穿戴并校准,可在10秒内完成穿戴和校准;成本:系统模块化设计,允许用户选择不同品牌和型号的相机、动作捕捉手套和小型

PC硬件系统2:配备灵巧手的双机器人系统

12验证部署:为了验证由

DEXCAP

所采集数据训练的机器人策略(DiffusionPolicy)硬件配置:两台

Franka

Emika

机械臂,每个机械臂都配备了一个

LEAPHAND灵巧手(四指16关节)数据采集:使用的是示教数据收集过程中相同的观察摄像机——只使用激光雷达相机,不需要手腕相机;机械臂和

LEAPHAND灵巧手都在20Hz的控制频率下工作;控制:机械臂采用末端执行器位置控制,LEAPHAND灵巧手采用关节位置控制学习算法:DEXIL

13使用

DEXCAP

系统记录的人类手部运动数据,训练出能够进行灵巧操作的机器人策略,在实现这一目标的过程中,面临着几个核心问题:1.如何将人类手部运动重定位到机器人手上?因为人类手部和机器手之间存在结构差异,需要将人类手部运动准确地映射到机器人手的控制空间中,这个过程称为运动重定向(re-target)2.在双手操作时,如何在高维动作空间中学习灵巧操作的策略?双手操作涉及复杂的动作协调和高维度的动作空间。学习在这样复杂的设置下如何有效地控制机器人的每个关节、手指等,需要一个适应高维度动作空间的学习算法3.如何处理从人类运动捕捉数据直接学习时可能遇到的失败案例,以及如何解决这些问题?在模仿学习过程中,直接从人类捕捉的数据学习有时会导致机器人执行意外的、不正确的动作。这些失败情况需要被分析,并且找到有效的解决方案,例如通过调试和改进学习策略来应对这些问题学习算法:DEXIL

141.运动重定向(IV-A)将

DEXCAP

采集的技术人员手部运动数据转换为适用于机器人控制系统的动作空间和观测空间。即将手部动作(如手指的弯曲、手腕的旋转等)准确映射到机器人手的控制系统中,使得机器人能够模仿技术人员的动作2.基于点云的扩散策略训练(IV-B)使用经过重定向的数据来训练基于点云的扩散策略(DiffusionPolicy),通过逐步生成动作来解决高维空间中的复杂任务问题3.人在回路纠正机制(IV-C)为了实现精确复现人类的动作,通过引入人类参与,系统可以在机器人执行任务时进行实时干预和纠正,从而提高机器人的灵巧操作能力学习算法:DEXIL

15A.数据重定向(DataRe-targeting)1.动作重定向(ActionRe-targeting)问题:人类的手部结构和机器人的机械手存在显著差异,包括尺寸、比例和运动学结构等。因此,直接将人类手部运动应用于机器人手可能导致不准确或不可行解决方案:使用逆运动学(InverseKinematics,IK)方法,将人类手部的指尖位置映射到机器人手上获取人类手指的指尖位置——设置初始手腕姿态——求解机器人的关节角度学习算法:DEXIL

16A.数据重定向(DataRe-targeting)2.观测后处理(ObservationPost-processing)问题:机器人需要理解环境,以便进行有效的操作。由于技术人员在数据采集过程中可能会移动,直接使用原始的RGB-D图像会出现视角变化等问题。解决方案:将DEXCAP记录的RGB-D图像转换为点云,提供环境的三维表示。1.将点云转换到一个固定的世界坐标系(初始时刻主SLAM相机坐标系),消除由于技术人员移动导致的视角变化,确保产生稳定的观测数据。2.去除不相关的点,如删除桌面等与任务无关的点云数据,减少计算复杂度。学习算法:DEXIL

17B.基于点云的扩散策略训练(Pointcloud-basedDiffusionPolicy)将机器人策略学习转化为一个轨迹生成任务。通过输入点云观测数据和机器人的状态,目标是生成一系列未来的目标位置作为机器人的动作输出输入:1.ot

点云数据来自于

LiDAR

相机在技术人员运动捕捉(mocap)过程中采集的RGB-D图像,然后转化为点云数据,包含每个点的三维坐标(N×3维度),经过均匀下采样,最终保留K个点(K×6维度)。在此过程中,RGB颜色信息会与点云的三维空间坐标结合2.st机器人当前

7

自由度状态输出:两个

7

自由度(7-DoF)的机械臂及和两个

16

自由度的灵巧手(LEAPHAND)DiffusionPolicy基本原理

Abstract18扩散策略是一种新的机器人行为生成方法,它将机器人的视觉运动策略表示为一个条件去噪扩散过程。我们对4种不同机器人操作基准的15种不同任务的扩散策略进行了基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高了46.9%。扩散策略学习动作分布评分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤对该梯度场进行迭代优化。我们发现扩散公式在用于机器人策略时具有强大的优势,包括优雅地处理多模态动作分布,适用于高维动作空间,并表现出令人印象深刻的训练稳定性。为了充分发挥扩散模型在物理机器人视觉运动策略学习中的潜力,本文提出了一系列关键的技术贡献,包括滚动时域控制(RHC)、视觉调节和时间序列扩散transformer。我们希望这项工作将有助于激发新一代的政策学习技术,这些技术能够利用扩散模型强大的生成建模能力。代码、数据和培训细节可以在找到。DiffusionPolicy核心架构学习算法:DEXIL

19C.人在回路纠正机制(Human-in-the-loopcorrection)即使使用高质量的人类手部运动捕捉数据,机器人在执行某些需要精准控制的任务时,依然会因为人与机器人手部的差异而无法精确复现人类的动作1.残差纠正模式(ResidualCorrection)原理:在人类戴着

DEXCAP

设备的情况下,机器人执行任务时,人类可以实时提供小幅度的动作修正。具体地,DEXCAP

会测量人类手相对于初始状态的位置变化(deltapositionchanges),然后将这个变化作为“残差动作”应用于机器人的动作上公式:学习算法:DEXIL

20C.人在回路纠正机制(Human-in-the-loopcorrection)即使使用高质量的人类手部运动捕捉数据,机器人在执行某些需要精准控制的任务时,依然会因为人与机器人手部的差异而无法精确复现人类的动作2.遥操作模式(TeleoperationMode)原理:要大幅度位置调整时,技术人员可以通过按下脚踏开关来切换到此模式。在此模式下,技术人员的手部动作直接映射到机器人手部的动作,机器人手部的指尖会直接跟随人类的指尖运动。机器人将忽略策略执行的结果,完全根据技术人员的手部动作调整机器人的手部姿态。技术人员还可以通过再次踩下脚踏切回残差纠正模式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论