




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
具身智能机器人扩散策略DiffusionPolicy基本原理与代码详解1主要内容23DiffusionPolicy论文详解UMI论文详解相机软硬件介绍及驱动安装4代码详解1DiffusionPolicy论文详解DiffusionPolicy基本原理
Abstract4扩散策略是一种新的机器人行为生成方法,它将机器人的视觉运动策略表示为一个条件去噪扩散过程。我们对4种不同机器人操作基准的15种不同任务的扩散策略进行了基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高了46.9%。扩散策略学习动作分布评分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤对该梯度场进行迭代优化。我们发现扩散公式在用于机器人策略时具有强大的优势,包括优雅地处理多模态动作分布,适用于高维动作空间,并表现出令人印象深刻的训练稳定性。为了充分发挥扩散模型在物理机器人视觉运动策略学习中的潜力,本文提出了一系列关键的技术贡献,包括滚动时域控制(RHC)、视觉调节和时间序列扩散transformer。我们希望这项工作将有助于激发新一代的政策学习技术,这些技术能够利用扩散模型强大的生成建模能力。代码、数据和培训细节可以在找到。DiffusionPolicy核心架构DiffusionPolicy基本原理Introduction5PolicyLearningfromDemonstration,是一种通过监督回归任务,从观测到的行为数据中学习机器人行动策略的方法多模态分布、序列相关性、高精度要求现有工作及其不足本文提出了扩散政策,推断动作得分梯度,并通过一系列随机朗之万动力学步骤迭代优化表达多模态动作分布、高维输出空间、训练稳定性闭环动作序列、视觉观测条件、时间序列扩散transformerDiffusionPolicy基本原理
DDPM基本原理6扩散模型是一类概率生成模型,它的训练过程包括两个阶段:前向扩散过程和后向去噪过程。
前一阶段由多个步骤组成,其中低级噪声被添加到每个输入图像,其中噪声的规模在每个步骤都不同。训练数据逐渐被破坏,直到产生纯高斯噪声。
后一阶段通过逆转正向扩散过程来表示。采用相同的迭代过程,但噪声被顺序去除,因此,原始图像被重新创建。
在推理时,通过从随机白噪声开始逐渐重建图像来生成图像。在每个时间步(timestep)减去的噪声通常基于U-Net架构。扩散模型的三种形式:去噪扩散概率模型(DDPM)、噪声条件评分网络(NCSN)以及随机微分方程(SDE)DiffusionPolicy基本原理DDPM机制拆解71.DDPM的输出被建模为一个去噪过程,通常被称为随机朗之万动力学(StochasticLangevinDynamics):该公式也可以解释为一次带有噪声的梯度下降步骤:训练过程中,从带有噪声的数据样本中预测噪声,损失函数为:DiffusionforVisuomotorPolicyLearning机制拆解82.扩散用于视觉运动策略学习:
(1)改变输出𝑥使其表示机器人动作;
(2)使去噪过程以观测𝑂𝑡为条件。
将公式(1)修改为:
将公式(3)修改为:在同一时间点上,动作和观测的联合概率分布,它考虑了动作和观测之间的所有可能的联合情况在给定观测的情况下,动作的概率分布,只考虑在特定观测条件下动作的分布情况,不考虑观测本身的分布。VS条件分布与联合分布对比DiffusionPolicy关键设计决策及神经网络架构
91.针对
的神经网络架构设计
(1)基于CNN的扩散策略(CNN-basedDiffusionPolicy);
采用1D时间卷积网络,进行一些修改以适应DiffusionPolicy。
主要修改包括:a.通过特征线性调制(Feature-wiseLinearModulation,FiLM)将观测特征条件化到每个卷积层,模拟条件分布并去除不兼容的目标状态条件;b.只预测动作轨迹,而不是观测动作轨迹的串联;c.采用滚动预测时域(recedingpredictionhorizon,RPH)进行动作的连续规划。
优势:在大多数任务中表现良好,无需大量超参数调优,但在动作序列变化较快的任务中表现不佳。DiffusionPolicy核心架构DiffusionPolicy关键设计决策及神经网络架构
101.针对
的神经网络架构设计
(2)时序扩散transformer(Time-seriesdiffusiontransformer)。
引入一种新型transformer架构,采用minGPT架构进行动作预测;
动作序列和观测特征通过嵌入层处理,输入transformer解码器;
优势:在任务复杂度和动作变化率高的任务中表现更佳,但对超参数敏感,训练难度较高。2.视觉编码器(VisualEncoder)
使用标准的ResNet-18作为视觉编码器,并进行修改以保持空间信息(使用空间softmaxpooling代替全局平均
池化)和稳定训练(使用GroupNorm代替BatchNorm)。DiffusionPolicy核心架构DiffusionPolicy特性
111.多模态动作分布的建模:DiffusionPolicy能够有效地捕捉和表达复杂的多模态动作分布。通过去噪过程,该模型能够从高斯噪声中生成多种合理的动作序列,反映出多样化的行为模式。2.位置控制(PositionControl)的协同效应:通过联合建模多个动作的分布,DiffusionPolicy能够捕捉到不同动作之间的协同效应。3.动作序列预测的优势:DiffusionPolicy不仅可以预测单步动作,还能够预测长时间序列的动作。4.训练的稳定性:通过学习能量函数的梯度而不是直接学习动作分布,DiffusionPolicy避免了对归一化常数的估计,从而实现了更加稳定的训练过程。DiffusionPolicy特性2UMI论文详解UMI基本原理
Abstract13我们提出了一种通用操控界面(UniversalManipulationInterface,UMI),这是一种数据采集和策略学习框架,能够将野外人类示范的技能直接转移到可部署的机器人策略中。UMI使用手持抓握器,并结合精心设计的接口,能够实现便携、低成本且信息丰富的数据采集,尤其适用于复杂的双手操作和动态操控示范。为了促进可部署的策略学习,UMI引入了精心设计的策略接口,包括推理时的延迟匹配和相对轨迹动作表示。通过这些特性,UMI所学习到的策略不依赖特定硬件,能够在多个机器人平台上直接部署。我们通过全面的现实世界实验展示了UMI的多功能性和有效性,其中,通过多样化的人类示范训练出的策略在面对新环境和新物体时能够实现零样本泛化。UMI基本原理Introduction14我们应该如何展示复杂的操控技能,以便机器人能够学习现有方法的不足UMI框架:通过人类演示物理接口和策略接口解决上述问题UMI框架主要贡献:提供了一个实用且可访问的解决方案,能够在任何环境中展示各种动作,同时保持高效的技能转移UMI实现方法:演示接口设计及策略接口设计
151.演示接口设计HD1:Wrist-mountedCamerasasInputObservation(腕带式摄像头作为输入观察设备)腕带摄像头作为输入观测。只依赖手腕上的摄像头,不需要任何外部摄像头设置。当在机器人上部署UMI时,将GoPro相机放置在与手持抓手相同的3d打印手指相同的位置。HD2:FisheyeLensforVisualContext(鱼眼镜头用于提供视觉上下文)在腕式GoPro相机上使用了155度鱼眼镜头附件,提供了足够的视觉环境HD3:SideMirrorsforImplicitStereo(侧面镜子用于提供隐式立体视觉)为了缓解单目相机视角缺乏直接深度感知的问题,在相机的周边视图中放置了一对物理镜,从而在同一图像中创建了所有隐式立体视图UMI实现方法:演示接口设计及策略接口设计
161.演示接口设计HD4:IMU-awareTracking(IMU感知跟踪)UMI通过利用GoPro内置的,将IMU数据(加速度计和陀螺仪)记录到标准mp4视频文件中的能力,来捕捉运动。通过视觉跟踪和惯性姿态约束,基于ORB-SLAM3的惯性-单目SLAM系统,即使由于运动模糊或缺乏视觉特征(例如低头看桌子)而导致视觉跟踪失败,也能保持短时间的跟踪。HD5:ContinuousGripperControl(连续夹具控制)抛物任务需要精确的时机来释放物体。由于物体有不同的宽度,二进制的夹持动作将不太可能满足精度要求。在UMI夹持器上,通过基准标记连续跟踪手指宽度。UMI利用串联弹性末端执行器原理,通过连续的爪宽度控制来调节柔软手指的变形,从而隐式记录和控制抓握力。HD6:Kinematic-basedDataFiltering(基于运动学的数据过滤)虽然数据收集过程与机器人无关,应用简单的基于运动学的数据过滤来为不同的机器人选择有效的轨迹。具体而言,当机器人的基本位置和运动学已知时,通过SLAM恢复的末端执行器绝对姿态允许对演示数据进行运动学和动力学可行性滤波。在过滤后的数据集上进行训练,确保策略符合具体实施例的运动学约束。UMI实现方法:演示接口设计及策略接口设计
172.演示接口设计利用收集到的演示数据,可以训练一个视觉运动策略,该策略接收一系列同步观测(RGB图像、6个自由度的末端执行器姿态和抓手宽度),并产生一系列动作(末端执行器姿态和抓手宽度)。PD1:Inference-timeLatencyMatching(推理时的延迟匹配)关于如何处理不同硬件设备之间的延迟差异,以确保输入数据的同步性。PD1.1:ObservationLatencyMatching(观察延迟匹配)PD1.2:ActionLatencyMatching(动作延迟匹配)UMI实现方法:演示接口设计及策略接口设计
182.演示接口设计利用收集到的演示数据,可以训练一个视觉运动策略,该策略接收一系列同步观测(RGB图像、6个自由度的末端执行器姿态和抓手宽度),并产生一系列动作(末端执行器姿态和抓手宽度)PD2:RelativeEnd-EffectorPose(相对末端执行器位置)关于如何表示和处理末端执行器(EE)的位置和动作,以提高策略的鲁棒性和跨硬件平台的通用性。PD2.1RelativeEETrajectoryasActionRepresentation(相对末端执行器轨迹作为动作表示)PD2.2RelativeEETrajectoryasProprioception(相对末端执行器轨迹作为本体感知)PD2.3RelativeInter-gripperProprioception(相对夹具间的本体感知)UMI框架中使用的不同动作表示方法的对比,包括相对轨迹(Relativetrajectory)、增量动作(Deltaaction)、以及绝对动作(Absoluteaction)。3相机软硬件介绍及驱动安装Ubuntu22.04安装Gopro驱动
201.检查USB设备,首先,确认摄像头是否被识别:lsusb2.检查视频设备文件ls/dev|grepvideo3.使用v4l2-ctl工具使用v4l2-ctl工具查看摄像头信息。首先,进行安装:sudoaptupdatesudoaptinstallv4l-utils最后,使用以下命令查看摄像头信息:v4l2-ctl--list-devices4.使用ffmpeg命令捕获一帧图像:ffmpeg-fv4l2-i/dev/video0-vframes1test_frame.jpgUbuntu22.04安装Gopro驱动(额外可选)
21打开Gopro官网,按照官方文档依次安装:1.最小化安装:pipinstallopen-gopro2.额外GUI安装:pipinstallopen-gopro[gui]3.有线连接GoproWebcamgopro-webcamUbuntu22.04安装IntelRealsense驱动
221.打开IntelRealsense官网;2.找到SDK下载,点击Visitdevelopercenter;3.点击左上角的SDK2.0;4.选择Linux系统:Ubuntu22.04安装IntelRealsense驱动
23按照官方文档依次安装;1.安装依赖:(1)更新Ubuntu:sudoapt-getupdate&&sudoapt-getupgrade&&sudoapt-getdist-upgrade(2)安装构建librealsense的核心包:sudoapt-getinstalllibssl-devlibusb-1.0-0-devlibudev-devpkg-configlibgtk-3-dev(3)安装build工具:sudoapt-getinstallgitwgetcmakebuild-essential(4)准备Linux后端和开发环境,PS:运行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 茶艺师职业责任认知试题及答案
- 二零二五年度文艺演出艺术交流与研讨会合作协议
- 二零二五年度物业公司管理费减免与社区青少年发展合作协议范本
- 二零二五年度宅基地买卖合同风险评估及调整协议
- 2025年度金融机构债权债务风险控制管理合同
- 2025年土木工程师新规试题及答案跟踪
- 二零二五年度未成年人监护协议及监护权解除合同
- 二零二五年度店面转让定金及运营管理协议
- 2025年度酒店客房深度清洁及保养外包服务协议
- 二零二五年度水利工程车辆租赁及施工支持合同
- 北京十大景点英文介绍课件
- 2019北师大版五年级数学下册教材分析讲义课件
- 更换备胎课件
- 2、3的加法课件-学前班用
- 起重机械安全风险管控清单模板
- 远离违法犯罪课件
- word小报模板:优美企业报刊报纸排版设计
- 北师大四年级数学下册预习单
- CPK分析报告模板
- 特种设备安全监察的发展历史、现状及未来展望课件
- 教育政策与法规全套完整教学课件
评论
0/150
提交评论