多模态具身智能操作技能学习、交互探索与应用_第1页
多模态具身智能操作技能学习、交互探索与应用_第2页
多模态具身智能操作技能学习、交互探索与应用_第3页
多模态具身智能操作技能学习、交互探索与应用_第4页
多模态具身智能操作技能学习、交互探索与应用_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

李东江京东探索研究院高级算法科学家现任京东探索研究院高级算法科学家,围绕具身智能技术、室内服务机器人应用领域开展研究工作,在ICRA,IROS有数篇论文发表。北京交通大学通信与信息系统博士,获得北京亦麒麟优秀人才,京东-探索研究院技术之星奖,构建了“大模型+机器人”具身系统,为京东集团相关重点项目提供了技术路线支撑,并负责大模型在该项目上的应用研发。目前,专注于打造基于多模态大模型的双臂移动机器人平台,聚焦上层认知能力和底层操作技能的提升。演讲主题:多模态具身智能操作技能学习、交互探索与应用三层级具身智能架构工作实践具身基础操作预训练大模型人工智能正加速向AGI迈进,具身智能是不可缺少的一环基础模型从语言模型走向多模态与具身智能从数字世界走向物理世界:具身智能机器人InformationprocessingInformationprocessing,disembodiedintelligencetoembodiedintelligenceHumanConnectingpeopleInformationRetrievalAmusement…Usingtoolsinmanipulation,Mobility,Personalizedphysicalassistance,Project-basedoperation,Socialwelfare&caExploration…MobilityMobility&Manipulation(temporal),Interaction,Coorperationw.human-robot,ActiveperceptionLaptop(info)PalmdeviceIntelligenceMultimodalrecognition,Open-enddynamicmodel(spatial)ReinforcementLearningandSim-to-Realtransferinference/planning(logical),Intrinsicvalue/motivation架构一:三层级具身智能大模型•上层任务规划层、技能层及底层硬件兼容层,大小模型耦合工作架构二:端到端具身智能预训练大模型任务规划层:自研多模态任务规划具身模型•传统方法常常受限于预设规则,缺乏•Prompt+大模型,模型幻觉导致执•收集轨迹数据模型微调,多模态具•实现功能:输入“想喝冰可乐”,模型输出:“1.前往冰箱;2.打5.返回。”数指标,性能明显优于所•为了提高EMMA在动态视觉世界中的环境理解能力,EMMA具身多模态智能体不仅仅在离线的多模态数据集上进行了静态图文-视觉对齐,还进行了动态的通过GPT3.5和EMMA两个智能体之间的跨模态模仿学习来对Yang,Yijun,etal."Embodiedmulti-modalagenttrainedbyanllmfromaparalleltextworld."ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2024.任务规划层:自研多模态任务规划具身模型•CrossmodalityimitationineveryinteractionstepviaDAgger+DirectPreferenceOptimization•Theteacher’sactionispositive.A.TemplateTaskInstructionB.Free-formTaskInstructioncross-modalityImitationcross-modalityImitationLearning0.8-0.60.4-0.2-00DistributionofDistributionofverbsforHuman-annotatedInstructions40602001.0 0.910.820.54LLMExpertinTextualEnv.ourEMMAinvisualEnv.0.0.880.810.0.780.6300.7400.45I2I4I2I488NumberNumberofTrialsYang,Yijun,etal."Embodiedmulti-modalagenttrainedbyanllmfromaparalleltextworld."ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2024.任务规划层:环境理解•传统机器人技术依赖视觉分割标注的•无法适应多变的真实世界,限制了其•基于视觉语言模型SAM和BLIP2研发•创建多层高级语义地图,机器人能快速获取环境物品信息。任务规划层工作演示数据驱动技能层:发布双臂机器人数据集benchmark•为构建具身基础操作大模型,开源大规模机器人操作数据集迫在眉睫。•建立了统一机器人感知与操作数据收集标准,构建了国内首个双臂移•提供了不同任务基础模型,便于其他企业和机构应用和研究。•任务多样性、挑战性超过(4)FruitHandover(3)(4)FruitHandover(3)PlatePlace(1)BottomPick(2)SingleFruitPick(5)GarbageRecycle(6)(5)GarbageRecycle(6)HighFive(9)MultipleFruits(9)MultipleFruitsPick(7)BottleHandoff(10)WineWipe(8)CupPlaceKeyattributeanalysisofrobotmanipulationtasksacrossBRMDataZhang,Tianle,etal."EmpoweringEmbodiedManipulation:ABimanual-MobileRobotManipulationDatasetforHouseholdTasks."arXivpreprintarXiv:2405.18860(2024).数据驱动技能层:发布双臂机器人数据集benchmarkChargetheiPhonePickupacupandplaceateabaginsideGetacupofhotwaterHandacupofteatoapersonZhang,Tianle,etal."EmpoweringEmbodiedManipulation:ABimanual-MobileRobotManipulationDatasetforHouseholdTasks."arXivpreprintarXiv:2405.18860(2024).TestingresultsofdifferentTestingresultsofdifferentrobotmanipulationlearningmethodsPerformancecomparisoninsingle-armanddual-armrobotmanipulationtasksZhang,Tianle,etal."EmpoweringEmbodiedManipulation:ABimanual-MobileRobotManipulationDatasetforHouseholdTasks."arXivpreprintarXiv:2405.18860(2024).数据驱动技能层:基于模仿学习的行为克隆•传统方案采用分割-检测-空间变换-运动方程求解方式进行;•任何环节失败都可能导致整个任务失文本指令与图像进行融合,实现基于文本的视觉推理;•基于Transformer架构,对动作序列进行建模,实现任意长度动作序列基于模仿学习和条件变分自编码器技术,构建了一个以文本指令为条件的机器人多技能操作模型,实现了机器人在文本指令驱动下完成不同操作任务数据驱动技能层:基于模仿学习的行为克隆数据驱动技能层:泛化抓取架构•系统贡献:框架灵活(三层抽象),能够快速适配不同的算法插件、硬件本体,并且非常•算法&数据:为了能够快速落地应用,基于大规模数据预训练模型,实现技能原子能力0-shot落地应用,且具备很好的准确性和泛化性;•难点:跨系统实时通信;多模一个面包)、模糊指令(我饿个超级机器人助理,它不仅能像GPT一样回答你各种问题,还能帮完成各种复杂任务。数据驱动技能层:泛化抓取演示FromModular-basedSystemtoEnd-t机械臂操作PalM-EEmbodiedGPT机械臂操作(70亿)OK-Robot导航、抓取操作华东师大&上大操作多任务(13亿)操作多任务机械臂操作操作整理机械臂操作(1760亿)2024.62024.92024.3MultiPLY导航与多感官问答OpenVLAECOT机械臂操作FromModular-basedSystemtoEnd-t•Input:language,visi•通过ImageNet预训练的卷积神经FromModular-basedSystemtoEnd-tVision-LanguageModelfromGoogle–PaLM-E(VQA,E-Planning)•Input:language,vision.Output:text–answer,planningFromModular-basedSystemtoEnd-t•Input:language,vision,otherproprioceptive/sensorsignalsBody:ALow-costGeneralMobileManipulationPlatform•Endeffector:parallelgripper•EquippedwithteleoperationBrain:EmbodiedVision-Language-Action(VLA)Model•Semanticunders•Reasoningtorobotic具身基础预训练大模型:数据金字塔•具身大模型的核心在于如何有效地整合感知、语言、视觉和行为来理解和操作物理环境;•数据是具身大模型成功的关键支撑,通过虚拟仿真、数据生成、网络数据利用和人类表演的结合,具身大模型有望突破现有的限制,实现更广泛和深入的应用。ICRA2024BestConferencePaper1M+trajectories,Manipulationpick-placeskills,AssemblewipingandassemblingDROID:ALarge-ScaleIn-the-WildRobotVLARecentProcessOpenVLAfromGoogleKim,MooJin,etal."OpenVLA:AnOpen-SourceVision-Language-ActionModel."a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论