工业机器人运动规划研究进展

上传人：1*** IP属地：湖南上传时间：2024-04-25 格式：DOCX 页数：9 大小：18.35KB 积分：9.6 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

01引言工业机器人运动规划是指在无人参与示教的情况下，通过算法搜索出一条符合约束的无碰撞路径，是实现工业机器人智能化的关键技术。传统运动规划方法需要建立机器人构型和障碍物的位姿空间模型，计算复杂度随着机器人自由度增加成指数增长，难以解决在复杂环境与高维构型空间下的运动规划问题。针对上述问题，研究人员提出了随机采样方法，可避免在位形空间中复杂的障碍物建模运算，能够快速求解高维度运动规划问题。其中最著名的两种算法是：随机路图法（PRM）和快速随机搜索树（RRT），两种算法都能快速获得可行解，但由于采样过程引入了随机性，使求解结果极不稳定，难以运用于实际场景，因此如何最大程度提高运动规划算法的搜索效率和可行解质量成为极具挑战的任务。为了提高可行解质量，研究人员尝试将强化学习与随机采样算法相结合，以保证求解速度并不断提高求解质量，为解决运动规划问题提供了新思路，但该算法的性能取决于策略函数和奖励函数的优劣。因此，如何利用强化学习良好的自适应和自学习特性，将其与随机采样算法相结合成为了近年的研究热点。本文针对工业机器人高维构型空间的运动规划问题，详细介绍了快速随机搜索树算法的基本原理，并分析其改进方法的特点。在此基础上，重点阐述了基于强化学习的随机采样算法，并对工业机器人运动规划未来的研究方向进行了展望。02基于随机采样的运动规划算法由于工业机器人的运动规划所面临的任务环境往往是高维复杂的，传统搜索算法计算复杂度随着构型空间维度的增加成指数增长，无法解决高维运动规划问题。而随机采样算法可避免高维空间复杂环境的建模运算，能够快速求解高维度、复杂环境下的运动规划问题，已成为解决这类规划问题的主流算法。2.1快速随机搜索树算法及其扩展为解决在复杂非完整约束与动态系统中的规划问题，提出基于随机采样的快速扩展随机树（Rapidly-exploringRandomTree,简称为RRT）算法，该算法避免了对空间的建模，不需要任何预处理，具有高效的搜索特性，为多自由度机器人复杂约束下的运动规划问题提供了一种快速求解方法。同时也证明了该算法具有概率完备性，即只要保证足够的搜索时间，就一定能找到可行解。由于随机采样的RRT算法随机性强、盲目性高，为了提高该算法在运动规划上的表现，借鉴启发式算法的思想，在随机扩展树的生长过程中引入一个目标概率偏置参数，使随机采样偏向目标节点，减少随机性，提高运动规划效率。在无障碍或障碍较少的环境中，引入目标偏置可以使规划出来的路径更接近于理想路径。但环境中障碍物较多时，上述方法的避障效果明显下降。为了解决此问题，王道威[8]等人提出一种动态步长技术，用于平衡目标导向性并保证避碰效果。另外，提出将RRT与人工势场法结合，利用人工势场法进行局部规划，当陷入局部最小点时，使用改进的RRT算法自适应选择临时目标点，使搜索过程跳出局部最小值。而则将滚动规划与RRT相结合，依靠滚动规划法实时探测到的局部信息生成优化子目标。由于规划问题压缩至滚动窗口内，计算量与全局规划相比大幅下降。2.2RRT-Connect算法及其扩展由于单向搜索的RRT算法在扩展节点具有很强的随机性，即使在标准RRT基础上进行引导修正，算法的效率依然低下。因此，提出了RRT-Connect算法，通过增加搜索树数目提高路径生成速度。算法分别以起始节点x_start和目标节点x_goal作为两棵随机扩展树的根节点，设计启发函数引导两棵树的搜索。基于上述思路，在虚拟人双臂运动规划问题上使用双向平衡的RRT规划算法，以一种近乎平衡的方式引导两棵树交替朝向对方快速扩展。而提出的JT-RRT将RRT在位姿空间的探索与工作空间的偏置结合起来，高效地解决了在复杂环境中的规划问题。此外，将双向RRT与JT-RRT结合，提出一种同时在位姿空间和工作空间进行扩展的双向RRT算法，该算法位于工作空间的扩展树可以给位姿空间的扩展树提供启发式信息，避免了整个位姿空间的搜索，极大提升了规划效率。而则提出在不考虑机器人运动学的情况下，工作空间树在目标工作空间中寻找最近集合，而状态空间树则在考虑运动学和动态约束下生成机器人路径的双树形结构。2.3RRT*算法及其扩展RRT算法虽然具有概率完备性，能处理高维复杂环境中的问题，但无法保证算法所得到的可行解质量，即由RRT算法所规划出来的路径往往都是非最优的。针对这一问题，一系列基于RRT的最优运动规划方法被提出。根据RRT算法的表现情况，指出，其收敛到最优的概率基本为零。同时，他们提出一种基于RRT且具有渐进最优性的算法：RRT*。该算法在每一次拓展时都进行优化处理：取拓展点附近的所有点逐一比较代价值，从而选取最小代价值的父节点。虽然该算法具有渐近最优的特性，但每次增加新节点时都要进行遍历以达到优化的目的，导致了搜索时长大幅增加。在此基础上，指出，用于提升解决方案的状态子集可以被描述成扁长的超球体，InformedRRT*可以通过直接采样这个子集来提升RRT*算法的效率，快速返回邻近的最优方案。而P-RRT*-connec则是将双向人工势场结合到RRT*中，两棵树按照采样点的人工势场法生成的引力场和斥力场同时相互前进直到二者相遇，该算法特别适用于窄通道问题。另外，提出了一个基于RRT*的生物启发路径规划算法：TropisticRRT*。该算法使用高斯混合模型来模仿植物的自然生长，减小抽样空间，提高了运动规划效率，但同时也导致了采样分布不均。而在双向RRT和InformedRRT*的基础上，提出HybridRRT，其将规划过程分为三个部分，基于双树搜索初始解，并将两棵树合并成一棵，再采用InformedRRT*优化路径。该方法用非最优搜索来发现初始解，不仅比最优规划速度更快，还能返回临近最优解。2.4其他相关扩展算法为了从各个方面更好地解决各式各样的机器人运动规划问题，研究人员在RRT变体的基础上做了广泛的尝试与结合。如BIT*通过在RRT中加入表搜索，将图表法与基于抽样的规划技术相结合，提升了返回初始解的速度。为解决低效率和易陷入局部最小的问题，在RRT的基础上提出使用衰退机制来避免过度搜索位姿空间，另外，算法通过优化关节空间的边界节点来持续地提升可到达的空间信息，避免重复搜索已扩展节点。而MT-RRT则是利用四个不同的多线程策略进行改进，减少了计算时间。除此之外，则在RRT基础上提出CODES3算法，用以解决在高度受限的环境中的规划问题，此外，他们还提出了基于双向树搜索的6模型结构，每个模型中包含多个备选策略，根据环境背景信息从中寻找到最好的搭配来灵活地解决不同问题。2.5总结到目前为止，从RRT的总体发展脉络来看，学者们主要是在规划效率与结果最优性两个方面对原始的RRT进行改进与提高。主要的改进手段是利用增加随机扩展树数目提升搜索效率的RRT-Connect和通过改进每次拓展方式来达到算法渐进最优性的RRT*。因此，如何在此基础上继续提升算法性能也成为研究人员陆续关注的热点。此外，结合其他技术或在算法结构上进行调整，也是工业机器人运动规划领域未来的研究方向。03基于强化学习的运动规划算法强化学习的基本思想是智能体在与环境交互的过程中根据环境反馈得到奖励，并不断调整自身的策略以实现最佳决策，适用于现实中无法提供大量标签数据的决策优化类问题。由于其具有自学习性与自适应性等优点，受到各领域专家学者们的广泛关注，近年来，也有不少学者们将强化学习应用在机器人运动规划问题上，为解决这一类问题提供了新思路。3.1基于传统强化学习的方法提高机器人的自主决策与学习能力，仅依靠设计者的经验和知识是很难获得对复杂不确定环境的良好适应性。因此，如何在机器人的运动规划中引入学习机制，成为研究人员关注的热点。如提出将动作基本体与随机策略梯度学习相结合，并证明了在强化学习中用动作基本体来生成参数化控制策略的合理性。而提出一种基于具有路径积分的随机优化控制结构的强化学习参数化控制策略PI2，该方法中用于学习的更新式既不需要矩阵的逆解也不需要梯度学习率，因此从数学的角度而言其有简单且稳定的特点。在此基础上，使用动觉示范初始化机器人的初始位置控制策略，且利用PI2算法通过优化一个价值函数来学习末端感知器所需要的力、转矩等信息，从而在转动把手开门和拾取桌上的笔两个环境的实验中取得了良好的效果。另外，则将强化学习应用在多机器人协作的任务上，解决每个机器人与所要操纵的物体之间未知的动力学问题。3.2基于深度强化学习的方法虽然传统的强化学习在机器人运动规划问题上有所应用，但大多难以克服高维复杂环境，解决的规划问题也略为简单。随着深度强化学习的发展，通过庞大且深层的神经网络与强化学习结合，以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合，并通过端对端的学习方式实现从原始输入到输出的直接控制，在众多需要感知高维度原始输入数据和决策控制任务中取得实质性的突破。沿着深度网络与强化学习结合的这一研究思路，也有许多经典的深度强化学习算法被陆续提出，如TRPO，DDPG，NAF等，虽然受现实系统中的采样复杂度影响，其能否灵活适用在现实环境中仍不明确，但这些算法的提出使机器人在人为操作很少的前提下学习复杂的技巧成为可能。在此基础上，提出利用一个7层、92,000个参数的深度卷积神经网络进行策略学习。策略学习过程中不再需要全部的状态信息即可掌握未知的位姿信息，并可使用随机梯度下降等的常规方法进行训练。而指出，由于高采样复杂度，深度强化学习的应用仅限于仿真与简单的实际任务中，因此他们提出一个适用于复杂3D机器人任务的基于深度Q网络的离线策略训练方法。实验证明该方法可以在不需要先验示范或人为设计的情况下学习一系列复杂的3D机器人运动技能。李广创与程良伦[41]则以点焊机器人为研究对象，将机器人在三维空间的自动点焊转化为机器人的避障路径规划问题，使用一个三层的DNN网络，经过离线训练后，自行训练出一条接近于最优的运动轨迹，成功地避开障碍物到达目标点。3.3强化学习与基于随机采样的方法结合鉴于强化学习的自学习性与自适应性，以及随机采样方法的高效搜索与概率完备等优点，近年来，将二者结合应用在机器人运动规划问题上的全新思路开始涌现。沿着这一研究方向，将RRT所生成的路径作为强化学习的范例，指导其快速学习及收敛，且引入一个由浅入深的总课程学习模式来解决稀疏回报下训练困难的问题，该方法在6自由度机器人装配电脑部件的复杂实验环境下取得了良好效果。而提出RL-RRT算法，使用深度强化学习来学习避障策略，将其作为局部优化器，再采用可达性估算器作为距离函数对树的生长方向进行偏置。另外，提出PRM-RL算法，使用强化学习来处理小范围内点到点的规划，再用PRM提供连接着机器人位姿的路标，成功解决了机器人远距离规划导航问题。而则提出先由RRT搜索初始可行解，再利用强化学习进行优化的R3L算法。该方法减少了算法的收敛时间，并且克服了稀疏回报下未获得第一个正回报前的盲目探索问题。除此之外，在处理高维状态-动作空间问题上，通过学习以前的经验来解决新的规划问题的一种神经探索利用树NEXT。相比起一些已有的基于学习的规划器，NEXT更加通用，并且可以在探索与利用之间找到平衡。3.4总结随着强化学习技术的不断发展，专家学者们利用这个技术在工业机器人运动规划领域做了许多有价值的尝试。但无论是通过传统的强化学习或是结合深度网络的强化学习，要么难以克服高维复杂环境，要么需要利用非常庞大且复杂的网络，具有很强的不稳定性，难以应用在现实环境中。于是，研究人员开始把目光转向结合强化学习的自学习、自适应性与基于随机采样方法的高效搜索性、概率完备性的新思路上。这个方法不仅可以保证求解的速度，还可以逐步提高规划结果的质量，是一个值得深入发掘的方向。04目前存在问题及研究展望根据目前工业机器人运动规划算法存在的不足和目前研究的现状，本文认为未来研究方向主要有：（

人人文库> 全部分类> 专业文献 > 工程机械

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

工业机器人运动规划研究进展

文档简介

温馨提示

最新文档

评论

工业机器人运动规划研究进展

文档简介

温馨提示

最新文档

评论

相关文档