版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《人工智能控制技术》无人机三维最优路径规划实例无人机路径规划简介无人机的应用越来越广泛,在多个场合都有所应用,比如战场上可以侦查甚至攻击,抢险救灾中可以察看灾情情况,农业上可以作为喷洒农药、检察作物生长等等,如果提高无人机的智能性,让其自动完成一些人物,就需要用到路径规划的问题。路径规划是智能控制中的一个重要组成部分,是动态规划的重要应用。随着无人机系统的功能越来越强大,其操纵越来越复杂,而现代飞行任务的难度及强度也在不断增加,良好的三维路径规划成为提高无人机系统任务完成质量和生存概率的重要途径之一。无人机路径规划简介路径规划的算法有许多种,其中强化学习算法是非常有效的路径规划算法,所需要的的前提条件少,智能性高,规划效果好。基于强化学习的路径规划方法不仅具有与随机线路图法相似的在规划时间和航迹质量之间进行折中的能力,而且其本身具有一定的鲁棒性和对动态环境的适应能力。目前,强化学习方法已经在智能机器人导航、路径规划和运动控制领域取得了许多成功的应用。无人机路径规划简介本章以无人机为例,采用Q-Learning算法实现三维路径规划,规划目标为:1.通过C++编写一段程序,采用Q-learning算法实现无人机的智能三维路径规划。2.定义无人机类,包含飞行半径、最大平飞速度、最小平飞速度、垂直飞行速度、最大飞行高度、最小飞行高度、最大飞行过载等属性。3.定义仿真环境中两种环境类,自然环境与静态障碍物,其中自然环境类包括地形、风速、风向、温度、光照等属性,障碍物包括位置、大小、轮廓顶点、移动速度、移动路线等属性。定义多种相关的环境类时,使用继承与多态的方法。4.通过算法和代码实现无人机自动分辨最佳路线,要求避开障碍物,并根据具体环境分析出适合的路线,最后找出一条最佳路线完成目标,即到达终点。无人机路径规划Q-Learning算法原理无人机的三维路径规划是在综合考虑无人机的飞行时间、燃料消耗、外界威胁等因素的前提下,为无人机规划出一条最优或者是最满意的三维飞行航迹,以保证飞行任务的圆满完成。无人机通过Agent与环境交互,获得航迹过程的本质是马尔可夫决策过程(Markovdecisionprocess,MDP),无人机的下一个空间状态只与当前的状态信息有关,与之前的信息状态无关,即无人机航迹规划的过程具有马尔可夫性。无人机路径规划Q-Learning算法原理马尔可夫决策过程(Markovdecisionprocess,MDP),MDP
由<S,A,P,R,γ>五个元素构成:1.S表示空间状态的集合,s∈S,st
表示t时刻的空间状态;2.A表示动作策略的集合,a∈A,at
表示t时刻的动作策略;3.P表示状态转移概率,表示当前状态s下,经过动作策略a后,状态变为s'的概率;4.R表示环境根据智能体的状态与动作,给予智能体的奖励,是奖励取值的集合;5.γ为“折扣”,表示后续策略对当前状态的影响,γ为0表示只关心当前奖励,γ越大表示对未来奖励越看重。无人机路径规划Q-Learning算法原理
无人机路径规划Q-Learning算法原理基于Q-Learning学习的无人机路径规划方法是基于强化学习的路径规划领域最重要的方法之一,仍然是基于预先定义的代价函数生成一条具有最小代价的航迹。其规划过程中没有考虑诸如无人机的最大爬升、下降率和最小转弯半径等航迹约束条件,使其存在2个重要的缺点:1.算法获得的最小代价航迹不一定满足实际要求,甚至对无人机来说根本无法飞行实施;2.算法的规划空间离散化过程缺少依据,往往采用较小的离散化步长以保证离散化过程的合理性,这使得最终离散规划问题具有很大的搜索空间,因此其只适用于二维平面内的航迹规划问题。当这类算法在无人机路径规划问题中应用时,由于其无法充分利用无人机的三维飞行能力,故其规划获得的航迹从根本上说就是次优航迹。无人机路径规划Q-Learning算法原理本文无人机最优路径规划在现有的基于Q-Learning学习的航迹规划算法的基础上,设计出一种能够有效完成无人机三维航迹规划任务的路径规划方法。该方法利用无人机的航迹约束条件指导规划空间离散化,不仅减小了最终离散规划问题的规模,也在一定程度上提高规划获得的优化航迹的可用性。无人机三维路径规划实现过程无人机整个路径规划实现的流程无人机最优路径规划流程基于Q-learning的三维模型创建要实现基于Q-learing的无人机智能航线规划,需建立回报奖励地图,本章采用对空间进行栅格化,将模拟的现实空间栅格化为M*M*M的三维数组模型,对数组中每一栅格进行赋值处理,赋上用环境回报函数所求得的回报奖励,完成对现实空间的模拟。基于Q-learning的三维模型创建在程序设计的无人机类中,需要包含飞行半径、最大平飞速度、最小平飞速度、垂直飞行速度、最大飞行高度、最小飞行高度、最大飞行过载这些属性。其中飞行半径用无人机最大可以走的格子数来实现;最大平飞速度和最小平飞速度用于在顺风和逆风环境中与风速相结合在设置的奖励方程中求环境的奖励;垂直飞行速度用于在高山环境这类在现实中需要做出垂直高度调整的环境中与风速结合代入设置的奖励方程中求环境的奖励;最大飞行高度和最小飞行高度用于与每个环境的高度,障碍物的大小作比较,考虑到现实情况,当最大飞行高度低于环境高度或最小飞行高度高于环境高度时,在该环境处的会为很小的负值,表示无法通过。基于Q-learning的三维模型创建在程序设计的自然环境类中,需要包含地形、风速、风向、温度、光照、环境奖励这些属性,并且对每一种环境设置环境奖励方程,该方程由无人机中有影响的环境类属性组成,用于求该环境的回报奖励。其中,地形主要参数设置为高度,考虑到实际地形作为判断无人机能否通过该环境的首要因素;风向和风向结合,风速分为顺风和逆风两种,用1来表示顺风,-1来表示逆风,作为风速的系数,风速大小用绝对值的大小来体现;温度和光照也作为了环境奖励方程中的一部分。基于Q-learning的三维模型创建在程序设计的障碍物类中要设置位置、大小、轮廓顶点等属性。其中位置用x,y,z来表示,用于确定障碍物在设置的地图中的坐标;大小类似于环境类中的地形,将它设置为高度;轮廓顶点则用于表示该障碍物会占用他自身坐标周围多少个格子数。基于Q-learning的三维模型创建在定义多种相关的环境类时需要用到继承和多态。在定义自然环境类时,首先定义一个基类,包含要求的各种基本属性和计算环境回报奖励的虚函数,在这之后定义环境类基类的七个派生类,分别是高山环境类,用以模拟地形过高的环境;平原环境类,用以模拟地形过低的环境;顺风环境类,用以模拟风向为正方向,风速系数为正值的环境;逆风环境类,用以模拟风向为反方向,风速系数为负值的环境;沙漠环境类,用以模拟温度过高,光照过强的环境;极地环境类,用以模拟温度过低,光照过弱的环境;光照异常环境类,用以模拟各处栅格的光照差异过大的环境。在每个派生类中,都依据基类中定义的虚函数进行了函数的重载,以实现在每种派生类中由于模拟的环境的不同导致的对环境奖励回报方程的不同写法,从而实现继承和多态。训练过程Q-table是一张表,存储着无人机的每一个状态下执行不同行为时的预期奖励。在路径规划训练中,对于固定的一张地图,无人机的状态可以由向量(x,y,z)表示其位置,现实世界是不变的,所以不算作状态;在程序设计中,数组Q-tablexyzi代表智能体在(x,y)位置下执行动作i时的预期奖励,由于是三维空间,i有26个值。训练过程优化决策的过程由马尔科夫决策过程对Q-table进行优化。该过程的核心方程如公式:即:执行一个策略之后无人机从x,y,z
移动到x1,y1,z1
点,那么在状态x,y,z
下执行动作i
的奖励就是:下一个行为本身的收益+走到下一个方格之后,最好的预期收益。上式中,rate为一个比例系数,决定了预期收益的权重。本算法中取0.8。训练过程贪心系数Greedy=0.2。Q-learning本质上是贪心算法。但是如果每次都取预期奖励最高的行为去做,那么在训练过程中可能无法探索其他可能的行为,甚至会进入“局部最优”,无法完成游戏。所以,由贪心系数使得无人机有Greedy的概率采取最优行为,也有一定概率探索新的路径。训练过程
训练过程在巡线训练中,无人机经过的每一栅格都有由环境所得的奖励作为该位置的分数。按照如上的训练策略,本例在最终测试前进行3000次训练,以得到尽可能准确的Q-table表,使得无人机在最终测试时能够走最优航线。通过训练得到尽可能准确的Q-table表以后,就可以测试验证训练结果,将最终走出的最优路径输出。由于可能遇到局部最优的问题,所以如果最大的Q-table值无法走出,就原路返回,寻找第二大的Q-table值,如此直到走出循环,从而解决局部最优的问题。其次需要注意的问题是Q-table数组要足够大,否则将无法完成训练。路径规划实现结果由于算法得出的结果与训练次数有关,训练次数越多,其规划最优路线的效果越好,所以本例程序中设定训练次数为3000次。每一次训练中还包括执行步数,即算法做出的决策及其相应的奖励,本例执行步骤设置了上限80,每次训练走到终点或者走够80步时结束,如图8-2所示。每次飞行中的飞行方向以及经过地方对应的位置坐标可以记录,如下一页图像所示。路径规划实现结果训练步数结果飞行路径记录路径
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房地产行业意识形态工作实施方案
- 小初衔接课外活动方案
- 燃煤经济效益分析与方案
- 幼儿园接送车辆安全管理制度
- 智能化医疗服务平台方案
- 温室屋面天沟排水系统方案
- 短租房屋诚意金协议书
- 智能酒店管理系统方案
- 2024年桥架安装协议模板
- 2024复合原料运输协议范本
- 病理学实验2024(临床 口腔)学习通超星期末考试答案章节答案2024年
- 半期评估试卷(1-4单元)-2024-2025学年四年级上册数学北师大版
- 门诊导诊课件
- python程序设计-说课
- 事业单位处分条例2021事业单位工作人员处分条例
- 《脑出血》PPT课件(完整版)
- 大班科学活动《认识牙齿》ppt课件
- T∕CSCB 0005-2021 人诱导多能干细胞
- 网格员个人述职报告范文
- 温室大棚、花卉苗圃采暖项目设计方案
- 山西省蒲县高阁村煤层火灾治理工程施工组织设计(总
评论
0/150
提交评论