下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于强化学习的神经网络的船舶模型航行速度自适应控制研究
0重要的机器学习方法强化学习是一项重要的机械学习方法,在机器人控制、分析和预测等领域有许多应用。在传统的机器学习分类中没有提到过强化学习,而在连接主义学习中,把学习算法分为三种类型,即非监督学习(unsupervisedlearning)、监督学习(supervisedleaning)和强化学习。1加强学习1.1环境提供的强化信号所谓强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大。强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是对产生动作的好坏所作的一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcementlearningsystem)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。1.2强化学习过程强化学习是从动物学习、参数扰动自适应控制等理论发展而来的,其基本原理是:如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强。强化学习的基本模型如图1所示。Agent的目标是对每个离散状态发现最优策略以使期望的折扣奖赏和最大。强化学习把学习看作试探评价过程,可用图1描述。Agent选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给Agent,Agent根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化值。强化学习系统学习的目标是动态地调整参数,以达到强化信号最大。若已知∂r/∂A信息,则可使用监督学习算法。因为强化信号r与Agent产生的动作A没有明确的函数形式描述,所以梯度信息∂r/∂A无法得到。因此,在强化学习系统中,需要某种随机单元,使用这种随机单元,Agent在可能动作空间中进行搜索并发现正确的动作。1.3在线环境建模每一个自主体由两个神经网络模块组成,即行动网络和评估网络。行动网络根据当前的状态决定下一个时刻施加到环境上去的最好动作。对于行动网络,强化学习算法允许它的输出结点进行随机搜索。有了来自评估网络的内部强化信号后,行动网络的输出结点即可有效地完成随机搜索并且选择好的动作的可能性大大地提高,同时可以在线训练整个行动网络。用一个辅助网络来为环境建模,评估网络根据当前的状态和模拟环境预测标量值的外部强化信号,这样它可单步和多步预报当前由行动网络施加到环境上的动作强化信号,可以提前向动作网络提供有关候选动作的强化信号,以及更多的奖惩信息(内部强化信号),以减少不确定性并提高学习速度。网络结构如图2所示。进化强化学习对评估网络使用时序差分预测方法TD(λ)和反向传播BP算法进行学习,而对行动网络进行遗传操作,使用内部强化信号作为行动网络的适应度函数。网络运算分两个部分,即前向信号计算和遗传强化计算。在前向信号计算时,对评估网络采用时序差分预测方法。由评估网络对环境建模,可以进行外部强化信号的多步预测,评估网络提供更有效的内部强化信号给行动网络,使它产生更恰当的行动。内部强化信号使行动网络、评估网络在每一步都可以进行学习,而不必等待外部强化信号的到来,从而大大地加速了两个网络的学习。2加强船舶速度跟踪学习神经控制2.1强化学习神经控制器对船速偏差的控制信号实际船模航行速度与船模测量速度允许公差为±2km/h。控制目标的实现以船速控制为核心,即通过提供合适的控制信号(正向加速信号/制动控制信号)使得所产生的速度V跟随参考船速Vref,如图3所示。由船速偏差分别得出船速变化率及强化学习神经控制的外部再励信号,强化学习神经控制器根据这些信息输出能使实际船速跟踪控制信号——正向加速信号/制动控制信号。如果控制信号>0,则控制螺旋桨正向转动;如果控制信号<0,则控制螺旋桨反向转动进行制动,从而控制并调节试验船模的速度。2.2船速误差e仿真动作神经网络与评价神经网络都采用3层网络结构的BP神经网络。动作神经网络(速度跟踪控制器)结构为N3[2,-5,-1]。输入为船模的船速偏差e与船速变化率U,输出控制信号α。隐层与输出层的激励函数分别采用对称型sigmoid函数与线性函数。评价神经网络结构为N3[3,-7,-1]。输入为船速偏差e、船速变化率与输出控制信号α,输出为评价函数J。隐层与输出层也均使用对称型sigmoid函数。在仿真中,使用随机产生速度数值的目标信号训练控制器。经基于随机产生目标信号的学习来训练的控制器将有一个很大的动态跟踪范围,并且在训练后能够跟踪几乎任何类型信号。同时用带有随机选择初始权重的控制器来训练判断网络,然后在动作网络训练后再次训练判断网络,不断重复此过程直至得到一个令人满意的控制器(动作网络)。最后,通过使用由评价网络(最小化评价网络输出)提供的输出信号来训练动作网络而获取最优控制器。图4分别给出混合状态流速船速跟踪实际输出(a)、船速跟踪误差(b)与相应的正向加速信号和反向制动信号(c)。其中,为图示方便,反向制动信号反转恢复为正值,如(c)中虚线所示。仿真结果表明,系统能取得对参考船模的良好跟踪控制。3基于船模的自动学习初步研究表明,强化学习神经控制技术可以作为速度跟踪控制的新型方法。此方法采用基于动作网络/评价网络结构的强化学习过程开发神经网络自适应船速跟踪控制器。这种方法只需要少量的系统先验知识,并且在网络完全训练好后,所开发的控制器具有以下几方面性能:(1)能根据实际船模数据自动学习与船模跟踪有关的复杂的动态与非线性规律,不需要系统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版四年级上册数学第六单元《除数是两位数的除法》测试卷含答案【预热题】
- 泸州房屋出租合同(35篇)
- 小学送教下乡活动方案(3篇)
- 有关大学认识实习报告(3篇)
- 让学生感受语文的魅力
- 2024年衢州春节美陈新城展示合同2篇
- 语文大专学习资料卷
- 调峰天然气订购
- 财务稳健保证书
- 购房合同附录收楼入住规定
- 20190815MVP智能阀门定位器(3500)说明书
- (高清版)TDT 1044-2014 生产项目土地复垦验收规程
- 2023年上海市公务员录用考试《行测》真题(b类)答案解析(完整)
- 脑梗死一病一品实施方案
- 职业生涯规划书成长赛道
- 2024新人教版初中英语单词表汇总(七-九年级)中考复习必背
- 2024年宠物健康护理员考试题库
- 潞安集团招聘试题
- 诊所中药饮片清单
- 艺术地坪行业现状分析
- 《中国失眠障碍诊断和治疗指南》解读
评论
0/150
提交评论