几种经典的策略梯度算法性能对比_第1页
几种经典的策略梯度算法性能对比_第2页
几种经典的策略梯度算法性能对比_第3页
几种经典的策略梯度算法性能对比_第4页
几种经典的策略梯度算法性能对比_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    几种经典的策略梯度算法性能对比    王辉于婧摘要:策略梯度函数是基于直接策略搜索的方法。它把策略参数化,并且估算优化指标相对于策略参数的梯度,然后利用该梯度来调整这些参数,最后可以获得局部最优或者局部最优策略。所以这样得到的策略可以是随机性策略也可是确定性策略。通过自主开发的gridworld策略梯度实验平台,对经典gpomdp、nac和基于td()的策略梯度算法的收敛性能进行了对比分析。关键词:强化学习;策略梯度;收敛性;仿真实验:tp181 :a :1009-3044(2014)29-6937-05abstract:the classica

2、l gradient policy function is based on direct policy searching method, in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. gpomdp, nac and td() experiments are simulated with gridworld simulation platform. the converge b

3、enchmark shows the performance of td() algorithm by help of value functions is superior to the others.key words: reinforcement learning; policy gradient; convergence; simulation experiments强化学习可以分为基于值函数方法和策略梯度方法1。基于值函数的算法,不需要显性表示学习客体(agent)的行为策略,而是通过不停地更新状态动作对的累计期望回报来得到最优值函数。在估计所得的最优值函数基础上,在整个状态、动作空

4、间内,使用贪心算法来确定当前状态迁移时所需的最优动作。值函数方法常用于对确定性策略的求解过程中,对于随机性策略的处理仍存在很大困难,比如在使用线性函数逼近器面对连续状态、动作空间环境时不能保证收敛2。策略梯度方法需要显式地表示策略函数,并且能够沿着策略梯度下降的方向持续改善和优化策略函数的参数向量。该方法能够最终逼近约束环境下的最优解。相对于值函数方法,策略梯度方法能够同时处理确定性策略和随机性策略,并且在理论上能够保证收敛。策略决定了agent在当前环境状态下对动作的选择,动作选择后agent按照某种概率分布迁移到下一个状态。环境的状态转移概率直接影响优化指标j的计算,不同的的值对应不同的j

5、值,即优化指标是一个关于的函数。直接策略搜索方法就是调整其参数,使得指标j达到最大。nac 策略梯度函数结果方差较大,并且收敛速度较慢,和原来的预期有一定的出入。从图上也可以看出,强化学习策略梯度的方法引入先验知识的重要性。学习开始的时候累计回报波动剧烈,原因是按照随机概率随意选取策略导致学习初期的时间消耗较大, 并且agent尚未探索到系统的的全部的观测到整个系统情况。参考文献:1 sutton r s,barto a g.reinforcement learning:an introductionm.mit press,1998.2 王学宁.增强学习中的直接策略搜索方法综述j.智能系统学报

6、,2007,2(1):16-24.3 baxter j,bartlett p l.direct gradient-based reinforcement learningj. circuits and systems,the 2000 ieee international symposium,2000:271-274.4 王学宁.策略梯度增强学习的理论、算法及应用研究d.长沙:国防科学技术大学,2006.5 amari s i.natural gradient works efficiently in learningj.neural computation,1998,10(2):251-27

7、6.6 peters j,schaal s.natural actor-criticj.neurocomputing,2008,71(7): 1180-1190.7 sutton r s.policy gradient methods for reinforcement learning with function approximationm.nips,1999:10571063.8 williams r j.simple statistical gradient-following algorithms for connectionist reinforcement learningj.m

8、achine learning,1992,8(3-4):229-256.9 bhatnagar s.natural actorcritic algorithmsj.automatica,2009,45(11): 2471-2482.10 sutton r s.learning to predict by the methods of temporal differencesj.machine learning,1988,3(1):9-44.endprint摘要:策略梯度函数是基于直接策略搜索的方法。它把策略参数化,并且估算优化指标相对于策略参数的梯度,然后利用该梯度来调整这些参数,最后可以获得

9、局部最优或者局部最优策略。所以这样得到的策略可以是随机性策略也可是确定性策略。通过自主开发的gridworld策略梯度实验平台,对经典gpomdp、nac和基于td()的策略梯度算法的收敛性能进行了对比分析。关键词:强化学习;策略梯度;收敛性;仿真实验:tp181 :a :1009-3044(2014)29-6937-05abstract:the classical gradient policy function is based on direct policy searching method, in which the policy is approximated with respe

10、ct to the optimization of policy gradient parameters to get a local optimal strategy. gpomdp, nac and td() experiments are simulated with gridworld simulation platform. the converge benchmark shows the performance of td() algorithm by help of value functions is superior to the others.key words: rein

11、forcement learning; policy gradient; convergence; simulation experiments强化学习可以分为基于值函数方法和策略梯度方法1。基于值函数的算法,不需要显性表示学习客体(agent)的行为策略,而是通过不停地更新状态动作对的累计期望回报来得到最优值函数。在估计所得的最优值函数基础上,在整个状态、动作空间内,使用贪心算法来确定当前状态迁移时所需的最优动作。值函数方法常用于对确定性策略的求解过程中,对于随机性策略的处理仍存在很大困难,比如在使用线性函数逼近器面对连续状态、动作空间环境时不能保证收敛2。策略梯度方法需要显式地表示策略函数

12、,并且能够沿着策略梯度下降的方向持续改善和优化策略函数的参数向量。该方法能够最终逼近约束环境下的最优解。相对于值函数方法,策略梯度方法能够同时处理确定性策略和随机性策略,并且在理论上能够保证收敛。策略决定了agent在当前环境状态下对动作的选择,动作选择后agent按照某种概率分布迁移到下一个状态。环境的状态转移概率直接影响优化指标j的计算,不同的的值对应不同的j值,即优化指标是一个关于的函数。直接策略搜索方法就是调整其参数,使得指标j达到最大。nac 策略梯度函数结果方差较大,并且收敛速度较慢,和原来的预期有一定的出入。从图上也可以看出,强化学习策略梯度的方法引入先验知识的重要性。学习开始的

13、时候累计回报波动剧烈,原因是按照随机概率随意选取策略导致学习初期的时间消耗较大, 并且agent尚未探索到系统的的全部的观测到整个系统情况。参考文献:1 sutton r s,barto a g.reinforcement learning:an introductionm.mit press,1998.2 王学宁.增强学习中的直接策略搜索方法综述j.智能系统学报,2007,2(1):16-24.3 baxter j,bartlett p l.direct gradient-based reinforcement learningj. circuits and systems,the 2000

14、 ieee international symposium,2000:271-274.4 王学宁.策略梯度增强学习的理论、算法及应用研究d.长沙:国防科学技术大学,2006.5 amari s i.natural gradient works efficiently in learningj.neural computation,1998,10(2):251-276.6 peters j,schaal s.natural actor-criticj.neurocomputing,2008,71(7): 1180-1190.7 sutton r s.policy gradient methods

15、 for reinforcement learning with function approximationm.nips,1999:10571063.8 williams r j.simple statistical gradient-following algorithms for connectionist reinforcement learningj.machine learning,1992,8(3-4):229-256.9 bhatnagar s.natural actorcritic algorithmsj.automatica,2009,45(11): 2471-2482.1

16、0 sutton r s.learning to predict by the methods of temporal differencesj.machine learning,1988,3(1):9-44.endprint摘要:策略梯度函数是基于直接策略搜索的方法。它把策略参数化,并且估算优化指标相对于策略参数的梯度,然后利用该梯度来调整这些参数,最后可以获得局部最优或者局部最优策略。所以这样得到的策略可以是随机性策略也可是确定性策略。通过自主开发的gridworld策略梯度实验平台,对经典gpomdp、nac和基于td()的策略梯度算法的收敛性能进行了对比分析。关键词:强化学习;策略梯度

17、;收敛性;仿真实验:tp181 :a :1009-3044(2014)29-6937-05abstract:the classical gradient policy function is based on direct policy searching method, in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. gpomdp, nac and td() experiment

18、s are simulated with gridworld simulation platform. the converge benchmark shows the performance of td() algorithm by help of value functions is superior to the others.key words: reinforcement learning; policy gradient; convergence; simulation experiments强化学习可以分为基于值函数方法和策略梯度方法1。基于值函数的算法,不需要显性表示学习客体(

19、agent)的行为策略,而是通过不停地更新状态动作对的累计期望回报来得到最优值函数。在估计所得的最优值函数基础上,在整个状态、动作空间内,使用贪心算法来确定当前状态迁移时所需的最优动作。值函数方法常用于对确定性策略的求解过程中,对于随机性策略的处理仍存在很大困难,比如在使用线性函数逼近器面对连续状态、动作空间环境时不能保证收敛2。策略梯度方法需要显式地表示策略函数,并且能够沿着策略梯度下降的方向持续改善和优化策略函数的参数向量。该方法能够最终逼近约束环境下的最优解。相对于值函数方法,策略梯度方法能够同时处理确定性策略和随机性策略,并且在理论上能够保证收敛。策略决定了agent在当前环境状态下对

20、动作的选择,动作选择后agent按照某种概率分布迁移到下一个状态。环境的状态转移概率直接影响优化指标j的计算,不同的的值对应不同的j值,即优化指标是一个关于的函数。直接策略搜索方法就是调整其参数,使得指标j达到最大。nac 策略梯度函数结果方差较大,并且收敛速度较慢,和原来的预期有一定的出入。从图上也可以看出,强化学习策略梯度的方法引入先验知识的重要性。学习开始的时候累计回报波动剧烈,原因是按照随机概率随意选取策略导致学习初期的时间消耗较大, 并且agent尚未探索到系统的的全部的观测到整个系统情况。参考文献:1 sutton r s,barto a g.reinforcement learning:an introductionm.mit press,1998.2 王学宁.增强学习中的直接策略搜索方法综述j.智能系统学报,2007,2(1):16-24.3 baxter j,bartlett p l.direct gradient-based reinforcement learningj. circuits and systems,the 2000 ieee international symposium,2000:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论