第06章强化学习(1).ppt_第1页
第06章强化学习(1).ppt_第2页
第06章强化学习(1).ppt_第3页
第06章强化学习(1).ppt_第4页
第06章强化学习(1).ppt_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,Automation and Control Engineering Series,强化学习(1),1 介绍,1.3 关于本书,1.2 动态规划与强化学习中的逼近,前言(1),动态规划(DP),强化学习(RL),解决最优控制问题,需要行为模型,不需要行为模型,在一段时间里,为获得预期目标,选择哪些动作(决策)应用于系统。 目标:是优化长期性能,即与环境交互过程中的累计奖赏。 奖赏:奖赏用于评价一步决策性能。,自动控制,人工智能,运筹学,医学,经济学,应用:,自动控制:控制器接收来自过程的输出指标(状态,奖赏),通过控制器的决策,对过程采取一些动作,产生满足某种要求的行为。 决策者是控制器,系

2、统是被控制的过程。 人工智能:采取动作,通过感知和影响来监测其所处的环境。 决策者是agent,系统是agent所处的环境。,前言(2),控制器,过程,动作,输出,智能agent,环境,动作,感知,自动控制,人工智能,DP: 需要系统模型。 优点:几乎不需要对系统做任何假设,可以具有非线性和随机性。 构造模拟模型比衍生一个解析模型容易,特别是对随机情况。,前言(3),RL: 不需要系统模型。(事先对系统无法全面感知,代价太大,无法得到) 优点:系统中得到的数据来工作,不需要行为模型。 离线RL,在线RL。 如有模型,可用模型替代实际系统,产生数据。,1.1 动态规划与强化学习问题(1),DP和

3、RL问题的主要要素是通过它们之间的交互流联系在一起: 过程为控制器提供目前所处的状态。 控制器根据目前的状态,为过程提供应采取的动作。 过程给出下一状态,并根据奖赏函数,给出其获得的立即奖赏。,1.1 动态规划与强化学习问题(2),目标:避开障碍物,从底端到达右上角的目标。 控制器(agent):机器人的软件,决策算法。 过程(环境):与机器人密切相关的环境(地面、障碍物、目标等)。用于决策的物理实体、传感器和执行器。,goal,obstacle,1.1 动态规划与强化学习问题(3),状态(x):机器人的位置(直角坐标)。 动作(u):机器人走一步(直角坐标)。 迁移函数(f):从目前的位置走

4、一步,到达下一位置,遇到障碍变复杂。 奖赏函数():产生奖赏(r),评价迁移的质量。 目标:+10;障碍:-1;其他:0,可构造带更多信息的奖赏。 策略(h):从状态到动作的映射。,goal,obstacle,1.1 动态规划与强化学习问题(4),在DP和RL中,目标是使回报最大化,其中回报是由交互过程中的累积奖赏构成。 主要考虑折扣无限水平回报,即累积回报开始于初始时间步k=0,沿(可能)无限长的轨迹,对得到的奖赏值进行累积,通过一个因子0,1对奖赏加权,这个因子随着时间步的增加呈指数地减少。,goal,obstacle,“远视”程度,1.1 动态规划与强化学习问题(5),奖赏依赖于所遵循的

5、状态-动作轨迹,每个奖赏rk+1是迁移(xk,uk,xk+1)的结果,状态-动作轨迹依赖于使用的策略:,DP和RL的核心挑战 得到一个解,通过由立即奖赏构成的回报优化长期性能。 解DP/RL问题转化为找最优策略h*问题,即对每个初始状态,使其回报最大化。 得到最优策略的方法: 计算最大的回报:,1.2 动态规划与强化学习中的逼近(1),为保证表示的精确性,唯一的方法是,对每个状态-动作对,存储各自的Q函数值(Q值)。,存在问题: 对于机器人的每个位置,以及相应位置可能采取的每个走步,都必须存储其值。 因为位置和走步都是连续变化的,因此可能得到无穷多个不同的值。 使用Q函数的压缩表示。,1.2

6、动态规划与强化学习中的逼近(2),Q函数的压缩表示 步骤: 在状态空间中,定义有限个BF,1, N (径向基函数,Tile 编码,粗糙编码等)。 动作空间被离散化为有限多个动作(导航实例中,“最近邻”离散化为left, right, forward, back四个动作)。 对于每个状态动作对,不再存储各自的Q值,而是存储参数向量。一组BF和一个离散动作的结合都对应的一个参数向量 ,的维数与向量 相同。,状态依赖基函数,动作离散化,对于每个状态x,通过公式 ,计算出相对应的1, N 。 “forward”对应的向量为: 线性方法,状态动作对(x,forward)对应的近似Q值为:,1.2 动态规

7、划与强化学习中的逼近(3),状态依赖基函数,DP/RL算法只需要保存4N个参数,当N不太大时,这一点能很容易做到。 这种函数的表示方法能泛化到任意DP/RL问题。 即使对具有有限数目的离散状态和动作的问题,压缩表示可以减少值的数目,使其更容易存储。 并非所有的DP和RL算法都使用Q函数,它们通常也需要压缩表示,因此可以扩展到一般情况。,1.2 动态规划与强化学习中的逼近(4),近似表示,为了得到一个近似的最优策略,采取动作,使得Q函数最大化。 在大的或连续的状态空间中,这种优化问题潜在地存在很大的困难,通常只能被近似地解决。 使用离散动作函数时,足以计算所有的离散动作的近似Q值,通过枚举即可以找到这些Q值中的最大值。,1.2 动态规划与强化学习中的逼近(5),近似最优策略,如果算法是迭代的,使用逼近算法能否收敛?或如果算法是迭代的,它能得到一个有意义的解吗? 如果得到有意义的解,它接近最优吗?更确切地说,它距离最优解有多远? 算法是否具有一致性,即随着逼近呈指数的增长,算法是否逐渐收敛到最优解?,1.2 动态规划与强化学习中的逼近(6),需要考虑的问题,对给定的问题,选择一个适当的函数逼近器,是一个非常常见的任务。 由于函数逼近器的复杂性直接影响到DP和RL算法的存储和计算代价,因此必须对它进行有效控制。 由于越复杂的逼近器需要的数据量越大,因此在近似RL中,对得到的数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论