马尔科夫决策过程课件_第1页
马尔科夫决策过程课件_第2页
马尔科夫决策过程课件_第3页
马尔科夫决策过程课件_第4页
马尔科夫决策过程课件_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

马尔科夫决策过程(MDP)马尔科夫决策过程(MDP)1目录强化学习简介马尔科夫决策过程值迭代和策略迭代马尔科夫模型的创建目录强化学习简介2简介在强化学习中,提供了一个回报函数,用于告诉learningagent的行动做的是好是坏。例如对于一个四足爬行机器人,向前移动给它奖励,翻到或者向后退就给予惩罚。强化学习可用于自动驾驶、手机网络的路由选择、营销策略的选择以及工厂控制等领域。简介在强化学习中,提供了一个回报函数,用于告诉learnin3马尔科夫决策过程

S0(始)S1S2S3S4S5S6S7S8(终)马尔科夫决策过程

S0(始)S1S2S3S4S5S6S7S84马尔科夫决策过称为整个决策过程的回报为如果回报函数只与状态有关,则回报为马尔科夫决策过称为5

6最优回报根据Bellmanequations,可以得到下式最优策略最优回报7得到最优策略在知道马尔科夫五元组的情况下,可以通过两种算法得到最优策略,即值迭代和策略迭代这里只考虑有限状态和有限动作的情况。得到最优策略在知道马尔科夫五元组的情况下,可以通过两种算法得8值迭代值迭代9两种更新值函数的方法首先为所有状态计算新的V(s),全部计算完成后,再一次性的替换原先旧的V(s).(同步更新)每计算出一个V(s),就用新的V(s)值替换旧的V(s)值。(异步更新)计算出最优值函数后,就可以根据下式计算最优策略两种更新值函数的方法10策略迭代策略迭代11值迭代与策略迭代的区别

值迭代与策略迭代的区别

12创建马尔科夫模型在之前的讨论中,状态转移概率和回报函数都是已知的,然而在实际情况中,这两个变量是未知的,需要经过实验得到。创建马尔科夫模型在之前的讨论中,状态转移概率和回报函数都是已13

14未知状态转移概率情况下MDP算法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论