




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
强化学习入门第二讲郭宪2017.3.4强化学习的形式化强化学习目标:
环境机器人观测回报r动作
新的状态S状态转移概率
马尔科夫决策问题(MDP):四元组
策略:常采用随机策略:
累积回报:
折扣回报:
值函数最优策略:
序贯决策问题强化学习方法分类序贯决策问题马尔科夫决策过程MDP
基于模型的动态规划方法无模型的强化学习方法
策略迭代值迭代策略搜索本节讲基于模型的策略迭代算法和值迭代算法策略搜索offlineonline策略迭代offlineonline值迭代offlineonline动态规划动态规划是一类算法:包括离散和连续。动态:蕴含着序列决策规划:蕴含着优化,如线性优化,二次优化或者非线性优化。动态规划可以解决的问题:1.整个优化问题可以分解成多个子优化问题2.子优化问题的解可以被存储和重复利用马尔科夫决策过程(MDP),贝尔曼最优性原理,得到贝尔曼最优化方程:
动态规划可以解决MDP的问题核心:动态规划通过值函数来迭代构造最优解策略评估(policyevaluation)给定策略构造值函数:
模型已知,方程组中只有值函数是未知数,方程组是线性方程组。未知数的数目等于状态的数目。采用数值迭代算法策略评估(policyevaluation)
高斯-赛德尔迭代策略评估算法输入:需要评估的策略状态转移概率回报函数,折扣因子
初始化值函数:
Repeatk=0,1,…
foreverysdo
Until
输出:
一次状态扫描[1][2][3][5][4][6][7][8]策略评估(policyevaluation)策略评估算法输入:需要评估的策略状态转移概率回报函数,折扣因子
初始化值函数:
Repeatk=0,1,…
foreverysdo
Until
输出:
一次状态扫描状态空间:S={1,2..14}动作空间:{东,南,西,北}回报函数:-1,直到终止状态均匀随机策略:
1234567810911121314动作MDP策略评估算法输入:需要评估的策略状态转移概率回报函数,折扣因子
初始化值函数:
Repeatk=0,1,…
foreverysdo
Until
输出:
一次状态扫描策略评估(policyevaluation)-1.0-1.0-1.0-1.0-1.0-1.0-1.0-1.0-1.0-1.0-1.0-1.0-1.0-1.0K=10.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.0K=00.0-1.7-2.0-2.0-2.0-2.0-2.0-2.0-1.7-2.0-2.0-1.7-2.0-2.0-1.7K=20.00.0-2.4-2.9-3.0-2.9-2.9-3.0-2.9-2.4-2.9-3.0-2.4-3.0-2.9-2.4K=30.00.0策略改进(policyimprovement)计算策略值的目的是为了帮助找到更好的策略,在每个状态采用贪婪策略。
-14-20-22-20-18-20-18-14-20-20-14-22-20-140.00.0
0.00.0-6.1-8.4-9.0-8.4-7.7-8.4-7.7-6.1-8.4-8.4-6.1-9.0-8.4-6.1K=100.00.00.00.0
max
策略迭代(policyiteration)策略评估策略改进
Policyimprovement策略迭代算法输入:状态转移概率回报函数,折扣因子
初始化值函数:初始化策略
输出:Repeatl=0,1,…
find
Policyevaluation
Until
[1][2][3][5][4][6]值函数迭代策略改进一定要等到值函数收敛吗?当K=1时便进行策略改进,得到值函数迭代算法
-6.1-8.4-9.0-8.4-7.7-8.4-7.7-6.1-8.4-8.4-6.1-9.0-8.4-6.1K=100.00.00.00.0
0.00.0-14-20-22-20-18-20-18-14-20-20-14-22-20-140.00.0
输入:状态转移概率回报函数,折扣因子
初始化值函数:初始化策略
输出:
UntilRepeatl=0,1,…
foreverysdo
[1][2][3][5][4][6]值函数迭代与最优控制输入:状态转移概率回报函数,折扣因子
初始化值函数:初始化策略
输出:
UntilRepeatl=0,1,…
foreverysdo
值函数迭代算法状态方程:性能指标函数:最优控制问题:Bellman最优性原理:2.利用变分法,将微分方程转化成变分代数方程,在标称轨迹展开,得到微分动态规划DDP1.将值函数进行离散,进行数值求解。值函数迭代与最优控制输入:状态转移概率回报函数,折扣因子
初始化值函数:初始化策略
输出:
UntilRepeatl=0,1,…
foreverysdo
值函数迭代算法此式是关于值函数的偏微分方程,利用数值算法可进行迭代计算值函数。From胡亚楠博士论文值函数迭代与最优控制输入:状态转移概率回报函数,折扣因子
初始化值函数:初始化策略
输出:
UntilRepeatl=0,1,…
foreverysdo
值函数迭代算法
贪婪策略:
利用变分法,将微分方程转化成变分代数方程微分动态规划方法微分动态规划:1.前向迭代:给定初始控制序列正向迭代计算标称轨迹2.反向迭代:由代价函数边界条件反向迭代计算(1),(2),(3)得到
序列
(1)(3)(2)3.正向迭代新的控制序列:值函数迭代与最优控制输入:状态转移概率回报函数,折扣因子
初始化值函数:初始化策略
输出:
UntilRepeatl=0,1,…
foreverysdo
值函数迭代算法微分动态规划:1.前向迭代:给定初始控制序
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年抚州市妇幼保健所招聘编制外人员笔试真题
- 公司发展战略规划与实施建议
- 再生混凝土作为建筑材料的施工应用与效果研究
- 家具管企业制定与实施新质生产力战略研究报告
- 图书馆与档案馆行业跨境出海战略研究报告
- 征收估价服务行业直播电商战略研究报告
- 水利水电工程监理服务企业制定与实施新质生产力战略研究报告
- 开挖土方工程行业跨境出海战略研究报告
- 钓鱼项目组织与服务企业制定与实施新质生产力战略研究报告
- 弱电工程设计企业制定与实施新质生产力战略研究报告
- 2025年江苏省安全员B证考试题库附答案
- 科级试用期满工作总结(4篇)
- 历史-安徽省蚌埠市2025届高三年级第二次教学质量检查考试(蚌埠二模)试题和答案
- 2025年从大模型、智能体到复杂AI应用系统的构建报告-以产业大脑为例-浙江大学(肖俊)
- 2025年浙江省金华市中考一模数学模拟试题(含答案)
- 2024年国家发展和改革委员会直属单位招聘考试真题
- 《中国古代神话》课件
- 供应商考核管理制度
- 外研版(2025新版)七年级下册英语期中复习:Unit 1~3+期中共4套学情调研测试卷(含答案)
- 山中问答教学设计
- 基于高中思想政治学科核心素养的教学研究与实践PPT课件
评论
0/150
提交评论