《人工智能基础》第八章课件_第1页
《人工智能基础》第八章课件_第2页
《人工智能基础》第八章课件_第3页
《人工智能基础》第八章课件_第4页
《人工智能基础》第八章课件_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

强化学习深度强化学习:人工智能=强化学习+深度学习强化学习成功案例AlphaGoSilveretal,Nature2015AlphaGoZeroSilveretal,Nature2017AlphaZeroSilveretal,

Nature

2017强化学习场景智能体环境观测动作A奖励R该行为禁止!!!状态S改变环境强化学习场景智能体环境观测奖励R万分感谢!智能体学习做出合适的行为来最大化累计奖励/how-to-clean-site-structure/状态S动作A改变环境机器学习≈寻找某个函数环境观测动作A奖励R函数

输入选择最佳函数函数输出动作A

=π(观测

)行为/策略学习下围棋环境观测动作A奖励R下一步动作学习下围棋环境观测动作A奖励R胜利,R=1失败,R

=-1大多数情况下R

=0案例:玩游戏太空侵略者开火分数(奖励R)击中外星人终止:所有的外星人被击中,或者你的飞船被击毁盾强化学习的性质奖励延迟太空侵略者游戏中,只有“击中敌方”才会获得奖励但是“击中敌方”之前飞船的移动也是十分重要的围棋游戏中,先予后取的策略可能更能帮助智能体获得全局的胜利智能体的行为影响它后续接受到的数据例如:探索强化学习的数学基础是马尔可夫决策过程(MDP,Markov

Decision

Process)案例:网格世界一种类似迷宫的问题智能体位于网格中墙的位置智能体无法通过移动干扰:不是所有的动作都可以按照计划执行80%概率,向北的动作计划导致向北的行为(如果没有墙的阻碍)10%概率,向北的计划会使智能体向西;10%的概率向东若实际动作方向存在墙的阻碍,智能体停留原地智能体每一步动作都可以获得相应奖励每一步后游戏未终止可获得“较小的存活奖励”(一般为负)游戏终止时获得大的奖励(可以是好的,也可能是不好的)目标:最大化累计奖励网格世界中的动作确定性网格世界随机网格世界马尔可夫决策过程一个MDP问题含以下部分:一系列状态s

S一系列动作aA转移函数T(s,a,s’)从状态s到状态s’的概率,i.e.,P(s’|s,a)也被称为模型(model)或者动态(dynamics)奖励函数R(s,a,s’)有时候只有R(s)或者R(s’)初始状态可能的终止状态MDPs是非确定性搜索问题一种潜在的问题解决方案是期望最大化搜索新的工具即将被介绍MDP中“Markov”是什么?“Markov”大致可理解为给定当前状态,未来的状态与过去的状态无关(马尔可夫性)针对马尔可夫决策过程,“Markov”意味着动作输出只取决于当前状态就像搜索算法,继承函数只能依赖于当前状态(而不是历史)AndreyMarkov(1856-1922)策略在确定性的单智能体搜索问题中,我们希望一个最优的规划,或者说从起点到终点的一系列动作对于MDPs,我们想要最优

策略

*:S→A策略

给出每个状态下应采取的动作最优策略就是能够最大化期望奖励显式策略定义了智能体的状态动作映射累计奖励的期望最大化并不是针对整个策略,而是仅仅对单个状态而言MDP搜索树MDP中每个状态都可以投影成最大期望似然搜索树ass’s,a(s,a,s’)是转移T(s,a,s’)=P(s’|s,a)R(s,a,s’)s,a,s’s是单个状态(s,a)isaq-state序列的值针对奖励序列,智能体应该如何选择?更多还是更少?当前的还是之后的?折扣(discounting)最大化累计奖励是合理的当前奖励的权重大于未来奖励也是合理的一种解决方案:奖励值指数衰减WorthNowWorthNextStepWorthInTwoStepsMDP求解最优值函数状态s的值:V*(s)=从状态s开始采取一系列最优动作后累计奖励的期望q-状态

(s,a)的值:Q*(s,a)=从状态s开始采取行动a,并(此后)以最佳方式运行,所能获得的累计奖励的期望最优策略:

*(s)=从状态s中产生的最优动作ass’s,as,a,s’sisastate(s,a)isaq-stateDemo–网格世界中的V值Noise=0Discount=1Livingreward=0Demo–网格世界中的Q值Noise=0Discount=1Livingreward=0Demo–网格世界中的V值Noise=0.2Discount=1Livingreward=0Demo–网格世界中的Q值Noise=0.2Discount=1Livingreward=0Demo–网格世界中的V值Noise=0.2Discount=0.9Livingreward=0Demo–网格世界中的Q值Noise=0.2Discount=0.9Livingreward=0Demo–网格世界中的V值Noise=0.2Discount=0.9Livingreward=-0.1Demo–网格世界中的Q值Noise=0.2Discount=0.9Livingreward=-0.1状态值函数基本操作:计算某状态的值函数(最大化期望)最优动作下的期望值(折扣)奖励的累计平均值函数的递归定义:ass,as,a,s’s’k=0Noise=0.2Discount=0.9Livingreward=0k=1Noise=0.2Discount=0.9Livingreward=0k=2Noise=0.2Discount=0.9Livingreward=0V(K)

V(k+1)up

=

(0.8x(0+0.9x0))

+

(0.1x(0+0.9x0))

+

(0.1x(0+0.9x1))

=

0.01

down

=

(0.8x(0+0.9x0))

+

(0.1x(0+0.9x0))

+

(0.1x(0+0.9x1))

=

0.01left

=

(0.8x(0+0.9x0))

+

(0.1x(0+0.9x0))

+

(0.1x(0+0.9x0))

=

0right

=

(0.8x(0+0.9x1))

+

(0.1x(0+0.9x0))

+

(0.1x(0+0.9x0))

=

0.72V(k+1)

=

max_a

(0.01,0.01,0,0.72)

=

0.72,

action

is

rightk=3Noise=0.2Discount=0.9Livingreward=0k=4Noise=0.2Discount=0.9Livingreward=0k=5Noise=0.2Discount=0.9Livingreward=0k=6Noise=0.2Discount=0.9Livingreward=0k=7Noise=0.2Discount=0.9Livingreward=0k=8Noise=0.2Discount=0.9Livingreward=0k=9Noise=0.2Discount=0.9Livingreward=0k=10Noise=0.2Discount=0.9Livingreward=0k=11Noise=0.2Discount=0.9Livingreward=0k=12Noise=0.2Discount=0.9Livingreward=0k=100Noise=0.2Discount=0.9Livingreward=0值迭代从V0(s)=0开始:期望奖励和为0已知当前Vk(s),采取一次动作,并用状态的期望最大累计奖励更新V(s):重复直至收敛每一步迭代的复杂度:O(S2A)最终收敛到唯一最优点aVk+1(s)s,as,a,s’Vk(s’)强化学习强化学习基本思想:以奖励的形式接受反馈智能体的能力定义为奖励函数最大化期望奖励所有的学习都是基于观测到样本的输出环境智能体动作:a状态:s奖励:r时间差分学习(TemporalDifferenceLearning)理念:从每一次的经验中学习每次经历一次实验(s,a,s’,r)都会更新V(s)可能的结果s’将更频繁地提供更新值函数时间差分法固定策略同样状态动作下的值函数将会以滑动平均的形式更新(s)ss,(s)s’SampleofV(s):UpdatetoV(s):Sameupdate:指数移动平均指数移动平均

插值更新:就近的采样结果所占权重更大:丢掉过去的信息(久远的值更有可能是错误的)衰减学习率(alpha)有助于给出收敛均值Q值迭代值迭代:查找连续(深度限制)值从V0(s)=0开始给定Vk,计算状态k+1时刻的值:但Q值更有用,因而计算该值从Q0(s,a)=0开始给定Qk,计算k+1时刻Q值:Q

LearningQ-Learning:基于采样的Q值迭代学习Q(s,a):进行一次实验(s,a,s’,r)考虑估计值的过去:考虑新的估计值:滑动平均:QLearning性质神奇的结果:当你动作为次优时Q-learning也会收敛到最优策略这是一种

off-policylearning注意事项:必须进行足够的探最终学习率应该足够小…但不应该下降太快一般的,如何选择动作并不重要,在上述限制情况下(!)Epsilon-贪婪策略每一步智能体都要选择一个动作智能体以1–epsilon的概率选择最优的行为以epsilon的概率随机选择动作Q-learning中,贪婪策略是给定状态St+1时最大化Q值的动作总结:MDP和强化学习已知MDP:离线解决方案目标

技术计算

V*,Q*,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论