1强化学习介绍详解_第1页
1强化学习介绍详解_第2页
1强化学习介绍详解_第3页
1强化学习介绍详解_第4页
1强化学习介绍详解_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

强化学习介绍简介一种能够让机器解决科学或经济方面学习问题的设计方案,并通过数学分析或计算实验来评估的方法称为强化学习。从交互中进行,以目标为导向。强化学习介绍学习者不被告知采取哪个动作,而是通过尝试来发现获得最大奖赏的动作。agent必须尝试各种动作,并且渐渐趋近于那些表现最好的动作,以达到目标。强化学习介绍监督学习是从样例中学习,样例是由富有知识的外部监督者提供的。这是一种重要的学习方法,但是它不能单独地用于交互学习。强化学习没有外部指导者,是在交互中,从自身经验中学习。强化学习挑战学习者必须尝试各种动作,并且渐渐趋近于那些表现最好的动作,以达到目标。尝试各种动作即为试错,也称为探索趋近于好的动作即为强化,也称为利用探索与利用之间的平衡,是强化学习的一个挑战。探索多了,有可能找到差的动作,探索少了,有可能错过好的动作。总体趋势:探索变少,利用变多监督学习中根本就不存在探索和利用的平衡问题,样例学习阶段之后,就只有利用了。例子一个机器人决定:1、进入一个新房间去寻找更多垃圾,2、寻找一条回去充电的路。它根据以前找到充电器的快慢和难易程度来作决定。这是以前与环境交互得到的经验强化学习关键特征强化学习明确整个问题时一个以目标为导向的agent与不确定环境交互问题例子五子棋:棋手通过数学公式计算,发现位置1比位置2价值大,这是强化学习吗?这不叫强化学习,叫规划如果通过几次尝试,走位置1比走位置2赢棋的可能大,得出经验,则为强化学习例子小牛羚在出生后几分钟内挣扎着站起来。半小时后,每小时能跑几十公里例子一个进行石油提炼操作的搅拌控制器。该控制器逐步优化产量/成本/质量之间的平衡而不是严格按照工程师的最初设置来搅拌。例子走到电梯门口,发现等电梯的人很多选择:1等电梯;2走下去根据经验来选择,是强化学习例子家长一直采用严厉的方法对待子女,从不尝试平和的方式对待子女。或许错过了采取更好动作的机会(如平和的教育方式)。例子这些例子中,随时间推移,学习者利用它获得的经验不断提高自己的性能。简言之,强化学习就是试出来的经验。自主学习分析一下动物自主学习的特点:

1、试错:尝试不同的做法(动作)

2、强化:有好处多做,没有好处少做

3、目标:是动物努力的方向,目标导向动物(学习者)必须尝试各种动作,并且渐渐趋近于那些表现最好的动作,以达到目标。相关定义为便于研究,定义几个概念

agent(学习的主体,如小猫、小狗、人、机器人、控制程序等)agent以目标为导向,与不确定的环境之间进行交互,在交互过程中强化好的动作,获得经验。agent特点

1、能感知环境的状态

2、选择动作(可能会影响环境的状态)

3、有一个目标(与环境状态有关的)相关定义agent的目标导向与许多其他学习方法相比,其他方法只考虑了子任务,而没有解决怎样可以把这些子任务整合到一个更大的框架中。而强化学习是以最终目标为导向的,可以把不同的子任务整合到一个大框架中。强化学习的基本要素策略奖赏函数值函数环境模型强化学习的基本要素策略定义了agent在给定时间内的行为方式,一个策略就是从环境感知的状态到在这些状态中可采用动作的一个映射。可能是一个查找表,也可能是一个函数强化学习的基本要素奖赏函数是强化学习问题中的目标,它把环境中感知到的状态映射为单独的一个奖赏奖赏函数可以是改变策略的基础。强化学习的基本要素值函数:一个状态的值一个agent从那个状态开始到将来预期的累积的奖赏和。在决策和评价决策中考虑最多的是值。强化学习的基本要素环境模型模拟了环境的行为,即给定一个状态和动作,模型可以预测必定导致下一个状态和下一个奖赏。模型一般用于规划。规划是算出来的,强化学习是试出来的。将模型和规划结合到强化学习是一个新进展,也是我们学习研究的重要内容。强化学习介绍本书中所有强化学习方法围绕估计值来组织,但这不是解决强化学习问题所必须的。直接在策略空间中搜索而不利用值函数的方法称为进化方法。适合用在策略空间比较小或者策略空间被构造地很好地情况下。例子:Tic-Tac-Toe初始1→0.52→0.53→0.54→0.5

。。。

39→0.5当前1→0.52→0.53→0.5S4→0.5

。。。100→1S’

。。。

39→0.5不断对弈,不断更新估计例子:Tic-Tac-Toe

更新贪心走棋之前的状态s:例子:Tic-Tac-Toe

强化学习关键特征学习时与环境交互(本例中与对手交互)有一个清晰的目标强化学习历史主要有两条线路一条线路关注试错学习,以动物心理学为起点。(贯穿人工智能早期)另一条线路关注最优控制问题以及使用值函数和动态规划的解决方案。强化学习历史最优控制描述的问题是如何设计一个控制器来随时间而最小化动态系统的行为计量一个解决这个问题的方法是使用动态系统中状态和值函数的概念来定义一个函数方程,即贝尔曼方程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论