计算机博弈算法与编程 课件 7Q学习算法_第1页
计算机博弈算法与编程 课件 7Q学习算法_第2页
计算机博弈算法与编程 课件 7Q学习算法_第3页
计算机博弈算法与编程 课件 7Q学习算法_第4页
计算机博弈算法与编程 课件 7Q学习算法_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

7Q学习算法强化学习:强化学习是程序通过经验学习行为知识的机器学习方法。智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏来指导行为,其目标是使智能体获得最大的奖赏。Q学习算法在设计强化学习系统时主要考虑以下三方面的内容:(1)如何表示状态空间和动作空间。(2)如何选择建立信号以及如何通过学习来修正不同状态—动作对的值。(3)如何根据这些值来选择合适的动作。Q学习算法Q-学习算法是强化学习算法中基于价值的算法,Q即为Q(s,a),就是在某一个时刻的state状态下,采取动作a能够获得收益的期望,环境会根据agent的动作反馈相应的奖赏(reward),所以算法的主要思想就是将state和action构建成一张Q表来存储Q值,然后根据Q值来选取能够获得最大收益的动作。如果有适当的方法计算出评分值Q,那么只需要找出一个合适的行动a使得Q的值为最大,这样就可以确定最优行动策略。Q学习算法Q表实际上就是状态、动作、与估计的未来奖励之间的映射表Q学习算法Q学习案例Q学习算法Q表数据Q学习算法奖励公式更新公式Q学习算法Q学习算法过程Q学习算法的基本过程如下:(1)设置参数γ,并初始化奖励矩阵R。(2)将Q表初始化为0。(3)For每一个过程随机选择一个初始状态 DoWhile(目标状态未达到)

从当前状态的所有可能的动作中,选择一个动作

使用这一个动作,达到下一个状态

在下一个状态的所有可能动作中,选一个Q值最大的动作

按奖励公式和更新公式计算Q值

设置下一个状态为当前状态 EndDoEndForQ学习算法利用矩阵Q的算法如下:(1)设置当前状态=初始状态。(2)从当前状态开始,寻找具有最高Q值的动作。(3)设置当前状态=下一个状态。(4)重复步骤(2)和(3),直到当前状态=目标状态。Q学习算法TicTacToe学习过程在计算机博弈游戏的Q学习算法中,action可以通过可下位置来确定,state则可以通过利用Hash表计算当前局面的H

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论