版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
6UCT算法UCT算法(UpperConfidenceBoundApplytoTree),即上限置信区间算法,是一种博弈树搜索算法,该算法将蒙特卡洛树搜索(Monte—CarloTreeSearch,MCTS)方法与UCB公式结合,在超大规模博弈树的搜索过程中相对于传统的搜索算法有着时间和空间方面的优势。6UCT算法UCT(UpperConfidenceboundsappliedtoTrees)的算法,是匈牙利国家科学院计算机与自动化研究所(位于布达佩斯)的列文特·科奇什(LeventeKocsis)与加拿大阿尔伯塔大学(UniversityofAlberta,位于埃德蒙顿)的乔鲍·塞派什瓦里(CsabaSzepesvári)合作提出的,是著名的蒙特卡罗方法(MonteCarlomethod)的扩展应用。6UCT算法示意图6UCT算法
UCT算法与传统搜索技术的最大区别在于不同的分支可以有不同的搜索深度。 UCT算法在不同的深度获取评估值.对于最有“希望”求解问题的分支,UCT算法的搜索深度可以很深(远大于d),而对于“希望”不大的分支,其搜索深度可以很浅(远小于d)。
当最有“希望”求解问题的分支数量远少于“希望”不大的分支数量时,UCT算法就可以把搜索资源有效地用于最有“希望”求解问题的分支,从而获得比传统搜索算法更深的有效深度d′。这个具有神奇力量的“希望”是由树内选择策略计算的.UCT算法四个步骤UCT算法共分四步完成:1、选择2、扩展3、模拟4、方向传播UCT算法-选择1、选择其中:
vi是以节点ni为根节点的子树的所有仿真结果的平均值,反映了根据目前仿真结果观测到的节点ni能提供的回报值的期。Ti是节点ni的访问次数,也是节点ni被树内选择策略选中的次数。∑Ti是节点n的访问次数。c是一个手工设定的常数。c的作用是平衡UCT算法的利用需求(exploitation)和探索需求(exploration)。UCT算法-扩展2、扩展扩展是将节点添加到UCT搜索树中当搜索到达叶子节点时,UCT算法执行扩展操作(Expansion):把此叶子节点允许的所有合法下一步产生的子节点,作为新的叶子节点加入到搜索树中,并正确初始化其v值和T值。UCT算法-模拟3、模拟UCT算法并没有使用额外的评估函数来获取新叶子节点的评估v值,而是使用缺省仿真策略来继续搜索直到游戏进入结束状态。此时,棋盘上每一个位置都有明确的归属,黑方赢还是白方赢可以很容易地计算出来.叶子结点的评估值就是当黑方胜时为1,白方赢为0。最简单的缺省仿真策略就是在所有的合法下一步中,均匀地随机选择下一步。用随机策略作为缺省仿真策略产生的程序棋力不高,因此大多数棋力不错的程序都采用了更加复杂的缺省仿真策略。
UCT算法-反向传播4、反向传播结果回传从叶子节点开始,沿搜索路径逐级向上更新,直到根节点。UCT算法-优势一、UCT的工作模式是时间可控的我们可以在算法执行过程中的任何时间突然终止算法,UCT算法可以返回一个差不多理想的结果。当然如果给与更为充分的时间的话,算法结果会非常逼近实际的最优值。但是这一点在alpha-beta搜索中是绝对行不通的。UCT算法-优势二、UCT具有更好的鲁棒性这是因为它使用一种平滑的方式处理搜索过程中的不确定性。在每个节点,其计算值取决于它的搜索节点序列上的所有子节点的计算值,其值是一个经过平滑的最大值的估计值。这样,由于每个子节点的计算过程都经过重新的抽样计算,不会因为个别严重偏离事实的抽样结果而对最终的结果产生致命性的影响。同时,由于算法在确定计算的节点序列时,依赖于第一层子节点的估值以及该估值的可信度。UCT算法-优势三、在UCT搜索算法的过程中,博弈树以一种非对称的形式动态扩展出来这样做有两个好处。首先,传统的博弈树扩展方式,仍然以alpha-beta搜索树为例,每向下扩展一层都意味着博弈书规模的指数型增长以及搜索时间的指数型增加。对于内存和CPU性能都有限的个人电脑来说,这一问题有的情况下是致命的。而在UCT算法搜索过程中,每次对于更深一层的扩展仅局限于搜索序列的最后一个节点。这样的UCT算法可以在扩展节点的同时不断的动态释放计算过的节点内存,使得算法运行的时间复杂性和空间复杂性可以被更好的控制。UCT算法-优势其次,正因为上述特性,对于较好的作为被选候补的节点,算法往往可以进行更为深入的搜索,同时,这种非对称性扩展完全是在算法的执行过程中自动进行的。因此,和传统的博弈树算法相比较,UCT算法有着其独有的优势,特别是当博弈树规模非常大的时候。UCT算法首次应用的围棋博弈系统,以及本文即将讨论的四国军棋博弈系统都属此例。因此,UCT搜索算法在本系统中的使用是切合实际的。MCT(UCT)算法-伪码VoidMCTS(NoderootNode){ currentNode<-rootNode while(currentNode∈T) { lastNode<-currentNode currentNode<-select(current)//选择 } lastNode<-Expand(lastNode)//扩展 R<-playSimulatedGame(lastNode)//模拟 while(currentNode∈T) { currentNode<-backPropagate(R)//反向传播 currentNode.visitCount<-currentNode.visiteCount+1 currentNode<-currentNode.parent }}ReturnbestMove//selectUCT算法-改进说明:f(ni)-与知识和模拟次数相关,例如可以为k*value/TiUCT算法-与Monte-Carlo实际比较UCT算法-应用1、开局库开发2、棋局对弈3、机器学习相结合7Q学习算法强化学习:强化学习是程序通过经验学习行为知识的机器学习方法。智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏来指导行为,其目标是使智能体获得最大的奖赏。Q学习算法在设计强化学习系统时主要考虑以下三方面的内容:(1)如何表示状态空间和动作空间。(2)如何选择建立信号以及如何通过学习来修正不同状态—动作对的值。(3)如何根据这些值来选择合适的动作。Q学习算法Q-学习算法是强化学习算法中基于价值的算法,Q即为Q(s,a),就是在某一个时刻的state状态下,采取动作a能够获得收益的期望,环境会根据agent的动作反馈相应的奖赏(reward),所以算法的主要思想就是将state和action构建成一张Q表来存储Q值,然后根据Q值来选取能够获得最大收益的动作。如果有适当的方法计算出评分值Q,那么只需要找出一个合适的行动a使得Q的值为最大,这样就可以确定最优行动策略。Q学习算法Q表实际上就是状态、动作、与估计的未来奖励之间的映射表Q学习算法Q学习案例Q学习算法Q表数据Q学习算法奖励公式更新公式Q学习算法Q学习算法过程Q学习算法的基本过程如下:(1)设置参数γ,并初始化奖励矩阵R。(2)将Q表初始化为0。(3)For每一个过程随机选择一个初始状态 DoWhile(目标状态未达到)
从当前状态的所有可能的动作中,选择一个动作
使用这一个动作,达到下一个状态
在下一个状态的所有可能动作中,选一个Q值最大的动作
按奖励公式和更新公式计算Q值
设置下一个状态为当前状态 EndDoEndForQ学习算法利用矩阵Q的算法如下:(1)设置当前状态=初始状态。(2)从当前状态开始,寻找具有最高Q值的动作。(3)设置当
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 令我敬佩的人六百字
- 仓库出库管理制度及流程
- 2024年度设备采购合同:医院医疗设备的采购与技术支持
- 二零二四年度产品代理终止协议
- 产品情况说明书
- 《自拟平喘止咳方治疗慢阻肺稳定期的回顾性研究及其干预大鼠气道炎症的机制探讨》
- 《巴托克钢琴作品《小宇宙》的作曲技法分析》
- 2024年度技术咨询与服务协议
- 《6061Al与PMMA薄板的冲击极化响应规律研究》
- 《论食品安全权的法律保护》
- 新课标改革面试题目答案(3篇)
- 2023年国家公务员录用考试《行测》真题(地市级)及答案解析
- 2024年度医疗机构照明灯具安装外包协议
- 第五单元 平行四边形和梯形 单元测试 (含答案)2024-2025学年四年级上册数学人教版
- 球星C罗培训课件
- 2024-2030年中国蓝宝石衬底行业发展可行性及投资规划分析报告版
- 湖北省鄂东南省级示范高中教育教学改革联盟学校2024-2025学年高一上学期期中联考英语试题 含答案
- 中学阶段预防青少年犯罪实施方案
- 2025届高考英语专项复习 广东省各地名校之A篇阅读理解题集(十篇含解析)
- 综合测试04小说阅读(多文本)-备战2025年高考语文一轮复习考点帮(新高考)(教师版)
- 2024年品牌授权合同:授权乙方使用甲方品牌进行产品生产与销售
评论
0/150
提交评论