信息安全技术研究中心-年-度-汇-报_第1页
信息安全技术研究中心-年-度-汇-报_第2页
信息安全技术研究中心-年-度-汇-报_第3页
信息安全技术研究中心-年-度-汇-报_第4页
信息安全技术研究中心-年-度-汇-报_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

时序差分学习在非完备信息

机器博弈中的应用王轩许朝阳哈尔滨工业大学深圳研究生院智能计算中心2007.10.3主要内容非完备信息博弈简介12时序差分在四国军旗中的应用3时序差分学习算法介绍非完备信息博弈完备信息博弈(PerfectInformationGame):中国象棋;围棋;…非完备信息博弈(ImperfectInformation

Game):四国军棋;牌类游戏:红心大战,拱猪….….非完备信息博弈树菱形表示随机节点四国军旗游戏蒙特卡罗抽样根据前面的走步来更新棋子的概率表;根据更新后的棋子概率表,为棋盘上的每个棋子随机选择棋子的种类,得到一个完备信息棋局;对该完备信息棋局进行MaxMin博弈树搜索,找到一个最佳走步;多次重复上述过程,选择选中次数最多的走步作为最终的最佳走步;概率表的建立根据112个经典布局来设定各个棋子的概率表;根据走步结果来修改棋子的概率表;为棋盘上的每个棋子都建立各自的概率表;主要内容

非完备信息博弈简介12时序差分在四国军旗中的应用3

时序差分学习算法介绍时序差分学习最早由Sutton提出;他证明时序差分学习可以和有监督学习获得同样的结果而且占用更少的内存,

收敛更快;TD最成功的应用是Tesauro

根据时序差分编制的西洋双陆棋

程序TDGammon,棋力可以和最好的人类棋手相媲美;TDGammon时序差分学习场景时序差分学习基本概念智能体(Agent)从外部环境(Environment)中读取输入(State),根据State来选择采取哪个行动(Action);外部环境根据action的结果提供给智能体一个回报值(reward);在一个阶段结束之后,智能体根据回报值,采用某个学习算法(例如时序差分学习算法)来调整自己的行为;时序差分调整算法基本概念步数t

=

1,2,3,……表示到了第几步;St

表示第t步时的棋盘状态

;w是描述棋局状态的一个向量,里面是描述棋局的各种参数(如各种棋子的基本值等);rst表示在状态St时采取某个走步所获得的回报值;在游戏结束时的回报值rsn是确定的,比如1表示赢了,-1表示输了,0表示和局;定义估值函数J(St

,w)来模拟逼近第t步时采取某个走步时的回报值rst;假设从游戏开始到结束经历了n步,则估值函数序列为:J(S1

,w),J(S2,w)….J(Sn-1,w),rsn;时序差分调整算法期望找到一个最佳向量w,使得估值函数J(S

,w)在棋局状态S下能够和真实回报值J*(S,w)之间的error最小:定义在第t步的时序差分dt如下:最后的dN-1是实际的最终结果rsn和第n-1步预测之间的差值。在一轮游戏结束时,TD(λ)利用下面的公式来更新和调整参数向量w:时序差分公式其中是估值函数J在状态St时关于参数向量w的偏导数,

α是一个0到1之间的一个正常数,控制了学习的速率;λ也是一个0到1之间的正常数,控制着时序差分更新时向前传播的百分比;主要内容

非完备信息博弈简介12

时序差分在四国军旗中的应用3时序差分学习算法介绍系统运行界面系统基本架构四国军旗系统特点搜索空间巨大;非完备信息博弈,这里采用了蒙特卡罗抽样技术来解决;搜索算法根据军棋游戏的特点,使用了历史启发搜索算法,History

Heuristics;估值函数采用时序差分学习技术进行优化估值函数的优化-时序差分估值函数是博弈程序的核心;原来的估值函数结构简单,难以有效的描述棋局;时序差分定义了一系列的描述棋盘的参数,并通过不断调整这些参数来逼近棋局的真实状况;四国军旗系统场景设计Agent是人工智能玩家;Environment外部环境是所有可能的棋局构成的集合;State是当前棋局;Action集合是在当前棋局下所有合法的走步;回报值r在游戏结束时,有3个可能的值:1,-1,0。1表示赢了,-1表示输了,0表示和局;游戏中间使用估值函数J来模拟逼近回报值r;四国军旗中的时序差分在一局游戏结束时根据时序差分学习算法进行调整;希望对从游戏开始到游戏结束所经历的每个棋局S,由估值函数J(S,w)所算出来的回报值和真实值J*之间的差值最小;例如,理想的回报值可能是这样的:S1S2……SN-1SN0.900.920.981估值函数J(S,w)得到的结果可能是:S1S2……SN-10.30.50.8

这里期望通过调整w,可是使得在每个棋局状态S,估值函数得到的结果都能够非常接近理想回报值。时序差分调整过程对游戏过程中经历的每个状态Si,

计算出J(Si,w),利用J来作为估值函数计算博弈树搜索时博弈树的各个叶节点的估值;对游戏所经历的各步,t=1,2,3,…N-1,计算出时序差分:根据时序差分公式来更新参数向量w:参数向量w为了更准确有效的描述棋盘状态S,定义了下面几组参数来构成参数向量w:棋子基本值数组:如司令的基本值为500,炸弹为300,军旗为1000等;棋子灵活性数组:如司令的灵活性为2.0,工兵的灵活性为0.8等;进攻位置加分数组:如在敌方军旗附近的位置加分,行营位置加分等;特殊组合得分:如炸弹-师长对得分,三角雷得分等;威胁-保护比例:棋子受到威胁(或受到保护)时的减分(或加分)比例等;估值函数J可以看作是一个1×n的向量v和n×1的参数向量w的内积;例如:N是(基本值数组的各个参数所对应的系数,灵活性数组的各个参数所对应的系数,…),w是(基本值数组的各个参数,灵活性数组的各个参数,…),则J=基本值数组的各个参数×基本值数组系数所对应的系数

+灵活性数组的各个参

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论