版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能导论—第2章对抗搜索第二章对抗搜索对抗搜索:博弈博弈问题极小极大方法-剪枝蒙特卡洛博弈方法232.1博弈问题博弈问题双人一人一步双方信息完备零和4分钱币问题(7)(6,1)(5,2)(4,3)(5,1,1)(4,2,1)(3,2,2)(3,3,1)(4,1,1,1)(3,2,1,1)(2,2,2,1)(3,1,1,1,1)(2,2,1,1,1)(2,1,1,1,1,1)对方先走我方必胜5中国象棋一盘棋平均走50步,总状态数约为10的161次方。假设1毫微秒走一步,约需10的145次方年。结论:不可能穷举。602.2极小极大过程5-333-3022-30-23541-30689-30-33-3-3-21-36-30316011极大极小ab0272.3-剪枝极大节点的下界为。极小节点的上界为。剪枝的条件:后辈节点的值≤祖先节点的值时,剪枝后辈节点的值≥祖先节点的值时,剪枝简记为:极小≤极大,剪枝极大≥极小,剪枝8486-315035-剪枝(续)-33-3022-30-2309-300-303305411-31661abcdefghijkmn2.4蒙特卡洛博弈方法为什么-剪枝方法在围棋上失效?-剪枝方法存在的问题依赖于局面评估的准确性局面评估问题大量专家知识知识的统一性问题人工整理9围棋落子模型围棋对弈过程可以看做一个马尔科夫过程:五元组:{T,S,A(i),P(·|i,a),r(i,a)}T:决策时刻S:状态空间,S={i}A(i):可行动集合(可落子点)P(·|i,a):状态i下选择行动a的概率r(i,a):状态i下选择行动a后课获得的收益10蒙特卡洛方法二十世纪40年代中期S.M.乌拉姆和J.冯·诺伊曼提出的一种随机模拟方法多重积分矩阵求逆线性方程组求解积分方程求解偏微分方程求解随机性问题模拟11蒲丰投针问题1777年法国科学家蒲丰提出一种计算π的方法:取一张白纸,在上面画上许多条间距为d的等距平行线,另取一根长度为l(l<d)的针,随机地向该纸上投掷针,并记录投掷次数n以及针与直线相交的次数m,据此计算π值。1213dlxα(x,α)决定了针的位置针与直线的相交条件:x≤(l/2)·sinα其中:x∈[0,d/2],α∈[0,π]黄颜色部分与长方形面积之比即为针与直线相交的概率14d/2πα015蒙特卡洛评估从当前局面的所有可落子点中随机选择一个点落子重复以上过程直到胜负可判断为止经多次模拟后,选择胜率最大的点落子16蒙特卡洛规划解决马尔科夫决策问题的有效方法之一基本思想与特点:将可能出现的状态转移过程用状态树表示从初始状态开始重复抽样,逐步扩展树中的节点某个状态再次被访问时,可以利用已有的结果,提高了效率在抽样过程中可以随时得到行为的评价17蒙特卡洛规划的步骤选择从根节点出发自上而下地选择一个落子点扩展向选定的点添加一个或多个子节点模拟对扩展出的节点用蒙特卡洛方法进行模拟回溯根据模拟结果依次向上更新祖先节点估计值18更新过程设ni为当前要模拟的节点,△为模拟获得的收益对ni及其祖先的模拟次数加1ni的收益加△更新ni的祖先的收益,同类节点加△,非同类节点减△(这里节点的类型按照极大极小节点划分)19蒙特卡洛规划算法流程20选择落子点的策略两方面的因素:对尚未充分了解的节点的探索对当前具有较大希望节点的利用21多臂老虎机模型22多臂老虎机模型1952年Robbins提出的一个统计决策模型多臂老虎机多臂老虎机拥有k个手臂,拉动每个手臂所获得的收益遵循一定的概率且互不相关,如何找到一个策略,使得拉动手臂获得的收益最大化用于解决蒙特卡洛规划中选择落子点的问题23信心上限算法UCB1functionUCB1
foreach手臂j:
访问该手臂并记录收益
endfor
while
尚未达到访问次数限制do:
计算每个手臂的UCB1信心上界Ij
访问信心上界最大的手臂
endwhile24其中:是手臂j所获得回报的均值n是到当前这一时刻为止所访问的总次数是手臂j到目前为止所访问的次数上式考虑了“利用”和“探索”间的平衡25信心上限树算法UCT将UCB1算法应用于蒙特卡洛规划算法中,用于选择可落子点可落子点不是随机选择,而是根据UCB1选择信心上限值最大的节点实际计算UCB1时,加一个参数c进行调节:26引入符号:v:节点,包含以下信息:s(v):v对应的状态a(v):来自父节点的行为Q(v):随机模拟获得的收益N(v):v的总访问次数27信心上限树算法(UCT)
functionUCTSEARCH(S0)
以状态S0创建根节点v0;
while
尚未用完计算时长do:vl=TREEPOLICY(v0);
△=DEFAULTPOLICY(s(vl));BACKUP(vl,△);
endwhile
returna(BESTCHILD(v0,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年临时员工派遣协议范本
- 2025年借壳上市交易合作协议
- 2025年仓储干果坚果保管合同
- 2025年售房合同解除协议
- 2025年死因赠与合同的咨询平台
- 2025年食堂食材采购与社区支持农业合同范本大全3篇
- 2025版生物质木屑颗粒燃料买卖合同4篇
- 二零二五年度不动产抵押担保物业管理合同样本3篇
- 2025版微股东众筹入股协议书-新能源开发项目专用3篇
- 二零二五年度科研实验室租赁合同租金调整与设备配置补充协议
- 《中华民族多元一体格局》
- 2023年四川省绵阳市中考数学试卷
- 南安市第三次全国文物普查不可移动文物-各乡镇、街道分布情况登记清单(表五)
- 选煤厂安全知识培训课件
- 项目前期选址分析报告
- 急性肺栓塞抢救流程
- 《形象价值百万》课件
- 红色文化教育国内外研究现状范文十
- 中医基础理论-肝
- 小学外来人员出入校门登记表
- 《土地利用规划学》完整课件
评论
0/150
提交评论