纯策略纳什均衡

上传人：幸*** IP属地：天津上传时间：2022-01-22 格式：DOC 页数：8 大小：48.50KB 积分：20 举报 版权申诉

已阅读5页，还剩3页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、纯策略纳什均衡纯策略纳什均衡(Pure Strategy Nash Equilibrium )编辑什么是纯策略纳什均衡纯策略纳什均衡是指在一个纯策略组合中，如果给定其他的策略不变，该节点不会单方面改变自己的策略，否则不会使节点访问代价变小。编辑存在纯策略纳什均衡的有限次重复博弈1如果重复博弈中有惟一纯策略纳什均衡，那么我们怎么找出它的纯策略纳什均衡呢？首先看下面囚徒的困境的博弈的例子：tad 不加白囚徒1坦由-5,-5O-S不坦白亠比07厂1009囚徒的困境的蟻弈我们现在考虑该博弈重复两次的重复博弈，这可以理解成给囚徒两次坦白机会，最后的得益是两个阶段博弈中各自得益之和在两次博弈过程

2、中，双方知道第一次博弈的结果再进行二次博弈用逆推归纳法来分析，先分析第二阶段，也就是第二次重复时两博弈方的选择很明显，这个第二阶段仍然是两囚徒之间的一个囚徒的困境博弈，此时前一阶段的结果已成为既成事实，此后又不再有任何的后续阶段，因此实现自身当前的最大利益是两博弈方在该阶段决策中的惟一原则.因此我们不难得出结论，不管前一次的博弈得到的结果如何，第二阶段的惟一结果就是原博弈惟一的纳什均衡（坦白，坦白），双方得益（-5，-5）现在再回到第一阶段，即第一次博弈理性的博弈方在第一阶段就对后一阶段的结局非常清楚，知道第二阶段的结果必然是（坦白，坦白），因此不管第一阶段的博弈结果是

3、什么，双方在整个重复博弈中的最终得益，都将是第一阶段的基础上各加-5.因此从第一阶段的选择来看，这个重复博弈与图I中得益矩阵表示的一次性博弈实际上是完全等价的.-10,-10-5.-13 I-1JTS6,-6囚徒2国徒1坦白不坦口坦白不如白BU ft-址!(酪均衛的育附次夏廨奔于是我们可以得出惟一纯策略均衡的有限次重复博弈的结果就是重复原博弈惟一的纯策略纳什均衡，这就是这种重复博弈惟一的子博弈完美纳什均衡路径.如果重复博弈中有多个纯策略纳什均衡，设某一市场有两个生产同样质量产品的厂商，他们对产品的定价同有高(H)、中(M)、低(L)三种可能设高价时市场总利润为10个单

4、位，中价时市场总利润为 6个单位，低价时市场总利润为2个单位.再假设两厂商同时决定价格，价格不等时低价格者独享利润，价格相等时双方平分利润这时候两厂商对价格的选择就构成了一个静态博弈问题我们看一个三价博弈的重复博弈的例子：0,Od6,03,30,22,0AO|厂裔I厂曲2H M圈3三价t#弈的显然，这个得益矩阵有两个纯策略纳什均衡（M , M）和（L, L），我们也可以看出实际上两博弈方最大的得益是策略组合（H， H），但是它并不是纳什均衡.现在考虑重复两次该博弈，我们采用一种触发策略（Trigger Strategy ）:博弈双方首先试图合作，一旦发觉对方不合作也用不合作相

5、报复的策略使得在第一阶段采用（H，H）成为子博弈完美纳什均衡，其双方的策略是这样的：博弈方1 :第一次选H ;如果第一次结果为（H， H），则第二次选M,如果第一次结果为任何其他策略组合，则第二次选择L .博弈方2 :同博弈方1在上述双方策略组合下，两次重复博弈的路径一定为第一阶段（H , H），第二阶段（M，M），这是一个子博弈完美纳什均衡路径因为第二阶段是一个原博弈的纳什均衡，因此不可能有哪一方愿意单独偏离；其次，第一阶段的（H，H）虽然不是原来的博弈纳什均衡，但是如果一方单独偏离，采用M能增加1单位得益，这样的后果却是第二阶段至少要损失2单位的得益，因为双方采用的是

6、触发策略，即有报复机制的策略，因此合理的选择是坚持H 这就说明了上述策略组合是这个两次重复博弈的子博弈完美纳什均衡从上述的例子我们可以看出，有多个纯策略纳什均衡的博弈重复两次的子博弈完美纳什均衡路径是，第一阶段采用(H , H)，第二阶段采用原博弈的纳什均衡(M , M) 如果这个重复博弈重复三次，或者更多次，结论也是相似的，仍然用触发策略，它的子博弈完美纳什均衡路径为除了最后一次以外，每次都采用(H，H)，最后一次采用原博弈的纳什均衡(M , M) 编辑存在纯策略纳什均衡的无限次重复博弈1与有限次重复博弈一样，无限次重复博弈也是基本博弈的简单重复，但是无限次重复博弈没有

7、最后一次重复，因此无限次重复博弈与有限次有一些不同.任何博弈中博弈方策略选择的依据都是得益的大小，这在重复博弈中仍然是成立的.但是重复博弈又与一次性博弈有所不同，因为在重复博弈中，每一阶段都是一个博弈，并且各博弈方都有得益，因此对于重复博弈，我们要计算的就是博弈结束时的一个总的得益由于前一次博弈和后一次博弈之间会有损失，因此我们采用一种方法，就是将后一阶段的得益折算成当前阶段得益的（现在值）的贴现系数有了贴现系数那么在无限次重复博弈中，某博弈方各阶段得益为n, n.,则该博弈方总得益的现在值为：C-7T =町+ 62 +用眄+=刀沪一t=l对于存在惟一纯策略纳什均衡博弈的无限

8、次重复博弈，我们从下面的例子来看：H霁方】S4存在惟一地覽路的卄均窗博弈的无BI次握博葬其中博弈方1和博弈方2分别表示两个厂商，H 和L分别表示高价和低价显然，该博弈的一次性博弈有惟一的纯策略纳什均衡（L, L），但是这个纳什均衡并不是最佳策略组合，因为策略组合（H，H）的得益（4，4）比（1，1）要高的多但是由于（H，H）不是该博弈的纳什均衡，所以在一次性博弈中不会被采用根据上面的分析，此博弈在有限次重复博弈并不能实现潜在的合作利益，两博弈方在每次重复中都不会采用效率较高的（H，H）为了实现效率较高的合作利益（H， H），假设两博弈方都采用触发策略，也即报复性策略：第一阶

9、段采用H，在第t阶段，如果前t-l阶段的结果都是（H，H），则继续采用L.假设博弈方1已经采用了这种策略，现在我们来确定博弈方 2在第一阶段的最优选择如果博弈方2采用L,那么在第一阶段能得到5，但这样会引起博弈方1 一直采用L的报复，自己也只能一直米用L，得益将永远为1，总得益的现在值为存<57T = 5 + 1 x 6 + 1 x + . = 5+ J1 G如果博弈方2采用H,则在第一阶段他将得4, 下一阶段又面临同样的选择.若记V为博弈方2在该重复博弈中每阶段都采用最佳选择的总得益现在值，那么从第二阶段开始的无限次重复博弈因为与从第一阶段开始的只差一阶段，因而在无限次重复时可看作相同的，其总得益的现在值折算成第一阶段的得益为因此当第一阶段的最佳选择是 H时，整个无限次重复博弈总得益的现在值为&丄V = 4 + 6yV 或者 L-6461因此，当L 一解得：时，博弈方2 会采用H策略

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

纯策略纳什均衡

文档简介

温馨提示

最新文档

评论

纯策略纳什均衡

文档简介

温馨提示

最新文档

评论

相关文档