完全信息静态博弈及其纳什均衡解

上传人：a*** IP属地：天津上传时间：2022-01-06 格式：DOCX 页数：9 大小：78.59KB 积分：18 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第四章完全信息动态博弈及其均衡解1.完全且完美信息动态博弈完全信息博弈指的是参与者的收益是共同知识。完全且完美信息动态博弈指的是：博弈中的每一步中参与人都知道这一步之前博弈进行的整个过程。因此，我完全且完美信息动态博弈的特点：（1）行动是顺序发生的；（2）下一步行动选择之前所有以前的行动都可以被观察到；（3）每一可能的行动组合下的参与人的收益都是公共知识。而不完美信息博弈指的是，在某一步参与人不知道以往博弈所进行的历史或者没有观察到以往的所有行动。例4.1 .我们来考虑这样一个动态博弈：假定甲在开采一个价值 4万元的金矿时需要1 万元资金，乙有1万元资金。甲向乙借钱来开金矿。在这个博弈的第一

2、阶段，甲向乙承诺：如果乙借钱给他的话，那么他就会将采到的金子与乙对半分成，即（2, 3）乙得到2万元的金子，同时收回自己的1万元投资。对于甲的承诺，乙如果不借钱给甲的话，那么博弈到此为止，双方收益为（0,1）。如果乙借钱给甲的话，那么博弈进入第二个阶段。在第二阶段中，若甲遵守他的承诺，分给乙一半的金子，这样两人的收益为（2 , 3）,其中1万元为投资成本。RJP31然而，若甲违背自己的承诺，博弈就会进入到第三个阶段：如果乙同甲打官司，那么由于打官司费时费力，两个人的收益为（0,1）；若乙不打官司，那么两个人的收益就为（5 , 0）。参见图1。图1.借钱博弈的博弈树2 .逆向归纳法与

3、子博弈纳什均衡解逆向归纳法（Backward induction ）又称逆推法，是指这样一种动态博弈求解方法：从博弈的最后一步开始，计算最后一步的参与人的最优行动，逐步逆推到博弈开始时进行第一步的参与人的最优行动，从而确定每个参与人的最优行动。在动态博弈中逆向归纳法能够进行的前提:参与人是理性的一一任何一步参与人都选择最优策略；理性是公共知识一一参与人选择最优策略是其他人所能够预测的。在完全且完美信息动态博弈中逆向归纳法能够求得子博弈精炼纳什解。图2.借钱博弈的逆向归纳法的求解过程在例4.1中这样一个动态博弈，用逆向归纳法，我们就可以推知，如果甲做出“不分”的选择，那么乙一定会选择“

4、打”官司。因为对于乙而言，打官司的收益为1,不打官司的收益是0,所以，作为一个理性人，乙一定会选择打官司。而如果甲知道在“不分”的情况下乙必定选择“打官司”，那么甲就一定会选择 “分” 一半的金子给乙，因为对甲而言，“分” 的收益是2, “不分”的收益是0。所以，甲的承诺是可置信的。而对于乙来说，他会选择“借”，因为“借”的收益是 3, “不借”的收益是1。因此，该博弈最终的子博弈精炼纳什均衡点就是(2 , 3)。例4.2.斯坦克尔伯模型。两个厂商垄断某个市场，其中厂商1处于支配地位，它先行动，然后从属企业2后行动。假定市场需求函数为 p=a-Q。厂商的单位产品的成本 c。这些是企业

5、1和2的公共知识。问：厂商1和2是如何决定的它们的生产产量的。假定厂商1和2所决定的产量分别为 q1,q 20我们用逆向归纳法来求解。企业2后行动，对于企业1的任何行动，即任意给定的产量，企业2确定产量以使利润最大，即使L2=pxq2-cxq2最大。假定企业1决定的产量为qb因为：L2=p Xq2-c Xq2= (aqq) Xq2-c Xq2由 dL2/dq 2=0:q1-2q2=a-c (1)即：q2=(qi-a+c) /2企业1先行动，它能够预知企业 2的最优化行为，即在它的最优产量 qi给定的情况下，企业将按照q2=(q i-a+c) /2进行决策。这样，企业的利润函数为：Li=p

6、Xqc Xqi= (a-q i-q 2)xqi-c xqi= (a-qi-q2)Xqi-c xqi 而 q2是 qi 如下的函数：q2=(q i-a+c) /2由 dLi/dq i=0: *,、一qi =(a-c ) /2于是， *q2 =(a-c ) /4因此，(a-c ) /2 , (a-c ) /4)为逆向归纳法解。该解被称为子博弈精炼纳什均衡解。此时总产量为q2=3(a-c ) /4，价格为(a+3c)/4企业I的利润Li=(a-c) 2/8企业2的利润为L2=(a-c) 2/I6请读者与古诺均衡解进行比较。3 .动态博弈中的威胁与承诺为了实现最大利益，使博弈在博弈参与人所希望的策略

7、组合上实现，在他人作出行动之前的每一步参与人都会向对方可能做出某种威胁或承诺，希望对方做出或者不做出某个行动。而通过逆向归纳法我们能够区别动态博弈中威胁或承诺是否可信。例4.I :甲向乙承诺：借钱给我，我赚钱后将分给你。甲的承诺是可信的。乙威胁甲：若你不分给我，我将起诉你。乙的威胁也是可信的。之所以发生威胁与承诺的言语现象，是因为轮到他人行动的时候，参与人只能通过言语而影响他人的行动从而实现自己希望的结果。甲之所以承诺，是因为他希望乙能够“借钱”给他。同样，而乙之所以进行威胁，是因为他借钱之后，希望甲能够连本带利将钱给乙。当然，在博弈论中因为参与人是理性人，威胁与承诺是否可置信能够被确认

8、。这样任何威胁与承诺都是没有意义的：若是不可置信，它是公共知识，又何必做这样的威胁或承诺；若是可置信的，因为该博弈是完全且完美信息博弈，做出这样的威胁与承诺也是无益的。但是在实际生活中，做出这样的威胁与承诺是有意义的，因为，人们不一定认为对方是完全理性人，而认为会发生某种“偏离”：或者会受言语的影响，而“忘记” 应该按照计算的行动进行，或者相信了对方的承诺或威胁而改变了原来的行动选择；4 .理性的困境：娱蚣博弈与最后通牒博弈逆向归纳法是从动态博弈的最后一步往回推，以求解动态博弈的均衡结果。它是完全归纳推理，其推理是演绎的，即结论是必然的。逆向归纳法在逻辑上是严密的，然而它存在着“困

9、境”。逆向归纳法的逻辑严密性毋庸置疑。然而，当我们分析一个特殊的博弈一一娱蚣博弈一一的时候，一个违背直觉的悖论出现了，这个悖论被认为是对逆向归纳法的挑战。娱蚣博弈(centipede game )为罗森塔尔(R.Rosenthal)在1981年提出，我们这里采取的是奥曼(Aumann 1998)论文中的形式1。安娜鲍伯安娜鲍伯安娜鲍伯 2n+2 - 2n+132n2 n-114362n-1 2 n+2图8-2娱蚣博弈这个博弈有两个参与人，安娜和鲍伯。该博弈从安娜开始，她有两个策略“合作”和“不合作”，若她选择“不合作”，博弈即刻终止，安娜得到2,鲍伯得到1;若她选择“合作”，那么

10、博弈继续进行，由鲍伯开始选择。鲍伯同样有“合作”和“不合作”两种策略。在这第二轮选择中，若鲍伯选择“不合作”，博弈终止，选择“合作”，博弈继续进行在这个博弈最后一轮，即第2n轮，若鲍伯选择“不合作”，他所得2n+1,安娜得2n-1 ;若他选择“合作”，鲍伯得2n+1安娜得2n+2。因这个博弈树形状像蝶蚣，因而被称为娱蚣博弈。在这里我们假定了，总的步数2n是一个双方都知道的有限数。严格地说，我们假定了，该博弈的总步数 2n为双方的公共知识(common knowledge) o我们用逆向归纳法来分析这个博弈的结果：在最后一步，鲍伯在“合作”与“不合作”中进行选择时，因为 “不合作”带给他的

11、好处是 2n+2,而“合作”的好处是2n+1,选择“不合作”的好处大于“合作”的好处，鲍伯应当选择“不合作”。在倒数第二步，安娜这样想，选择“不合作”的好处是 2n；而选择“合作”，在下一步鲍伯肯定会选择“不合作”，此时她的好处将是2n-1 ,因此在这倒数第二步安娜的理性选择“不合作”通过这样的分析，在这个博弈的第一步安娜的理性的选择是“不合作”。这样，这个博弈的结果是，在博弈的第一步安娜选择“不合作”，博弈即终止。这一点构成娱蚣博弈的完美纳什均衡点。在这个点上，安娜得到支付2,而鲍伯得到支付1。这样的结果是反直觉的：最大化自己支付的理性人其所得是不合理的。从这个博弈树来看，若他们均选择

12、“合作”，双方的支付将会很高。但根据逆向归纳法，这个结果达不到。在这个博弈中，每个人考虑到未来他人不合作，自己先采取不合作。因在最后一步理性的参与人必定采取不合作，每个人的考虑是有逻辑基础的。于是，一个违反直觉的糟糕结果便出现了。这便是动态不合作。对于娱蚣博弈的这个逆向归纳法解，博弈论专家中存在赞成和反对两种观点。著名的博弈论专家奥曼(R.J. Aumann )认为，如果“策略人是理性的”是双方的公共知识，逆向归纳法的解必然要达到。英国伦敦经济学院的宾谟(K.Binmore )教授则认为，在娱蚣博弈的开始存在混合策略的可能，即在博弈的开始安娜有采取“合作”的非零概率，而轮到鲍伯

13、，他同样有采取“合1 Aumann, R.J. Note on the centipede GameJ. Games and Economic Behavior,1998, vol 23,pp97-105.作”策略的非零概率。因此，在宾谟看来，该博弈终止于第一步不是必然的。本人认为，在最后一步鲍伯合作的概率必然为0,逆推到第一步，安娜的合作概率也必然为0。这样，宾谟试图通过引进混合策略均衡以作为这个博弈的替代性的解是行不通的。逆向归纳法悖论依然存在。最后通牒博弈。参与人 1和2分一笔钱，如100元，1提出分配方案，2表决。如果参与人1所提出的分配方案得到参与人 2的同意，就按照该分配方案分

14、配；如果参与者2拒绝，双方都将一无所获。逆向归纳法解：6,完全非完美信息动态博弈博弈的扩展式表达囚徒2 人囚徒2合”不合作合作不合作(3,3 ) ( 4,1 ) (1,4) (2,2)6.子博弈纳什均衡解与进化稳定策略在博弈论、行为生态学及演化心理学中，演化稳定策略ESS是一个这样的策略，一旦它被给定环境中的参与人群体采用，它不能被任何其他可能的策略所侵略。一个ESS是纳什均衡的精炼。它是演化稳定的纳什均衡：一旦它在一个种群中得到确认，自然选择本身足以放防止变异的可能策略侵略成功。演化稳定策略在博弈论证是一个中心概念，它由John Maynard Smith 和 George R. Pr

15、ice在1973首先给出，并被用于人类学、演化心理学、哲学和政治科学之中。进化稳定策略依赖于侵略的概念。一个X-策略参与人的群体被Y策略的参与人所造访。如果新的参与人使用 Y策略比X-策略的参与人得分更高，他被认为是侵略的。假定参与人能够选额和变换策略，这会导致原来的种群开始走向Y策略。一个策略X是进化稳定的，如果没有策略Y能够侵略到它。也就是是，采取新策略的物种来到X-策略的种群平均来说将不会获得比X策略的参与人更好的收益。Maynard Smith2 Binmore,K.A note on Backward Induction. Games and Economic Behavior,

16、1996,vol 17,pp138-146.与 Price 1给出了 ESS策略的条件：一个策略 S 是 ESS: for all Tw S,或者 E(S,S) > E(T, S), 或者 E(S, S) = E( T,S)且 E(S T) > E( T, T)o纳什均衡与ESS的区别。在囚徒困境中是同一的。在“伤害邻居”的博弈中，( A,A) (B,B)都是纳什均衡，但只有是一个ESS (强纳什士衡)。A则不是，因此B能够中性地侵略到A策略家的群体之中并占优势(predominate )，因为B对抗B得分高于A对抗B对抗 B的得分。3, 31,44, 12, 2CDCD囚徒困境2

17、, 21,22, 12, 2AB伤害邻居在鹰鸽博弈中混合策略为一个ESS7.现实的动态博弈解读谢林的核武器理论。黑格尔：存在就是合理的。拓展均衡解的扩展1 .纳什均衡作为博弈预测的局限博弈论所研究的模型是现实的抽象。博弈论专家研究博弈期目的是为了预测，预测博弈参与人的策略选择及博弈结果。然而，当一个博弈包含不止一个纳什均衡时，我们往往无法对之预测。为了解决这个问题，博弈论专家坐了许多尝试。2 .谢林的聚点均衡焦点效应。在一个具有多重均的博弈中，某些事情使得一个博弈的参与人将注意力集中到一个均衡，使他们预期并实现这个均衡，这便是谢林所说的焦点效应。一个焦点均衡(focal equilibrium

18、 )就是一个具有某种使它显著地区别于所有其他均衡之性质的均衡。焦点又称为谢林点(Schelling point ),这一概念最早由诺贝尔奖获得者谢林于1960年在冲突的策略一书中提出：“人们如果得知别人也正试图做出和自己同样的行为时，常常能使他们的意图或期望达成一致。大多数情况一一或许每一种情况都能为此种博弈参与人的合作提供一些线索，为每个人的期望提供聚点' (focal point ),其中每个人的期望是别人期望他期望被期望去做的事。” T. C. Schelling, The Strategy of Conflict . Harvard University Press, 19

19、60, pp: 57.也就是说，聚点是在协调博弈中博弈参与人通过相互期望所做出的共同选择形成的那个均衡点，它显示出了博弈中人们在没有沟通的情况下的共同选择倾向。芬斯/M ( Maier Fenster ,1995)等人给出了一个明确的定义：给定一个问题和可能解的集合，参与人必须从解集合中选择一个，聚点就是参与人所选的最突出的那个解。 M. Fenster, S. Kraus and J. S. Rosenschein, Coordination without Communication: Experimental Validation of Focal Point Techniques .

20、 AAAI. 1995, pp:102.谢林曾经有过这样的实验：“请选择下列数字中的一个，如果你们的选择相同，你们都将获胜。7 100 13 261 99 555实验结果是在41人中37人选择了前三项，7略微领先于100, 13位于第三位。T. C. Schelling, The Strategy of Conflict . Harvard University Press, 1960, pp: 56. T. C. Schelling, The Strategy of Conflict . Harvard University Press, 1960, pp: 94.可以看出，在这三项中，选

21、择人数按数字排列的位置呈递降趋势。在谢林的实验中，聚点在选择第“如果问到在所有正数当中人们将会受到这种事实的强 ” 6:在“正面”和“反面”二者一个数上形成，协调博弈的结果与被选择对象呈现的次序有关。哪个是最明显独特的，或者什么样的选择规则将导致明确结果, 烈影响：即最普遍的选择是第一个或最小的那个正数。谢林进行的其他一系列实验也验证了这种“位置优先性”之间，聚点在选择“正面”形成；在十六个方块列成的矩阵之间，聚点在选择第一个方块时形成。 T. C. Schelling, The Strategy of Conflict . Harvard University Press, 1960,

22、pp: 56. T. C. Schelling, The Strategy of Conflict . Harvard University Press, 1960, pp: 57.从谢林的实验可以看出，在无差异的选择对象之间，被试往往倾向于选择位置处于第一个的对象。这似乎暗示着，人们可以利用被选择对象呈现的次序来控制选择的结果。如果这是唯一的结论，那么这在具体的运用中，会出现许多令人沮丧的结果。比如，在选举时，人们可以利用排名的先后来进行某种暗示。然而，令人欣喜的是，我们的实验结果与之完全不同，从附表3可以看出，聚点偏离了第一个数的位置，在选择位于第三的数字上形成。聚点发生了变迁！在这里

23、，聚点的形成与位置无关，也就是说，博弈的结果不再与数字呈现的次序有关。对于协调博弈的结果，谢林认为很大程度上取决于双方的直觉而不是逻辑思维推理，或许依靠来自双方对相似事物之间的类比经验、先例、偶然巧遇、对称性、审美观或几何原理、诡辩推理，以及当事人的自身条件和对彼此情况的了解。8巴卡拉克(Bacharach),萨登(Sugden)和詹森(Janssen)等人也持有类似的观点，他们认为，在很多情况下，聚点来自于直觉。 A. Casaius, Focal Points in Framed Strategic Forms . Games and Economic Behavior, Volu

24、me 32, Issue 2, 2000, pp: 263.然而，从我们的实验结果看来，人们的选择并没有排除逻辑思维推理。3 .焦点均衡的一个实验在群体生活中，许多行动可以通过约定(convention)来达到一致。当一个群体中的每个人遵守某些原则，从而使其他群体中的每个人也遵守这些原则时，就出现了约定。G. Harman, Convention. The Nature of Morality , New York: Oxford University Press, 1977, pp: 103.在协调博弈中，如果有约定，某些行动规则便成为公共知识，协调博弈的难题就迎刃而解了。这里所指的公共知识（commonknowledge ）,是指对于一个命题，某个群体中的每个人都知道它，每个人知道每个人知道它，等等。然而在许多协调博弈中，没有约定作为相应的博弈参与人进行行动选择的依据，当然沟通也是不可能的，在这样的情况下，人们又是怎样行动的呢？为了探寻在没有约定的情况下现实生活中人们是如何协调行动的，我们进行了一个关于协调博弈的实验：请从2、7、8、9'这4个数字中选出一个数字，若你所选的数字为在座的同学中最多的人所选的

人人文库> 全部分类> 应用文书 > 作业报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

完全信息静态博弈及其纳什均衡解

文档简介

温馨提示

最新文档

评论

完全信息静态博弈及其纳什均衡解

文档简介

温馨提示

最新文档

评论

相关文档