经济博弈论 教程_第1页
经济博弈论 教程_第2页
经济博弈论 教程_第3页
经济博弈论 教程_第4页
经济博弈论 教程_第5页
已阅读5页,还剩190页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

经济博弈论教程1博弈导论

1.1博弈和博弈论1.1.1概念“博弈论”译自英文GameTheory。其实Game的基本意义是游戏,因此GameTheory直译应该是“游戏理论”。进一步观察还可以归纳出游戏的下列四个共同特征:第一,都有一定的规则。第二,有一个结果。而且结果常能用正或负的数值表示,至少能按照一定的规则折算成数值。第三,策略至关重要。第四,策略有相互依存性。因此博弈论在我国有时也常被称为“对策论”,具体的博弈问题则被称为“对策”问题。1.1.2定义现在,我们来给博弈下一个定义:博弈即一些个人、队组或其他组织,面对一定的环境条件,在一定的规则下,同时或先后,一次或多次,从各自允许选择的行为或策略中进行选择并加以实施,并从中各自取得相应结果的过程。规定或定义一个博弈需要设定下列几个方面:(1)博弈的参加者。(2)各博弈方各自可选择的全部策略或行为的集合。(3)进行博弈的次序。不同的次序必然是不同的博弈。(4)博弈方的得益。结果无法量化为数量的决策问题不能放在博弈论中研究。博弈的基础1、“个体行为理性”-----是指个体的行为始终都是以实现自身的最大利益为唯一目标,除非为了实现自身最大利益的需要,否则不会考虑其他个体或社会的利益这样一种决策原则。2、“非合作博弈”-----是指在各博弈方之间不能存在任何有约束力的协议,也就是说各博弈方不能公然“串通”、“共谋”的博弈问题。事实上,在我们证明非合作博弈无效率或低效率的同时,就自然说明了存在着合作的可能性和必要性。1.2几个典型的博弈问题

1.2.1囚徒的困境由于这种结果在一次/有限次博弈中具有必然性,无法摆脱,因此叫做“囚徒困境”。启示:当一个社会中的每个个体都只为自身的利益打算时,即使大家都遵守社会规则,个体的行为是不一定符合集体的或社会的利益的,甚至也不一定真能实现个体的最佳利益,即使追求个体利益的动机变为实现社会最大利益的手段的“看不见的手”并不总是存在的。双寡头削价竞争这个博弈的最终结果一定是两寡头都采用“低价”策略,即(70,70)。由于双方无法信任对方,即使彼此都完全清楚利害关系和相应的得益,也无法改变这种结局,因此也是一种“囚徒困境”。1.2.2赌胜博弈1、齐威王与田忌赛马首先,各方不能让对方猜中自己的策略。其次,6种策略本身相互之间并无优劣之分,有依存性。因此,各方应以相同的概率选用。1.2.3关于产量决策的COURNOT(古诺)模型设市场上有n个厂商,厂商I的产量为qi,整个市场总产量Q=∑qi,能够将商品全部销出的“市场出清价格”是投放到该市场上的该种商品总量的函数,商品总量越大,市场出清价格就越低,而商品的总量当然就是这n个厂商各自产量的总和。市场出清价格P=P(Q),因此,P=P(Q)=P(∑qi),得益就是生产的利润,也就是销售收益减去成本后剩下的余额。厂商i的收益为qi*P=qi*P(∑qi),设每个厂商的平均单位成本为C,因此厂商I生产qi产量的得益为:qi*P(∑qi)-C*qi=qi*[P(∑qi)-C]

可见,厂商I的得益不仅取决其自身的产量和成本,还通过价格取决于其他厂商的产量决策,即显示出策略的相互依存性。如果我们假设产量是连续可分的(这时数学处理和讨论较容易),则即使将超过厂商生产能力的不可能的产量去掉以后,每个厂商还都有无限多种可供选择的产量。所以此类问题要用函数表示。1.3博弈结构和博弈分类1.3.1博弈中的博弈方博弈中独立决策、独立承担博弈结果的个人或组织称为博弈方。1、单人博弈所谓单人博弈就是指只有一个博弈方的博弈。严格地讲,单人博弈已经退化为一般的最优化问题。单人迷宫单人迷宫博弈的扩展形商人的运输路线博弈走水路的期望得益为:(-7000)*75%+(-16000)*25%=-9250因为9250<10000,应选水路。若多次碰到同样的决策选择并每次都这样决策,则平均每次费用应接近9250。注释:“风险中性”类型的,即1单位期望得益和1单位确定的得益对他来说是等价的。一种称为“风险偏好”,持这种态度的人认为1单位的期望得益于1单位确定的得益;另一种则正好相反,认为1单位期望得益不如1单位确定的得益,称为“风险规避”。事实上,当博弈方数量达到两个以上后,信息越多得益越大的结论就不一定成立了。两人博弈第一,需要我们注意的是两人博弈中的两个博弈方之间并不总是相互对抗的,有时候也会出现两博弈方的利益是一致的情形。第二,在两人博弈中,掌握信息较多并不能保证得益也一定较多。第三,我们在囚徒的困境博弈中已经证实了结论:个人追求自身最大利益的行为常常并不能导致实现社会的最大利益,也常常不能真正实现自身的最大利益。多人博弈有三个或三个以上博弈方参加的博弈我们称为“多人博弈”。在三人以上博弈中还有一个与两人博弈有本质区别的特别,即可能存在“破坏者”。所谓破坏者即一个博弈中具有下列特征的博弈方:其策略选择对自身的得益没有任何影响,但却会影响其他博弈方的得益,有时这种影响甚至有决定性的作用。扩展形适合表示许多多人博弈,特别是动态多人博弈。用矩阵表示三方博弈1.3.2博弈中的策略博弈中的策略就是博弈中的各博弈方的决策内容,也就是对行为、经济活动水平等等的可能的选择。分为:有限策略博弈和无限策略博弈。无限策略博弈一般只能用函数方式加以表示。1.3.3博弈中的得益指参加博弈的各方从中获得的利益,因此得益也是有正有负的。1、零和博弈这种博弈的特点是不管各博弈方如何决策,最后的社会得益,即各博弈方得益之和总是为0。①零和博弈的特别是各博弈方之间的利益总是相对立的,是“你死我活”的关系,因而相互之间很难和平共处。②因为零和博弈即使重复进行多次也无法改变博弈方之间相互对立的关系。2、常和博弈与上述零和博弈不同,在有些博弈中,每种结果之下各博弈方的得益之和不等于0,但总是等于一个非零常数,这也是一类有特殊意义的博弈,我们称之为“常和博弈”。当然零和博弈本身可被看作是常和博弈的特例。与零和博弈一样,常和博弈中各博弈方之间的利益关系也是对立的,因此这些博弈方之间的基本关系也是竞争。利益的对立性体现在利益的多少。3、变和博弈零和博弈和常和博弈以外的所有博弈都可被称为“变和博弈”。变和博弈即意味着不同策略组合(结果)下各博弈方的得益之和一般是不相同的。变和博弈是最一般的博弈类型,而常和博弈和零和博弈则都是它的特例。这也就意味着在博弈方之间存在互相配合(不是串通,是指在利益驱动下各自自觉、独立采取的合作态度及行为),争取较大的社会总得益和个人得益的可能性。1.3.4博弈的过程静态博弈所有博弈方同时或可看作同时选择策略的博弈我们称为“静态博弈”。动态博弈我们把这种各博弈方不是同时,而是先后、依次进行选择、行动,而且后选择、行动的博弈方在自己选择行动之前一般能看到此前其他博弈方的选择、行动的博弈称为“动态博弈”。因此在博弈方之间肯定是有某种不对称性的。因而动态博弈中各博弈方的“策略”就是指这种计划,因此策略与选择、行为之间不能简单等同。动态博弈举例重复博弈所谓重复博弈实际上就是同一个博弈反复进行所构成的博弈过程。构成重复博弈的一次性博弈我们称为“原博弈”或“阶段博弈”。因此重复博弈的最少重复次数是两次。这种到一定重复次数后肯定要结束的重复博弈称为“有限次重复博弈”;否则为“无限次重复博弈”。在重复博弈中,我们关心的不是某一次重复的结果或得益,而是原博弈重复进行以后的总体效果或平均效果,也就是说,重复博弈给博弈提供了新的实现更有效率的结果的可能性,重复博弈的重复次数越多,这种可能性就越大。主要因为各方都担心对方在未来的报复,从而目前只能试图合作。1.3.5博弈的信息结构1.关于得益的信息博弈中最重要的信息之一就是关于得益的信息,即每个博弈方在每种结果(策略组合)下的得益情况。一般地,我们将博弈中各博弈方都完全了解所有博弈方各种情况下得益听博弈称为“具有完全信息的博弈”,而将在博弈中至少存在部分博弈方不完全了解其他博弈方得益情况的博弈称为“具有不完全信息的博弈”。

2.关于博弈进程的信息动态博弈中如果轮到行为的博弈方对博弈的进程,即此前行为的各博弈方的行为完全了解,我们称这样的博弈方“具有完美信息的”博弈方,如果动态博弈中的所有博弈方都是具有完美信息的,则该动态博弈称为“完美信息的动态博弈”。动态博弈中轮到行为的博弈方不完全了解此前全部博弈进程时,我们称这样的博弈方“具有不完美信息的”博弈方,有这样的博弈方的动态博弈则称为“不完美信息的动态博弈”。1.3.6博弈方的能力和理性博弈方最主要的行为逻辑包括:他们决策行为的根本目标和他们追求目标的能力。个体理性----以个体利益最大为目标,且有准确的判断选择能力。一、完全理性和有限理性完全理性----以个体利益最大为目标,有完美的分析判断能力和不会犯选择行为的错误。有限理性----博弈方的判断选择能力有缺陷。如果博弈方是有限理性的,那么以完全理性为基础的博弈分析就可能部分失效。二、个体理性和集体理性集体理性指至少有部分决策者追求集体利益最大化的情况。一般而言,集体利益最大化不是博弈方的根本目标,人们的行为准则是个体理性。允许存在有约束力协议的博弈称为合作博弈;不允许存在有约束力协议的博弈称为非合作博弈。非合作博弈受重视的原因:1、主导人们行为的基石是个体理性。2、如果证明了非合作博弈的无/低效率,自然就说明了合作的必要性。第二章完全信息静态博弈所谓完全信息静态博弈即各博弈方同时决策,且所有博弈方对博弈中的各种情况下的得益都完全了解的博弈问题。

2.1.基本分析思路和方法2.1.1上策均衡某博弈中,如果不管其他博弈方选择什么策略,一博弈方的某个策略给他带来的得益始终好于其他策略,至少比低于其他策略,则该策略即为“上策”。如果一个博弈的某个策略组合中的所有策略都是各方各自的上策,那么它必然是比较稳定的结果----上策均衡2.1.2严格下策反复消去法对博弈中的任何博弈方都很可能存在这样的情况:不管其他博弈方的策略如何变化,自己的某一策略给他带来的得益总是比其他某些(不必是全部)策略给他带来的得益要小,该“某一策略”我们称为相对于“其他某些策略”的“严格下策”。

若对一个博弈运用严格下策反复消去法后,该博弈的策略组合中只有唯一一个的幸存下来,这个幸存的策略组合就是该博弈的结果。严格下策反复消去法有时失效,这是因为由于存在策略间的相互依存性,所以往往不存在绝对的策略优劣关系。严格下策反复消去法应用举例(1)严格下策反复消去法应用举例(2)严格下策反复消去法有时失效的原因在于有些博弈中的不同策略往往不存在绝对的优劣关系,而是相对的优劣关系。2.1.3划线法其思路是:先找出自己针对其他博弈方每种策略的最佳对策,然后在此基础上,通过对其他博弈方策略选择的判断,预测博弈可能的结果和确定自己的最优策略。划线法举例---1划线法举例---2(有解/无解)划线法举例---3(夫妻之争/题目)划线法举例---3(夫妻之争/结论)该博弈有稳定的解,而无确定的解。2.1.4箭头法其基本思路是:对博弈中的每个策略组合进行分析,考察在每个策略组合处各博弈方能否通过单独改变自己的策略而增加得益。箭头法举例----1箭头法举例----22.2纳什均衡一、纳什均衡我们常用G表示一个博弈;如G有n个博弈方,每个博弈方的全部可选策略的集合称为“策略空间”,分别用S1,S2,……Sn表示;Sij表示博弈方i的第j个策略,其中j可取有限值也可取无限值;博弈方i的得益用ui表示。n个博弈方的博弈常写成G={S1,…..Sn;u1,…..un}。定义:在博弈G={S1,…..Sn;u1,…..un}中,如果由各个博弈方的各一个策略组成的某个策略组合(s1*,….sn*)中,任一博弈方i的策略si*,都是对其余博弈方策略的组合(s1*,…..,si-1*,si+1*,……sn*)的最佳对策,即ui(s1*,…..,si-1*,si*,si+1*,……sn*)>=ui(s1*,…..,si-1*,sij,si+1*,……sn*)对任意sij∈Si都成立,则称(s1*,….sn*)为G的一个“纳什均衡”(NashEquilibrium)。简单地讲,我们前述各博弈方都不愿单独改变策略的策略组合就是纳什均衡。求解博弈的主要关键在于寻找各博弈方都不愿或不会单独改变自己策略的策略组合,只要这种策略组合存在且是唯一的,博弈就有绝对确定的解(纳什均衡)定理1:在n个博弈方的博弈G={S1,…..Sn;u1,…..un}中,如果严格下策反复消去法排除了除(s1*,….sn*)之外的所有策略组合,那么(s1*,….sn*)一定是该博弈唯一的纳什均衡。定理2:在n个博弈方的博弈G={S1,…..Sn;u1,…..un}中,如果(s1*,….sn*)是G的一个纳什均衡,那么严格下策反复消去法一定不会将它消去。2.3无限策略博弈分析2.3.1古诺的寡头模型设一市场有1、2两家厂商生产同样的产品。如果厂商1的产量为q1,厂商2的产量为q2,则市场总产量Q=q1+q2;设市场出清价格是市场总产量的函数P=P(Q)=8-Q;再设两厂商的平均单位成本相等c1=c2=2。最后求两厂商如何同时决定各自的产量。求解古诺模型U1=q1P(Q)-c1q1=q1[8-(q1+q2)]-2q1=6q1―q1q2―q12U2=q2P(Q)-c2q2=q2[8-(q1+q2)]-2q2=6q2―q1q2―q22

Max(6q1―q1q2―q12)Max(6q2―q1q2―q22)

6―q2*―2q1*=06―q1*―2q2*=0

q1*=q2*=2Q=2+2=4U1=U2=4检验古诺模型的效率假设市场上只有一个厂商,看它会如何决策。因为另一家产量为零,意味着另一家垄断市场,我们讲的市场总体利益与独家垄断的利益是一致的。U=P(Q)-cQ=Q(8-Q)-2Q=6Q-Q2Q*=3U*=9(与上述结果相比较)各生产者一半实现最大利润的总产量的策略组合(1.5,1.5)不是两厂商时的纳什均衡,也就是说,在这个策略组合(产量组合)下,双方都可以通过独自改变(增加)自己的产量而得到更高的利润,进而实现(2,2)的产量组合,这实际上又陷入了“囚徒困境”。古诺模型在现实中最好的例子就是石油输出国组织的限额和突破。2.3.3伯特兰德(Bertrand)寡头模型该模型研究的商品间具有很强的同质性和替代性,造成消费者对价格极为敏感,于是价格竞争成为寡头企业惯用的竞争手段。这就是典型的经营同质商品商家间围绕商品价格而开展竞争的伯特兰德(Bertrand)模型。这种情况我们可假设当商家1和商家2价格分别为P1和P2时,他们各自的需求函数用q1=q1(P1,P2)=a1-b1P1+d1P2和q2=q2(P1,P2)=a2-b2P2+d2P1来表示,其中d1、d2>0表示两商家商品具有一定替代性的替代系数,a1、b1、a2、b2为相应系数。并且,假设两商家无固定成本且边际成本分别为c1和c2,以及两商家同时决策。在该博弈中,两博弈方为商家1和商家2;他们各种的价格策略空间为s1=[0,P1max]和s2=[0,P2max],其中P1max和P2max是商家1和商家2还能卖出商品的最高价格,两博弈方各自的利润(u1,u2)都是双方价格的函数。u1=u1(P1,P2)=P1q1-c1q1=(P1-c1)q1=(P1-c1)(a1-b1P1+d1P2)u2=u2(P1,P2)=P2q2-c2q2=(P2-c2)q2=(P2-c2)(a2-b2P2+d2P1)我们用反应函数的概念解该博弈。利用上述利润函数在偏导数为0时有最大值可解得两商家针对对方价格策略的反应函数分别为:P1=(a1+b1c1+d1P2)/2b1P2=(a2+b2c2+d2P1)/2b2纳什均衡(P1*,P2*)必是两反应函数的交点,即:P1*=(a1+b1c1+d1P2*)/2b1P2*=(a2+b2c2+d2P1*)/2b2解此方程组,得:P1*=d1(a2+b2c2)/(4b1b2-d1d2)+2b2(a1+b1c1)/(4b1b2-d1d2)P2*=d2(a1+b1c1)/(4b1b2-d1d2)+2b1(a2+b2c2)/(4b1b2-d1d2)且(P1*,P2*)为该博弈唯一的纳什均衡。通过分析可知,当两商家价格策略为(P1*,P2*)时,任何一方都不能通过单方面背离该策略来提高自己的利润;且当双方商品具有很强的同质性与替代性,导致消费者对价格非常敏感时,两商家唯一确定的价格策略是将价格降至其可以维持的最低水平。需要指出的是,这种情况下的纳什均衡(P1*,P2*)和囚徒困境一样,是一种低效率的均衡,远不如各博弈方通过协商、合作可能得到的最佳结果。2.3.4公共资源问题

在经济学中,所谓公共资源是指具有:(1)没有哪个个人、企业或其他组织拥有;(2)大家都可自由利用这两个特征的自然资源或人类生产的供大众免费使用的设施和财货。这里所讨论的公共资源是大家都可以自由免费利用的严格意义上的公共资源。在人们完全从私人动机出发自由利用公共资源时,公共资源倾向于被过度利用、低效率使用和浪费,并且过度利用会达到使任何利用它的人都无法得到多少实际好处的程度。

设某村庄有n个农户,且该村有一片公共草地。由于草地面积有限,只能让不超过某一数量的羊吃饱,如果实际的羊数超过这个限度,则每只羊无法吃饱,甚至还会饿死。假设农户夏天在草地放羊,而在春天决定养羊数,且彼此不知道其他方的决策信息,这就构成n个农户之间关于养羊数的静态博弈。为了简单起见,假设n=3,即有3个农户,每只羊的产出函数为V=100-Q=100-(q1+q2+q3),而购买和照料每只羊的成本c=4。这时3个农户的得益函数分别为:U1=q1[100-(q1+q2+q3)]-4q1U2=q2[100-(q1+q2+q3)]-4q2U3=q3[100-(q1+q2+q3)]-4q3求得3个农户各自对其他两农户策略的反应函数,得:q1=48-0.5q2-0.5q3q2=48-0.5q1-0.5q3q3=48-0.5q1-0.5q2以上方程组的解就是纳什均衡。即q1=q2=q3=24u1=u2=u3=576检验公共资源博弈的效率设该草地只有一个农户,其养羊总数为Q,则其收益为:u=Q(100-Q)-4Q=96Q-Q2对该方程求导,得:96-2Q=0Q=48u=2304这个例子又一次证明了纳什均衡常常是低效率的。这些公共资源博弈问题的结果说明了在公共资源的利用、公共设施的提供方面政府的组织、协调和制约是非常必要的,这也可以说是政府之所以存在的根本理由之一。

Ⅴ.混合策略和混合策略纳什均衡1.严格竞争博弈和混合策略的引进我们首先对各博弈方的利益和偏好始终不一致的,在通常策略的基础上没有纳什均衡的博弈问题进行分析。这类博弈也称“严格竞争博弈”。一、猜硬币博弈在一次性博弈中没有会自动实现的均衡性策略组合,也就是说,两博弈方之间的利益是始终都不会一致的。因此这就引出了在这种博弈中各博弈方决策的第一个原则,自己的策略选择千万不能预先被另一方侦知或猜到。在该博弈的多次重复中,博弈方一定要避免自己的选择带有任何的规律性,因为一旦自己的选择有某种规律性并被对手发觉,则对手可以根据这种规律性判断出你的选择,从而对症下药选择策略,使你屡战屡败。随机选择原则。设盖硬币方出正面的概率为p,出反面的概率就是1-p,若出正面多于出反面意味着p>1-p或p>1/2。这种情况下,如果猜硬币方全猜正面,则他的期望得益为:P*1+(1-p)*(-1)=2(p-1/2)>0即平均来讲,猜硬币方一定是赢多输少。因此,对盖硬币方来说,最可靠的方法是以相同的概率随机出正面和反面(p=1/2)。二、混合策略定义:在博弈G={S1,…,Sn;u1,…,u2}中,博弈方i的策略空间为Si={si1,…,sik},则博弈方i以概率分布pi=(pi1,…pik)随机在其k个可选策略中选择的“策略”,称为一个“混合策略”,其中0<=pik<=1对j=1,…k都成立,且pi1+…+pik=1。相对于这种以一定概率分布在一些策略中随机选择的混合策略,确定性的具体的策略我们称为“纯策略”,而我们原来意义上的纳什均衡,即任何博弈方都不愿单独改变策略的纯策略组成的策略组合现在可称为“纯策略纳什均衡”。纯策略可以看作混合策略的特例。我们可将纳什均衡的概念扩大到包括混合策略的情况。对各博弈方的一个策略组合,不管它是纯策略组成的还是混合策略组成的,只要满足各博弈方都不会想要单独偏离它,我们就称之为一个纳什均衡。三、一个数值的例子(混合策略)对于2方来说,pA*3+pB*1=pA*2+pB*5pA+pB=1pA=0.8pB=0.2对于1方来说,pC*2+pD*5=pC*3+pD*1pC=0.8pD=0.2该博弈的混合策略纳什均衡为:博弈方1、2分别以(0.8,0.8)的概率随机选择A和C。U1=0.8*0.8*2+0.8*0.2*5+0.2*0.8*3+0.2*0.2*1=2.6U2=0.8*0.8*3+0.8*0.2*1+0.2*0.8*2+0.2*0.2*5=2.62、多重均衡博弈和混合策略一、夫妻之争的混合策略纳什均衡pwc*1+pwf*0=pwc*0+pwf*3pwc=0.75pwf=0.25同理:phc=1/3phf=2/3纳什均衡(3/4,1/3)双方的得益分别是:Uw=0.67Uh=0.75可见,夫妻双方博弈的结果显然不如双方交流、协商,因为那时任何一方都至少得1。二、制式问题博弈(练习)答案:厂商1以[0.4,0.6]的概率随机选择A和B;厂商2以[0.67,0.33]的概率随机选择A和B。这个博弈的结果也从反面证明了在像引进、发展彩电生产线等这样的问题上,厂商之间的协调,政府或行业组织制度统一的标准或规定,有多么的重要。3、混合策略和严格下策反复消去法(略)在混合策略情况下,严格下策反复消去法的应用原则:1)任何博弈方都不会采用严格下策,不管它是纯策略还是混合策略;2)严格下策反复消去法不会消去任何纳什均衡;3)经过反复消去后留下的唯一策略组合一定是纳什均衡。混合策略和严格下策反复消去法举例在纯策略意义上,该博弈不存在任何严格下策。但如果允许博弈方1采用混合策略,即假设以概率分布(1/2,1/2,0)随机选择U、M、D。当博弈方2采用纯策略L时,博弈方1的上述期望得益为U1=(1/2)*3+(1/2)*0+0*1=3/2当博弈方2采用纯策略R时,博弈方1的上述期望得益为U1=(1/2)*0+(1/2)*3+0*1=3/2即使博弈方2也采用混合策略,博弈方1的上述期望得益U1=3/2可见,博弈方1选择混合策略时的期望得益在各种情况下都大于采用D策略时的确定性得益1。因此,D策略是相对于上述混合策略的严格下策。有混合策略时的反应函数反应函数即一博弈方对另一博弈方的每种可能的决策内容的最佳反应决策构成的函数,由于在混合策略中各博弈方的决策内容为一些概率分布,因此,反应函数实际上就是一方对另一方的概率分布的反应,同样也是一定的概率分布。举例纳什均衡存在性定理在一个有n个博弈方的博弈G={S1,…..Sn;u1,…..un}中,如果n是有限的,且Si都是有限集(对i=1,….,n),则该博弈至少存在一个纳什均衡,但可能包含混合策略。这说明了纳什均衡的存在性,也就意味着任何有限博弈都是有解的,即使不能得出确定性的纯策略均衡,至少也能给出混合策略均衡和各博弈方的期望得益。

ⅤⅠ、纳什均衡的选择和分析方法扩展1、多重纳什均衡博弈的分析这就是指一个博弈中存在多个纳什均衡的情况。一、帕累托上策均衡帕累托上策均衡指某个纳什均衡给所有博弈方带来的利益都大于其他纳什均衡带来的利益,这时各博弈方的选择倾向就会一致。显然,(和平,和平)构成本博弈的帕累托上策均衡二、风险上策均衡帕累托上策均衡并不是具有强制力的。如果考虑风险因素,(D,R)就具有相对优势,虽然它在帕累托效率上不如(U,L),但在风险意义上却优于(U,L),则称其为风险上策均衡猎鹿博弈可见,(兔子,兔子)是该博弈的一个风险上策均衡,精明的博弈方往往会选择它。三、聚点均衡在多重纳什均衡的博弈中,双方同时选择一个聚点构成的纳什均衡称为“聚点均衡”,当然它首先是多重纳什均衡中比较容易被选择的纳什均衡。四、共谋和防共谋均衡(略)在多人博弈中,有可能存在的部分博弈方之间联合追求小团体利益的行为,这也可能导致纳什均衡的不稳定性。(一)多人博弈中的共谋问题该博弈有两个纯策略纳什均衡(U,L,A)和(D,R,B),且前者在效率和风险方面都优于后者。(二)防共谋均衡定义:如果一个博弈的某个策略组合满足下列要求:1、没有任何单个博弈方的“串通”会改变博弈的结果,即单独改变策略无利可图[这意味着该策略组合首先是一个纳什均衡];2、给定选择偏离的博弈方有再次偏离的自由时,没有任何两博弈方的串通会改变博弈的结果;3、依次类推,直到所有博弈方都参加的串通也不会改变博弈的结果。满足上述要求的均衡策略组合称为防共谋均衡。很显然,防共谋均衡的目标就是要排除由于多人博弈中可能存在部分博弈方结成小团体联合行动会给博弈结果带来的不稳定性和问题。由于(D,R,B)在帕累托效率意义上明显比(U,L,A)差,可见这实际上说明在多人博弈中,存在着更复杂的“囚徒困境”问题。作业:1,5,4,5,6,8,9第三章完全且完美信息动态博弈根据博弈方是否相互了解得益的情况,有“完全信息动态博弈”和“不完全信息动态博弈”之分;根据是否所有博弈方都对自己选择前的博弈过程完全了解,有“完美信息动态博弈”和“不完美信息动态博弈”之分。第一节动态博弈的表示法和特点一、阶段和扩展形表示动态博弈中一个博弈方的一次选择行为称为一个“阶段”。扩展形可以较好地反映动态博弈中博弈方的选择次序和阶段。复杂的动态博弈通常直接用文字描述和数学函数形式表示动态博弈扩展形举例二、动态博弈的基本特点1、动态博弈的策略是指包含各阶段的完整“计划”。2、动态博弈的结果包括各方采用的策略组合、实现的博弈路径和各方的相应得益。3、一般说来,后行为的博弈方具有更多的信息,可减少决策的盲目性,因此处于较有利地位。第二节可信性和纳什均衡问题一、动态博弈中的可信性问题上述分析可知,在一个各方都存有私心的社会中,完善的法律制度不但能保障社会公平,而且能提高经济效率。法律制度必须有足够的保护力度,并有巨大的震慑作用;否则,是变相鼓励违约、违法。二、纳什均衡问题动态博弈的有效分析除了要符合纳什均衡的基本条件外,还要排除博弈方策略中各种不可信的威胁和承诺。三、逆推归纳法指从动态博弈的最后一个阶段博弈方的行为开始分析,逐步倒推回前一个阶段相应博弈方的行为选择,直到第一阶段的分析方法。因为只有当后面阶段博弈方的选择确定以后,前一阶段博弈方的行为也就容易确定了。由于逆推归纳法是建立在后续阶段各个博弈方理性选择基础上的,因此自然排除了不可信的威胁或承诺。第三节子博弈和子博弈完美纳什均衡一、子博弈定义:由一个动态博弈第一阶段以外的某阶段开始的后续博弈阶段构成的,有初始信息集和进行博弈所需要的全部信息,能够自成一个博弈的原博弈的一部分,称为原动态博弈的一个“子博弈”。子博弈是动态博弈中满足一定要求的局部所构成的次级博弈。首先,子博弈不能包括原博弈的第一阶段。其次,有多节点信息集的不完美信息动态博弈中可能不存在子博弈。子博弈完美纳什均衡定义:如果在一个完美信息的动态博弈中,各博弈方的策略构成的一个策略组合满足,在整个动态博弈及它的所有子博弈中都构成纳什均衡,那么这个策略组合称为该动态博弈的一个“子博弈完美纳什均衡”。即子博弈完美纳什均衡能够排除均衡策略中不可信的威胁或承诺。逆推归纳法实际上是从动态博弈的最后一级子博弈开始,逐步找博弈方在各级子博弈中的最优选择,最终找出动态博弈的子博弈完美纳什均衡。第四节经典的动态博弈模型一、寡占的斯塔克博格模型设模型中的两个寡头为厂商1和厂商2;他们的策略空间是是各自的产量选择;厂商1是领头厂商,它先决策,厂商2随后决策;价格函数为P=8-Q(Q=q1+q2),两厂商的单位平均成本c1=c2=2。两厂商的得益函数分别为:U1=q1[8-(q1+q2)]-2q1=6q1-q1q2-q12U2=q2[8-(q1+q2)]-2q2=6q2-q1q2-q22应先分析第二阶段厂商2的决策6-2q2-q1=0q2=3-(1/2)q1厂商1决策时由于了解厂商2的选择,因此:U1=6q1-q1[3-(1/2)q1]-q12=3q1-(1/2)q12

3-q1=0q1=3q2=1.5u1=4.5u2=2.25(与古诺模型比较)厂商1具有先行的主动,且它又把握了理性的厂商2必然会进行理性选择这一点,从而能通过选择较大的产量得到较多的利益。二、讨价还价博弈有限回合第一回合,甲方案是自己得S1,乙得10000-S1,乙可以选择接受与否,接受则博弈结束;否则进入下一阶段。第二回合乙方案是甲得S2,乙得10000-S2,甲可以选择接受与否,接受则博弈结束,双方各得λS2和λ(10000-S2);否则进入下一阶段。第三回合甲方案是甲得S,乙得10000-S,这时乙必须接受,双方各得λ2S和λ2(10000-S)。本博弈的关键是:1)第三回合甲方案具有强制力;2)谈判拖得越长对双方越不利。讨价还价博弈扩展形先分析第三阶段,设甲出价S,双方的得益分别为:λ2S和λ2(10000-S)。分析第二阶段,如果乙的出价S2既能让甲接受(即甲此时得益不小于第三回合得益),而又能使自己的得益比第三回合尽可能大,则对乙最理想。即甲的得益:λS2=λ2SS2=λS乙的得益:λ(10000-λS)=10000λ-λ2S分析第一阶段,如果甲此时就给乙10000λ-λ2S,同时又能使自己的得益比λ2S大,则很理想。因此:10000-S1=10000λ-λ2S,即S1=10000-10000λ+λ2S因此甲在第一回合出价S1=10000-10000λ+λ2S,是这个博弈的子博弈完美纳什均衡。此博弈中双方得益取决于λ,λ-λ2越大,甲的比例越小,乙的比例越大。可见乙谈判的筹码是与甲拖延时间。该模型第一、二回合相当于双方以不同形式谈判,第三回合相当于提交司法或仲裁机构调节。无限回合的讨价还价对于无限回合讨价还价博弈而言,从第三回合开始,还是从第一回合开始,结果都是一样的。(Shaked,Sutton)S=S1=10000-10000λ+λ2S得S*=10000/(1+λ)10000-S*=10000λ/(1+λ)三、委托----代理人理论模型(一)委托---代理人关系其关系的关键特征是委托方的利益与被委托方的行为有密切关系,但委托方一般不能直接控制被委托方的行为,甚至对被委托方工作的监督也有困难,只能通过报酬等因素间接影响被委托方行为。可见,关键问题是监督的难易;如果代理人的工作情况在成果中会完全反映出来,那就不存在监督问题。(二)无不确定性的委托人---代理人模型1、假设代理人的工作成果没有不确定性,即代理人的产出是努力程度的确定性函数,不存在监督问题。2、委托人的选择是提供或不提供这份合同,不选择支付给代理人的报酬。3、代理人的选择首先是是否接受合同,其次是是否努力工作,即是努力还是偷懒。无不确定性的委托人---代理人模型的扩展形首先,分析代理人第三阶段对是否努力的选择。根据博弈方理性原则可知,如果w(E)-E>w(S)-S即w(E)>w(S)+E-S成立,代理人会选择努力。(可见这是促使代理人努力工作的必要条件,即努力的“激励相容约束”)w(E)>w(S)+E-S的经济意义是,只有努力工作的代理人得到的报酬,达到在偷懒时也能得到的基本报酬以上,还有一个至少不低于能补偿努力工作比偷懒更大负效用的增加额时,代理人才会努力工作。反之,如果w(S)-S>w(E)-E成立时,代理人肯定会选择偷懒。(偷懒的“激励相容约束”)其次,分析第二阶段代理人是否接受委托的选择。可见,在两种情况(努力/偷懒)下,代理人选择接受的条件分别是w(E)-E>0和w(S)-S>0,称为代理人的“参与约束”。如果考虑代理人有接受其他委托的可能性,那么上述不等式就不能只满足大于0,还要考虑其机会成本。最后,回到第一阶段委托人的选择。显然在前一种情况下,如果R(E)-w(E)>R(0)成立,委托人会选择委托;在第二种情况下,如果R(S)-w(S)>R(0)成立,委托人会选择委托。归纳三个阶段两博弈方的选择,就得到了本博弈的子博弈完美纳什均衡。该博弈的子博弈完美纳什均衡是委托人选择委托,代理人接受并努力工作。举例(三)有不确定性但可监督的委托人---代理人博弈由于现在代理人的努力和成果之间不再完全一致,因此有一个根据工作情况还是成果支付报酬的问题。一般说来,在委托人对代理人的工作有完全监督的情况下,通常是根据代理人的工作情况而不是工作成果支付报酬。假设模型中的不确定性表现为:有20和10单位两种可能的产出,代理人努力时产出20的概率是0.9,产出10的概率是0.1;代理人偷懒时产出20的概率是0.1,产出10的概率是0.9。再假设R(0)=0,其他则与前一个模型一样。同时,引入“自然”博弈方0反映不确定性。在第三阶段,当w(E)-E>w(S)-S时代理人选择努力,当w(S)-S>w(E)-E时代理人选择偷懒。在第二阶段,在上述两种情况下分别满足w(E)-E>0和w(S)-S>0时代理人会接受委托;否则不接受委托。在第一阶段,假设代理人会选择接受并努力工作,若选择委托的期望得益大于不委托,即0.9*[20-w(E)]+0.1*[10-w(E)]>0时委托人选择委托。若选择委托的期望得益小于不委托,即0.9*[20-w(E)]+0.1*[10-w(E)]<0时委托人选择不委托。在代理人选择接受委托并偷懒情况下,若选择委托的期望得益大于不委托,即0.1*[20-w(S)]+0.9*[10-w(S)]>0时委托人选择委托。若选择委托的期望得益小于不委托,即0.1*[20-w(S)]+0.9*[10-w(S)]<0时委托人选择不委托。上述双方的选择就是对应两种不同情况的子博弈完美纳什均衡。(四)有不确定性且不可监督的委托人—代理人博弈现在委托人不可能根据代理人的工作情况支付报酬,只能根据代理人的工作成果支付报酬,除非支付固定的报酬。此扩展形的主要特征是:1)“自然(0)”最后一阶段不是分别针对代理人的两种选择进行选择。其影响在于委托人对高产或低产究竟是代理人努力或偷懒的结果,还是随机因素影响的结果的判断。2)双方得益函数中的报酬项现在是工作成果的函数而不是努力程度的函数。具体分析如下:第三阶段,在代理人风险中性情况下,只要他选择努力的期望得益大于选择偷懒的期望得益,即0.9*[w(20)-E]+0.1*[w(10)-E]>0.1*[w(20)-S]+0.9*[w(10)-S]则代理人会选择努力工作。在第三阶段代理人选择努力的情况下,分析第二阶段,则只要他选择接受的期望得益大于不接受的得益(0),即0.9*[w(20)-E]+0.1*[w(10)-E]>0,则代理人就会选择接受委托,该不等式就是目前模型的参与约束。分析第一阶段,假设委托人判断代理人会选择努力,因此只要委托人的期望得益0.9*[20-w(20)]+0.1*[10-w(10)]>0成立,他就会选择委托。在上述几个约束条件满足的情况下,双方的上述选择构成该模型的子博弈完美纳什均衡。第五节有同时选择的动态博弈模型本节所研究的博弈中存在在同一阶段有两个或两个以上博弈方同时选择的情况。一、标准模型1、博弈中有4个博弈方2、第一阶段博弈方1、2同时选择3、第二阶段博弈方3、4看到博弈方1、2的选择后再同时选择4、各博弈方的得益取决于所有博弈方的策略。间接融资和挤兑风险举例设某银行为给一家企业发放一笔20000元的贷款,以20%的年利率吸引客户存款。若两客户各有10000元资金,如果他们把资金作为1年期定期存款存入该银行,则银行就可向企业发放贷款。如果两客户都不愿存款或只有一人存款,银行就无法放贷,这时客户都能保住自己的本金。在两客户都存款且银行放贷的情况下,如果银行满1年收回贷款,它就可用收回的贷款本息支付存款本息。但如果在不满1年的时间内,一个客户单独或两客户同时要求提取存款,则银行只能收回80%的贷款本金。若一个客户提前取款,银行会偿还其全部本金,余款属于另一客户;若两客户同时要求提前取款,则平分收回的资金。该问题可用两客户之间在第一阶段同时选择是否存款,第二阶段同时选择是否提前取款的两阶段博弈表示。用逆推归纳法首先分析第二阶段博弈,该博弈有两个纳什均衡(提前,提前)和(到期,到期),后一个明显帕累托优于前一个。但是,在这个博弈中却不存在一种机制保证后一个纳什均衡一定出现。因为只要有一个客户认为另一个客户有提前取款的可能性,那么他合理的选择就是提前取款,所以常常会导致前一个低效率的纳什均衡。分析第一阶段,如果第二阶段的结果是比较理想的纳什均衡,则第一阶段博弈等价于下图。在这种情况下,第一阶段也有两个纳什均衡(不存,不存)和(存款,存款),而且后一个帕累托优于前一个,同时后一个也是风险上策均衡,因此两客户都会选择后一个均衡。如果第二阶段的结果是不理想的纳什均衡(提前,提前),则第一阶段博弈等价于下图。此时(不存,不存)是两客户的纳什均衡。这相当于客户不再信任银行,银行系统崩溃的情况。但这并没有引起银行挤兑。银行挤兑的内在机制--------(存款,存款)——(提前,提前)与囚徒的困境博弈一样,间接融资和银行挤兑博弈也揭示了经济决策中一种低效率的均衡的存在。不过,它本身存在一种有效率的均衡结果,只要我们注意调控或采取某些保险制度,就能避免低效率均衡的出现。第六节动态博弈分析的扩展讨论一、逆推归纳法的问题首先,逆推归纳法只能分析有明确设定的博弈问题,而现实中许多问题没有明确设定。其次,逆推归纳法不能分析比较复杂的动态博弈。此外,逆推归纳法更大的问题是对博弈方的理性要求太高,不允许博弈方犯任何错误,而且要求各方要相互理解和信任对方。因此,对于一个理性博弈方来说,如果其他博弈方偏离了子博弈完美纳什均衡路径时,他后面的决策就很困难了。该博弈的子博弈完美纳什均衡路径是:L。若参与人1在第一阶段选R,即错选,这时博弈方2必须确定博弈方1在第一阶段所犯错误的性质,是偶然性错误还是理性层次太低,还是为发出某种信号故意犯错误。二、颤抖手均衡和顺推归纳法(一)颤抖手均衡在这个博弈中,(D,L)和(U,R)都是纳什均衡。但如果考虑博弈方2的选择可能出现偏差,则(D,L)就不再具有稳定性。而(U,R)对于概率较小的偶然偏差来说具有稳定性,称为“颤抖手均衡”。P*=1/3,q*=1该博弈使(D,L)也变成了“颤抖手均衡”。因为现在即使博弈方1仍然考虑博弈方2偏离L错误选择R的可能性,但只要这种可能性很小,那么博弈方1仍会坚持选D,而不是转向U。Q*=0.8可见,一个策略组合要是颤抖手均衡,首先必须是纳什均衡;其次,不能包含任何“弱劣策略”,否则它经不起任何非完全理性的干扰。该博弈有两个均衡路径:L和R—N—T—V。但后一个不是颤抖手均衡路径。这时该博弈中的R—N—T—V既是唯一的子博弈完美纳什均衡,同时也颤抖手均衡。因为每个博弈方犯错误(偏离该路径)的概率比较小,那么,他们主观上仍有坚持它的愿望。可见,通过颤抖手均衡检验的子博弈完美纳什均衡,在动态博弈中的稳定性必然更强,从而使结果更加可靠。二、顺推归纳法表面上看,该博弈均衡路径是博弈方1第一阶段选R,如果达到第二阶段的静态博弈,双方则选择(Dw,s)(Ds,w)都是该博弈的子博弈完美纳什均衡。(thefirstnumberisPlayer2’spayoff)实际上,第二阶段的子博弈并不在均衡路径上,到达这个子博弈只能被认为是博弈方1在选择时出了差错。但该博弈的(Ds,w)的稳定性有问题。因为有博弈方1故意在第一阶段选D的可能。可见,博弈方知道自己在第一阶段选择D后,博弈方2在第二阶段的最佳选择就只有w,从而在第二阶段能实现对自己有利的均衡(w,s),这比第一阶段直接选择R更有利。因此,在这个博弈中真正具有稳定性、比较容易出现的均衡是(Dw,s)。顺推归纳法考虑的是博弈方有意识偏离子博弈完美纳什均衡的可能性,而不是偶然性的错误。蜈蚣博弈问题这是一个由两方轮流选择的多阶段动态博弈,共198个阶段。该博弈的子博弈完美纳什均衡是:博弈方1在第一阶段就选择D,直接结束博弈,双方得益都是1。但上述分析与人们的直觉和实验结果不一致。其原因是:博弈方1在第一阶段选d虽然肯定会得到1,但与选R使自己保留获得99的潜在可能性相比,前者显然并不是好的选择。因此至少在博弈的初始阶段,把主动权交给对方,让博弈延续下去,对双方都有很大潜在利益的投机,所以出现不符合上述推导结果的可能性很大。这种合作并不能持续到最后阶段,因为随着结束阶段的临近,双方合作的潜在利益就越小,停止合作的可能性就越大。如果上述蜈蚣博弈的阶段数很少,双方合作的可能性就极小;反之,蜈蚣博弈的长度大大加长,那么双方合作的可能性将会很大。作业:1,3,5,6,7,8,9第四章重复博弈第一节重复博弈基础所谓重复博弈实际上就是某些博弈的多次(两次以上,有限次或无限次)重复进行构成的博弈过程。重复博弈中有在一次性博弈中往往不可能存在的合作的可能性,因而也实现了比一次性静态博弈更有效率的均衡。这就是重复博弈与构成这些重复博弈的一次性博弈之间的重要区别,因此,重复博弈常常并不只是构成它们的一次性博弈的简单重复。有/无限次重复博弈的的定义给定一个基本博弈G,重复进行T次G,并且在每次重复G之前各博弈方都能观察到以前博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。如果一个基本博弈G一直重复博弈下去,这样的重复博弈则为“无限次重复博弈”,记为G(∞)。随机结束的重复博弈根据重复博弈及其阶段的特点,它的子博弈就是从某一阶段(不包括第一阶段)开始,包含此后所有阶段的原重复博弈的一部分。因此一博弈方的一个策略就是该博弈方在每个阶段(即每次重复)针对每种情况(以前阶段的结果)如何行为的计划。由于重复博弈每阶段(每次重复)都有一组得益,因此重复博弈中各博弈方的得益应该是他们每阶段得益相加的“总得益”和“平均得益”,而且以衡量“平均得益”为佳。另外,在衡量得益情况下,有时必须考虑的资金的时间价值,从而引入贴现系数的概念。贴现系数的确定公式一般为δ=1/(1+γ),其中γ为以一阶段为期限的市场利率。由于上述贴现因子δ都是小于1的正数,因此上述总得益都是有限数,这样我们就可以利用无限次重复博弈折算成现在值的得益总和的比较来进行判断分析,因此这种折算现在值的方法是符合人们价值判断的普遍规律和经济原理的。第二节有限次重复博弈一、两人零和博弈的有限次重复博弈1、重复零和博弈不会创造出新的利益。因为双方合作的可能性根本不存在。2、所有以零和博弈为原博弈的有限次重复博弈中,博弈方的正确策略都是重复一次性博弈中的纳什均衡策略。二、唯一纯策略纳什均衡博弈的有限次重复博弈(一)有限次重复囚徒困境博弈重复2次囚徒困境博弈仅仅是一次性博弈的简单重复。在一个博弈中的每个博弈方的所有得益上各自加上相同的数值不会改变博弈原来的均衡。(二)一般结论在有限次重复博弈中,如果原博弈存在唯一的纯策略纳什均衡策略组合,则有限次重复博弈的唯一的均衡解即各博弈方在每阶段(即每次重复)中都采用原博弈的纳什均衡策略。(三)有限次重复削价竞争博弈(自己思考)(四)重复囚徒困境悖论和连锁店悖论1、现实中寡头间的价格战并没有如此普遍2、连锁店悖论讨论的是在n个市场都开设连锁店的企业,对于各个市场的竞争者是否应加以打击排斥的策略选择。(即“先来后到”博弈)根据以前的分析可知,该企业选择不打击,竞争者选择进入,是唯一的子博弈完美纳什均衡。因此,它也是该重复博弈的解。但这与现实明显不符。问题在于在较多阶段的动态博弈中逆推归纳法的适用性。(参考“蜈蚣博弈”)四、多个纯策略纳什均衡博弈的有限次重复博弈最重要的是两次重复的路径中包括的子博弈完美纳什均衡中可在第一阶段采用非原博弈的均衡策略组合。(一)三价博弈的重复博弈该博弈中,双方其中一个可能的子博弈完美纳什均衡是第一阶段(H,H),第二阶段(M,M)。可见,两次重复的路径中包括的子博弈完美纳什均衡中可在第一阶段采用非原博弈的均衡策略组合。这种博弈方之间首先试探合作,一旦发觉对方不合作则也用不合作相报复,利用有后续阶段博弈的制约作用达成均衡的策略称为“触发策略”。(二)触发策略的可信性讨论原来双方所采用的触发策略中的威胁的可信性是有一点勉强的。如果认为触发策略不可信,则会出现另一结果。这时重复博弈的结果是两次重复(M,M)。如果触发策略中的报复并不意味着报复方自己必然会受损失,因此,威胁的可信性是很强的。如下触发策略构成均衡解:博弈方1:在第一阶段选择H,如果第一阶段是(H,H)那么第二阶段选M,否则选P;博弈方2:在第一阶段选择H,如果第一阶段是(H,H)那么第二阶段选M,否则选Q。有限次重复博弈的民间定理:设原博弈的一次性博弈有均衡得益数组优于w(参与人I在一次性博弈中最差的均衡支付值),那么在该博弈的多次重复中,所有不小于个体理性得益的可实现得益,都至少有一个子博弈完美那什均衡的极限的平均得益来实现它们。简单地理解,即有限次重复博弈有解。

举例:F2ABF1A3,31,4B4,10,0画图结论:在有限次重复博弈中,若原博弈不存在或只存在唯一纯策略纳什均衡,则有限次重复不会使参与人由冲突转化为合作,但若原博弈存在多个纯策略纳什均衡,则有限次重复有可能实现这种转化。

第三节无限次重复博弈在有限次重复博弈中,最后一次重复是破坏提高效率的关键。在无限次重复博弈中我们有一个更强的结论,即即使原博弈G有唯一的纯策略纳什均衡,也可能存在阶段博弈不采用G的纳什均衡,结果较为理想的,无限次重复博弈的子博弈完美纳什均衡路径。

无限次重复博弈不能忽视时间价值问题。一、两人零和博弈的无限次重复博弈两人零和博弈的无限次重复与有限次重复是一样的,因为重复次数的无限次增加并不能改变双方的完全对立关系。二、唯一纯策略那什均衡博弈的无限次重复博弈(一)无限次重复囚徒的困境

构造如下双方的触发策略:第一阶段采用H,在第t阶段,如果前t-1阶段的结果都是(H,H),则继续采用H,否则采用L。现在需要证明当贴现系数δ满足一定条件时,上述触发策略构成子博弈完美那什均衡,即双方都不会偏离的均衡。为了说明双方采用上述触发策略是一个纳什均衡,我们假设博弈方1已采用该策略,然后我们证明在δ达到一定数值后,采用同样的触发策略也是博弈方2的最佳反应策略。因为双方是对称的,可见证明了上述结论后,就可以确定该触发策略是相互对对方策略的最佳反应,从而构成纳什均衡。

由于博弈方1在某个阶段出现与(H,H)不同的结果后将永远采取L策略,因此,在该阶段之后,博弈方2的最佳选择也只有L策略,即博弈方2对博弈方1的触发策略的最佳反应策略的后面部分与博弈方1触发策略的后面部分是相同的。现在需确定博弈方2在第一阶段及以后各阶段结果都是(H,H)时的最佳反应是什么?对于博弈方2来说,采用L策略将得到一次得益5,但以后会引起博弈方1的报复,这样博弈方2也只能选择L策略,此后每一阶段的得益将永远只有1,则此情况下博弈方2的总得益(μ)为:

μ=5+1*δ+1*δ2+1*δ3+……..=5+δ/(1-δ)相反,如果博弈方2在第一阶段采取H策略,则在该阶段它将获益4,而在下一阶段又面临同样选择。假设V为博弈方2每阶段都采取H策略的总得益,则有:V=4+4*δ+4*δ2+4*δ3+……..=4/(1-δ)因此,当4/(1-δ)>5+δ/(1-δ),即δ>1/4时,博弈方2在第一阶段会采取H策略,否则采取L策略。同理可以说明博弈方2在以后各阶段的最佳反应也是如此。综上,对于博弈方1的前述触发策略,博弈方2的最佳反应策略是同样的触发策略,可见双方都采取的这种触发策略就是一个纳什均衡。

应引起我们重视的是该纳什均衡是在满足条件δ>1/4时才成立的。这一情况表明未来得益折算成现值的贴现系数若太小,即各博弈方不太看重未来利益时,它们会只顾为自己捞取更多的眼前利益,不会为长期利益打算,也不会害怕它方在未来阶段的报复。其实,在该无限次重复博弈中子博弈完美那什均衡路径不止一条,如双方始终选择(L,L)。结论:在一次性或有限次重复博弈中都无法实现的囚徒困境博弈中的潜在合作利益,在无限次重复博弈中是可能实现的。即在无限次重复博弈中,只要原博弈有一个纳什均衡就可能实现合作。二、无限次重复古诺模型(一)古诺模型的无限次重复博弈和支持垄断产量的条件假设P=8-Q,Q=q1+q2,c1=c2=2.在一次性博弈中有唯一那什均衡,即两厂商都生产2个单位的产量,称为“古诺产量”,用qc表示。如果市场上只有一家厂商,则最佳垄断产量qm=3。这意味着两厂商各生产1.5是最合理的,但这在一次性或有限次重复博弈中是不可能实现的。下面,构造无限重复博弈时的触发策略。在第一阶段各生产垄断产量的一半1.5;在第t阶段,如果前t-1的结果都是(1.5,1.5),则继续生产1.5,否则生产古诺产量2。如果双方都采取上述出发策略,则双方每阶段的得益都是4.5。设厂商1已采取该触发策略,如果厂商2也采取该策略,则其无限次重复博弈得益的现值为:μ=4.5(1+δ+δ2+δ3+……..)=4.5/(1-δ)如果厂商2在第一阶段偏离,即Max[(8-1.5-q2)q2-2q2]=max(4.5-q2)q2q2=2.25u21=5.0625但从第二阶段开始厂商1将永远用古诺产量报复,厂商2也被迫采用古诺产量,因此其总得益的现值为:5.0625+4(δ+δ2+δ3+……..)=5.0625+4δ/(1-δ)因此,只有4.5/(1-δ)>=5.0625+4δ/(1-δ)即δ>=9/17时博弈方才不会偏离上述触发策略。(二)低水平的合作在第一阶段生产q*;在第t阶段,如果前t-1阶段的结果都是(q*,q*),则继续生产q*,否则生产古诺产量2。假设厂商1已采取上述策略,如果厂商2也采取,则它每阶段的得益是u*=(6-2q*)q*,无限次重复博弈得益的现值为(6-2q*)q*/(1-δ)。如果厂商2在第一阶段偏离,即max(8-q2-q*-2)q2q2=(6-q*)/2u21=(6-q*)2/4但从第二阶段开始,厂商1必然用古诺产量2来报复,厂商2也只能采用古诺产量2,从此阶段得益永远为4。因此,无限次重复博弈总得益的现值为:(6-q*)2/4+4δ/(1-δ)只有当(6-2q*)q*/(1-δ)>=(6-q*)2/4+4δ/(1-δ)即q*>=2(9-5δ)/(9-δ)时触发策略才稳定。可见,δ接近于0的经济意义是将来的得益对博弈方来讲几乎无意义,当然博弈方会只顾眼前利益。δ越大,将来利益越重要,就越能支持较低的子博弈完美纳什均衡产量q*,当δ达到或超过9/17时,就能支持最大效率的垄断的低产量。从这里我们可以找到为什么通货膨胀严重的国家的企业在经济活动中短期行为更为严重的理论根源。(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论