第四章重复博弈

上传人：5*** IP属地：湖北上传时间：2022-01-04 格式：PPT 页数：50 大小：245KB 积分：30 举报 版权申诉

已阅读5页，还剩45页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第四章重复博弈本章介绍基本博弈重复进行构成的重复博弈。虽然形式上是基本博弈的重复进行，但重复博弈中博弈方的行为和博弈结果却不一定是基本博弈的简单重复，因为博弈方对于博弈会重复进行的意识，会使他们对利益的判断发生变化，从而使他们在重复博弈过程中的行为选择受到影响。这意味着不能把重复博弈当作基本博弈的简单叠加，必须把整个重复博弈过程作为整体进行研究。4.1.1 为何研究重复博弈n经济中的长期关系n人们的预见性n未来利益对当前行为的制约n长期合同、回头客、长客和一次性买卖的区别n有无确定的结束时间4.1.2 基本概念n有限次重复博弈有限次重复博弈：给定一个基本博弈G（可以是静态博弈，也可以是动态

2、博弈），重复进行T次G，并且在每次重复G之前各博弈方都能观察到以前博弈的结果，这样的博弈过程称为“G的T次重复博弈”，记为G(T)。而G则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。n无限次重复博弈无限次重复博弈：一个基本博弈G一直重复博弈下去的博弈，记为G( )n策略策略：博弈方在每个阶段针对每种情况如何行为的计划n子博弈子博弈：从某个阶段（不包括第一阶段）开始，包括此后所有的重复博弈部分n均衡路径均衡路径：由每个阶段博弈方的行为组合串联而成重复博弈的得益Ttt1t1T1 -T32211t13221ttG（，）的平均得益为相同的现在值，则称得益序列阶段的得益，能

3、产生与无限次重复博弈）各个重复博弈或作为重复博弈（有限次：如果一常数，,2121平均得益11)1 (ttt虑贴现问题无限次重复博弈必须考考虑贴现因素有限次重复博弈不一定1t1113221)-1-1()-1-1(-1-1tttttppp如果抽到停止重复的概率为p，则抽到重复下去的概率为1-p，利率为。4.2 有限次重复博弈4.2.1 两人零和博弈的有限次重复博弈4.2.2唯一纯策略纳什均衡博弈的有限次重复博弈4.2.3多个纯策略纳什均衡博弈的有限次重复博弈4.2.4 有限次重复博弈的民间定理4.2.1 两人零和博弈的有限次重复博弈n零和博弈是严格竞争的，重复博弈并不改变这一点。n以零和博弈为

4、原博弈的有限次重复博弈与猜硬币博弈的有限次重复博弈一样，博弈方的正确策略是重复一次性博弈中的纳什均衡策略。n上述结论也可以推广到非零或多个博弈方，但博弈方的利益严格对立，没有纯策略纳什均衡的其他严格竞争博弈中。在这些博弈作为原博弈构成的有限重复博弈中，惟一的子博弈完美纳什均衡就是所有博弈方都始终采用原博弈的混合策略纳什均衡策略4.2.2唯一纯策略纳什均衡博弈的有限次重复博弈n定理定理：设原博弈G有唯一的纯策略纳什均衡,则对任意整数T，重复博弈 G(T)有唯一的子博弈完美纳什均衡，即各博弈方每个阶段都采用G的纳什均衡策略。各博弈方在G(T)中的总得益为在G中得益的T倍，平均得益的与原博弈G中

5、的得益。-5，-50，-8-8，0-1，-1坦白不坦白囚徒囚徒2坦白不坦白囚囚徒徒1（-5，-5）-10，-10-13，-5-5，-13-6，-6坦白不坦白囚徒囚徒2坦白不坦白囚囚徒徒1（-10，-10）n 从结果看，两次重复囚徒困境相当于独立两次一次性的囚徒困境博弈，然后再把两次独立博弈的的得益相加。这个结果实际上具有一般意义。n在有限次重复博弈中，如果原博弈存在唯一的纯策略纳什策略组合，则有限次重复博弈中的唯一的均衡解即各博弈方在每个阶段（即每次重复）中都采用原博弈的纳什均衡策略。n由于在这样的双方策略下，均衡路径中的每个阶段都不存在任何不可信的威胁或许诺（纳什均衡策略肯定是可信的），

6、因此这种均衡是子博弈完美纳什均衡。有限次重复削价竞争博弈100，10020，150150，2070，70高价低价高价低价寡头寡头2寡寡头头1削价竞争博弈有唯一纯策略纳什均衡（70，70）有限次重复的结果仍然是（低价，低价）重复囚徒困境悖论和连锁店悖论4.2.3多个纯策略纳什均衡博弈的有限次重复博弈5，53，32，00，22，06，00，20，61，1HMH厂商厂商2ML厂厂商商1L三价博弈2，23，13，11，34，47，11，31，78，8厂厂商商1厂商厂商2LMHHML两次重复三价博弈的等价模型触发策略触发策略：两博弈方先试探合作，一旦发现对方不合作则也用不合作报复。博弈方1：第一

7、次选H；如第一次结果为(H,H)，则第二次选M，否则选L博弈方2：同博弈方1触发策略n在上述双方策略组合下,两次重复博弈的路径一定为第一阶段(H,H)，第二阶段（M,M）这是一个子博弈完美纳什均衡路径。n首先试探合作，一旦发觉对方不合作则也用不合作相报复的策略，称为“触发策略触发策略”。n如果上面这个博弈的重复的次数不是两次，而是三次或者更多，一般说n次，结论也是相似的。当重复的次数较多时，平均得益接近于一次性博弈中(H,H)的得益（5,5）。触发策略的进一步讨论4，45，35，33，56，69，33，53，98，8厂厂商商1厂商厂商2LMHHML重复三价博弈的等价模型不可信报复第一阶段最佳选

8、择不是（H，H），而是（M，M）。这意味着两次重复博弈的均衡路径是二次(M,M)。实际上，触发策略中报复机制的可信性是一个很复杂的问题，会受到相互预期等很多复杂因素的影响。博弈博弈2博弈1HLMPQH5,50,60,20,00,0L6,03,30,20,00,0M2,02,01,10,00,0P0,00,00,04,1/20,0Q0,00,00,00,01/2,4这个博弈与前面的三价博弈的差别知识两博弈方都增加了两个可选策略，它有四个纯策略纳什均衡(M,M)、(L,L)、(P,P)和(Q,Q)。(H,H)不是纳什均衡。博弈方1:在第一阶段采用H,如果第一阶段结果是(H,H),那么第二阶段采用

9、M,否则采用P博弈方2:在第一阶段采用H,如果第一阶段结果是(H,H),那么第二阶段采用M,否则采用Q双方的上述触发策略组合构成该重复博弈的一个子博弈完美纳什均衡，而且双发的触发策略中的报复都是可信的，因为双发触发策略中的报复机制不仅本身可以构成纳什均衡，而且自己也是有利的。两市场博弈的重复博弈（重复两次）n(A,B)+(A,B) OR (B,A)+(B,A)(1,4)(4,1)n连续两次采用混合策略(2,2) 0.25(3+4+1+0)=2n(A,B)+(B,A) OR (B,A)+(A,B)(2.5,2.5)轮换策略n一次纯策略+一次混合策略(1.5,3)(3,1.5)n如果两市场博弈重复

10、3次，则博弈的结果缺失会进一步的改善。0，04，11，43，3厂厂商商1厂商厂商2BAAB两市场博弈重复博弈不同策略、均衡及一次性博弈得益比较n不同策略组合、均衡得益图示厂商2得益厂商1得益(1,4)(3,3)(2.5,2.5)(2,2)(3,1.5)(4,1)(1.5,3)二次重复时没有条件运用的触发策略，在三次以上的重复中有了运用的条件。例如现在厂商1和厂商2可以采用如下触发策略：n厂商1:第一阶段选A；如果第一阶段结果是(A,A)，则第二阶段选A，如果第一阶段结果是(A,B)，则第三阶段无条件选B。n厂商2:第一阶段选A；第二阶段无条件选B，如果第一阶段结果是(A,A)，则第三阶段件选A

11、;如果第一阶段结果是(B,A)，则第三阶段选。n根据双方的上述策略，3次重复博弈的均衡路径是(A,A)到(A,B)再到(B,A)。其中第二、第三阶段本身就是原博弈的纳什均衡，因此不会有哪一方单独偏离。 (3+1+4)/3=2.67n101次（99*3+1+4）/101=2.99 接近（3,3）n如果重复博弈次数进一步增加，则接近程度还能进一步提高。4.2.4 有限次重复博弈的民间定理n个体理性得益个体理性得益：不管其它博弈方的行为如何，一博弈方在某个博弈中只要自己采取某种特定的策略，最低限度保证能获得的得益n可实现得益可实现得益：博弈中所有纯策略组合得益的加权平均数组n定理定理：设原博弈的一

12、次性博弈有均衡得益数组优于w，那么在该博弈的多次重复中所有不小于个体理性得益的可实现得益，都至少有一个子博弈完美纳什均衡的极限的平均得益来实现它们厂商2得益厂商1得益(1,4)(3,3)(1，1)(4,1)w=(1.1)n 在所有可实现得益或优于w=(1,1)的可实现得益中，只有处于(1,4)与(3,3)和(3,3)与(4,1)两条连线上，包括这三点本身的可实现得益有教重要的意义，因为它们代表了帕累托效率意义上最有效的均衡得益。n民间定理的关键意义正是在于保证这些得益有一定次数重复博弈的子博弈完美纳什均衡的平均得益可以实现或逼近它们。n 这种结论对于帮助我们加强对重复博弈意义的理解，帮助我们在

13、重复博弈中更好地把握机会，设计和运用高效率的策略，建立相互的默契和信任，从而争取实现更好的博弈结果，都有相当重要的意义。4.3 无限次重复博弈4.3.1 两人零和博弈的无限次重复博弈4.3.2 唯一纯策略纳什均衡博弈的无限次重复博弈4.3.3 无限次重复古诺模型4.3.4 有效工资率4.3.1 两人零和博弈的无限次重复博弈n两人零和博弈无限次重复的所有阶段都不可能发生合作，博弈方会一直重复原博弈的混合策略纳什均衡。n因为无限重复次数的无限增加也不能改变原博弈中博弈方之间在利益上的对立关系，也不会创造出潜在合作利益。4.3.2唯一纯策略纳什均衡博弈的无限次重复博弈两寡头削价竞争博弈该博弈一

14、次性博弈均衡是都采用低价，是囚徒困境型博弈4，40，55，01，1HLHL无限次重复两寡头削价博弈触发策略触发策略：第一阶段采用H，如果前t-1阶段的结果都是(H,H)，则继续采用H，否则采用L。如果博弈方2采用L，总得益现值为如果博弈方2采用H，总得益现值为因此当时，此触发策略纳什均衡策略15.115215-14144?VVV4/1两寡头削价竞争无限次重复博弈的民间定理厂商2得益厂商1得益(1,4)(4,4)(1,1)(4,1)(5,0)(5,0),(),(1),(),(11niininxxGiexGxxGeeG均得益为什均衡，各博弈方的平完美纳中一定存在一个子博弈次重复博弈，那么

15、无限足够接近都成立，而对任意博弈方果的任意可实现得益。如表示用的纳什均衡的得益，记的静态博弈。用是一个完全信息理：设无限次重复博弈民间定古诺模型的无限次重复博弈和支持垄断产量的条件假定假定：，边际成本都为2。在无限次重复古诺模型中，当贴现率满足一定条件时，两厂商采用下列触发策略构成一个子博弈完美纳什均衡：在第一阶段生产垄断产量的一半1.5；在第 t 阶段，如果前 t-1 阶段结果都是(1.5,1.5)，则继续生产1.5，否则生产古诺产量2。这种触发策略的实质同样是采用它的博弈方先试图合作，选择符合双方利益的产量，而一旦发现对方不合作，偏偏对对方有利的产量，则也可以选择纳什均衡产量来

16、进行报复，双方都采取上述触发策略的博弈路径为每阶段都采用(1.5,1.5)，双方每阶段得益都为*=4.5. 21,8qqQQP其中设厂商1已采用该触发策略，若厂商2也采用该触发策略，则每期得益4.5，无限次重复博弈总得益的现值为：如果厂商2偏离上述触发策略，则他在第一阶段所选产量应为给定厂商1产量为1.5时，自己的最大利润产量，即满足：解得，此时利润为5.0625，高于触发策略第一阶段得益4.5。15.415.4222225 . 4max25 . 18max222qqqqqqq25. 22q古诺模型的无限次重复博弈和支持垄断产量的条件但从第二阶段开始，厂商1将报复性地永远采用古诺产量

17、2，这样厂商2也被迫永远采用古诺产量，从此得利润4。因此，无限次重复博弈第一阶段偏离的情况下总得益的现值为：当上述策略是厂商2对厂商1的同样触发策略的最佳反应，否则偏离是最佳反应。 140625. 540625. 52179140625. 515 . 4即古诺模型的无限次重复博弈和支持垄断产量的条件 9/17时上述触发策略不是无限次重复博弈的纳什均衡。虽然较小时，因为远期利益的重要性不足，无限次重复博弈也不能促使两厂商把产量都，控制在qm/2=1.5的低水平，但还是有可能使各厂商把产量都产量比古诺qc低的水平，即垄断产量的一半qm/2和古诺产量qc之间某个中间产量水平q*。例如我们以q*为

18、基础构造一种双方共同采用的触发策略：在第一阶段生产q* ；在第t阶段，如果前t-1阶段的结果都是(q*, q*)，则继续生产q* ，否则生产古诺产量qc =2. 二、低水平合作双方都采用该触发策略时均衡路径为阶段都是(q*, q*),两厂商的得益为*=(8-2q*)q*-2q*=(6-2q*)q*。我们假设厂商1已采用上述触发策略，那么如果厂商2也采用触发策略,则他的每期得益是, *=(6-2q*)q*，无限次重复博弈得益的现在值为*/(1-)= (6-2q*)q* /(1-)。如果厂商2在第一阶段偏离，并根据厂商1的产量q*决定自己该阶段的最大利润产量，则该产量必满足：二、低水平合作 2

19、*2)28(max2qqqq解之得q2=(6-q*)/2,，相应的得益（即利润）为d=(6-q*)2/4.但是，从第二阶段开始，因为厂商1必然报复性地采用古诺产量qc=2，因此厂商2也只能采用古诺产量2，从此得益永远为c=4。这样无限次重复博弈得益的现在值为二、低水平合作 144)6(1*qcd0)59(6*)9(3)6*3(144)6(1*)2-6(*qqqqq?时，厂商2才愿意也采用上述触发策略，否则肯定会偏离。由于q*2，因此只有二、低水平合作 9)59(2*q时触发策略才是稳定的，也就是说，对于给定的水平，它能够支持的具有稳定性的最低“合作”产量q*满足9)59(2*q 越大，将来

20、利益越重要，就能支持越低的子博弈完美纳什均衡产量q*。当接近0，即将来的得益对博弈方来说几乎意义时，q*接近古诺产量；当09/17时，qm/2q*qc，即1.5q*2，越接近9/17，q*越接近qm/2；当达到或超过9/17时，就能支持最大效率的垄断低产量qm/2。二、低水平合作从上述分析，可以找到为什么通货膨胀严重国家的企业在经济活动中短期行为更为严重的一种理论根源，因为通货膨胀率越高，未来利益的折算成现在值的贴现率就越低，企业就越是重视当前利益而不重视长期利益，因此它们的行为有更强烈的急功近利特征。通货膨胀太严重不仅在宏观经济的稳定运行方面有很大危害，而且对一个国家经济运行的微观

21、基础方面也有很大的危害。二、低水平合作二、加大处罚力度和提高合作水平n在无限次重复古诺模型中，除了上述在一定条件下能成为子博弈完美纳什均衡的处罚策略以外，实际上还可能构造其它同样也能实现高效率的子博弈完美纳什均衡，并且要求的条件更宽松(较小)的触发策略。n第一阶段生产垄断产量的一半qm/2；在t阶段，如果第t-1阶段的结果为(qm/2, qm/2),则生产qm/2 ，如果第t阶段的结果为(x,x)，也生产qm/2 ，否则生产x。n上述策略中x为比古诺产量qc更高的待定惩罚性高产量，因为在本策略中惩罚不是永久性的，采用qc不足以约束对方的行为。n 这种策略实际上是一种胡萝卜加大棒的策略。采用

22、该策略的博弈方在另一方与自己步调不一致时下一阶段采用较高的x加以惩罚，步调一致，则下一阶段用合作的态度“奖赏”对方，当然为自己争取更高的可能利益。二、加大处罚力度和提高合作水平n设双方都采用上述策略，则博弈路径是每阶段都采用(qm/2, qm/2)，双方每阶段都得到垄断利润的一半m/2 ，无限重复博弈得益的现在值为m/2 (1-).n 但如果厂商2在第一阶段偏离，采用偏离产量qd，则qd必须满足：ddmqqqqd)26(max将qm=3代入，解之得qd=2.25，本阶段得益为d=2.252=5.0625.第二阶段厂商1将采用x加以惩罚，这时厂商2第二阶段也必须采用x，因为这样才能避免厂商1第

23、三阶段进行惩罚。这样厂商2第二阶段的得益为x=(6-2x)x=6x-2x2。假设此后合作重新开始并继续下去，双方都不在偏离合作(qm/2, qm/2)直到永远，则后面所有阶段的得益与双方从一开始就合作的得益完全相同。二、加大处罚力度和提高合作水平n因此，厂商2在第一阶段是否选择偏离的依据，就是第一阶段偏离所得到好处与第二阶段受惩罚损失的现在值的大小关系。即当：5625. 05 , 40625. 52)265 . 4()2(2mdxmxx?也即0.5625/(4.5-6x+2x2)时，厂商2在第一阶段不会选择偏离，反之则会偏离。从该不等式看厂商2是否偏离不仅取决于，即未来得益折算成当前得益的贴

24、现系数，还取决于厂商1用于惩罚的产量x，如果x的数值太小，责罚力度可能不够，不足以保证厂商2与厂商1真心合作。如果选x=qc=2，即古诺产量作为惩罚性产量，则必须大于1.125才能使厂商2保持合作，而贴现系数大于1通常是不可能的，因此厂商2必然是选择偏离合作，不会害怕惩罚。二、加大处罚力度和提高合作水平n如果要在=1/2的情况下保证厂商2不偏离，则x至少不小于2.25.n上面我们只考虑了厂商2在第一阶段是否偏离上述触发策略的选择，但实际上厂商2在后面任何一个阶段的情况与第一阶段是完全一样的，因为无论从那个阶段考试都是一个无限次重复博弈，对方策略也与从第一阶段开始的重复博弈相同。因此，在惩罚性

25、产量x和贴现系数满足一定条件，如果厂商2在第一阶段的选择是不偏离。厂商1的选择与厂商2完全一样。n这证明了在古诺模型的无限次重复博弈中，即使未来得益的贴现系数较小（如=1/20，低产量0。工人努力工作时一定是高产量 y ，不努力时却并不一定是0，高产量 y 的概率为 p，低产量0的概率为1-p 。工人努力工作时，厂商得益为y-w ，工人得益为 w-e ；工人偷懒时，厂商期望得益为 py-w ，工人得益为w 。如果是一次博弈，则它的结果肯定时不理想的，因为通常厂商要预付工资给工人，或者即使发觉工人不努力也必须支付工资给工人，因此工人没有努力工作的动力，他必然会偷懒。由于厂商了解工人的这

26、种思路，因此他决不会不会冒险去雇佣一个肯定不会努力工作的工人(当p不够大时，py-w常是负数)。因此他的选择必然是w=0，而工人则只能去做个体户。如果假设w-ew0，因此做个体户对工人也是不利的。在无限次重复博弈中，厂商可以通过支付高于w0的工资，并威胁一旦产量低就解雇工人的方法促使工人努力工作，这在一定条件下对厂商说是合算的。考虑如下的触发策略考虑如下的触发策略：厂商在第一阶段给工资率 w*，在第t阶段，如果前面t-1阶段结果都是 (w*,y) 则继续给w* ，否则从此永远是 w=0。工人的策略是如果ww0 则接受，否则宁愿作个体户得到w0 ，并在以前各期结果都是(w*,y) 和当前工

27、资率为 w* 时努力工作，否则偷懒。厂商的触发策略与前面例子的触发策略一样，先试图合作，一旦发现对法不合作，则永远转向原博弈的纳什均衡。工人的决策时是否接受工作和是否努力工作。考虑如下的触发策略考虑如下的触发策略：设厂商已采用上述触发策略。由于w*w0 ，工人接受工作是最佳反应。用记工人努力工作时无限次重复博弈得益的现值，则Ve 即： Ve=(w*-e)+Ve1e-w*eV假如工人偷懒，则工人高产量的概率为p，低产量的概率为1-p出现高产量厂商给工资w*，低产量将解雇工人，工人的收入为w0 用Vs 记工人选偷懒时无限重复博弈得益的现值，则：即因此当VeVs 即时，努力是工人的最佳选择。也就是说，要促使工人努力工作，厂商的工资w*不仅包括w0+e,补偿工人的工作机会成本和努力工作的负效用，还必须在基础

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第四章重复博弈

文档简介

温馨提示

最新文档

评论

第四章 重复博弈

文档简介

温馨提示

最新文档

评论

相关文档

第四章重复博弈