版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章 重复博弈Chapter 4 Repeated Games重复博弈引论有限次重复博弈无限次重复博弈 In this chapter we analyze whether threats and promises about future behavior can influence current behavior in repeated relationships. Much of the intuition is given in the two-period case; a few ideas require an infinite horizon.区分:repeated game
2、s and sequential games张维迎P207209Sequential game的特征:参与人在前一阶段的行动选择决定随后的子博弈的结构,因此,从后一个决策结开始的子博弈不同于从前一个决策结开始的子博弈,或者说,同样结构的子博弈只出现一次。Repeated game,顾名思义,就是同样结构的博弈重复多次,其中每一次博弈称为阶段博弈Stage game(也称为原博弈)。 Repeated Game的基本特征有3项:1、阶段博弈之间没有“物质上”的联系(no Physical links),也就是说,前一阶段博弈不改变后一阶段博弈的结构(对比之下,序惯博弈涉及到物质上的联系);、所有
3、参与人都观测到博弈过去的历史;、参与人的总支付是所有阶段支付的贴现值之和或加权平均值。 :阶段博弈本身可能是一个静态博弈,也可能是一个动态博弈。因此重复博弈可能是不完美信息博弈,也可能是完美信息博弈,尽管博弈论专家谈到重复博弈时一般是指前一种情况。:分析重复博弈的意义因为其他参与人过去行动的历史是观测得到的,一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史,因此,参与人在重复博弈中的策略空间远远大于和复杂于每一个阶段博弈的策略空间(试想囚徒困境博弈重复次,每个囚徒的纯策略数量会有多少?策略组合的数量会更多)。这意味着,重复博弈可能带来一些“额外的”均衡结果,这些结果在一次
4、性博弈中是不会出现的。:影响重复博弈均衡结果的主要因素是重复博弈的次数和信息的完备性(completeness).4.1 重复博弈引论4.1.1 为何研究重复博弈 人们之间的长期关系与短期关系之间有重要 的性质差别,人们在对待与其有长期关系的 人与对待那些以后不再交往的人可能会有非 常不同的行为。短期难以形成某种默契或合作关系,而长期可以通过报复、制裁的威胁来相互约束各方的行动。研究重复博弈的意义首先在于这种博弈关系在现实中有普遍性。人们之间的长期关系与短期关系之间有重要 的性质差别,长期关系也可以理解成博弈阶段数较多,时间跨度较大的一般动态博弈。但社会经济活动中的许多长期关系,并不像一般动态
5、博弈那样,前一个阶段与后一阶段之间有环环相扣的紧密联系,而是各个阶段之间有很强的相互独立性,各个阶段有独立的选择和利益,而且后面阶段的选择内容和利益形式上并不受前面阶段的影响。把这种关系理解成生复博弈,显然比理解成复杂的长期动态博弈,更能反映问题的实质。这正是研究重复博弈的根本理由。Definition Given a stage game G,let G(T)(T)denote the finitely repeated game in which G is played T times, with the outcomes of all preceding plays observed b
6、efore the next play begins. The payoffs for G(T) are simply the sum of the payoffs from the T stage games. 无限次重复博弈:一个基本博弈G一直重复博弈下去的博弈,记为G( )策略:博弈方在每个阶段针对每种情况如何行为的计划子博弈:从某个阶段(不包括第一阶段)开始,包括此后所有的重复博弈部分均衡路径:由每个阶段博弈方的行为组合串联而成重复博弈的得益重复博弈的特征:1、阶段博弈之间没有“物质上”的联系,即前一阶段的博弈不改变后一阶段的结构 ;2、所有参与人都观测到博弈过去的历史;3、参与人的总
7、支付是所有阶段博弈支付的贴现值之和或加权平均均值。贴现因子:下一期的一单位支付在这一期的价值。注意:在每个阶段,参与人可同时行动,也可不同时行动。4.2 有限次重复博弈4.2.1 两人零和博弈的有限次重复博弈 以零和博弈为原博弈的有限次重复博弈与猜硬币博弈的有限次重复博弈一样,博弈方的正确策略是重复一次性博弈中的纳什均衡策略定理:设原博弈G有唯一的纯策略纳什均衡,则对任意整数T,重复博弈 G(T)有唯 一的子博弈完美纳什均衡,即各博弈方每个阶段都采用G的纳什均衡策略。各博弈方在G(T)中的总得益为在G中得益的T倍,平均得益的与原博弈G中的得益Definition Given a stage g
8、ame G,let G(T)(T) denote the finitely repeated game in which G is played T times, with the outcomes of all preceding plays observed before the next play begins. The payoffs for G(T) are simply the sum of the payoffs from the T stage games. 因子,再一次借助于后退归纳法, 第二阶段 唯一的Nash均衡为(U,L),得益向量为(1,1),所 得的贴现值为(,),
9、由此在第一阶段相当于 博弈:L R U 1+,1+ 5+,D ,5+ 4+,4+12 该博弈有唯一的Nash均衡(U,L),因此我们得到唯一的子博弈完美Nash均衡:(U,L),(U,L)定 义 :令G=S1,S2,Sn;u1,u2,un,G重复T次, 称G为T阶段博弈,G(T)表示实施了T次的重复 博弈。在某次阶段博弈之前,所有已采取过的前面 阶 段的行动都可以观测到,参与人在G(T) 中的 得益简单地来自T个阶段博弈得益的贴现值之 和。另外G(T)的得 益也可以定义为T个阶段博 弈的贴现值的平均,它与贴现值之和仅相差常数因子1/(1+ + ), 并不影响子博 弈完美的结局。 定 理 如果阶
10、段博弈G有唯一的Nash均衡,那么对任意有限次重复博弈G(T)有唯一的子博弈完美结局:在 每一阶段取G的Nash均衡策略。 2 TProposition :If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgame-perfect outcome:the Nash equilibrium of G isplayed in every stage注:在阶段博弈G为完全且完美信息动态博弈时类似的结论同样成立。设G属于第三章所定
11、义的完全且完美信息动态博弈,如果G有唯一的逆推归纳解,则G(T)有唯一的子博弈完美NE:其中每一阶段的结果都是G的逆推归纳解。类似的,设G为第三章所定义的有同时选择的两阶段动态博弈,如果G有唯一的子博弈NE,则G(T)也有唯一的子博弈完美NE:G的子博弈完美NE重复进行T次。 当然,上述结论对于阶段博弈G有两个及两个以上 NE(或子博弈完美NE)的G(T)就不成立了。这种G(T)有多条子博弈完美NE路径。其中可能包含第一阶段有合作结果的稳定路径。 例 连锁店悖论(Selten)设有如下市场进入博弈进入者在位者不进入 进入默许 斗争(0,300)(40,50) (-10,0)策略式默许 斗争进入
12、 40,50 -10,0不进入 0,300 0,300在位者进入者Nash均衡为(进入,默许)和(不进入,斗争)但后者不是子博弈完美。 假定同样的市场有20个(可以理解为在位者有20个联锁店), 进入者每次进人一个市场,博弈就成了20次的重复博弈。人们也许会猜想,尽管从一个市场看,在位者的最优选择是默许,但因为有20个市场要保护,为了防止进入者进入其他19个市场,应该选择斗争,但子博弈完美的结果为进入者在每一市场选择进入,而在位者总是选择默许。 例 三 价 博 弈 的 重 复 博 弈H M LH 5,5 0,6 0,2M 6,0 3,3 0,2L 2,0 2,0 1,1厂商1厂商2其中H表示高
13、价,M表示中价L表示低价。该博弈有两个Nash均衡: (M,M) 和(L,L)。 策略组合 : ( H,H) 对双方最有利, 但不是Nash 均衡。两次重复博弈情况会有变化吗?12225,5) (0,6) (0,2) (6,0) (3,3) (0,3) (2,0) (2,0) (1,1)H M L H M L H M L两次重复博弈共有99=81种纯策略组合(路径),这时,子 博弈完美有多个,但重要的是:存在在第一阶段取(H,H)的子博弈完美 4.2.3阶段博弈存在两个以上p201触发策略在重复博弈的分析中有非常重要的作用,但上例中的触发策略也存在可信性的问题,因为参与人在报复对方的偏离时,自
14、己也会受到损失,故也可能是未偏离的一方不计前嫌,在第二阶段与对方共同采用M,这对他自己也是有利的。 实际上,触发策略中的报复机制的可信性是一个很复杂的问题,会受到相互预期等很多复杂因素的影响。 H M LL 8 ,8 3, 9 3, 5M 9, 3 6, 6 1, 3L 5, 3 5, 3 4, 4 重复两阶段三价博弈的等价博弈:不可信报复,最佳选择为(M,M)两市场博弈的重复博弈在某些场合其他策略可能比触发策略更有效,如两个厂商同时面临市场机会A和B,得益如下表:表中得益意味着市场A较大但开发程度很低,市场B较小但开发程度高,这个博弈的两个纯策略Nash均衡和一个混合策略的Nash均衡的结果
15、都不很理想。如果该博弈重复两次双方会采用什么策略?这时有多种子博弈完美的均衡路径,但双方均采用“轮流策略”是比较好的。A 2 BA 3 , 3 1, 41B 4, 1 0, 0*该G重复两次构成一个两阶段的重复博弈,那么可形成多少条路径?如果不考虑混合策略,16条。其中子博弈完美NE路径有哪些?从前述的例子中已知,阶段博弈的NE在每个阶段的重复或交替构成子博弈完美NE。那么不考虑混合策略NE情况下,有4条。重复博弈均衡路径、及其效率比较这4条均衡路径及其支付是:行动组合支付向量Stage 1Stage 2总支付平均支付(A,B)(B,A)(A,B)(B,A)(A,B)(B,A)(2,8)(1,
16、4)(5,5)(2.5,2.5)(5,5)(2.5,2.5)(8,2)(4,1)路径的支付采用平均支付与采用总支付相比的优点:平均支付可以与阶段博弈的支付相比较。0甲的平均支付乙的平均支付1231234(1,1)(4,1)(1,4)(3,3)(2.5,2.5)(2.67,2.67)*该博弈如果重复三次构成一个三阶段的重复博弈,由每阶段都重复或交替阶段博弈的纯策略NE,那么子博弈完美NE路径有几条?8条。它们的效率如何?同两阶段重复博弈。除此之外已找不到另外的效率更高的均衡路径。但可找到另外一条效率更高均衡路径。考虑如下面的策略组合:甲:第一阶段开发A市场;第二阶段视第一阶段 的结果而定如果结果
17、是(A,A),则选 A,如果是(A,B),则选B;第三阶段无 条件选B。乙:第一阶段开发A;第二阶段开发B;第三阶 段根据第一阶段的结果而定如果第一阶段 结果是(A,A),则选A,否则选B。1、策略中都包含有条件的选择。2、策略是一个完整的行动方案。问题:该策略组合对应的路径是什么?对应的路径:(A,A)(A,B)(B,A)该路径的平均支付向量:(2.67 , 2.67)这条路径比其它8条的效率都更高。是否均衡?这条路径的第三阶段行动组合(B,A)和第二阶段行动组合(A,B),本身都是阶段博弈的NE,双方都不会偏离。因此只要看第一阶段的行动组合(A,A)是否有会偏离。验证:(3+4+1)/3=
18、2.67(4+1+1)/3=2不偏离的平均支付= 偏离的平均支付=-3#这就证明了该策略组合是子博弈完美的。从这条均衡路径中看到:将来利益对当前的选择有约束。这种策略有2个特点:1、第一阶段选A,试探合作。机会主义2、后续阶段中包含着奖励和惩罚机制:选A可以奖励对方,选B可以惩罚对方。因为(A,B)和(B,A)都是阶段博弈的NE,所以奖励和惩罚都是可信的。一方的机会主义行为将触发其他参与人策略中的惩罚机制发生。触发策略(Trigger strategies):我们把这种包含着奖励和惩罚机制的策略称为触发策略。正是由于害怕“触发”其他参与人的惩罚机制,所以不敢利用机会使自己在该阶段利益最大化,从
19、而使该阶段的“合作”出现。从这个意义上看,触发策略是“温柔的”。该阶段博弈如果只有两个阶段,则无法构造触发策略(不存在触发策略)。考虑如下抽象博弈:参与人2L M R P QLMRPQ参与人11 , 1 5 , 0 0 , 0 0 , 0 0 , 00 , 5 4 , 4 0 , 0 0 , 0 0 , 00 , 0 0 , 0 3 , 3 0 , 0 0 , 00 , 0 0 , 0 0 , 0 4,1/2 0 , 00 , 0 0 , 0 0 , 0 0 , 0 1/2, 4 上面的例子因为阶段博弈的NE很丰富,且存在可供奖励和惩罚的NE,所以双方不仅可构造触发策略,而且触发策略是子博弈完
20、美的(或者说触发策略所包含的奖励和惩罚是可信的)。双方的策略均为:第一阶段选择M;如果第一阶段的行动组合是(M,X)(或(X,M),X为除M之外的其它可选行动),则第二阶段选P(Q),如果是除此之外的其它任何组合,则选R。第一阶段的行动组合是(M,M),则第二阶段的行动组合将是(R,R);第一阶段的行动组合是(M,X)或(X,M),则第二阶段的行动组合将是(P,P)或(Q,Q);第一阶段的行动组合为其它,则第二阶段还是(R,R)。 参与人2 L M R P Q参与人 1 L 4 , 4 5.5 , 4 3 , 3 3 , 3 3 , 3 M 4 ,5.5 7 , 7 4 ,0.5 4,0.5
21、4,0.5 R 3 , 3 0.5,4 6 , 6 3 , 3 3 , 3 P 3 , 3 0.5,4 3 , 3 7, 3.5 3 , 3 Q 3 , 3 0.5,4 3 , 3 3 , 3 3.5,7除了(M,X)和(X,M)(X=L、R、P、Q)的第二阶段是(P,P)或(Q,Q),其余的第二阶段都是(R,R)。由分析可知,其中(M,M)是NE,它表示路径(M,M)(R,R),平均支付是(3.5,3.5).这条路径的第一阶段是合作的。阶段博弈存在多个NE情况下,有限次重复博弈存在多条均衡路径,其中触发策略均衡(如果均衡的话)的路径效率更高。案例:美国Staten岛上的报纸发行市场上有两个主
22、要的竞争对手:纽约邮报和每日新闻。1994年,纽约邮报所属公司Rubert Murdoch将邮报的价格从40美分提高到50美分,这时每日新闻没有跟着提价。在将纽约邮报的价格降回到40美分之后,对方还是没有作出反应,于是Rubert Murdoch公司宣布有意向将价格再降到25美分,但对方仍然没有做出响应。接着Rubert Murdoch公司果然将邮报在这个岛屿上的发行价格降到25美分。此时,每日新闻终于明白了纽约邮报的意图,将价格提高到50每分。不久,Rubert Murdoch公司也将价格重新提高至50美分。纽约邮报的策略是友好的,因为它一开始就提高价格;同时也是挑衅的,在每日新闻没有跟着提
23、价时,它又将价格降低;这一策略同样具有宽恕性,当每日新闻将价格提高到50美分后,也重新将价格提高;这一策略也是明了的,纽约邮报的意图对每日新闻来说经过了两个回合就变得显而易见。由于“触发策略”的运用,在这场“囚徒困境”式的价格博弈中出现了合作双赢的局面。Murdoch公司的做法和“触发策略”的益处在事后看来更加明显。Murdoch公司的成功是因为它掌握了博弈论的重要原则:你要了解竞争对手,也让竞争对手了解你。因此,如果公司的策略为竞争对手所明白,并且应向竞争对手清楚地表明公司准备合作,但对背叛行为将采取以牙还牙的报复行动,那么公司最终将赢得竞争,而竞争对手通过合作也将大有收获。4.2.4有限次
24、重复博弈的无名氏(Folk)定理The folk theorem (R. Aumann, J. Friedman)用wi记博奕方i在一次性博弈中最差的均衡得益,w=(w1,w2,wn),不管其他方的行为如何,一个博弈方在某个博弈中只要采取某种特定的策略,最低限度保证能获得的得益称为“个体理性得益”或“保留得益”(wi=min(max u(i,-i);博弈中所有纯策略组合的的加权平均(凸组合)数组称为“可实现得益”有限次重复博弈的无名氏定理:设原博弈的一次性博弈得益组合优于w,那么在该博弈的多次重复中,所有不小于个体理性得益的可实现得益,都至少有一个子博弈完美的Nash均衡的极限的平均得益来实现
25、他们。-i i两市场博弈有限次重复的无名氏定理厂商2得益厂商1得益(1,4)(3,3)(4,1)w=(1.1) 4.3 无限次重复博弈无限次重复博弈囚徒困境博弈重复无穷次,结果如何?证明得出,如果参与人有足够的耐心,(抵赖,抵赖)是一个子博弈精练纳什均衡结果)。冷酷战略(1)开始选择抵赖;(2)选择抵赖一直到有一方选择了坦白,然后永远选择坦白。-8,-80,-10-10,0-1,-1囚徒A囚徒 B坦白抵赖坦白抵赖 无限次重复博弈使其走出了囚徒困境,背后的原因是: 如果博弈重复无穷次而且每个人有足够的耐心,任何短期机会主义行为的所得都是微不足道的,参与人有积极性为自己建立一个乐于合作的声誉,同时
26、也有积极性惩罚对方的机会注意的行为。举例:一个男孩被视为傻瓜,因为每当别人拿一枚1角硬币和5分硬币让他选的时候,他总是选5分的,有一个人觉得奇怪,就问他:“为什么你不拿1角钱的?”,男孩小声回答:“假若我拿了1角钱的硬币,下次他们就不会拿钱让我选了。”对无限次重复博弈来说,即使阶段博弈只有唯一的纯策略NE,也存在一条效率更高的子博弈完美NE路径,路径上每一个阶段的动组合都不是阶段博弈的NE,而是合作的行动组合。1,1-1,20,00,0厂商消费者购买不购买高质量低质量质量博弈 假定只有一个厂商提供产品,每个消费者只买一次,且每个阶段只有一个消费者。 为什么消费者偏好于购买大商店的产品而不相信走街串巷的小商贩?一次博弈的均衡结果参与人不固定时的重复博弈1,1-1,20,00,0厂商消费者购买不购买高质量低质量质量博弈 如果厂商的贴现因子 =1/2,则无限次重复博弈的纳什均衡为: 厂商从生产高质量的产品开始,继续生产高质量的产品,除非曾经生产过低质量产品,如果上一次生产了低质量的产品,之后永远生产低质量的产品。 第一个消费者选择购买,只要厂商不曾生产过低质量的产品,随后消
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025池塘清淤工程的施工合同
- 9 知法守法 依法维权 依法维权有途径(说课稿)-部编版道德与法治六年级上册
- 21 淡水资源 说课稿-2024-2025学年科学三年级上册青岛版
- 2025法律法规工伤员工续签合同问题 管理资料
- 6将相和(第一课时)说课稿-2024-2025学年五年级上册语文统编版
- 农村荒山承包合同范本
- 2023二年级数学下册 四 认识万以内的数第8课时 近似数说课稿 苏教版001
- Unit 1 Making friends PartA Let's talk(说课稿)-2024-2025学年人教PEP版(2024)英语三年级上册
- 2023二年级数学下册 四 认识图形(七巧板)说课稿 西师大版
- 《8 花卉栽培》(说课稿)-2023-2024学年六年级上册综合实践活动皖教版
- 闽教版(2020)小学信息技术三年级上册第2课《人工智能在身边》说课稿及反思
- 语文-百师联盟2025届高三一轮复习联考(五)试题和答案
- 地理-山东省潍坊市、临沂市2024-2025学年度2025届高三上学期期末质量检测试题和答案
- 正面上手发球技术 说课稿-2023-2024学年高一上学期体育与健康人教版必修第一册
- 佛山市普通高中2025届高三下学期一模考试数学试题含解析
- 事故隐患排查治理情况月统计分析表
- 永磁直流(汽车)电机计算程序
- 国家电网招聘2025-企业文化复习试题含答案
- 颈部瘢痕挛缩畸形治疗
- 贵州省贵阳市2023-2024学年五年级上学期语文期末试卷(含答案)
- 医院物业服务组织机构及人员的配备、培训管理方案
评论
0/150
提交评论