第四讲重复博弈(下)

上传人：3*** IP属地：湖北上传时间：2022-04-03 格式：PPT 页数：25 大小：144KB 积分：28 举报 版权申诉

已阅读5页，还剩20页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第四讲重复博弈(下)一、有限次重复博弈一、有限次重复博弈（以（以two-stage repeated games为例）为例）考虑曾经给出的囚徒困境的标准式（回忆并考虑曾经给出的囚徒困境的标准式（回忆并画出支付矩阵）。画出支付矩阵）。假设两个参与者要把这样一个同时行动博弈重假设两个参与者要把这样一个同时行动博弈重复两次，并且在第二次博弈开始之前可观测第一复两次，并且在第二次博弈开始之前可观测第一次的结果。再假设整个过程博弈的收益等于两阶次的结果。再假设整个过程博弈的收益等于两阶段各自收益的简单相加（即不考虑贴现因素），段各自收益的简单相加（即不考虑贴现因素），我们称这一重复进行的博弈为两阶

2、段囚徒困境。我们称这一重复进行的博弈为两阶段囚徒困境。（一）阶段博弈只有唯一（一）阶段博弈只有唯一NE表2 囚徒困境博弈乙招不招招甲不招（这样一个博弈重复进行2次） -5,-50,-8-8,0-1,-1而在两阶段囚徒困境中而在两阶段囚徒困境中,第二阶段的第二阶段的NE可以完全可以完全不依赖于第一阶段的结果。不依赖于第一阶段的结果。分析时要注意分析时要注意3点：点：1 逆推归纳法逆推归纳法backwards-induction 2 参与人在第二阶段行动只须考虑该阶段的参与人在第二阶段行动只须考虑该阶段的利益最大化，因为无须利益最大化，因为无须“瞻前顾后瞻前顾后”。 3 分析第一阶段

3、时，可把第二阶段的均衡结分析第一阶段时，可把第二阶段的均衡结果下的支付值叠加到第一阶段的相应支付值上。果下的支付值叠加到第一阶段的相应支付值上。表3 囚徒困境博弈乙招不招招甲不招 -10,-10-5,-13-13,0-6,-6Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgame- perfect outcome:the Nash equilibrium of G is played

4、 in every stage. (二二) 存在存在多个多个NENE的有限次重复博弈的有限次重复博弈例例1：三价博弈：三价博弈故事：两生产同质商品的寡头。在两故事：两生产同质商品的寡头。在两寡头都是高价时市场总利润为寡头都是高价时市场总利润为10，都是，都是中价时市场总利润为中价时市场总利润为6，都是低价时市场，都是低价时市场总利润为总利润为2。两寡头同时决策，价格相同。两寡头同时决策，价格相同时分享利润，否则低价者独占。时分享利润，否则低价者独占。三价博弈 5,5 0,6 0,2 6,0 3,3 0,2 2,0 2,0 1,1 H M LH ML 寡头寡头2寡头寡头1 存在两个纯策略纳

5、什均衡（存在两个纯策略纳什均衡（M,M）和和(L,L)（还有混合策略）。但显然（还有混合策略）。但显然（H,H）帕雷托效率最高。是否重复）帕雷托效率最高。是否重复（两次）进行能够实现使效率改善？（两次）进行能够实现使效率改善？触发策略触发策略（trigger strategy）一方的机会主义行为将触发其他参与人策略一方的机会主义行为将触发其他参与人策略中的惩罚机制发生。中的惩罚机制发生。我们把这种包含着奖励和惩我们把这种包含着奖励和惩罚机制的策略称为触发策略。正是由于害怕罚机制的策略称为触发策略。正是由于害怕“触触发发”其他参与人的惩罚机制，所以不敢利用机会其他参与人的惩罚机制，所以不敢利用

6、机会使自己在该阶段利益最大化，从而使该阶段的使自己在该阶段利益最大化，从而使该阶段的“合作合作”出现。从这个意义上看，触发策略是出现。从这个意义上看，触发策略是“温柔的温柔的”。触发策略触发策略（trigger strategy）假设寡头采取假设寡头采取触发策略触发策略（trigger strategy），即开始选择合作，如果对方也合），即开始选择合作，如果对方也合作，就一直合作；但在博弈中一旦发现对方作，就一直合作；但在博弈中一旦发现对方不合作，就永远选择报复，不合作。不合作，就永远选择报复，不合作。寡头寡头1，第一次选，第一次选H.如果第一次结果为如果第一次结果为（H,H)，则第二次

7、选则第二次选M;否则选否则选L. 寡头寡头2：同上。：同上。子博弈精炼纳什均衡结果是：第一阶段子博弈精炼纳什均衡结果是：第一阶段（H，H）,第二阶段（第二阶段（M，M）。）。证明证明第二阶段（第二阶段（M,M）是原博弈的纳什）是原博弈的纳什均衡，参与人的行为不会发生偏离。第均衡，参与人的行为不会发生偏离。第一阶段（一阶段（H,H）虽然不是原博弈的纳什）虽然不是原博弈的纳什均衡，单独偏离为均衡，单独偏离为M能增加能增加1单位支付，单位支付，但这样做第二阶段要损失但这样做第二阶段要损失2，因而不会偏，因而不会偏离（离（H,H)。这就证明了该策略组合是子博弈完美的。从这这就证明了该策略组合是

8、子博弈完美的。从这条均衡路径中看到：将来利益对当前的选择有条均衡路径中看到：将来利益对当前的选择有约束。约束。这种策略有这种策略有2个特点：个特点：1、第一阶段选、第一阶段选H，试探合作。，试探合作。机会主义机会主义2、后续阶段中包含着奖励和惩罚机制：选、后续阶段中包含着奖励和惩罚机制：选M可可以奖励对方，选以奖励对方，选L可以惩罚对方。因为（可以惩罚对方。因为（M，M）和（和（L，L）都是阶段博弈的）都是阶段博弈的NE，所以奖励和惩，所以奖励和惩罚都是可信的。罚都是可信的。考虑如下抽象博弈：考虑如下抽象博弈：参与人参与人2L M R P QLMRPQ参参与与人人11 , 1 5 , 0 0

9、, 0 0 , 0 0 , 00 , 5 4 , 4 0 , 0 0 , 0 0 , 00 , 0 0 , 0 3 , 3 0 , 0 0 , 00 , 0 0 , 0 0 , 0 4,1/2 0 , 00 , 0 0 , 0 0 , 0 0 , 0 1/2, 4 上面的例子因为阶段博弈的上面的例子因为阶段博弈的NE很丰富，且存在很丰富，且存在可供奖励和惩罚的可供奖励和惩罚的NE，所以双方不仅可构造触，所以双方不仅可构造触发策略，而且触发策略是子博弈完美的（或者发策略，而且触发策略是子博弈完美的（或者说触发策略所包含的奖励和惩罚是可信的）。说触发策略所包含的奖励和惩罚是可信的）。双方的策略双方

10、的策略均为：第一阶段选择均为：第一阶段选择M；如果第一阶；如果第一阶段的行动组合是（段的行动组合是（M，X）（或（）（或（X，M），），X为除为除M之外的其它可选行动），则第二阶段选之外的其它可选行动），则第二阶段选P(Q)，如果是除此之外的其它任何组合，则选，如果是除此之外的其它任何组合，则选R。第一阶段的行动组合是第一阶段的行动组合是(M,M),则第二阶段的行动组则第二阶段的行动组合将是合将是(R,R);第一阶段的行动组合是第一阶段的行动组合是(M,X)或或(X，M)，则第二阶段的行动组合将是，则第二阶段的行动组合将是(P,P)或或(Q,Q);第第一阶段的行动组合为其它，则第二阶段还是一阶

11、段的行动组合为其它，则第二阶段还是(R,R)。三、无限次重复博弈三、无限次重复博弈无限次重复博弈与有限次重复博弈的异同：无限次重复博弈与有限次重复博弈的异同：1、没有最后一阶段博弈；、没有最后一阶段博弈；2、不可忽略贴现问题、不可忽略贴现问题3、都可能通过惩罚来实现理想的均衡。、都可能通过惩罚来实现理想的均衡。一、无限次重复的囚徒困境一、无限次重复的囚徒困境以寡头削价竞争为例以寡头削价竞争为例基本博弈的结果是（基本博弈的结果是（L,L）。）。 4，40，55，01，1 H L H L 寡头寡头1寡头寡头2引入贴现因子引入贴现因子, 若某个参与人在某一路若某个参与人在某一路径的各个阶段的

12、支付分别为：径的各个阶段的支付分别为： 1 、 2 、，则该参与人在该路径的则该参与人在该路径的“总支付总支付” 为为无限序列无限序列1 、 2 、的现值之和，即：的现值之和，即： = 1+ 2 + 2 3 + = t-1 t t =1 ？01当当 0，行动短视化，时间，行动短视化，时间视野往往局限于本期、近期；视野往往局限于本期、近期；当当 1，参与人有远见，他充分意识到他，参与人有远见，他充分意识到他现期的行动决策将通过其他参与人的反应影响到现期的行动决策将通过其他参与人的反应影响到他未来的收益，因而试图跨期协调其行动决策。他未来的收益，因而试图跨期协调其行动决策。前面已经证明，有限次

13、重复不会改变结果。如前面已经证明，有限次重复不会改变结果。如果是无限次，则在贴现因子较大的情况下（比果是无限次，则在贴现因子较大的情况下（比较重视长期利益）可能实现合作。较重视长期利益）可能实现合作。触发策略：第一阶段采取触发策略：第一阶段采取H，在，在t阶段，如果前阶段，如果前t-1阶段的结果都是（阶段的结果都是（H,H），则继续采用），则继续采用H；一旦发现对方不合作（一旦发现对方不合作（L），则以后永远选择），则以后永远选择L报复。报复。假设参与人假设参与人1已经采用了触发策略。已经采用了触发策略。如果寡头如果寡头2 也选择触发策略，则总支付的现值也选择触发策略，则总支付的现值是：

14、是：2144*4*4.1 如果寡头如果寡头2不采取触发策略，在第一阶段采用不采取触发策略，在第一阶段采用L，因为，因为第二阶段起被报复只能采用第二阶段起被报复只能采用L,因而支付为（因而支付为（5,1,1,.）。）。总支付的现值是：总支付的现值是：因此，只要因此，只要，即，即，采用触发策略对寡，采用触发策略对寡头头2就是明智的。就是明智的。由于寡头由于寡头1、2是对称的，因而同样可以证明触发策略是对称的，因而同样可以证明触发策略对寡头对寡头1也是明智的。也是明智的。这样，我们就证明了触发策略是一个纳什均衡。这样，我们就证明了触发策略是一个纳什均衡。 225*1*1.51121/4 由

15、于博弈进行无限次，从任何一个阶段开始的由于博弈进行无限次，从任何一个阶段开始的子博弈都与这个博弈结构相同，因而触发促策子博弈都与这个博弈结构相同，因而触发促策略在任何一个子博弈上都是纳什均衡。略在任何一个子博弈上都是纳什均衡。所以，触发策略构成该无限次重复博弈的子博所以，触发策略构成该无限次重复博弈的子博弈精炼纳什均衡。弈精炼纳什均衡。启发：在博弈重复无限次，且参与人都有耐心启发：在博弈重复无限次，且参与人都有耐心的情况下，任何短期的机会主义行为的所得都的情况下，任何短期的机会主义行为的所得都是微不足道的，参与人有积极性为自己建立一是微不足道的，参与人有积极性为自己建立一个乐意合作的声誉，

16、同时也有积极性惩罚对方个乐意合作的声誉，同时也有积极性惩罚对方的机会主义行为。的机会主义行为。无限次重复古诺模型假定假定：，边际成本都为2。在无限次重复古诺模型中，当贴现率满足一定条件时，两厂商采用下列触发策略构成一个子博弈完美纳什均衡：在第一阶段生产垄断产量的一半1.5；在第 t 阶段，如果前 t-1 阶段结果都是(1.5,1.5)，则继续生产1.5，否则生产古诺产量2。 21,8qqQQP其中设厂商1已采用该触发策略，若厂商2也采用该触发策略，则每期得益4.5，无限次重复博弈总得益的现值为：如果厂商2偏离上述触发策略，则他在第一阶段所选产量应为给定厂商1产量为1.5时，自己的最大利润产量，即满足：解得，此时利润为5.0625

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第四讲重复博弈(下)

文档简介

温馨提示

最新文档

评论

第四讲重复博弈(下)

文档简介

温馨提示

最新文档

评论

相关文档