第63讲：RepeatedGames(III)：以“囚徒困境博弈”为例

上传人：6*** IP属地：湖北上传时间：2023-02-04 格式：PPT 页数：45 大小：500KB 积分：28 举报 版权申诉

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Lecture6:

RepeatedGames（III）──以“囚徒困境博弈”为例1严格竞争博弈的重复博弈零和博弈或其他严格竞争博弈的有限次和无限次重复博弈，都不可能产生比一次性博弈更理想的结果，博弈方的唯一选择是始终采用原博弈的混合策略纳什均衡策略，因为重复博弈不会改变博弈方之间的利益对立关系。以“猜硬币博弈”为例2存在唯一纯策略纳什均衡博弈的重复博弈3在有唯一纯策略纳什均衡的博弈中，博弈方之间的利益关系不再是始终对立的，而是有很大一致性甚至完全一致。4坦白抵赖坦白（-5,-5）（0,-8）抵赖（-8,0）（-1,-1）乙甲存在唯一纯策略纳什均衡博弈的重复博弈？以“存在唯一纯策略纳什均衡博弈”为原博弈的重复博弈中，博弈方的行为和博弈结果会不会发生本质的变化呢？5坦白抵赖坦白（-5,-5）（0,-8）抵赖（-8,0）（-1,-1）乙甲存在唯一纯策略纳什均衡博弈的重复博弈存在唯一纯策略纳什均衡博弈的重复博弈有限次重复博弈无限次重复博弈6以“囚徒困境博弈”为例囚徒困境博弈7坦白抵赖坦白（-5，-5）（0，-8）抵赖（-8，0）（-1，-1）甲乙策略组合（坦白，坦白）是“囚徒困境”博弈的唯一纯策略纳什均衡。“囚徒困境博弈”的两次重复博弈“囚徒困境博弈”的两次重复博弈利用“逆推归纳法”进行分析8坦白抵赖坦白（-5，-5）（0，-8）抵赖（-8，0）（-1，-1）乙甲“囚徒困境博弈”的两次重复博弈首先，分析第二阶段（即第二次重复时）两博弈方的选择。第二阶段仍然是两囚徒之间的一个囚徒困境博弈，此时前一阶段的结果已成为既成事实，此后又不再有任何的后续阶段，因此实现自身当前的最大利益是两博弈方在该阶段决策中的唯一原则。因此不管前一次博弈的结果如何，第二阶段的唯一结果就是原博弈唯一的纳什均衡（坦白，坦白），双方得益的现在值为（－5δ，－5δ）。9坦白抵赖坦白（-5，-5）（0，-8）抵赖（-8，0）（-1，-1）乙甲“囚徒困境博弈”的两次重复博弈然后，回到第一阶段，即第一次博弈。理性的博弈方在第一阶段就对后一阶段（第二阶段）的结局非常清楚。因此不管第一阶段的博弈结果是什么，双方在整个重复博弈中的最终得益，都将是第一阶段得益的基础上各加－5δ

。因此从第一阶段的选择来看，这个重复博弈与如下得益矩阵表示的一次性博弈实际上是完全等价的。10坦白抵赖坦白（-5－5δ

，-5－5δ

）（0－5δ

，-8－5δ

）抵赖（-8－5δ

，0－5δ

）（-1－5δ

，-1－5δ

）乙甲“囚徒困境博弈”的两次重复博弈11坦白抵赖坦白（-5-5δ

，-5-5δ

）（0-5δ

，-8-5δ

）抵赖（-8-5δ

，0-5δ

）（-1-5δ

，-1-5δ

）乙甲该等价博弈有唯一的纯策略纳什均衡（坦白，坦白），双方的得益则为（-5-5δ

，-5-5δ

）。“囚徒困境博弈”的两次重复博弈“囚徒困境博弈”的两次重复博弈存在唯一的子博弈完美纳什均衡：｛（坦白，坦白），（坦白，坦白）｝；博弈方的总得益组合为（-5-5δ

，-5-5δ）。12“囚徒困境博弈”的两次重复博弈囚徒困境博弈的两次重复博弈相当于一次性囚徒困境博弈的简单重复。13“囚徒困境博弈”的有限次重复博弈（推广）“囚徒困境博弈”的T次重复博弈存在唯一的子博弈完美纳什均衡，即每次重复都采用原博弈唯一的纯策略纳什均衡。14小结论利用划线法求解Nash均衡解，都是在给定其他博弈方所取策略的条件下，比较同一博弈方采用不同策略时的得益大小。因此，在每个博弈方的各种可能得益上加一个常数（不同博弈方的得益所加常数可以不同）之后，博弈的Nash均衡仍为“新”博弈的均衡结果。15存在唯一纯策略纳什均衡博弈的有限次重复博弈

定理：设原博弈G有唯一的纯策略纳什均衡，则对任意正整数T

，重复博弈G(T)有唯一的子博弈完美纳什均衡，即各博弈方每个阶段都采用G

的纳什均衡策略。1617存在唯一纯策略纳什均衡博弈的有限次重复博弈（续）利用逆推归纳法证明首先，分析重复博弈G(T)的最后一个阶段，即第T次重复由于第T次重复就是原博弈G，并且在该阶段之后不再重复，因此不管以前T-1阶段的博弈结果如何，在该阶段中各博弈方必然采用G的唯一的纳什均衡。18存在唯一纯策略纳什均衡博弈的有限次重复博弈（续）然后，再推回到前一阶段，即第T-1次重复由于此时各博弈方都知道下一阶段(即第T阶段)的博弈结果，因此对每个博弈方来说，从该阶段开始的子博弈（即最后两个阶段）中各种策略组合的得益就是本阶段的得益加上下一阶段的均衡得益的贴现值。因此，各博弈方在该阶段仍将采用G的唯一的纳什均衡。19存在唯一纯策略纳什均衡博弈的有限次重复博弈（续）依此类推直至博弈的第一阶段。最终，可得结论！20存在唯一纯策略纳什均衡博弈的有限次重复博弈（续）有唯一纯策略纳什均衡的有限次重复博弈不比一次性博弈的结果理想，因为唯一的子博弈完美纳什均衡是各博弈方每次重复都采用原博弈的纳什均衡。21存在唯一纯策略纳什均衡博弈的无限次重复博弈存在唯一纯策略纳什均衡博弈的无限次重复博弈以囚徒困境式博弈的无限次重复为例22囚徒困境式博弈的无限次重复博弈囚徒困境式博弈的无限次重复下面的分析将表明，在囚徒困境式博弈的无限次重复博弈中，对双方有利的合作（指双方克制自己的行为，为对方的利益和共同的利益着想，并非真正的联合、合作）在子博弈完美纳什均衡中有可能存在，博弈可能出现比较理想的结果。以削价竞争博弈的无限次重复为例。23削价竞争博弈24博弈方2HL博弈方1H4，40，5L5，01，1H和L分别表示高价（不削价）和低价（削价）策略削价竞争博弈（续）该博弈的一次性博弈有唯一的纯策略纳什均衡（L，L），得益组合为（1，1）。25博弈方2HL博弈方1H4，40，5L5，01，1削价竞争博弈（续）策略组合（H，H）实现的得益组合（4，4）比（1，1）高得多。但因为（H，H）并不是该博弈的纳什均衡，因此在一次性博弈中不会被采用，这是一个典型的囚徒困境式博弈。26博弈方2HL博弈方1H4，40，5L5，01，1削价竞争博弈（续）该博弈的有限次重复博弈不能实现潜在的合作利益，两博弈方在每次重复中都不会采用效率较高的（H，H）。27博弈方2HL博弈方1H4，40，5L5，01，1触发策略

（TriggerStrategy）重复博弈中博弈方首先试探合作，一旦发现对方不合作则用不合作报复的策略，称为“触发策略”。触发策略是重复博弈中实现合作和提高均衡效率的关键机制，是重复博弈分析中构造子博弈完美纳什均衡的基本“构件”之一。28“冷酷策略”（grimstrategy）又称为“触发策略”（triggerstrategy），因为任何参与人的一次性不合作将触发永远的不合作。（张维迎，2012，第126页）在冷酷战略下，参与人没有改正错误的机会。所以这个战略确实是很冷酷的，但冷酷的结果是双方都没有背叛对方的积极性，因而是友善的。（张维迎，2012，第127页）2930削价竞争博弈的无限次重复

削价竞争博弈的无限次重复假设两博弈方都采用触发策略：第一阶段采用H，在第t阶段，如果前t-1阶段的结果都是(H，H)，则继续采用H，否则采用L。双方在无限次重复博弈中都是先试图合作，第一次无条件选H，如果对方采用的也是合作态度，则坚持选H；一旦发现对方不合作（选择L），则用以后永远选择L报复。博弈方2HL博弈方1H4，40，5L5，01，1削价竞争博弈的无限次重复（续）证明：当贴现系数δ较大时，双方采用上述触发策略构成无限次重复博弈的一个子博弈完美纳什均衡。31博弈方2HL博弈方1H4，40，5L5，01，1触发策略：第一阶段采用H，在第t阶段，如果前t-1阶段的结果都是(H，H)，则继续采用H，否则采用L。削价竞争博弈的无限次重复（续）证明：首先，证明双方采用上述触发策略是一个纳什均衡。然后，证明上述触发策略组合构成整个无限次重复博弈的子博弈完美纳什均衡。32博弈方2HL博弈方1H4，40，5L5，01，1触发策略：第一阶段采用H，在第t阶段，如果前t-1阶段的结果都是(H，H)，则继续采用H，否则采用L。削价竞争博弈的无限次重复（续）证明双方采用上述触发策略是一个纳什均衡。假设博弈方1已经采用了触发策略，证明在δ达到一定水平时，采用同样的触发策略是博弈方2的最佳反应策略。因为博弈方1与博弈方2是对称的，因此只要这个结论成立，就可以确定上述触发策略是两博弈方相互对对方策略的最佳反应，因此构成纳什均衡。33触发策略：第一阶段采用H，在第t阶段，如果前t-1阶段的结果都是(H，H)，则继续采用H，否则采用L。博弈方2HL博弈方1H4，40，5L5，01，1削价竞争博弈的无限次重复（续）假定博弈方1已经采用触发策略，证明在δ达到一定水平时，采用同样的触发策略是博弈方2的最佳反应策略。博弈方2对博弈方1触发策略的最佳反应策略的后半部分与触发策略的后半部分是一样的。由于在某个阶段出现与（H，H）不同的结果以后博弈方1将永远采用L，此时博弈方2也只有一直选择L。34触发策略：第一阶段采用H，在第t阶段，如果前t-1阶段的结果都是(H，H)，则继续采用H，否则采用L。博弈方2HL博弈方1H4，40，5L5，01，1削价竞争博弈的无限次重复（续）确定博弈方2在第一阶段的最优选择。如果博弈方2采用L，那么在第一阶段能得到5，但以后引起博弈方1一直采用L的报复，自己也只能一直采用L，得益将永远为1，总得益的贴现值为35触发策略：第一阶段采用H，在第t阶段，如果前t-1阶段的结果都是(H，H)，则继续采用H，否则采用L。博弈方2HL博弈方1H4，40，5L5，01，1削价竞争博弈的无限次重复（续）如果博弈方2采用H，则在第一阶段他将得4，下一阶段又面临同样的选择。若记V为博弈方2在该重复博弈中每阶段采用最佳选择的总得益现在值，那么从第二阶段开始的无限次重复博弈与从第一阶段开始的只差一阶段，因而在无限次重复时可看作相同的，其总得益的现在值折算成第一阶段的得益为δ·V

，因此当第一阶段的最佳选择是H时，整个无限次重复博弈总得益的现在值为：36博弈方2HL博弈方1H4，40，5L5，01，1触发策略：第一阶段采用H，在第t阶段，如果前t-1阶段的结果都是(H，H)，则继续采用H，否则采用L。削价竞争博弈的无限次重复（续）37削价竞争博弈的无限次重复（续）因此，当38即δ>1/4时，博弈方2会采用H策略，否则会采用L策略。即当δ>1/4时，博弈方2对博弈方1触发策略的最佳反应是第一阶段采用H。触发策略：第一阶段采用H，在第t阶段，如果前t-1阶段的结果都是(H，H)，则继续采用H，否则采用L。博弈方2HL博弈方1H4，40，5L5，01，1削价竞争博弈的无限次重复（续）由于从第二阶段开始的无限次重复博弈，与从第一阶段开始的无限次重复博弈是完全相同的，因此博弈方第二阶段的选择必然也是H，第三阶段也同样。39触发策略：第一阶段采用H，在第t阶段，如果前t-1阶段的结果都是(H，H)，则继续采用H，否则采用L。博弈方2HL博弈方1H4，40，5L5，01，1削价竞争博弈的无限次重复（续）依此类推，只要博弈方1采用前述触发策略，那么博弈方2的最优选择始终是H。当然，如果博弈方1偏离H，博弈方2也必须用L来报复。40触发策略：第一阶段采用H，在第t阶段，如果前t-1阶段的结果都是(H，H)，则继续采用H，否则采用L。博弈方2HL博弈方1H4，40，5L5，01，1削价竞争博弈的无限次重复（续）因此，博弈方2对博弈方1触发策略的完整反应策略是同样的触发策略。这就证明了双方采用上述触发策略是一个纳什均衡。41触发策略：第一阶段采用H，在第t阶段，如果前t-1阶段的结果都是(H，H)，则继续采用H，否则采用L。博弈方2HL博弈方1H4，40，5L5，01，1削价竞争博弈的无限次重复（续）证明上述触发策略组合构成整个无限次重复博

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第63讲：RepeatedGames(III)：以“囚徒困境博弈”为例

文档简介

温馨提示

最新文档

评论

第63讲：RepeatedGames(III)：以“囚徒困境博弈”为例

文档简介

温馨提示

最新文档

评论

相关文档