子博弈精炼纳什均衡+贝叶斯法则+信号博弈

上传人：1*** IP属地：湖北上传时间：2023-06-13 格式：DOC 页数：21 大小：2.98MB 积分：6 举报 版权申诉

已阅读5页，还剩16页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

子博弈精炼纳什均衡+贝叶斯法则+信号博弈一：子博弈精炼纳什均衡在给出子博弈精炼Nash均衡的正式定义之前，我们需要先介绍“子博弈”这个概念。

子博弈（sub

game）：由一个单结信息集X开始的与所有该决策结的后续结（包括终点结）组成的，能够自成一个博弈的原博弈的一部分。即给定“历史”，每一个行动选择开始至博弈结束构成了的一个博弈，称为原动态博弈的一个“子博弈”。子博弈可以作为一个独立的博弈进行分析，并且与原博弈具有相同的信息结构。为了叙述方便，一般用表示博弈树中开始于决策结的子博弈。

譬如图3.5，该博弈存在3个子博弈：除了原博弈自己以外，还存在两个子博弈图3.6a子博弈和图3.6b子博弈。

在静态博弈分析时，我们所说的战略是指参与人声明他将做出何种选择，而他们往往也是按照声明做出实际选择的；在动态博弈中，战略尽管仍然具有这种含义，但博弈在行动选择上参与人具有选择行动的先后顺序情况下，参与人有了一种额外的选择——事后机会主义，后动的局中人完全可以根据博弈进行到此时对局中人最为有利的方式选择行动，而放弃事前所声明的战略所规定的行动选择选择其行动。这意味着，在动态博弈中，即使参与人人按事前所声明的战略组合构成一个纳什均衡，而这些均衡战略又规定了各个参与人在其所有信息集上的行动选择，这些行动选择也可能并非参与人在对应信息集上的最优行动选择。而当博弈实际进行到那些由纳什均衡战略规定的行动并非最优行动选择的信息集时，按照理性人假设，可以想象参与人届时并不会按纳什均衡战略所规定的方式去选择行动，而是机会主义地选择最优的行动。这样，具有这种特点的纳什均衡就是不可信的，即不能作为模型的预测结果，按照“精炼”纳什均衡的思想，应当将其消掉。

定义3.1：子博弈精炼纳什均衡（SPNE）：扩展式博弈的策略组合

S*=(S1*,…,

Si*,…,

Sn*

)是一个子博弈精炼纳什均衡当且仅当：如果它是原博弈的纳什均衡；它在每一个子博弈上也都构成纳什均衡。

如果一个完美信息的动态博弈中，各博弈方的策略构成的一个策略组合满足：在整个动态博弈及它的所有子博弈中都构成纳什均衡，那么这个策略组合称为该动态博弈的一个“子博弈完美纳什均衡”。这也意味着原博弈的Nash均衡并不一定是子博弈精炼Nash均衡，除非它还对所有子博弈构成Nash均衡。例如前文的煤电博弈，（提价，接受）和（不提价，接受）均为纳什均衡，但后者并未满足在整个动态博弈及它的所有子博弈中都构成纳什均衡这一要件，因而理性的煤炭企业一定会选择提价。博弈:一个扩展式表示博弈的子博弈G是由一个单结信息集x开始的与所有该决策结的后续结(包括终点结)组成的能自成一个博弈的原博弈的一部分。对于扩展式博弈的策略组合S*=(S1*,…,Si*,…,Sn*),如果它是原博弈的纳什均衡;它在每一个子博弈上也都构成纳什均衡,则它是一个子博弈精炼纳什均衡。博弈论专家常常使用“序贯理性”(Sequentialrationality)：指不论过去发生了什么，参与人应该在博弈的每个时点上最优化自己的策略。子博弈精炼纳什均衡所要求的正是参与人应该是序惯理性的。对于有限完美信息博弈，逆向归纳法是求解子博弈精炼纳什均衡的最简便的方法。因为有限完美信息博弈的每一个决策结都开始一个子博弈。求解方法：最后一个结点上的子博弈（纳什均衡）→倒数第二个（纳什均衡）→······→初始结点上的子博弈（纳什均衡）。上图摘自张维迎的《博弈论与信息经济学》（P7）在此图中，我们可以看出博弈论大概分为四类，每种类别都有固定的纳什均衡。这道题中所问的“如何分辨子博弈”，是求解子博弈精炼纳什均衡的基础。而“贝叶斯法则”是求解精炼贝叶斯均衡的基础。所以，如果扩展一下是属于如何求解完全信息动态博弈的子博弈精炼纳什均衡，以及如何求解不完全信息动态博弈的精炼贝叶斯纳什均衡。在下面分开讨论。一、完全信息动态的子博弈精炼纳什均衡完全信息动态一般用扩展式表述。子博弈精炼纳什均衡要求（1）它在原博弈上是纳什均衡（2）它在每一个子博弈上都是纳什均衡。所以，如何分辨一个扩展式有几个子博弈，关键在于看一个扩展式表述的博弈中有几个单节信息集。同时，子博弈不能切割原博弈的信息集。通过下面几个图来解释：图1在此博弈中，有三个参与者，分别是A、N（自然）、B。共有七个决策点，A有一个。N有两个，B有四个。这七个决策点分割成七个信息集，每个信息集都只包括一个决策点。（表示，所有参与者在参与时准确知道自己处于哪个决策结。）子博弈由每个决策结及其后续结构成，所以在图一中，共有七个子博弈。（注意：任何博弈本身成为其自身的一个子博弈。）

图2图2与图1相同，也有三个参与者，A、N（自然）、B。不同的是，B在选择时并不知道N的选择，也就是说B知道A选择了开发或者不开发，但是不知道N选择了大还是小。因为B不知道自己处在N选择了大还是小的决策结上，用虚线表示。此时，B有两个信息集，但是每个信息集有两个决策点。总结来说，在图2中，A有一个信息集，只包含一个决策结；N有两个信息集，各包含一个决策结；B有两个信息集，各包含两个决策结。所以，图2共有三个单节信息集，那么也就可以判断图2有三个子博弈。图3在同样三个参与者的图中，图3代表A决策时不知道N决策的结果；B知道自然的选择，但是不知道A的选择。在图3中，根据“子博弈不能切割原博弈信息集”的规则，图3只有一个子博弈就是原博弈本身。图3的博弈还可以用另外的方式来表达，可能更容易理解。图4图4和图3代表的完全是同一个博弈。A决策时不知道N决策的结果；B知道自然的选择，但是不知道A的选择。在这个图中，根据之前的“有几个单节信息集就有几个子博弈”的判断方法，可以知道只有一个子博弈就是原博弈本身。或者说，只有一个子博弈，即N有一个信息集只包含一个决策点。二、贝叶斯法则的理解如何理解贝叶斯法则在博弈论中的应用，我觉得张维迎《博弈论与信息经济学》中举的一个例子很好，我先把这部分截图放在下面。摘自张维迎《博弈论与信息经济学》P182~P183三：信号博弈及贝叶斯法则的运用信号博弈（Signalinggame），是一种由一个发送者（S）和另一个接收者（R）所组成的\o"动态博弈"动态博弈。一开始这个发送者有一个给定的类型（t），接着发送者会观察这个没有其他人（好比说接收者）知道的类型，去从讯息堆M={m1,m2,m3,...,mj}中选择送出一个讯息（m），接着接收者会观察这个讯息后从他可行的动作中A={a1,a2,a3,....,ak}选一个作为反应动作（a），这里要注意的是接收者除了讯息之外其他都无法得知（如发送者的类型t），接着根据（t,m,a）的组合来决定双方会获得的报酬或回报。用贝叶斯法则求解精炼贝叶斯纳什均衡最典型的例子应该是用在信号博弈上。可以参考罗云峰主编的《博弈论教程》，第十三章1、2小节。我觉得这本书相对讲的清楚些。这是之前上课用到的一个例子，把它放在下面。首先，在这个博弈中，有三个参与者，分别是N、S、R。Sender有两种类型，他是哪种类型是其私有信息。也就是说，receiver不知道sender是哪种类型，知道的是1/2的可能性是t1,另外1/2的可能性是t2，同时Receiver可以根据Sender的行动来修正自己的判断。

Sender有两个行动的可能性，L或者R；Receiver有两个行动的可能性，u或者d。1.假设无论是Sendert1，还是Sendert2，都会选择L。

这一假设条件可以表示为p（L︱t1）=p（L︱t2）=1。又知Sender1/2的可能性是t1,另外1/2的可能性是t2，即p（t1）=p（t2）=0.5那么这个时候，根据贝叶斯法则。他选择U，受益是1/2*3+1/2*4=3.5。如果他选择d，收益是1/2*0+1/2*1=0.5。所以，在Sender选L的情况下，Receiver会选u。

在Receiver选U的情况下，Sendert1选L的收益是1，Sendert2选L的收益是2.

以上结论，建立在“无论是Sendert1，还是Sendert2，都会选择L，这一假设上，那么要使上述结论成立，首先这个假设要成立。如何让这个假设成立呢？就需要保证，如果Receiver选择u，那么无论对哪种类型的Sender来说，选L一定比选R好。

因此，当Sender选择R时，Receiver做出的反应使得任何类型Sender得到的收益，都小于其选择L得到的收益。当Sender选择R时，只有Receiver选择d才能保证任何类型的Sender收益都小于其选择L的收益。

所以，必须保证当Sender选择R时，Receiver一定选择d。要想保证Receiver一定选择d呢，则一定要使Sender选R时，Receiver选u的预期收益小于其选d的预期收益。即q+（1-q）*0<0*q+2(1-q),即q<2/3.

所以，这种情况下的精炼贝叶斯均衡是无论是Sendert1，还是Sendert2，都会选择L；当Sender选择L时，Receiver选u，当Sender选R时，Receiver选d；p=0.5；q≤2/32.假设无论是Sendert1，还是Sendert2，都会选择R这一假设条件可以表示为p（R︱t1）=p（R︱t2）=1。又知Sender1/2的可能性是t1,另外1/2的可能性是t2，即p（t1）=p（t2）=0.5那么这个时候，根据贝叶斯法则。他选择u，受益是1/2*1+1/2*0=0.5。如果他选择d，收益是1/2*0+1/2*2=1。所以，在sender选L的情况下，Receiver会选d。在Receiver选d的情况下，sendert1选R的收益是0，sendert2选R的收益是1。如果Sender选择L，那么Receiver选择u总是优于其选择d，所以Receiver一定会选择u。而当Receiver选择u是，sendert1收益是1，sendert2的收益是2。所以这种情况，Sender选L总是优于其选R。与假设相悖，不存在均衡。3.如果是Sendert1，会选择L：如果是Sendert2，会选择R。在这种情况下，根据贝叶斯法则，p=1q=0（如果Receiver发现Sender的选择是L，就会知道是Sendert1，如果发现选择的是R就能判断出是R）在Sendert1选择L时，Receiver会选择u，Sender获得收益1；当Sendert2选择R时，Receiver会选择d，Sender获得收益1。需要检验，当确定Receiver选择u、d时，Sender做出与假设不一样的选择是否会得到更高的收益。当Receiver会选择u，Sendert1选择R收益少于选L（可以）；当Receiver会选择d，Sendert2选择L收益大于R。因此，Sendert2会选择L，与假设相悖。所以，这种均衡不存在4.如果是Sendert1，会选择R：如果是Sendert2，会选择L。在这种情况下，根据贝叶斯法则，p=0q=1在Sendert1选择R时，Receiver会选择u，Sender获得收益2；当Sendert2选择L时，Receiver会选择u，Sender获得收益2。再次检验，当确定Receiver选择（u︱L，u︱R）时，两类型Sender做出与假设不一样的选择是否会得到更高的收益。当Receiver会选择u，Sendert1选择L收益少于选R（可以）；当Receiver会选择u，Sendert2选择R收益小于L（可以）。所以，这种均衡存在：｛（R︱t1,L︱t2），（u︱L,u︱R），p=0，q=1｝三：贴现因子及其在重复博弈中的运用一般来说，当利率为r时，承诺T年之后支付R美元的现值是R美元/(1+r)^T。因此，即使没有通货膨胀，将来1美元的价值也小于现在1美元的价值，必须按某一数额贴现，该数额取决于利率的高低和收到货币的时间长短。其中1/(1+r)^T被称为未来T时期的货币的贴现因子(discountfactor)。贴现因子(discountfactor)，也称折现系数、折现参数。所谓贴现因子，就是将来的

人人文库> 全部分类> 办公材料 > 对照材料

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

子博弈精炼纳什均衡+贝叶斯法则+信号博弈

文档简介

温馨提示

最新文档

评论

子博弈精炼纳什均衡+贝叶斯法则+信号博弈

文档简介

温馨提示

最新文档

评论

相关文档