完全信息动态博弈_第1页
完全信息动态博弈_第2页
完全信息动态博弈_第3页
完全信息动态博弈_第4页
完全信息动态博弈_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

完全信息动态博弈第一页,共五十七页,2022年,8月28日4.1子博弈精炼纳什均衡对于动态博弈模型而言,纳什均衡是否为该博弈结果的合理预测。市场进入问题设房地产市场上有甲乙两个开发商。甲开发商首先决定开发还是不开发。乙在了解甲所选择的行动后,再决定开发还是不开发。博弈树如图4-1所示。不开发I11图4-1不开发开发开发开发不开发

I22②①②第二页,共五十七页,2022年,8月28日局中人甲的策略集合开发或不开发},局中人乙的策略集合开发或不开发}。支付矩阵为:

该博弈有三个纳什均衡:1.(开发,(不开发,不开发));2.(不开发,(开发,开发));3.(开发,(不开发,开发))。博弈的最终结局应出现哪个均衡,需要我们分析在这三个均衡中哪个合理,哪个不合理。1(开发,(不开发,不开发))不是合理的纳什均衡。2(不开发,(开发,开发))也不是合理的纳什均衡。3(开发,(不开发,开发))是合理的纳什均衡。第三页,共五十七页,2022年,8月28日此均衡表示甲先采取开发的行动。乙的策略是,如甲开发,他就不开发;如甲不开发,他就开发。实际上,如甲开发,乙若开发利润为-3,乙若不开发利润为0。因此甲若开发,乙不开发为其理性的选择;如甲不开发,乙若开发,利润为1,乙若不开发,利润为0,因而开发为乙的理性选择。这说明乙的策略(不开发,开发)是可置信的策略。从此例我们可以看到:在动态博弈中会出现多重纳什均衡的情形,而其中可能包含了不合理的均衡。我们面临的任务是如何剔除不合理的均衡除而精炼出合理的均衡。为此,需引入由泽尔腾(ReinhardSelten)提出的子博弈精炼纳什均衡的概念。第四页,共五十七页,2022年,8月28日子博弈精炼纳什均衡(SPE)的定义定义4.1称扩展型博弈G的策略组合为子博弈精炼纳什均衡,如果它限制在G的每个子博弈上都是该子博弈的纳什均衡。因为每个博弈都是自己的子博弈。因而子博弈精炼纳什均衡必为纳什均衡,但纳什均衡不一定是子博弈精炼纳什均衡。对于具有完美信息的扩展型博弈模型,我们用子博弈精炼纳什均衡预测博弈的结果。子博弈精炼纳什均衡的存在性定理4.1(Zormello1931,Kuhn1953)有限、完美信息的扩展型博弈必存在纯策略意义下的子博弈精炼纳什均衡。第五页,共五十七页,2022年,8月28日逆向归纳法如下假设已知的扩展型博弈共分k步完成。1.对于第k步上的信息集,选择行动,使相应的参与人支付值最大,并将由此信息集出发达到的终点的支付向量赋值给该信息集对应的决策的节点。2.利用第k步上节点的赋值,对属于k-1步的信息集所对应的节点同样赋值。由于博弈是有限的,必可在有限步内使博弈树所有节点都赋与了支付值。3.将具有相同支付值的相邻接的节点与终点用粗线连接起来,即可得到已知扩展型博弈的子博弈精炼纳什均衡。节点上的赋值给出了从此节点出发的子博弈的纳什均衡支付结果。特别,点支付值给出了整个博弈的子博弈精炼纳什均衡的支付结果。逆向归纳法实际是从最后阶段的博弈开始,序贯地求子博弈的纳什均衡的过程。第六页,共五十七页,2022年,8月28日例4.1再考虑房地产开发问题。博弈树上每个节点的赋值如图4-2所示。可得子博弈精炼纳什均衡:(开发,(不开发,开发))。不开发例4.2求如图4-3所示的扩展型博弈的子博弈精炼贝叶斯均衡

不开发I11图4-2不开发开发开发开发不开发

I22①②②I21

图4-3TU①①②DD’U’RL第七页,共五十七页,2022年,8月28日1.对对应的节点赋值;2.对对应的节点赋值;3.对对应的节点赋值,用粗线连接具有相同赋值的节点.如图4-4所示,子博弈纳什均衡为。即局中人1处于信息集上时,选行动U,处于信息集上时,选行动U’;局中人2在其信息集上选择行动L。两局中人都执行这种策略组合中的相应策略,可分别得到支付值2与0。

图4-4TULR①①②DD’U’第八页,共五十七页,2022年,8月28日

例4.3求由图4-5所示的扩展型博弈的子博弈精炼纳什均衡1.对对应的节点赋值,;对对应的节点赋值,;2.对对应的节点赋值,。3.用粗线连接具有相同赋值的节点,得到子博弈精炼纳什均衡,,,,见图4-6。I11图4-5

I22RL’LR’R’①②L’②I11图4-6

I22L’RL’LR’R’I21①②②第九页,共五十七页,2022年,8月28日4.2斯坦克伯格双寡头垄断模型斯坦克伯格(Stackelberg,1934)将古诺模型动态化提出一个双寡头垄断模型,博弈时序如下:1.企业1选择产量;2.企业2观察到,然后选择产量;企业的利润函数为

=,。其中,为市场产品供给总量,为价格函数,为企业的成本函数。设C为凸函数。斯坦克尔伯格模型可以归结为,,的信息完全且完美的动态博弈模型。故可用逆向归纳法求解子博弈精炼纳什均衡,用t表示阶段变量第十页,共五十七页,2022年,8月28日

.企业2观察到企业1的产量,选择产量,最大化利润函数,即对于固定的求解最大化问题:由于关于是凹函数,故1阶条件对于最大化而言是充要条件。由有:(1)

从(1)可解得企业2关于企业1的反映函数第十一页,共五十七页,2022年,8月28日

.企业1预期到企业2的反映函数选择

,最大化自己的利润函数,即求解最大化问题:

1阶条件为:

(2)联立(1)、(2)两式,可解出子博弈精炼纳什均衡。特别,当,。且由(1)式可得企业2关于企业1的反应函数

。第十二页,共五十七页,2022年,8月28日由(2)式可得。故斯坦克尔伯格的子博弈精炼纳什均衡为:,。当两个局中人都执行该均衡中的策略时,可得均衡结果,。先动优势特别地,当时,两个均衡结果为,。可以算出企业1的利润为,企业2的利润为,故有。由于企业1是首先行动的,我们称企业1具有先动优势。这个先动优势是在特殊的价格函数与成本函数下得出的,但我们可以证明有关先动优势的一般性结论。第十三页,共五十七页,2022年,8月28日命题4.1

假设

.是的严格递减函数,是的严格递减函数。

.反应曲线向下倾斜,即严格递减,。则企业总是偏好于领头企业,而不是跟随企业。第十四页,共五十七页,2022年,8月28日4.3价格领先博弈模型设市场上有两家企业生产不同质的产品,但两种产品有较强的替代性。一个企业首先制定产品价格,另一个企业看到这个价格后,再选择自己产品的价格,这时两个企业进行动态价格竞争博弈。设企业1先行,企业2跟随。我们仍可用逆向归纳法求子博弈精炼纳什均衡。价格领先博弈模型的子博弈精炼纳什均衡

.企业2已观察到,选择,使自己利润最大,即求解最大化问题:可解得反应函数:。

.在博弈的第1阶段,企业1预期到企业2的价格反应函数,选择价格,使其利润最大,即求解解得。从而得到子博弈精炼纳什均衡以及均衡结果,第十五页,共五十七页,2022年,8月28日价格领先博弈问题的先动与后动优势命题4.2

设关于递增,。1.若企业的反映曲线向下倾斜,价格领先仍被企业所偏好。2.如果两个企业具有向上倾斜的反映曲线,若有一个企业偏好于价格领先,另一个企业必然偏好于价格跟随.3.如果两个企业的成本、需求函数相同,且反应曲线向上倾斜,每个企业都偏好价格跟随。第十六页,共五十七页,2022年,8月28日例4.4

设在价格领先博弈模型中,两个企业的需求函数分别为

,具有相同的成本函数。

,企业观察到了,求,最大化自己的利润函数由1阶条件,可得向上倾斜的反应函数,企业1预期到,选择,最大化由1阶条件,解得。代入参与人2的价格反应函数得。可计算出,。易见,,后动优势成立。第十七页,共五十七页,2022年,8月28日4.4具有同时选择的两阶段动态博弈具有同时选择的两阶段动态博弈模型时序如下:1.局中人1和2同时从自己的行动集合中选择行动和。2.局中人3和4观察到,然后同时从自己的行动集和中选择行动。3.对于选出的行动,局中人获得支付。该博弈中每个参与人在选择行动时对博弈的历史完全了解,因而是信息完美的动态博弈模型。在这个博弈中,参与人1,2的策略与行动等同。参与人3,4的策略是的映射,即,,,。许多经济学问题都符合以上特点,下面给出两个例子。第十八页,共五十七页,2022年,8月28日4.4.1银行挤兑问题设有两个投资者,每人存入银行一笔存款D,银行将这笔存款投资于一个长期项目。如果在该项目到期之前,存款人提前支取、银行被迫变现,共可收回。这里。如果银行等待长期项目到期支取,可回收,。设有2个提款日期,,项目到期前,两个投资者都提款,则每人可得r;如果只有1个投资者在t=1提款,他可得D,另一人得2r-D。如果两人都未在t=1提款,在t=2,两人都提款,则每人得R;如果只有一个人在t=2提款,他得2R-D,另一人得D;如果t=2时,两个投资者都不提款,银行向每个投资者返还R。该博弈的博弈树如图4-7所示.第十九页,共五十七页,2022年,8月28日图4-7

不提I21提提提不提不提I12不提提提提不提不提I11①①②②②②第二十页,共五十七页,2022年,8月28日用逆向归纳法求解

,考虑子博弈:纳什均衡为(提款,提款)。当,考虑博弈:可得两个纳什均衡:(提款,提款),(不提款,不提款)。故可得出两个子博弈精炼纳什均衡路径(结果)

1(提款,提款),支付函数值为;

2(不提,不提,提款,提款),支付值为。第二十一页,共五十七页,2022年,8月28日4.4.2关税和国际市场的不完全竞争问题设有两个国家,每个国家各有1个企业,分别称为企业1、企业2。生产既可内销、又可出口的同质产品。两个国家中的消费者在各自国家的市场上购买本国产品或外国产品,引入以下记号。1.表示国家i市场上的商品供给量,。这里表示i国的内销量;表示j国出口量。2.。表示市场i的出清价格。3.为企业i的总成本。其中表示两国相同的生产成本;为i国的进口关税,i=1,2。第二十二页,共五十七页,2022年,8月28日

该博弈的时序为:T=1,两国政府分别选择关税。T=2 ,两国企业在观察到关税后,决定内销量与出口量。对于给定的(),企业i可获利润

=。上式表明企业的利润可被划分为国内利润、国外利润、关税三个部分。政府作为博弈的局中人,所关心的社会福利由政府关税收入、企业利润、消费者剩余这三部分组成,i国福利函数为:,第二十三页,共五十七页,2022年,8月28日用逆向归纳法求解关税博弈的子博弈精炼纳什均衡T=2,企业1、2观察到关税与值,企业i最大化利润,即求解最大化问题:解得

,同理有

,联立以上4个等式,可解得(1)第二十四页,共五十七页,2022年,8月28日T=1时,两国同时选择关税,。政府i选择,i=1,2,最大化福利函数。解得均衡关税,代入(1)式,得均衡内销产量与出口量由于的解为,因而

不是帕累托最优的。因而关税博弈也具有囚徒困境问题的性质。第二十五页,共五十七页,2022年,8月28日第五章重复博弈5.1重复博弈(repeatedgame)重复博弈是指同一个博弈重复进行有限或无限次。每次被重复的博弈称之为阶段博弈。重复博弈的定义定义4.2

设G为阶段博弈,用表示将重复次的重复博弈。称其为无限次重复博弈,t有限称其为有限次重复博弈。,其中是局中人的贴现因子。在t阶段的初期,t阶段前的博弈历史都可被局中人观察到。局中人在中的支付函数为阶段支付的贴现和,即第二十六页,共五十七页,2022年,8月28日

重复博弈的策略无论是有限还是无限的重复博弈,局中人的策略都是指一个完整的行动计划。它给出在任何情况下,局中人所选择的行动。在中,局中人i的一个策略系指在每一阶段t,局中人i的t期前的历史,到t期行动的映射:。这里表示参与人i在t期采取的行动。而表示t期的行动组合,。重复博弈的子博弈当博弈进行到t阶段,t前历史是局中人的共同知识,因而重复博弈是信息完美的动态博弈。从t阶段开始直到博弈的终止的博弈称为原博弈的子博弈。在中,由t+1阶段开始的子博弈为将G重复T-t次的重复博弈。到达t+1阶段的历史有多少,就有多少子博弈。子博弈精炼纳什均衡在每个子博弈上都给出纳什均衡。第二十七页,共五十七页,2022年,8月28日例5.1

有限次重复的囚徒困境问题。设阶段博弈为由以下支付矩阵给出的囚徒困境问题:

子博弈精炼纳什均衡我们求的子博弈精炼纳什均衡。其博弈树如图4-9第二十八页,共五十七页,2022年,8月28日图4-9二次重复囚徒困境博弈树I11DCDDCCCDCDCCCCCCCCCDCDDDDDDDI1.5I14I13I12I22I25I24I21I23DD①①①①①②②②②②②②②②②第二十九页,共五十七页,2022年,8月28日利用纳什均衡不变性知:有限次重复的囚徒困境问题的子博弈精炼纳什均衡是每个局中人在各种情况下都采取“坦白”的行动。上例结果是以下定理的一个特例。定理5.1若阶段博弈G有唯一的纳什均衡,对任何正整数,

也有唯一的子博弈精炼纳什均衡,即各局中人在每个阶段都选择阶段博弈的纳什均衡策略。在以上定理中,G有唯一的纳什均衡是个重要条件,如果G的均衡不唯一,则以上定理不一定成立。时,以上定理也不一定成立。第三十页,共五十七页,2022年,8月28日蜈蚣博弈(centipedegame)的分析

蜈蚣博弈最早是Rosenthsal于1981年提出来的,两个局中人1和2轮流进行选择,选择的策略和支付如图所示。由于形状上的特点,被称为蜈蚣博弈(Rosenthsal,1981)。这个博弈应该成为序贯博弈(sequentialgame))…D(1,1)U12RL(0,3)DDUURLRL(98,98)(97,100)(99,99)(98,101)(100,100)1212采用逆向归纳法,子博弈完美纳什均衡为局中人1开始就选择D从而结束博弈,两个局中人的支付均为1。第三十一页,共五十七页,2022年,8月28日例5.3无限次重复的囚徒困境问题。对于阶段博弈重复进行无限次,考虑局中人的如下触发策略当时,选择抗拒(合作);在阶段,如前面个阶段中出现的行动组合都是(抗拒,抗拒),仍选择抗拒,否则,选择坦白(不合作)。可以证明,当充分大时,两个局中人的触发策略组合是子博弈精炼纳什均衡。第三十二页,共五十七页,2022年,8月28日表4.3t12……

甲乙……乙的收益-1-1……1两个局中人的触发策略构成纳什均衡这只需说明若甲采取触发策略,乙若偏离触发策略,不能使自己的收益提高,反之亦然。设甲采取了触发策略,乙也采取触发策略。甲、乙的行动组合序列及乙的阶段收益如表4.3:从而,乙的支付为第三十三页,共五十七页,2022年,8月28日若乙在第k阶段偏离了触发策略,对乙最有利的甲、乙的行动组合序列及乙的阶段收益如表4.4:表4.4T12…k-1kk+1k+2…

甲乙……乙的收益-1-1…-10-8-8…第三十四页,共五十七页,2022年,8月28日从第k阶段算起乙的支付为只要,就有。这时,若甲采取触发策略,乙也会采取触发策略。反之,若乙采取触发策略,甲也不会偏离触发策略。故两个局中人的触发策略组合构成纳什均衡。第三十五页,共五十七页,2022年,8月28日2两个局中人的触发策略构成子博弈精炼纳什均衡注意到每一个从起始的子博弈都属于以下两类之一。1.前阶段行动组合都是(抗拒,抗拒),同前面的证明一样可以证明触发策略组合在这类子博弈上构成纳什均衡。2.前阶段行动组合中至少有一行动组合不是(抗拒,抗拒)。甲乙双方在子博弈上都执行触发策略的行动组合序列及乙的收益如表4.5:

t+1t+2t+3……

甲乙……乙的收益

-8-8-8……第三十六页,共五十七页,2022年,8月28日

若乙在第t+k阶段偏离了触发策略,甲、乙双方对乙最有利的行动组合及乙的收益如表4.6t+1t+2t+3……t+kt+k+1……

甲乙…………乙的收益

-8-8-8……-10-8……显然,乙的收益不会提高。同理,对甲也是这样。因此,触发策略组合在第2类子博弈上也构成纳什均衡。从而我们证明了触发策略是子博弈精炼纳什均衡。例4.6表明:在无限次重复的囚徒困境问题中,对双方都有利的Parecto最优的结果可以实现。(针锋相对(TFT)策略)第三十七页,共五十七页,2022年,8月28日例5.4无限次重复的古诺模型在古诺模型中,古诺均衡为,。默契合谋下最优产量为。合谋利润为。可以证明,当时,下面的触发策略构成无限次重复古诺模型的子博弈精炼纳什均衡。时,企业选择合谋产量;期时,若前面t-1阶段两个企业的产量序列都是(),则仍选,否则选择产量。第三十八页,共五十七页,2022年,8月28日例5.5设阶段博弈G为如下的“假货问题”

该博弈有唯一的纳什均衡:(不购买,假货)。考虑将阶段博弈G重复无限次的博弈。当时,下述触发策略组合为子博弈精炼纳什均衡。厂商策略:时,出售真货。时,如期两个参与人的行动为(真货,购买),则出售真货。否则,自期始,永远出售假货。消费者策略:t=1期购买,时,期两个参与人的行动为(真货,购买),则购买。否则,自t期始永不购买。均衡的结果是在每一阶段上,厂商出售真货,消费者购买。《雾里看花》第三十九页,共五十七页,2022年,8月28日5.2佚名定理(folktheorem)一个佚名定理的特例任何介于古诺产量与合谋产量(n表示企业个数)之间的产量,都可以作为触发策略的结果而实现。我们以为例给以证明。设企业采取以下的触发策略:第四十页,共五十七页,2022年,8月28日(1),产量为;(2)在期,若前阶段产量序列都是(),则生产量仍为;否则,产量为。用表示产量为时相应的企业利润;用表示对手产量为,而本企业在对手产量为的条件下使本企业利润最大化的产量。首先,设甲、乙两个企业都采取上述触发策略时,产量组合序列及乙企业的利润如表4.7:表4.7

t123…

甲…

乙…

乙的利润…

第四十一页,共五十七页,2022年,8月28日乙的利润贴现为。当时,有。故乙不会偏离触发策略。同理,当乙采取触发策略时,甲也不会偏离触发策略。这表明甲、乙都采取触发策略构成纳什均衡。还可证明它是一个子博弈精炼纳什均衡。因而()在博弈的每一阶段都可以实现。第四十二页,共五十七页,2022年,8月28日

平均支付(1)若局中人每一阶段博弈的支付都为,则规定无限次重复博弈的平均支付也是。此时局中人的支付贴现为。(2)若局中人的阶段博弈支付序列为,当支付贴现,或时,定义的平均支付为。平均支付有两个优点。其一,它消除了时间的因素,因而可与阶段支付相比较。其二是平均支付是现值支付的倍,因而平均支付最大化与现值支付最大化是等价的。第四十三页,共五十七页,2022年,8月28日可行支付设博弈有个n局中人,称为可行支付向量,当v为阶段博弈G的纯策略支付的凸组合,即G若共有m个纯策略组合支付向量,有,其中,。所有的可行支付向量用V表示:为G的可行支付向量}。佚名定理定理5.3佚名定理(Friedman1971)G为无限次重复博弈G(∞,δ)的阶段博弈,α*

为G的纳什均衡。α*

对应的支付向量为π=(π1,π2,…..πn)

。对于任何可行支付v∈V,v=(v1,v2,…vn),且

πi>vi,必存在δ*<1,当δ

≥δ*,时,v=(v1,v2,…vn)

是一个特定的子博弈精炼纳什均衡的平均支付结果。第四十四页,共五十七页,2022年,8月28日例如,对于无限次重复的囚徒困境博弈,图4-10中阴影部分上任何一点,都是某个特定的子博弈精炼纳什均衡的结果。--8-10-1-8

图4-10

第四十五页,共五十七页,2022年,8月28日5.3讨价还价博弈模型鲁宾斯坦轮流出价讨价还价模型有限期讨价还价模型设两个局中人通过以下轮流出价的讨价还价方式分配一项利益。t=1,局中人1选择-局中人欲占有的利益份额;局中人2如接受,则产生分配结果;否则t=2,局中人2选择—同意局中人1分得的利益份额。如果局中人1同意,则产生分配结果,此处为局中人i的时间贴现因子。否则t=3,局中人1提出,局中人2如同意,则分配结果为,否则t=4,局中人2提出,局中人1如接受,分配结果为;否则,博弈结束,谁也没分配到利益,其结果为(0,0)。两局中人轮流出价的讨价还价模型的博弈树如图4-11所示。第四十六页,共五十七页,2022年,8月28日(拒绝x1x4x3x2接受接受接受接受(x1,1-x1)拒绝拒绝拒绝(0,0)图4-11①①①②②第四十七页,共五十七页,2022年,8月28日逆向归纳法在轮流出价的讨价还价博弈中,理性局中人的行为是希望自己所提出的价格能被对手接受,既要在对手感到接受比拒绝好的条件下,使自己的利益最大化。在这种行为假设下,可用逆向归纳法求解该博弈的子博弈精炼纳什均衡。,局中人2提出局中人1的利益份额,希望局中人1接受,且使自己利益最大。即求解最大化问题:最优解为于是分配结果为(,并将其赋值于图4-11相应的节点。第四十八页,共五十七页,2022年,8月28日

,局中人1提出的份额应是以下最大化问题的解最优解为。对应的分配结果为(),并将其赋值于相应的节点。,局中人2提出,需满足以下优化问题:解得。相应的分配结果为

=,将其赋值于相应的节点。第四十九页,共五十七页,2022年,8月28日

,局中人1提出的份额应为以下最大化问题的解。

解得。相应的分配结果为,。并将其赋值于图4-11的节点上。子博弈精炼纳什均衡的结果是:局中人1提出自己的份额为,局中人2同意局中人1的选择,自己获得利益份额。用以上方法,可以求得任何有限次轮流出价的讨价还价博弈的结果如表4.9。第五十页,共五十七页,2022年,8月28日表4.9T(博弈次数)2345

第五十一页,共五十七页,2022年,8月28日子博弈精炼纳什均衡结果与及的关系从表4.9中我们可以归纳出轮流出价的讨价还价博弈模型的子博弈精炼纳什均衡结果与及的关系:(1),。当局中人2的时间贴现因子为0时,不论局中人1的时间贴现因子为何值,局中人1可独占这份利益。(2),,,。若局中人1的贴现因子为0。局中人2的时间贴现因子为正数,利益分配取决于值。,局中人2多得,,局中人1多得。

(3)第五十二页,共五十七页,2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论