博弈论-完全信息动态博弈_第1页
博弈论-完全信息动态博弈_第2页
博弈论-完全信息动态博弈_第3页
博弈论-完全信息动态博弈_第4页
博弈论-完全信息动态博弈_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2完全信息的动态博弈2.1完全和完美信息的动态博弈动态博弈(dynamicgame):参与人在不同的时间选择行动。完全信息动态博弈指的是各博弈方先后行动,后行动者知道先行动者的具体行动是什么且各博弈方对博弈中各种策略组合下所有参与人相应的得益都完全了解的博弈静态博弈习惯用战略式(Strategicformrepresentation)表述,动态博弈习惯用扩展式(Extensiveformrepresentation)表述。战略式表述的三要素:参与人集合、每个参与人的战略集合、由战略组合决定的每个参与人的支付。扩展式表述的要素包括:参与人集合、参与人的行动顺序、参与人的行动空间、参与人的信息集、参与人的支付函数、外生事件(自然的选择)的概率分布。n人有限战略博弈的扩展式表述用博弈树来表示

①结:包括决策结和终点结。决策结是参与人采取行动的时点,终点结是博弈行动路径的终点。第一个行动选择对应的决策结为“初始结”,用空心圆表示,其它决策结用实心圆表示。X表示结的集合,兀X表示某个特定的结。z表示终点结,Z表示终点结集合。Y表示结之间的顺序关系,—X表示x在之前。x之前所有结的集合称为x的前列集,x之后所有结的集合称为x的后续集。以下两种情况不允许:前者违背了传递性和反对称性;后者违背了前列节必须是全排序的。在以上两个假设之下,每个终点结都完全决定了博弈树的某个路径。枝:博弈树上,枝是从一个决策结到其直接后续结的连线,每一个枝代表参与人的一个行动选择。在每一个枝旁标注该具体行动的代号。一般地,每个决策结下有多个枝,给出每次行动时参与人的行动空间,即此时有哪些行动可供选择。信息集(informationsets):博弈树中某一决策者在某一行动阶段具有相同信息的所有决策结集合称为一个信息集。博弈树上的所有决策结分割成不同的信息集。每一个信息集是决策结集合的一个子集(信息集是由决策结构成的集合),该子集包括所有满足下列条件的决策结:(1)每一个决策结都是同一个参与人的决策结。(2)该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪一个决策结。引入信息集的目的是为了描述当一个参与人要作出决策时他可能不知道“之前”发生的所有事情。(之前加引号是因为,博弈树中的决策结的排序并不一定与行动的时间顺序相一致)H表示信息集集合,h表示一个特定的信息集。h(x)表示包含决策结x的信息集。h(x)是一个信息集,意味着在x决策的参与人不确定他处在x结点还是其它xh(x)结点。这同时意味着一个决策结只能属于一个信息集。信息集满足的条件:1、任何一个决策结不能是属于同一信息集的其它决策结的前列结或后续结。2、同一信息集的所有结都是同一参与人的决策结,即参与人不会将自己行动的结与他人行动的结混淆。3、一个参与人在属于同一信息集的每一个决策结的行动空间应该是相同的。一个静态博弈的扩展式表述一个信息集可能包含多个决策结,也可能只包含一个决策结。只包含一个决策结的信息集称为单结信息集;如果博弈树的所有信息集都是单结的(如果有虚拟参与人自然,则所有的参与人都知道自然的行动),该博弈称为完美信息博弈(Gameofperfectinformation);否则就是不完美信息博弈。完美信息(perfectinformation):在博弈的每次行动的参与人完全知道博弈的历史,即每个信息集只有一个决策结。完美信息博弈意味着博弈中没有任何两个参与人同时行动,而且所有后行动者都能确切知道先行动者选择的行动,所有参与人都知道自然的行动。完全信息(completeinformation):参与人完全了解对手特征,既没有事前的不确定性。不完全信息意味着不完美信息,但逆定理不成立。在博弈论中,自然的信息集一般假定为单结的。因为自然是随机行动的,自然在参与人决策之后行动等价于自然在参与人决策之前行动但参与人不能观测到自然的行动。因此,博弈树上是否出现连接不同决策结的虚线取决于我们如何安排决策结的顺序。决策结的顺序:如果知道前决策者的选择,后决策者必须出现在后面,如果不知道前决策者的选择,后决策者可以出现在后面,也可以出现在前面。相同的博弈可以不同的博弈树表示,但同一个参与人在代表同一博弈的不同博弈树中的信息集的数量必须相同,自然除外。

博弈一般假定满足完美回忆的要求,完美回忆是指没有参与人会忘记自己以前知道的事情,所有参与人都知道自己以前的选择。

是X1的前列结;③x和X1都是同一个参与人的决策结;那么,存在一个x〃(可能是x本身)满足:①和x属于同一信息集;总〃是X2的前列结;③从X到达X1的行动和xr到达X2的行动是一样的。即必须满足“同一行动”和“同一信息集”假设。当博弈涉及到外生不确定性事件时,我们假定“自然”以某种概率选择某个特定事件,所有参与人对于自然的选择具有相同的先验概率。即所谓的“海萨尼公理”。

E1■宀Hi-mr-'-i.h-款讦、默讦斗争*斗争默讦、斗争斗争、默讦进入40,50-10,□40,50-10,0不进入0,3000,3000,3000,300进入者在位者不进入不进入纳什均衡:(进入、(默许、默许))(不进入、(斗争、斗争)(进入、(默许、斗争))(不进入、(斗争、默许)均衡结果有三个(进入,默许)、(不进入,斗争)、(不进入、默许)定理:一个有限完美信息博弈有一个纯战略纳什均衡(zermelo,1913;kuhn,1953)。策略的可置信性问题:策略是博弈方自己预先设定的,在各个博弈阶段针对各种情况所作的相应行为选择的计划,本身没有强制力,且实施起来有一个过程。在该过程中,根据自己的利益需要,他完全可以改变这个计划,从而存在“相机选择”,产生策略的可置信性问题。A子博弈精炼纳什均衡、逆向归纳法“子博弈精炼纳什均衡(subgameperfectNashequilibrium,selten,1965),用于区分动态博弈中的“合理纳什均衡”与“不合理纳什均衡”,将纳什均衡中包含有不可置信威胁策略的均衡剔除出去,就是说,使最后的均衡中不再包含有不可置信威胁策略的存在。子博弈:一个扩展式表示博弈的子博弈g是由一个单结信息集x开始的与所有该决策结的后续结(包括终点结)组成的能自成一个博弈的原博弈的一部分。要求:①x是一个单结信息集:②子博弈的信息集和支付向量都直接继承自原博弈;③子博弈不能切割原博弈的信息集。任何博弈本身称为其自身的子博弈。扩展式博弈的战略组合s*=(S*],…,S*i,…,s*n)是一个子博弈精炼纳什均衡,如果:(1)它是原博弈的纳什均衡;(2)它在每一个子博弈上给出纳什均衡。简单的讲,一个战略组合是子博弈精炼纳什均衡,当且仅当他在每一个子博弈(包括原博弈)上都构成一个纳什均衡。如果整个博弈是唯一的子博弈,那么纳什均衡与子博弈精炼纳什均衡相同,如果有其它子博弈,则有些纳什均衡可能不构成子博弈精炼纳什均衡。

开发开战商A-3,-3-3.-3"开发开战商A-3,-3-3.-3"1,0=-=0,0{开鶴开划仃除不开刻休峨开劇环瞇迥3片■■w(开发,{不开发,开发})是唯一一个子博弈精炼纳什均衡均衡路径(equilibrumpath):纳什均衡所在的路径。其它的路径都是该纳什均衡的非均衡路径(off-equilibriumpath)。构成子博弈精炼纳什均衡的战略不仅在均衡路径上是最优的,而且在非均衡路径上也是最优的。这是纳什均衡与子博弈精炼纳什均衡的实质区别。只有当一个战略规定的行动规则在所有可能的情况下都是最优的时,它才是一个合理的、可置信的战略。序贯理性(sequentialrationality):不论过去发生了什么,参与人应该在博弈的每一个时点上最优化自己的决策。子博弈精炼纳什均衡求法——逆向归纳法求解对于我们现在所讨论的有限完美信息动态博弈,逆向归纳法是求解子博弈精炼纳什均衡的最简便方法。在求解子博弈精炼纳什均衡时,从最后一个子博弈开始逆推上去,这就是逆向归纳法。所以逆向归纳法就是从动态博弈的最后一个阶段或最后一个子博弈开始,逐步向前倒推以求解动态博弈均衡的方法。逆向归纳法是重复剔出劣战略方法在扩展式博弈中的应用。逆向归纳法不适合于无限博弈和不完美信息博弈。简单的完全和完美信息博弈:1.参与人1选择行动a1参与人2观察叫,然后选择a2收益是a1(a19a2)和u2(a1,a2)求解博弈:逆向归纳法(backwardinduction)1.求解第二个阶段,对于兔,求a2maxu2(a1,a2)a2畝其解:a2=R2(a1)反应函数2.求解第一个阶段maxu1(a1,R2(a1))其解:a*1逆向归纳解(outcome):(a*^R2(a*J)注意:在动态博弈中,行动与战略是不同的概念逆向归纳解与纳什均衡是不同的概念。

0202选择L〃;选择L;选择L用逆向归纳法:选择L〃;选择L;选择L逆向归纳解:L(在第一个阶段结束)。如果博弈在第一个阶段中不结束,可能原因是什么?甲在开采一价值4万元的金矿时缺1万元资金,而乙正好有1万元资金可以投资。甲希望乙能将1万元资金借给自己用于开矿,并许诺在采到金子后与乙对半分成,乙是否该将钱借给甲呢?

关于逆向归纳法的理性假定:所有参与人是理性的是所有参与人的共同知识BStackelberg模型(1934)二个企业,生产产量:q1,q2市场需求:P=a-Q,其中Q=q1+q2成本:C(qi)=cq.,i=1,2.利润:叫④,q2)=Pq.-C(qi)=(a-(q1+q2))q.-cqe博弈的顺序:(1)企业1选择q1>0;⑵企业2观察q1然后选择q2>0;⑶收益:兀qqj)=q.[P(Q)-c],其中P(Q)=a一Q,Q=q1+q2求逆向归纳解(1)阶段2,企业2在观察q1后选择q2满足maxq2(a_(q1+q2)_c)解出q解出q2=R2(q1)=a—ql—c2⑵阶段1,企业1预测到R2(q]),求q1maxq1(a-(q1+R2(q1))-c)q1>0=qa_q1_cql>02解出q*=a—cq*=a—c兀*=(a_c)2兀*=(a-c)2qi■丁'的■丁,12=「^与Cournot模型比较qq1*=q2n1*=n(a-c)29结果:先进入市场者有更多的利润。即所谓的先动优势(first-moveradvantage),如果企业选择的是价格而不是产量,得到的将是后动优势(second-moveradvantage)。同时,该例还说明,拥有信息优势可能使局中人处于劣势(后动者拥有更多信息),而这在单人决策论中是不可能的。企业2处于劣势是因为它在行动前已知企业1的产量,而企业1在开始行动时也知如此。但若企业2不知企业1的产量且企业1也知如此,则即使企业1先行动,博弈也是古诺均衡的而非Stackelberg均衡的,企业2反而获益,企业1的先动优势就不存在了。企业1先生产产量就是一种承诺行动,生产出来的产量是沉淀成本,从而使企业2不得不认为它的威胁是可置信的。如果企业1只是宣布它将生产q*=匕。企业2不会相信它的威胁,因若企业2相信12它的威胁而选q=匕,给定此q,企业1的最优选择是q=1(0-£)而”242"18

不是%=a-c"T~4R1古诺均衡3(a-不是%=a-c"T~4R1古诺均衡3(a-c)(a-c)Stackelberg均衡(a-c)q1Stackelberg均衡与古诺均衡的比较承诺行动:一个博弈模型的均衡与博弈模型中各个局中人的战略空间或行动空间有关,当我们改变博弈模型中一些局中人的战略空间或行动空间时,也就改变了博弈的均衡。在一个博弈中,倘若某局中人希望一个本属含有不可置信威胁或承诺的行动的非精炼均衡能真正发生,他可以通过改变其行动空间(通常是减小其行动空间或战略空间)使其威胁或承诺变得可置信,从而将原本非精炼的均衡变成精炼的均衡,这类局中人改变其行动或战略空间的行为被称为“承诺行动”(Commitmentaction)。破釜沉舟完全承诺不完全承诺(-3,-3)(1,-4)(0,1)(0,-4)(-3,-3)(1,-4)(0,1)(0,-4)2.1.C工会与企业的工资和就业经济学家Leontief于1946年提出的工会模型描写了工会与厂商就工资进行谈判的机理,并就均衡的非帕累托最优性和谈判结果的不稳定性作出解释,它解释了人们所观察到的工会与厂商就工资水平所进行的经常性谈判是如何发生的(Leonfief,1946)。一个企业和一个工会,关于工资w和就业数量L的决定。局中人1—工会:战略空间为提出工资水平w}局中人2—厂商:战略空间为决定工人雇用量L}工会收益:U(w,L);假设竺>0,巴>0,dwdL企业收益:兀(w,L)=R(L)-wL,R(0)=8,R'(8)=0,假设r(L)是l的增函数且为凹函数博弈的顺序:(1)工会选择工资w;(2)企业观察w且选择L.工会的无差异曲线求逆向归纳解(1)阶段2

企业对w,选择L求maxRL)-wL]一阶条件R(L)一w=0,因为,RR(0)=8,R(g)=0,即r,(L)e[0,◎,解出L*出L*wL利用等利润曲线兀=R(L)-wL分析:w=(R(L)-©/L,等利润线的位置越高,利润越小,因它对应同样的L却付出更高的工资。dw/dL=[R(L)-w]/L,随L增加,等利润曲线先是正斜率,然后是负斜率。等利润线是凹的企业的选择在等利润线的顶点上。因为R'(L)-w=0(2)阶段1工会选w*使U(w*,L*(w*))达到最大化,即工会在第一阶段的问题

是:maxU(w,L*(w))w是:maxU(w,L*(w))w>0L*(w)曲线与无差异曲线的切点决定均衡点逆向归纳解(w*,L(w*))此结果是非最优的(inefficient)。帕累托最优的条件:2二R(L)-w-U兀LUWL此条件是下列最优化问题的解:MaXU(W,L)(R(L)-wL)s.t.L>0,w>02.1.D序贯谈判:讨价还价博弈假设两人就如何分配1万元现金进行谈判,规则是这样,首先由甲提出一个分割比例,对甲提出的比例乙可以接受也可以不接受;如果乙不接受则他应提出另一个方案,让甲选择接受与否……。假设该博弈为三阶段讨价还价博弈,即第三回合甲的方案具有强制约束力。第三回合、甲的方案是自己得S=10O00。第二回合,乙出价S2满足:甲:6S=62S,即S=6S22乙:6(10000—S)=6(10000—6S)=100006—62S>1000062—62S2第一回合,甲出价S1满足:满足乙:10000—S=100006—62S1即甲的得益:S=10000-100006+62S1当0.5<6<1时,6越大,甲的得益越大,乙的得益越小当0<6<0.5时,6越大,甲的得益越小,乙的得益越大三期的谈判模型参与人1和参与人2谈判分配一元钱(s,1-s).(la)参与人1提议分配方案:何,1-s1);(lb)参与人2接受提议或拒绝提议。如果参与人2拒绝,进入第2阶段;(2a)参与人2提议(s2,1-s2)(2b)参与人1接受提议或拒绝提议。如果参与人1拒绝,进入第3阶段;(3)按外生方案分配,参与人1分得s,参与人2分得1-s。贴现率:6xx*求逆向归纳解(1)在阶段2如果s2>8s参与人1将会接受s2。取s2=Ss,则1-s2>8(1一s)。结果:参与人2将会提议s*2=8s,参与人1将会接受。(2)在阶段1如果1一$]>8(1-s*2)即s1<1-8(1-s*2),参与人2将会接受s1当s1=1一8(1-s*2),s1>Ss*2结果:参与人1将会提出s*1=1一8(1一s*2)=1一8(1-8s)参与人2将会接受1-s*]・逆向递归解为[1-8(1-8s),8s]讨价还价模型与Rubinstein定理当讨价还价博弈是无限次进行时,逆向归纳法不能直接使用,但我们可以运用逆向归纳法的思想以及博弈树在自身结构上的自相似性(即每一个子博弈在结构上相似于原博弈)解出其唯一的子博弈精炼均衡,这就是著名的Rubinstein(1982)定理。若T2,贝憐流出价的讨价还价博弈有唯一的子博弈精炼纳什均衡,其均衡结果为1-81-8812当8当8=8=8时,121T+5假定在t>3由1出价且1能得到的最大份额为M。1在t得到的M对1来说等价于他在t-1得到8M1故2在t-1出价x>5M时,1必接受,而2不会出比§M更多的211给1,故2在t-1出价x=5M对2是最优的,2获得1—5M。211在t-2,2的最大支付贴现值为5(1—5M),1在t-2出价211-x>5(1-5M)时,2会接受,而1不会出比此更多的给2,故1出121价1-x=5(1-5M),1的最大获取为1-5(1-5M)。12121因为从t-2开始的博弈与从t开始的博弈完全相同,故1在t-2能得到的最大份额一定与其在t能得到的最大份额相同,所以M=1-5(1-5M)21得M=1-M=21-5512再设1在t能得到的最小份额为加,类似推理可得1-5m=厂=M1-5512因总有m<x<M,而m=M,故必有兀=m=M=岛12当5=5=5时,x*=121+52.1.D货币政策的动态不一致性模型中的局中人有两个,一是公众,其战略空间为所选择的各种预期通胀率;二是政府,其战略空间为在给定公众预期通胀率下所能选择的实际通胀率(货币政策)。博弈行动顺序为:公众先动,政府在观察到公众的选择后行动。支付函数:政府同时关心通胀与失业问题(宏观经济政策的两大目标),故设政府的单阶段效用函数为M(兀,y)=-c兀2-(y-ky)2,c>0,k>1其中“为通胀率,y为自然失业率下的均衡产量,y是实际产量。k>1的经济含义是由于市场扭曲(来自于工资刚性和市场的不完全竞争等)使自然失业率下的产量低于政府偏好的理想水平(即政府认为自然失业率过高),以及政府受到选民的压力而不得不寻求将产量提高到高于自然失业率产量的水平。该效用函数表明,尽管政府并不喜欢通胀,但若通胀能使产量提高到政府希望的水平ky,政府也会容忍某种程度的通胀。产出与通胀之间的关系由含有通胀率预期的短期菲利普斯曲线决定。设定为y二y+P(兀一兀e),P>0其中兀e是公众预期的通胀率。这种phillips曲线又称为“意外产出函数”,即只有未被公众预期到的通胀才会影响实际产出,其原因在于交易费用使得企业不可能随时调整工资率(以及工会的力量抵制工资向下调整)。设政府在给定公众通胀预期下选择货币政策,则政府的优化决策为:maxM(兀,y)二一c兀2-(y-ky)2s-1y二y+P(兀一兀e)将y二y+P(兀—兀e)代入目标函数M二一c兀2—(y+B兀一B兀e-ky)2一阶条件—2c兀一2B(y+B兀一B兀e—ky)=0(—2c—2P2)兀一2P[_B兀e+(1—k)y]二0仃*_P[P兀e+(k-1)刃/V(c+P2)兀*是政府短期最优通胀率。(k—1)可被理解为(政府认为的)扭

曲程度。上式表明:政府选择的通胀率是公众预期通胀率的函数,它就是政府的反应函数。现假定公众有“理性预期”,则兀e=兀*。代入反应函数,得到B[B[旳*+(k—1刃

(c+P2)B2兀*+p(k-1)yC+P2C+P2P(k-1)yc+Pc+P21-P(k-1)yc下图表明理性预期兀e=n*由反应函数兀*(兀e)与450线的交点决定。nene由n*=ne=p(k一Dy知,p愈大(产出对未预料到的通胀率愈敏c感),扭曲愈严重((k-1)愈大),则理性预期通胀率(也是博弈均衡通胀率)就愈高。当政府愈不喜欢通胀(c愈大时,(-c)是目标函数M中n的权数),均衡通胀率就愈低(与直观一致)。此时,因政府选择的通胀率n*被公众正确预期到(n*=ne),故实际产出水平将独立于通胀(即y二y)。政府一方面忍受着通胀之苦,另一方面又无法享受产出增加之益(减少失业带来选票的增加)。将n*代入效用函数并用Phillips曲线消去y,得到政府短期效用水平为M=-c卩伙—Dy2_ly+p(兀—兀e)-ky]sc」_P2=-(k—1)2y21+—c2若政府选零通胀战略,则效用水平为M=—c-0-[y+p(0—0)—kyIP=-(k-1)2戸(设公众也预测到零通胀率)这里下标p表示政府事前承诺零通胀率。显然有M<M,但为何政府不选择零通胀率呢?为何政府不一SP直按承诺的零通胀率行事呢?因为零通胀率不是可置信的承诺,即不是一个动态一致的政策,或者说不是一个子博弈精炼纳什均衡。现假定政府许诺自己将实行零通胀率政策,且公众轻信了政府的许诺,则给定兀e=0,政府的最优通胀率计算如下:maxM=-cn2-(y-ky)2兀s-1y=y+pnM二_cn2-(y+Pn-ky)2一阶条件:dM_-2cn-2p(y+pn-ky)2-0dnnP(k-1)yn*-c+P2效用为Mfkk-1)y1--1+P2c其中f表示公众被政府愚弄的情形。因M>M,故政府无积极性兑现自己的许诺。fP即给定公众相信通胀率为零,则政府一定会选大于零的通胀率因公众是理性的,且知政府是理性的(故预料到政府会如此干)故公众不会预期通胀率为政府所许诺的那样为零。因而有理性预期,效用只能为M而非M(M)。SPS这样,政府因无法使公众相信零通胀率而自受其苦,即“聪明反被聪明误”。货币主义的代表人物弗里德曼建议,可实行“单一的”货币政策,即以法律形式规定一个固定的货币增长率。注意,这是一个承诺行动,即将不可置信承诺的零通胀率变为可置信的。因为这种法律规定限制了政府行动的自由(减小了政府的行动空间),它等价于一个可置信的承诺行动,但政府却反而受益(得到支付M)。P政府对自身声誉的考虑也是约束政府机会主义行动的一个重要因素(即考虑长期效用),因政府与公众之间的博弈实际上是一个重复博弈。如果有一个不制造通胀的强政府声誉,政府会长期受益的。类似的例子还有:政府税收政策也存在动态不一致。如为了鼓励外资进入,有些发展中国家常许诺对外资的税收优惠政策。但在给定外资已进入情况下,政府又常常通过提高税率甚至没收外资企业的办法来增加财政收入。因此,除非有很好的法律制度保证政府言而有信,否则,投资者不会被政府的许诺所诱惑。在这个例子中,若双方都预期和选择零通胀,则达到帕累托最优。但正如“囚徒困境”中的“(抵赖,抵赖)”一样,这并不是一个纳什均衡。当政府承诺零通胀时,若公众预期零通胀,则政府的零通胀政策就不是最优的了,不是一个子博弈精炼均衡。2.2重复博弈重复博弈中每个阶段中的博弈方、可选策略、规则和得益都是相同的是特殊的动态博弈;基本特征:(1)前一阶段的博弈不改变后阶段的博弈结构;(2)所有参与人都能观测到博弈过去的历史;(3)参与人的总损益是所有阶段损益的贴现值之和。形式上是基本博弈的重复进行,但博弈方的行为和博弈结果不一定是基本博弈的简单重复,因为博弈方对于博弈会重复进行的意识,会使他们对利益的判断发送变化,从而使他们在重复博弈过程不同阶段的行为选择受到影响。策略:博弈方的一个策略就是在每个阶段(即每次重复),针对每种情况(以前阶段的结果)如何行动的计划。以逆推归纳法(逆向归纳法)为核心的子博弈精炼纳什均衡分析及相关结论,可以推广到重复博弈中。重复博弈的路径是由每个阶段博弈方的行动组合串联而成的。因为对应前一阶段的每种结果,下一阶段都有原博弈全部策略组合数那么多种可能的结果。原博弈有m种策略组合,那么重复两次就有m2条博弈路径,重复t次就有mt条博弈路径。有限次重复博弈:给定一个基本博弈G(可以是静态博弈,也可以是动态博弈),重复进行T次G,并且在每次重复G之前各博弈方都能观察到以前博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。无限次重复博弈:一个基本博弈G一直重复博弈下去的博弈,记为G(8)。重复博弈的次数虽然有限,但重复的次数或博弈结束的时间不确定,这种重复博弈中博弈方的行为选择与有确定结束时间的有限次重复博弈很不同,与无限次重复博弈很相似,甚至可以通过某种方式与无限次重复博弈统一起来。这种重复博弈可以称为“随机结束的重复

博弈”。任何博弈博弈方策略选择依据都是支付的大小。重复博弈中计算的是“总支付”。由于时间有先后,因此需引入贴现系数。有限次重复博弈的总支付兀=兀+6兀+52兀+...+5t-ik眾5t-1兀TOC\o"1-5"\h\z123Ttt=1无限次重复博弈的总支付兀=兀+5兀+52兀+…+5t-i兀+•••上5t-1兀123Ttt=1平均支付有限次重复博弈兀=二^另51-1兀1-5Ttt=1无限次重复博弈兀=(1-5)遠51-1兀t平均支付有两个优点。其一,它消除了时间的因素,因而可直接进行支付比较。其二是平均支付是现值支付的1-5倍,因而平均支付最大化与现值支付最大化是等价的。22A理论:有限次重复博弈连锁店悖论一个垄断的百货销售集团在20个地区都设有连锁店,另外一家公司打算在这20个地区也设立20个连锁店销售同类产品与前一公司竞争。进入B默许A进入B默许不进入斗争B斗争(40,50)(-10,0)(0,300)(0,300)现在的博弈问题是:当进入者进入每一个地区时,在位者都有两种战略即斗争或默许;而进入者在每一个地区也都有两种战略即进入还是不进入。而重复博弈就是两家公司在这20个地区不断重复的市场进入及阻挠博弈,假设进入者依次从第1第2,……,到第20个地区进行进入决策博弈。从直观上看,在第1个地区的博弈中,在位者为了使进入者不敢在别的地区开店,它会选择打击,但实际上这种威胁是不可置信的。我们用逆向归纳法的逻辑来分析:考虑第20个地区的博弈。因这是最后一个地区,打击对在位者无意义,其最优选择是“默许”,进入者进入。再看第19个地区,因进入者和第20个地区上的博弈结果必是在位者默认,它进入,结果是确定的,不受这次博弈的影响,故知在位者必选“默许”,“打击”的威胁是不可置信的,故它必进入。连锁店博弈显然,如此倒推,知每一个地区的阶段博弈均衡必是(进入,默许),上图中的逆向归纳法求解表明这是唯一的子博弈精炼均衡。由此,我们有如下定理。令G是阶段博弈,G(町是G重复T次的有限次重复博弈(T<心,则当G有唯一的子博弈精炼纳什均衡时,重复博弈G(T)的唯一子博弈精炼纳什均衡结果是阶段博弈G的纳什均衡重复T次的结果。局中人的总支付等于各阶段博弈的支付贴现值之和,而局中人的战略由局中人在各阶段博弈中的战略组成。因此,给定其他局中人的战略,也就给定了其他局中人在各阶段博弈中的战略。当其他局中人的战略由他在各阶段博弈中的子博弈精炼纳什均衡战略组成时,当且仅当该局中人的战略为各阶段博弈中的子博弈精炼均衡战略,该局中人的总支付达到最大。因该局中人是任一位局中人,因而我们就证明当单阶段博弈的子博弈精炼纳什均衡重复T次时,就构成整个重复博弈的一个纳什均衡。在有限次重复博弈中,如果原博弈存在唯一的纯策略纳什均衡策略组合,则有限次重复博弈的唯一的均衡解即各博弈方在每阶段中都采用原博弈的纳什均衡;由于在这样的双方策略下,均衡路径中的每个阶段都不存在任何不可信的威胁或许诺,因此这种均衡是子博弈完美纳什均衡。在一个博弈中的每个博弈方的所有得益上各自加上相同的数值不会改变博弈原来的均衡设原博弈G有惟一的纯策略纳什均衡,则对任意正整数T,重复博弈G(T)有惟一的子博弈完美纳什均衡,即各博弈方每个阶段都采用G的纳什均衡策略。各博弈方在G(T)中的总得益为在G中得益的T倍,平均得益等于原博弈G中的得益。B理论:无限重复博弈无限重复博弈:Gg6):博弈G重复无限次。折现因子:6=1/(1+r)v1,无限收益序列的现值叫=ui1+%+阿3+…=S15t-1uit无限次与有限次重复博弈的区别:有限次:(1)存在最后一次博弈正是破坏重复博弈中博弈方利益和行为的相互制约关系,使重复博弈无法实现更高效率均衡的关键;(2)不一定考虑贴现问题。无限次:(1)没有最后一次;(2)对博弈方选择和博弈均衡的分析必须以平均得益或总得益的现值为依据。无限次重复的囚徒困境问题:对于阶段博弈8,80,1010,01,1坦白1不坦白囚徒2坦白不坦白考虑触发战略(triggerstrategy),触发战略又称冷酷战略,因为任何参与人的一次不合作将触发永久的不合作。在囚徒困境中考虑如下冷酷战略:当t=1时,选择不坦白(合作);在t>1阶段,如前面t-1个阶段中出现的行动组合都是(不坦白,不坦白),仍选择不坦白,否则,选择坦白(不合作)。可以证明,当5充分大时,两个局中人的触发策略组合是子博弈精炼纳什均衡。在该战略中,一方自己一旦选了“坦白”,他之后也永远选“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论