第三讲完全信息动态博弈

上传人：s*** IP属地：天津上传时间：2023-01-04 格式：DOCX 页数：32 大小：529.80KB 积分：35 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第三章完全信息动态博弈第一节完全信息动态博弈的扩展式表述动态博弈的根本特征是，参与人的行动有先后顺序，且后行动的参与人在自己行动之前能观测到先行动的参与人的行动，特别是能根据先行动的参与人的行动调整或做出自己的战略选择。运用战略式表述动态博弈的缺陷表现在：1.看不出行动的先后顺序；2.对于描述2人以上的博弈较不方便。因此，扩展式表述extensiveformrepresentation被用于描述动态博弈。一、扩展式表述的要素参与人集合：i=1,……,n。此外，用N代表虚拟参与人“自然”。参与人的行动顺序theorderofmoves：谁在什么时候行动。参与人的行动空间actionset：在每次行动时，参与人有些什么选择。4.参与人的信息集informationset：每次行动时，参与人知道些什么。参与人的支付函数：在行动结束之后，每个参与人得到些什么(支付是所有行动的函数)。外生事件(即自然的选择)的概率分布。如同两人有限博弈的战略表述可以用支付矩阵表示一样，n人有限博弈的扩展式表述可以用博弈树gametree表示。二、博弈树的基本建筑材料buildingblocks七°-3)))))图3-1(一)结nodes1.结的分类决策结decisionnodes:参与人采取行动的时点。包括：起点结initialnodes非起点结终点结terminalnodes:博弈行动路径的终点。2.结的顺序关系precedencerelation用X表示所有结的集合，x£X表示某个特定的结。xx〃表示“x在x〃之前”3.前列集thesetofpredecessors和后续集thesetofsuccessors定义P(x)为在x之前的所有结的集合，简称为x的前列集；定义T(x)为x之后的所有结的集合，简称为x的后续集。如果P(x)=0,x称为初始结，用O表示，如果T(x)=0,x称为终点结，用z表示。Z表示终点结集合。除终点结之外所有的结都是决策结，在不引起混乱的情况下，用X表示决策结的集合。除初始结O外，对于所有x£X，如果存在一个p(x)£P(x)，使得对于所有的x〃〈x，x"尹p(x)意味着x"〈p(x)，那么，p(x)称为x的直接前列结immediatepredecessor。如果，x"是x的直接前列结，则x称为x”的直接后续结immediatesuccessor0直接后续结集合用t(x)表示。结的要求(假设)传递性假设transitive：如果x<xi，x1<x2，则x〈x2。反对称性假设asymmetric：如果x<x"，则x"<x不成立。即如果x在x”之前，x"不能在x之前。传递性和反对称性意味着顺序关系“<”是半序的partialorder，即有些结之间是不可比较的，如图3-1中B的四个决策结。前列结全排序假设：如果x1<x，x2<x，那么，或者x1<x2，或者x2<x1，就是说，x的所有前列结必须是全排序的totallyorderedo前列结全排序假设意味着，任何一个非初始结的直接前列结是唯一的。保证了从初始结到任何一个结只有唯一的路径。(一个决策结可以有多个直接后续结(依赖于可选择的行动的数量))。传递性和反对称性排除了图3-2a的情形；前列结全排序假设排除了图3-2b的情形。V\/'x(a)(b)图3-2博弈论不允许出现的情况参与人行动的描述在博弈树中，“谁在什么时候行动”用在决策结旁标注参与人的办法表示。可以引入函数i：X-{N,1,……，n},即函数i(x)表示，在决策结x,参与人i行动。它给出了博弈中参与人行动顺序的完整描述(博弈扩展式表述的第二个要素)。每一个终点结z完全决定了博弈树的路径，因此，可以用函数ui(z)表示对应的博弈树路径导致的第i个参与人的支付函数(博弈扩展式表述的第五个要素)。枝branches枝是从一个决策结到它的直接后续结的连线，每一个枝代表参与人的一个行动选择。对于一个给定的决策结x£X，在一个有限的行动集合A(x)和一个一一对应的函数a：t(x)-A(x)，该函数意味着，在该结点可选择的行动集合A(x)与该结点的直接后续结集合t(x)之间存在一一对应关系。枝不仅完整地描述了每一个决策结参与人的行动空间(扩展式表述的第三个要素)，而且给出了从一个决策结到下一个决策结的路径。信息集informationsets所有决策结分属不同的信息集，每一个信息集是决策结集合的一个子集，该子集包括所有满足下列条件的决策结：(1)每一个决策结都是同一参与人的决策结；(2)该参与人知道博弈进入该信息集的某一个决策结，但不知道自己究竟处于哪一个决策结。引入信息集的目的在于描述下列情况：一个参与人要做出决策时，他可能并不知道“之前”发生的所有事情(即不完美信息)。同一信息集的决策结用虚线连接起来(或用虚线圈起来)。用H代表信息集的集合，h£H代表一个特定的信息集。特别地，用h(x)表示包含决策结x的信息集。信息集的特征一个决策结属于一个，并且只能属于一个信息集。假定x"eh(x)，H应满足下列条件：xp(x")且x"p(x)。即同一个信息集内的一个决策结不能是其他决策结的前列结或后续结。这一条件意味着，参与人在博弈任何时点上记得自己以前的行动。i(x)=i(x")，即同一信息集的所有决策结都是同一参与人的决策结。这一条件意味着，参与人不会将自己的行动于其他人的行动的决策结混淆。A(x)=A(x")，即一个参与人在属于同一信息集的每一个决策结的行动空间应该是相同的。否则，参与人可利用行动空间的不同区分不同的决策结。博弈模型的一个更基本假设：博弈的结构是所有参与人的共同知识，每个参与人都可以看到博弈树。完美信息博弈一个信息集可包含一个或多个决策结。只包含一个决策结的信息称为单结信息集single-tonso如果博弈树的所有信息集都是单结的，该博弈称为完美信息博弈gameofperfectinformationo完美信息博弈意味着，博弈中：(1)没有任何两个参与人同时行动；(2)所有后行动者能准确知道前行动者选择了什么行动；(3)所有参与人观测到自然的行动(即自然先行动，且所有参与人都能观测到)(完全信息只要求观测到自然的行动，即没有事先的不确定性；完美信息除了这一要求外，还要求观测到其他参与人以前的行动。)自然自然的信息集总是假定为单结。“自然在参与人决策之后行动”=“自然在参与人决策之前行动，但参与人不能观测到自然的行动”。（因此，在画博弈树时，最好先画自然。）博弈树的描绘规则相同的博弈可以用不同的博弈树描绘，但应当遵守两个规则：（1）一个参与人在决策之前知道的事情（可能是其他参与人的行动或自然的行动）必须出现在该参与人的决策结之前。例如，相同博弈可以用决策结顺序A-N-B或N-A-B表示，但是不能用A—B—N或B—A—N等表示。（2）信息集必须准确表达出来，即同一参与人，在表示相同博弈的不同博弈树中，信息集的数量必须相同，自然除外。此外，扩展式表述也可用于静态博弈，博弈树可以从任何一个参与人的决策结开始（由于所有参与人同时行动），每个参与人都只有一个信息集（因为没有参与人在决策时知道其他参与人的选择）。完美回忆一般假定博弈满足“完美回忆”的要求。完美回忆是指：没有参与人会忘记自己以前知道的事情，所有参与人都知道自己以前的选择。完美回忆要求，如果：（1）x2£h（xi）（即x2和xi属于同一信息集）；（2）xEp（x。，（即x是xi的前列集）；（3）i（x）=i（xi），（即x和X1都是参与人i的决策结）。那么，存在一个x"（可能是x本身），满足：（1）x"eh（x），即“同一信息集”假设；（2）x〃£p（x2），x”是x2的前列结；（3）在x点为到达xi的行动与在x"点为到达x2的行动是一样的。即“同一行动假设”。如图3-3：图3-3完美记忆的要求下面图3-4a和图3-4b(引自Kreps,David,1990,ACourseinMicroeconomics,Chapter12and14)均不成立。图3-4a图3-4a不满足“同一行动”假设。参与人不能区分（D,L）和（D,R）是正常的。但他不应该不能区分（U,R）和（D，R），即他把自己以前的选择忘记了。图3-4b不满足“同一信息集”假设。最初，参与人1是知道自然的选择的，但后来，他就忘了，区别不了（大，D，L）和（小，D，L）。三、扩展式表述的严格表述（一）历史全历史全历史（或终端历史）terminalhistory:博弈中所有从开始到结束的行动序列称为全历史。用H表示全历史的集合。子历史子历史subhistory:若将全历史表示成一个行动序列（a1,a2,„,aK），（其中K为博弈从开始到结束依次发生的行动次数，K为自然数，当KT8时，表示无穷动态博弈。行动序列中的每一个a都为向量），那么（a1,a2,„,am），其中mVK，就称为全历史（a1,a2,„,aK）的子历史。用h表示子历史。真子历史真子历史propersubhistory:当mVK时，（a1,a2,…,am）就称为全历史（ai,a2,…,aK）的真子历史。空历史空历史emptyhistory:博弈开始前的历史是一个空历史，用。表示空历史。例如：在图3-1动态囚徒困境中，存在四个全历史：（坦白，坦白），（坦白，抵赖），（抵赖，坦白），（抵赖，抵赖）。其中，全历史（坦白，坦白）有三个子历史：空历史。，（坦白），（坦白，坦白）。而前两个子历史，即是空历史。，（坦白）真子历史。在图3-2取消管制博弈中，存在五个全历史：（维持），（取消，［进，进］），（取消，［进，退］），（取消，［退，进］），（取消，［退，退］）。其中，全历史（取消，［进，进］）也存在三个子历史：空历史们（取消），（取消，［进，进］）。参与人函数参与人函数的涵义参与人函数描述了“在全历史中，每个时刻(点)行动的参与人”。参与人函数的表示P(h)={i:ieN},heH。其中，P为playerso参与人函数的意思为，在子历史h之后，是参与人i行动。例如：在图3-1动态囚徒困境中：P(①)=囚徒1，表示博弈从囚徒1行动开始(囚徒1行动前是空历史)；P(坦白)=P(抵赖)=囚徒2,表示在历史(坦白)和(抵赖)之后轮到囚徒2行动。扩展式表述的严格表示扩展式表述的四个要素参与人集合全历史集合参与人函数偏好扩展式表述的严格表示完全信息动态博弈的扩展式为r={N，H，P，U}o其中N为参与者集合；H为博弈的全历史集合，即H={(ai,a2,„,aK)};P为参与人函数;u为支付函数，表示博弈参与者的偏好。行动集合与博弈的基本式相比，扩展式没有直接给出博弈参与者的行动集合，原因在于扩展式已经隐含地定义了各参与者在行动时有些什么样的行动可供选择，根据全历史和参与者函数，能很容易地得到各参与者的行动集合。在历史h之后，参与者P(h)所有可能的行动集合定义为：AP(h)(h)={ap(h)：(h,a)是一个子历史，ap^是行动向量a的第P(h)个元素}。其含义为，对于一些非全历史h，如果序列(h,a)是历史，那么aP(h)就是在h之后采取行动的第P(h)个参与人可以选择的行动之一。完美信息与完全但不完美信息扩展式表述的区别需要注意的是，在完美信息下，扩展式有三个地方与完全但不完美信息不同。(1)历史h由行动向量序列变为行动序列。例如，在取消管制中，历史(取消，［进，进])是一个向量序列，因为企业1和企业2是同时行动的，如果改成企业2后行动，那么就变成(取消，进，进)，也就是由一个向量序列便成了单值序列，意思也完全不一样了。在完美信息下，参与者函数P(h)都是单点映射，对应着唯位参与者。就是行动集合A可以省略下标，即Ap(h)(h)=[ap(h-(h,a)是一个子历史，a明是行动向量a的第P(h)个元素｝简化为A(h)=｛a:(h,a)是一个子历史｝。扩展式表述的严格表示举例动态囚徒困境的扩展式图动态囚徒困境动态囚徒困境的扩展式为「=｛N，H，P，U｝，其中参与者集合：囚徒1和囚徒2,N=｛1,2｝。全历史集合：坦白为C，抵赖为S，H=｛(C,C),(C,S),(S,C),(S,S)｝。参与者函数：P(中)=1，P(C)=P(S)=2。偏好：对于囚徒1而言，最好的历史是(C,S)，其次为(C,C)，然后为(S,S)，最倒霉的历史为(S,C)。对囚徒2而言，最好的历史是(S,C)，其次为(C,C)，第三为(S,S)，最差为(C,S)。取消管制的扩展式图取消管制博弈取消管制的扩展式为「={N,H,P,u}，其中参与者集合：政府，企业1和企业2,N={1,2,3}。全历史集合：维持为C，取消为D，进入为E，退出为。，那么全历史集合H={(C),(D,[E,E]),(D,[E,Q]),(D,[Q,E]),(D,[Q,Q])。参与者函数：P(中)=1，P(D)={2,3}。偏好：对于政府而言，根据五个历史对应的社会福利进行排序，对于企业1和企业2而言，则为五个历史对应的利润排序。蜈蚣博弈该博弈有两位参与者。当参与者1行动时，他将决定是结束博弈还是继续，如果结束博弈，那么参与者1得2,参与者2得0；如果继续博弈，那么轮到参与者2决定是结束博弈还是继续，如果结束博弈，那么参与者1得3,参与者2得1；如果继续博弈，那么轮到参与者1行动，如果他选择左0)，那么参与者1得1，参与者2得2,如果他选择右(R)，那么两人都得0。该博弈的博弈树如图3-5.(1,2)(0,0)图蜈蚣博弈该博弈的扩展式其博弈的扩展式「={N，H，P，"}如下：参与者集合：N={1,2}。全历史集合：继续为C,结束为D,H={(D),(C,D),(C,C,L),(C,C,R)}0参与者函数：P(中)=1，P(C)=2，P(C,C)=1。偏好：如果全历史为(D)，那么参与者1得2,而参与者2得0；如果全历史为(C,D)，那么参与者1得3，参与者2得1；如果全历史为(C,C,L)，那么参与者1得1，参与者2得2；如果全历史为(C,C,R)，那么两人都得0。参与者1最偏好历史(C,D)，而参与者2最偏好历史(C,C,L)。注意：并不是所有的扩展式都能够用博弈树来表示。例如，当有n各参与人同时行动时，就难以用博弈树表示。另外，当参与人的行动不是离散的，而是连续的，或者博弈是无穷的，都无法用博弈树表示。不过，如果一个博弈可以用博弈树表示，那么博弈树完全等价于该博弈的扩展式。四、扩展式表述中的战略（一）战略的定义战略是博弈中参与人的一组完整的相机行动计划。（二）博弈树中战略的涵义“相机行动计划”意味着包含了这一参与人在他的每一个决策点上所做出的行为。所以，一个参与人的战略描述的是在他的每个信息集中他做出的行动。定义：在完全信息扩展式博弈中，参与人i的战略是关于每一个历史h的函数，在这个历史h之后，轮到参与人z•（即P（h）=i，其中，P是参与人函数）行动，这个函数对h指派H（h）（在h之后可使用的行动集）中的一个行动。例如：在图3-6“战略博弈”中，即使参与人1计划在结点。上选择行动S，他的战略也必须对他在c-d信息集，和e结点如何行动给出定义。博弈树中战略的表述某参与人一个战略的表述是，将其在每一个信息集选择的行动依次排列。例如：在图3-1所示动态囚徒困境博弈中，参与人2的一个策略是“坦白，坦白”，即在决策点b和决策点c，他分别选择“坦白”。他共有四个战略，分别为：“坦白，坦白”，“坦白，抵赖”，“抵赖，坦白”，“抵赖，抵赖”。注意：为了避免表述的混乱，不同信息集，同样行动应应采用不一样的标识。例如，在上例中，“坦白，抵赖”，和“抵赖，坦白”容易产生混淆，因此，最好将决策以的行动表述为“也坦白”和“也抵赖'。这时，参与人2的四个战略就分别为：“坦白，也坦白”，“坦白，也抵赖”，“抵赖，也坦白”，“抵赖，也抵赖”。战略相关概念的表述战略空间或战略集合在图3-1所示动态囚徒困境博弈中，§={坦白，抵赖}，S2={“坦白，也坦白”，“坦白，也抵赖”，“抵赖，也坦白”，“抵赖，也抵赖”}。或，简单表述为：S7={y，N}，S={TTf，TD'，DT，，DD,}0战略组合的集合S=S1xS2xxS,其中，S为战略组合的集合，S.为参与人i的战略空间。符号“X”表示笛卡尔乘积，例如，如果S1={A,B},S2=(X,y)，那么S=S1xS2={(A,X),(A,K),(B,X),(B,Y)}.战略表述的其他例子图3-7S1={B,QO},S2=(A,C图3-8S1={QM,QN,BM,BN},S2=(A,P)一个问题是，如果参与人1一开始选择了。，博弈结束，他就不可能到达结点c,这时他的战略为什么还需要对结点c的行动选择做出计划呢？两个原因：一是，即使参与人1将Q作为最优选择，他也必须考虑，在其他选择下，其他参与人的反应，以及对自己带来的支付。从而才能确定Q是最优选择。二是，万一参与人犯了错误，他需要一个意外状况下的计划。S={U,D},S=(AC,AE,BA,BE),S={RP,RQ,TP,TQ}第二节逆向归纳法和子博弈精炼纳什均衡一、纳什均衡的扩展式表述可以将博弈的扩展式表述与战略式表述联系起来。仍用si表述纯战略,*表述支付函数。即，同样的纯战略可以解释为扩展式的，也可以解释为标准式的。1例如，房地产开发博弈（完美信息博弈）自然已经选择“低需求”且成为所有参与人的共同知识。开发商A先行动，开发商B在观测到A的选择后行动。扩展式表述如图3-5所示下面构造出这个博弈的战略式表述。A只有一个信息集，两个可选择的行动，因此，A的行动集合也是战略集合SA=｛开发，不开发｝;B有两个信息集，每个信息集有两个可选择的行动，因而B有四个纯战略，分别是：（1）A开发，我开发；A不开发，我开发。（2）A开发，我开发；A不开发，我不开发。（3）A开发，我不开发；A不开发，我开发。（4）A开发，我不开发；A不开发，我不开发。将B的信息集从左到右排列，上述四个战略可以简写为：｛开发，开发｝，｛开发，不开发｝，｛不开发，开发｝，｛不开发，不开发｝。这个博弈的战略式表述如图3-6：开发商B-3,-3-3,-31，01，00，10,00，10，0｛开发，开发｝｛开发，不开发｝｛不开发，开发｝｛不开发，不开发｝开发商A开发不开发图3-6从战略式表述中，可以看出这个博弈有三个纯战略纳什均衡，分别为（开发，｛不开发，开发｝），（开发，｛不开发，不开发｝），以及（不开发，｛开发，开发｝）。二、不可置信威胁（一）纳什均衡的缺陷从以上可以看出，战略式表述可以用来表述任何复杂的扩展式表述，从而纳什均衡的概念适用于所有博弈，而不仅仅是静态博弈。但是博弈分析的目的是合理预测博弈参与人的行为，这时纳什均衡概念就出现了缺陷。一个缺陷是上面提到的均衡的多重性。而最严重的问题是，纳什均衡假定每一个参与人在选择自己的最优战略时，假定所有其他参与人的战略选择是给定的，就是说，参与人并不考虑自己的选择对其他参与人选择的影响。由于这个原因，在动态博弈里，纳什均衡就不能提供较为合理的解释。因为，在动态博弈中，参与人行动有先后，后行动的参与人的选择依赖于先行动者的选择，先行动作者在选择自己的战略时不可能不考虑自己的选择对后行动者选择的影响。（纳什均衡总体上是一个静态概念，纳什均衡假定每一个参与人在选择自己的最优战略时，假定所有其他参与人的战略选择是给定的，就是说，参与人并不考虑自己的选择对其他参与人选择的影响。因此，在纳什均衡的概念里无法体现对于一个参与人的选择对于其他参与人选择的影响的分析。这一个缺陷在动态博弈的分析里显得尤为突出。）纳什均衡的这个缺陷促使博弈论专家从I960’年代开始不断寻求改进perfecting和精炼refining纳什均衡的概念，以便得到更为合理的博弈解。本节讨论的泽尔滕Selten的“子博弈精炼纳什均衡”是纳什均衡第一个最重要改进，它的目的是把动态博弈中的“合理纳什均衡”与“不合理纳什均衡”分开。正如纳什均衡是完全信息静态博弈的基本概念一样，子博弈精炼纳什均衡是完全信息动态博弈的基本概念。（二）不可置信威胁以上面的房地产开发博弈为例。在三个纳什均衡中，有没有不合理的呢？

先看第三个纳什均衡（不开发，｛开发，开发｝）。这个战略组合构成纳什均衡是因为，B威胁（即给定B的这个战略），不论A选择开发还是不开发，B都选择开发；A相信B的这个威胁，不开发是A的最优选择（0）-3）。类似，在A选择不开发战略时，｛开发，开发｝是B的最优战略。但是，A为什么要相信B的威胁呢？毕竟，如果A选择开发，B的信息集是x，B的最优选择是不开发（0）-3）。如果A知道B是理性的，A就会选择开发，使得B选择不开发，自己得到1；而不是，选择不开发，让B开发，自己得到0。因此，B的｛开发，开发｝战略是不可置信的，而依赖于这个不可置些威胁的纳什均衡（不开发，｛开发，开发｝）是不可置信的notcredible.再看第二个纳什均衡（开发，｛不开发，不开发｝）。尽管这个均衡的结果（A开发，B不开发）似乎是合理的。但均衡战略本身是不合理的。对于B而言，A若不开发，B处于信息集x'，最优选择是开发而不是不开发。因此，｛不开发，不开发｝不是B的合理战略，或者说不是一个可置信战略。最后看第一个纳什均衡（开发，｛不开发，开发｝）。这是一个合理的均衡。构成这个均衡的每个参与人的均衡战略都是合理的。实际上，这个战略组合是这个博弈的唯一的子博弈精炼纳什均衡。二、子博弈精炼纳什均衡泽尔滕Seiten，1965引入“子博弈精炼纳什均衡sub-gameperfectNashequilibrium”概念的目的是将那些包含不可置信威胁战略的纳什均衡从均衡中剔除，从而给出动态博弈结果的一个合理预测。简单地说，子博弈精炼纳什均衡要求均衡战略的行为规则在每一个信息集上都是最优的。（一）子博弈不精确地说，子博弈是原博弈的一个部分，它本身可以作为一个独立的博弈进行分析。定义子博弈的定义如下：一个扩展式博弈的子博弈G由一个决策结x和所有该决策结的后续结T（x）（包括终点结）组成，它满足下列两个条件：（1）x是一个单结信息集，即h（x）=｛x｝；（2）对于所有的xi任T（x），如果x〃£h（xi），那么x〃£T（x）解释条件（1）的意思是：一个子博弈必须从一个单结信息集开始。这一点意味着，当只当参与人在原博弈中确切地知道博弈进入一个特定的决策结时，该决策结才能作为一个子博弈的初始结。图3-5中，决策结x和它的后续结构成一个子博弈；决策结x'和它的后续结也构成一个子博弈。但是，在图3-7（囚徒困境的扩展式表述）中，决策结x和x'都不能作为一个子博弈的初始结。条件（2）说的是，子博弈的信息集和支付向量都直接继承自原博弈，就是说，当只当x'和x〃在原博弈中属于同一信息集时，它们在子博弈中才属于同一信息集；子博弈的支付函数只是原博弈支付函数存留在子博弈上的部分。特别地，条件（2）和条件（1）意味着，子博弈不能切割原博弈的信息集。例如，在图3-8中，因为参与人3的一个信息集包含三个决策结，参与人2的信息集不能开始一个子博弈，否则，参与人3的信息集将被切割。对于子博弈要求的理解要求子博弈满足上述两个条件的目的在于，保证子博弈对应于原博弈的情况，不发生改变。如果不满足这两个条件，参与人在原博弈中不知道的信息在子博弈中就变成知道的信息，从子博弈中得出的结论对于原博弈就没有意义。例如，在图3-8中，如果从参与人2左边的信息集开始一个子博弈，参与人3的信息集就从3个决策结变成2个决策结，其在子博弈中的选择就不同于在原博弈中的选择。习惯上，任何博弈本身称为自身的一个子博弈。图3-5有3个子博弈（包括原博弈自身），图3-7和图3-8都各自只有一个子博弈（即原博弈自身）。图3-8（二）子博弈精炼纳什均衡定义扩展式博弈的战略组合s*=（s「,……,％*,……,sn*）是一个子博弈精炼纳什均衡，如果，（1）它是原博弈的纳什均衡；（2）它在每一个子博弈上给出纳什均衡。（根据这一定义，上面房地产开发博弈中，第二个纳什均衡（开发，｛不开发，不开发｝）在其子博弈中就不是纳什均衡。）（不可置信威胁的实质是，在子博弈中不构成纳什均衡。）如果整个博弈是唯一的子博弈，纳什均衡与子博弈精炼纳什均衡是相同的。如果有其他子博弈存在，有些纳什均衡可能不构成子博弈精炼纳什均衡。对于“在每一个子博弈上给出纳什均衡”的理解均衡路径如果一个博弈有几个子博弈，一个特定的纳什均衡决定了原博弈树上唯一的一条路径，这条路径称为“均衡路径equilibriumpath”，博弈树上的其他路径称为“非均衡路径out-of-equilibriumpathoroff-equilibriumpath”。例如，在图3-5中，“A—不开发—x'—B—开发一（0，1）”是纳什均衡（不开发，｛开发，开发｝）的均衡路径，其他的路径都是该纳什均衡的非均衡路径。纳什均衡纳什均衡只要求均衡战略在均衡路径的决策结上是最优的（这句话有点同义反复）子博弈精炼纳什均衡“在每一个子博弈上给出纳什均衡”意味着，构成子博弈精炼纳什均衡的战略不仅在均衡路径的决策结上是最优的，而且在非均衡路径的决策结上也是最优的。这是子博弈精炼纳什均衡与纳什均衡的实质区别。这里的关键是，战略是参与人行动规则的完备描述，它要告诉参与人在每一种可预见的情况下（即每一个决策结上）选择什么行动。所以，只有当一个战略规定的行动规则在所有可能的情况下都是最优的时，它才是一个合理的、可置信的战略。（这是可置信战略的关键。）子博弈精炼纳什均衡就是要剔除掉那些只在特定情况下是合理的，而在其他情况下并不合理的行动规则。例子（1）房地产开发博弈（见图3-5）房地产开发博弈有三个子博弈：原博弈、子博弈（b）（即以x为起始结）；和子博弈（c）（即以x'为起始结）。第三个纳什均衡（不开发，｛开发，开发｝）：B的均衡战略｛开发，开发｝在子博弈（c）上构成纳什均衡，但是在子博弈（b）上不构成纳什均衡。因而第三个纳什均衡（不开发，｛开发，开发｝）不是子博弈精炼纳什均衡。第二个纳什均衡（开发，｛不开发，不开发｝）：B的均衡战略｛不开发，不开发｝在子博弈（b）上构成纳什均衡，但是在子博弈（c）上不构成纳什均衡。因而第二个纳什均衡（开发，｛不开发，不开发｝）不是子博弈精炼纳什均衡。第一个纳什均衡（开发，｛不开发，开发｝）：B的均衡战略｛不开发，开发｝在子博弈（b）和子博弈（c）上都构成纳什均衡。因而第一个纳什均衡（开发，｛不开发，开发｝）是子博弈精炼纳什均衡。（2）Selten，1965说明子博弈精炼纳什均衡的第一个例子（见图3-9）这个博弈有两个子博弈（包括原博弈和从参与人2的决策结开始的子博弈）。纳什均衡（U,R）不是精炼均衡，因为在从参与人2的决策结开始的子博弈上，R不是一个均衡。纳什均衡（D，L）是一个精炼均衡：当参与人1选择D，博弈进入参与人2的决策结时，L是参与人2的最优选择。四、运用逆向归纳法求解子博弈精炼纳什均衡对于有限完美信息博弈，逆向归纳法backwardinduction是求解子博弈精炼纳什均衡的最简便方法。（一）逆向归纳法的原理对于有限完美信息博弈，因为博弈是有限的，博弈树上一定存在一个最后的决策结的集合（即倒数第二个结，它的直接后续结是终点结），在该决策结上行动的参与人将选择一个最大化自己支付的行动；给定这个参与人的选择，倒数第二个决策结上的参与人将选择一个可行的行动最大化自己的支付；如此等等，直到初始结。当这个倒推过程完成时，我们得到一个路径，该路径给出每一个参与人一个特定的战略，所有这些战略构成一个纳什均衡，就是子博弈精炼纳什均衡。（二）逆向归纳法的具体过程因为有限完美信息博弈的每一个决策结都是一个单独的信息集，每一个决策结都开始一个子博弈。为了求解子博弈精炼纳什均衡，需要从最后一个子博弈开始。给定博弈到达最后一个决策结，该决策结上行动的参与人有一个最优选择，这个最优选择就是该决策结开始的子博弈的纳什均衡（如果该决策结上的最优行动多于一个，允许参与人选取其中任何一个；如果最后一个决策者有多个决策结，那么每一个决策结开始的子博弈都有一个纳什均衡）。然后，倒回到倒数第二个决策结（最后决策结的直接前列结），找出倒数第二个决策者的最优选择（假定最后一个决策者的选择是最优的），这个最优选择与我们在第一步找出的最后决策者的最优选择构成从倒数第二个决策结开始的子博弈的一个纳什均衡。如此不断，直到初始结，每一步都得到对应子博弈的一个纳什均衡，并且根据定义，这个纳什均衡一定是该子博弈的所有子博弈的纳什均衡，在这个过程的最后一步得到的整个博弈的纳什均衡也就是这个博弈的子博弈精炼纳什均衡。*（三）逆向归纳法过程的形式化为简单起见，假设博弈有两个阶段，第一阶段参与人1行动，第二阶段参与人2行动，并且参与人2在行动前观测到参与人1的选择。令A1是参与人1的行动集合，A2是参与人2的行动集合。当博弈进入到第二阶段，给定参与人1在第一阶段的选择a1^A1，参与人2面临的问题是：Maxu(a,a)«2^2212

显然，参与人2的最优选择a2*依赖于参与人1的选择气。用a2*=R2（a1）代表上述最优化问题的解（即参与人2的反应函数）。因为参与人1应该预测到参与人2在博弈第二阶段将按照a2*=R2（a1）的规则行动，参与人1在第一阶段面临的问题是：Maxu（a,R（a））气A1121令上述问题的最优解为a1*。那么，这个博弈的子博弈精炼纳什均衡为（气*人2（气）），均衡结果为（气*,虬（气*））。（气*,虬（气））是一个精炼均衡，因为a2*=R2（a1）在博弈的第二阶段是最优的；除a2*=R2（a1）之外，其他任何的行为规则都不满足精炼均衡的要求。（四）逆向归纳法举例1.房地产开发博弈用逆向归纳法求解这个博弈的子博弈精炼纳什均衡的步骤如下：在第二阶段，参与人B的最优行动规则是：｛不开发，开发｝。因为参与人A在第一阶段预测到参与人B在第二阶段会按照这个规则行动，参与人A在第一阶段的最优选择是开发。｛不开发，开发｛不开发，开发｝）。2.一个三阶段完美信息博弈如图3-10用逆向归纳法求解这个博弈的子博弈精炼纳什均衡的步骤如下：在第三阶段（参与人1第二次行动），参与人的最优选择是U'；在第二阶段，因为参与人2知道，如果自己选择R，参与人1将在第三阶段选择U'，因此，在第二阶段参与人2的最优选择是L；在第一阶段，参与人1知道，如果博弈进入第二阶段，参与人2将选择L，因此，在第一阶段，参与人1的最优选择是U。这个博弈的子博弈精炼纳什均衡是（｛U，U'｝，L）（这里U'和L分别是参与人1和参与人2U'｝，L在非均衡路径上的选择）。均衡结果是，参与人1在第一阶段选择U，结束博弈，支付为（2,0）。（五）逆向归纳法与重复剔出劣战略运用逆行归纳法求解子博弈精炼纳什均衡的过程，实际上是重复剔出劣战略过程在扩展式博弈上的扩展：从最后一个决策结开始，依次剔除掉每个子博弈的劣战略，最后保留下来的战略构成精炼纳什均衡。如同重复剔出的占优均衡要求“所有参与人是理性的”是共同知识一样，用逆向归纳法求解均衡也要求“所有参与人是理性的”是共同知识。在图3-10中，即使两个参与人都是理性的，如果参与人1不认为参与人2是理性的，参与人1在第一阶段可能会选择D，期望在第二阶段参与人2可能选择R，从而自己（参与人1）在第三阶段有选择U的机会。或者，即使参与人2知道参与人1是理性的，但如果参与人1不认为参与人2知道参与人1是理性的，参与人1在第一阶段选择D，期待参与人2认为自己（参与人1）不理性，因而在第二阶段选择选择R，期待自己（参与人1）在第三阶段选择D'。因此，逆向归纳法的应用对于‘所有参与人是理性的'是共同知识”要求严格，应用范围较小。（六）逆向归纳法在不完美信息博弈中的应用根据定义，逆向归纳法只适用于完美信息博弈。但是有些非完美信息博弈也可以运用逆向归纳法的逻辑求解。例如，图3-11。这里，参与人2的最后一个信息集上没有任何一个选择优于其它选择（事实上，最后个子博弈是零和博弈），因此，逆向归纳法不适用。

但是，按照逆向归纳法的逻辑，下列推论是合理的：从参与人1的第二个信息集开始的子博弈有唯一的混合战略纳什均衡，带给每个参与人的期望支付为0。（只有当参与人2相信他有1/4或更高的概率在最后的子博弈猜透参与人1的战略，从而获得2而不是-2的支付时，参与人2才会在自己的第一个信息集上选择R。因为参与人2知道参与人1是理性的，他不可能期望自己比参与人1做得更好。）因此，参与人2在第一个信息集上应选择L；进一步，参与人1在第一个信息集上应选择D。这样的推论正是子博弈精炼均衡的逻辑：用纳什均衡支付向量代替子博弈，然后考虑这个简化博弈的纳什均衡。一旦参与人1的第二个信息集开始的子博弈被它的纳什均衡结果取代，图3-11的博弈就简化为图3-9所示的博弈。五、承诺行动与子博弈精炼纳什均衡（一）承诺行动有些纳什均衡之所以不是精炼均衡，是因为它们包含了不可置信的威胁战略。这一点意味着，如果参与人能在博弈之前采取某种措施，改变自己的行动集合或支付函数，原来不可置信的威胁就可能变得可置信，博弈的精炼均衡就会相应改变。这些为改变博弈结果而采取的措施称为“承诺行动commitment”。承诺行动的价值在于，在一些情况下，一个参与人可以通过减少自己的选择机会使自己受益，原因在于保证自己不选择某些行动可以改变对手的最优选择。完全承诺totalcommitment：一个承诺行动使得某行动的成本无穷大，从而该行动完全没有可能。不完全承诺：一个承诺行动使得某行动的成本增大，但没有使得该行动完全没有可能。将承诺行动纳入模型的一个方法是明确地将承诺行动作为初始阶段的“行动”包括在博弈中，从而得到一个新的博弈。（二）房地产开发模型在参与人A决策前，B与某客户签订合同，规定B在特定时刻交付写字楼，若不能履约，B将赔付客户3500万。B的这个签约行动就是承诺行动。这时，｛开发，开发｝就是B的一个可置信威胁。子博弈精炼纳什均衡变为（不开发，｛开发，开发｝）。注意，3500的赔偿承诺不仅没有使B损失，反而使得B得利1000万。（三）要挟诉讼nuisancesuits要挟诉讼是指这样一类指控，这类指控的胜诉可能性很小，原告指控的唯一目的是希望通过法庭外私了从被告那里得到补偿。商业上的例子包括某小企业指控某大企业利用垄断力量进行不公平竞争；政治生活中的例子包括某女士指控某政治家与其的暧昧关系等。模型如下：两个参与人一一原告P和被告D。行动顺序为——（1）原告决定是否对被告提出指控，指控成本为c>0；（2）如果决定指控，原告要求被告支付s>0以了却诉讼；（3）被告决定接受或拒绝原告要求；（4）如果被告拒绝，原告决定是放弃指控还是向法庭起诉，原告的起诉成本（包括律师费用）为p>0，被告的辩护成本为d>0；（5）如果案件到了法庭，原告以Y的概率赢得x的支付。不指控D指控（要求s）见图3-12a。不指控D指控（要求s）由于YxVp（原告胜诉机会很小），在博弈最后阶段，原告的最优选择是放弃；知道这一情况后，被告在倒数第二阶段的最优选择是拒绝；同理，原告在第一阶段的最优选择是不指控。因此，子博弈精炼纳什均衡为：原告选择｛不指控，放弃｝，被告选择｛拒绝｝。均衡结果是：原告不指控。现原告采取承诺行动一一在指控前将律师费p支付给律师，无论结果怎样，律师不用退还。这时，博弈树见图3-12b。在新博弈中，子博弈精炼纳什均衡发生变化：最后阶段，原告最优选择是起诉，因为起诉与放弃的支付是丫x-c-p>-c-p（假定胜诉概率大于0）；知道这一情况后，被告在倒数第二阶段的最优选择是接受（如果丫x+d>s）；现在的关键是原告在第一阶段对于不指控和指控的选择。这就需要确定s的取值：只要Yx-c-pVs-c-p，即YxVs，原告希望私了而不是上法庭起诉。因此，s£[Yx，yx+d]是私了的赔偿区域。前者是原告要求的下限，后者是被告接受的上限。假定双方讨价还价能力相同，赔偿就为s=yx+d/2。因为原告指控的总成本为c+p，因此，如果s=yx+d/2>c+p，即“接受”时原告的支付大于0，原告在第一阶段最优选择是指控。显然，即使YxVc+p（即上法庭起诉的期望收益小于起诉成本），s=Yx+d/2>c+p仍可能成立。这就意味着，对于原告，即使上法庭起诉的期望收益小于起诉成本，原告在第一阶段的最优选择仍然是指控。假定这个条件成立（即s=Yx+d/2>c+p），这时，子博弈精炼纳什均衡为：原告｛指控，起诉｝，被告（接受）。均衡结果是：原告提出指控，要求s=Yx+d/2的赔偿，被告接受。均衡支付为：原告Yx+d/2-c-p，被告Yx-d/2。案件私了。因为，被告诉讼的成本不仅包括应诉的法律费用，而且涉及“声誉”损失。所以，被告越“大”（如大企业、大人物），d越大，s=Yx+d/2>c+p的条件越可能满足。这就是为什么大企业、大人物经常受到无端指控的原因之一。当然，大企业、大人物也可以采取承诺行动，改变博弈均衡，避免无端指控。承诺行动的一种是在被指控之前就支付律师费用。假定被告在被指控之前支付律师费用y（如果上法庭诉讼，y就包含在d内），那么，赔偿区域就是s£[Yx，Yx+d-y]。同理，s=Yx+（d-y）/2。这样，即使s=Yx+d/2>c+p成立，s=Yx+（d-y）/2>c+p的条件也有可能不成立，从而原告不会提出指控。于是，被告采取承诺行动后，原本会被指控的情况，现在有可能不会被指控了。这样的承诺行动使得被告节约成本Yx+d/2-y，因此，只要y<Yx+d/2（即Yx+d/2-y>0），承诺行动就是值得的。这就是为什么大公司、大人物雇用内部律师或私人律师的原因之一。六、子博弈精炼纳什均衡应用举例（一）斯坦克尔伯格Stackelberg寡头竞争模型（二）轮流出价的讨价还价模型第三节重复博弈和无名氏定理一、重复博弈的涵义（一）序贯博弈前面讨论的动态博弈都有一个特征，即参与人在前一个阶段的行动决定随后的子博弈的结构。因此，从后一个决策结开始的子博弈不同于从前一个决策结开始的子博弈，或者说，同样结构的子博弈只出现一次。（例如房地产开发博弈）。这样的动态博弈称为“序贯博弈”sequentialgames。（二）重复博弈动态博弈的另一种类型是重复博弈repeatedgames，指同样结构的博弈重复多次，其中的每次博弈称为“阶段博弈”stagegame。例如，囚徒困境就可以成为重复博弈。重复博弈的3个基本特征：（1）阶段博弈之间没有“物质上”的联系nophysicallinks，即前一阶段的博弈不改变后一阶段博弈的结构（相比之下，序贯博弈涉及物质上的联系）；（2）所有参与人都观测到博弈过去的历史（如在每一个新的阶段博弈，每个囚犯都知道其他参与人在在过去的每次博弈中选择了坦白还是抵赖）；（3）参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。注意，阶段博弈可以是静态博弈（如囚犯困境），也可以是动态博弈（如房地产博弈）。因为其他参与人过去行动的历史是可以观测到的，一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动（如：“如果你这次坦白，下次我也坦白；如果你这次抵赖，下次我也抵赖”），因此，参与人在重复博弈中的战略空间远远大于和复杂于在每一个阶段博弈中的战略空间。例如，即使囚犯困境博弈值重复5次，每个囚犯的纯战略大于20亿个，战略组合的数量更多。这一点意味着，重复博弈可能带来一些“新”的均衡结果，这些均衡结果在一次博弈中是不会出现的，这正是分析重复博弈的意义所在。影响重复博弈均衡结果的主要因素有两个：（1）博弈重复的次数。其重要性在于，参与人在短期利益和长期利益之间的权衡一一当博弈只进行一次时，参与人只关心一次性支付;但如果博弈重复多次，参与人可能为了长期利益牺牲眼前利益从而选择不同的均衡战略。这是重复博弈分析给出的一个强有力结果，它为现实中观测到的许多合作行为和社会规范提供了解释。（2）信息的完备性completeness。简单地说，当一个参与人的支付函数（特征）不为其他参与人所知时，该参与人可能有积极性建立一个“好”声誉reputation以换取长远利益。这一点或许可以解释为什么本质并不好的人在相当长的时间干好事。（这部分内容在不完全信息动态博弈中讨论。）二、有限次重复博弈和连锁店悖论先看一个市场进入博弈。图3-市场进入博弈在一次博弈中，这个博弈的唯一的子博弈精炼纳什均衡结果是进入者进入，在位者默许，支付分别为（40,50）。现在假定同样的市场有20个（可以理解为在位者有20个连锁店），进入者每次进入一个市场。于是博弈变成20次重复博弈。通常的猜想是，尽管从一个市场看，在位者的最优选择是默许，但是现在有20个市场要保护，为了阻止进入者进入其他19个市场，在位者应选择斗争。但是，这是不正确的。这个博弈中，在位者选择斗争的原因是希望斗争能发挥威慑作用，阻止进入者的进入。但是在有限次博弈中，斗争并不是一个可置信威胁。在第20个市场的博弈中，由于博弈将在本次结束，选择斗争没有任何威慑意义，在位者的最优选择是默许，而进入者进入。在第19个市场的博弈中，由于下一个市场在位者已经选择默许，因此这时在位者选择斗争没有意义，因此，在位者选择默许，进入者选择进入。如此一直倒推到第一个市场的博弈。得到这个有限次重复博弈的唯一的子博弈精炼纳什均衡——在位者在每个市场选择默许，进入者在每个市场选择进入。（以上使用了逆向归纳法）这就是所谓的“连锁店悖论”chain-storeparadox;Selten,1978。当然，这个博弈还有其他的纳什均衡，如“在位者总是选择斗争，进入者总是选择不进入”。但是这不是子博弈精炼纳什均衡。在有限次重复的“囚犯困境”中，使用逆向归纳法得到“两个囚犯总是坦白”是唯一的子博弈精炼纳什均衡。但是与单阶段博弈不同的是：（1）在重复博弈中，“总是坦白”并不是参与人的占优战略，因为它并不是对于任何给定的其他参与人战略的最优反应。（2）“总是坦白”的最优选择唯一性只在均衡路径上成立，在非均衡路径上，参与人可选择抵赖，因为抵赖实际上从来不会出现（比如，如果囚犯A选择“总是坦白”，那么“坦白直到对方选择抵赖，然后总是抵赖”也是囚犯B的最优选择之一。）上述结果可以一般化为下述定理：定理：令G是阶段博弈，G（T）是G重复T次的重复博弈（TV8）。那么，如果G有唯一的纳什均衡，重复博弈G（T）的唯一子博弈精炼纳什均衡结果是阶段博弈G的纳什均衡重复T次（即每个阶段博弈出现的都是一次性博弈的均衡结果）。上述定理表明，只要博弈的重复次数是有限的，单阶段博弈的均衡结果在重复博弈中并不改变。但是注意，单阶段博弈纳什均衡“唯一性”是一个重要条件。如果单阶段纳什均衡不是唯一的，上述结论不一定成立。例如，表3-的博弈。（该博弈引自弗登伯格和泰勒尔（1992）pp112）参与人2LMRU0，03,46,0参与人1M4,30，00，0D0，60，05,5如果这个博弈只进行一次，有三个纳什均衡：（M，L）；（U，M）；混合战略（（3/7U，4/7M），（3/7L，4/7M）），支付向量分别是：（4，3），（3，4），（12/7，12，7）。帕累托最优结果（D，R）不能达到。但是，如果这个博弈重复两次，下列战略组合是一个子博弈精炼纳什均衡（假定贴现因子0>7/9）（贴现因子0的含义一一第2年的支付乘以0折现到第1年）：“在第一阶段选择（D，R）；如果第一阶段的结果是（D，R），在第二阶段选择（M，L）；如果第一阶段的结果不是（D,R）,第二阶段选择混合战略（（3/7U,4/7M）,（3/7L,4/7M））”。下面证明这是一个子博弈精炼纳什均衡。根据构造，第二阶段的战略组合是纳什均衡。下面要证明（D，R）在第一阶段是最优选择。在第一阶段，给定参与人2选择R，如果参与人不选择D而选择U，支付从5到6,增加1个单位。但是其后果是在第二阶段的支付由4下降为12/7。如果，1V（4-12/7）0（即0>7/16）,参与人1将没有积极性偏离（D,R）。类似地，如果0>7/9,参与人2将没有积极性偏离（D,R）。因为不论第一阶段参与人选择什么，第二阶段出现的是纳什均衡，因此，如果0>7/9,上述战略组合是子博弈精炼纳什均衡。（在0>7/9时，（D,R）在第一阶段被选择）这个结果不同于阶段博弈的均衡。其原因是，当阶段博弈有多个纳什均衡时，参与人可以使用不同的纳什均衡惩罚第一阶段的不合作行为，或对第一阶段的合作行为进行奖励，而这一点在阶段博弈只有一个纳什均衡时无法做到。三、无限次重复博弈和无名氏定理（一）无限次重复博弈解开连锁店悖论的办法之一是引入信息的不完全性。在不完全信息动态博弈中，即使博弈重复次数是有限的，如果信息是不完全的，囚犯困境博弈的均衡结果可能与一次博弈不同。解开连锁店悖论的办法之二是，当博弈重复次数是无限次时，存在着完全不同于一次博弈的子博弈精炼纳什均衡。例如：无限次重复囚犯困境博弈。囚犯B坦白抵赖囚犯A坦白-8，-80，-10抵赖-10，0-1，-1如果博弈重复无数次，可以证明，如果参与人有足够耐心，（抵赖，抵赖）是一个子博弈精炼纳什均衡结果。考虑冷酷战略grimstrategies：（1）开始选择抵赖；（2）选择抵赖直到有一方选择坦白，然后永远选择坦白。（又称之为“触发战略”triggerstrategies，因为任何参与人的一次性不合作将触发永远的不合作。）注意，根据这个战略，一旦一个参与人在某个阶段博弈中自己选择了坦白，之后他将永远选择坦白。（实际上从抵赖到坦白的转变取决于自己，而不是对方）首先需要证明冷酷战略是一个纳什均衡一一即当囚犯B选择冷酷战略时，冷酷战略也是囚犯A的最优选择。（1）证明：当囚犯B选择抵赖时，抵赖是囚犯A的最优选择（及其条件）。因为博弈没有最后阶段，所以不能采用逆向归纳法。令0为贴现因子（假定参与人贴现因子相同）。如果囚犯A在第一个阶段首先选择了坦白，虽然它的支付从-1变成了0，净收益为1。但是这个行为将触发囚犯B“永远坦白”的惩罚，因此，囚犯A随后任何一个阶段的支付都将为-8。因此，给定囚犯B选择抵赖，囚犯A选择抵赖的条件是：0+0（-8）+02（-8）+……<-1+0（-1）+02（-1）+……（即囚犯A坦白的总支付小于等于他抵赖的总支付。）851得到-1-5^-1-5解上述条件得到：6*31/8。即，如果0*31/8，给定囚犯B坚持冷酷战略并且没有首先坦白，囚犯A不会首先坦白。（2）证明：当囚犯B坦白时，实施冷酷战略即坦白，是囚犯A的最优选择。给定囚犯B坚持冷酷战略，囚犯B一旦坦白将永远坦白；如果囚犯A坚持冷酷战略，他随后每个阶段支付是-8,但是如果他选择任何其他战略，他在任何单阶段的支付不会大于-8。因此，无论6是多少，囚犯A有积极性坚持冷酷战略。类似地，给定囚犯B坚持冷酷战略，即使囚犯A自己首先选择坦白，坚持冷酷战略（惩罚自己）也是最优的。（对别人和自己严格要求会得到好结果）其次，证明冷酷战略在每一个子博弈上构成纳什均衡。由于博弈重复无限次，从任何一个阶段开始的子博弈与这个博弈的结构相同。在冷酷战略纳什均衡下，子博弈可以划分为两类：一类是，没有任何参与人曾经坦白；另一类是，至少有一个参与人曾经坦白。我们已经证明，冷酷战略在第一类子博弈构成纳什均衡。（见证明（1））在第二类子博弈中，根据冷酷战略，参与人只是重复单阶段博弈的纳什均衡，它自然也是整个子博弈的纳什均衡。由此，证明了如果631/8（即参与人有足够的耐心），冷酷战略时无限次囚犯困境的一个子博弈精炼纳什均衡，帕累托最优（抵赖，抵赖）是每一个阶段的均衡结果。囚犯困境走出了一次博弈的困境。隐藏在这个结果背后的原因是，如果博弈重复无穷次并且每个人有足够的耐心，任何短期的机会主义行为的收益是微不足道的，参与人有积极性为自己建立愿意合作的声誉，同时也有积极性惩罚其他参与人的机会主义行为。当然这个博弈还有许多其他子博弈精炼纳什均衡。特别地，两个参与人在每个阶段都选择坦白也是一个子博弈精炼纳什均衡，而且是唯一一个当期行动独立于过去行动历史的均衡。（二）无名氏定理无名氏定理上述结果可以总结为无名氏定理。（最初的无名氏定理又称纳什无名氏定理Nashfolktheorem，其考虑无限次重复博弈纳什均衡的情况，因为它在20世纪50年代就为博弈论专家所共知但无人曾经发表，因此称为“无名氏定理”。弗里德曼定理将原无名氏定理扩展到子博弈精炼纳什均衡）。无名氏定理（Friedman1971）：令G为一个n人阶段博弈，G（8,6）为以G为阶段博弈的无限次重复博弈，a*是G的一个纳什均衡（纯战略或混合战略），e=（e1，e2，……，en）是a*决定的支付向量，v=（v1，v2，，vn）是一个任意可行的支付向量，V是可行支付向量集合。那么，对于任何满足vi>e』勺v^V（Vi），存在一个贴现因子6*V1使得对于所有的636*，v=（v1，v2,……，vn）是一个特定的子博弈精炼纳什均衡结果。简单地说，无名氏定理说的是，在无限次重复博弈中，如果参与人有足够的耐心（即6足够大），那么，任何满足个人理性的可行的支付向量都可以通过一个特定的子博弈精炼纳什均衡得到。（无名氏定理的证明从略。）无名氏定理的解释（1）在阶段博弈中，由阶段博弈的纳什均衡a*决定的支付向量e=（e1，e2，……，e「是达到任何精炼均衡结果v的惩罚点（或称作纳什威胁点Nashthreatpoint）。正是由于害怕触发阶段博弈纳什均衡，参与人才有积极性保持合作。

（2）重复博弈的支付函数在前面的例子中，用未来支付的贴现值之和代表支付函数。另一个更为方便的方法是用贴现值的平均值averagepayoff来代表支付函数。如果每个阶段的支付都是口，贝m是平均支付值。假定贴现因子为0，那么，无穷序列n，n，的贴现值之和为n/（1-0）；无穷序列n1，n2，的贴现值之和为尤=1^8t=1Kt。要使口成为无穷序列n1，n2，t=1的平均支付，要求：片='81质tt=1因此，兀=（1-8的平均支付，要求：片='81质tt=1tt=1使用平均支付的优越性在于：用同样单位度量重复博弈和阶段博弈，使得重复博弈可以直接与阶段博弈支付比较。最大化平均支付等价于最大化贴现值之和。无名氏定理中的支付应理解为平均支付。（3）可行支付集合v=（V］，v2,，vn）称为一个可行的支付向量feasiblepayoffs，如果它是阶段博弈G的纯战略支

人人文库> 全部分类> 行业资料 > 机电工程

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第三讲完全信息动态博弈

文档简介

温馨提示

最新文档

评论

第三讲 完全信息动态博弈

文档简介

温馨提示

最新文档

评论

相关文档

第三讲完全信息动态博弈