![第八章 博弈论_第1页](http://file3.renrendoc.com/fileroot3/2021-11/25/31b0214c-9f03-49bd-84ca-d8ded1315644/31b0214c-9f03-49bd-84ca-d8ded13156441.gif)
![第八章 博弈论_第2页](http://file3.renrendoc.com/fileroot3/2021-11/25/31b0214c-9f03-49bd-84ca-d8ded1315644/31b0214c-9f03-49bd-84ca-d8ded13156442.gif)
![第八章 博弈论_第3页](http://file3.renrendoc.com/fileroot3/2021-11/25/31b0214c-9f03-49bd-84ca-d8ded1315644/31b0214c-9f03-49bd-84ca-d8ded13156443.gif)
![第八章 博弈论_第4页](http://file3.renrendoc.com/fileroot3/2021-11/25/31b0214c-9f03-49bd-84ca-d8ded1315644/31b0214c-9f03-49bd-84ca-d8ded13156444.gif)
![第八章 博弈论_第5页](http://file3.renrendoc.com/fileroot3/2021-11/25/31b0214c-9f03-49bd-84ca-d8ded1315644/31b0214c-9f03-49bd-84ca-d8ded13156445.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1.1.博弈论概述博弈论概述2.2.完全信息静态博弈完全信息静态博弈3.3.完全信息动态博弈完全信息动态博弈4.4.不完全不完全信息信息静态博弈静态博弈5.5.不完全信息动态博弈不完全信息动态博弈第八章第八章 博弈论 博弈论博弈论(the Game Theory)(the Game Theory)也就是运筹学中的对策也就是运筹学中的对策论论, ,“是关于策略相互作用的理论是关于策略相互作用的理论”,研究两个或两个,研究两个或两个以上参加者在对抗性或竞争性局势下如何采取行动,以上参加者在对抗性或竞争性局势下如何采取行动,如何作出有利于己方的决策及其均衡问题。如何作出有利于己方的决策及其均衡问题。
2、 对策思想最早产生于我国古代。对策思想最早产生于我国古代。 对策思想明确地应用于经济领域,始于对策思想明确地应用于经济领域,始于Cournot Cournot (1838), Bertrand (1883), Edgeworth (1925)(1838), Bertrand (1883), Edgeworth (1925)等人关等人关于寡头竞争、产量与价格垄断、产品交易行为的研究。于寡头竞争、产量与价格垄断、产品交易行为的研究。第一节 博弈论概述John F. Nash Jr2007 - Leonid Hurwicz, Eric S. Maskin, Roger B. Myerson 2005
3、 - Robert J. Aumann, Thomas C. Schelling 2001 - George A. Akerlof, A. Michael Spence, Joseph E. Stiglitz 1996 - James A. Mirrlees, William Vickrey 1994 - John C. Harsanyi, John F. Nash Jr., Reinhard Selten The Nobel Memorial Prize in Economic Sciences 博弈论提供了一种研究人类理性行为的通用方法,博弈论提供了一种研究人类理性行为的通用方法,运用这些
4、方法可以更为清晰完整地分析各种社会力量冲运用这些方法可以更为清晰完整地分析各种社会力量冲突和合作的形势,具体分析人与人之间在利益相互制约突和合作的形势,具体分析人与人之间在利益相互制约下理性主体的策略选择行为及相应结局。下理性主体的策略选择行为及相应结局。博弈论强调在博弈论强调在既定约束条件下追求效用最大化(服从微观经济学的一既定约束条件下追求效用最大化(服从微观经济学的一般分析方法)。同时,信息和时序问题成为博弈论的两般分析方法)。同时,信息和时序问题成为博弈论的两个重要的分析工具。个重要的分析工具。 博弈论研究人与人之间相互博弈论研究人与人之间相互“斗智斗智”的形式和结果。的形式和结果。当
5、经济主体间的利益存在冲突时,一方所获得的利益不仅当经济主体间的利益存在冲突时,一方所获得的利益不仅取决于自己所采取的行动,而且也取决于其他主体采取的取决于自己所采取的行动,而且也取决于其他主体采取的行动或对自己行动的反应。博弈论就是描述在这种形势下行动或对自己行动的反应。博弈论就是描述在这种形势下各方理性地选择自己的行动所实现的结果,分析各决策主各方理性地选择自己的行动所实现的结果,分析各决策主体的行为发生相互作用时的决策以及这种决策的均衡问题。体的行为发生相互作用时的决策以及这种决策的均衡问题。 博弈论的基本概念包括:局中人、策略、支付。博弈论的基本概念包括:局中人、策略、支付。 局中人(局
6、中人(PlayerPlayer):局中人是指在博弈中选择行动以):局中人是指在博弈中选择行动以最大化自身效用的决策主体。可能是个人或团体(如国家、最大化自身效用的决策主体。可能是个人或团体(如国家、企业等)。企业等)。一、博弈论的基本概念 策略或策略空间(策略或策略空间(StrategyStrategy):策略是局中人选择):策略是局中人选择行动的规则,它规定局中人如何对其他人的行动作出反行动的规则,它规定局中人如何对其他人的行动作出反应,即在每种可能的情况下应该如何行动。它与行动不应,即在每种可能的情况下应该如何行动。它与行动不同,行动是局中人的决策变量。如同,行动是局中人的决策变量。如“人
7、不犯我,我不犯人不犯我,我不犯人;人若犯我,我必犯人人;人若犯我,我必犯人”是一种策略,而是一种策略,而“犯犯”与与“不犯不犯”是两种不同的行动,策略规定了什么时候选择是两种不同的行动,策略规定了什么时候选择“犯犯”什么时候选择什么时候选择“不犯不犯”。局中人可选择的策略的。局中人可选择的策略的全体构成了策略空间(或策略集)。全体构成了策略空间(或策略集)。 支付(支付(PayoffPayoff)(支付函数与支付矩阵):博弈)(支付函数与支付矩阵):博弈论中,可用数值表示各局中人从博弈中所获得的收益或论中,可用数值表示各局中人从博弈中所获得的收益或效用水平,该数值称为支付。支付依赖于各个局中人
8、所效用水平,该数值称为支付。支付依赖于各个局中人所作出的策略,这种收益与策略的依赖关系构成了支付函作出的策略,这种收益与策略的依赖关系构成了支付函数。参与博弈的多个局中人的收益可用一个矩阵或框图数。参与博弈的多个局中人的收益可用一个矩阵或框图表示,这种矩阵或框图叫做收益矩阵。表示,这种矩阵或框图叫做收益矩阵。 除此之外,博弈论中的基本概念还包括:除此之外,博弈论中的基本概念还包括:行动、信息、结果和均衡。它们关系是:行行动、信息、结果和均衡。它们关系是:行动是局中人的决策变量;信息是局中人在进动是局中人的决策变量;信息是局中人在进行博弈时有关其他局中人的特征和行动的知行博弈时有关其他局中人的特
9、征和行动的知识;结果是博弈分析者感兴趣的要素的集合;识;结果是博弈分析者感兴趣的要素的集合;均衡是所有局中人的最优策略或行动的集合。均衡是所有局中人的最优策略或行动的集合。 根据博弈者选择的策略,博弈论可划根据博弈者选择的策略,博弈论可划分为合作博弈与非合作博弈。纳什(分为合作博弈与非合作博弈。纳什(NashNash)、)、泽尔腾(泽尔腾(SeltenSelten)和海萨尼()和海萨尼(HarsanyiHarsanyi)(19941994诺贝尔经济学奖获得者)的主要贡献诺贝尔经济学奖获得者)的主要贡献在于非合作博弈方面,而且现在大多数经济在于非合作博弈方面,而且现在大多数经济学家论及博弈时,也
10、主要是指非合作博弈。学家论及博弈时,也主要是指非合作博弈。 一、博弈论的基本概念 合作博弈和非合作博弈的区别在于人们的行动为相互作合作博弈和非合作博弈的区别在于人们的行动为相互作用时,当事人能否达成一个具有约束力(用时,当事人能否达成一个具有约束力(binding binding agreementagreement)的协议。若有,就是合作博弈;否则就是非合)的协议。若有,就是合作博弈;否则就是非合作博弈。例如,两个寡头企业,如果他们之间达成一个协议,作博弈。例如,两个寡头企业,如果他们之间达成一个协议,联合最大化垄断利润,且各自按该协议生产,即是合作博弈。联合最大化垄断利润,且各自按该协议生
11、产,即是合作博弈。其面临的问题是如何分享合作带来的剩余。但若两个企业间其面临的问题是如何分享合作带来的剩余。但若两个企业间的协议不具有约束力,即没有哪一方能强制另一方遵守该协的协议不具有约束力,即没有哪一方能强制另一方遵守该协议,每个企业都只选择自己的最优产量(或价格),则是非议,每个企业都只选择自己的最优产量(或价格),则是非合作博弈。另外,合作博弈强调的是团体理性、效率、公正合作博弈。另外,合作博弈强调的是团体理性、效率、公正和公平。非合作博弈强调的是个人理性、个人最优决策,其和公平。非合作博弈强调的是个人理性、个人最优决策,其结果可能是有效率的,也可能是无效率的。结果可能是有效率的,也可
12、能是无效率的。 从局中人行动的先后顺序可划分为静态博弈从局中人行动的先后顺序可划分为静态博弈(Static gameStatic game)和动态博弈()和动态博弈(dynamic gamedynamic game)。静态博弈)。静态博弈是指在博弈中,局中人同时选择行动或虽非同时行动但后是指在博弈中,局中人同时选择行动或虽非同时行动但后行动者并不知道先行动者采取了什么具体行动。动态博弈行动者并不知道先行动者采取了什么具体行动。动态博弈是指局中人的行动有先后顺序,且后行动者能够观察到先是指局中人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。行动者所选择的行动。 从局中人是否具有有关
13、其他参与人(对手)的特征、从局中人是否具有有关其他参与人(对手)的特征、策略空间及支付函数方面的知识的角度,可划分为完全信策略空间及支付函数方面的知识的角度,可划分为完全信息博弈息博弈(game of complete information)(game of complete information)和不完全信息博和不完全信息博弈弈(game of incomplete information)(game of incomplete information)。 三、最大最小(或最小最大原理)三、最大最小(或最小最大原理) 设设2 2人博弈的局中人为甲和乙,甲的策略为人博弈的局中人为甲和乙,甲
14、的策略为,乙的策略为,乙的策略为 ;二者的支付函数为:;二者的支付函数为: 和和 ,相应支,相应支付矩阵为:付矩阵为: 该博弈的支付矩阵如下表:第一行和第一列表示局中人该博弈的支付矩阵如下表:第一行和第一列表示局中人的不同策略,其他的有序对表示局中人的支付,其中的第一的不同策略,其他的有序对表示局中人的支付,其中的第一项和第二项表示甲和乙在其对应策略下可获得的支付或收益,项和第二项表示甲和乙在其对应策略下可获得的支付或收益,如如f11f11和和g11 g11 ,局中人的目标是选择使自己的收益最大化的策,局中人的目标是选择使自己的收益最大化的策略。略。,21mxxx,21nyyy),(jiijy
15、xff ),(jiijyxfg n jm ig gffnmijijnmijij, 2 , 1;, 2 , 1,)(,)(1x2xmx1y2yny1111, gf1212, gfnn gf11,2121, gf11,mm gf2222, gf22,mm gfnn gf22,mnmn gf, 两人博弈的支付矩阵两人博弈的支付矩阵 决策问题:决策问题: 假定支付为共同知识,如果甲知道乙采用策略假定支付为共同知识,如果甲知道乙采用策略yjyj,甲必然采,甲必然采取相应策略使自己的收益最大,即:取相应策略使自己的收益最大,即: 在甲不知道乙会采取何种策略时,如果甲是一个风险规避者,在甲不知道乙会采取何种
16、策略时,如果甲是一个风险规避者,他将从收益矩阵中找出自己的每一种策略下所能获得的最小他将从收益矩阵中找出自己的每一种策略下所能获得的最小支付,即先求解支付,即先求解 , , 然后再这些最小收益策略中选择收益最大的策略。即然后再这些最小收益策略中选择收益最大的策略。即 该方法的合理性是无论对方采取何种策略,甲至少可获得这该方法的合理性是无论对方采取何种策略,甲至少可获得这个最小值中的最大值,个最小值中的最大值,最小最大原理。局中人按该原则最小最大原理。局中人按该原则所确定的策略叫做稳妥策略。所确定的策略叫做稳妥策略。 类似地,对乙也有:类似地,对乙也有:,max21mjjjiijffff,min
17、21iniifffijnjmiijjiff11minmaxminmaxijminjijijgf11minmaxminmax 用同样的方法可导出最大最小原理。即局中人先从支用同样的方法可导出最大最小原理。即局中人先从支付矩阵中找出其每一种策略下的最大损失,然后从付矩阵中找出其每一种策略下的最大损失,然后从这些最大损失策略中选择损失最小的策略。这些最大损失策略中选择损失最小的策略。例:例: 两寡头企业甲和乙展开竞争,两者可采用三种经营策略两寡头企业甲和乙展开竞争,两者可采用三种经营策略(1 1,2 2,3 3),且甲在竞争中得到的收益恰好等于乙在竞争中),且甲在竞争中得到的收益恰好等于乙在竞争中失
18、去的收益。甲的报偿矩阵如下表:失去的收益。甲的报偿矩阵如下表: 甲的策略乙的策略123178926233540 1. 1.乙先行动。若乙选乙先行动。若乙选1 1,则甲选,则甲选3 3;乙选;乙选2 2,则甲选,则甲选1 1;乙选;乙选3 3,则甲选则甲选1 1。乙在行动时会估计到甲的行动,它估计三种选择中。乙在行动时会估计到甲的行动,它估计三种选择中的最高代价为策略的最高代价为策略1 1(损失(损失900900万),其次为策略万),其次为策略2 2(损失(损失600600万),最低为策略万),最低为策略3 3(损失为(损失为500500万)。因此,乙必选代价最万)。因此,乙必选代价最低的策略低
19、的策略3 3。最大最小原理。结论:乙选择最大最小原理。结论:乙选择3 3,甲选,甲选1 1作为作为回应,乙损失回应,乙损失500500万,甲获益万,甲获益500500万。万。 甲的策略乙的策略1231-7-8-92-6-2-33-5-40 2.2.甲先行动。若甲选甲先行动。若甲选1 1,则乙选,则乙选3 3;甲选甲选2 2,则乙选,则乙选2 2;甲选;甲选3 3,则乙选,则乙选3 3。甲必在收益最小值中选最大值。甲必在收益最小值中选最大值。最小最大原理。结论:甲选最小最大原理。结论:甲选1 1,乙,乙以以3 3进行回应。甲得进行回应。甲得500500万,乙损失万,乙损失500500万。万。 “
20、完全信息完全信息”指的是每个局中人对所有其他参与人的特征指的是每个局中人对所有其他参与人的特征(策略空间、支付函数等)有完全的了解,(策略空间、支付函数等)有完全的了解,“静态静态”指的是指的是所有局中人同时选择行动且只选择一次。纳什均衡是完全信所有局中人同时选择行动且只选择一次。纳什均衡是完全信息静态博弈解的一般概念,也是所有其他类型博弈解的基本息静态博弈解的一般概念,也是所有其他类型博弈解的基本要求。本节先讨论纳什均衡的特殊情况,然后讨论纳什均衡要求。本节先讨论纳什均衡的特殊情况,然后讨论纳什均衡的一般概念。的一般概念。 在博弈论里,一个博弈可以有两种表述方式:一种是策在博弈论里,一个博弈
21、可以有两种表述方式:一种是策略式(略式(strategic form representationstrategic form representation)表述,另一种是扩)表述,另一种是扩展式(展式( extensive form representation extensive form representation )表述。前者适合)表述。前者适合于讨论静态博弈,后者适合于讨论动态博弈。在策略式表述于讨论静态博弈,后者适合于讨论动态博弈。在策略式表述中,所有参与人同时选择各自的策略,所有参与人选择的策中,所有参与人同时选择各自的策略,所有参与人选择的策略一起决定每个参与人的支付。略一起
22、决定每个参与人的支付。 第二节第二节 完全信息静态博弈完全信息静态博弈 策略式表述给出: ;, 2 , 1,:. 2);, 2 , 1 (,:)(. 1niSnii每个参与人的策略空间集合或局中人博弈的参与人)., 2 , 1 (),(:. 31nisssunii每个参与人的支付函数.,;,11代表策略式博弈可用nnuussG 通常情况下,每个局中人的支付是博弈中所有参与人通常情况下,每个局中人的支付是博弈中所有参与人策略的函数,故每个局中人的最优策略选择依赖于所有策略的函数,故每个局中人的最优策略选择依赖于所有其他参与人的策略选择。但在一些特殊博弈中,一个参其他参与人的策略选择。但在一些特殊
23、博弈中,一个参与人的最优策略选择可能并不依赖于其他参与人的策略与人的最优策略选择可能并不依赖于其他参与人的策略选择,即无论其他参与人选择什么策略,他的最优策略选择,即无论其他参与人选择什么策略,他的最优策略是唯一的,这种最优策略被称为是唯一的,这种最优策略被称为“占优策略占优策略”(dominant strategydominant strategy)。)。 例:例:“囚徒困境囚徒困境” 囚徒困境是博弈论中的经典案例。该故事讲的是,两囚徒困境是博弈论中的经典案例。该故事讲的是,两个嫌疑犯作案后被警察抓住,分别被关在不同的房间里个嫌疑犯作案后被警察抓住,分别被关在不同的房间里进行审讯。警察知道两
24、人有罪,但缺乏有力的证据,除进行审讯。警察知道两人有罪,但缺乏有力的证据,除非两人之中有一个坦白。警察告诉每个人,他们的可选非两人之中有一个坦白。警察告诉每个人,他们的可选择的策略与支付如下表:择的策略与支付如下表:一、占优策略均衡 在该博弈中,每个囚徒有两种可能选择的策略:坦白和抵赖。在该博弈中,每个囚徒有两种可能选择的策略:坦白和抵赖。显然,无论同伙选择什么策略,每个囚徒的最优策略都是显然,无论同伙选择什么策略,每个囚徒的最优策略都是“坦白坦白”。如,。如,B B选择坦白,若选择坦白,若A A选择坦白时支付为选择坦白时支付为-8-8,选择,选择抵赖时支付为抵赖时支付为-10-10,因而坦白
25、比抵赖好;若,因而坦白比抵赖好;若B B选择抵赖,选择抵赖,A A坦白坦白时的支付为时的支付为0 0,抵赖时为,抵赖时为-1-1,因而坦白比抵赖好。即是说,因而坦白比抵赖好。即是说,“坦白坦白”是是A A的占优策略。同样,的占优策略。同样,“坦白坦白”也是也是B B的占优策略。的占优策略。 B A坦白抵赖坦白-8,-80,-10抵赖-10,0-1,-1 一般地,称 对应地,所有的 被称为“劣策略”。注意:这里 若对应所有的占优策略严格的为局中人,isi)(*:,*即的严格最优策略是 i ssii*,),(),(iiiiiiiiisss ssussu*iiss 111( ,)iiinsssssi
26、是 之外所有局中人策略合。 在一个博弈里,若所有参与人都有占优策略存在,则占优策略均衡是可以预测到的唯一均衡,因为没有一个理性的参与人会选择劣策略。在囚徒困境的博弈里,(坦白,坦白)是占优策略均衡。.),(,:*1*占优策略均衡称为策略组合那么的占优策略是如果对于所有的在博弈的策略式表述中定义iisssisi 在绝大多数博弈中,并不存在占优策略均衡。但在有些博在绝大多数博弈中,并不存在占优策略均衡。但在有些博弈中,仍可应用占优的逻辑找出均衡。弈中,仍可应用占优的逻辑找出均衡。 案例:案例:“猪智博弈猪智博弈” 猪圈里有两头猪(大猪和小猪),猪圈一头有一猪食槽猪圈里有两头猪(大猪和小猪),猪圈一
27、头有一猪食槽, ,另一头安装着一个按制猪食供应的按钮,按一下钮,有另一头安装着一个按制猪食供应的按钮,按一下钮,有8 8个单个单位的猪食进槽,但需位的猪食进槽,但需2 2个单位的成本。两头猪有两种策略:按个单位的成本。两头猪有两种策略:按钮和等待。具体的博弈支付和结果如下表:钮和等待。具体的博弈支付和结果如下表:二、重复剔除的占优策略均衡 小猪按按钮等待大猪按按钮3,12,4等待7,-10,0 猪智博弈 依赖于小猪的策略:若小猪选依赖于小猪的策略:若小猪选“等待等待”,大猪的最优策略是大猪的最优策略是“按按”;若小猪选;若小猪选“按按”,大猪的最优策略为,大猪的最优策略为“等待等待”。因。因此
28、,不能用上述占优策略找出均衡。此,不能用上述占优策略找出均衡。 可能的均衡是什么呢?若小猪是理性的,可能的均衡是什么呢?若小猪是理性的,他只会选他只会选“等待等待”,因为,因为“等待等待”严格优严格优于于“按按”。假定大猪知道小猪是理性的,。假定大猪知道小猪是理性的,则会预测到小猪的选择;此时,大猪的最则会预测到小猪的选择;此时,大猪的最优选择只能是优选择只能是“按按”。因此,(按,等待)。因此,(按,等待)是该博弈唯一的均衡。是该博弈唯一的均衡。 找出上述均衡的思路是:先找出某个参与人找出上述均衡的思路是:先找出某个参与人的劣策略(假定存在),把它剔除,重新构造的劣策略(假定存在),把它剔除
29、,重新构造一个不包含已剔除策略的新博弈;然后再剔除一个不包含已剔除策略的新博弈;然后再剔除新博弈中某个参与人的劣策略;新博弈中某个参与人的劣策略;直至剩下直至剩下一个唯一的策略组合。该策略组合就是博弈的一个唯一的策略组合。该策略组合就是博弈的均衡解,称为均衡解,称为“重复剔除的占优策略均衡重复剔除的占优策略均衡”。上例中,先剔除小猪的劣策略上例中,先剔除小猪的劣策略“按按”,在新博,在新博弈中,小猪只有弈中,小猪只有“等待等待”一个策略,大猪仍有一个策略,大猪仍有两个策略,但两个策略,但“等待等待”是它的劣策略,剔除它,是它的劣策略,剔除它,就剩下唯一的策略组合(按,待待)。就剩下唯一的策略组
30、合(按,待待)。 例:找出下列博弈的重复剔除的占优策略均衡例:找出下列博弈的重复剔除的占优策略均衡 局中人BLMR局中人AU1,01,20,1D0,30,12,0局中人BLM局中人AU1,01,2D0,30,1局中人BLM局中人AU1,01,2 纳什均衡纳什均衡 (Nash equilibriumNash equilibrium)是指这样)是指这样一种均衡,博弈中的每个局中人都确信,在其一种均衡,博弈中的每个局中人都确信,在其他局中人策略给定的情况下,他选择了最优策他局中人策略给定的情况下,他选择了最优策略。其核心思想是:博弈的理想结局是,每个略。其核心思想是:博弈的理想结局是,每个局中人选择
31、的策略是对其他局中人所选策略的局中人选择的策略是对其他局中人所选策略的最佳反应,其中每一个局中人都不能因单方面最佳反应,其中每一个局中人都不能因单方面改变自己的策略而获益。改变自己的策略而获益。 三、纳什均衡 正式定义:iSs ssuss uissssssissssuuSSGniiiiiiiiniiiininn,),(),(:,),(,),(,;,*1*1*1*1*11即个参与人的最优策略的情况下第是给定其他参与人选择每一个如果对于是一个纳什均衡策略组合博弈个参与人的策略式表述有 容易检验,囚徒困境中的(坦白,坦白)是一个纳什均衡,容易检验,囚徒困境中的(坦白,坦白)是一个纳什均衡,而(抵赖,
32、抵赖)不是一个纳什均衡,因为给定同伙选择抵而(抵赖,抵赖)不是一个纳什均衡,因为给定同伙选择抵赖,自己选抵赖得赖,自己选抵赖得-1-1,选坦白得,选坦白得0 0,因而抵赖不是自己的最优,因而抵赖不是自己的最优策略,类似地,(坦白,抵赖)和(抵赖,坦白)也不是纳策略,类似地,(坦白,抵赖)和(抵赖,坦白)也不是纳什均衡。同样(什均衡。同样( U U,M M)也是一个纳什均衡。)也是一个纳什均衡。 或表述为: 是下述最大化问题的解:*is n isssssusniiiSsiiii,2 , 1),(maxarg*1*1*1*当参与人的策略空间很大时,按上述方法检查每一个当参与人的策略空间很大时,按上
33、述方法检查每一个策略组合是不是纳什均衡很繁琐。在两人博弈中,策略组合是不是纳什均衡很繁琐。在两人博弈中,有一简单的方法。首先,考虑有一简单的方法。首先,考虑A A的策略,对于每一个的策略,对于每一个B B的给定策略,找出的给定策略,找出A A的最优策略,在其对应的支付的最优策略,在其对应的支付下划一横线,然后,用类似的方法找出下划一横线,然后,用类似的方法找出B B的最优策略,的最优策略,若某个支付格的两个数字下都有横线,则该格对应若某个支付格的两个数字下都有横线,则该格对应的策略组合就是一个纳什均衡。的策略组合就是一个纳什均衡。表参与人BLCR参与人AU0,44,05,3M4,00,45,3
34、D3,53,56,6 (1 1)每一个占优策略均衡、重复剔除的占优均衡一定是纳什)每一个占优策略均衡、重复剔除的占优均衡一定是纳什均衡,但逆命题不一定成立。如在囚徒困境博弈里,(坦白,均衡,但逆命题不一定成立。如在囚徒困境博弈里,(坦白,坦白)是一个占优策略均衡、重复剔除的占优均衡,也是一坦白)是一个占优策略均衡、重复剔除的占优均衡,也是一个纳什均衡;猪智博弈中的(按,等待)是一个重复剔除的个纳什均衡;猪智博弈中的(按,等待)是一个重复剔除的占优均衡,也是一个纳什均衡;但在表占优均衡,也是一个纳什均衡;但在表中的(中的(D D,R R)是一)是一个纳什均衡,但不是一个重复剔除的占优均衡(无法通
35、过重个纳什均衡,但不是一个重复剔除的占优均衡(无法通过重复剔除劣策略的办法找到均衡解)或占优策略均衡。复剔除劣策略的办法找到均衡解)或占优策略均衡。纳什均衡与占优策略均衡及重复剔除的占优均衡之间的关系 (2 2)纳什均衡一定是在重复剔除严格劣策略过程中没有被)纳什均衡一定是在重复剔除严格劣策略过程中没有被剔除掉的策略组合,但没有被剔除掉的策略组合不一定是纳剔除掉的策略组合,但没有被剔除掉的策略组合不一定是纳什均衡,除非它是唯一的。如(抵赖,抵赖)被剔除掉了,什均衡,除非它是唯一的。如(抵赖,抵赖)被剔除掉了,故它不是一个纳什均衡,而(坦白,坦白)是一个纳什均衡,故它不是一个纳什均衡,而(坦白,
36、坦白)是一个纳什均衡,故它没有被剔除掉。在表故它没有被剔除掉。在表中,没有任何一个策略严格劣于中,没有任何一个策略严格劣于另一个策略,因而没有一个策略组合能被剔除掉,即没有被另一个策略,因而没有一个策略组合能被剔除掉,即没有被剔除掉的策略组合很多,但(剔除掉的策略组合很多,但(D D,R R)是唯一的一个纳什均衡。)是唯一的一个纳什均衡。 上面将纳什均衡定义为一组满足所有参与人的效用最大化上面将纳什均衡定义为一组满足所有参与人的效用最大化的策略组合。即的策略组合。即 是一个纳什均是一个纳什均衡,当且仅当对所有的衡,当且仅当对所有的 , 根据该定义,有些博弈不存在纳什均衡。根据该定义,有些博弈不
37、存在纳什均衡。 例一:社会福利博弈(支付矩阵如下表)。例一:社会福利博弈(支付矩阵如下表)。四、混合策略纳什均衡),(*1nisssi).,(maxarg*iiiissus流浪汉找工作游荡政府救济3,2-1,3不救济-1,10,0 显然,该博弈没有纳什均衡。显然,该博弈没有纳什均衡。 例二:猜谜游戏(猜硬币)(支付矩阵如下表)。儿童B正面反面儿童A正面-1,11,-1反面1,-1-1,1 该博弈是一个零和博弈,没有纳什均衡。如(正面,正面)该博弈是一个零和博弈,没有纳什均衡。如(正面,正面)不是纳什均衡,因为给定不是纳什均衡,因为给定B B选正面,选正面,A A的最优选择是反面。类的最优选择是
38、反面。类似地,(反面,正面)、(反面,反面)、(正面,反面)似地,(反面,正面)、(反面,反面)、(正面,反面)都不是纳什均衡。都不是纳什均衡。 这两个例子虽然不存在上面所定义的纳什均衡,但具有混合这两个例子虽然不存在上面所定义的纳什均衡,但具有混合策略纳什均衡。策略纳什均衡。如果一个策略规定参与人在每一个给定的信息情况下下如果一个策略规定参与人在每一个给定的信息情况下下只选择一种特定的行动,则称该策略为纯策略。只选择一种特定的行动,则称该策略为纯策略。若一个策略规定参与人在给定信息情况下以某种概率分若一个策略规定参与人在给定信息情况下以某种概率分布随机地选择不同的行动,则称该策略为混合策略。
39、布随机地选择不同的行动,则称该策略为混合策略。在博弈的策略式表述中,混合策略可定义为在纯策略在博弈的策略式表述中,混合策略可定义为在纯策略空间上的概率分布。空间上的概率分布。纯策略和混合策略纳什均衡:定义:).(,),(),(1iiiniiii ii代表混合策略组合空间而的一个混合策略为其中代表混合策略组合的混合策略空间代表用KikikikikikiKiiiKiinnKksisissSKiuuSSGn11111. 1, 10 , 1,)(.),(,:,;,对于所有的的概率选是的一个混合策略称为布则概率分个纯策略有假定参与人中博弈个参与人的策略式表述在 Ssnjijjiiiniiiiiiisus
40、v iivv1111)()(),(:,),(),()(它可被定义为策略组合混合之外所有其他参与人的是除的期望效用函数表示参与人用社会福利博弈的支付矩阵流浪汉找工作游荡政府救济3,2-1,3不救济-1,10,0以社会福利博弈为例求解混合策略纳什均衡。以社会福利博弈为例求解混合策略纳什均衡。 假定政府的混合策略为假定政府的混合策略为G G=(=(,1-,1-) )(即政府以(即政府以的概率的概率选救济,选救济,1-1-的概率选不救济),流浪汉的混合策略为的概率选不救济),流浪汉的混合策略为L L=(r,1-r)=(r,1-r)(即流浪汉以(即流浪汉以r r的概率选找工作,以的概率选找工作,以1-r
41、1-r的概率选的概率选游荡)。则政府的效用函数为游荡)。则政府的效用函数为: : 求其微分可得到政府最优化的一阶条件求其微分可得到政府最优化的一阶条件: : 因此因此, , 在混合策略均衡在混合策略均衡, ,流浪汉以流浪汉以0.20.2的概率选寻找工作,的概率选寻找工作, 0.80.8的的概率选游荡。概率选游荡。)15()1()14()1(0)(1()1)(1(3(),( vLGG015Gv2 . 0* 问题是,解政府的最优化问题得到的却是流浪汉的混合策略。问题是,解政府的最优化问题得到的却是流浪汉的混合策略。对此的可作如下解释:首先假定最优混合策略是存在的。给对此的可作如下解释:首先假定最优
42、混合策略是存在的。给定流浪汉选择混合策略(定流浪汉选择混合策略(r r,1-r1-r),政府选纯策略救济(即),政府选纯策略救济(即=1=1)的期望效用为:)的期望效用为: (这里省略了选择第二个纯策略的概率)选择纯策略不救(这里省略了选择第二个纯策略的概率)选择纯策略不救济(即济(即=0=0)的期望效用为:)的期望效用为:14)1)(1(3), 1 (Gv)1 (01), 0(Gv 如果一个混合策略 是政府的最优选择,则一定意味着政府救济与不救济之间是无差异的,即:) 1, 0( ), 0(14), 1 (GGvv 上式意味着上式意味着 。即若。即若 政府将选择不救济;政府将选择不救济;2
43、. 0*2 . 0 ,政府将选择救济;只有当 时,政府才会选择混合策略 或任何纯策略。 要找出政府的均衡混合策略,需求流浪汉的最优化问题。流浪汉的效用函数为:2 . 02 . 0) 1, 0( 3) 12()1 ( 3) 1()1 (03)(1 ()1 ( 12(),( vLGL 最优化一阶条件为:0) 12(Lv 因此, 该结论可解释为:若0.5,其最优选择是游荡;只有当=0.5时,他才选择混合策略 或任何纯策略。5 .0*) 1, 0( 纳什均衡要求每个参与人的混合策略是给定对方的混合策纳什均衡要求每个参与人的混合策略是给定对方的混合策略下的最优选择。故略下的最优选择。故* *=0.5=0
44、.5,r r* *=0.2=0.2是唯一的纳什均衡。即是唯一的纳什均衡。即在均衡时,政府以在均衡时,政府以0.50.5的概率选救济,的概率选救济,0.50.5的概率选不救济;的概率选不救济;流浪汉以流浪汉以0.20.2的概率选找工作,以的概率选找工作,以0.80.8的概率选游荡。的概率选游荡。 从反面进行说明。假定政府认为流浪汉找工作的概率严格从反面进行说明。假定政府认为流浪汉找工作的概率严格小于小于0.20.2,则政府的唯一最优选择是纯策略不救济;但若政府,则政府的唯一最优选择是纯策略不救济;但若政府以以1 1的概率选不救济,流浪汉的最优选择是找工作,这又将导的概率选不救济,流浪汉的最优选择
45、是找工作,这又将导致政府选择救济,流浪汉则选游荡,致政府选择救济,流浪汉则选游荡,。因此,。因此,r0.2r0.2r0.2不构成纳什均衡。容易验证不构成纳什均衡。容易验证, , 0.50.50.5也都不构成纳也都不构成纳什均衡。什均衡。纳什均衡的弱点:纳什均衡的弱点: (1 1) 多重性。同一博弈里有时会出现多个纳什均多重性。同一博弈里有时会出现多个纳什均衡,即一般怀况下不能保证其唯一性衡,即一般怀况下不能保证其唯一性. . (2 2)有些纳什均衡并不合理。)有些纳什均衡并不合理。女足球芭蕾男足球2,10,0芭蕾0,01,2 如在如在“性别战性别战”博弈中,有两个纯策略纳什均衡:博弈中,有两个
46、纯策略纳什均衡:(足球,足球),(芭蕾,芭蕾)。事实上,可以验(足球,足球),(芭蕾,芭蕾)。事实上,可以验证,还有一个混合策略纳什均衡,即男的以证,还有一个混合策略纳什均衡,即男的以2/32/3的概的概率选择足球赛,以率选择足球赛,以1/31/3的概率选择芭蕾舞;女的以的概率选择芭蕾舞;女的以1/31/3的概率选择足球赛,以的概率选择足球赛,以2/32/3的概率选择芭蕾舞。的概率选择芭蕾舞。 一、一、 博弈的扩展式表述博弈的扩展式表述 博弈树的构造(尤其是信息博弈树的构造(尤其是信息集的概念)集的概念) 。 二、将纳什均衡应用于扩展式博弈。二、将纳什均衡应用于扩展式博弈。 三、定义和讨论完全
47、信息动态博弈的基本概率三、定义和讨论完全信息动态博弈的基本概率子子博弈精炼纳什均衡及其求解方法。博弈精炼纳什均衡及其求解方法。 四、子博弈精炼纳什均衡的应用举例。四、子博弈精炼纳什均衡的应用举例。 第三节第三节 完全信息动态博弈完全信息动态博弈 在静态博弈中,所有参与人同时行动(或行动虽有先在静态博弈中,所有参与人同时行动(或行动虽有先后,但没有人在自己行动之前观测到别人的行动);在动后,但没有人在自己行动之前观测到别人的行动);在动态博弈中,参与人的行动有先后顺序,且后行动者在行动态博弈中,参与人的行动有先后顺序,且后行动者在行动之前能观测到先行动者的行动。之前能观测到先行动者的行动。 通常
48、用扩展式表述分析动态博弈。博弈的扩展式表述通常用扩展式表述分析动态博弈。博弈的扩展式表述“扩展扩展”的主要是参与人的策略空间。策略式表述简单地的主要是参与人的策略空间。策略式表述简单地给出参与人有些什么策略可供选择,而扩展式博弈要给出给出参与人有些什么策略可供选择,而扩展式博弈要给出每个策略的动态描述:谁在什么时候行动,每次行动有些每个策略的动态描述:谁在什么时候行动,每次行动有些什么具体行动可供选择,以及知道些什么。什么具体行动可供选择,以及知道些什么。 一、博弈的扩展式表述 博弈的扩展式表述包括以下要素: (1)参与人集合:i=1,2,n ;此外,将用N表示虚拟参与人“自然”。 (2)参与
49、人的行动顺序:谁在什么时候行动。 (3)参与人行动空间:每次行动时,参与人有些什么选择。 (4)参与人的信息集:每次行动时,参与人知道些什么。 (5)参与人的支付函数:行动结束后,参与人得到些什么(支付是所有行动的函数)。 (6)外生事件(即自然的选择)的概率分布。 如同两人有限策略博弈的策略式表述可用博弈矩阵表述一样,n人有限策略博弈的扩展式表述可用博弈树表示。 以房地产开发为例。假定该博弈的行动顺序如下:(1)开发商A先行动,选开发或不开发;(2)在A决策后,自然选择市场需求的大小;(3)开发商B在观测到A的决策和市场需求后,决定开发或不开发。其博弈树如下表。 博弈树给出了有限博弈的几乎所
50、有信息,其基本构建包括: 1.结(nodes):包括决策结(上面三个)和终点结(B的四个策结)。前者是参与人采取行动的时点,后者是博弈行动路径的终点。此例中,决策结包括1个空心圆和6个实心圆,终点结包括对应8个支付向量的点。 A(4,4)(8,0)(-3,-3) (1,0)(0,8)(0,0)(0,1) (0,0)开发不开发开发不开发开发不开发开发不开发BBBB大大小小开发不开发NN(1/2)(1/2)(1/2)(1/2)图8-1 2.枝( branches ):枝是从一个决策结到它的直接后续结的连线,每一个枝代表参与人的一个行动选择。如A有两个选择,用“开发”和“不开发”两个枝表示。 3.信
51、息集(information sets)。博弈树上的所有决策结分割成不同的信息集。每个信息集是决策结集合的一个子集,该子集满足下列条件:(1)每个决策结都是同一参与人的决策结;(2)该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪一个决策结。引入信息集的目的在于描述:当一个参与人要作出决策时,他可能并不知道之前发生的所有事件。 情形1:图8-1 中,假定B是在知道A和自然的选择后进行决策,此时,博弈树的7个决策结分割成7个信息集(每个信息集只包含一个决策结),意味着所有参与人在决策时准确地知道自己处于哪一个决策结。 情形2:假定行动顺序如前,但B在决策时并不确切地知道自然的选择。
52、此时,B的信息集由原来的4个变成2个,2个信息集分别对应着B的两个不同决策:若A开发,自己是否开发;若A不开发,B是否开发。用虚线将属于同一信息集的两个决策结连接起来(图8-2)。 情形3:B知道自然的选择,但不知道A的选择(如B和A同时决策)。此时,B也有两个信息集,每个信息集包含两个决策结:两处信息集分别对应两种不同的决策:需求大是否开发和需求小是否开发(图8-3)。 A(4,4)(8,0)(-3,-3) (1,0)(0,8)(0,0)(0,1) (0,0)开发不开发开发不开发开发不开发开发不开发BBBB大大小小开发不开发NN(1/2)(1/2)(1/2)(1/2)图8-2 (4,4)(8
53、,0)(-3,-3) (1,0)(0,8)(0,0)(0,1) (0,0)开发不开发开发不开发开发不开发开发不开发BBBB大大小小开发不开发NN(1/2)(1/2)(1/2)(1/2)图8-3A 情形情形4 4:B知道N的选择但不知道A的选择,A不知道N的选择(图8-4)。(0,0)不开发N(4,4)(8,0)(-3,-3) (1,0)(0,8)(0,0)(0,1)开发不开发开发不开发开发不开发开发BBBB开发开发不开发大小AA(1/2) (1/2)不开发图8-4 情形情形5 5:A A既不知道既不知道N N的选择也不知道的选择也不知道B B的选择,但的选择,但B B知道知道N N的选择的选择
54、(图(图8-58-5)。)。N(4,4)(8,0)(-3,-3) (1,0)(0,8)(0,0)(0,1)开发不开发开发不开发开发不开发开发AAAA开发开发不开发大小BB(1/2) (1/2)不开发图8-5(0,0) 一个信息集可能包括多个决策结,也可能只包括一个决策结,后者叫做单结信息集。若博弈树的所有信息都是单结的,该博弈称为完美信息博弈,它意味着博弈中没有任何两个参与人同时行动,且所有后行动者能确切地知道前行动者选择了什么行动,所有参与人观测到自然的行动。在博弈树上,完美信息意味着没有任何两个决策结是用虚线连起来的。 另外,扩展式表述也可用来描述静态博弈。试写出囚徒困境博弈的扩展式表述。
55、 (-8,-8)(0,-10) (-10,0) (-1,-1)坦白抵赖坦白抵赖BBA坦白抵赖 (-8,-8)(0,-10) (-10,0) (-1,-1)坦白抵赖坦白抵赖AAB坦白抵赖 从扩展式表述构造策略式表述。以房地产开发博弈为例。假定博弈开始之前自然就选择了“低需求”,且已成为共同信息;A先决策,B在观测到A的选择后再决策。则博弈的扩展式表述如下图(8-6)。 注意:A只有一个信息集,两个可选择的行动,因而A的行动(策略)空间为SA=(开发,不开发)。但B有两个信息集,四个纯策略,即不论A是否开发,我开发;A开发,我开发,A不开发,我不开发;A开发,我不开发,A不开发,我开发;无论A是否
56、开发,我不开发。若将B的信息集从左到右排列,上述策略可写成:开发,开发,开发,不开发,不开发,开发,不开发,不开发(如下表)。 一、扩展式表述博弈的纳什均衡 (-3,-3)(1,0)(0,1)(0,0)开发不开发开发不开发BBA图 8-6开发不开发 从策略式表述中,该博弈有三个纯策略纳什均衡:(开发,从策略式表述中,该博弈有三个纯策略纳什均衡:(开发, 不开发,开发不开发,开发 ),(开发,),(开发, 不开发,不开发不开发,不开发 )和(不开)和(不开发,发, 开发,开发开发,开发 )。在每一个均衡,给定对方的策略,自)。在每一个均衡,给定对方的策略,自己的策略是最优的。前两个均衡的结果是(
57、己的策略是最优的。前两个均衡的结果是(A A开发,开发,B B不开不开发);第三个均衡的结果是(发);第三个均衡的结果是(A A不开发,不开发,B B开发)。注意:为开发)。注意:为什么第三列第二行不是纳什均衡?什么第三列第二行不是纳什均衡? 在扩展式表述博弈中,所有在扩展式表述博弈中,所有n n个参与人的一个纯策略组合个参与人的一个纯策略组合 决定了博弈树上的一个路径。如,(开发,决定了博弈树上的一个路径。如,(开发, 不开发,开发不开发,开发 )决定博弈的路径为决定博弈的路径为AA开发开发B B不开发不开发(1 1,0 0)。)。),(nisss 开发商B开发,开发开发,不开发不开发,开发
58、 不开发,不开发开发商A开发-3,-3-3,-31,01,0不开发0,10,00,10,0表-1 房地产开发博弈:策略式表述 (一)一个例证:(一)一个例证: 从上的分析中可看出,一个博弈可能有多个(甚至无穷多个)从上的分析中可看出,一个博弈可能有多个(甚至无穷多个)纳什均衡,究竟哪一个均衡更为合理,没有给出一个一般性纳什均衡,究竟哪一个均衡更为合理,没有给出一个一般性的结论。最严重的是,纳什均衡假定每个参与人在选择自己的结论。最严重的是,纳什均衡假定每个参与人在选择自己的最优策略时假定所有其他参与人的策略选择是给定的。这的最优策略时假定所有其他参与人的策略选择是给定的。这样,纳什均衡就很难说
59、是动态博弈的一个合理解,因为,在样,纳什均衡就很难说是动态博弈的一个合理解,因为,在动态博弈中,参与人的选择有先有后,后行动者的选择空间动态博弈中,参与人的选择有先有后,后行动者的选择空间依赖于先行动者的选择,而先行动者在选择自己的行动时不依赖于先行动者的选择,而先行动者在选择自己的行动时不能不考虑自己的选择对后行动者的影响。而子博弈精炼纳什能不考虑自己的选择对后行动者的影响。而子博弈精炼纳什均衡(均衡(SeltenSelten,19651965,19751975)是对纳什均衡概念的第一个最)是对纳什均衡概念的第一个最重的改进,其主要目的是把重的改进,其主要目的是把“合理纳什均衡合理纳什均衡”
60、与与“不合理纳不合理纳什均衡什均衡”分开。分开。三、子博弈精练纳什均衡 仍以上面的房地产开发为例。复制图仍以上面的房地产开发为例。复制图8-68-6。该博弈为一完。该博弈为一完美信息博弈,美信息博弈,A A先行动,先行动,B B在知道在知道A A的选择后再行动。它有三个的选择后再行动。它有三个纳什均衡:(开发,纳什均衡:(开发, 不开发,开发不开发,开发 ),(开发,),(开发, 不开发,不开发,不开发不开发 )和(不开发,)和(不开发, 开发,开发开发,开发 )。)。(-3,-3)(1,0)(0,1)(0,0)开发不开发开发不开发BBA图8-6开发不开发x x . .对于(不开发,对于(不开
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年陈梦与刘阳离婚协议书策划模板
- 双边教育合作谅解协议书模板
- 2025年市场调研与分析咨询服务委托协议
- 2025年供应商与装修企业合作框架协议
- 2025年企业合同解除操作规范
- 2025年劳动合同标准范本分享
- 2025年仓储粮食管理协议
- 2025年住宅物业购买补充协议
- 2025年劳动人员雇佣协议
- 2025年八人合伙企业股权分配协议书
- (完整)PEP人教版小学生英语单词四年级上册卡片(可直接打印)
- 面神经疾病课件
- 汉代儒学大师董仲舒思想课件
- 普通冲床设备日常点检标准作业指导书
- 科技文献检索与利用PPT通用课件
- 《红楼梦讲稿》PPT课件
- DB33∕T 628.1-2021 交通建设工程工程量清单计价规范 第1部分:公路工程
- 吉祥喜金刚现证中品事业六支妙严(节录)
- 国民中小学九年一贯课程纲要语文学习领域(国语文)
- 最全的人教初中数学常用概念、公式和定理
- 桥面结构现浇部分施工方案
评论
0/150
提交评论