版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、策略与博弈第1页,共85页,2022年,5月20日,5点49分,星期二博弈的游戏游戏1拿子游戏(Nim和Marienbad) 有两堆火柴,以及两个局中人。游戏从局中人1开始,此后两个局中人轮流行动。在每个局中人的轮次里,他可以从两堆火柴的任何一堆中拿走任何(整数)数量的火柴。只要任何一堆火柴中尚有剩余的火柴,则要求每个局中人拿走一定数量且不能空手而返,但是每次只能从其中一堆中取火柴。 在“拿子游戏”Nim中,无论哪个局中人,取走最后一根火柴者都算赢。在Marienbad中,谁难走最后一根火柴者就算输。第2页,共85页,2022年,5月20日,5点49分,星期二感兴趣问题 在拿子游戏中,任何一个
2、人是否存在赢的策略。也就是是否存在这样的策略,只要在你的轮次中使用它,不管以后游戏如何进行,可以保证你稳操胜券?游戏分析 如果两堆火柴数目相同,称为两堆平衡,则局中人2存在赢策略。反之,如果两堆不平衡,则局中人1存在赢策略。对于平衡问题,局中人2仿照局中人1在另外一堆中拿子;对于非平衡问题,局中人1通过第一次拿子,使得两堆平衡,然后,回到平衡问题,局中人2和1的位置置换。Nim游戏思考Nim拿子游戏是否存在其他策略?如果火柴堆不止两堆,你认为会发生什么?试试Marienbad游戏,找出赢的策略。第3页,共85页,2022年,5月20日,5点49分,星期二游戏2投票 假设有两个竞争议案A与B;3
3、个议员,投票人1,2和3,他们投票决定是否通过这些议案。结局可能会有两个:要么通过A和B中的一个,要么议员们没有通过任何一项议案(延缓而代之以现行法律)。投票过程如下:首先,让议案A和B相互竞争;然后,竞争的获胜方与原法律相互竞争,为了简便,我们将原来的法律成为“都不赞成”(N)。在两轮投票中的每一轮,获多数的法案胜出。三个议员在可适用的选择中有如下偏好:投票人1:AN B投票人2:B A N投票人3:N A BA B:喜欢议案A甚于喜欢议案B第4页,共85页,2022年,5月20日,5点49分,星期二感兴趣问题 如果三个议员都“真实”投票,谁将胜出;如果存在“不真实”投票,那么谁将胜出第一轮
4、,第二轮呢?游戏分析 比较系统的分析方法:首先,注意到在第二轮投票中每个投票人有可能真实地投票。这是因为如果议员对不太喜欢的议案投赞成票,那就可能让他通过,因为这显然比阻止它通过更加糟糕(为什么?)。因此,如果A在第一轮中胜出,最终结局就是A,而如果B在第一轮胜出,最后结局是N。每个理性的议员都了解这点。所以,在第一轮关于A和B的竞争投票时,他们实际上是在A和N之间投票。因而,投票人1和投票人2在第一轮中投票给A,于是A最终被选中。思考策略投票和真实投票有什么不同?结局呢?第5页,共85页,2022年,5月20日,5点49分,星期二游戏3囚徒困境 两个囚徒,Calvin和Klein被怀疑犯罪而
5、被逮捕拘押。地方检察官Kash分别同他们谈话,告诉他们,她或多或少有点证据证明他们有罪。但如果他们认罪的话,就可以使她的工作稍微容易一些(同时也帮助了他们自己)。她对每个人提供如下政策:“认罪,并为政府翻出证据来,并揭发另一个同伙你将用不着服刑。当然,如果另外一个同伙也认罪的话,你的认罪价值将大大减少。出现这种情况,你们每个人将服刑5年。但是,如果你拒绝认罪,就要意识到我们将以另外一个同伙的招供而逮捕你,于是你将服刑15年。在我们不能够从你们任何一个那里得到认罪的情况下,我们将有足够的证据将你们送进监狱1年。”最古老的博弈论问题之一第6页,共85页,2022年,5月20日,5点49分,星期二问
6、题的表示形式:Calvinklein认罪不认罪认罪5,50,15不认罪15,01,1 上表中各项为囚禁期限。对于(认罪、不认罪)项的第一个数字表示Calvin认罪,而klein不认罪时分别对Calvin的判刑期限(0年)与对klein的判刑期限(15年)。由于这些都是囚禁期限,因此较小的数优于较大的数。游戏分析 如果两个人合作,最好的结果就是(不认罪,不认罪)。问题是,在押期间,两人无法合作,只能看成两个独立的理性人。经过分析得到最后结果为(认罪,认罪)。第7页,共85页,2022年,5月20日,5点49分,星期二思考1 两个大国的军备竞赛(削减军费,增加军费);争执的双方(离婚、劳务争端)等
7、(请律师、不请律师)。思考2利用囚徒困境,说明个体理性和集体理性之间的矛盾。思考3看看下面的例子是不是囚徒困境?价格战,恶性广告竞争,初等和高等的应试教育.思考4在囚徒困境模型中,如果把服刑时间修改一下,会有什么结果?又在这个博弈中,如果嫌疑犯存在行动的先后顺序,会怎么样?第8页,共85页,2022年,5月20日,5点49分,星期二博弈要素playersstrategies 参与人或者局中人,局中人可以是个体,也可以是团体,自然;局中人是一个理性决策人:以自己的利益最大化作出行动选择。局中人可以是两个,也可以是多个,记I=1,2,n 策略,例如,乒乓球团体比赛的运动员出场顺序就是一个策略;这里
8、所说的策略,是局中人在竞争中,为了对抗其他局中人所采取的一个完整的办法,并不是某一步采取的办法。例如,下象棋的“当头炮”,只能算是策略的一个组成部分,并非完整的策略。局中人所有的策略的集合,就构成了该局中人的策略集合,可以是有限的,也可以是无限的。用Si表示第i个局中人的策略集合。每个局中人都从自己的集合中选出一个策略,得到一个博弈结果,这样的每个局中人的策略放在一起,就构成一个局势。第9页,共85页,2022年,5月20日,5点49分,星期二payoffs 支付函数,或者叫赢得函数,表示可能的对局结果。支付函数定义在局势集合上的函数。用Hi表示第i个人的支付函数。对策模型(博弈模型)对策过程
9、 每个局中人都从自己的策略集合中选出一个策略s(i),s(i) Si,就组成一个局势把局势带入每个人的支付函数中,获得Hi(s)。第10页,共85页,2022年,5月20日,5点49分,星期二案例1 有两个人决斗,这两个人从相距1的地方同时起步,迎面走向对方,只能前进,不能后退,他们在决斗开始后任何地点都可以开枪,每个人只有一发子弹,如果一个人开了枪而没有击中对方,那么他的对手知道他已用掉了仅有的一发子弹,就可以走到面对面的地方,然后开枪,一定击中对方,现开枪的当然可能先击中对方,但距离较远的时候击中的概率比较小,后开枪击中对方概率大,但是有可能先被对方击中。所以要选择合适的距离开枪。二人决斗
10、模型(支付函数连续,多元函数表达) 规定胜利者得到支付为1,败者支付为-1,双方同时开枪,都击中对方或者都没有击中对方的时候,支付都为0。第11页,共85页,2022年,5月20日,5点49分,星期二分析 局中人1的策略为x:距离x处开枪;局中人2的策略为y:距离y处开枪。策略集合分别为I=1,2;局中人集合策略集合局势集合xyS1S2011局势集合一个局势点局中人1的策略局中人2的策略第12页,共85页,2022年,5月20日,5点49分,星期二支付函数局中人1局中人2第13页,共85页,2022年,5月20日,5点49分,星期二案例2布什上校(支付离散,矩阵表达) 在一场战斗中,布什上校有
11、两个步兵团可以自由分派到一对地点(1,2 1,3 1,4 2,3 2,4 3,4);而萨达姆上校只有一个步兵团派往四个地点(1,2,3,4)的任何一处。如果一个团到达无人争夺的地点,那么它就赢得这一处;如果敌方一个团也来到同一地点,那么它们将进行战斗而陷入困境。赢可以获得一个单元效用;陷入困境则产生零效用。萨达姆布什1,21,31,42,32,43,410,10,10,11,21,21,220,11,21,20,10,11,231,20,11,20,11,20,141,21,20,11,20,10,1双支付矩阵第14页,共85页,2022年,5月20日,5点49分,星期二 占优策略型对策Cal
12、vinklein认罪(a1)不认罪(a2)认罪(b1)5,50,15不认罪(b2)15,01,1案例分析囚徒困境 如果Calvin是个理性的个体,他的策略有“认罪”和“不认罪”两种,如果他选择不认罪,Klein不管认罪不认罪,他的判刑都比Calvin年限少,故对Calvin不利。所以Calvin认为他的两个策略中,“认罪”策略比“不认罪”策略好。同样的分析,Klein也会认为“认罪”比“不认罪”策略好。所以,最后,两个囚徒的合理的博弈结果应该是“认罪”,“认罪”,各判5年。这里我们记:“认罪”优于“不认罪”b1b2,a1 a2第15页,共85页,2022年,5月20日,5点49分,星期二又记:
13、H1(a1,b1)=5=a11 H1(a1,b2)=15=a12 H1(a2,b1)=0=a21 H1(a2,b2)=1=a22则即于是,得到如下定义注意:数字越小越优第16页,共85页,2022年,5月20日,5点49分,星期二 不管其他局中人选择怎样的策略,局中人i的策略si盈利严格大于他的其他任何其他策略的盈利,即强优策略 对一切 和 都成立。则称策略si强优于局中人i的所有其他策略。其中,s-i表示除了局中人 i 外的其他所有局中人的策略向量。 在囚徒困境中,局中人1的策略a1=“认罪”,就是他的所有策略的强优策略;同理,局中人2的策略b1=“认罪”也是他的所有策略中的强优策略。所以,
14、最后局势为(a1,b1)。第17页,共85页,2022年,5月20日,5点49分,星期二思考1 在博弈对策中,一个局中人如果存在强优策略,是否存在两个或者两个以上的强优策略?(利用定义判别)思考2 分析案例2,布什上校和萨达姆上校是否分别存在强优策略? 如果局中人i存在强优策略si,那么他的其他策略si都称为强劣策略。对于局中人i来说,没有理由选择强劣策略。对于局中人i来说,并不是强优策略都存在,比如:左 右顶底局中人1局中人2第18页,共85页,2022年,5月20日,5点49分,星期二弱优策略 如果不管其他局中人选择怎样的策略,局中人i的策略si盈利不小于他的其他任何其他策略的盈利,即对一
15、切 和 都成立。则称策略si弱优于局中人i的所有其他策略。其中,s-i表示除了局中人 i 外的其他所有局中人的策略向量。左 右顶底局中人1局中人2强优策略和弱优策略统称优策略。第19页,共85页,2022年,5月20日,5点49分,星期二非劣策略 对于局中人i的策略si#和si*,若对于其他局中人的所有策略向量s-i,有而对于其他局中人的某些策略向量s1-i,有 则称si#为局中人i的劣策略。如果一个策略不是劣策略,则称为非劣策略。前面所讲的优策略是非劣策略的特殊类型。 一般来说,局中人i有许多策略。下面两件事必有一件真: (1)可能存在一个优策略;(2)必然存在一个非劣策略。第20页,共85
16、页,2022年,5月20日,5点49分,星期二案例3(伯川德)价格竞争模型 假设双寡头垄断市场中的两个公司都可以开出三个价格中的任何一个高、中、低。不管哪个公司开出较低的价格就可以得到整个市场。如果两个公司开价相同,则他们将平分市场。他们的价格局势造成的收益矩阵如下:公司1公司2高中低高6,60,100,8中10,05,50,8低8,08,04,4利用优策略概念,求解两个公司的最终局势(价格对)。分析由盈利矩阵可以观察出,对于两个公司,“高”价格策略劣于“中”价格策略,于是,每个公司都没有理由选择这个“差”策略。于是“剔除”这个策略,得到:第21页,共85页,2022年,5月20日,5点49分
17、,星期二公司1公司2中低中5,50,8低8,04,4 从这个新的盈利矩阵可以看出,对任何一家公司,“低”价格策略优于“中”价格策略,故最后两家公司的有效局势为(低,低)。思考1在一个没有品牌的市场(产品完全一样)旁边有一个价格低的小商贩,你认为顾客趋向如何?思考2举例分析两家相邻的食品店和折扣家电的商店的情况。第22页,共85页,2022年,5月20日,5点49分,星期二案例4 奥斯卡和金棕榈共阻一套房间。他们对整洁优美有明显的不同观点,从而,对于是否愿意花费必要的时间打扫房间也存在不同的看法。假使每周至少花费12小时的工作才能保持住所有的干净,至少9小时的清洁工作才能使得房间过得去,而少于9
18、小时则房间肮脏不堪。又假使两个人都可以奉献3、6或9小时进行打扫。奥斯卡和金棕榈都同意过得去的适宜住房有效值为2。但是在清洁住所的效用值方面两个人看法不一致:奥斯卡认为它值10个效用单位,而金棕榈认为它值5。他们两关于肮脏房间的令人不愉快性也有不同的估价:奥斯卡认为它值-10个有效单位,而金棕榈认为它值-5。每个人的盈利是由来自干净房间的有效值减去他打扫房间花费时间数。例如,奥斯卡和金棕榈都花费6小时打扫房间,干净的房间使得奥斯卡获得盈利4,而金棕榈获得盈利-1。古怪的一对第23页,共85页,2022年,5月20日,5点49分,星期二分析奥斯卡金棕榈3小时6小时9小时3小时-13,-8-1,-
19、47,-46小时-4,-14,-14,-49小时1,21,-11,-4根据提示,计算得到如下盈利矩阵:首先,由于金棕榈懒虫认为每周花费9个小时打扫房间是不可行的(都是-4,这简直是发疯!);这个策略劣于每周6小时,故剔除这个策略,得到如下关联盈利矩阵:奥斯卡金棕榈3小时6小时3小时-13,-8-1,-46小时-4,-14,-19小时1,21,-1第24页,共85页,2022年,5月20日,5点49分,星期二 对于这个新的盈利矩阵来说,每周工作3小时是劣策略,故剔除这个策略,得到:奥斯卡金棕榈3小时6小时6小时-4,-14,-19小时1,21,-1 对于这个新的盈利矩阵,对奥斯卡来说,6小时是劣
20、策略(爱干净),故奥斯卡选择9小时扫地,这样,对于金棕榈来说,6小时又是劣策略,故最后局势为(9小时,3小时)。(或者6小时是金棕榈的劣策略,故金棕榈不会选择6小时,而选择3小时,对于奥斯卡来说,6小时又成了劣策略,故最后局势仍然为(9小时,3小时)。第25页,共85页,2022年,5月20日,5点49分,星期二案例5选举联合国秘书长 联合国1996年12月选举19972001年5年期的联合国秘书长。候选人之一是来自埃及的波.波.加利(Boutros Boutros-Ghali),他是19921996年期间的秘书长。他在寻求连任,却一开始面临来自美国政府的强烈反对(1996年夏季末,美国政府宣
21、布反对加利,美国政府说加利在联合国内部没有足够地消除浪费以及管理上的失误。政治观察家们推测美国的决策大多按照总统的政治主张做出的。克林顿总统(反对加利连任的共和党占上风)的选举即将来临)趋向于妇女秘书长,提及的有可能性的妇女为挪威首相布鲁特莱特(Glo Harlern Brundtland,11月辞去首相职务,全力竞选秘书长)。但是,联合国的非洲成员希望有第二任非洲秘书长。另一个非洲人-并且是由丰富的联合国经验的人-来自加纳的安南(Kofi Annan),不久他的名字在竞选中浮出水面。第26页,共85页,2022年,5月20日,5点49分,星期二博弈分析局中人美国1非洲2博 弈过 程 首先美国
22、投票并着手否决三个候选人A(安南)、B(加利)、H(布鲁特莱特)中的一个,然后,非洲投票否决两个剩下候选人中的一个。且选举开始知道两个局中人的偏好顺序:美国:HAB非洲:BAH盈 利如果最中意的人当选的话,盈利为1,如果较中意的人当选,盈利为0,不喜欢的人当选的,盈利为-1。第27页,共85页,2022年,5月20日,5点49分,星期二策 略局中人1:A B H局中人2:有三个分量(X,Y,Z),X表示,如果局中人1否决A,局中人2的否决;Y表示剧中人1否决B,局中人2的否决;Z表示局中人1否决H,局中人2的否决。那么,局中人2的策略为:HAA HHA HAB HHB BAA BHA BAB
23、BHB博弈矩阵为:12HAAHHAHABHHBBAABHABABBHBA-1,1-1,1-1,1-1,11,-11,-11,-11,-1B1,-10,01,-10,01,-10,01,-10,0H-1,1-1,10,00,0-1,1-1,10,00,0第28页,共85页,2022年,5月20日,5点49分,星期二 局中人2(非洲)的偏好是B优于A,A优于H,故局中人2的策略HHA优于其它任何策略(不管局中人1(美国)用哪一个策略),也就是如果加利有资格的话,非洲将会否决其他任何候选人。另外一方面,从矩阵中可以看出,HHA这一列(局中人2的盈利)不小于任何一列,故也决定了HHA为弱优策略。这样上
24、述博弈矩阵变成:12HHAA-1,1B0,0H-1,1 这是可以看出,局中人1(美国)否决A或者H是劣策略,(也就是说,否决安南或者布鲁特莱特,为加利打开了大门)。所以,最后美国在第一轮否决加利,第二轮非洲否决了布鲁特莱特。折中候选人安南就被选为秘书长。第29页,共85页,2022年,5月20日,5点49分,星期二占优策略剔除法说明在第I轮,局中人i的劣策略集合表示为 理性的局中人都不会采用劣策略,对每个局中人这个说法都成立。在第II轮,局中人i可以在留给自己的策略集合Si-Di(I)中作进一步的决定,看看他们中间是否有新的策略成了劣策略。在采用剔除法剔除劣策略构成了Di(II)。这样不断循环
25、下去,直到出现占优策略为止。算例案例3、案例4、案例5的计算第30页,共85页,2022年,5月20日,5点49分,星期二12左中心右顶4,51,65,6中间3,52,55,4底2,52,07,012中心顶1,6中间2,512左中心顶4,51,6中间3,52,5底2,52,0局中人2的右策略与中心策略相比,是劣策略局中人1的底策略与中间相比,是劣策略第一轮剔除结果2I212左中心顶4,51,6中间3,52,5112中心中间2,5第二轮剔除结果中心左剔除过程演示壹策略剔除法第31页,共85页,2022年,5月20日,5点49分,星期二12左中心右顶4,51,65,6中间3,52,55,4底2,5
26、2,07,012左中心右顶4,51,65,6中间3,52,55,4底2,52,07,012左中心右顶4,51,65,6中间3,52,55,4底2,52,07,0剔除过程演示贰划线法给定局中人2的每个策略,对局中人1的相应盈利最大值划线再给定局中人1的每个策略,对局中人2的盈利最大值划线合成两个值都划线的对应的策略就是两个局中人的最佳策略。第32页,共85页,2022年,5月20日,5点49分,星期二结果与剔除顺序有关 当策略之间的劣与优是强(非弱)的时候,最后结果与剔除顺序没有关系,但是当策略之间的劣与优是弱的(非强)的,则最后结果与剔除顺序有关。案例6 一个市场存在一个垄断企业,另一个新的企
27、业希望进入这一市场,垄断者为了保持自己的垄断地位,需要对进入者进行阻挠。这种对策中,进入者有两种策略:“进入”与“不进入”;垄断者也有两种策略:“默许”与“阻挠”。他们的盈利函数如下:进入者12垄断者默 许阻 挠进 入40,50-10,0不进入0,3000,300第33页,共85页,2022年,5月20日,5点49分,星期二12默 许阻 挠进入40,50-10,0不进入0,3000,30012默 许阻 挠进入40,50-10,0不进入0,3000,30012默 许阻 挠进入40,50-10,0不进入0,3000,300划线法12默 许进入40,50不进入0,30012默 许进入40,50剔除法
28、 根据划线法,该问题有两个最后局势: (进入,默许)和(不进入,阻挠)。但是,根据根据剔除法,我们根据占优策略剔除劣策略,而只能得到一个最后局势。所以今后在求解占优策略的时候,最好用划线法。第34页,共85页,2022年,5月20日,5点49分,星期二纳什均衡博弈论的第一个重量级概念最优反应策略 局中人i的策略si*与其他局中人的策略向量s-i*,如果他们满足: 则称si*是关于s-i*的最优反应。也就是假定其他局中人取定策略组合s-i*,那么局中人i采用的最好策略就是si*。在对策中使用最优反应策略,必须有两个假设: 每个局中人必须采用自己猜测其他局中人的策略组合的最优反应策略。这种猜测必须
29、是正确的。第35页,共85页,2022年,5月20日,5点49分,星期二案例7豪泰林竞争模型 假定有一个长度为1的线性城市,消费者均匀分布在这个区间内,有两个商店(工厂)位于这个城市的两端,出售同质产品,记商店1在x=0处,商店2在x=1处,每个商店的单位成本为c。消费者一单位的交通成本为t,他们需要一个单位的商品,而且为这一个单位商品最多愿意支付s。两家商店的价格如何?12p1p2xD1(p1,p2)=xD2(p1,p2)=1-xD为需求函数p1+txp2+t(1-x)实际支付分析第36页,共85页,2022年,5月20日,5点49分,星期二需求分界点需求函数对策支付函数(盈利)第37页,共
30、85页,2022年,5月20日,5点49分,星期二求解最优反应策略(定价)给定p2*,对p1求偏导,得到给定p1*,对p2求偏导,得到解释1 商店1猜测商店2采用(价格)策略p2*,那么商店1的最优反应策略是采用(价格)策略p1*(也就是说,如果商店1采用其它策略,他的盈利就会减少);同样,商店2猜测商店1采用(价格)策略p1*,那么,商店2最优反应策略是采用(价格)策略p2*。也就是说,p1*和p2*互为最优反应。第38页,共85页,2022年,5月20日,5点49分,星期二解释2 商店1和2的最优反应是建立在外部环境给定的情况下的最优反应。这两个最优反应需要根据外部环境参数变化而变化,因为
31、 p1*=p2*=c+t当c和t发生改变的时候,两个最优反应都相应发生改变。解释3 当c和t增加超过一定限度,即总支付超过了消费者的支付能力(最多愿意支付),那么,消费者就从商店1和商店2流失。由于即c和t也应该受到消费者的支付能力的约束!第39页,共85页,2022年,5月20日,5点49分,星期二纳什均衡 在案例7中,局中人(两个商店)分别猜测对方会用策略(价格)p1*和p2*,谁偏离了这个策略,都会吃亏。所以,局中人都有没有偏离(p1*,p2*)的动机。也就是说,在这个对策中,局中人分别选择策略(p1*,p2*)是稳定的。称这样的策略向量(p1*,p2*)为纳什均衡。策略向量s*=(s1
32、*,s2*,sn*),如果满足条件:则称s*是纳什均衡。 也就是说,如果局中人i正确的猜测其它局中用人的策略向量为s-i*,那么,他的最优反应是si*,如果偏离了这个策略,他的盈利就会下降。同样的道理,每个局中人都有这样的猜测,那么,谁都不会偏离这个均衡策略向量。即纳什均衡具有稳定性。第40页,共85页,2022年,5月20日,5点49分,星期二思考1局中人都存在强优策略,那么,这种由强优策略组成的策略向量是不是纳什均衡?思考2纳什均衡是唯一的吗?利用弱优策略说明。思考3是不是所有的对策都有纳什均衡?思考4局中人都有多个策略,他们怎么达到纳什均衡?想一下在商业竞争中,为什么存在商家谈判?思考5
33、对于弱优策略型,用剔除法会不会剔除纳什均衡?第41页,共85页,2022年,5月20日,5点49分,星期二纳什均衡的补充说明行动指令 纳什均衡s*犹如行动指令。如果这个策略向量是局中人提出的,没有一个人愿意采用其它策略,那么它就是一个稳定的指令。廉价磋商 局中人在通过实际博弈过程中通过讨论他们的选择来进行协调。只有在纳什均衡上达成的协议才能够被所有局中人付诸行动;在非纳什均衡上达成的任何协议,至少有一个人不忠于这样的协议。理性自省 每个局中人可能自问他期望的博弈结局将是什么,某些候选的结局似乎不合理,因为有些局中人可以比他们正在做的获益更好,也就是说,可能有局中人没有采用最优反应。当处在纳什均
34、衡的时候,没有一个人愿意在其他人都选择最优反应的时候犯错误。第42页,共85页,2022年,5月20日,5点49分,星期二聚焦点 纳什均衡形成了局中人的聚焦点。也就是说,纳什均衡比其他策略向量更加引人注目,因为它具有异于其他策略向量的特点,那就是纳什均衡下,每个局中人都是最优反应。例如 在两个人面前摆着一块蛋糕,让这两个人各自默写出一个0到1的分法比例值,即自己愿意占这块蛋糕的比例。当两个人想法相等且可行的时候,他们就可以分享这块蛋糕,否则,他们将一无所获! 在这个问题中,两个人都会聚焦到1/2这个分配比例上,所以(1/2,1/2)是一个合理的纳什均衡。当然这里有很多纳什均衡,但是,人们最容易
35、想到的就是这个分法就是各占一半。第43页,共85页,2022年,5月20日,5点49分,星期二案例8动物王国里的纳什均衡 动物为了争夺配偶、稀缺生活资源、后代的繁衍资源而发生战斗,一旦发生争斗,战斗的代价十分昂贵,比如失去臂或者腿甚至生命。生长在墨西哥的荒漠的荒漠蜘蛛,雌蜘蛛在网里产卵,由于这样的网很难建搭,因此,网是稀少的。雌蜘蛛经常为了争夺已有的网而争斗,或者接近争斗;两只雌蜘蛛并排在网前,猛烈地摇晃蜘蛛网。当一只蜘蛛撤退下来而留下另外一只单独占有蜘蛛网时,冲突就结束了。生物学家们试图解释两个特定的事实:多数冲突无需战斗而得到解决。冲突胜利者常常从失败者那里获得“维持生命”的必须品(作为奖
36、励)。当奖励较高时候,战斗的可能性更大!第44页,共85页,2022年,5月20日,5点49分,星期二利用已经学到的知识,建立如下博弈矩阵:蜘蛛1蜘蛛2认输(c)战斗(f)认输(c)5,50,10战斗(f)10,0 x,x 其中,拥有一张蛛网的价值是10,如果两只蜘蛛战斗,肉体损伤超过了拥有蛛网的价值,那么,x0。?这个博弈的纳什均衡是什么呢?X0蜘蛛1蜘蛛2认输(c)战斗(f)认输(c)5,50,10战斗(f)10,0 x,x 这时候,唯一的纳什均衡为(战斗,战斗),也就是说,较高的奖励导致了更多的战斗! 不发生战斗时,我们如何预测哪一个纳什均衡会发生呢? 研究发现:赢得蜘蛛网与两件事情有关
37、占有状态和体重。如果体重大致相当,占有者保住蛛网;如果体重相差悬殊(通过摇晃蛛网的剧烈程度可知),体重大的占有蛛网,另外一只逃走!这时候,对蜘蛛1,有x0,这样的话,蜘蛛1体重小,而蜘蛛2的体重大,蜘蛛2因为战斗蒙受的损失小一些,故蜘蛛1逃走,蜘蛛2正想打架。第46页,共85页,2022年,5月20日,5点49分,星期二案例9古诺双头卖主垄断模型 两家公司以同类产品(从顾客的角度看,两家公司的产品相差不多,或者无法区别!)在市场上竞争。两家公司面临单纯的需求曲线: P=a-bQa0,b0,Q=Q1+Q2是公司1和公司2的总产量。 现在假设每家公司的成本函数相同,并且边际成本是常数c0。问:每家
38、公司将生产多少?(1) 一家公司对另外一家公司的产量的预测;(2) 然后决定自己生产的数量。(公司1可以自问:公司2将要生产Q2*,我应该生产多少)步骤:第47页,共85页,2022年,5月20日,5点49分,星期二模型分析总产量Q1+Q2*市场价a-b(Q1+Q2*)总成本总收益cQ1总利润两家企业竞争模型QP市场供给量市场价格a第48页,共85页,2022年,5月20日,5点49分,星期二公司1对公司2的产量Q2*的最优反应函数:公司2对公司1的产量Q1*的最优反应函数:Q1Q2(a-c)/2b(a-c)/b(a-c)/b(a-c)/2bR1R2(Q1*,Q2*)纳什均衡第49页,共85页
39、,2022年,5月20日,5点49分,星期二结论生产数量产品价格公司利润例如P=10-Q,c=1349古诺纳什均衡第50页,共85页,2022年,5月20日,5点49分,星期二思考1在案例10种,两家公司联合决决定产量(卡特尔模型),其结果会怎么样?利用案例10的结果对比。Max L(Q1,Q2)=a-b(Q1+Q2)-c(Q1+Q2)卡特尔模型生产数量产品价格公司利润例如P=10-Q,c=12.255.510.125第51页,共85页,2022年,5月20日,5点49分,星期二思考2 针对今日之欧佩克(OPEC,石油输出国组织),利用布诺纳什均衡分析,为什么近期欧佩克乐意投资新的油田开采和提
40、高价格?(与非OPEC博弈的囚徒困境)思考3 留意一个国家的主要产品的生产,是不是可以用古诺模型解释?(例如,汽车、飞机、军火、石油)思考4 在一个卡特尔组织内,有组织成员存在欺骗:私自提高产量,会有什么后果?(譬如,欧佩克和非欧佩克之间)思考5 古诺模型中,反应函数曲线倾斜向下(递减,对手增加,自己减少),每个公司有没有占优策略。如果有,反应曲线应该是什么形状?()思考6 如果,古诺模型的局中人不止两个(N个公司),或者需求曲线不是直线型,你能够将计算过程推广并得到结论吗?思考7 你能够处理处理公司1和公司2两个决策时间不一致所带来的问题吗?第52页,共85页,2022年,5月20日,5点4
41、9分,星期二案例10智猪博弈搭便车问题 笼子里有两只猪,一只比较大,一只比较小。笼子很长,一头有一个按钮,另一头是饲料的出口和食槽。按一下按钮,将有相当于10个单位的猪食进槽,但是按按钮后跑到食槽所需付出的“劳动”,加起来相当于2个单位的猪食。问题是按钮和食槽分置在笼子两端,按按钮的猪付出劳动跑到食槽的时候,坐享其成的另一头猪早已吃了不少。如果大猪先到,大猪呼啦啦吃到9个单位,小猪吃到1个单位;如果同时到达,大猪吃到7个单位,小猪吃到3个单位;如果小猪先到,小猪可以吃到4个单位,大猪吃到6个单位。问?小猪和大猪的决策结果如何?博弈矩阵大猪小猪按等按5,14,4等9,-10,0第53页,共85页
42、,2022年,5月20日,5点49分,星期二博弈求解大猪小猪按等按5,14,4等9,-10,0纳什均衡(按,等) 主要消费体大猪起到主动作用,次要消费体小猪坐享其成。这就是搭便车问题。思考1股份制企业里,为什么大股东挑起监督经理的重任?思考2大国与小国结盟,为什么国防支出主要是大国承担?思考3在我国,生产化学药品有关的企业实力相当的企业很多?能否把化学药品的排污等问题交给企业来管理?第54页,共85页,2022年,5月20日,5点49分,星期二思考4在我国,教育属于公共资源,是否存在搭便车的现象?举例说明(教育收费,各类不相关费用的发生)思考5为什么在我国,主要河流的两岸企业的污染屡禁不止?思
43、考6三家居民住在一起,公用一条多年失修的道路。其中一家较富裕,另外两家很拮据。你认为这条道路会有人修理吗?是谁修?思考7能否用搭便车问题解释欧佩克和非欧佩克成员之间的价格、产量、利润之间的博弈问题。思考8贫富差距较大的今天的中国,为什么公共形象的城市建设发展如此之快?而公共交通、公共教育、公共医疗等发展如此之慢?第55页,共85页,2022年,5月20日,5点49分,星期二案例11公共问题公共资源悲剧公共资源的两个特征:(几乎)人人都享用,限制享用(环境问题)是行不通的和不可取的(公园问题)。资源枯竭,使用资源人越多,使用资源越密集,未来资源就越少。 有大小为y0的公共资源。两个局中人的每一个
44、都可以提取一个非负量c1和c2用于消费,假设c1+c2y。问题1资源只考虑一个周期均衡分配就是c1=c2=y/2。第56页,共85页,2022年,5月20日,5点49分,星期二2资源只考虑2个周期第1周期c1+c2第2周期y-(c1+c2)合理假设消耗资源量x,带来的效用为ln(x)分析问题在第2个周期,剩余资源每个局中人分一半。于是局中人1在假设局中人2第一周期消费资源量为c2*基础上,最优反应就是取c1,使得效用最大:第57页,共85页,2022年,5月20日,5点49分,星期二同理,局中人2的最优反应为局中人1的最优反应为c1c2R1R2y/2yy/2yo求解均衡 也就是第一个周期每人消
45、费y/3单位,第二个周期每人消费y/6单位。每个人的效用为ln(y/3)+ln(y/6)。第58页,共85页,2022年,5月20日,5点49分,星期二思考1资源合理利用(社会最优,刚才的是个人最优)情况怎样?这种社会最优与个人最优的区别在那里?资源的分配方式有什么不同? 在个人最优情况下第一周期攫取2/3消费,留下1/3;在社会最优情况下,第一周期消费1/2,留下1/2。故对于公共资源,我们正在经历一场悲剧!思考2第59页,共85页,2022年,5月20日,5点49分,星期二思考4在公共资源模型中,如果局中人增加到N个,第一周期消耗情况怎样?留下多少到第二周期?思考3发生公共悲剧的原因是什么
46、? 局中人1消减一个单位资源留到第2个周期,但是,在第2个周期,由于平分的作用,他只得到其中的一半,另外一半给了对手!所以,每个人都不肯在第一个周期少消耗!现在应该更加明白公共资源的悲剧!第60页,共85页,2022年,5月20日,5点49分,星期二思考5为什么人们在消费各种公共资源时,如果各取所需,留给下一代的越来越少?而在社会优化分配中,消耗一半,留下一半给后代。也就是说,当一种资源成了公共资源的时候,还能够实行各取所需吗?思考6全球转暖的温室效应是否属于公共资源悲剧?思考7在我国,利用电话线的网络快车(ADSL),包月租或者包年租的时候,每个人都想把网络打开挂在网络上(在线游戏的激励),
47、这样是不是公共悲剧?你家里的网络快车是否真的快?思考8如何避免悲剧的发生?公共资源分割私有化行吗?比如环境?增加使用税?(搭便车)行吗?比如国家图书馆?当税收使得人们的享受公共资源的边际效用为零的时候,税收合理吗?第61页,共85页,2022年,5月20日,5点49分,星期二混合策略丈夫妻子FOF3,10,0O0,01,3引例Battle of the sexes 丈夫和妻子试图决定是去欣赏歌剧还是去看足球。他们一个喜欢足球,一个喜欢歌剧。同时,他们中的每个人都宁愿和配偶在一起而不愿单独出行。博弈矩阵博弈求解丈夫妻子FOF3,10,0O0,01,3 博弈的纳什均衡为夫妻两个要么一起看足球,一起
48、欣赏歌剧!情侣博弈第62页,共85页,2022年,5月20日,5点49分,星期二 对于这个温馨的博弈,丈夫表面上看起来只有两个选择,(a)足球;(b)歌剧。实际上,丈夫可以按照如下来决策:抛一枚硬币,如果它出现正面,就去看足球,如果出现反面,就去看歌剧。虽然,抛硬币结果,最终还是选择足球或者歌剧,没有扩大你的策略集合。但是,在开始选择的时候,硬币的结果没有出来,妻子也不敢肯定选择足球,也不能肯定选择歌剧。那么这个选择就明显不同于(a)和(b)这两个策略,这样就多出了一个策略(c)称之为混合策略。那么(a)和(b)以及我们前面讲的策略都称为纯策略。 对于这个混合策略,不同的生成方式,就构成了不同
49、的混合策略:抛硬币抛一枚硬币,正面和反面出现等可能,两个事件发生的概率都为1/2,也就是说丈夫可以按照概率(1/2,1/2)取(足球,歌剧),生成混合策略c1第63页,共85页,2022年,5月20日,5点49分,星期二抓阄 用三张相同的纸,分别写上1、2、3。然后折起来混合,事前约定,抽到1、2,就去看歌剧,如果抽到3,就去看足球。然后让妻子随机抽一张,决定丈夫的行动。这样,丈夫就按照概率(1/3,2/3)取(足球,歌剧),生成混合策略c2。摸球 将3个红球和两个黑球放在盒子里,约定取出红球去看歌剧,取出黑球去看歌剧。然后让妻子从盒子中随机取一个球决定丈夫的行动。丈夫就按照概率(2/5,3/
50、5)取(足球,歌剧),生成混合策略c3。 如法炮制,我们可以生成无穷多混合策略。丈夫可以按照任意概率(p1,p2)取(足球,歌剧),只要满足p1+p2=1,p1,p20。当p1=1或者p2=1时,就成了前面的纯策略。归纳第64页,共85页,2022年,5月20日,5点49分,星期二混合策略 假设局中人i有M个纯策略,s1,s2,s3,sM。对于在纯策略s1,s2,s3,sM上的任意分布:纯策略s1s2s3sMpip1p2p3pM满足则称这个概率向量pi=(p1,p2,pM)为局中人i的混合策略。 局中人采用混合策略后,局中人的盈利函数就不能够简单由局势来决定。必须通过期望盈利来衡量混合策略的好
51、坏。第65页,共85页,2022年,5月20日,5点49分,星期二期望盈利的计算第一步,对每一个纯策略的盈利采取对该策略的概率加权;第二步,把加权了的盈利合计在一起。算例丈夫以(1/3,2/3)取(足球,歌剧),妻子采用纯策略。情侣博弈妻子歌剧足球(足球,歌剧)(足球,歌剧)(1/3,2/3)丈夫3,00,11 也就是说,丈夫的期望盈利依赖于妻子的选择。而妻子的盈利仍然按照前面的计算。因为她还不知道丈夫的选择机制如何?第66页,共85页,2022年,5月20日,5点49分,星期二 丈夫以(1/3,2/3)取(足球,歌剧),妻子采用混合纯策略(1/2,1/2)取(足球,歌剧)。则丈夫的期望盈利为
52、2丈夫妻子足球歌剧概率足球(3,1)(0,0)1/3歌剧(0,0)(1,3)2/3概率1/21/2 注意到妻子和丈夫的选择相互独立(互不影响),那么按照离散随机向量的数学期望的计算方法有:丈夫盈利妻子盈利第67页,共85页,2022年,5月20日,5点49分,星期二3混合策略的期望盈利的计算定义1 假设局中人i采用混合策略(p1,p2,pM)。又假如其他局中人采取纯策略s-i#,那么局中人i的期望盈利等于:定义2 如果其他局中人也采用混合策略;假如,以概率q取s-i#,而以概率1-q取策略s-i*,那么局中人i的期望盈利为:第68页,共85页,2022年,5月20日,5点49分,星期二案例12
53、期望盈利的计算无名博弈局中人1局中人2M1M2Rp1U4,22,43,10.6D1,42,03,10.4p20.20.40.4 假设局中人1以概率0.6和0.4取策略U和D,局中人2以概率0.2、0.4、0.4取策略(M1,M2,R)。则局中人1的期望盈利:先转化为离散联合分布律局中人1局中人2LM1M2RU1,04,22,43,1M2,42,02,22,1D4,21,42,03,1局中人1取策略M的概率为0,局中人2取L的概率也是0!第69页,共85页,2022年,5月20日,5点49分,星期二根据离散随机变量的数学期望计算方法计算期望盈利: H1=4 2 3;1 2 3;p1=0.6 0.
54、4;p2=0.2 0.4 0.4; EH1=p1*H1*p2EH1 = 2.5600 H2=2 4 1;4 0 1; EH2=p1*H2*p2EH2 =1.9200丈夫的期望盈利妻子的期望盈利 也就是说,给定了局中人i和j的混合策略pi,pj,局中人i的赢利函数Hi,那么局中人的期望盈利为期望盈利的矩阵和向量计算为:第70页,共85页,2022年,5月20日,5点49分,星期二混合策略的优势1混合策略可以优于某些纯策略局中人1局中人2LM1M2RU1,04,22,43,1M2,42,02,22,1D4,21,42,03,1 局中人1取混合策略(0.49,0.02,0.49),那么不管局中人2取
55、那一个策略,有 H1=1,4,2,3;2 2 2 2;4,1 2 3; p=0.49,0.02,0.49; H1(1,1:4)*p(1)+H1(2,1:4)*p(2)+H1(3,1:4)*p(3)ans = 2.4900 2.4900 2.0000 2.9800第71页,共85页,2022年,5月20日,5点49分,星期二通过计算可以看出,局中人1取混合策略(0.49,0.02,0.49)弱优于纯策略M。 同理,局中人2取混合策略(1/3,1/3,1/3,0),优于纯策略R。但是,对于局中人1来说,纯策略M并不劣于其它纯策略U和D;对于局中人2来说,纯策略R也不劣于其它策略L,M1,M2。也就
56、是说。利用混合策略,可以剔出劣策略。这样,局中人1和局中人2没有理由选择纯策略M和R。2 混合策略可以虚张声势,让对手增加对自己的不了解程度,增加对手对你的预测难度。且混合策略的最差情况会好于所有纯策略的最差情况。壁球游戏局中人1局中人2前进后退前面0.20.8后面0.70.3第72页,共85页,2022年,5月20日,5点49分,星期二 如果局中人1取前面的策略偏多,如果局中人2猜测到这个结果,那么,就前进居多,则局中人1的期望盈利偏少(特殊情况,局中人老是取策略1,局中人每次都猜对了,那么局中人1只能获得盈利0.2)。其实,这类博弈,就是关于对手的猜测的猜测的博弈。如果要想一个对手增加猜测
57、的难度,取混合策略(1/2,1/2),是最难猜测的!但是,不管局中人1选择什么样的混合策略,有个事实的结果: 也就是说,只要局中人1不取纯策略,而取混合策略(p,1-p),那么,期望盈利总好于取纯策略的最差情况!3 在策略型博弈中,当采用纯策略的时候,不存在纳什均衡,但是采用混合策略,就存在纳什均衡!第73页,共85页,2022年,5月20日,5点49分,星期二混合策略的纳什均衡案例13抛硬币模型12HTH1,-1-1,1T-1,11,-1这个博弈不存在纳什均衡,假设局中人1采用混合策略(p,1-p)取(H,T),局中人2采用混合策略(q,1-q)取(H,T)。局中人1猜测局中人2的混合策略为(q*,1-q*),那么,局中人1的期望盈利为第74页,共85页,2022年,5月20日,5点49分,星期二局中人2猜测局中人1混合策略(p*,1-p*),则局中人2的期望盈利为:绘制局中人1的期望盈利函数曲线 从图可以看出,局中人1的期望盈利随着q*变化而变化,当q*1/2时,局中人取纯策略H时,期望盈利最大。但是,在这两种情况下,局中人2有改变策略的动机。-110q*=1/2q*1/2q*0,比输掉比赛更加糟糕!)埃文斯密斯sns-1-b,1,1-1-b,1,1n-1,1,00,0,0IOC检测埃文埃文斯密斯sns1,-1-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024吊机安全监测与管理协议3篇
- 2024年度销售合同:某服装品牌与经销商签订的销售合同2篇
- 基于AI的2024年度网络安全服务合同
- 私人过路协议书范本
- 2024版个人场地出租协议
- 2024年度碳排放交易咨询与减排服务协议2篇
- 房颤的抗栓治疗
- 2024年度二手房买卖及家居用品购买合同3篇
- 基于2024年度大数据分析的金融风控系统开发合同2篇
- 仁爱英语七年级下册导学案全册教案
- 射频消融治疗热肿瘤中的热沉效应与治疗效应的分析
- 心律失常病人的护理查房
- 换向阀的常见故障及维修方法
- 组织能力建设培训
- 大连地区适合种植药材
- 2022历史小说《漆园吏游梁》分析
- 产品质量整改措施
- 五禽戏Five Animal-imitating Exercise(中英文版)
- GB/T 19668.7-2022信息技术服务监理第7部分:监理工作量度量要求
- GB/T 9115-2010对焊钢制管法兰
- 主变倒送电措施
评论
0/150
提交评论