第三讲混合策略纳什均衡ppt课件_第1页
第三讲混合策略纳什均衡ppt课件_第2页
第三讲混合策略纳什均衡ppt课件_第3页
第三讲混合策略纳什均衡ppt课件_第4页
第三讲混合策略纳什均衡ppt课件_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三讲 混合战略纳什平衡 主讲人:李美娟 引言有些博弈不存在纳什平衡,或者纳什平衡不独一,如猜硬币博弈,前述纳什平衡分析就无法对博弈方的选择和博弈结果作明确的预测。这部分对不存在纳什平衡和存在多个纳什平衡的博弈作一些讨论。混合战略的引进一、扑克牌对色游戏-1, 11, -11, -1-1, 1红黑乙甲红黑不存在前面定义的纳什平衡战略组合。这类博弈很多,引出混合战略纳什平衡概念。混合战略的相关概念混合战略是一种按照什么概率选择这个纯战略、按照什么概率选择那种纯战略的战略选择指示。混合战略阐明:参与人可以按照一定的概率,随机地从纯战略集合中选择一种纯战略的实践行动。期望值:假定存在 个能够的取值

2、,并且这些取值发生的概率分别为: ,那么期望值为: 小孩玩的游戏“石头,剪子,布,也是一种博弈。但是,这个博弈有一种有趣的特征,即给定一方的任何选择,另一方都有制胜对方的战略,因此这个战略不是最优的。任何“纯战略都不是最优的,纯战略是“石头,剪子,布中的任何一个。混合战略博弈石头、剪刀、布0, 01, -1-1, 1-1, 11, -10, 01, -1-1, 10, 0石 头剪 子布博弈方2石 头剪 子布博弈方1 但是,我们知道,玩这个游戏总是以对方不易猜出的随机方式出招。现实上,可以经过数学证明,当双方都以每个战略按1/3的概率出招时,达成一种双方都不愿改动这种概率分布的局面。这被称为“混

3、合战略纳什平衡,而这种以随机方式选择纯战略的博弈被称为“混合战略博弈。 以混合战略博弈我们来看下面几个例子。 例子1 为什么普通人总是小错不断,大错不犯;偷税漏税的普通是中小企业,大企业会老老实实地交税? 税务部门不会对一切企业的交税情况每一次都去检查,由于这样做的本钱太高,得不偿失。所以,税务部门总是随机地对企业的交税情况进展检查。 企业也是随机地在交税与偷漏税之间进展选择。税收部门与企业间进展的是混合战略博弈。由于假设企业总是交税,税务部门就最好不检查;但给定不检查,企业就会偷漏税。所以,两者只需在随机地检查与不检查,企业随机地在偷漏税与交税之间选择,才会达成平衡。 对于大企业,因一旦偷税

4、数额就宏大,所以,税务部门在随机检查时放在大企业上的能够性就大一些;而给定税务部门检查大企业的能够性较大,大企业偷漏税的行为就较少,否那么就容易被逮个正着。所以,偷漏税较多的就是一些中小企业,大企业纳税的积极性较高。同样的道理,在犯罪或对错误的监视惩罚博弈中,也是混合博弈,人们能够总是大错不犯小错不断。 例子2 田忌赛马新编 春秋战国时期,齐威王常与旗下大将田忌赛马。规那么是:每次赛三局,每一局齐威王与田忌各出一匹马竞赛奔跑速度。每一局中的胜者赢败方一千斤铜。田忌有上、中、下三匹马,而齐威王也有上、中、下三匹马。每次竞赛,第一局田忌出上马,齐威王也出上马;第二局田忌出中马,齐威王也出中马;第三

5、局,田忌出下马,齐威王也出下马。齐威王的上马比田忌的上马好,齐威王的中马也比田忌的中马好,齐威王的下马还是比田忌的下马好。于是,每次竞赛的结果都是田忌连输三局。 田忌的谋士孙膑了解了田忌的姿态后,就探听到这样一个音讯:虽然齐威王的上、中、下三匹马都要比田忌的对应上、中、下三匹马好,但碰巧的是田忌的上马可胜齐威王的中马,田忌的中马可胜齐威王的下马。于是,孙膑为田忌献计:下一次竞赛中第一局时田忌出下马对齐威王的上马输一局,第二局田忌出上马对齐威王的中马,第三局田忌出中马对齐威王的下马,这样可连赢两局,最后净胜一千斤铜。田忌依计而行,果真赢回一千斤铜。 这个故事曾经被很多人当作博弈论的例子来演绎,但

6、实践上这个故事与博弈论无关。博弈论会假定一切局中人都是理性的,不能假定一些局中人聪明而另一些局中人却是傻子。当田忌出下马时,齐威王最好的选择是出下马而不是上马。孙膑的计谋中假定齐威王是傻子,当田忌出下、上、中马时,他依然按上、中、下马出,当然要输了。现实上,当田忌出下马时,齐威王应出下马,但齐威王出下马时,田忌不应出下马而是出中马,但此时齐威王又应出中马而不是下马了,。这样,博弈不会有纯战略的平衡。 两人只能玩混合战略博弈,齐威王分别以1/6随机的概率选择出上、中、下马的任一陈列,田忌也如此。由于齐威王存在绝对优势,他平均看来依然会赢田忌一千斤铜。 混合战略平衡纯战略与纯战略纳什平衡纯战略:一

7、定会被选择以100%的概率被选择的战略。混合战略混合战略:以一定的概率分布选择某几个行动的战略。混合战略定义:在n人博弈的战略式表述 中,假定参与人 有K个纯战略: ,那么,概率分布 称为 的一个混合战略,这里 是 选择 的概率,对于一切的 。 显然,纯战略可以了解为混合战略的特例,比如说,纯战略 等价于混合战略 ,即选择纯战略 的概率为1,选择任何其他纯战略的概率为0。混合战略纳什平衡:包含混合战略的战略组合,构成纳什平衡。混合战略混合战略平衡设 是n人战略式博弈的一个混合战略组合。假设对于一切的 , 对于每一个 都成立,那么称混合战略组合 是这个博弈的一个纳什平衡。 期望支付 例:参与人1

8、的混合战略:p,1-p) 参与人2的混合战略:(q,1-q)参与人1的期望支付:假设参与人1选择S11:假设参与人1选择S12:EV1p,q)=参与人2的期望支付:EV2p,q)=u1,u2u3,u4u5,u6u7,u8参与人2S11 pS12 1-pS21S22参与人2q1-q混合战略平衡 例:监视博弈给定工人偷懒,老板的最优选择是监视;给定老板监视,工人的最优选择是不偷懒;给定工人不偷懒,老板的最优选择是不监视;给定老板不监视,工人的最优选择是偷懒;如此循环。1,-1-1,2-2,32,2老板监视不监视偷懒不偷懒工人混合战略平衡监视不监视偷懒不偷懒工人老板 假定老板选择混合战略0.5,0.

9、5) 工人选择“偷懒期望支付为 (-1)0.5+30.5=1 工人选择“不偷懒期望支付为20.5+20.5=2 工人应选择“不偷懒 老板选择“不监视 工人选择“偷懒0.50.5 假定老板选择混合战略0.2,0.8) 工人选择“偷懒期望支付为(-1)0.2+30.8=2.2 工人选择“不偷懒期望支付为20.2+20.8=2 工人应选择“偷懒 老板选择“监视 工人选择“不偷懒1,-1-1,2-2,32,2混合战略平衡 什么情况下到达纳什平衡形状?假定存在一个概率q,老板选择混合战略q,1-q工人选择“偷懒期望收益为(-1)q+3(1-q)=3-4q工人选择“不偷懒收益为2假设老板真的以概率q选择监

10、视,1-q选择不监视,那么意味着他不会一直反复地选择某个纯战略,而他不反复选择的条件必需是工人也不会反复地选择纯战略。 因此,老板以概率q选择监视必然意味着在这种情况下工人没有适宜的纯战略选择。=老板的选择必需使工人在两个纯战略之间随机选择。工人什么情况下随机选择?混合战略平衡当工人选择任何一个战略的期望支付相等时,只能随机选择。于是,3-4q=2 ,即q*=1/4,1- q*=3/4。这样,当老板选择1/4,3/4的混合战略时,可以使工人在两个纯战略之间无差别。 同理,假设工人选择(p,1-p),(p,1-p)成为其最优混合战略的条件是老板在选择监视与选择不监视之间无差别,即1p+(-1)(

11、1-p)=(-2)p+2(1-p),即p*=1/2,1- p*=1/2。当老板选择1/4,3/4,工人选择1/2,1/2时,刚好互为彼此的最优反响,到达纳什平衡形状,称为混合战略纳什平衡。混合战略平衡参与人1和参与人2的混合战略组合 构成平衡的必要条件:混合战略平衡的求解方法方法1:支付最大化法 给定其他参与人的混合战略,本人选择行动的概率分布要使本人期望支付最大化。q1-q1-pp工人的期望支付函数为(-1)pq+2(1-p)q+3p(1-q)+2(1-p)(1-q)=-4pq+p-2q+2最优化一阶条件为:-4q+1=0 q*=1/4给定工人的混合战略为(p,1-p),老板的混合战略为(q

12、,1-q)支付最大化法求混合战略纳什平衡1,-1-1,2-2,32,2老板监视不监视偷懒不偷懒工人混合战略平衡的求解方法方法2:支付等值法 本人选择战略概率分布使对方不会偏好于任何行动,即选择每一个战略都会得到一样的收益。例子例:博弈方1的混合战略p,1-p) 博弈方2的混合战略q,1-q博弈方1:由 可得 :q=0.8博弈方2:由 可得 :p=0.8 2, 35, 23, 11, 5CDAB博弈方2博弈方1得双方的战略及相应得益:其中,博弈方1的期望得益为:博弈方2的期望得益为:策略期望得益博弈方1(0.8,0.2)2.6博弈方2(0.8,0.2)2.6多重平衡博弈和混合战略一、夫妻之争的混

13、合战略纳什平衡首先,该博弈有两个纳什平衡,本博弈的两个博弈方不会害怕对方猜到本人的选择,他们客观上并不想隐藏本人的选择。因此,该博弈中两博弈方的决策思绪和原那么应该与没有纳什平衡的严厉竞争博弈有所不同。2, 10, 00, 01, 3时 装足 球时装足球丈 夫妻子夫妻之争但显然,双方的偏好不同,妻子喜欢前一个,丈夫喜欢后一个。故在纯战略的范围内,该博弈也是无法对两博弈方的选择提出确定性建议,因此也需求思索博弈方采用混合战略的能够性。设p和1-p分别为妻子选择时装扮演和足球的概率;假设妻子不想让丈夫利用本人的选择倾向占上风,那么本人的概率选择应使丈夫选择两种战略的期望得益一样:得:p=3/4设q

14、和1-q分别为丈夫选择时装扮演和足球的概率。同样,假设丈夫不想让妻子利用本人的选择倾向占上风,那么本人的概率选择应使妻子选择两种战略的期望得益一样:得:q=1/3夫妻之争博弈的混合战略纳什平衡 战略 得益妻子 0.75,0.25 0.67丈夫 1/3,2/3 0.75可见,这个结果明显不如夫妻双方能交流协商时,任何一方迁就另一方的得益好。这是由于缺乏沟通时能够出现最差的结果呵斥的。也就是说,假设不强行设定双方不能交流串通的博弈规那么,双方决策时没有被客观或人为的缘由隔分开来,也没有由于赌气而采取不理性的态度,那么这种夫妻之间的决策问题普通不应该用上述博弈方式处理。二、制式问题电器和电子设备往往

15、有不同的原理或相关技术规范,称之为不同的制式。假设消费相关电器或电子设备的厂商采用一样的制式,那么产品之间就能相互匹配,零配件也能够相互通用,这对于推行各自的产品和在消费运营中进展协作很有协助。设有两个厂商同时方案引进彩电消费线,而彩电有A、B两种不同的制式,那么这时候两个厂商之间就有一个选择制式的博弈问题。二、制式问题1, 30, 00, 02, 2ABAB厂商2厂商1制式问题 制式问题混合战略纳什平衡 A B 得益厂商1: 0.4 0.6 0.664厂商2: 0.67 0.33 1.296假定两厂商采用不同的制式所能获取的各自益处如以下图所示:三、市场时机博弈-50, -50100, 00

16、, 1000, 0进不 进进不进厂商2厂商1市场时机 进 不进 得益厂商1: 2/3 1/3 0厂商2: 2/3 1/3 0两厂商同时发现一个市场时机,但这个市场的容量并不大,两个厂商该如何选择呢?厂商1的混合战略必需使厂商2选择进与不进的期望得益一样,厂商2 的情形类似。混合战略反响函数反响函数:一博弈方对另一博弈方每种能够的决策内容的最正确反响决策构成的函数。在纯战略的范畴内,反响函数是各博弈方选择的纯战略对其他博弈方纯战略的反响;在混合战略的范畴内,博弈方的决策内容为选择概率分布,反响函数就是一方对另一方的概率分布的反响,也是一定的概率分布。由于纯战略可了解为混合战略,因此实践上反响函数

17、的概念,可以在混合战略概率分布之间反响的意义上一致同来。法三:混合战略反响函数猜硬币博弈-1, 11, -11, -1-1, 1正 面反 面猜硬币方正面反面猜硬币博弈盖硬币方rq111/21/2(r,1-r):盖硬币方选择正反面的混合战略概率分布(q,1-q):猜硬币方选择正反面的混合战略概率分布当q0.5时,取r为0当r0.5时,取q为1夫妻之争博弈2, 10, 00, 01, 3时装足球丈夫时装足球妻子夫妻之争rq111/33/4(r,1-r):妻子的混合战略概率分布(q,1-q):丈夫的混合战略概率分布当q1/3时,取r为1当r3/4时,取q为1混合战略平衡 混合战略要求人们以随机的方式

18、选择本人的行动,由于随机性行为无法准确预期,因此很多人以为混合战略并非一个令人称心的平衡概念。现实生活中人们真会这样采取行动吗?如何解释混合战略?参与人试图经过选择混合战略给对手呵斥一种不确定性,使对手不能预测本人的行动。如,猜硬币、划拳。混合战略平衡对参与人类型的一种推断。如监视博弈,老板不知道工人的类型,只知道“勤劳、“懒惰型工人各占50%。老板在选择本人 战略时仿佛面临的是一个选择混合战略的 工人。纳什定理:在一个由n个博弈方的博弈 中,假设n是有限的,且 Si 都是有限集(对 i=1,n),那么该博弈至少存在一个纳什平衡,但能够包含混合战略。奇数定理Wilson,1971:几乎一切有限

19、博弈都有有限奇数个纳什平衡。纳什平衡的存在性纳什平衡的存在性 占优平衡 反复剔除的占优平衡 纯战略NE 混合战略NE前一个平衡是后一个平衡的特例,后一个平衡是前一个的扩展。上述四个平衡概念统称为纳什平衡。占优平衡反复剔除占优平衡纯战略纳什平衡混合战略纳什平衡多重平衡与协调 多重平衡的概念很多博弈具有多个纳什平衡,比如以上讲到的麦琪的礼物、性别战等,称为多重平衡。多重平衡降低博弈的解释力一方面无法知道哪个平衡会出现,另一方面会发生真正出现的结果与平衡结果不一致在某些具有多重平衡的博弈中,各个博弈方偏好于不同的平衡结果,如麦琪的礼物和性别博弈。那么,博弈方如何使本人偏好的平衡成为实践的平衡结果呢?

20、这就是多重平衡的协调问题。多重平衡与协调 帕累托上策平衡风险上策平衡聚点平衡相关平衡一、帕累托上策平衡有些博弈,虽然存在多个纳什平衡,但这些纳什平衡能够有明显的优劣差别,一切博弈方都偏好其中同一个纳什平衡。换句话说,能够有这些纳什平衡中的某一个,给一切博弈方带来的利益,都大于其他一切纳什平衡会带来的利益,此时,博弈方的选择倾向性就会是一致的,各个博弈方不仅本人会选择该纳什平衡的战略,而且可以预料其他博弈方也会选择该纳什平衡的战略,因此不会有选择困难。用这种方法选择出来的纳什平衡,也称为“帕累托上策平衡。一、帕累托上策平衡这个博弈中有两个纯战略纳什平衡,战争,战争和和平,和平,显然后者帕累托优于前者,所以,和平,和平是本博弈的一个帕累托上策平衡。-5, -5-10, 88, -1010, 10战争和平国家2战争和平国家1战争与和平为什么理性的国家之间不会选择战争,但历史上会有那么多战争呢?决策者思索短期利益、个人或小集团利益;决策者确实缺乏理性和明智;部分地域或特定时期的利益比上述博弈中所假设的要大等;二、风险上策平衡帕累托上策平衡并

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论