数据模型与决策第九讲博弈论_第1页
数据模型与决策第九讲博弈论_第2页
数据模型与决策第九讲博弈论_第3页
数据模型与决策第九讲博弈论_第4页
数据模型与决策第九讲博弈论_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据、模型与决策

第九讲博弈论

主讲:邓旭东教授教学内容博弈论的产生和发展1博弈论的基本概念与博弈的分类2博弈论的经典模型3Nash均衡解的求解方法4合作博弈5学习目标了解博弈论的产生和发展情况掌握博弈及博弈论的概念、博弈论的分类了解和掌握博弈论的经典模型掌握纯策略和混合策略Nash均衡解的求解方法掌握联盟博弈及夏普利值的概念,会求解两人联盟和三人联盟情况下的夏普利值培养应用博弈论于经济与管理实践的意识博弈论、纳什均衡及核的概念

博弈论(GameTheory)是一门关于决策者在对决策结果没有完全信息和互动条件下做出理性决策的理论。

所谓“互动”是指这样一种情况,任何决策者决策的结果不仅取决于其自身采取的策略,还取决于其他人采取的策略。

纳什均衡指两人或多人互动的结果:当其他人所选策略不变时,没有任何人可以通过单方面改变其策略而取得更好的结果。

核指两个或多个联盟互动的结果:当其他联盟的策略不变时,没有任何联盟可以通过单方面改变其策略而取得对该联盟所有成员更好的结果。一、博弈论的产生和发展20世纪50年代,合作博弈发展到全盛期,非合作博弈论也开始创立;20世纪60年代后,非合作博弈得到进一步发展;几十年来,众多的博弈论学者花费了无穷的精力,研究博弈论里博弈的结构,发展纳什均衡点的定义,并探讨其实际应用的可能性。现代博弈理论诞生的标志:冯·诺依曼和摩根斯坦1944年出版的巨著《博弈论与经济行为》(TheTheoryofGamesandEconomicBehavior)1994年诺贝尔经济学奖:纳什、哈萨尼、泽尔腾1996年诺贝尔经济学奖:莫里斯、维克瑞2001年诺贝尔经济学奖:阿克尔洛夫、斯彭斯、斯蒂格利茨2005年诺贝尔经济学奖:奥曼、谢林博弈论的产生博弈论的产生和发展博弈论的发展1994年诺贝尔经济学奖

1994年的诺贝尔经济学奖,授予了三位对博弈论做出奠基性贡献的学者,他们是美国普林斯顿大学数学系的纳什(JohnNash)教授、美国伯克利加州大学商学院的哈萨尼(JohnHarsanyi)教授和德国波恩大学经济学系的泽尔腾(ReinhardSelten)教授。纳什对博弈论的贡献有两个方面:①合作博弈理论中的讨价还价模型,称为纳什讨价还价解;②非合作博弈论方面,这也是他的主要贡献所在。纳什对非合作博弈论的主要贡献是他在1950年和1951年的两篇论文中在非常一般的意义上定义了非合作博弈及其均衡解,并证明了均衡解的存在,由此奠定了非合作博弈论的基础。1996年诺贝尔经济学奖1996年的诺贝尔经济学奖授予了英国剑桥大学的詹姆斯·莫里斯(JamesA.Mirrlees)教授和美国哥伦比亚大学的威廉姆·维克瑞(WilliamVickrey)教授,表彰他们对信息经济学的贡献。这两位经济学家分别在20世纪60年代和70年代揭示了不对称信息对交易所带来的影响,并提出了相应的对策。

信息经济学是研究信息不对称条件下交易关系和契约安排的理论。从本质上讲,信息经济学是不对称博弈论在经济学上的应用。不对称信息指的是某些参与人拥有另一些参与人不拥有的信息。

博弈论是方法论导向的,它研究的是给定信息结构后,寻找最可能的均衡结果;信息经济学是以问题导向的,它研究的是给定信息结构后,进行最优的契约安排。

由于信息经济学研究什么是不对称信息情况下的最优交易契约,故又称为契约理论,或机制设计理论。正因为信息不对称,不同的制度安排对应不同的经济效率,现在经常讨论的国有企业委托人—代理人问题、激励机制问题、产权问题等,都是信息经济学的问题。2001年诺贝尔经济学奖

2001年的诺贝尔经济学奖授予了三位美国经济学家,他们是伯克利加州大学经济系的乔治·阿克尔洛夫(GeorgeAkerlof)教授、斯坦福大学商学院的迈克尔·斯彭斯(MichaelSpence)教授和哥伦比亚大学经济系、商学院及国际关系学院的约瑟夫·斯蒂格利茨(JosephStiglitz)教授。早在20世纪70年代,他们就揭示了当代信息经济的核心,认为信息是有价值的。其应用价值对中国目前的改革也有着一定的指导意义。

1970年,阿克尔洛夫对传统经济学理论提出了挑战,他从分析旧车市场入手,发现在旧车交易中,卖者显然比买者对车辆拥有更多的信息,而因为这种信息不对称,买车的人难以完全信任卖车人提供的信息,因而试图通过低价来弥补其信息上的损失。由于买者出价过低,卖者又不愿提供好的产品,从而导致次货的泛滥,其最终的结果是旧车市场的萎缩。阿克尔洛夫就此得出结论:市场放开并不能解决所有问题,信息是有价值的。斯彭斯则在1973年通过剖析人才市场盛行的造假行为,指出人才市场同样存在用人单位与应聘者之间信息不对称的问题,并由此造成了人才市场上“劣币”驱逐“良币”的现象。斯蒂格利茨则将信息不对称这一理论应用到保险和金融市场。2001年诺贝尔经济学奖这三个人从不同领域探讨了信息不对称问题,指出市场体制需要完善、设计,设计里有最优。这是对传统经济学的重大突破。

Akerlof,G.(1970)”TheMarketforLemons:QualityUncertaintyandMarketMechanism”,QuarterlyJournalofEconomics,84:488-599.

Spence,M.(1973),”JobMarketSignaling”,QuarterlyJournalofEconomics,87.

Rothschild,M.andStiglitz,J.(1976),”EquilibriuminCompetitiveInsuranceMarket”,QuarterlyJournalofEconomics90:629-49.

2005年诺贝尔经济学奖奥曼(RobertJ.Aumann)提出了无限次的重复博弈的理论,谢林(ThomasC.Schelling)提出了对抗状态下的“可置信威胁”等概念,深刻地分析了行为选择的条件对博弈均衡结果的影响。

奥曼率先提出的“重复博弈”分析,目前成为所有社会科学的主流分支,并已应用于政治冲突、灌溉系统、国际条约乃至公司相互勾结等各种各样的问题。

奥曼对冲突与合作策略思想的贡献在于,他运用了逻辑学和数学来理解,当人们每天都面对相同对手或竞争者时,他们所能作出的选择。当策略情形大量重复出现时,即便个体间有直接的利益冲突,达成合作的机率也会上升,因为每个个体在未来时间内,都会与另一方反复打交道。

谢林于20世纪60年代出版《冲突的策略》,着力阐述了在双方处于僵持时,采取一些策略性手段的重要性。这些手段包括:事先承诺、边缘政策和有威慑力的威胁。例如,通过限定你自己的选择范围,你就可以使对手清楚地知道,你将对他们的行动作出何种反应——不管他们采取什么行动,这也就加大了他们作出让步的可能性。

在地缘政治领域之外,谢林还发现,人通常都是愿意合作的,但当他们在一个团队中完全依理性行事时,则不那么容易合作。二、博弈论的的基本概念与与博弈的分类类博弈论的基本本概念包括参参与人、行动动、信息、策策略、支付、、结果和均衡衡。其中,参参与人、策略略和支付是描描述一个博弈弈所需要的最最少的要素,,而行动和信信息是其“积积木”。参与与人、行动和和结果统称为为“博弈规则则”。博弈分分析的目的是是使用博弈规规则预测均衡衡。参与人——是指在一个博博弈中能够选选择自己的行行动方案从而而使自身的利利益最大化的的决策主体,,即有决策权权的参加者。。个人或组织织团体,参与与人是理性的的。行动——是参与人在博博弈的某个时时点的决策变变量。当参与与人的行动存存在先后次序序时,后行动动者就可以通通过观察先行行动者的行动动选择来获取取信息,再决决定行动方案案。信息——是参与人有关关博弈的知识识,特别是有有关自然状况况、其他参与与人的特征、、偏好和行动动等方面的知知识。“理性性”是共同知知识,各参与与人的偏好也也可能是共同同知识。博弈论的基本本概念策略——是参与人在给给定信息集的的情况下的行行动规则,它它规定了参与与人在何时何何种情况下选选择何种行动动,是完整的的行动方案。。各参与人在在各自的策略略集中选择一一个特定的策策略所构成的的策略组合称称为一个局势势。支付——是指在博弈论论中,对应一一个确定的自自然状况,参参与人各选择择一个特定的的策略所形成成的局势下参参与人得到的的效用。当自自然状况不确确定或参与人人随机选择其其策略时,参参与人关心的的是期望效用用。结果——是一个博弈各各种可能的最最终后果,如如各参与人的的最优策略、、最优策略下下的效用等。。均衡——是各参与人最最优策略所形形成的局势,,在该局势下下,没有参与与人愿意选择择其他的策略略。博弈的分类通过事前交流流协商达成有有约束力的协协议称为合作作。根据参与人之之间是否存在在合作,博弈弈可划分为合合作博弈和非非合作博弈。。合作博弈与非非合作博弈之之间的区别主主要在于人们们的行为相互互作用时,当当事人能否达达成一个具有有约束力的协协议。如果有有,就是合作作博弈;反之之,则是非合合作博弈。合作博弈强调调的是团体理理性,强调的的是效率、公公正、公平;;非合作博弈弈强调的是个个人理性、个个人最优决策策,其结果可可能是有效率率的,也可能能是无效率的的。根据参与人行行动的先后顺顺序,博弈可可以划分为静静态博弈和动动态博弈。静静态博弈指的的是博弈中,,参与人同时时选择行动或或虽非同时但但后行动者并并不知道先行行动者采取了了什么具体行行动;动态博博弈指的是参参与人的行动动有先后顺序序,且后行动动者能够观察察到先行动者者所选择的行行动。博弈的分类根据参与人对对博弈的整体体环境(即自自然状况及其其他参与人的的特征、偏好好和策略)是是否有全面而而准确的知识识,博弈可划划分为完全信信息博弈和不不完全信息博博弈。完全信信息指的是每每一个参与人人对所有其他他参与人(对对手)的特征征、策略空间间及支付函数数有全面而准准确的知识;;否则,就是是不完全信息息。行动顺序信息静态动态完全信息完全信息静态博弈;纳什均衡;纳什(1950,1951)完全信息动态博弈;子博弈精炼纳什均衡;泽尔腾(1965)不完全信息不完全信息静态博弈;贝叶斯纳什均衡;哈萨尼(1967-1968)不完全信息动态博弈;精炼贝叶斯纳什均衡;泽尔腾(1975),Kreps和Wilson(1982),Fudenberg和Tirole(1991)博弈的分类博弈论的讨论论基于两条::①参与人都是是理性的,他他的目标非常常明确,就是是使自己的效效用达到最大大;②博弈论论中的例子是是简单而很不不实际的,但但是它比一些些具体实际的的复杂的例子子更能揭示实实质,使得很很多人即使不不去学习博弈弈论的理论,,也能理解这这些例子中提提出的问题和和分析的方法法,这是有指指导意义的。所以我们在在学习博弈论论的知识时,,要注意这些些简单而典型型的例子,学学习分析问题题,提出概念念,解决问题题的过程。三、博弈论的的经典模型博弈的分类乙坦白抵抵赖坦白甲抵赖有两个人因为为涉嫌犯罪而而被捕,被警警方分别关在在两个房间内内审讯。他们们面临的情况况是:如果两两个人都坦白白罪行,那么么将各被判处处六年有期徒徒刑;如果一一方坦白另一一方抵赖,那那么坦白者从从宽,判处一一年徒刑,抗抗拒者从严,,判处八年徒徒刑;如果两两个人均抵赖赖,则各被判判处两年徒刑刑。这样,两个囚囚徒面临的博博弈格局如上上图所示,每每个格子中左左边的数字是是甲的支付((盈利或得益益),右边是是乙的支付((盈利或得益益)。1.囚徒困境(theprisoner’sdilemma)-6,-6-1,-8-8,-1-2,-2博弈的分类①划线法解囚徒困境乙坦白抵赖坦白甲抵赖(坦白,坦白白):严严格优势策策略(抵赖,抵赖赖):严严格劣势策策略实例思考:价价格大战、、广告大战、、优惠大战合作:“双双赢对局”1.囚徒困境(theprisoner’sdilemma)-6,-6-1,-8-8,-1-2,-2博弈的分类②可口可乐与百事可乐的价格大战(单位:亿美美元)百事可乐低价高价低价可口可乐高价(低价,低价价):严严格优势策策略(高价,高价价):严严格劣势策策略多数情形是非非合作博弈卡特尔——几个大企业联联手或勾结形形成对行业的的垄断,谋求求最大利润而而结成的联盟盟。卡特尔不稳定定。OPEC———石油输出国组组织1.囚徒困境(theprisoner’sdilemma)-3,-30,-5-5,0-1,-1博弈的分类③箭头法解囚徒困境乙坦白抵赖坦白甲抵赖1.囚徒困境(theprisoner’sdilemma)-6,-6-1,-8-8,-1-2,-2博弈的分类纳什均衡状态态是市场力量量相互作用的的稳定的结局局。AA’B’B0¼¼½½¾¾1杂货铺定位:设想有一个个小居民点,,居民住宅沿沿着一条公路路均匀地排开开。现在有两两家杂货铺要要在这个小居居民点开张,,他们卖一样样的东西,价价格也完全一一样。那么,,两家杂货店店开在什么地地方好呢?商品一样,价价格也一样,,居民到哪个个杂货铺买东东西,就看哪哪个杂货铺离离自己比较近近。在杂货铺铺定位的博弈弈中,地盘就就是市场份额额,地盘就是是经济利益。。两个杂货铺铺在市场竞争争的位置博弈弈中,位于左左边的要向右右靠,位于右右边的要向左左挤,最后的的结局,是两两家杂货铺紧紧挨着位于中中点1/2的位置。这就就是纳什均衡衡的位置。因因为谁要是单单独移开“一一点”,他就就会丧失“半半点”市场份份额。所以谁谁都不想偏离离中点的位置置。2.杂货铺定位博博弈博弈的分类海滩占位:据说西方发发达国家的不不少男男女女女有日光浴的的爱好,因为为它有利于身身体健康。现现在设想较长长的海滩上比比较均匀地散散步着许多日日光浴者。太太阳的照射使使人们需要补补充水分。假假如有A与B两个小贩来到到海滩,以同同样的价格、、相同的质量量向日光浴者者提供同一品品牌的矿泉水水(或啤酒))。在直线状状的海滩上他他们应当如何何合理地安置置自己的摊位位呢?思考:在社会经济济领域内,有有不少现象与与上述杂货铺铺定位、海滩滩占位有着相相似之处,从从某种意义上上也可以用同同样的逻辑进进行分析和阐阐述。①超市在商业街街的布局问题题。如果地段的的繁华等其他他原因可以认认为相同的话话,那么,只只要条件许可可,超市的几几乎相依为邻邻现象完全可可以看作公正正的市场竞争争的合理结果果。②同城航空公司司航班起飞时时刻确定问题题。同一城市的的两家航空公公司开辟飞往往同一目的地地的航班,常常出现他们各各自的起飞时时刻被安排在在几乎同一时时间的现象。。③电视台对节目目的编排问题题。人们对电视视节目的喜爱爱存在着一定定的档次差异异,因此电视视台对节目的的编排将直接接影响到收视视率。设想如如果将高雅艺艺术节目与较较低档趣味的的节目比作海海滩的两端,,那么观赏电电视节目的观观众就相当于于散步在海滩滩上的日光浴浴者。因此不不少电视台常常将黄金播放放时段的文艺艺节目定位于于中等趣味以以提高自己的的收视率。此此外,各电视视台中一些内内容虽然不同同但情调却差差不多的娱乐乐节目,常在在播放时间上上撞车。④海滩占位问题题在政治学中中也可以找到到类似的案例例。2.杂货铺定位博博弈博弈的分类女方足球芭蕾足球男方芭蕾情侣博弈与经经济决策的关关系两个相邻的企企业都要解决决各自的供水水问题。如果果他们各干各各的,成本就就会比较高,,效益就没有有那么好。如如果两个企业业联合起来一一起投资建设设共用的供水水系统,效益益就会比较好好。但是在选选定合作方案案的时候,由由于各种因素素,在携手合合作的大前提提下,还是可可能有小算盘盘的考虑。你你想这样,他他想那样,这这也是人之常常情。这种合合作比不合作作好,但是在在合作的大局局下面又不免免有小算盘、、不免打小九九九的对局,,这就是情侣侣博弈。3.情侣博弈(Battleofsexes)2,10,0-1,-11,2博弈的分类乙猎鹿打打兔猎鹿甲打兔4只兔子管4天,1只鹿各管10天。经济体制改革革:苏欧“振荡疗疗法”或“休休克疗法”,,一步到位,,社会损失大大;中国“渐渐进式改革””、“摸着石石头过河”,,社会损失小小,体制制外体体制内4.猎人博弈和帕帕累托优势10,100,44,04,4博弈的分类B鸡进退进A鸡退两只鸡A和B过独木桥,双双方都可以选选择进退,如如果双方都选选择进,则双双方就都成了了落汤鸡。如如果一进一退退,则有一方方可以过桥,,另一方收益益为0。各自的收益益如上图所示示。在这个博弈问问题中,一进进一退是博弈弈的格局。5.斗鸡博弈-3,-32,00,20,0博弈的分类小猪按等按大猪等猪圈里有一大大一小两头猪猪,猪圈的一一端有一个猪猪食槽,另一一端安装了一一个控制猪食食供应的按钮钮。按一下按按钮会有10个单位的猪食食进槽,但谁谁按按钮谁就就需付出相当当于2个单位猪食的的成本。大猪先到:大大猪吃9个,小猪吃1个同时到:大大猪吃吃7个,小猪吃3个小猪先到:大大猪吃6个,小猪吃4个6.智猪博弈和搭搭便车行为5,14,49,-10,0博弈的分类乙受贿不受贿受贿甲不受贿实际上许多博博弈问题就存存在多个Nash均衡解,这为为预测带来困困难,引起Nash均衡解的精炼炼问题。并且不是任何何问题都有纯纯策略Nash均衡解。7.串谋博弈和高高薪养廉9,90,88,07,7博弈的分类守卫睡不睡偷小偷不偷一小偷欲偷窃窃有一守卫看看守的仓库,,如果小偷去去偷窃时守卫卫在睡觉,则则小偷就能得得手,假设小小偷得手可得得价值为V的赃物;但如如果小偷去偷偷窃时守卫没没有睡觉,则则小偷就要被被抓住,如被被抓住则要坐坐牢,坐牢的的负效用为-P(设其单位与赃赃物的价值相相同),再设守卫睡睡觉而未被偷偷则有S的正效用;睡睡觉遭偷则要要被解雇,解解雇的负效用用为-D,其单位与S的单位相同。。如果小偷不不偷,则他既既无得也无失失;守卫不睡睡则出一份力力挣一份工资资同样也是既既无得也无失失。8.小偷与守卫的的博弈V,-D-P,00,S0,0①图解方法求解守卫期小小偷期望望得益益望望得得益(睡)S(偷)VPt*小偷偷Pg*守卫睡0Pt′′1的概率0Pg′1的概率-D-P-D’-P’’(a)((b)图小偷与守卫的的混合策略8.小偷与守卫的的博弈②代数方法求解设小偷选择偷偷的概率为pt,则选择不偷偷的概率为1-Pt,那么守卫选选择睡觉的期期望支付为E睡=(-D)××Pt﹢S×(1-Pt)=S-(D+S)×Pt守卫选择不睡睡觉的期望支支付为E不睡=0×Pt﹢0×(1-Pt)=0要达到一种均均衡状态,小小偷选择偷与与不偷不能让让守卫在选择择睡觉与不睡睡觉之间有明明显的倾向性性。因此,必必然有E睡=E不睡于是可求得当D不变,而S增加时,Pt会增加;而当当S不变,增加D时,Pt会降低。由此此可见,加重重对失职守卫卫的惩罚,在在长期中会起起到抑制盗窃窃的作用;当当对守卫实施施的惩罚不变变,而提高其其待遇,意味味着S的增加,反而而会使盗窃现现象更为严重重(Pt增加)。8.小偷与守卫的的博弈设守卫选择睡睡的概率为pg,则则选选择择不不睡睡的的概概率率为为1-pg,那那么么小小偷偷选选择择偷偷的的期期望望支支付付为为小偷偷选选择择不不偷偷的的期期望望支支付付为为要达达到到一一种种均均衡衡状状态态,,守守卫卫选选择择睡睡与与不不睡睡不不能能让让小小偷偷在在选选择择偷偷与与不不偷偷之之间间有有明明显显的的倾倾向向性性。。因因此此,,必必然然有有于是是可可求求得得当V不变变,,而而P增加加时时,,pg会增增加加,,由由此此可可见见,,加加重重对对小小偷偷的的惩惩罚罚虽虽然然在在短短期期中中能能抑抑制制盗盗窃窃,,但但在在长长期期中中却却只只能能使使守守卫卫多多睡睡觉觉((pg增加加)),,盗盗窃窃的的情情况况却却不不会会有有什什么么改改善善,,反反而而,,由由于于守守卫卫选选择择睡睡觉觉的的概概率率增增加加了了,,小小偷偷选选择择偷偷的的概概率率会会增增加加,,长长期期来来看看盗盗窃窃现现象象甚甚至至会会更更为为严严重重。。8.小偷偷与与守守卫卫的的博博弈弈蜈蚣蚣博博弈弈模模型型是是Rosenthsal在1981年提提出出的的,,它它是是动动态态博博弈弈的的例例子子,,其其模模型型称称为为扩扩展展型型博博弈弈模模型型,,是是用用树树来来对对博博弈弈过过程程做做结结构构化化处处理理。。ⅠⅡⅡⅠⅠⅡⅡⅠⅠⅡⅡAA┄┄AAAA(100,100)DDDDDD(1,1)(0,3)(98,98)(97,100)(99,99)(98,101)这个个博博弈弈的的结结果果是是((1,1)。。求解解过过程程要要用用到到逆逆向向归归纳纳法法,,即即从从动动态态博博弈弈的的最最后后一一个个阶阶段段博博弈弈方方的的行行为为开开始始分分析析,,逐逐步步倒倒推推回回前前一一个个阶阶段段相相应应博博弈弈方方的的行行为为选选择择,,一一直直到到第第一一个个阶阶段段的的分分析析方方法法。。9.蜈蚣蚣博博弈弈1.重复复剔剔除除严严格格劣劣势势策策略略法法下面面用用一一个个例例子子说说明明重重复复剔剔除除严严格格劣劣势势策策略略的的求求解解方方法法。。博弈弈方方Ⅱ左中中右右上博弈弈方方Ⅰ下首先先由由上上表表可可知知,,博博弈弈方方Ⅰ与Ⅱ都没没有有优优势势策策略略,,所所以以不不存存在在优优势势策策略略均均衡衡解解。。从从博博弈弈方方Ⅰ来看看,,其其上上下下策策略略中中没没有有哪哪一一个个是是严严格格劣劣势势策策略略,,但但从从博博弈弈方方Ⅱ来看看,,右右策策略略严严格格劣劣于于中中策策略略,,故故可可将将右右策策略略剔剔除除。。这这时时就就简简化化为为下下表表表表示示的的博博弈弈。。四、、Nash均衡衡解解的的求求解解方方法法1,01,30,10,40,22,0博弈弈方方Ⅱ左中中上博弈弈方方Ⅰ下观察察上上表表的的博博弈弈又又可可发发现现,,““下下””是是博博弈弈方方Ⅰ的严严格格劣劣势势策策略略,,因因此此下下策策略略可可剔剔除除,,这这样样又又可可得得表表如如下下。。博弈弈方方2左中中博弈弈方方1上观察察上上表表又又发发现现,,左左是是博博弈弈方方Ⅱ的严严格格劣劣势势策策略略,,剔剔除除左左策策略略就就得得博博弈弈的的均均衡衡解解((上上,,中中))。。纯策策略略Nash均衡衡解解的的求求解解方方法法1,01,30,40,21.01,3数学上已已经证明明,在n人博弈G={S1,……,Sn;u1,…un}中,重复复剔除严严格劣势势策略最最后若只只剩下唯唯一的策策略对,,则此策策略对一一定是纯纯Nash均衡解;;而且重重复剔除除严格劣劣势策略略不会消消去Nash均衡解。。由此可可见,在在求Nash均衡解前前,先用用重复剔剔除严格格劣势策策略法,,即使常常常不能能求出Nash均衡解,,也可能能简化博博弈问题题。重复剔除除严格劣劣势策略略与纯策策略Nash均衡解的的关系2.划线法下面用同同一个例例子来介介绍求解解纯策略略Nash均衡解的的划线法法。博弈方Ⅱ左中中右右上博弈方Ⅰ下博弈方Ⅰ考虑,若若Ⅱ方取左策策略,自自己的最最大收益益为1,故在1下面划一一条短线线;若Ⅱ方取中策策略,自自己的最最大收益益也为1,故在第第二列数数字1下面划一一条短线线;若Ⅱ方取右策策略,自自己的最最大收益益为2,故在2下面划一一条短线线。博弈弈方Ⅱ也作同样样考虑,,给数字字3、数字4下面都划划了短线线。最后后数对1,3下面都有有短划线线,对应应的策略略对为((上,中中),这这样划线线法就求求得此博博弈的解解。划线法的的思路是是,每个个博弈方方找出在在其他博博弈方每每一个策策略或策策略组合合下的自自己的最最佳收益益并划一一条线,,那么若若某组数数都被划划线,就就意味着着这组数数中的每每一个都都是在别别人策略略固定时时自己的的最佳收收益,因因此谁也也不愿意意单方面面改变自自己的与与此最佳佳收益对对应的策策略,根根据Nash均衡解的的定义,,这时的的策略组组合就是是Nash均衡解。。划线法1,01,30,10,40,22,03.反应函数数法实际上Nash均衡解的的概念也也可推广广到连续续策略、、无限策策略的博博弈中。。这时常常常用反反应函数数法来求求Nash均衡解。。反应函数数即一博博弈方对对另一博博弈方每每一可能能策略的的最佳反反应策略略所构成成的函数数。[例]设博弈双双方的策策略变量量分别为为q1及q2,q1及q2都在区间间(0,20)取值,双双方同时时选择策策略。博弈方1与2的收益函函数分别别为u1,u2且u1=6q1-q1q2-q12u2=6q2-q1q2-q22博弈方1针对博弈弈方2的任一策策略q2的策略选选择是求求最大化化问题Maxu1=max(6q1-q1q2-q12)q1令u1对q1的导数等等于零,,可得q1=R1(q2)=1/2(6-q2)这就是博博弈方1对博弈方方2任一策略略q2的最佳反反应,即即是其反反应函数数。同样,博博弈方2针对博弈弈方1的任一策策略q1的策略选选择是求求解最大大化问题题Maxu2=max(6q2-q1q2-q22)q2博弈方2对博弈方方1任一策略略q1的最佳反反应,即即反应函函数为q2=R2(q1)=1/2(6-q1)显然可用用坐标平平面的两两条直线线表示这这两条反反应函数数,如图图所示。。反应函数数法q2(0,6)R1(q2)(0,3)(2,2)2R2(q1)02(6,0)如图可得得这两条条反应函函数直线线的交点点为(2,2),(2,2)即为Nash均衡解,,因为这这是博弈弈双方共共同的最最佳反应应点,因因而谁也也不愿意意单方面面离开这这一点。。当然用用求解方方程组的的方法也也可求出出此问题题的Nash均衡解。。反应函数数法在没有纯纯策略Nash均衡解时时,可以以寻找混混合策略略Nash均衡解。。定义:对策略略式博弈弈G={S1,…,Sn;u1,…,un},假设博博弈方i的策略集集合为Si={si1,…,sik},pik表示博弈弈方i选择纯策策略k的概率,,则概率率分布Pi=(pi1,…,pik)称为博弈弈方i的一个混混合策略略,其中中,0≤pik≤1对所有k(k=1,…,K)都成立,,且pi1+…+pik=1。将博弈方方的策略略定义为为混合策策略(纯纯策略))是混合合策略的的特例)),策略略集合定定义为混混合策略略集合,,就可以以得出混混合策略略的Nash均衡解的的概念::混合策策略的Nash均衡就是是各博弈弈方针对对其他博博弈方的的最优反反应的混混合策略略组合。。Nash在1950年提出了了讨论Nash均衡解存存在性的的定理,,后被称称为Nash定理。Nash定理:在n人策略式式博弈G={S1,…,Sn;u1,…,un}中,如果果n是有限的的,且对对每个i,Si是有限的的,则博博弈至少少存在一一个Nash均衡解,,但可能能包括混混合策略略解。这就是说说,每一一个有限限博弈都都至少存存在一个个混合策策略Nash均衡解。。但是常常常有多个个Nash均衡存在在,这也也为博弈弈分析带带来困难难。人们们通过Pareto均衡、风风险均衡衡、聚点点均衡等等来选择择Nash均衡解。。混合策略略Nash均衡解求Nash均衡解的的反应函函数法可可以应用用于求混混合策略略Nash均衡解。。在纯策策略中,,反应函函数是纯纯策略之之间的最最佳应对对,而在在混合策策略中,,反应函函数就成成了一方方对另一一方混合合策略概概率分布布的最佳佳应对。。[例]有博弈问问题如下下,求其其Nash均衡解。乙Ⅱ1Ⅱ2Ⅰ1甲Ⅰ2设x,y分别表示示甲选策策略Ⅰ1、乙选策策略Ⅱ1的概率,,则1-x,1-y就为甲选选策略Ⅰ2、乙选策策略Ⅱ2的概率,,(x,1-x)为甲的混混合策略略,(y,1-y)为乙的混混合策略略。假定x*,y*分别为甲甲、乙的的Nash均衡策略略,e1(x,y)、e2(x,y)分别代表表甲、乙乙在采取取策略对对(x,y)时各自收收益的期期望值,,那么,,根据Nash均衡解的的定义,,对于甲甲而言,,有e1(x*,y*)≥e1(x,y*)混合策略Nash均衡解的求求解方法3,22,10,34,4即,当固定定乙的策略略为y*时,甲不愿愿意单方面面离开x*这个策略。。同理,对对于乙而言言,也有e2(x*,y*)≥e2(x*,y)即,当固定定甲的策略略为x*时,乙不愿愿意单方面面离开y*这个策略。。甲的期望收收益应为e1(x,y)=3xy+2x(1-y)+0(1-x)y+4(1-x)(1-y)=x(5y-2)+4-4y现在求甲的的反应函数数,即y值固定的情情况下,使使得e1最大的x的取值:若y<2/5,则当x=0时,e1达到最大,,且e1=4-4y;若y=2/5,则对任意意0≤x≤1,e1都达到最大大,且e1=12/5;若y>2/5,则当x=1时,e1达到最大,,且e1=y+2。将博弈方甲甲反应函数数表示在坐坐标图上。。y12/50x1混合策略Nash均衡解的求求解方法同理乙的期期望收益应应为e2(x,y)=2xy+x(1-y)+3(1-x)y+4(1-x)(1-y)=y(2x-1)+4-3x乙的反应函函数,即x值固定的情情况下,使使得e2最大的y的取值:若x<1/2时,则当y=0时,e2达到最大,,且e2=4-3x;若x=1/2时,对任意意0≤y≤1,e2都达到最大大,且e2=5/2;若x>1/2时,当y=1时,e2达到最大,,且e2=3-x。将博弈方乙乙的反应函函数表示在在坐标图上上,将上述述两个反应应函数画在在一起,得得到包括混混合策略的的Nash均衡解,如如下图所示示。yy112/5xx01/2101/21混合策略Nash均衡解的求求解方法由图可知,,得到双方方反应函数数的三个交交点:(1)x=0,y=0,即甲、乙乙选择策略略对(Ⅰ2,Ⅱ2),收益值为为(4,4);(2)x=1,y=1,即甲、乙乙选择策略略对(Ⅰ1,Ⅱ1),收益值为为(3,2);(3)x=1/2,y=2/5,对应的混混合策略对对为((1/2,1/2),(2/5,3/5)),收益值为为(2.4,2.5)。前两个为纯纯策略Nash均衡解,第第三个为混混合策略的的Nash均衡解。混合策略Nash均衡解的求求解方法在实际的博博弈问题中中,如果参参与人能够够进行协商商、谈判,,联合选择择行动,共共同分享利利益,这就就是合作博博弈问题。。成功的合合作往往能能通过协同同效应,发发挥各方的的所长与优优势,共同同创造共赢赢的局面,,甚至实现现帕累托最最优。但是是,由于参参与博弈的的各方利益益间存在着着冲突,搭搭便车的问问题可能导导致合作受受到破坏。。合作首先是是一个态度度问题,然然而,光有有态度是不不够的,合合作能否实实施,重要要的是方法法。在不同同的博弈结结构下,有有不同类型型的合作,,因而“共共赢”有不不同的含义义。在某些些博弈情况况下,“共共赢”意味味着参与人人“共同避避免更糟””;有些情情况共赢意意味着参与与人“共同同寻求更好好”。在很很多多情情况况下下,,将将一一个个复复杂杂的的现现实实场场景景转转化化成成一一个个严严格格的的非非合合作作博博弈弈模模型型可可能能比比较较困困难难,,而而转转化化为为合合作作博博弈弈框框架架则则可可简简化化对对场场景景细细节节的的描描述述,,突突出出结结果果的的形形成成。。一个个非非合合作作博博弈弈包包括括四四个个构构成成要要素素::参参与与人人、、博博弈弈规规则则、、博博弈弈结结局局和和博博弈弈效效用用。。合合作作博博弈弈将将后后三三个个要要素素抽抽象象为为一一个个部部分分,,这这样样合合作作博博弈弈就就由由两两部部分分构构成成::一一是是所所有有参参与与人人的的集集合合,,二二是是将将不不同同参参与与人人的的组组合合对对应应其其可可得得集集体体效效用用的的函函数数。。五、、合合作作博博弈弈联盟盟博博弈弈是合合作作博博弈弈的的基基本本表表述述方方式式,,既既是是合合作作博博弈弈,,就就意意味味着着所所有有参参与与人人接接受受与与竞竞争争对对手手共共同同争争取取更更多多收收益益的的指指导导思思想想。。在在联联盟盟博博弈弈中中,,合合作作通通过过特特征征函函数数值值的的分分配配来来表表述述。。企业业建建立立联联盟盟是是有有条条件件的的,,这这个个条条件件便便是是::订订立立协协议议、、建建立立联联盟盟的的联联盟盟值值大大于于单单独独行行动动。。如如某某个个市市场场上上两两家家企企业业A、B共同同开开发发市市场场比比单单个个企企业业开开发发市市场场有有利利,,其其条条件件是是::V(A,B)≥≥V(A)+V(B)。其其中中,,V(A,B)为A、B企业业共共同同开开发发市市场场时时双双方方的的收收益益之之和和,,V(A)、V(B)分别别为为A、B单独独开开发发市市场场所所得得到到的的收收益益。。提供供同同种种产产品品的的企企业业相相互互合合作作的的形形式式能能够够有有多多种种。。比比如如,,混混乱乱的的企企业业在在行行业业协协会会或或某某个个大大企企业业的的引引导导下下,,统统一一某某些些技技术术标标准准,,大大家家共共同同使使用用这这些些标标准准。。这这样样,,或或者者大大家家的的成成本本降降低低,,或或者者市市场场扩扩大大了了。。再再如如,,提提供供同同种种产产品品的的不不同同企企业业,,它它们们的的优优势势可可能能不不同同,,若若这这些些不不同同优优势势的的企企业业联联合合起起来来,,共共同同开开发发某某些些产产品品,,其其竞竞争争力力往往往往更更大大。。不同类型的企企业相互合作作往往更能成成功,因为同同类型的企业业冲突度往往往大,不同类类型的企业之之间往往没有有冲突。五、合作博弈弈夏普利值利用公理化方方法得到合作作博弈的唯一一解,这一概概念,首先由由夏普利(L.S.Shapley)在1953年提出,它为为如何决定一一个n人讨价还价博博弈中每个参参与人的所得得的分配比例例提供了一种种很好的方法法。夏普利值值是合作博弈弈(联盟博弈)中的最重要的的概念。某个参与人之之所以能够与与其他成员结结成联盟,是是因为他的参参与能够给联联盟带来附加加值,也就是是为联盟做出出贡献。因此此,参与人从从联盟中获得得利益的多少少,取决于或或正比于他对对联盟的贡献献或可能贡献献(期望贡献)。夏普利值便是是这样的期望望贡献的反映映。它是指在在一个联盟博博弈中,某个个参与人在各各种可能的参参与人组成的的排列中与前前面的参与人人构成的联盟盟的期望贡献献的平均值。。1.两人联盟的情情况假定两个参与与人A、B单独行动的收收益为0,而联合行动动的收益为c,即V(A)=V(B)=0,V(A,B)=c这样,A、B对联盟都有贡贡献。在AB顺序下,A的边际贡献为为0,B的边际贡献为为c;在BA顺序下,B的边际贡献为为0,A的边际贡献为为c。在这两种可可能的情况下下,A和B的平均贡献或或者期望贡献献为:(0+c)/2=c/2。若按照这样样的方案分配配,它是可理理解的,两人人的期望贡献献均为c/2,分配也应该该一样,为c/2。对于A、B,值Φ(A)=Φ(B)=c/2便是他们的夏夏普利值。夏普利值2.三人联盟的情情况三个参与人A、B、C,各个联盟的的特征值为V(A)=V(B)=V(C)=0,V(A,B)=200,V(A,C)=150,V(B,C)=100,V(A,B,C)=250联盟ABC可能的排列与与边际贡献计计算如下表所所示。由表可知,A的边际贡献之之和为650;B的边际贡献之之和为500,C的边际贡献之之和为350。这样,A、B、C的夏普利值分分别为Φ(A)=650/6,Φ(B)=500/6,Φ(C)=350/6。在联盟博弈的的分配问题上上需要确定““公平的分配配标准”。成成员的夏普利利值反映了该该成员对联盟盟的期望贡献献,分配应当当等于期望贡贡献。认可这这样的标准的的条件下,按按照该值进行行分配,便是是公平的;若若不按照这样样的值来进行行分配,便是是不公平的。。夏普利利值排列ABCACBBACBCACABCBA

A00200150150150B20010000100100C501505010000企业家家的创创造性性也体体现在在他们们能够够在他他人看看不到到的地地方建建立联联盟。。今天天在中中国各各大城城市,,麦当当劳餐餐厅到到处可可见。。它的的成功功因素素是多多方面面的,,然而而其中中一个个重要要因素素便是是“构构建联联盟””。企企业有有足够够的资资本与与技术术不一一定必必然成成功,,成功功还取取决于于管理理。如如何突突破经经营能能力的的局限限呢??下面面我们们看看看麦当当劳是是如何何成功功的。。麦当劳劳公司司成立立于20世纪50年代,,它的的前身身为麦麦当劳劳兄弟弟1937年在美美国的的加利利福尼尼亚开开设的的一家家汽车车餐厅厅。为为了使使生意意做得得更大大,麦麦当劳劳兄弟弟产生生了以以特许许加盟盟的方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论