数据、模型与决策第九讲 博弈论._第1页
数据、模型与决策第九讲 博弈论._第2页
数据、模型与决策第九讲 博弈论._第3页
数据、模型与决策第九讲 博弈论._第4页
数据、模型与决策第九讲 博弈论._第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据、模型与决策数据、模型与决策第九讲第九讲 博弈论博弈论主讲:邓旭东教授主讲:邓旭东教授教学内容教学内容博弈论的产生和发展1博弈论的基本概念与博弈的分类2博弈论的经典模型3Nash均衡解的求解方法4合作博弈5学习目标学习目标 了解博弈论的产生和发展情况了解博弈论的产生和发展情况 掌握博弈及博弈论的概念、博弈论的分类掌握博弈及博弈论的概念、博弈论的分类 了解和掌握博弈论的经典模型了解和掌握博弈论的经典模型 掌握纯策略和混合策略掌握纯策略和混合策略NashNash均衡解的求解方法均衡解的求解方法 掌握联盟博弈及夏普利值的概念,会求解两人掌握联盟博弈及夏普利值的概念,会求解两人联盟和三人联盟情况下

2、的夏普利值联盟和三人联盟情况下的夏普利值 培养应用博弈论于经济与管理实践的意识培养应用博弈论于经济与管理实践的意识博弈论、纳什均衡及核的概念博弈论、纳什均衡及核的概念 博弈论博弈论(Game Theory)(Game Theory)是一门关于决策者在对是一门关于决策者在对决策结果没有完全信息和互动条件下做出理性决策决策结果没有完全信息和互动条件下做出理性决策的理论。的理论。 所谓所谓“互动互动”是指这样一种情况,任何决策者是指这样一种情况,任何决策者决策的结果不仅取决于其自身采取的策略,还取决决策的结果不仅取决于其自身采取的策略,还取决于其他人采取的策略。于其他人采取的策略。 纳什均衡指两人或

3、多人互动的结果:当其他人纳什均衡指两人或多人互动的结果:当其他人所选策略不变时,没有任何人可以通过单方面改变所选策略不变时,没有任何人可以通过单方面改变其策略而取得更好的结果。其策略而取得更好的结果。 核指两个或多个联盟互动的结果:当其他联盟核指两个或多个联盟互动的结果:当其他联盟的策略不变时,没有任何联盟可以通过单方面改变的策略不变时,没有任何联盟可以通过单方面改变其策略而取得对该联盟所有成员更好的结果。其策略而取得对该联盟所有成员更好的结果。一、博弈论的产生和发展一、博弈论的产生和发展20世纪世纪50年代年代,合作博弈发展到全盛期,非合作,合作博弈发展到全盛期,非合作博弈论也开始创立;博弈

4、论也开始创立;20世纪世纪60年代后,非合作博弈得到进一步发展;年代后,非合作博弈得到进一步发展;几十年来,众多的博弈论学者花费了无穷的精力,几十年来,众多的博弈论学者花费了无穷的精力,研究博弈论里博弈的结构,发展纳什均衡点的定义研究博弈论里博弈的结构,发展纳什均衡点的定义,并探讨其实际应用的可能性。,并探讨其实际应用的可能性。现代博弈理论诞生的标志:现代博弈理论诞生的标志:冯冯诺依曼和摩根斯坦诺依曼和摩根斯坦1944年出版的巨著年出版的巨著博弈论博弈论与经济行为与经济行为(The Theory of Games and Economic Behavior)1994年诺贝尔经济学奖:纳什、哈萨

5、尼、泽尔腾年诺贝尔经济学奖:纳什、哈萨尼、泽尔腾1996年诺贝尔经济学奖:莫里斯、维克瑞年诺贝尔经济学奖:莫里斯、维克瑞2001年诺贝尔经济学奖:阿克尔洛夫、斯彭斯、年诺贝尔经济学奖:阿克尔洛夫、斯彭斯、 斯蒂格利茨斯蒂格利茨2005年诺贝尔经济学奖:奥曼、谢林年诺贝尔经济学奖:奥曼、谢林博弈论的产生博弈论的产生和发展博弈论的产生和发展博弈论的发展1994年诺贝尔经济学奖年诺贝尔经济学奖 19941994年的诺贝尔经济学奖,授予了三位对博弈年的诺贝尔经济学奖,授予了三位对博弈论做出奠基性贡献的学者,他们是美国普林斯顿大论做出奠基性贡献的学者,他们是美国普林斯顿大学数学系的纳什(学数学系的纳什(

6、John NashJohn Nash)教授、美国伯克利)教授、美国伯克利加州大学商学院的哈萨尼(加州大学商学院的哈萨尼(John John HarsanyiHarsanyi)教授)教授和德国波恩大学经济学系的泽尔腾(和德国波恩大学经济学系的泽尔腾(ReinhardReinhard SeltenSelten)教授。纳什对博弈论的贡献有两个方面)教授。纳什对博弈论的贡献有两个方面:合作博弈理论中的讨价还价模型,称为纳什讨价合作博弈理论中的讨价还价模型,称为纳什讨价还价解;非合作博弈论方面,这也是他的主要贡还价解;非合作博弈论方面,这也是他的主要贡献所在。纳什对非合作博弈论的主要贡献是他在献所在。纳

7、什对非合作博弈论的主要贡献是他在1950年和年和1951年的两篇论文中在非常一般的意义年的两篇论文中在非常一般的意义上定义了非合作博弈及其均衡解,并证明了均衡解上定义了非合作博弈及其均衡解,并证明了均衡解的存在,由此奠定了非合作博弈论的基础。的存在,由此奠定了非合作博弈论的基础。1996年诺贝尔经济学奖年诺贝尔经济学奖 1996 1996年的诺贝尔经济学奖授予了英国剑桥大学的詹姆斯年的诺贝尔经济学奖授予了英国剑桥大学的詹姆斯莫里莫里斯(斯(James A. James A. MirrleesMirrlees)教授和美国哥伦比亚大学的威廉姆)教授和美国哥伦比亚大学的威廉姆维克维克瑞(瑞(Will

8、iam William VickreyVickrey)教授,表彰他们对信息经济学的贡献。这两)教授,表彰他们对信息经济学的贡献。这两位经济学家分别在位经济学家分别在2020世纪世纪6060年代和年代和7070年代揭示了不对称信息对交易年代揭示了不对称信息对交易所带来的影响,并提出了相应的对策。所带来的影响,并提出了相应的对策。 信息经济学是研究信息不对称条件下交易关系和契约安排的理信息经济学是研究信息不对称条件下交易关系和契约安排的理论。从本质上讲,信息经济学是不对称博弈论在经济学上的应用。论。从本质上讲,信息经济学是不对称博弈论在经济学上的应用。不对称信息指的是某些参与人拥有另一些参与人不拥

9、有的信息。不对称信息指的是某些参与人拥有另一些参与人不拥有的信息。 博弈论是方法论导向的,它研究的是给定信息结构后,寻找最博弈论是方法论导向的,它研究的是给定信息结构后,寻找最可能的均衡结果;信息经济学是以问题导向的,它研究的是给定信可能的均衡结果;信息经济学是以问题导向的,它研究的是给定信息结构后,进行最优的契约安排。息结构后,进行最优的契约安排。 由于信息经济学研究什么是不对称信息情况下的最优交易契约由于信息经济学研究什么是不对称信息情况下的最优交易契约,故又称为契约理论,或机制设计理论。正因为信息不对称,不同,故又称为契约理论,或机制设计理论。正因为信息不对称,不同的制度安排对应不同的经

10、济效率,现在经常讨论的国有企业委托人的制度安排对应不同的经济效率,现在经常讨论的国有企业委托人代理人问题、激励机制问题、产权问题等,都是信息经济学的问代理人问题、激励机制问题、产权问题等,都是信息经济学的问题。题。2001年诺贝尔经济学奖年诺贝尔经济学奖 20012001年的诺贝尔经济学奖授予了三位美国经济学家,他们是伯克利年的诺贝尔经济学奖授予了三位美国经济学家,他们是伯克利加州大学经济系的乔治加州大学经济系的乔治阿克尔洛夫(阿克尔洛夫(George George AkerlofAkerlof)教授、斯坦福)教授、斯坦福大学商学院的迈克尔大学商学院的迈克尔斯彭斯(斯彭斯(Michael Sp

11、enceMichael Spence)教授和哥伦比亚大学)教授和哥伦比亚大学经济系、商学院及国际关系学院的约瑟夫经济系、商学院及国际关系学院的约瑟夫斯蒂格利茨(斯蒂格利茨(Joseph Joseph StiglitzStiglitz)教授。早在)教授。早在2020世纪世纪7070年代,他们就揭示了当代信息经济的核年代,他们就揭示了当代信息经济的核心,认为信息是有价值的。其应用价值对中国目前的改革也有着一定的心,认为信息是有价值的。其应用价值对中国目前的改革也有着一定的指导意义。指导意义。 19701970年,阿克尔洛夫对传统经济学理论提出了挑战,他从分析旧车年,阿克尔洛夫对传统经济学理论提出了

12、挑战,他从分析旧车市场入手,发现在旧车交易中,卖者显然比买者对车辆拥有更多的信息市场入手,发现在旧车交易中,卖者显然比买者对车辆拥有更多的信息,而因为这种信息不对称,买车的人难以完全信任卖车人提供的信息,而因为这种信息不对称,买车的人难以完全信任卖车人提供的信息,因而试图通过低价来弥补其信息上的损失。由于买者出价过低,卖者又因而试图通过低价来弥补其信息上的损失。由于买者出价过低,卖者又不愿提供好的产品,从而导致次货的泛滥,其最终的结果是旧车市场的不愿提供好的产品,从而导致次货的泛滥,其最终的结果是旧车市场的萎缩。阿克尔洛夫就此得出结论:市场放开并不能解决所有问题,信息萎缩。阿克尔洛夫就此得出结

13、论:市场放开并不能解决所有问题,信息是有价值的。斯彭斯则在是有价值的。斯彭斯则在19731973年通过剖析人才市场盛行的造假行为,指年通过剖析人才市场盛行的造假行为,指出人才市场同样存在用人单位与应聘者之间信息不对称的问题,并由此出人才市场同样存在用人单位与应聘者之间信息不对称的问题,并由此造成了人才市场上造成了人才市场上“劣币劣币”驱逐驱逐“良币良币”的现象。斯蒂格利茨则将信息的现象。斯蒂格利茨则将信息不对称这一理论应用到保险和金融市场。不对称这一理论应用到保险和金融市场。2001年诺贝尔经济学奖年诺贝尔经济学奖 这三个人从不同领域探讨了信息不对称问题,指出市这三个人从不同领域探讨了信息不对

14、称问题,指出市场体制需要完善、设计,设计里有最优。这是对传统经济场体制需要完善、设计,设计里有最优。这是对传统经济学的重大突破。学的重大突破。 Akerlof,G.(1970)”The Market for Lemons: Quality Uncertainty and Market Mechanism”,Quarterly Journal of Economics, 84: 488-599. Spence,M.(1973),),”Job Market Signaling”,Quarterly Journal of Economics,87. Rothschild,M. and Stiglit

15、z,J.(1976),),”Equilibrium in Competitive Insurance Market”, Quarterly Journal of Economics 90:629-49.2005年诺贝尔经济学奖年诺贝尔经济学奖 奥曼(奥曼(Robert J. Robert J. AumannAumann)提出了无限次的重复博弈的理论,谢林()提出了无限次的重复博弈的理论,谢林(Thomas C. SchellingThomas C. Schelling)提出了对抗状态下的)提出了对抗状态下的“可置信威胁可置信威胁”等概念,深等概念,深刻地分析了行为选择的条件对博弈均衡结果的影响

16、。刻地分析了行为选择的条件对博弈均衡结果的影响。 奥曼率先提出的奥曼率先提出的“重复博弈重复博弈”分析,目前成为所有社会科学的主流分分析,目前成为所有社会科学的主流分支,并已应用于政治冲突、灌溉系统、国际条约乃至公司相互勾结等各种支,并已应用于政治冲突、灌溉系统、国际条约乃至公司相互勾结等各种各样的问题。各样的问题。 奥曼对冲突与合作策略思想的贡献在于,他运用了逻辑学和数学来理奥曼对冲突与合作策略思想的贡献在于,他运用了逻辑学和数学来理解,当人们每天都面对相同对手或竞争者时,他们所能作出的选择。当策解,当人们每天都面对相同对手或竞争者时,他们所能作出的选择。当策略情形大量重复出现时,即便个体间

17、有直接的利益冲突,达成合作的机率略情形大量重复出现时,即便个体间有直接的利益冲突,达成合作的机率也会上升,因为每个个体在未来时间内,都会与另一方反复打交道。也会上升,因为每个个体在未来时间内,都会与另一方反复打交道。 谢林于谢林于2020世纪世纪6060年代出版年代出版冲突的策略冲突的策略,着力阐述了在双方处于僵,着力阐述了在双方处于僵持时,采取一些策略性手段的重要性。这些手段包括:事先承诺、边缘政持时,采取一些策略性手段的重要性。这些手段包括:事先承诺、边缘政策和有威慑力的威胁。例如,通过限定你自己的选择范围,你就可以使对策和有威慑力的威胁。例如,通过限定你自己的选择范围,你就可以使对手清楚

18、地知道,你将对他们的行动作出何种反应手清楚地知道,你将对他们的行动作出何种反应不管他们采取什么行不管他们采取什么行动,这也就加大了他们作出让步的可能性。动,这也就加大了他们作出让步的可能性。 在地缘政治领域之外,谢林还发现,人通常都是愿意合作的,但当他在地缘政治领域之外,谢林还发现,人通常都是愿意合作的,但当他们在一个团队中完全依理性行事时,则不那么容易合作。们在一个团队中完全依理性行事时,则不那么容易合作。二、博弈论的基本概念与博弈的分类二、博弈论的基本概念与博弈的分类 博弈论的基本概念包括参与人、行动、信息、策略、支博弈论的基本概念包括参与人、行动、信息、策略、支付、结果和均衡。其中,参与

19、人、策略和支付是描述一付、结果和均衡。其中,参与人、策略和支付是描述一个博弈所需要的最少的要素,而行动和信息是其个博弈所需要的最少的要素,而行动和信息是其“积木积木”。参与人、行动和结果统称为。参与人、行动和结果统称为“博弈规则博弈规则”。博弈分。博弈分析的目的是使用博弈规则预测均衡。析的目的是使用博弈规则预测均衡。 参与人参与人是指在一个博弈中能够选择自己的行动方案是指在一个博弈中能够选择自己的行动方案从而使自身的利益最大化的决策主体,即有决策权的参从而使自身的利益最大化的决策主体,即有决策权的参加者。个人或组织团体,参与人是理性的。加者。个人或组织团体,参与人是理性的。 行动行动是参与人在

20、博弈的某个时点的决策变量。当参是参与人在博弈的某个时点的决策变量。当参与人的行动存在先后次序时,后行动者就可以通过观察与人的行动存在先后次序时,后行动者就可以通过观察先行动者的行动选择来获取信息,再决定行动方案。先行动者的行动选择来获取信息,再决定行动方案。 信息信息是参与人有关博弈的知识,特别是有关自然状是参与人有关博弈的知识,特别是有关自然状况、其他参与人的特征、偏好和行动等方面的知识。况、其他参与人的特征、偏好和行动等方面的知识。“理性理性”是共同知识,各参与人的偏好也可能是共同知识是共同知识,各参与人的偏好也可能是共同知识。博弈论的基本概念博弈论的基本概念 策略策略是参与人在给定信息集

21、的情况下的行动规则,是参与人在给定信息集的情况下的行动规则,它规定了参与人在何时何种情况下选择何种行动,是完它规定了参与人在何时何种情况下选择何种行动,是完整的行动方案。各参与人在各自的策略集中选择一个特整的行动方案。各参与人在各自的策略集中选择一个特定的策略所构成的策略组合称为一个局势。定的策略所构成的策略组合称为一个局势。 支付支付是指在博弈论中,对应一个确定的自然状况,是指在博弈论中,对应一个确定的自然状况,参与人各选择一个特定的策略所形成的局势下参与人得参与人各选择一个特定的策略所形成的局势下参与人得到的效用。当自然状况不确定或参与人随机选择其策略到的效用。当自然状况不确定或参与人随机

22、选择其策略时,参与人关心的是期望效用。时,参与人关心的是期望效用。 结果结果是一个博弈各种可能的最终后果,如各参与人是一个博弈各种可能的最终后果,如各参与人的最优策略、最优策略下的效用等。的最优策略、最优策略下的效用等。 均衡均衡是各参与人最优策略所形成的局势,在该局势是各参与人最优策略所形成的局势,在该局势下,没有参与人愿意选择其他的策略。下,没有参与人愿意选择其他的策略。博弈的分类博弈的分类 通过事前交流协商达成有约束力的协议称为合作。通过事前交流协商达成有约束力的协议称为合作。 根据参与人之间是否存在合作,博弈可划分为合作博弈根据参与人之间是否存在合作,博弈可划分为合作博弈和非合作博弈。

23、和非合作博弈。 合作博弈与非合作博弈之间的区别主要在于人们的行为合作博弈与非合作博弈之间的区别主要在于人们的行为相互作用时,当事人能否达成一个具有约束力的协议。相互作用时,当事人能否达成一个具有约束力的协议。如果有,就是合作博弈;反之,则是非合作博弈。如果有,就是合作博弈;反之,则是非合作博弈。 合作博弈强调的是团体理性,强调的是效率、公正、公合作博弈强调的是团体理性,强调的是效率、公正、公平;非合作博弈强调的是个人理性、个人最优决策,其平;非合作博弈强调的是个人理性、个人最优决策,其结果可能是有效率的,也可能是无效率的。结果可能是有效率的,也可能是无效率的。 根据参与人行动的先后顺序,博弈可

24、以划分为静态博弈根据参与人行动的先后顺序,博弈可以划分为静态博弈和动态博弈。静态博弈指的是博弈中,参与人同时选择和动态博弈。静态博弈指的是博弈中,参与人同时选择行动或虽非同时但后行动者并不知道先行动者采取了什行动或虽非同时但后行动者并不知道先行动者采取了什么具体行动;动态博弈指的是参与人的行动有先后顺序么具体行动;动态博弈指的是参与人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。,且后行动者能够观察到先行动者所选择的行动。博弈的分类博弈的分类根据参与人对博弈的整体环境(即自然状况及其他参与人的特征根据参与人对博弈的整体环境(即自然状况及其他参与人的特征、偏好和策略)是否有全面而准

25、确的知识,博弈可划分为完全信、偏好和策略)是否有全面而准确的知识,博弈可划分为完全信息博弈和不完全信息博弈。完全信息指的是每一个参与人对所有息博弈和不完全信息博弈。完全信息指的是每一个参与人对所有其他参与人(对手)的特征、策略空间及支付函数有全面而准确其他参与人(对手)的特征、策略空间及支付函数有全面而准确的知识;否则,就是不完全信息。的知识;否则,就是不完全信息。 行动顺序行动顺序信息信息 静静 态态 动动 态态 完全信息完全信息 完全信息静态博弈;完全信息静态博弈; 纳什均衡;纳什均衡; 纳什(纳什(19501950,19511951) 完全信息动态博弈;完全信息动态博弈; 子博弈精炼纳什

26、均衡;子博弈精炼纳什均衡; 泽尔腾(泽尔腾(19651965)不完全信息不完全信息 不完全信息静态博弈;不完全信息静态博弈; 贝叶斯纳什均衡;贝叶斯纳什均衡; 哈萨尼(哈萨尼(1967-19681967-1968) 不完全信息动态博弈;不完全信息动态博弈; 精炼贝叶斯纳什均衡;精炼贝叶斯纳什均衡; 泽尔腾(泽尔腾(19751975),), Kreps Kreps和和WilsonWilson(19821982),),FudenbergFudenberg和和TiroleTirole(19911991)博弈的分类博弈的分类 博弈论的讨论基于两条:博弈论的讨论基于两条:参与人都是理性参与人都是理性的,

27、他的目标非常明确,就是使自己的效用达到的,他的目标非常明确,就是使自己的效用达到最大;博弈论中的例子是简单而很不实际的,最大;博弈论中的例子是简单而很不实际的,但是它比一些具体实际的复杂的例子更能揭示实但是它比一些具体实际的复杂的例子更能揭示实质,使得很多人即使不去学习博弈论的理论,也质,使得很多人即使不去学习博弈论的理论,也能理解这些例子中提出的问题和分析的方法,这能理解这些例子中提出的问题和分析的方法,这是有指导意义的是有指导意义的。所以我们在学习博弈论的知识。所以我们在学习博弈论的知识时,要注意这些简单而典型的例子,学习分析问时,要注意这些简单而典型的例子,学习分析问题,提出概念,解决问

28、题的过程。题,提出概念,解决问题的过程。三、博弈论的经典模型三、博弈论的经典模型博弈的分类博弈的分类 乙乙 坦白坦白 抵赖抵赖 坦白坦白 甲甲 抵赖抵赖 有两个人因为涉嫌犯罪而被捕,被警方分别关在两个房间内审讯。有两个人因为涉嫌犯罪而被捕,被警方分别关在两个房间内审讯。他们面临的情况是:如果两个人都坦白罪行,那么将各被判处六年有他们面临的情况是:如果两个人都坦白罪行,那么将各被判处六年有期徒刑;如果一方坦白另一方抵赖,那么坦白者从宽,判处一年徒刑,期徒刑;如果一方坦白另一方抵赖,那么坦白者从宽,判处一年徒刑,抗拒者从严,判处八年徒刑;如果两个人均抵赖,则各被判处两年徒抗拒者从严,判处八年徒刑;

29、如果两个人均抵赖,则各被判处两年徒刑。刑。 这样,两个囚徒面临的博弈格局如上图所示,每个格子中左边的这样,两个囚徒面临的博弈格局如上图所示,每个格子中左边的数字是甲的支付(盈利或得益),右边是乙的支付(盈利或得益)。数字是甲的支付(盈利或得益),右边是乙的支付(盈利或得益)。1.1.囚徒困境囚徒困境(the prisoners dilemma)-6,-6-1,-8-8,-1-2,-2博弈的分类博弈的分类划线法划线法解囚徒困境解囚徒困境 乙乙 坦白坦白 抵赖抵赖 坦白坦白 甲甲 抵赖抵赖 (坦白,坦白):(坦白,坦白): 严格优势策略严格优势策略(抵赖,抵赖):(抵赖,抵赖): 严格劣势策略严格

30、劣势策略 实例思考:实例思考: 价格大战、广告大战、优惠大战价格大战、广告大战、优惠大战 合作:合作: “ “双赢对局双赢对局”1.1.囚徒困境囚徒困境(the prisoners dilemma)-6,-6-1,-8-8,-1-2,-2博弈的分类博弈的分类可口可乐可口可乐与与百事可乐百事可乐的的价格大战价格大战 (单位:亿美元)(单位:亿美元) 百事可乐百事可乐 低价低价 高价高价 低价低价 可口可乐可口可乐 高价高价(低价,低价):(低价,低价): 严格优势策略严格优势策略(高价,高价):(高价,高价): 严格劣势策略严格劣势策略多数情形是非合作博弈多数情形是非合作博弈 卡特尔卡特尔 几个

31、大企业联手或勾结形成对行业的垄几个大企业联手或勾结形成对行业的垄断,谋求最大利润而结成的联盟。断,谋求最大利润而结成的联盟。 卡特尔不稳定卡特尔不稳定。 OPECOPEC石油输出国组织石油输出国组织 1.1.囚徒困境囚徒困境(the prisoners dilemma)-3,-30,-5-5,0-1,-1博弈的分类博弈的分类箭头法箭头法解囚徒困境解囚徒困境 乙乙 坦白坦白 抵赖抵赖 坦白坦白 甲甲 抵赖抵赖1.1.囚徒困境囚徒困境(the prisoners dilemma)-6,-6-1,-8-8,-1-2,-2博弈的分类博弈的分类 纳什均衡状态是市场力量相互作用的稳定的结局。纳什均衡状态是

32、市场力量相互作用的稳定的结局。 A A B B 0 1 杂货铺定位杂货铺定位:设想有一个小居民点,居民住宅沿着一条公路均匀:设想有一个小居民点,居民住宅沿着一条公路均匀地排开。现在有两家杂货铺要在这个小居民点开张,他们卖一样的东地排开。现在有两家杂货铺要在这个小居民点开张,他们卖一样的东西,价格也完全一样。那么,两家杂货店开在什么地方好呢?西,价格也完全一样。那么,两家杂货店开在什么地方好呢? 商品一样,价格也一样,居民到哪个杂货铺买东西,就看哪个杂商品一样,价格也一样,居民到哪个杂货铺买东西,就看哪个杂货铺离自己比较近。在杂货铺定位的博弈中,地盘就是市场份额,地货铺离自己比较近。在杂货铺定位

33、的博弈中,地盘就是市场份额,地盘就是经济利益。两个杂货铺在市场竞争的位置博弈中,位于左边的盘就是经济利益。两个杂货铺在市场竞争的位置博弈中,位于左边的要向右靠,位于右边的要向左挤,最后的结局,是两家杂货铺紧挨着要向右靠,位于右边的要向左挤,最后的结局,是两家杂货铺紧挨着位于中点位于中点1/21/2的位置。这就是纳什均衡的位置。因为谁要是单独移开的位置。这就是纳什均衡的位置。因为谁要是单独移开“一点一点”,他就会丧失,他就会丧失“半点半点”市场份额。所以谁都不想偏离中点的位市场份额。所以谁都不想偏离中点的位置。置。2.2.杂货铺定位博弈杂货铺定位博弈博弈的分类博弈的分类 海滩占位海滩占位:据说西

34、方发达国家的不少男男女女有日光浴的爱好,因为它有利:据说西方发达国家的不少男男女女有日光浴的爱好,因为它有利于身体健康。现在设想较长的海滩上比较均匀地散步着许多日光浴者。太阳的照于身体健康。现在设想较长的海滩上比较均匀地散步着许多日光浴者。太阳的照射使人们需要补充水分。假如有射使人们需要补充水分。假如有A A与与B B两个小贩来到海滩,以同样的价格、相同的两个小贩来到海滩,以同样的价格、相同的质量向日光浴者提供同一品牌的矿泉水(或啤酒)。在直线状的海滩上他们应当质量向日光浴者提供同一品牌的矿泉水(或啤酒)。在直线状的海滩上他们应当如何合理地安置自己的摊位呢?如何合理地安置自己的摊位呢? 思考思

35、考:在社会经济领域内,有不少现象与上述杂货铺定位、海滩占位有着相:在社会经济领域内,有不少现象与上述杂货铺定位、海滩占位有着相似之处,从某种意义上也可以用同样的逻辑进行分析和阐述。似之处,从某种意义上也可以用同样的逻辑进行分析和阐述。 超市在商业街的布局问题超市在商业街的布局问题。如果地段的繁华等其他原因可以认为相同的话。如果地段的繁华等其他原因可以认为相同的话,那么,只要条件许可,超市的几乎相依为邻现象完全可以看作公正的市场竞争,那么,只要条件许可,超市的几乎相依为邻现象完全可以看作公正的市场竞争的合理结果。的合理结果。 同城航空公司航班起飞时刻确定问题同城航空公司航班起飞时刻确定问题。同一

36、城市的两家航空公司开辟飞往。同一城市的两家航空公司开辟飞往同一目的地的航班,常出现他们各自的起飞时刻被安排在几乎同一时间的现象。同一目的地的航班,常出现他们各自的起飞时刻被安排在几乎同一时间的现象。 电视台对节目的编排问题电视台对节目的编排问题。人们对电视节目的喜爱存在着一定的档次差异。人们对电视节目的喜爱存在着一定的档次差异,因此电视台对节目的编排将直接影响到收视率。设想如果将高雅艺术节目与较,因此电视台对节目的编排将直接影响到收视率。设想如果将高雅艺术节目与较低档趣味的节目比作海滩的两端,那么观赏电视节目的观众就相当于散步在海滩低档趣味的节目比作海滩的两端,那么观赏电视节目的观众就相当于散

37、步在海滩上的日光浴者。因此不少电视台常将黄金播放时段的文艺节目定位于中等趣味以上的日光浴者。因此不少电视台常将黄金播放时段的文艺节目定位于中等趣味以提高自己的收视率。此外,各电视台中一些内容虽然不同但情调却差不多的娱乐提高自己的收视率。此外,各电视台中一些内容虽然不同但情调却差不多的娱乐节目,常在播放时间上撞车。节目,常在播放时间上撞车。 海滩占位问题在政治学中也可以找到类似的案例海滩占位问题在政治学中也可以找到类似的案例。2.2.杂货铺定位博弈杂货铺定位博弈博弈的分类博弈的分类 女方女方 足球足球 芭蕾芭蕾 足球足球 男方男方 芭蕾芭蕾 情侣博弈与经济决策的关系情侣博弈与经济决策的关系 两个

38、相邻的企业都要解决各自的供水问题。如果他们各干各的,成本就会两个相邻的企业都要解决各自的供水问题。如果他们各干各的,成本就会比较高,效益就没有那么好。如果两个企业联合起来一起投资建设共用的供水比较高,效益就没有那么好。如果两个企业联合起来一起投资建设共用的供水系统,效益就会比较好。但是在选定合作方案的时候,由于各种因素,在携手系统,效益就会比较好。但是在选定合作方案的时候,由于各种因素,在携手合作的大前提下,还是可能有小算盘的考虑。你想这样,他想那样,这也是人合作的大前提下,还是可能有小算盘的考虑。你想这样,他想那样,这也是人之常情。这种合作比不合作好,但是在合作的大局下面又不免有小算盘、不免

39、之常情。这种合作比不合作好,但是在合作的大局下面又不免有小算盘、不免打小九九的对局,这就是情侣博弈。打小九九的对局,这就是情侣博弈。3.3.情侣博弈情侣博弈(Battle of sexes)2,10,0-1,-11,2博弈的分类博弈的分类 乙乙 猎鹿猎鹿 打兔打兔 猎鹿猎鹿 甲甲 打兔打兔 4 4只兔子管只兔子管4 4天,天,1 1只鹿各管只鹿各管1010天。天。 经济体制改革:经济体制改革: 苏欧苏欧“振荡疗法振荡疗法”或或“休克疗法休克疗法”,一步到位,社会损失大;中国,一步到位,社会损失大;中国“渐进式改革渐进式改革”、“摸着石头过河摸着石头过河”,社会损失小,社会损失小, 体制外体制外

40、 体制内体制内4.4.猎人博弈和帕累托优势猎人博弈和帕累托优势10,100,44,04,4博弈的分类博弈的分类 B B鸡鸡 进进 退退 进进 A A鸡鸡 退退 两只鸡两只鸡A A和和B B过独木桥,双方都可以选择进退,如果双方过独木桥,双方都可以选择进退,如果双方都选择进,则双方就都成了落汤鸡。如果一进一退,则有一都选择进,则双方就都成了落汤鸡。如果一进一退,则有一方可以过桥,另一方收益为方可以过桥,另一方收益为0 0。各自的收益如上图所示。各自的收益如上图所示。 在这个博弈问题中,一进一退是博弈的格局。在这个博弈问题中,一进一退是博弈的格局。 5.5.斗鸡博弈斗鸡博弈-3,-32,00,20

41、,0博弈的分类博弈的分类 小猪小猪 按按 等等 按按 大猪大猪 等等 猪圈里有一大一小两头猪,猪圈的一端有一个猪食槽,另一端安装猪圈里有一大一小两头猪,猪圈的一端有一个猪食槽,另一端安装了一个控制猪食供应的按钮。按一下按钮会有了一个控制猪食供应的按钮。按一下按钮会有1010个单位的猪食进槽,但个单位的猪食进槽,但谁按按钮谁就需付出相当于谁按按钮谁就需付出相当于2 2个单位猪食的成本。个单位猪食的成本。 大猪先到:大猪先到: 大猪吃大猪吃9 9个,小猪吃个,小猪吃1 1个个 同时到:同时到: 大猪吃大猪吃7 7个,小猪吃个,小猪吃3 3个个 小猪先到:小猪先到: 大猪吃大猪吃6 6个,小猪吃个,

42、小猪吃4 4个个6.6.智猪博弈和搭便车行为智猪博弈和搭便车行为5,14,49,-10,0博弈的分类博弈的分类 乙乙 受贿受贿 不受贿不受贿 受贿受贿 甲甲 不受贿不受贿 实际上许多博弈问题就存在多个实际上许多博弈问题就存在多个Nash均衡解,这为预均衡解,这为预测带来困难,引起测带来困难,引起Nash均衡解的精炼问题。均衡解的精炼问题。 并且不是任何问题都有纯策略并且不是任何问题都有纯策略Nash均衡解。均衡解。7.7.串谋博弈和高薪养廉串谋博弈和高薪养廉9,90,88,07,7博弈的分类博弈的分类 守卫守卫 睡睡 不睡不睡 偷偷 小偷小偷 不偷不偷 一小偷欲偷窃有一守卫看守的仓库,如果小偷

43、去偷窃时守卫在睡一小偷欲偷窃有一守卫看守的仓库,如果小偷去偷窃时守卫在睡觉,则小偷就能得手,假设小偷得手可得价值为觉,则小偷就能得手,假设小偷得手可得价值为V V的赃物;但如果小的赃物;但如果小偷去偷窃时守卫没有睡觉,则小偷就要被抓住,如被抓住则要坐牢,偷去偷窃时守卫没有睡觉,则小偷就要被抓住,如被抓住则要坐牢,坐牢的负效用为坐牢的负效用为-P(-P(设其单位与赃物的价值相同设其单位与赃物的价值相同) ),再设守卫睡觉而未,再设守卫睡觉而未被偷则有被偷则有S S的正效用;睡觉遭偷则要被解雇,解雇的负效用为的正效用;睡觉遭偷则要被解雇,解雇的负效用为-D-D,其,其单位与单位与S S的单位相同。

44、如果小偷不偷,则他既无得也无失;守卫不睡的单位相同。如果小偷不偷,则他既无得也无失;守卫不睡则出一份力挣一份工资同样也是既无得也无失。则出一份力挣一份工资同样也是既无得也无失。 8.8.小偷与守卫的博弈小偷与守卫的博弈V,-D-P,00,S0,0图解方法图解方法求解求解守卫期守卫期 小偷期小偷期 望得益望得益 望得益望得益 (睡)(睡)S S (偷)(偷) V Pt* 小偷偷小偷偷 Pg* 守卫睡守卫睡 0 Pt 1 的概率的概率 0 Pg 1 的概率的概率 D -P D -P (a) (b)图图 小偷与守卫的混合策略小偷与守卫的混合策略8.8.小偷与守卫的博弈小偷与守卫的博弈代数方法代数方法

45、求解求解 设小偷选择偷的概率为设小偷选择偷的概率为p pt t,则选择不偷的概率为,则选择不偷的概率为1-P1-Pt t,那么守卫,那么守卫选择睡觉的期望支付为选择睡觉的期望支付为E E睡睡=(-D)=(-D)P Pt tS S(1-P(1-Pt t)=S-()=S-(D+S)D+S)P Pt t 守卫选择不睡觉的期望支付为守卫选择不睡觉的期望支付为E E不睡不睡=0=0P Pt t0 0(1-P(1-Pt t)=0)=0 要达到一种均衡状态,小偷选择偷与不偷不能让守卫在选择睡觉要达到一种均衡状态,小偷选择偷与不偷不能让守卫在选择睡觉与不睡觉之间有明显的倾向性。因此,必然有与不睡觉之间有明显的

46、倾向性。因此,必然有E E睡睡= E= E不睡不睡于是可求得于是可求得 当当D D不变,而不变,而S S增加时,增加时,P Pt t会增加;而当会增加;而当S S不变,增加不变,增加D D时,时,P Pt t会降会降低。由此可见,加重对失职守卫的惩罚,在长期中会起到抑制盗窃的低。由此可见,加重对失职守卫的惩罚,在长期中会起到抑制盗窃的作用;当对守卫实施的惩罚不变,而提高其待遇,意味着作用;当对守卫实施的惩罚不变,而提高其待遇,意味着S S的增加,的增加,反而会使盗窃现象更为严重(反而会使盗窃现象更为严重(P Pt t增加)。增加)。8.8.小偷与守卫的博弈小偷与守卫的博弈tSpSD 设守卫选择

47、睡的概率为设守卫选择睡的概率为p pg g,则选择不睡的概率为,则选择不睡的概率为1-p1-pg g,那么小偷选,那么小偷选择偷的期望支付为择偷的期望支付为 小偷选择不偷的期望支付为小偷选择不偷的期望支付为 要达到一种均衡状态,守卫选择睡与不睡不能让小偷在选择偷与不要达到一种均衡状态,守卫选择睡与不睡不能让小偷在选择偷与不偷之间有明显的倾向性。因此,必然有偷之间有明显的倾向性。因此,必然有于是可求得于是可求得 当当V V不变,而不变,而P P增加时,增加时,p pg g会增加,由此可见,加重对小偷的惩罚虽会增加,由此可见,加重对小偷的惩罚虽然在短期中能抑制盗窃,但在长期中却只能使守卫多睡觉(然

48、在短期中能抑制盗窃,但在长期中却只能使守卫多睡觉(p pg g增加),增加),盗窃的情况却不会有什么改善,反而,由于守卫选择睡觉的概率增加了盗窃的情况却不会有什么改善,反而,由于守卫选择睡觉的概率增加了,小偷选择偷的概率会增加,长期来看盗窃现象甚至会更为严重。,小偷选择偷的概率会增加,长期来看盗窃现象甚至会更为严重。 8.8.小偷与守卫的博弈小偷与守卫的博弈gPpVPEE偷不偷() (1)()gggEVpPpVPpP 偷00 (1)0ggEpp 不睡 蜈蚣博弈模型是蜈蚣博弈模型是RosenthsalRosenthsal在在19811981年提出的,它是动态年提出的,它是动态博弈的例子,其模型称

49、为扩展型博弈模型,是用树来对博弈博弈的例子,其模型称为扩展型博弈模型,是用树来对博弈过程做结构化处理。过程做结构化处理。 A A A A A A A A A A A A (100,100)(100,100) D D D D D DD D D D D D (1,1) (0,3) (98,98) (97,100)(99,99) (98,101)(1,1) (0,3) (98,98) (97,100)(99,99) (98,101) 这个博弈的结果是(这个博弈的结果是(1 1,1 1)。)。 求解过程要用到逆向归纳法,即从动态博弈的最后一个求解过程要用到逆向归纳法,即从动态博弈的最后一个阶段博弈方的

50、行为开始分析,逐步倒推回前一个阶段相应博阶段博弈方的行为开始分析,逐步倒推回前一个阶段相应博弈方的行为选择,一直到第一个阶段的分析方法。弈方的行为选择,一直到第一个阶段的分析方法。9.9.蜈蚣博弈蜈蚣博弈1.1.重复剔除严格劣势策略法重复剔除严格劣势策略法 下面用一个例子说明重复剔除严格劣势策略的求解方法。下面用一个例子说明重复剔除严格劣势策略的求解方法。 博弈方博弈方 左左 中中 右右 上上 博弈方博弈方 下下 首先由上表可知,博弈方首先由上表可知,博弈方与与都没有优势策略,所以不存在优都没有优势策略,所以不存在优势策略均衡解。从博弈方势策略均衡解。从博弈方来看,其上下策略中没有哪一个是严格

51、劣来看,其上下策略中没有哪一个是严格劣势策略,但从博弈方势策略,但从博弈方来看,右策略严格劣于中策略,故可将右策略来看,右策略严格劣于中策略,故可将右策略剔除。这时就简化为下表表示的博弈。剔除。这时就简化为下表表示的博弈。四、四、NashNash均衡解的求解方法均衡解的求解方法1,01,30,10,40,22,0博弈方博弈方 左左 中中 上上 博弈方博弈方 下下 观察上表的博弈又可发现,观察上表的博弈又可发现,“下下”是博弈方是博弈方的严格劣势策略,的严格劣势策略,因此下策略可剔除,这样又可得表如下。因此下策略可剔除,这样又可得表如下。 博弈方博弈方2 2 左左 中中 博弈方博弈方1 1 上上

52、 观察上表又发现,左是博弈方观察上表又发现,左是博弈方的严格劣势策略,剔除左策略就的严格劣势策略,剔除左策略就得博弈的均衡解(上,中)。得博弈的均衡解(上,中)。纯策略纯策略NashNash均衡解的求解方法均衡解的求解方法1,01,30,40,21.01,3 数学上已经证明,在数学上已经证明,在n n人博弈人博弈G=SG=S1 1, ,S Sn n;u;u1 1,u,un n 中中,重复剔除严格劣势策略最后若只剩下唯一的策略对,则此,重复剔除严格劣势策略最后若只剩下唯一的策略对,则此策略对一定是纯策略对一定是纯NashNash均衡解;而且重复剔除严格劣势策略不均衡解;而且重复剔除严格劣势策略不

53、会消去会消去NashNash均衡解。由此可见,在求均衡解。由此可见,在求NashNash均衡解前,先用重均衡解前,先用重复剔除严格劣势策略法,即使常常不能求出复剔除严格劣势策略法,即使常常不能求出NashNash均衡解,也均衡解,也可能简化博弈问题。可能简化博弈问题。 重复剔除严格劣势策略与纯策略重复剔除严格劣势策略与纯策略NashNash均衡解的关系均衡解的关系 2.2.划线法划线法 下面用同一个例子来介绍求解纯策略下面用同一个例子来介绍求解纯策略NashNash均衡解的划线法。均衡解的划线法。 博弈方博弈方 左左 中中 右右 上上 博弈方博弈方 下下 博弈方博弈方考虑,若考虑,若方取左策略

54、,自己的最大收益为方取左策略,自己的最大收益为1 1,故在,故在1 1下面划一条下面划一条短线;若短线;若方取中策略,自己的最大收益也为方取中策略,自己的最大收益也为1 1,故在第二列数字,故在第二列数字1 1下面划一条下面划一条短线;若短线;若方取右策略,自己的最大收益为方取右策略,自己的最大收益为2 2,故在,故在2 2下面划一条短线。博弈方下面划一条短线。博弈方也作同样考虑,给数字也作同样考虑,给数字3 3、数字、数字4 4下面都划了短线。最后数对下面都划了短线。最后数对1 1,3 3下面都有短下面都有短划线,对应的策略对为(上,中),这样划线法就求得此博弈的解。划线,对应的策略对为(上

55、,中),这样划线法就求得此博弈的解。 划线法的思路是,每个博弈方找出在其他博弈方每一个策略或策略组合下划线法的思路是,每个博弈方找出在其他博弈方每一个策略或策略组合下的自己的最佳收益并划一条线,那么若某组数都被划线,就意味着这组数中的的自己的最佳收益并划一条线,那么若某组数都被划线,就意味着这组数中的每一个都是在别人策略固定时自己的最佳收益,因此谁也不愿意单方面改变自每一个都是在别人策略固定时自己的最佳收益,因此谁也不愿意单方面改变自己的与此最佳收益对应的策略,根据己的与此最佳收益对应的策略,根据NashNash均衡解的定义,这时的策略组合就是均衡解的定义,这时的策略组合就是NashNash均

56、衡解。均衡解。划线法划线法1,01,30,10,40,22,0 3.3.反应函数法反应函数法 实际上实际上NashNash均衡解的概念也可推广到连续策略、无限策略的博弈中。这时均衡解的概念也可推广到连续策略、无限策略的博弈中。这时常常用反应函数法来求常常用反应函数法来求NashNash均衡解。均衡解。 反应函数即一博弈方对另一博弈方每一可能策略的最佳反应策略所构成的反应函数即一博弈方对另一博弈方每一可能策略的最佳反应策略所构成的函数。函数。 例例 设博弈双方的策略变量分别为设博弈双方的策略变量分别为q q1 1及及q q2 2,q q1 1及及q q2 2都在区间都在区间(0(0,20)20)

57、取值,取值,双方同时选择策略。双方同时选择策略。 博弈方博弈方1 1与与2 2的收益函数分别为的收益函数分别为u u1 1,u u2 2且且u u1 1=6q=6q1 1-q-q1 1q q2 2-q-q1 12 2u u2 2=6q=6q2 2-q-q1 1q q2 2-q-q2 22 2 博弈方博弈方1 1针对博弈方针对博弈方2 2的任一策略的任一策略q q2 2的策略选择是求最大化问题的策略选择是求最大化问题Max uMax u1 1=max(6q=max(6q1 1-q-q1 1q q2 2-q-q1 12 2) ) q q1 1令令u u1 1对对q q1 1的导数等于零,可得的导数

58、等于零,可得q q1 1=R=R1 1(q(q2 2)=1/2(6-q)=1/2(6-q2 2) )这就是博弈方这就是博弈方1 1对博弈方对博弈方2 2任一策略任一策略q q2 2的最佳反应,即是其反应函数。的最佳反应,即是其反应函数。 同样,博弈方同样,博弈方2 2针对博弈方针对博弈方1 1的任一策略的任一策略q q1 1的策略选择是求解最大化问题的策略选择是求解最大化问题Max uMax u2 2=max(6q=max(6q2 2-q-q1 1q q2 2-q-q2 22 2) ) q q2 2博弈方博弈方2 2对博弈方对博弈方1 1任一策略任一策略q q1 1的最佳反应,即反应函数为的最

59、佳反应,即反应函数为q q2 2=R=R2 2(q(q1 1)=1/2(6-q)=1/2(6-q1 1) ) 显然可用坐标平面的两条直线表示这两条反应函数,如图所示。显然可用坐标平面的两条直线表示这两条反应函数,如图所示。 反应函数法反应函数法 q q2 2 (0,6) (0,6) R R1 1(q(q2 2) ) (0,3) (0,3) (2,2) (2,2) 2 R 2 R2 2(q(q1 1) ) 0 2 (6,0) 0 2 (6,0) 如图可得这两条反应函数直线的交点为如图可得这两条反应函数直线的交点为(2(2,2)2),(2(2,2)2)即为即为NashNash均衡解均衡解,因为这是

60、博弈双方共同的最佳反应点,因而谁也不愿意单方面离开这,因为这是博弈双方共同的最佳反应点,因而谁也不愿意单方面离开这一点。当然用求解方程组的方法也可求出此问题的一点。当然用求解方程组的方法也可求出此问题的NashNash均衡解。均衡解。反应函数法反应函数法 在没有纯策略在没有纯策略NashNash均衡解时,可以寻找混合策略均衡解时,可以寻找混合策略NashNash均衡解。均衡解。 定义定义:对策略式博弈:对策略式博弈G=SG=S1 1,S,Sn n;u;u1 1,u,un n ,假设博弈方,假设博弈方i i的策略的策略集合为集合为S Si i=s=si1i1,s sikik ,p pikik表示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论