博弈论课件(决策理论与方法)武俊霖

上传人：s*** IP属地：浙江上传时间：2023-09-25 格式：PPTX 页数：174 大小：1.38MB 积分：38 举报 版权申诉

已阅读5页，还剩169页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

博弈论课件(决策理论与方法)武俊霖第一页，共174页。2博弈论概述与天斗，与地斗，与人斗，其乐无穷

第一页第二页，共174页。31.1博弈论的渊源与地位

--从经济学帝国主义到博弈论强权经济学研究什么?

理性人、合作与非合作

美女不该开名车吗？第二页第三页，共174页。4博弈论的非技术定义赌博+对弈理性决策+科学决策参与人在决策时既要最大化自身利益也要考虑到:这个结果对其他参与人的影响和反馈，进而在此基础上“重新”做出最优决策。

Eg1:一场风花雪月的故事----面对认真的誓言，你能找到最爱你的人了吗？第三页第四页，共174页。5博弈论的起源与发展1、在中国：孔子—己所不欲，勿施于人孙子—以奇胜、以正合庄子—庄周梦蝶与鱼之乐老子—俗人昭昭，我独昏昏；俗人察察，我独闷闷

博弈论（gametheory）又称对策论、游戏理论或策略运筹学。应用于经济学、政治学、公共选择、军事学、外交、犯罪学等方面。特点：强调个人理性，追求给定条件下效用最大化。第四页第五页，共174页。博弈论历史和发展在国外1710年莱布尼茨提出1713年瓦德格拉夫提出了两人博弈的极小化极大混合策略解1838年和1883年古诺和伯特兰德提出了博弈论最经典模型（古诺寡头竞争模型）1944年，冯.诺依曼和奥斯卡.摩根斯坦合作《博弈论与经济行为》6第五页第六页，共174页。（1）早期研究古诺寡头模型（1838年）关于寡头之间通过常量决策进行竞争的模型伯特兰德模型（1883年）通过价格进行博弈的寡头竞争模型逆推归纳法（1913年，齐默罗）第一种有一般意义的分析方法两人博弈的极小化极大解（1921－1927年，雷波尔）有限策略的两人零合博弈有确定的结果（1928年，诺依曼）7第六页第七页，共174页。（2）博弈论的形成1944年，冯。诺依曼和奥斯卡.摩根斯坦合作《博弈论与经济行为》博弈论的起点引进了博弈论的扩展形、矩阵形表示，定义了极小化极大解，并说明这种解在所有两人零和博弈中存在，且提出了稳定集解的概念。该书标志着博弈理论从数学领域进入经济学领域8第七页第八页，共174页。（3）博弈论的成长和发展少年时期（20世纪40年代末和50年代初）博弈论思想和研究方法应用于第二次世界大战军事领域。标志人物：纳什1950年将博弈论扩展到非零和博弈，形成以纳什均衡概念为核心的非合作博弈的基础理论。青年时期（50年代中后期到70年代）1954－1955年提出了“微分博弈”的概念，奥曼（“强均衡”，1959）（“重复博弈”1960）及民间定理，焦点等概念，并应用于进化生物学。赛尔腾（相机计划，子博弈完美纳什均衡，1965）（颤抖手均衡，1975）；海萨尼（贝叶斯纳什均衡，混合策略不完全信息解释，严格纳什均衡，1967－1972）9第八页第九页，共174页。（4）博弈论的成熟及与主流经济学的融合成熟时期（20世纪80－90年代）开始贯穿于整个微观经济学，产业组织理论，在环境、劳动、福利、国际经济学等学科中开始占越来越重要地位。1994年，纳什、海萨尼、赛尔顿获得经济学诺贝尔奖。顺推归纳法（Elon，1981）序列均衡（Kreps，Wilson，1982）可理性化性（Berheim,1984）非合作和合作博弈中均衡选择的一般理论（海萨尼&赛尔腾，1988）完美贝叶斯均衡（tirole泰勒尔，1991）10第九页第十页，共174页。（5）博弈论的成熟及与主流经济学的融合发展迅速的原因现代经济活动规模越来越大，对抗性、竞争性越来越强，特别是寡头垄断或垄断竞争市场，竞争和决策较量成为核心内容，使得人民重视经济活动的环境条件及其变化，越来越重视竞争者或合作者的反应，因此经济决策的“博弈性”越来越强。11第十页第十一页，共174页。123、实用价值：理性人实现最大化时即需要合作也存在冲突，如何解决，需要一个制度或规则（约束条件或战略）。如：价格机制、排队机制

但价格机制常不能实现“帕累拖最优”，通过其他制度或博弈可以解决存在外部经济时的合作问题。

第十一页第十二页，共174页。131.2博弈论的分类按形式分

cooperativegame:参与人之间能达成具有约束力的协议（bindingagreement),并决定如何分享合作带来的剩余。特性：强调集体理性，做集体最优化决策。Eg:欧配克组织；串供；团队进步与个人工作量安排Non-cooperativegame:参与人之间不能达成bindingagreement。特性：强调个体理性，各自做最优化决策，常和集体理性相矛盾。第十二页第十三页，共174页。14

Eg2:一个模拟：中、美、俄的核战争真的打响了会怎么样？

2108年，中、美、俄三国争霸世界，爆发全面战争，即将升级为核战争。当时局势是，美国核力量最强、俄国次之，中国最弱。由于核战争没有第2轮，只有第一轮，中央军委紧急研究，一旦核战争打响，三国将进行乱战，结果如何决定了我方是否选择开启“核按钮”？如果你是总参的军事数学家，你认为如果开战，哪国幸存下来的机会最大？哪国的危险最大？Eg1:交通灯故障与拥挤第十三页第十四页，共174页。15按信息与时序分完全信息静态博弈-Nashequilibrum完全信息动态博弈—SubgameperfectNashequi不完全信息静态博弈-BayesianNashequi不完全信息动态博弈-PerfectBayesianNashequi按时间还可以分为序贯博弈和静态博弈；重复博弈和一次性博弈第十四页第十五页，共174页。16完全信息静态博弈

纳什均衡：所有参与人选择这样一组战略组合，在这个组合下，给定别人的战略，任何参与人没有动机选择其他的战略。

或说，所有当事人形成了一个显性或隐性的契约，该契约是“self-enforcing”的，即：给定别人遵循该契约，则其他人没有动机违背该契约，我们说，此时的契约构成纳什均衡。

Eg1:不得不举的例子—囚徒困境第十五页第十六页，共174页。17囚徒B坦白抵赖囚徒A坦白（-8，-8）（0，-10）抵赖（-10，0）（-1，-1）纳什均衡是帕累拖最优点吗？

一个问题：需要防范串供吗？如果两个囚徒在被抓之前串供了，这对警察来说重要吗？在什么情况下警察需要防范串供？第十六页第十七页，共174页。18

囚徒的话：1、集体理性和个人理性常常是冲突的：民主常常不能代表“民意”；公司好不见得你就好；如果我们都强大了，国家不见得就强大了……2、承认人是自私的，一切都好办了。

答案简评：可置信的承诺或信用会改变支付矩阵，如，囚徒A是江湖老大，他对B说“如果你坦白了，我在外面的兄弟会杀了你全家”，同时，这个承诺/威胁如果是可置信的，或是，B相信A是讲义气的，他一定不会坦白，则均衡位置在帕累拖最优的位置上。第十七页第十八页，共174页。19Eg2:纳什均衡是唯一的吗？美国打了越南，打了阿富汗，打了伊拉克，也已经打过朝鲜，它还会再打朝鲜吗？如果美国智库计算出如下简化的支付矩阵，那么结果会怎样呢？美国会打朝鲜吗朝鲜抵抗妥协美国打（-10，-100）（300，50）不打（0，300）（0，200）同时有两个纳什均衡第十八页第十九页，共174页。20--简单世界到真实世界的博弈发展不是我不明白这世界变化快

第十九页第二十页，共174页。21一、博弈的基本术语参与人player:博弈中的决策主体，其目的是最大化自己的支付。环境参数:博弈中不做决策的主体，如囚徒困境中的警察。虚拟参与人pseudo-player:对外生状态的概率分布进行决定的主体，博弈论中通常叫“自然”（nature)行动action：参与人的决策变量或决策手段。第二十页第二十一页，共174页。22信息information：参与人掌握的有关其他参与人的特征与行动结果、“自然”的选择结果、博弈过程与结果的相关知识信息集informationset：所有信息的集合。共同知识commonknowledge:参与人之间无限循环知道的信息。一致信念concordantbelief：在参与人间有限循环知道的信息。如，我知道你是女的，你也知道我是男的，但我并不知道你知道我是男的。第二十一页第二十二页，共174页。23战略strategy：规定参与人在给定的信息集下采取的行动规则（可能是一个行动组合）。静态博弈中战略=行动；动态博弈中战略=一定条件下的行动或行动组合。如：如果美国进攻朝鲜，则朝鲜进行抵抗。支付payoff:即效用或期望效用。参与人的支付不仅取决于自身的战略，而且取决于其他参与人的战略，即第二十二页第二十三页，共174页。24结果outcome:参与人感兴趣的所有东西，但一般指在一定博弈阶段或博弈局部的支付结果。均衡equilibrium:即所有参与人的最优战略组合！

NOTE：是所有参与人！何谓“最优战略”？第二十三页第二十四页，共174页。25假设只有3个参与人，则为最优战略，当且仅当：第二十四页第二十五页，共174页。26二、简介：完全信息动态博弈

子博弈精练纳什均衡：参与人的行动有前有后，后行动者可以看见先行动者的所有信息和结果，并且双方是完全信息的，在所有子博弈中都是最优的纳什均衡。精练是意思是：在纳什均衡中将不可置信的均衡剔除掉。

子博弈：整个博弈中的一个阶段性博弈或决策，如爱情与婚姻是个博弈，则恋爱—结婚—生孩子—离婚都是子博弈，甚至婚外情也是子博弈。

精练纳什均衡：当且仅当参与人的战略在每一个子博弈中都构成纳什均衡时，该均衡才是精练纳什均衡。静态时的其他纳什均衡被剔除掉。第二十五页第二十六页，共174页。27美国到底会打朝鲜吗？动态的情况预测结果和伊拉克战争很相似！！！打美国不打抵抗妥协朝鲜（-10，-100）（300，50）朝鲜抵抗妥协（0，300）（0，200）第二十六页第二十七页，共174页。28三、简介：不完全信息静态博弈一个参与人可能并不了解其他参与人的偏好、战略空间和支付函数。此时参与人不知道对手的情况，他怎么敢于作出决策呢？1967年以前，这个问题无法解决。补充知识：完全信息与完美信息

1967年，Harsanyi提出“Harsanyi转换”：引入虚拟的参与人—“自然”，自然最先行动，选择参与人的“类型”，被选择的参与人知道自己的类型，其他参与人只知道其概率分布，且该概率分布是“共同知识”。第二十七页第二十八页，共174页。29完全（但不完美）信息：自然做出了选择，其他参与人不知道它具体的选择是什么，但知道其概率分布。完美信息：自然做出了选择，其他参与人都看到了它的具体选择是什么。一个例子：招聘博弈

“Harsanyi”转换将不完全信息转化为完全但不完美信息！！！第二十八页第二十九页，共174页。30自然1-xx优秀求职者平庸求职者招聘单位递简历不递简历10,100,0招聘-5,00,0不招聘递简历不递简历招聘-10,100,0不招聘0,-50,0静态博弈,同时行动,则当遇上一个递简历者,招聘单位招聘的期望收益是:10x+(-10)(1-x)=20x-10当遇上一个递简历者,招聘单位不招聘的期望收益是:0x+0(1-x)=0所以,只有当20x-10>0即x>1/2时,招聘才是有利的,此时,(x>1/2招聘)叫贝叶斯纳什均衡.第二十九页第三十页，共174页。31四、简介：不完全信息动态博弈靠什么来修正先验概率?

在动态博弈中,后行动者可以看见先行动者的信息,以修正自己之前对之类型的判断(概率分布).先行动者知道这个结果,在行动时就会故意扭曲或隐瞒其信息,即以后行动者知道自己的行为为条件来选择自己的最优行动策略.靠贝叶斯条件概率:第三十页第三十一页，共174页。32

中国需要说“不”吗?如果中国先行动,美国后决定对华政策,则美国将根据中国的对日政策来修正自己的政策.中国也知道这个情况,则中国会选择,如果中国是强大的,中国可能会用更强硬的对日政策.精练贝叶斯均衡是:(中国国力差时选择柔软的对日政策,美国不对中国强硬;中国国力强大时选择强硬对日政策,美国对中国怀柔)

信号传递模型：就业市场、要专业还是要学校？看学历,更看名牌的学历!!第三十一页第三十二页，共174页。33

关于纯战略纳什均衡（之一）平衡在理性的钢丝上

第三十二页第三十三页，共174页。34一、奠基者与启示录1、一个问题：用食指当牙刷怎么刷牙？

答：天才和傻子只一步之遥。NASH就是这样的天才。John.Nash

游荡普林30年的幽灵！

2005年6月12日北京1台曾涛采访NASH

在北京演讲《理想货币与渐进理想货币》，试图创造一种没有通货膨胀的货币22岁的文章为获奖成果

在中国，与陈省身交情最好。

对北京的高楼最惊讶第三十三页第三十四页，共174页。352、第2个问题：Nash创造了什么？国外的每本经济学教材中都需要讲授博弈论。博弈论带动了最尖端的数学知识和数理工具在经济学中的运用，帮助一大批经济学家在主流的舞台上扬名立万、光耀史册！博弈论成为了整个微观经济学的最基础分析方法，几乎“吞没了整个经济学”。第三十四页第三十五页，共174页。36一声叹息：

不懂得博弈论的经济学和管理学学生和学者，就象是一位在晚礼会上身穿着燕尾服却下身只穿了一条沙滩短裤的舞者，舞技再高，仍感到无尽的悲凉和恐慌！第三十五页第三十六页，共174页。37二、技术定义战略表达式：若支付函数是离散的，则也可以用矩阵来表达1

eg:两寡头产量博弈的战略表达式第三十六页第三十七页，共174页。(1)占优策略局中人的最优策略不依赖于其他局中人的选择，则称该局中人有占优策略。如果某策略组合中的每一个策略都是局中人各自的占优策略，此策略组合称为占优均衡。囚徒困境中的（坦白，坦白）就是占优均衡，坦白是每个囚徒的占优策略。但并不是每个博弈，每个局中人都有占优策略。3.完全信息静态博弈博弈的解法AB坦白不坦白坦白-8，-80，-10不坦白-10，0-1，-1第三十七页第三十八页，共174页。(2)严格劣策略的逐次消去法

定义不管其他局中人的策略如何变化，某一策略S总比另一策略S′带来的支付大，则称S是S′的严格优策略，而称S′是S的严格劣策略。

0，010，6不按-4，204，8按钮不按按钮大猪小猪智猪博弈（剔除博弈）第三十八页第三十九页，共174页。(3)划线法AB坦白不坦白坦白-8，-80，-10不坦白-10，0-1，-1猜硬币者盖硬币者正面反面正面-1，11，-1反面1，-1-1，1注A：并非所有的博弈均有稳定的解。如右图所示抛硬币博弈第三十九页第四十页，共174页。注B：稳定性并非是确定性——可能有多个稳定性的结果性别之争斗鸡游戏A

B进退进-3，-32，0退0，20，0男

女看足球逛街看足球5，10-1，-1逛街3，310，5第四十页第四十一页，共174页。

(4)箭头法：局中人能否通过单独改变自己的策略，而改善自己的支付。-1，-1-10，0不坦白0，-10-8，-8坦白不坦白坦白AB第四十一页第四十二页，共174页。注A：没有稳定解的情况注B：有多个稳定解的情况-1，11，-1反面1，-1-1，1正面反面正面猜硬币者盖硬币者10，53，3逛街-1，-15，10看足球逛街看足球男

女第四十二页第四十三页，共174页。44三、纯战略NASHEQUI的解法1、Dominantstrategyequi（占优战略遴选法）

每个参与人如果都有占优战略，则其如下组合就是“占优NASH均衡”

第四十三页第四十四页，共174页。45eg:占优均衡的例子爱在心里口难开女说不说男说10,10-5,20不说20,-50,0占优纳什均衡帕累拖均衡特点：1、均衡是唯一的！2、参与人不需要对方的“理性”是共同知识，只需要自己是理性的就可以了！第四十四页第四十五页，共174页。462、重复剔除劣战略法方法：通过重复剔除劣战略（如果有的话），则剩下的唯一组合就是“占优均衡”。此时我们说这样的博弈是

dominancesoluable(重剔可解的）注意：如果每次剔除的是严格劣战略，则均衡结果与剔除次序无关；如果剔除过程中有弱劣战略，则均衡结果可能与剔除次序有关，并可能剔除掉“弱纳什均衡”！第四十五页第四十六页，共174页。47国际争端博弈中国升值不动贬值美国不制裁1,01,20,1制裁0,30,12,0国际争端博弈中国升值不动美国不制裁1,01,2制裁0,30,1国际争端博弈中国升值不动美国不制裁1,01,2课堂参与练习：重剔可解的均衡第四十六页第四十七页，共174页。48经典例3、纳什均衡法：定义

第四十七页第四十八页，共174页。492、前提：参与人不选价格而选产量，因为他确信，如果自己降价，则对方会加倍降价，于是寡头面临的价格相同即该市场是“同质产品的完全竞争产品市场”。

第一个例子：Cournot双头垄断模型1、说明：模型中寡头是选产量，而不是选价格----选价格的模型是“BertrandModel”；动态选产量是“StackbergModel”;多阶段重复的Cournot博弈是“FriedmanModel”.

第四十八页第四十九页，共174页。50分析：

题设企业不存在固定成本，只有变动成本，单位成为均为c。面对同一市场，市场的反需求函数为

3、内容参与人：寡头1和寡头2战略：选各自的产量

支付：各自的利润

由于市场结构的原因，各寡头的价格不能出现差别，必须都定在等于P的位置。于是，可得到寡头1的

支付函数如下：第四十九页第五十页，共174页。51同理可得：求解：第五十页第五十一页，共174页。522、寡头的总产量高，但总利润却小于垄断利润，即经济意义：1、寡头的产量要小于垄断产量但寡头的总产量要高于垄断时的总产量，即

请问：垄断产量如何得到的？请问：利润如何得到的？3、结论：寡头格局带来了一定的竞争性福利—高产量、低利润第五十一页第五十二页，共174页。531、前提：同质产品的完全竞争产品市场

第2个例子：Bertrand双头垄断模型2、特点：寡头1和2面对离散的需求函数3、寡头1和2的面对的需求函数为寡头1的总体需求函数市场的需求函数（在寡头1的价格较低时）请注意寡头市场的特性，其市场需求曲线是主观需求曲线，即每个寡头都能影响“市场需求曲线”第五十二页第五十三页，共174页。544、经济意义：悖论--市场上只有两家企业，结果也和有无数家企业一样----形成和完全竞争一样的结果。现阶段的文献：是用narrativeapproach假设寡头的单位成本相同，都为c，那么NASHEQUI是什么呢？NASHEQUI：原因：产品同质、成本相同、需求间断第五十三页第五十四页，共174页。55

-关于纯战略纳什均衡（之二）

平衡在理性的钢丝上

第五十四页第五十五页，共174页。56第3个例子：如何破解Bertrand???Way1：引入产品差异—需求函数同时被连续化（如：用一个系数表示产品的替代性或互补性）Way2：Hotelling模型：线性城市模型。产品差异的特殊形式—空间差异导致出真实成本差异第五十五页第五十六页，共174页。57题设：产品同质，寡头1和2对称，即它们都有一个产量限制：在产量限制内，有相同的边际成本c，在产量限制外，边际成本无限大。Way3：Edgeworth模型—适合于饭店的模型引入“产能限制”Eg：北门外只有5家餐馆，客人再多，超过了接待规模，各个餐馆没有必要一味降价来争夺市场。注意：当时，退化为Bertrand悖论；只有时，即寡头即便按成本定价、开足生产能力也无法满足市场总需求时，才能逃离Bertrand悖论

第五十六页第五十七页，共174页。58开始求解：为了计算简便，取c=0。设市场需求函数为如果寡头都按最高产量生产，则市场出清价格为：

如果寡头1的价格低，则它可以获得其生产能力的需求量，寡头2获得剩余的部分。如果，那么他们的利润为

第五十七页第五十八页，共174页。59如果则寡头1的利润为所以理性的寡头1不会低于定价。同理寡头2也一样。如果则寡头1的利润为

利润最大化第五十八页第五十九页，共174页。60所以，寡头1有定价超过寡头2的动机，但由于信息完全，所以寡头2也这样做，直到二者的价格定得高到无法攀比（此时价格为1，需求为0）也就是说，只要偏离就会引发价格战（奇怪的涨价价格战）导致利润为0，因此，寡头不能偏离定性上看，是NASHEQUI代数运算得到第五十九页第六十页，共174页。61证明修正：如果某一寡头定价高于，另一厂商必然以比其低的价格定价。证明：若，则如果寡头2和寡头1定价相同，那么寡头2得到的需求量为

于是，只要寡头2稍微降一点价格，就能得到其最高产量的需求量，只要降价幅度足够小，那么它的利润一定是比将价格定在上时增加了。此时寡头1的需求为第六十页第六十一页，共174页。62同理，寡头1有将价格下降得比寡头2低一点点以得到需求量的动机，由于寡头2的定价比寡头1的定价低的幅度很小，所以这种“竞争降价”可以保证寡头1利润增进。综合以上，寡头的价格将稳定在上。第六十一页第六十二页，共174页。63第4个例子：公地的悲剧（tragedyofthecommons)(Hardin,1968)起源与结论：从休莫（1739）开始，经济学家和哲学家已经认识到----如果公民只关心个人福利，公共物品就会出现短缺，公共资源会被过度使用。Eg1:地球的环境eg2：高速公路Eg3:学校的课桌eg4:娱乐明星“英国经验论的逻辑终局”—罗素代表作—《人性论》洛克的终结者；因果论；必然知识与或然知识；第六十二页第六十三页，共174页。64原题：

一个村庄有n个村民，每年夏天，所有村民在村委会的公共牧地上放牧。村民i放养的羊的头数为,放养的总羊数为

照看和购买一只羊的成本均为c,c不随羊的数目的多少而改变。当牧地上的羊的总数为G时，一个村民从自家的一头羊身上得到的收益为牧地的放牧上限为，当时，。当时，。第六十三页第六十四页，共174页。65

注意：随着公地上的羊的数目上升，每个村民从羊身上得到的收益将减少。并且，随着放养数目接近上限值，每增加一头羊，都会对其他放养者的收益带来极大损害。用数学表示为村民的战略是选择他放养的羊的头数，最大化其总利润：假设羊的头数可分割，则村民的战略空间为

村民的总利润为

第六十四页第六十五页，共174页。66

所有的村民同时选择放养头数进行最优化选择，就是？？？将各自的利润函数求一阶条件！！！于是得到：将上式相加并除以n得到（1）（1）第六十五页第六十六页，共174页。67

但是，作为村民全体的村委会而言，最优的放牧量应该满足以上最优化的问题就是其一阶条件（对G求导数），即

对比（1）和（2）式：（2）发现：G*>G**（3）说明：和社会总体的最优放牧量相比，个体只为自身福利追求而得到的纳什均衡放牧量太大了。

村民只考虑自身福利，结果造成对公共资源的过度使用！

第六十六页第六十七页，共174页。68对（3）式的证明：《反证法》假设，则：因为是个减函数于是。类似地，由于，于是

同时有结合（4）（5）（6）式并对照（1）（2）式：发现：

（1）式的左边严格大于（2）式的左边，但这是不可能的，因为他们都等于0。所以，原假设不成立。（4）（5）（6）（1）（2）第六十七页第六十八页，共174页。69

--混合战略纳什均衡

平衡在颤抖理性的钢丝上

第六十八页第六十九页，共174页。70前导性例题：课堂共同练习—求解与改造新版导游证政策动态一致性的博弈分析

问题起源：为贯彻《导游人员管理条例》和2001年颁布的《导游人员管理实施办法》（国家旅游局第15号令）精神，国家旅游局决定启用新版导游证。

第六十九页第七十页，共174页。71问题提出：制度本身是一种契约。新导游证制度是可

“自动实施”

(self-enforcing)的稳契约吗？是纳什均衡吗？如果不是，那它一定会被歪曲和在执行中走样。第七十页第七十一页，共174页。72导游证有必要存在吗？作为一种外在制度，导游管理有其存在的必要性。旅游业是个跨行业的超复杂系统，在一个很复杂的系统或社会里，内在的制度不能排除所有的机会主义行为（opportunisticbehavior）

，因为人们或企业常常要和“转眼就各奔东西”的对象做交易，许多非正式惩罚如“一报还一报”是无效的。在这种情况下，更容易出现“囚徒的困境”，因此，为逃出困境（追求合作行为），正式的外在制度是必要的。导游管理正是这样的一种制度。

第七十一页第七十二页，共174页。73我们的目的是什么？分析换发新版导游证后对无证（包括假证）导游的检查是否具有自我实施性，即这项制度在执行当中会不会走样。第七十二页第七十三页，共174页。74扩展性说明：

省去对有证导游进行计分检查和管理的分析，因为从长期看（只要这项制度能坚持下去且导游也愿意干得足够久），计分检查是一个无限重复博弈，能达成一个令各方满意的帕累托最优的合作解；从短期看，计分检查是一个有限重复博弈，而且其博弈结构和检查无证导游博弈的结构是类似的（有唯一的强纳什均衡），因此，根据有限重复博弈的不变性定理（Selton,1978），计分检查博弈从短期看和检查无证导游博弈具有完全类似的均衡结果。基于上述，我们对无证导游检查的分析也完全适用于对有证导游的计分检查。第七十三页第七十四页，共174页。75前期论证：

为增强效果、提高效率，检查机构采取“不期而至”的暗查，检查机构和导游对对方的成本和收益有一个至少是大致的了解，既支付矩阵是双方的“共同知识”（

commonknowledge）,因此这个博弈可看作是个完全信息静态博弈。

变量说明：C：检查机构的检查成本；R：导游无证上岗相对于有证上岗的超额收益量（大体相当于考导游证的成本）；L：无证导游被查到后的变相损失量（如名誉损失、以后不能带团的损失等）；第七十四页第七十五页，共174页。76博弈过程：练习1：请用严格剔除劣战略方法求取纳什均衡，并说明过程。

导游证博弈导游持证上岗无证上岗旅游局检查-C,0-C,-L不检查0,00,R练习2：你如何解释自己的结论？这项制度在执行一段时间后，出于对自身得失的权衡，检查人员会由于费心费力而疏于检查。同时无证的导游追求额外的利益也会心无顾忌地照上岗不误。而且，这样的状态一旦形成，谁也没有积极性去打破它。第七十五页第七十六页，共174页。77练习3：如何改造这个制度？改造方法：1、改造信息条件2、改造决策顺序3、改造博弈的期数4、改造博弈不同期的结构5、改造支付结果（本案例的方法）第七十六页第七十七页，共174页。78分析：旅游局的支付函数（目标函数）中没有体现检查机构在查到无证导游后的收益，因此我们可以把这种收益引入到检查机构的目标函数中（当然，这也相应改变导游的目标函数）。

第七十七页第七十八页，共174页。79难点说明：旅游局的收益应该是实质性收益，比如，对查获的无证导游或相关旅行社按事前规定进行罚款（设罚款量为F）所得款项归检查机构合法支配。并且这个罚款量当然要能包住检查的成本即F-C>0。尽管旅游局查到无证导游时具有社会收益，但这种收益具有公共品属性，旅游局从中所得到的实质性收益有限并且旅游局很难从这个收益中量化出自己的实际收益，因此具有理性的导游将不会认为这种收益会改变检查机构的支付，从而也不会改变自己的支付结果。如果F-C≤0，它和原支付矩阵中-C的实质效果一样，只是程度的不同，但并不改变原博弈的实际支付内容及其均衡结果。

第七十八页第七十九页，共174页。80新的导游证博弈矩阵：练习4：这个博弈的均衡在哪里？

导游证博弈导游持证上岗无证上岗旅游局检查-C,0F-C,-L-F不检查0,00,R第七十九页第八十页，共174页。81混合战略（mixedstrategies)NASHEQUI定义：假定参与人i有K个纯战略他分别以概率来选择上述纯战略，则称

为i的一个混合战略。混合战略纳什均衡：若则称为一个混合战略纳什均衡第八十页第八十一页，共174页。82完全信息情况下，战略选择的不确定性会带来均衡位置的移动或消失。Eg:现实小问题—在QQ上做个诚实的人吗？如果大家都知道我在QQ上从不说谎，那么当我说一个真实的感人故事或致富信息时大家就会“为我所用”，但这又使得我有偶尔骗人获取“额外”收益的动机；另一方面，说谎太多，终究会被网友识破，结局“很惨”。于是，网友需要猜测到我确实的战略选择才最有利，同理，我也需要事先猜测到每个网友的战略选择，以决定我的最优反应--说多少次慌最有利。结论：一旦每个参与人都竭力猜测其他参与人的战略选择，就不会存在（纯战略）纳什均衡。零和博弈有0、2个纯战略均衡—修正第八十一页第八十二页，共174页。83经典例：福利模型政府和流浪汉之间的博弈支付如下：这是一个zero-sum博弈，存在纯战略均衡吗？求解混合战略纳什均衡的路径：1、支付结果演变为“期望效用”；2、求解的核心：混合战略形成参与人均衡时必然是使各参与人在该概率下，选择各战略的期望效用之间不存在差别，这时，这样的概率才是“均衡”

的，否则，参与人就会确定地选择某个战略，均衡退化为“纯战略均衡”。3、具体方法：最大支付法；支付等值法第八十二页第八十三页，共174页。84设：政府以概率选择救济，流浪汉以概率选择找工作（G：政府；L：流浪汉）

福利模型流浪汉找工作游荡政府救济3,2-1,3不救济-1,10,0第八十三页第八十四页，共174页。85

政府选择自己的概率选择以最大化自己的期望效用：

即：只有在流浪汉选择以0.2的概率找工作时，政府才会选择混合战略（）而不是确定性地选择纯战略。同理，请求解流浪汉的最优期望效用：方法一：最大支付法政府的期望效用

第八十四页第八十五页，共174页。86所以，混合战略纳什均衡为

第八十五页第八十六页，共174页。87方法2：支付等值法政府选“救济”时的期望效用为

政府选“不救济”时的期望效用为

流浪汉的概率选择如果构成混合均衡，它必然使政府在两个纯战略选择间无效用差别，即

同理，求得所以，混合均衡为第八十六页第八十七页，共174页。88混合战略的现实解释：问题：既然混合均衡使参与人在各种纯战略选择间无差异，那么为什么他不选择一个特定的纯战略而是“随机”地选择各个纯战略呢？类似：拳击、划拳、选择情侣回答：因为，参与人想通过混合战略给对方造成不确定性—因为混合均衡下，“我”在各个纯战略选择上无差别，所以对手无法确定性地把握我到底会选择哪个纯战略。

这样，就能形成一个对大家都无损害的

“均衡”，或在没有纯战略最优均衡时，保证一个均衡出现----因为不确定性本身能带来各参与人收益的变化，从而形成均衡。

第八十七页第八十八页，共174页。89

测试性练习：

求解“导游证博弈”的混合均衡，并说明其政策意义。

解释均衡概率的影响因素第八十八页第八十九页，共174页。90

这个博弈不存在纳什均衡。但是，根据奇数定理（oddnesstheorem,Wilson,1971）我们能找到这个博弈的一个混合战略纳什均衡。亦即：假设检查机构以α的概率或频率进行检查，以（1-α）的概率或频率不去检查；导游以β的概率无证上岗，以（1-β）的概率考得真证后持真证上岗。则：

“导游证博弈”的解答

第八十九页第九十页，共174页。91检查机构的期望效用函数

Uc(α,β)=α[-C(1-β)+(F-C)β]+（1-α）(0+0)检查机构最优化的条件是：

∂Uc/∂α=0即：-C(1-β)+(F-C)β=0⇒β⁰=C/F同理导游的期望效用函数

Ug(α,β)=（1-β）(0+0)+β[α(-L-F)+（1-α）R]导游最优化的条件是：

∂Ug/∂β=0即：α(-L-F)+（1-α）R=0⇒α⁰=R/(L+F+R)第九十页第九十一页，共174页。92混合战略纳什均衡是：（α⁰，β⁰）

即双方趋于稳定（可以自我实施）的最优选择是

检查机构以α⁰的概率进行检查，导游以β⁰的概率无证上岗。

第九十一页第九十二页，共174页。93关于静态博弈的重要定理定理1：混合战略静态均衡相当于不完全信息下的纯战略均衡定理2：Wilson(1971)，Nash,1951OddnessTherem每一个有限博弈至少存在一个纳什均衡（纯的或混合的），且几乎所有有限博弈都有有限奇数个纳什均衡。第九十二页第九十三页，共174页。94例子：二外还会存在吗？--一个理论假设

并校博弈二外合为北广合为二外北广合为北广10,50,0合为二外0,01,15请问：这个博弈有几个均衡？更实际的结论是什么？第九十三页第九十四页，共174页。95定理3：混合战略纳什均衡的存在性定理

Glicksberg,1952

如果每个参与人的战略空间是一个非空的、闭的、有界的凸集，支付函数u(s)是连续的，那么至少存在一个纯战略纳什均衡。定理3：纯战略纳什均衡的存在性定理

Debreu,1952

如果每个参与人的战略空间是一个非空的、闭的、有界的凸集，支付函数u(s)是连续的、拟凹的，那么至少存在一个纯战略纳什均衡。关于静态博弈的重要定理偏好平均的战略边际效用递减第九十四页第九十五页，共174页。96关于静态博弈的重要定理关于多重均衡问题：聚点均衡(FocusEqui）：由于习俗、经验等使参与人会共同预测到某个均衡，于是多重均衡积聚为一个唯一的均衡。廉价磋商(CheapTalk）：前期进行一个不花成本的磋商，共同约定收敛于一个特定的均衡，比是一种特殊的聚点均衡。经验效应（ExperienceEffect):参与人通过不断试错，形成某种特定的协作方式，促使某个均衡会多次出现，以至成为一个恒久均衡。第九十五页第九十六页，共174页。97运筹帷幄、决胜千里--完全且完美信息动态博弈第九十六页第九十七页，共174页。98一、操练前的热身艰难术语的简明含义

完全且完美信息—在博弈进行的每一步中，要选择行动的参与者都知道这一步之前博弈进行的整个过程和结果。

完全但不完美信息--在博弈的某些阶段，要选择行动的参与者并不知道这一步之前博弈进行的整个过程和结果。第九十七页第九十八页，共174页。99动态博弈的中心问题：

可信任性Eg1:不可置信的威胁在动态中很无聊！《黑社会有多黑---斗狠博弈》第一步：A匪徒选择，给B匪徒分赃5000元还是分文不给；第二步：B观察到A的选择，然后决定是否引爆一颗手雷把双方都炸死。

第九十八页第九十九页，共174页。100结论：A匪徒不会给B匪徒一分钱，因为B的威胁不可置信。引申的问题：结论的前提是----匪徒B不是一个这种怀疑在完全信息博弈中不存在，但却是不完全信息博弈的考虑重点！！！疯子第九十九页第一百页，共174页。101信息结：每次行动的起点及其包含的参与人类型的信息信息集：每次行动时，参与人所掌握的所有知识第一百页第一百零一页，共174页。102威胁：参与人在博弈开始前通过采取某种行动改变了支付结果，影响均衡位置。完全威胁：增加某个行动的成本，使之不可能被采取，从而改变均衡。实质—通过减少自己的选择机会来影响对方的支付，并改变整个结果。

选择少不一定是坏事孙子兵法—置于死地而后生第一百零一页第一百零二页，共174页。103二、准备性定理与原则定理1：一个有限的完全且完美信息有唯一一个纯战略

“子博弈精练纳什均衡”。定理2：博弈的初始结是唯一的，否则转变为不完全信息博弈—需引入“自然”。定理3：子博弈精练纳什均衡若战略组合是整体博弈的纳什均衡，也是各个子博弈的纳什均衡，则是该博弈唯一的子博弈精练纳什均衡第一百零二页第一百零三页，共174页。104原则1：完美信息要求参与人的信息集中只含有一个结（类型）。原则2：SPNE求解的首要原则--参与人是序贯理性的（SequentialNationality)即不论博弈的过去发生了什么，参与人在自己的每个结点处都趋于最大化自己的支付。

第一百零三页第一百零四页，共174页。105eg1：黑社会博弈三、“完全且完美动态博弈”求解方法—逆向归纳法第一阶段：A决定分给B5000元还是0元，即行动集第二阶段：B观察到后，选择行动集第一百零四页第一百零五页，共174页。106求解：第一步：从后往前，从第二阶段求起在第二阶段，B在给定A的最优选择—分0元的前提下，或给定A做任何选择的前提下，B的最优选择都是—不拉手雷。第二步：给定第二阶段B的最优选择后，在此前提下求A的最优选择此时，B不拉手雷，A的最优选择当然为

分给B匪徒0元第一百零五页第一百零六页，共174页。107所以，Sub-gamePerfectNashEquilibrium是（A不分给B赃款，B不拉手雷）特点：完全且完美信息使A预测到B将对A的任何行动做出最符合B自身利益的选择。这一预测排除了B进行不可置信威胁或行动的可能性，即A完全有信息以支持他认为，B不可能在第二阶段做出不符合自身利益的选择。第一百零六页第一百零七页，共174页。108Eg2:Stackelberg双头垄断模型汽车市场上的领导者“通用汽车”和跟随者“福特汽车”进行如下博弈：第一步：通用选择产量;

第二步：福特观测到以上情况，然后选产量；公司i的利润函数为

第一百零七页第一百零八页，共174页。109求解：1、先逆向求第2步中，福特在给定通用已作出最优产量选择的基础上自己的最优反应：2、由于通用也能象福特一样解出福特的最优产量，所以通用可以预测到如果自己选择某个产量伏特会如何反应，于是通用的最优选择是：

（2）（1）第一百零八页第一百零九页，共174页。110将（2）式代入（1）式，得SPNE

得到均衡价格为：

第一百零九页第一百一十页，共174页。111重要对比：在静态的Cournot博弈中，

可得到如下结论：1、如果通用选择Cournot产量，福特的最优产量将也是Cournot产量。2、通用实际中选了比Cournot产量高的产量，可计算得知，此时它的利润大于Cournot利润；代价是，福特的产量降低、利润减少了!!!

第一百一十页第一百一十一页，共174页。112

3、动态的威力之一：

first-moveradvantadge先下手为强单人决策（无博弈的古典世界）时，占有更多信息不会带来不利。多人动态博弈时，了解更多的信息却可能让一个人受损！(如：福特）

即：让其他参与人掌握更多自己的信息理性的无知例1和2都是先动优势！！第一百一十一页第一百一十二页，共174页。113Eg3：offer-counteroffer(讨价还价）模型

Rubinstein,1982情形：A买B的某件拍卖品（价值标准化为1），A先出价，B看到价格后选择接受或拒绝。若B接受，则博弈结束。若B拒绝，则轮到B出价；A如上做出反应。依次A在1、3、5…….期出价；A在2、4、6…期出价；第一百一十二页第一百一十三页，共174页。114变量说明：参与人A获得的价值份额。：参与人B获得的价值份额。第一百一十三页第一百一十四页，共174页。115求解参与人对收益进行贴现比较，贴现率为和。注意：由于无限期博弈没有最后阶段，所以原则上无法使用逆向归纳法。

（有限期的该博弈可用逆向归纳法：此时在最后阶段B总是出价1）第一百一十四页第一百一十五页，共174页。116变通：因为该博弈是无限序贯的，则任何一个A出价开始的子博弈相当于整个博弈。假设在时，A出价，在该子博弈中他得到的最优分额是M。A在期得到的M，相当于期的。于是B知道，在期，如果自己的出价使A的收益不小于，则A一定会接受。于是B在期出价，使自己得到。而对于B而言，期的相当于期的。于是A也清楚，他在期出价，B就会接受。第一百一十五页第一百一十六页，共174页。117此时A得。否则B拒绝，谁的收益都会为0。也就是说，在期A在整体博弈中能得到的最大收益为。手筋：因为从开始的整体博弈和从开始的子博弈类似于同一个博弈，因此必然有如果我们从期开始，结果是类似的，只是收敛速度不一样。第一百一十六页第一百一十七页，共174页。118结论：因为是任意的，所以SPNE是

A在第一阶段出价

B在第二阶段接受。启示：耐心的比拼---越大表示越有耐心未来消费或对资产价值的享受的时间忍耐性很高。1、若，则A得到1（全部资产），说明足够的耐心能获得最大收益。2、若，则A得到，B得到，当时，即B的耐心高于平均水平时，出现

后动优势。3、当时，是先动优势！为什么？第一百一十七页第一百一十八页，共174页。119概念澄清：NE与SPNE；均衡路径与非均衡路径Eg4：爱情掌握在主动者手里吗？不追追

A：追求者

B：女方

B：女方接受不接受不接受接受（10，-10）（-50，-40）（0，0）（0，0）第一个NE：女方威胁说“无论A追还是不追，我都不会接受的”，则对方相信后，NE为（不追，（不接受，不接受））AB第一百一十八页第一百一十九页，共174页。120不追追

A：追求者

B：女方

B：女方接受不接受不接受接受（10，-10）（-50，-40）（0，0）（0，0）第一个NE的均衡结果：（不追，（不接受，不接受））AB均衡路径第一百一十九页第一百二十页，共174页。121不追追

A：追求者

B：女方

B：女方接受不接受不接受接受（10，-10）（-50，-40）（0，0）（0，0）第二个NE：从B开始逆向归纳，B在A选“追”与“不追”时，最优选择都是“接受”

A预测到这个结果，在A选择时，于是A的最优选择是“追”。于是NE是：（追，（接受，接受））均衡路径第一百二十页第一百二十一页，共174页。122SPNE排除了“不可置信威胁”，留下唯一均衡路径！不追追

A：追求者

B：女方

B：女方接受不接受不接受接受（10，-10）（-50，-40）（0，0）（0，0）

SPNE在整体与子博弈中都最优，而NE在整体博弈上最优，但在子博弈1上并不最优。子博弈1子博弈2第一百二十一页第一百二十二页，共174页。123现实启示：在环境参数比较稳定和女方尚未失去理智的情况下，爱情确实掌握在主动者手中。哲学含义：爱>被爱很弱的前提条件第一百二十二页第一百二十三页，共174页。124世事无常但有概率--完全但非完美信息动态博弈第一百二十三页第一百二十四页，共174页。125一、对“信息”的总结与眺望不完全信息的通俗解释：至少一方参与人的类型（主要指支付函数）不成为“公共知识”。完全但不完美信息的通俗解释：对参与人的类型虽不了解，但具备对其类型的先验概率，且该概率是“共同知识”。第一百二十四页第一百二十五页，共174页。126通过“HarsanyiTransfer”将不完全信息转化为

“完全但不完美信息”。因此，有了Harsanyi后，我们将不完全信息和完全但不完美信息可以等同起来。通过先验概率规定完全但不完美信息，通过后验信息（即贝叶斯条件概率）来修正多个序贯完全但不完美信息子博弈的先验概率，就可以求解不完全（或不完美）信息动态博弈。第一百二十五页第一百二十六页，共174页。127二、经典事例Eg1:银行挤体博弈情形：存款人1和2在银行各存入D元。到期后银行可回收2R元分给存款人，不到期（有任一个提前取款）则只能回收2r给存款人。（，）。存款人未到期而取款，只能得到r元，到期后可收回D元。这里设银行把全部收益分给存款人，正常利润包含在成本或费用中，且不考虑贴现。第一百二十六页第一百二十七页，共174页。128

博弈过程如下：（r,r)（2r-D,D)（D,2r-D)（R,R)（D,2R-D)（2R-D,D)（R,R)不提提提不提不提提提不提不提提提不提122122阶段1：到期前提款阶段2：到期后提款第一百二十七页第一百二十八页，共174页。129上面的战略表达式可转化为下面的矩阵表达式：第一阶段1提款不提款2提款r.rD,2r-D不提款2r-D下阶段第二阶段1提款不提款2提款R，R2R-D，D不提款D，2R-DR，R由于，所以。由于，所以，。由逆向归纳法求解：

第一百二十八页第一百二十九页，共174页。130结论：该博弈存在2个SPNE：（提款，提款）和（（不提款，提款）（不提款，提款））1212启示：第一个SPNE可看作是一次挤提----如果1相信2会提前取款，则他最优选择会取款，即便后来的选择福利更高。这说明挤提是信心与信息问题。

与囚徒困境一样，存在低效率均衡，但本博弈还存在高效率均衡。

本博弈的多重性使我们无法判断什么时候会挤提，但是它说明挤提确实会作为一个均衡而出现。第一百二十九页第一百三十页，共174页。131Eg2:关税与自由贸易冲动国家i（i=1,2)市场上的总产量为，则其市场出清价格（按照线性需求函数）为，国内企业i生产的产量一部分供应国内，一部分出口，即。企业的总成本为，其中c为边际成本，设两个国家中的企业可看成只有一个，且边际成本相同。同时，企业i出口时还要还要支付的关税给国家j，其中为国家征收的关税税率。企业的支付为其利润；政府的支付为其总福利---消费者剩余、国内企业利润和关税收入之和。第一百三十页第一百三十一页，共174页。132动态博弈顺序：第一步：国家同时选择关税率和，最大化其总福利。第二步：企业选择国内生产量和出口量以最大化利润。国家1和2同时选企业1和2同时选第一百三十一页第一百三十二页，共174页。133拟向归纳求解：首先，求企业i的利润最大化可分解为国内利润最大化和出口利润最大化即选择，使同时选择，使联立求解，得第一百三十二页第一百三十三页，共174页。134然后，选求国家j的福利最大化其中，，代入上式，得到：，将此代入上式，得到：第一百三十三页第一百三十四页，共174页。135SPNE为：国家1和2选择关税率；企业1和2选择生产量但是，如果在第二步中，不是国家单独追求福利最大化，而是追求国家集体的福利最大化，即：第一百三十四页第一百三十五页，共174页。136并将代入上式后，对求偏导数令其为零，可求得

即：从共同利益考虑，国家间有动机建立一个“零关税的自由贸易区”。第一百三十五页第一百三十六页，共174页。137

第八个瞬间：

人生何处不相逢--关于重复博弈第一百三十六页第一百三十七页，共174页。138一、动态博弈分两种1、序贯博弈（Sequentialgame)：子博弈交替出现，但同样结构的子博弈只出现一次。且前一阶段的博弈可以改变后一阶段博弈的结构。第一百三十七页第一百三十八页，共174页。1392、重复博弈（Repeatedgame)：子博弈交替出现，并且每个子博弈结构相同。前一阶段的博弈不改变后一阶段博弈的结构。参与人的总支付是所有阶段博弈支付的贴现值或平均值。第一百三十八页第一百三十九页，共174页。140再次提醒：战略和行动的区别是什么？战略是什么？重复博弈的战略数有多大？重复博弈的战略是“历史的天空”第一百三十九页第一百四十页，共174页。141重复博弈的威力是什么---Aumman的贡献：重复博弈的均衡结果受到两因素影响重复次数信息结构博弈重复次数越

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

博弈论课件(决策理论与方法)武俊霖

文档简介

温馨提示

最新文档

评论

博弈论课件(决策理论与方法)武俊霖

文档简介

温馨提示

最新文档

评论

相关文档