版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、PAGE PAGE 55第八章 博弈论PAGE 225第八章 博弈论霸前面章节对经济版人最优决策的讨啊论,是在简单环扳境下进行的,没岸有考虑经济人之唉间决策相互影响佰的问题。本章讨罢论这个问题,建办立复杂环境下的捌决策理论。开展阿这种研究的的理疤论叫做博弈论,白也称为对策论(俺Game Th扒eory)。最翱近十几年来,博伴弈论在经济学中板得到了广泛应用绊,在揭示经济行昂为相互制约性质扳方面取得了重大俺进展。大部分经啊济行为都可视作霸博弈的特殊情况柏,比如把经济系埃统看成是一种博白弈,把竞争均衡拌看成是该博弈的扮古诺隘-傲纳什均衡。博弈斑论的思想精髓与颁方法,已成为经氨济分析基础的必柏要组成部
2、分。版第一节 博弈事凹例扒博弈是一种日常跋现象,例如棋手蔼下棋,双方都要霸根据对方的行动版来决定自己的行拜动,双方的目的耙都是要战胜对方碍,互不相容,互安相影响,互相制俺约。一般来讲,半博弈现象的特征稗表现为两个或两案个以上具有利害吧冲突的当事人处芭于一种不相容的安状态中,一方的柏行动取决于对方绊的行动,每个当爸事人的收益都取澳决于所有当事人绊的行动。当所有阿当事人都拿定主败意作出决策时,拔博弈的局势就暂霸时确定下来。博败弈论就是研究这办种不相容现象的俺一种理论,并把罢当事人叫做疤局中人叭(player奥)白。耙博弈论推广了标稗准的一人决策理霸论。在每个局中鞍人的收益都依赖拌于其他局中人的熬选
3、择的情况下,班追求收益最大化佰的局中人应该如背何采取行动?显扳然,为了确定出扳可行的策略,每奥个局中人都必须澳考虑其他局中人岸面临的问题。下澳面来举例说明。伴例1拔扳便士匹配隘(Matchi罢ng Penn案ies)颁(跋二人零和博弈)稗设博弈中有两个捌局中人甲和乙,袄每个局中人都有版一块硬币,并且八各自独立安排硬俺币是否正面朝上爱。局中人的收益吧情况是这样的:笆如果两个局中人爱同时出示硬币正澳面或反面,那么啊甲赢得元,乙板输掉元;如果隘一个局中人出示把硬币正面,另一叭个局中人出示硬昂币反面,那么甲暗输掉元,乙赢扒得元。袄表1: 便士扒匹配博弈局势表阿 乙甲背正面按反面胺正面绊(正,正)板(正
4、,反)氨反面岸(反,正)耙(反,反)岸对于这个博弈,奥每个局中人可选肮择的策略都有两敖种:正面朝上和澳反面朝上,即甲岸和乙的策略集合蔼都是埃正面澳,熬反面瓣。当甲和乙都疤作出选择时,博熬弈的局势就确定昂了。显然,该博吧弈的碍局势集合办是敖(正面板,罢正面),(正面傲,反面),(反芭面,正面),(敖反面阿,爱反面)啊,即各种可能熬的局势的全体,拔也称为埃局势表挨,即表1。挨表2: 甲和百乙的收益表稗 乙绊甲板正面扒反面坝正面稗 氨 阿,哎,胺反面柏,捌 罢 柏,疤每个局中人的收癌益都取决于所有芭局中人的决策,背也就是说,局中跋人的收益是博弈埃局势的函数。本巴例中,甲的收益安函数皑为:唉,熬,翱,
5、岸;乙的收益函数搬为:霸,板,败,背。局中人的收益霸函数也可用表格颁或矩阵加以表示啊,并称其为把收益表蔼或败收益矩阵俺。表2中,甲的澳收益列在左边,吧乙的收益列在右哀边。唉该博弈的特点在啊于每个局中人的案收益都是另一个俺局中人的付出,颁即甲和乙的收益扒之和为零,收支笆发生在局内,不扳涉及任何局外人把。这种博弈就是鞍所谓的哎二人零和博弈瓣。习惯上,人们皑喜欢把二人博弈坝的第一个局中人把甲叫做按“岸列芭”百,第二个局中人哀乙叫做八“拜行氨”败,而且总是把列瓣的收益写在前面吧(般即左边稗)把,行的收益写在柏后面鞍(瓣即右边柏)搬。澳例2败绊囚徒难题板(Prison按ers De哎li班m百ma)艾(
6、鞍二人变和博弈)板表3: 囚徒把博弈局势表爱乙盎甲凹合作班背叛唉合作佰(碍合作,合作鞍)吧(合作,背叛)扮背叛暗(背叛,合作)背(背叛,背叛)按有两个狂徒甲和斑乙因共同参与了哀一起犯罪活动而背被囚禁收审。他版们可以选择合作拜,拒绝供出任何百犯罪事实;也可拌以选择背叛,供扒出对方的犯罪行氨径。这就是所谓摆的囚徒博弈,也蔼叫做囚徒难题。肮博弈的局中人甲捌和乙都有两种可白选择的策略:合盎作与背叛。挨囚徒博弈的意义矮在于它可以解释胺寡头垄断厂商的盎行为,关键是赋懊予合作与背叛具扒体的经济含义。盎比如在双头垄断罢的情况下,合作败可以解释为背“安保持索要一个高罢价啊”瓣,背叛可解释为盎“柏降价以争夺对手鞍
7、的市场芭”柏。右表给出了囚霸徒博弈的局势表敖。罢局中人可以事先碍讨论这局博弈,败但实际决策必须皑独立地做出。如把果甲采取合作策把略,不供出乙的芭犯罪事实,那么邦乙就能得到30班00元的收益。扳同样,如果乙采翱取合作策略,那捌么甲就能得到3碍000元的收益笆。可见,如果甲皑乙双方都采取合吧作策略,双方各摆得3000元收爱益。翱但是,审讯者用俺1000元奖赏佰来鼓励局中人采氨取背叛策略。这吧样,只要局中人芭选择背叛,他就肮会得到1000疤元鼓励,而不管凹另一个局中人会耙采取什么策略。霸需要注意的是,爸囚徒博弈中的货胺币支付来自第三佰方按哎局外人,这正是矮囚徒博弈同便士八匹配博弈的不同俺之处。奥曼(
8、A颁umann)1爱987年对囚徒疤博弈给出了一个板特别简单的描述疤:每个局中人都爸可以对仲裁人简熬单地宣告鞍“瓣给我1000元隘”鞍或霸“班给对方3000霸元澳”胺。叭表4: 甲和斑乙的收益表颁 般乙岸 哀甲稗合作阿背叛奥合作挨3000, 爸 3000唉 0, 摆 4000芭背叛肮4000, 伴 0拜1000, 凹 1000疤简单分析一下就矮会发现,如果一隘个局中人采取合把作策略,而另一罢个局中人采取背岸叛策略,那么采把取合作策略的局矮中人的收益为零背,而采取背叛策扒略的局中人的收哀益为4000元背(3000元收斑益再加上100疤0元的背叛鼓励爱)。如果双方都懊采取背叛策略,傲则双方的收益各
9、班为1000元。爱表4列出了甲乙碍双方的收益情况翱。从收益表可以皑看出,甲乙双方皑的收益之和不为伴零,而且收益和稗是变化的。因此版,囚徒博弈是一啊种岸变和博弈颁。案直觉上看,甲和敖乙都应采取合作吧策略(互不供出癌对方的犯罪事实百),各得300半0元收益。但从阿收益表可以得出隘这样的结论:如安果一个局中人认疤为另一个局中人绊将合作,从而他摆将得到3000爱元收益,那么他氨若采取背叛策略摆,就将总共能获霸得4000元的摆收益;如果他认叭为另一个局中人肮为了得到100巴0元鼓励而将背爸叛,那么他也就叭只好为了自己也隘取得1000元唉鼓励而采取背叛耙策略(否则,他百将一无所获)。摆总之,在收益最唉大化
10、动机的驱使白下,局中人的最斑优选择是背叛。澳这样一来,甲乙拜双方都采取背叛耙策略,各得10扮00元收益;而扒不是都采取合作鞍策略,各得30霸00元。这是一昂个典型的博弈悖柏论,问题的关键颁在于每个局中人艾都有背叛的鼓励邦,而不管其他局碍中人将做什么。盎例3疤百古诺博弈芭(双头垄断:产癌量较量)胺法国经济学家古八诺(Courn摆ot)于183翱8年以天然矿泉办井为例,首次建跋立了简单的双头癌垄断博弈模型,拔其特点是,垄断鞍厂商双方都天真搬地以为对方不会巴改变原有产量水笆平,双方都追求背各自利润最大化斑。古诺假定:挨吧有两个天然矿泉拔在一起,分别为拌厂商甲和乙占有班;扮摆两个矿泉都为自岸流井,生产
11、成本芭为零,边际成本背也为零;靶鞍甲和乙面对相同疤的需求曲线,采跋用相同的价格;案罢双方都以为对方熬的产量水平不会哎改变。在这些假巴设前提下,甲和扮乙各自独立决定瓣自己的产量水平鞍,以求利润最大伴化。安设按是甲乙双方共同办面临的反需求函扒数。当甲的矿泉摆水产量为芭,乙的产量为疤时,矿泉水的市叭场价格为挨,甲的利润扮, 乙的利润为艾。在这个博弈中碍,甲乙双方的策傲略都表现为选择拜产量水平,局中坝人的收益即为厂伴商的利润。当甲巴的产量为熬时,乙以为甲不阿会改变这一产量拌,而选择一个合吧适的产量水平叭以使自己的利润吧达到最大。同样袄,当乙的产量水懊平为版时,甲以为乙不疤会改变这一产量隘,而选择一个合
12、拌适的产量水平爱以使自己的利润岸达到最大。伴为了说明这个博挨弈的结果,假设阿甲乙双方面临的捌反需求函数翱。用靶表示这局博弈中耙甲选择的最优产埃量,百表示乙选择的最扮优产量水平,则百甲乙各自的收益芭分别为背和瓣。由于实现了利暗润最大化,因此疤解之得:当乙的斑产量水平为佰时,甲决定的产瓣量水平为阿(这是甲对乙的般反应函数);当伴甲的产量水平为埃时,乙决定的产邦量水平为按(这是乙对甲的岸反应函数)。其岸中,懊表示矿泉水市场办容量(即价格为艾零时的矿泉水需哀求量)。进一步耙求解可得:袄, 即博弈的结矮果是双方最终各熬占据矿泉市场的矮三分之一。反应熬函数说明,古诺昂博弈中每个局中把人的决策(选定肮的产量
13、水平)不爸但依赖于其他局八中人的决策,而鞍且与市场的容量隘有关。坝例4芭阿贝特兰博弈奥(双头垄断:价败格较量)搬古诺博弈模型描八述了双头垄断厂版商之间展开的产翱量较量。实际上霸厂商之间的产量白较量并不如价格岸较量那么普遍,艾寡头之间应该有半激烈的价格竞争斑。不论市场价格佰如何,只要某一氨厂商降低价格,半而其他竞争对手霸保持原价格不变扒,那么降价厂商半就能占有全部市哀场。这就是说,叭我们假定消费者跋只从最低价格厂哀商那里购买产品板。为此,法国经疤济学家贝特兰(半Bertran靶d)于1883瓣年提出了以价格胺为选择策略的贝半特兰博弈模型,八反对古诺关于产胺量的博弈模型。笆还以矿泉水为例暗,在贝特
14、兰博弈般模型中各厂商都碍预期对手不会改奥变价格,从而将肮自己的价格确定爸在利润最大化的盎水平之上。这就碍是说,贝特兰博啊弈的构建同古诺靶博弈相似,所不班同的是贝特兰博背弈中局中人的策半略是选择价格,癌而古诺博弈局中办人的策略是选择熬产量水平。捌贝特兰博弈中两矮个局中人甲和乙扒也是面临相同的佰市场需求函数,傲不过现在价格是摆自变量,产量为疤因变量(古诺模坝型正好相反)。按设市场需求函数岸为矮, 为了分析上柏简单起见,进一罢步设胺(这里,氨,搬,即与古诺模型拌中的市场需求相案同)。局中人的班收益仍是他所获般得的利润。笆如果甲和乙不相败互勾结串通,当盎乙采取了价格水罢平案时,甲认为乙不岸会改变这一价
15、格扳水平,从而为了佰占领市场而要采巴取低于乙的价格伴水平俺的价格哀,于是甲的利润疤为蔼,乙的利润为零懊;同样,当甲采懊取了价格水平背时,乙认为甲不吧会改变这一价格扒水平,从而为了唉占领市场而要采板取低于甲的价格斑水平坝的价格版,于是乙的利润艾为皑, 甲的利润为疤零。佰如果甲和乙相互邦勾结串通起来,稗采取相同的价格柏策略,即爸,那么甲和乙就白能索要一个垄断扮价格,并且每人办可收取一半的垄斑断利润。岸由此可见,甲和奥乙的利润函数分罢别为: , 背如果甲和乙勾结吧串通,合作起来搬,那么双方就能般按照最大利润价艾格隘获得垄断价格,隘并且各得最大利氨润的一半。这里凹,利润最大化价阿格是按照隘确定的。但是
16、,办占领市场的诱惑柏对每个局中人都艾存在,只要他稍昂微降价,他就能佰获得全部市场。板假如甲先进入该百矿泉市场,那么肮甲就按照利润最斑大化价格$P_阿1=Q_o/(半2b)$获取最叭大利润。 继而吧乙进入这个市场蔼,且乙认为甲不皑会改变他的价格耙$P_1$,于袄是乙为了夺取市八场而采取低于甲坝的价格水平班的一个价格奥(班。由于乙夺走了艾市场,甲同样又霸会采取低于乙的摆价格水平昂的价格扳,以夺回市场。跋这样不断往复下蔼去,直至最后甲唉乙双方都把价格暗水平定为零时才版可达到均衡,此八时双方的收益为捌零,市场各占一斑半(即甲的销售岸量坝和乙的销售量翱相等,且瓣)。这就是甲乙扳双方不合作的结隘果,双方都
17、变得坝更差。拔以上分析表明:绊把贝特兰博弈与板古诺博弈作比较搬,对同一市场来胺说,由于选择了按不同的策略集合半(一个以产量作挨为策略,另一个办以定价作为策略爸),得出了不同隘的博弈结果,贝阿特兰博弈的均衡背价格、均衡产量翱和均衡利润都呈隘完全竞争状态(熬超额利润为零)安,而古诺博弈的鞍结果不是这样;敖再把贝特兰博弈爱同囚徒难题博弈癌作比较,二者具扳有相似的结构,凹即局中人合作会靶取得最好的结果皑,但利益的诱惑岸促使他们采取不败合作的行动,致翱使双方博弈的结版局都变得更差。爸贝特兰博弈也可凹用囚徒博以来解哀释:合作是指两靶个厂商的勾结,霸背叛是指两个厂拜商独立行动,没翱有勾结。合作,白可以索要一
18、个高拜的垄断价格;背扒叛,则导致市场笆价格为零,双方蔼利润为零。可见稗,双方合作起来按,对两个厂商都瓣有利,似乎应该俺合作。但博弈的颁最终结果是双方澳都采取背叛策略吧,导致谁也得不傲到利润。伴本节所举的这些罢事例说明,寡头柏垄断厂商之间展暗开的竞争与较量翱完全可以用博弈摆加以描述和研究胺。实际上,经济背学中大部分经济吧现象都可以作为澳博弈的特殊情形般进行研究,比如俺历史上解决竞争胺均衡的存在性这吧一经济学基本问蔼题时,就把经济昂系统看成为一局敖博弈。拌为了研究博弈,胺必须抓住博弈现隘象的基本要素,绊这些要素是:局熬中人、策略、收搬益。也就是说,坝博弈可以用局中芭人集合、策略集败合和收益函数加败
19、以描述。局中人拌从策略集合中选皑择一种策略后所按获得的效用或利佰益,就是局中人癌的收益(pay白offs),也懊叫做得失。我们熬假定每一个局中败人都知道他自己按和别人的策略集矮合与收益函数,岸这就是说,每个斑局中人的策略集皑合与收益函数为啊所有局中人所共巴知。当然,每个瓣局中人都知道其翱他局中人掌握着哀这些信息和知识安。局中人的收益胺不但依赖于他自笆己的策略选择,摆而且依赖于其他爸局中人的策略选靶择。我们再假定爱每个局中人在给霸定的主观信念下暗会选择收益最大拌化的行动,并且柏当新的信息根据扒贝叶斯规则到来板时,这些信息会靶得到修正(即根瓣据贝叶斯全概率澳公式从先验概率背计算后验概率)凹。疤第二
20、节 策略博肮弈蔼为了能够正确地捌应用博弈论研究拜经济问题,需要扳对博弈加以准确唉地描述和定义。袄要定义一个博弈岸,需要确定三件疤事情:一是局中白人集合(set扳 of pla熬yers),一吧是局中人的策略拌集合(set 挨of stra鞍tegies)蔼,一是局中人的败收益函数(pa耙yoff fu芭nction)八。这三件事情中耙,确定策略集合坝是至关重要的。懊局中人以策略决颁定胜负,目标是哎使他的收益最大绊化。这种以策略扳定胜负的博弈,八称为半策略博弈按(game o摆f strat昂egy)。正象矮比较古诺博弈和敖贝特兰博弈时说邦明的问题一样,稗用博弈论研究经邦济问题时,对于岸同一经济
21、现象,把由于选择了不同挨的策略集合,得癌到的博弈结果截氨然不同。办用稗表示博弈的局中办人集合,昂表示局中人胺的策略集合,白表示拌的收益函数,则敖就表示了一个博按弈。根据局中人敖的多少,博弈可拌分为挨二人博弈伴和哀多人博弈笆。根据博弈的策办略集合是否有限皑,博弈还又可分安为扮有限博弈懊和暗无限博弈袄。例如,便士匹疤配和囚徒难题都拌是有限博弈,而办古诺博弈和贝特耙兰博弈都是无限澳博弈。还可根据瓣所有局中人的收拔益总和是否固定颁,把博弈分为笆常和博弈背和拔变和博弈拔。常和博弈分为跋零和博弈伴(即收益总和为版零的博弈)和哎非零和博弈俺。二人零和有限安博弈是所有博弈矮中最简单、最重般要的一类,通常版称为
22、翱矩阵博弈摆。本节以二人博奥弈为重点,介绍把有关策略博弈的八概念与理论。扳一策略表与收柏益矩阵八设二人博弈的局霸中人是甲和乙。叭甲有袄种可选策略,策伴略表为办;乙有啊种可选策略,策盎略表为柏。当甲采取策略拔,乙采取策略扒时,般称为博弈的搬局势芭,集合邦就是皑局势集合隘(扮局势表拌、案局势矩阵哀),即翱每个局中人选择挨自己的策略时,敖都要考虑对手的岸行动。这样每个敖局中人的收益不氨但与自己的选择斑有关,而且与对败手的选择有关,吧收益函数是定义哀在局势集合拔上的函数,这里瓣假定了局中人的邦收益是可以用实凹数来都来计量的唉。用鞍表示局中人甲的瓣收益函数,用班表示局中人乙的把收益函数。由于巴局势集合懊
23、是有限集合,收稗益函数办和坝都可用矩阵加以凹表示,这些矩阵拜就称为阿收益矩阵安。记把,爱,则甲和乙的收哀益矩阵分别为:,碍当罢(常数)胺时,该博弈就是矮常和博弈。否则啊,就是变和博弈胺。局中人的策略挨与收益也可用收芭益表加以表达:坝表1: 博弈盎的收益表斑乙的策略柏甲的策略拔埃,昂,盎唉,办,耙,唉矮,唉捌,埃,澳绊,办一般情况下,二摆人博弈可表示成吧。但对于二人常哎和博弈,则可简般单地表示成拜,其中哀为收益的常数和笆。而矩阵博弈则皑可更简单地表示啊成挨,或者直接用甲哎的收益矩阵板来表示矩阵博弈搬。霸二最小最大原背理隘局中人的目标是袄选择使自己收益拌最大化的策略,班我们来分析局中班人如何决策。
24、假昂定甲乙双方彼此笆了解对方的收益邦表。如果甲通过袄间谍获悉乙采取伴某种策略胺时,甲必然会采唉取相应的某种策袄略搬,以求自己的收懊益最大,即选择颁使下式成立:澳但是,当甲不知颁道乙会采取什么胺策略时,如果甲摆是一个避险者,稗那么他必将作最扒坏的打算,以求唉取得较好的效果罢。首先,甲要从办收益表中找出自八己的每一种策略巴下至少可获得的瓣收益盎(俺即所能获得的最奥小收益捌)啊,即先求解盎,然后从这些最昂小收益策略中选半择出收益最大的昂策略,即鞍“跋从最小收益中选鞍择最大收益扳”蔼。从收益矩阵来稗看这个决策过程百,即甲首先选出芭自己的收益矩阵安的各行的最小值败,然后从这些最案小值中再选出最霸大值:碍
25、这就是求解策略扒博弈的昂最小最大原理斑,其合理性表现邦为:如果甲采取鞍按照最小最大原埃理确定的策略,唉那么不论乙采取百什么策略,甲都白可至少得到这个版最小最大收益。拔由此可见,最小柏最大原理是能够罢确保局中人收益艾的一种原理。今鞍后,我们把局中稗人甲按照最小最鞍大原理所确定的懊策略,叫做甲的板稳妥策略板。败对于局中人乙来摆说,他的决策行伴为和决策过程同皑甲是一样的,只盎不过乙要依赖于胺收益矩阵坝。乙决策的最小斑最大原理是:乙暗先选出收益矩阵安的各列的最小值摆,然后从这些最摆小值中选出最大般值:岸局中人乙按照最俺小最大原理确定艾的策略,称为乙扮的哀稳妥策略芭。熬读者可能会问:挨甲先找出他的收熬益
26、矩阵各列的最氨大值,然后再从跋这些最大值中选氨出最小值,不也哎是一种很好的决巴策办法吗?其实般,这种决策办法肮叫做最大最小法办,照此办法做出靶的决策,在甲不绊知道乙会采取什办么策略的情况下办不能保证甲的最捌大最小收益能够敖达到。原因在于翱最大最小法需要吧确定出乙的每种傲策略下甲的最大吧可能的收益。假绊如甲按照最大最柏小法选出了策略艾, 那么当乙采阿用策略胺时,甲可得到最熬大最小收益办。但是,若乙采半用的不是策略斑, 而是策略案,那么甲如不重埃新选择他的收益靶矩阵第俺列的最大值的话般,他的最大最小白收益凹就不一定能够达坝到,这正是最大拔最小法同最小最岸大原理的区别。鞍实际中,在甲不拜知道乙会采取
27、什板么策略的情况下百选定了自己的策爱略以后,乙的策隘略才出台,为甲瓣也获悉了乙的这澳一行动时,甲很芭有可能来不及调敖整自己原定的策绊略,从而给甲带碍来一定的损失。疤因此,最大最小背法在保证局中人靶收益方面不如最鞍小最大原理那么阿保险。邦当甲和乙的稳妥哀策略都已选定时背,二者结合起来岸能否成为博弈的扮结果呢?答案是摆未必。请看下面版二人零和博弈的胺事例。白例1爱.扮 熬高度不确定的博办弈靶考虑二人博弈背,甲的策略集合肮,乙的策略集合班,甲和乙的收益翱矩阵拌和安通过博弈的收益扒表给出跋(罢见表2拜)搬。碍表2: 甲和叭乙的收益表安乙坝甲隘4,敖1,白2,稗3,翱对于甲来说,澳;对于乙来说,鞍。这说
28、明甲的稳般妥策略是爸,乙的稳妥策略蔼是阿。胺但是,当甲采取扮时,乙采取案的收益摆小于采取柏的收益笆,因而乙要改用胺策略颁。在乙改用哎后,甲采取策略般的收益稗小于采取胺的收益摆,因而甲也要改巴用策略捌。而当甲改用班后,乙采用板的收益坝小于采用安的收益拔,于是乙又要改笆回到爱;在乙改回到坝后,甲也要改回稗到收益最大的策鞍略唉。这就让我们看稗到:当甲采取靶时,乙要采用啊;然后甲改用笆,乙随之改用鞍;甲再改用败,乙又改用扒,如此不断往复肮下去,博弈的结扒局是高度不确定伴的。熬一般来讲,要想熬一个二人博弈阿具有确定的结局佰,必须存在这样癌的局势凹:捌满足这个条件的敖的局势绊,叫做博弈氨的拔均衡伴或澳最优
29、解跋或拔最优局势疤,其中的耙和皑分别叫做局中人靶甲和乙的颁最优策略笆或摆均衡策略傲。这个条件也就瓣叫做博弈的笆均衡条件氨。捌对于二人常和博敖弈暗来说,昂是博弈的最优解碍当且仅当版数学中,满足这班个条件的点挨叫做函数暗的奥鞍点扒。因此,把是博弈的最优解捌当且仅当捌是收益函数隘的鞍点扮。下面的定理给佰出了鞍点的判别捌条件。拌鞍点定理隘暗是收益函数鞍的鞍点的充要条肮件是挨:拌证明:拜必要性敖.澳 设百是艾的鞍点,即碍。拔从岸可知,扮对一切安成立,这就蕴含拌着罢,即拜。稗注意,暗。这就证明了半。伴充分性昂设稗满足版。从隘可知碍;从皑可知瓣。所以,艾,即耙是函数傲的鞍点。绊傲既然二人常和博笆弈的最优解恰
30、好案就是收益函数的败鞍点,鞍点定理昂告诉我们,当收氨益函数的鞍点存凹在时,利用最小矮最大原理确定的拌博弈局势就是二岸人常和博弈的最挨优解。八但是,当收益矩斑阵不存在鞍点时半,常和博弈就没俺有最优解,博弈拜的结局就是高度熬不确定的。鉴于氨此,我们将有鞍跋点的常和博弈称办为柏严格确定的博弈拔。三反应函数办博弈叭的局中人总是要邦考虑对手的行动懊,然后确定自己哎的对策。当乙采背取了某种策略懊,而且被甲所觉捌察时,甲必然有叭所反应,要确定把出相应的对策敖以使自己的收益瓣在乙选择拜的情况下达到最昂大,即要使耙。甲对乙的行动把的这种反应,确颁定了一个从乙的拔策略集合背到甲的策略集合捌的映射暗,即对任何疤,甲
31、的反应策略哎是按照安来确定的。这个败映射巴就叫做甲对乙的般反应函数俺。挨同样的道理,可吧以确定出乙对甲矮的反应函数翱,即对任何八,蔼是按照搬来确定的。翱利用反应函数,懊我们也可以解释案博弈的结局。就盎象古诺博弈一样熬,假如甲先采取盎某种策略隘,乙通过某种途暗径获悉了甲的这拔一行动,并认为癌甲不会改变他的百策略,于是作出鞍反应,决定采取澳策略凹,以使自己的收澳益最大化。当乙靶采取策略疤时,甲掌握了这俺一信息,并认为昂乙不会改变他的叭策略,于是作出般反应,改变原来斑的策略,决定采唉用案,以求收益最大昂化。这时,乙再板次对甲的行为作般出反应,采取新靶策略扮。甲也再次对乙办的行动作出反应盎,采取新策略
32、颁。这样的反应不背断下去,直到最奥后达到哎且挨时博弈实现了均鞍衡,此时的局势岸就是博弈的最优背解跋(拔均衡、最优局势哎)。靶综上所述,博弈摆的结局是实现均败衡,并且均衡由岸甲乙双方的反应唉函数确定,即由氨方程组暗决定。事实上,澳是该方程组的解扳当且仅当哎,而这正是博弈爸实现均衡的含义胺。注意,以上关氨于反应函数的讨唉论,没有要求策疤略集合的有限性坝,即集合拔和唉可以是任何集合巴。把下面考虑二人无唉限博弈的一种特癌殊情况:策略集挨合昂和罢都是实数区间。扮比如,本章第一矮节例3中古诺博拜弈的局中人策略唉集合就是区间按(半直线),例八4中贝特兰博弈啊的局中人策略集跋合也是半直线。佰假设局中人甲和懊乙
33、的收益函数岸和袄可微,则甲对乙耙的反应函数背由方程邦(叭一阶条件叭)奥决定,乙对甲的耙反应函数熬由方程俺(矮一阶条件班)邦决定,从而博弈柏的最优解就是如跋下方程组的解:白例2般柏二人博弈的反应把函数及最优解稗设二人博弈中,稗甲和乙的策略集懊合爱和傲为澳,收益函数暗和跋分别如下:八求偏导数得方程坝组瓣。由此可知局中颁人甲和乙的反应搬函数分别为般,博弈的最优解哀为爱。摆四策略选择的碍经济模拟挨第一节中曾经指跋出,描述一个博案弈时策略集合的芭选择至关重要。皑比较古诺博弈和扳贝特兰博弈,虽隘然二者的目的都案是要模拟同一经爱济现象白百双头垄断,但二斑者的结构却很不胺同。古诺博弈中熬厂商的策略是选版择产量
34、,厂商的懊收益是策略变量肮的连续函数;而跋贝特兰博弈中厂哎商的策略是选择巴价格,厂商的收按益是策略变量的爸非连续函数。这氨导致了相当不同耙的均衡,究竟哪凹一种是正确的呢哎?办如果抽象地看待扮这个问题,那么邦“按哪一种模型正确芭”按这样的提问并无矮什么意义。要回阿答这个问题,就巴必须看模型试图百模拟什么。不要案问哪一种模型是凹正确的,而去问捌策略选择中什么颁样的考虑是切入癌主题的,这样的颁提问可能会更加鞍有益一些。比如跋,如果我们观察熬OPEC公司的哎公告,就会发现叭OPEC企图为霸每一个员工决定版产量配额,并且澳允许按照世界石八油市场价格定价捌,这样按照产量癌水平而不是按价芭格水平来模拟博颁弈
35、策略,就可能挨更加合理。摆在策略选择的经伴济模拟中还有另安一方面的考虑,板乃就是一旦对手懊的行为被观察到坝,那么对手的策熬略应该是被承诺笆的或者是难以改艾变的。然而到目背前为止,所描述绊的博弈是败“摆一次性靶”白(one-sh背ot)博弈,其捌特点是一旦知道胺对手的行动,策啊略变量可以很快板地进行调整。例昂如,假设我为我扳的产品选择一个扒价格,然后发现盎我的对手制定了案一个略低一些的半价格,在这种情邦况下我可以很快按地调整我的价格摆。因此,尽管昂“皑一次性跋”肮博弈所描述的现罢象应该是发生在案实际生活中的现坝实,但在扒“奥一次性拌”般博弈中模拟这种捌能够很快调整的跋策略反应并不具百有多大的意义
36、。氨似乎应该使用多耙阶段博弈,这样把才能捕获到策略盎选择行为的所有扮可能的内容。白另一方面,如果办我们把古诺博弈叭中的产量水平解办释成为厂商的生把产能力,那么一扳定产量的产品生把产就可能是不可暗撤消或不可改变版的资本投资。这百种情况下,厂商胺一旦发现对手的昂产量水平,而要翱改变厂商自己的拌产量水平,则可百能是难以办到或爱非常昂贵的。生霸产能力或产量水艾平似乎是厂商策板略的天然选择,瓣即使一次性博弈捌中也是这样。癌同大部分经济模奥拟一样,在策略叭选择的经济模拟凹中,如果既要让版博弈简单明了以鞍便分析,又要能隘够说明实际策略癌的迭接要素,那耙么如何表示博弈疤的策略选择,就半是一项艺术。癌第三节 重
37、复博巴弈绊到目前为止,所捌谈论的博弈是一挨次性的。其实,按任何博弈都可以熬一次一次地重复八进行,且每一次挨重复都不是简单绊地重复前一次的摆着法,而会考虑伴得比前一次更全扳面些,技法也会班更高些。就好像拜棋手下棋一样,暗一局结束了再开暗一局,前一局在岸某些着法上吃了爸亏,这一局中就懊会吸取教训而加盎以注意,正所谓柏“绊吃一暂,长一智搬”搬。反反复复地开艾局,给棋手不断艾积累经验,让棋瓣手的技艺越来越颁高。蔼通过博弈的重复叭进行,局中人的八经验越来越丰富澳,这种经验源于碍博弈历史。实际矮上,重复博弈中颁的每一点处,局凹中人决定自己的癌选择时会考虑到扮达该点之前的全疤部博弈历史,比肮如象棋棋手在上哎
38、一局中因出车慢跋而吃了亏,那么翱这一局中就会吸叭取前一局的教训爸而赶快把车开出疤来。这样一来,癌重复博弈中局中半人的策略空间随瓣着博弈被重复的般次数的增加而变办得越来越大,也蔼就是说,博弈历靶史越长,局中人邦的策略空间越大邦,可以选择的着爸法越多。由于矮“芭我的对手会基于白我的选择历史而爸修正他的行为,傲我必须在做出自稗己的选择时考虑碍到这种影响爱”扮,所以,重复博版弈的结果不绝不疤是一次性博弈的般简单重复。蔼例1哀.般 扒囚徒博弈的重复傲我们以囚徒博弈搬为例,来分析重班复博弈问题。囚拌徒博弈中,企图靶获得胺“熬(合作,合作)啊”靶解是两个局中人昂的长期利益所在百。对于每个局中肮人来说,可行的
39、奥做法是试着给另埃一个局中人发出皑“懊信号百”澳以表明他的拔“艾善意扳”般,并且在博弈一扳开始移动就进行斑合作。当然,背敖叛是另一个局中斑人的短期利益所矮在。如果他不合癌作而采取背叛策百略,那么对方就巴可能失去耐心而斑从此以后永远只翱实行背叛。这样氨一来,背叛者就啊会因只看到眼前摆利益而丧失合作埃的长期利益。基疤于这种推理可以鞍得到的事实是,案一个局中人目前暗的做法将在未来半将得到回应哎背其他局中人的未哎来选择可能依赖稗于这个局中人当敖前的选择。碍现在来分析一下俺“背(合作,合作)啊”昂局势能否成为重半复囚徒博弈的一佰个均衡。我们分拜两种情况进行讨疤论,一种情况是柏有限次重复博弈艾,另一种情况
40、是按无限次重复博弈碍。绊先讨论有限次重邦复博弈,为此假凹定每个局中人都把知道博弈将重复跋一个固定的次数叭(比如重复次半)。考虑最后一巴轮博弈实施之前癌局中人给予的推柏理,此时每个人蔼都认为他们在进胺行一次性博弈。埃由于这是最后一懊次移动,将来不按会再有,因此均艾衡的标准逻辑推拌理便得以应用,吧其结果是局中人熬双方都选择半“靶背叛捌”靶策略。再考虑最跋后一次移动之前奥的移动,这里似肮乎每个局中人都皑重视合作,以向岸对方发出他是版“八好人摆”安的信号,以便能啊在下一次以及最巴后一次移动中合矮作。但是,我们癌已经看到,最后啊一次移动中双方唉都将采取背叛,跋因此在倒数第二按次的移动中合作捌就没有什么优
41、势凹可言。采取合作拔是为了得到长期百利益,为了在将版来最后一次移动柏中得到回应。然奥而,将来最后一败次移动中并不能靶得到合作,双方跋都背叛了,结果斑倒数第二次移动澳中双方也只有采皑取背叛。同理不摆断向后归纳(b案ackward癌s哀 凹inducti爸on),结果最爱后一次移动之前佰的所有移动中,奥合作并不能带来拌什么长期利益,爸没有什么优点,奥局中人惟有相信啊其他局中人将在背最后一次移动中澳背叛,用现在的鞍善意企图去影响般未来下一次的移摆动是无利可图的柏。因此,在重复绊某一固定次数的芭囚徒难题重复博爸弈中,每一局博拌弈的均衡局势都拔是白“瓣(背叛,背叛)癌”扒,而不是般“白(合作,合作)斑”
42、安。啊再来考虑博弈可氨无限次重复的情胺况。当博弈的重蔼复次数为无限时扒,情况就大不相芭同了。此时,局吧中人在每一个阶耙段都知道博弈至傲少还要重复一次搬以上,因而合作背大有前景,长期跋利益在望。在这扳种无限次重复的阿囚徒博弈中,每拌个人的策略都是稗一个函数序列,伴它表明每个局中懊人在每个阶段是霸选择合作还是选斑择背叛,都是作叭为此阶段之前博安弈历史的函数。颁重复博弈中,局叭中人的收益是各耙阶段收益的贴现按值之总和搬摆贴现和跋(昂向时刻0贴现)昂。具体地说,设懊局中人在时刻阿的收益癌(百即第八局重复中的收益白)板为颁,他在重复博弈碍中的收益就是贴唉现和板,其中八为贴现率。只要败贴现率不很高,癌囚徒
43、博弈每一局蔼重复的均衡局势案便都是岸“蔼(合作,合作)罢”昂,每个人在各个柏阶段都会看到合暗作的利益。为了摆说明这个事实,板我们采用第一节摆例2提供的数据佰。哀假设两个局中人版一直合作,移动翱到了时刻胺。如果本次移动扒中一个人决定背昂叛,那么另一个跋人会因本次移动熬中采取合作而未爱得收益,从而从唉下次以后永远采办取背叛策略,给俺对方以惩罚。第暗一个背叛者从本癌次开始,以后只伴能继续背叛(因翱为合作的收益为癌零),结果他虽拜然在本次移动中拔立即得到了40笆00元的收益,百但也以以后无限伴次的1000元哎收益这个低收益扳流来毁灭自己,哀他从背叛中得到摆的收益贴现和为氨元。另一方面,霸如果他持续合作
44、安下去,永不背叛吧,那么对方也不败会背叛,于是他敖从合作中得到的氨收益贴现和为办元。比较伴和叭可知,只要贴现懊率奥,就有岸。这就说明,只白要贴现率不很高耙,当一方背叛时拌,另一方也采取半背叛给其以惩罚傲,就能使背叛者叭偿其苦果。由此胺看来,只有双方熬互相合作下去。肮如有一方背叛,扮另一方就要执行靶惩罚策略来使背扒叛者饱偿苦果,哎因而没有一方能澳够从背叛中会有翱收获。所以,在唉贴现率不很高的背情况下,囚徒博翱弈重复的均衡是扳局中人双方在各柏阶段都采取合作拜策略。隘以上论述实际上艾是很有力的,有柏一个称为弗尔克案(Folk)的挨著名定理支持了把这一论述。该定啊理断言:在重复爸的囚徒博弈中,啊任何收
45、益如果高矮于局中人双方一芭致背叛所能得到扒的收益,那么都凹将被作为重复博把弈均衡而得到支般持。上面我们还爱提到了惩罚策略澳,实际上这个策班略可明确叙述成俺:扮“哎在当前移动中合般作,除非其他局盎中人在最后移动白中背叛傲”邦。采取这个策略柏的理由是,如果搬一个局中人背叛拔,那么他将在收挨益上得到永久性昂惩罚。另外,上叭面论述中还涉及蔼到了贴现率,并皑要求贴现率不很鞍高。实际上,当阿贴现率很高时,敖当前收益就是特罢别重要的,因为鞍将来的货币贬值坝太大了,现在的皑收益要抵得上将按来收益的好几倍翱,因而当事人只邦好顾及当前收益案,力求当前收益哀越多越好,而把隘未来长远利益放癌在次要位置上。邦下面再看一
46、个双鞍头垄断的重复博扒弈事例。肮例2盎办维持卡特尔罢考虑一个简单的隘重复双头垄断,邦如果两个厂商都蔼执行古诺博弈均瓣衡策略,则得到哀利润搬;如果以共同利拌润最大化决定产挨量水平,即执行鞍卡特尔行动,则埃得到利润坝。我们知道,一败次性博弈中共同跋利润最大化的产隘量不是博弈均衡鞍,每个厂商都有安激励去倾销额外翱数量的产品,如袄果他认为其他厂鞍商将保持产量不隘变的话。但是在疤重复博弈中,只坝要贴现率不太高把,合作起来以使爸共同利润最大化鞍之策略,将是重袄复博弈的最优解暗。袄可以证明,如果案这种简单的双头拜垄断博弈是一次半性的,那么每个巴厂商以古诺产量摆生产将是博弈的靶最优解。但是,绊如果这个博弈是吧
47、不断重复的,那唉么每个厂商都采霸取按照卡特尔产安量生产的策略,搬即都选择合作,叭将是双头垄断重芭复博弈的最优解扒。对不合作的适颁当惩罚,是采取班生产古诺产量水艾平这一策略。可氨见,在不断重复拔的双头垄断博弈板中,由于一次性癌博弈均衡这种惩般罚策略的存在,按局中人都将以长柏远利益为重,来巴维持卡特尔。昂第四节 混合策澳略版并非所有博弈都拔有严格确定的结埃局。进一步,实安际中博弈局中人俺常常希望自己的版行动隐秘不被暴版露,不被对手觉矮察。对于这两个芭问题,目前意义班上的策略博弈是唉解决不了的。在肮博弈非严格确定矮或者局中人希望般保守秘密的情况哎下,局中人的最安好做法是采取混捌合策略,即以一挨定的概
48、率采取某胺种策略。这样做板,甚至连局中人背自己也不知道每袄一次行动中究竟跋采取什么策略,柏竞争对手就更不隘得而知了。而且扳对于非严格确定把的博弈来说,采翱用混合策略就可靶求得最优解。当昂一种混合策略以蔼概率1选择某种疤策略时,这种策艾略就是前三节所叭谈论的把“版纯澳”耙策略,可见混合巴策略扩展了策略暗概念。唉一混合策略的肮概念唉我们以两人博弈拜为例,来对混合摆策略的概念以及癌采取混合策略时安局中人的行动目敖标进行解释。至隘于更一般的多人办博弈,将在下一癌节中讨论。稗设搬为有限二人策略安博弈,其中碍为局中人甲的策笆略集合,邦为乙的策略集合澳,澳和背分别为甲和乙的百收益函数。唉局中人为了保持百自己
49、决策的秘密扮性,不再象以前奥那样选择纯策略爸,而决定采用随芭机办法来选择策皑略。也就是说,啊局中人对纯策略八的选择由某种随袄机装置来决定,摆对每个纯策略来般说,采用它只有板可能性的大小,案也就是用多大的哀概率来选择各个隘纯策略。这样,班对方就不可能事白先知道究竟选择笆哪个纯策略,甚啊至连局中人自己罢也不可能事先知办道,而纯策略是跋在最后时刻借助佰随机装置选择出叭来的。通过借助捌随机装置,局中板人原来对纯策略肮的选择变成为现捌在对各个纯策略般的概率大小的选敖择。袄如果还嫌借助随班机装置给出的选艾择各个纯策略的熬概率大小具有一百定的客观性,怕扮被对方估计出来肮,局中人还可进霸一步采取主观概耙率分布
50、,以使对安纯策略的选择带办有真正的不确定皑性(参见第六章败关于主观概率的搬介绍)。凹这种以某种概率矮选择的策略就是邦混合策略,更准邦确地说,选择混懊合策略就是选择疤一个概率分布,拔然后按照这个分摆布给出的概率来奥选择各个纯策略暗。假如甲选择策颁略扮的概率为版 颁,唉,则向量斑代表着甲选择各傲种纯策略的概率氨分布,实际上就芭表示了甲的一种肮混合策略。这就办是说,混合策略哎是用概率分布邦来表示的,混合敖策略的变化完全板反映为概率分布懊的变化。今后,班我们把概率分布霸就称为局中人甲拜的捌混合策略柏。挨原来的纯策略挨可看成是这样的懊一种混合策略:八以概率1选择策伴略岸,以概率0选择笆其他策略坝。如此一
51、来,甲皑的策略集合由原拌来的纯策略集合澳扩张成为混合策爱略集合伴。同样,局中人啊乙的选择集合也挨由原来的纯策略稗集合澳扩张成为混合策氨略集合胺。当甲采取混合皑策略拜,乙采取混合策拌略背时,袄就称为博弈把的摆混合局势暗。傲在采取混合策略班的情况下,局中颁人的目标是要使拔预期收益最大化白。当甲采取混合柏策略般,乙采取混合策翱略版时,甲和乙的预啊期收益分别为暗和哀:版这里,唉和背都写成行向量形熬式,罢“摆”翱为转置运算。甲扒的收益函数由原傲来的白扩充成为跋,乙的收益函数拜由原来的案扩充成为版。盎在策略集合和收瓣益函数都得到扩唉充以后,原来的昂纯策略博弈岸就扩充成为混合扳策略博弈白,而且板可看成是一般
52、的半二人博弈,不过办这个博弈的收益唉函数具有双线性搬性,即对于任何背,扳,及任何实数扒,都成立:拜的混合局势就是盎的局势。博弈氨叫做纯策略博弈扒的坝混合扩充肮。关于混合扩充盎,下述两个事实肮是明显的:肮(1) 罢博弈办是常和博弈当且矮仅当混合扩充安是常和博弈爸。板(2) 敖如果叭是常和博弈,则搬混合扩充啊保持了原来博弈版的收益和傲。啊混合扩充瓣的最优解跋(昂均衡唉)艾,叫做原博弈爸的拔最优混合解敖(唉混合均衡昂)奥。也即挨是疤的最优混合解,盎是指熬且昂。当瓣是把的最优混合解时啊,捌和颁分别叫做甲和乙斑的拜最优混合策略柏。可以证明:叭(3) 岸纯策略博弈办的最优解必然是岸混合扩充巴的最优解胺。稗
53、(4) 吧当拔是常和博弈时,靶是捌的最优混合解当拔且仅当拔。霸从班(4)皑可知,扮是常和博弈把的最优混合解当袄切仅当班是预期收益函数颁的鞍点。应用第敖二节的鞍点定理扳,我们得到常和摆博弈的最优混合鞍解的又一判别条阿件:隘(5) 般设板是二人常和博弈爱,则翱是班的最优混合解的氨充分必要条件是扳 俺。盎二混合策略的澳意义罢有时,给予混合敖策略一个有意义败的解释是困难的岸。第一节例1所把述的便士匹配博艾弈,由于收益矩隘阵没有鞍点,因罢而没有纯策略意爸义下的最优解。把但由于硬币出现矮正面或反面,总摆有一个概率分布绊情况,因此采取俺混合策略来把便奥士匹配博弈加以捌扩充,然后寻找巴混合策略意义下拔的最优解
54、,这显疤然是我们大家都佰能够感觉得到的搬应该采取的做法拔。然而对于象双邦头垄断这样的一拜些其他经济利益板博弈来说,采取挨混合策略似乎是绊不现实的。颁除了混合策略在袄一定范围内缺乏败现实意义外,还扳有一些逻辑上的半原因导致对混合霸策略难以解释。傲我们用一个例子安来说明这一点。唉例1埃傲性别博弈埃(Battle背 of the肮 Sexes)性别博弈收益表叭卡夫芭茹达胺话剧阿足球把话剧澳2,1暗0,0版足球版0,0败1,2靶这里介绍的博弈八背后隐藏的故事扮是一场般“靶性别之战坝”氨。茹达(Rho皑nda,女)和佰卡夫(Calv霸in,男)本周熬末一起欢度良宵阿,但他们二人的摆娱乐爱好不同。摆茹达喜
55、欢看话剧耙,而卡夫喜欢看拌足球比赛。如果盎他们同时选择看跋话剧,则茹达可拌得2个单位的效把用,卡夫可得1阿个单位的效用;跋如果同时选择看奥足球比赛,则他扳们得到的效用正艾好与此相反;如稗果他们选择不同吧的娱乐,则得不安到任何效用。右摆表给出了茹达和懊卡夫的收益情况傲。我们来看一看巴茹达和卡夫之间斑这场凹“罢性别之战哀”按博弈的结局究竟凹如何。凹首先,让我们寻啊找该博弈的所有扒纯策略意义下的矮最优解。通过对斑各种策略进行逐啊一相互比较,不袄难看出版“埃(话剧,话剧)按”绊和昂“摆(足球,足球)伴”绊都是纯策略最优班解,即茹达和卡癌夫选择相同的娱拔乐,才是最好的袄做法。柏然后,我们来寻拜找混合策略
56、意义隘下的最优解。茹拜达的收益矩阵把和卡夫的收益矩半阵澳为:,背茹达的预期收益扮为瓣,卡夫的预期收肮益为隘。因此,最优混版合策略问题可归阿结为如下的约束耙极值问题:邦应用Kuhn-扳Tucker条背件(参见第七章颁第八节),上述八极值问题的解为八,敖,坝,柏。这就是说,茹盎达以概率败选择看话剧,以翱概率傲选择看足球比赛背;卡夫以概率皑选择看话剧、以半概率稗选择看足球比赛澳,是性别博弈的柏最优混合局势。胺这个最优解有这岸样几个特点:第挨一,茹达和卡夫瓣采取最优混合策班略的预期收益都稗等于2/3;第罢二,如果茹达采皑取最优混合策略疤,那么不论卡夫扳采取什么纯策略癌,卡夫的预期收叭益也都是2/3傲;
57、第三,如果卡哀夫采取最优混合凹策略,那么不论稗茹达采取什么纯凹策略,她的预期稗收益也都是2/拜3。这样一来,傲还有什么理由要拌求茹达和卡夫双邦方都采取最优混敖合策略呢?看来稗,要想人们采取斑混合策略,必须挨有一些更加令人把兴奋的理由。芭本例说明,从逻吧辑上讲,采用混疤合策略没有多少哀道理。尽管如此鞍,在某些情况下柏这种逻辑上的毛芭病不会带来严重百问题。例如,假哀定有一大群人在皑随机碰面并玩便败士匹配游戏,甲伴是其中一员。设哎最初每个人都按皑概率分布(1/搬2,1/2)执伴行唯一的最优混蔼合策略,到最后疤有些人便厌倦于隘执行此混合策略隘,而决定总是玩傲正面游戏或总是爱玩反面游戏。如罢果决定总出正
58、面白的人数等于决定半总出反面的人数稗,那么各个局中按人的选择问题不般会有明显变化:邦每个人仍然理性办地以为他的对手氨以50的可能白性出正面或反面皑。也就是说,虽摆然每个人都决定板采取纯策略而总俺是出正面或反面般,但当甲随机碰昂到一个局中人时斑,该人是出正面翱还是反面,甲不捌得而知,只能作唉出这样的判断:熬该人出正面的可把能性为50。八这等同于该人采凹取混合策略。叭对混合策略的另坝一种解释是:考懊虑某人在一次性柏博弈中出正面还艾是反面的选择,艾这个选择被看作颁是依赖于一些为跋对手所不能确定疤的特殊因素。比熬如,该人心想暗“版正面蔼”半时就出正面,心爱想罢“稗反面奥”伴时就出反面。这氨种俺“氨心想
59、胺”罢因素是很难为对鞍手所把握的,一办个人可以自我觉般察到自己的心情傲,但其他人(对鞍手) 却难以觉跋察这个人的心情碍。因此,每个局版中人都会认为其拔他人对策略的选盎择是随机的。这爸样,采取混合策疤略就是一件有意绊义的事情。疤第五节 矩阵博安弈的古诺均衡把前面介绍的博弈挨最优解(均衡)稗概念,假定了局把中人各自独立行柏动,没有合作。安这种非合作二人摆博弈均衡概念,熬最早是由古诺提案出来的,称为古白诺均衡。无合作皑意味着局中人之坝间存在着利害冲版突,互相对抗,办互为对手。矩阵叭博弈爱(哎即二人零和博弈版)艾是对这种或对抗拌状态的简明刻画叭,本节就下面就颁矩阵博弈均衡的吧存在性与算法问罢题及其均衡
60、的性挨质进行讨论。柏一均衡的存在疤性氨收益矩阵的鞍点氨未必存在,这使背得矩阵博弈的均绊衡未必存在。但挨当采用混合策略罢时,情况就不同班了:矩阵博弈的岸最优混合解总是拜存在的。下面用板von Neu罢mann(19阿37)的构造性柏方法来证明这一霸事实,构造性方安法本身蕴含着古扒诺均衡的一种计班算方法。鞍矩阵博弈均衡的半存在性按捌任何矩阵博弈都版有混合均衡奥。般具体来说,设背 拜为矩阵博弈暗,矮,阿,哎为叭的混合扩充,则邦必存在耙满足挨。傲本定理的证明较昂长,会令读者感拜到枯燥。但证明安过程给出了古诺瓣均衡的计算方法斑,学习掌握这一吧计算方法是重要扳的,读者有必要袄静下心来琢磨一盎下。佰首先注意
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生效的调解协议书
- 苗木合同协议书
- 蔬菜试验协议书
- 裤子批发合同范本
- 认养盆花协议书
- 认购预订协议书
- 设备协作协议书
- 设备评审协议书
- 设计决定协议书
- 试工期合同协议
- 高空抛物责任民事起诉状范文
- 新媒体环境下品牌IP形象构建与跨文化传播策略研究
- 关于支付生活费协议书
- 购买牛饲料合同协议
- 2025年中国两轮电动车行业研究报告
- 椎弓根钉术后护理
- DLT 593-2016 高压开关设备和控制设备
- 现代药物制剂与新药研发知到智慧树章节测试课后答案2024年秋苏州大学
- DB32T 4660-2024 政务服务差评处置工作规范
- 胸腔手术术后并发症
- 2024-2025学年七年级生物上册 第二单元第三、四章 单元测试卷(人教版)
评论
0/150
提交评论