Chapter1 Static Games of Complete Information(博弈论-浙江大学)_第1页
Chapter1 Static Games of Complete Information(博弈论-浙江大学)_第2页
Chapter1 Static Games of Complete Information(博弈论-浙江大学)_第3页
Chapter1 Static Games of Complete Information(博弈论-浙江大学)_第4页
Chapter1 Static Games of Complete Information(博弈论-浙江大学)_第5页
已阅读5页,还剩97页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Chapter1完全信息静态博弈StaticGamesofCompleteInformationInthischapterweconsidergamesofthefollowingsimpleform:first,theplayerssimultaneouslychooseactions;then,theplayersreceivepayoffsthatdependonthecombinationofactionsjustchosen.Withintheclassofsuchstatic(orsimultaneous-move)games,werestrictattentiontogamesofcompleteinformation.That

iseachplayer’spayofffunction(thefunctionthatdeterminestheplayerspayofffromthecombinationofactionschosenbytheplayers)iscommonknowledgeamongalltheplayers.教材P21一、Normal-FormRepresentationofGamesandNashEquilibrium(一)Normal-FormRepresentationofGamesInthenormal-formrepresentationofagame,eachplayersimultaneouslychoosesastrategy,andthecombinationofstrategieschosenbytheplayersdeterminesapayoffforeachplayer.Weillustratethenormal-formrepresentationwithaclassicalexample—Theprisoners’Dilemma.*Twosuspectsarearrestedandchargedwithacrime.Thepolicelacksufficientevidencetoconvictthesuspects,unlessatleastoneconfesses.Thepoliceholdthesuspectsinseparatecellsandexplaintheconsequencesthatwillfollowfromtheactionstheycouldtake.Ifneitherconfessesthenbothwillbeconvictedofaminoroffenseandsentencedtooneyearinjail.Ifbothconfessthenbothwillbesentencedtojailfiveyears.Finally,ifoneconfessesbuttheotherdoesnot,thentheconfessorwillbereleasedimmediatelybuttheotherwillbesentencedtoeightyearsinjail—fiveforthecrimeandafurtherthreeforobstructingjustice(干扰司法)。囚徒2招认沉默招认–5,-50,-8囚徒1沉默-8,0-1,-1

囚徒的困境Wenowturntothegeneralcase.Thenormal-formrepresentationofagamespecifies:(1)theplayersinthegame;(2)thestrategiesavailabletoeachplayer;(3)thepayoffreceivedbyeachplayerforeachcombinationofstrategiesthatcouldbechosenbytheplayers.

Definition:Thenormal-formrepresentationofan-n-playergamespecifiestheplayers’strategyspacesS1,…,Snandtheirpayofffunctionsu1,…,un.WedenotethisgamebyG={S1,…,Sn;u1,…,un}.教材P22*理解完全信息静态博弈时要注意事项1Althoughwestatedthatinanormal-formgametheplayerschoosetheirstrategiessimultaneously,thisdoesnotimplythatthepartiesnecessarilyactsimultaneously:itsufficesthateachchoosehisorheractionwithoutknowledgeoftheothers’choices,aswouldbethecase“theprisoners’dilemma”iftheprisonersreacheddecisionsatarbitrarytimes(在任意时间)whileintheirseparatecells.2Herewemayrecognize‘completeinformation’asthateachplayerknowthepayofffunctionsoftheothers.(二)Dominant-StrategyEquilibriumDefinitionInthenormal-formgameG={S1,…,Sn;u1,…,un},letsi'andsi"

befeasiblestrategiesforplayeri(i.e.,si'andsi"aremembersofSi

).Strategysi'isstrictlydominatedbystrategysi"ifforeachfeasiblecombinationoftheothers’strategies,i’spayofffromplayingsi'isstrictlylessthani’spayofffromplayingsi".i.e.:ui(s1,…,si-1,si*,si+1,…,sn)

<ui(s1,…,si-1,si**,si+1,…,sn)

(DS)foreachs-i=(s1,…,si-1,si+1,…,sn)thatcanbeconstructedfromtheotherplayers’strategySpacesS1,…,Si-1,Si+1,…,Sn.WATSONP551囚徒2招认沉默招认–5,-50,-8囚徒1沉默-8,0-1,-1

囚徒的困境策略“沉默”严格劣于策略“招认”博弈分析的目的:预测博弈的均衡结果,即给定“每个参与人都是理性的”是共同知识,什么是每个参与人的最优策略?什么是所有参与人的最优策略组合?*肯定性(sure-thing)或替代性(substitution)公理:一个决策者在事件A发生的偏好选项1胜于选项2,并且在事件A不发生时也偏好选项1胜于选项2,那么就有,他在知道事件A无论是发生还是不发生之前都应该偏好选项1胜于选项2。——“理性的参与人不会选择严格劣策略”俗语:已不变应万变“重复剔除严格劣策略(iteratedeliminationofstrictlydominatedstrategies)”的思路:首先,找出某个参与人的严格劣策略,并把它从他的策略空间中剔除,重新构造一个已不包含该严格劣策略的博弈;其次,剔除新博弈中某个参与人的严格劣策略;重复上述过程,直到只剩下唯一的策略组合。——我们认为这个唯一所剩的策略组合是稳定的。P24DefinitionInanormal-formgame,ifforeachplayeri,si"isi’sdominantstrategy,thanwecallthestrategiesprofile(s1″,…,sn"

)the‘dominant-strategyequilibrium’.参与人2左中右上1,01,20,1参与人1下0,30,12,0策略组合(上,中)是均衡结局,将实现支付(1,2)。第一第二第三

参与人2左中右上0,44,05,3参与人1中4,00,45,3下3,53,56,6每个参与人都不存在严格劣策略(三)纳什均衡

DefinitionInthen-playernormal-formgameG={S1,…,Sn;u1,…,un},thestrategies(s1*…,sn*)areaNashequilibriumif,foreachplayeri,si*is(atleasttiedfor(至少不劣于))playeri’sbestresponsetothestrategiesspecifiedforthen-1otherplayers,(s1*…,sn-1*,sn+1*,…,sn*):

ui(s1*…,sn-1*,si*,

sn+1*,…,sn*)

≥ui(s1*…,sn-1*,si

,

sn+1*,…,sn*)……….(NE)

foreveryfeasiblestrategysiinSi;Thatis,si*solves

maxui(s1*…,sn-1*,si,

sn+1*,…,sn*).

si∈Si

上述均衡概念是1951年由数学家约翰·纳什(JohnNash)首先解释清楚的,所以将他所解释的均衡称为纳什均衡。*对纳什均衡的理解:

1Ifgametheoryistoprovideauniquesolutiontoagame-theoreticproblemthenthesolutionmustbeaNashequilibrium,inthefollowingsense.Supposethatgametheorymakesauniquepredictionaboutthestrategyeachplayerwillchoose.Inorderforthispredictiontobecorrect,itisnecessarythateachplayerbewillingtochoosethestrategypredictedbythetheory.Thuseachplayer’spredictedstrategymustbethatplayer’sbestresponsetothestrategiesoftheotherplayers.Suchapredictioncouldbecalled

strategicallystableorself-enforcing,becausenosingleplayerwantstodeviatefromhisorher

Predictedstrategy.WewillcallsuchapredictionaNashequilibrium.-----------------------------RobertGibbonsP82是这样的一种稳定的策略组合:当所有参与人的选择公开以后,每个人都满意自己作出了正确的选择;没有人能得到更好的结果了。在博弈论中这种结果被称为NE。3为了理解纳什均衡的哲学含义,让我们设想n个参与人在博弈之前协商达成一个协议,规定每一个参与人选择一个特定的策略。我们要问的一个问题是,给定其他参与人都遵守这个协议,在没有外在强制的情况下,是否有任何人有积极性不遵守这个协议?显然,只有当遵守协议带来的效用大于不遵守协议时的效用,一个人才会遵守这个协议。如果没有任何参与人有积极性不遵守这个协议,我们说这个协议是可以自动实施的(self-enforcing),这个协议就构成一个纳什均衡;否则,它就不是一个纳什均衡。(张维迎,P68)4纳什均衡是一种策略组合,使得每个参与人的策略是对其他参与人策略的最优放应。纳什均衡是博弈将会如何进行的“一致”(consistent)预测,这意指,如果所有参与人预测特定纳什均衡会出现,那么没有参与人有动力采用与均衡不同的行动。因此纳什均衡(也只有纳什均衡)能具有性质使得参与人能预测到它,预测到他们的对手也会预测到它,如此继续。与之相反,任何固定的非纳什均衡如果出现就意味着至少有一个参与人“犯了错”,或者是对对手行动的预测上犯了错,或者是(给定那种预测)在最大化自己的收益时犯了错。(JeanTirole)P10纳什均衡通过了一致预测检验并不就使得它们是好的预测,在一些博弈格局中如果认为可以获得精确预测那会过于轻率,由此我们想提请注意一个事实,博弈的最可能结果实际上取决于比标准式所提供的更多的信息。例如,可能希望知道参与人对于此类博弈具有多少经验,他们是否来自同一种文化因此而分县分享关于博弈将会如何进行的特定期望,以及如此等等。(JeanTirole)P10-11Abrute-forceapproach(一个最直接的方法)tofindingagame’sNashequilibriumissimplytocheckwhethereachpossiblecombinationofstrategiessatisfiescondition(NE)inthedefinition.Inatwo-playergame,thisapproachbeginsasfollows:foreachplayer,andforeachfeasiblestrategyforthatplayer,determinetheotherplayer’sbestresponsetoeachofthatstrategy.……划线法……画箭头法参与人2左中右上0,44,05,3参与人1中4,00,45,3下3,53,56,6每个参与人都不存在严格劣策略(下,右)是NE,将实现支付(6,6)囚徒2招认沉默招认–5,-50,-8囚徒1沉默-8,0-1,-1囚徒的困境(沉默,沉默)帕累托优于(招认,招认)有一头大猪和一头小猪住在同一个猪圈里,猪圈的一侧放者猪食槽,另一侧安装着一个控制食物供应的按钮。按一次按钮,有8个单位的食物进槽,但需承担2个单位的成本。偌大猪小猪同时到达猪食槽,大猪吃到5个单位的食物,小猪吃到3个单位的食物;若大猪先到,大猪吃7个单位的食物,小猪只能吃到1个单位;若小猪先到,小猪吃到4个单位食物,大猪也吃到4个单位食物。练习:智猪博弈(boxedpigsgame)小猪去按等待去按3,12,4大猪等待7,-10,0大猪的收益外部化,小猪不劳而获,免费搭了大猪的便车。请列举“搭便车”的现象冲开水、搞卫生;股市上庄家与散户20世纪70年代末80年代初,美国市场上私人标签(privatelabel)的软饮料价格便宜、质量较差,因此占有较低的市场份额。可口可乐公司和百事可乐公司最初能容忍这些私人标签饮料的存在,因为它们是小猪,威胁有限。可是没过多久,一家主要的私人标签饮料供应商Cott公司通过挑衅性的定价和较高的质量,从拥有较低市场份额的地区品牌,成长为一个拥有三分之一市场份额的、旗鼓相当的竞争者。此时,可口可乐公司和百事可乐公司通过降低价格这种进攻性的行动,使私人标签软饮料的市场份额立即瓦解了。小鸡博弈(thegameofchicken)设想汤姆和吉米是两个顽皮的小孩,他们在小伙伴的鼓动下要进行一场关于勇气的比赛:两人分别从一条独木桥的两端冲向对方,谁退却谁就是“小鸡”。显然,如果两个人都向前冲,则两败俱伤,设支付水平为-2;如果一个勇进而另一个退却,则勇进者受到小伙伴的欢呼,退却者受到嘲讽,设支付分别为4和-1;若两人同时退却,则一起受到小伙伴的嘲笑,设支付为0,因为两人一起受到嘲笑比起一人单独受到嘲笑要好受些。箭头法吉米退却勇进退却汤姆勇进0,0-1,44,-1-2,-2有两个均衡。实际会怎样?(四)IteratedEliminationofstrictlyDominatedstrategiesandNashEquilibriumPropositionAInan-playernormal-formgameG={S1,…,Sn;u1,…,un},ifiteratedeliminationofstrictlydominatedstrategieseliminatedallbutthestrategies(s1*…,sn*),thanthesestrategiesaretheuniqueNashequilibriumofthegame.PropositionBInan-playernormal-formgameG={S1,…,Sn;u1,…,un},ifthestrategies(s1*…,sn*)areaNashequilibrium,thentheysurviveiteratedeliminationofstrictlydominatedstrategies.二、无限策略博弈的解和反应函数法Inthissectionweusethemodeltoillustrate:(a)thetranslationofaninformalstatementofaproblemintoanormal-formrepresentationofagame;(b)thecomputationsinvolvedinsolvingforthegame’sNashequilibrium.

按竞争程度划分的市场类型(就卖方来说;对于买方而言,市场是竞争的,且每一单个买者对市场价格影响程度较小):A完全竞争市场B寡头竞争市场C独家垄断市场卡特尔市场类型不同,厂商之间行为特怔不同,A与C类型中,厂商的决策都是个体优化决策,而B类型中寡头垄断竞争的本质就构成博弈,他们都是理性的决策者,他们的行为既影响(一)CournotModelofDuopoly

自身,又影响对方。尽管两寡头由于垄断能给他们带来一些共同的利益,但是他们的根本利益并不是完全一致的。如果两寡头之间可以签定有约束力的协议,彼此之间达成合作,形成完全垄断,此时的博弈是一种合作博弈。然而在大多数情况下,彼此之间很难达成有约束力的协议,这样就是非合作博弈。最早研究两寡头垄断竞争,并作出巨大贡献的当推法国经济学家Cournot(《财富理论的数学原理研究》,1838),他对寡头市场的极端形式——两寡头垄断市场作了分析,研究了在静态条件下,完全相同产品市场中两家厂商的竞争行为、反应函数和均衡结果,得出结论:……1、players:厂商1和厂商2向市场提供无差异的同质的产品;面临的决策是qi=?qiQ

pui,博弈●标准式表述P34p是市场出清价格,是市场供应量Q的减函数:p=p(Q)=a-Q=a-(qi+qj)2、策略:产出水平qi,策略集Si={qi:qi≥0}3、支付函数:ui(si,sj)=ui(qi,qj)=qip–cqi假定两厂商均无固定成本,只有常数边际成本c。=qi[a-(qi+qj)]–cqi=-qi2+(a-c-qj)qi●无限策略博弈NE的求解按NE定义的条件,如果策略组合(qi*,qj*)是NE,那么对于qj*,qi*是下列优化问题的解:Maxui(qi,qj*)qi∈Si=Max[-qi2+(a-c-qj*)qi]

qi∈Siduidqi-2qi+(a-c-qj*)

令:-2qi+(a-c-qj*)=0得:qi*=(a-c-qj*)/2于是有方程组:q1*=(a-c-q2*)/2q2*=(a-c-q1*)/2q1*=q2*=(a-c)/3此时,u1*=u2*=(a-c)2/9考虑关系式:qi*=(a-c-qj*)/2无论qj是否最优,由qi=(a-c-qj)/2决定的qi总是厂商i针对厂商j产出水平的最优反应;我们称关系式qi=(a-c-qj)/2为厂商i针对厂商j的策略的反应函数,并记为:qi*=Ri(qj)=(a-c-qj)/2.由此NE(qi*,qj*)必须是方程组:q1=(a-c-q2)/2q2=(a-c-q1)/2的解。-------------------------反应函数法对于无限策略博弈,其NE的求解主要是通过反应函数,而反应函数则由各个参与人的支付函数优化求得,即:Ri(s-i)来自于Maxui(s1…,sn-1,si

,

sn+1,…,sn)si∈Si下面用图解来说明该模型的NE是:((a-c)/3,(a-c)/3)q1q2a-c(a-c)2(a-c)/2a-cR2(q1)=(a-c-q1)/2R1(q2)=(a-c-q2)/2(a-c)3(a-c)/3NE0如果两个寡头能联合起来从共同利益角度进行决策,那他们将会怎样?卡特尔古诺模型中,q1*=q2*=(a-c)/3,u1*=u2*=(a-c)2/9;生产垄断产量的一半,q1m=q2m=qm/2=(a-c)/4<(a-c)/3=q1*=q2*,而u1m=u2m=(a-c)2/8>(a-c)2/9=u1*=u2*。思考:假定每个厂商要么生产垄断产出的一半,要么生产古诺产量,任何其它产出都不允许,那么他们会作怎样的决策?Cournot通过模型研究得出:两寡头市场产量比垄断市场高、价格比垄断市场价格低、利润比垄断市场低。这是典型的囚徒困境问题,导致个人理性和集体理性的冲突。类似的寡头垄断在实际经济活动中,在某些地区、某段时期、对于某种商品来说并不鲜,见,如电力业、电信业等。桔农弃桔美国1933年5月颁布的《农业调整法》是罗斯福上台后实施“新政”所颁布的一系列法令之一。旨在控制农业生产规模,减少农产品供给,以提高农产品价格。具体措施是,政府与农民签订限产合同,对自愿限产的农民实行直接津贴补助。(二)BertrandModelofDuopolyP39*两厂商决策的相互影响在于需求函数Di(pi,pj)=a-pi+bpj两厂商的产品具有一定的差异性;b是厂商i的产品对厂商j的产品的替代系数。●标准式表述1、参与人:厂商1与厂商2;他们生产同类但存在一定差异的产品。2、他们选择价格,Si={pi:pi≥0};3、他们的支付函数就是他们的利润函数:ui=ui(pi,pj)=Di(pi,pj)pi-Di(pi,pj)c=(a-pi+bpj)(pi-c)

假定两厂商均无固定成本,只有常数边际成本c。厂商i的反应函数:Ri(pj)=a+c+bpj2将是:P1*=p2*=c2P1=a+c+bp22P2=a+c+bp1P1*=p2*=(a+c)/(2-b)b﹤2思考:在Bertrand的模型中,如果两厂商的产品是同质的,那么NE会是什么?Bertrandparadox(三)豪泰林(Hotelling,1929)的价格竞争模型P41在该模型中,产品在物质形态上无差异,但在空间上处于不同的位置。●标准式表述1、参与人:商店1与商店2。他们分别位于一线性城市的两端,出售同质的商品;2、他们要决定的是各自商品的售价pi,Si={pi:pi≥0};令该线性城市的长度为1,消费者均匀地分布3、他们的支付函数就是利润函数:u1=D1p1-D1cu2=D2p2-D2c注:设两家商店商品的单位成本相同为c。设消费者购买商品的旅行成本为t,并且每个消费者都具有单位需求,即每个消费者只要认为价格“足够低”就会(也仅仅)购买一个单位的商品,这意味着如果商店i的价格“不太高”,对商店i的需求等于发现从商店i购买更为便宜的顾客的数量。在[0,1]的区间里,分布密度为1;商店1位于0处,商店2位于1处。x为[0,1]上的任意一点。01商店1商店2x住在x的消费者到商店1购买的旅行成本是tx,到商店2购买的成本是t(1-x);如果住在x的消费者在两个商店之间购买的成本是无差异的,那么所有住在x左边的消费者在商店1购买,所有住在x右边的消费者在商店2购买,即有:D1=x,D2=1-x。这里x满足:P1+tx=P2+t(1-x)x=(P2-P1+t)/2t所以有需求函数:

D1=x=(P2-P1+t)/2t;D2=1-x=(P1-P2+t)/2tu1=D1p1-D1c=(p1-c)[((P2-P1+t)/2t]u2=D2p2-D2c=(p2-c)[((P1-P2+t)/2t]反应函数:R1(p2)=(c+t+p2)R2(p1)=(c+t+p1)解两个反应函数组成的方程组,得:p1*=p2*=c+tu1*=u2*=t/2商店的利润与消费者的旅行成本成正比。P42思考:“冰激凌问题”夏季某海滨浴场有两个冰激凌销售商,冰激凌是由同一个工厂供应(产品无差异),价格由厂家统一确定。那么消费者会就近购买。问:两个销售商将选址何处?对于Hotelling的价格竞争模型,可以一般地讨论两家商店位于[0,1]区间内任意位置时的情形:01ab商店1商店2x若住在x处的消费者到商店1与商店2无差异,那么有D1=x,D2=1-x;x满足:P1+t(x-a)2=P2+t(1-x-b)2设旅行成本为td2,d为消费者到商店的距离。x=a+(1-a-b)/2+(P2-P1)/2t(1-a-b)所以有需求函数:D1=x=a+(1-a-b)/2+(P2-P1)/2t(1-a-b)D2=1-x=b+(1-a-b)/2+(P1-P2)/2t(1-a-b)进一步可解得NE为:P1*(a,b)=c+t(1-a-b)(3+a-b)/3P2*(a,b)=c+t(1-a-b)(3+b-a)/3当a=0、b=0,即商店1位于0、商店2位于1,P1*(0,1)=P2*(0,1)=c+t;当a=1-b,即商店1与商店2同时位于线性城市的正中央,P1*(a,1-a)=P2*(a,1-a)=c。(四)TragedyoftheCommonsP44(Harding,1968)●标准式表述1、参与人:一个村庄里的n家农户,他们可以自由地在一片公共草地上放牧羊群。公共资源publicresourcesandgoods:Theresourcesandgoodswhichanyonehasownershipofthemandanyonecanusethemfreely.gi农户i的放牧羊的数量,∑gi=G。2、策略:每个农户决定gi=?以最大化自己的收益,Si={gi:gi≥0}。令V为每一只羊的产出。一个合理的假设是V是G的减函数(而不仅仅是gi的增函数),记为V=V(G)。由于每只羊的生存需要一定量的青草,草地能供养的羊的数量有一个上限Gmax:当G﹤Gmax时,V(G)﹥0,当G≥Gmax时,V(G)=0;并且在G﹤Gmax时,V(G)随G的增大下降速度加快,见下图:0V(G)GmaxV'(G)<0V"(G)<0G3、支付函数:ui=[V(G)-c]gi假设每只羊的购买与饲养成本相同为常数c令n=3,c=4,V(G)=100-(g1+g2+g3)。那么有:ui=[100--(g1+g2+g3)4]gi反应函数:R1(g2,g3)=(96-g2-g3)/2R2(g1,g3)=(96-g1-g3)/2R3(g1,g2)=(96-g1-g2)/2g1*=g2*=g3*=24,此时u1*=u2*=u3*=576。如果村里对这片草地进行管理,即制定一条村规,限制农户养羊的数量,情况将怎样?村干部要做的优化决策是:MaxU=Max[(100-G)-4]GGGdUdG=100-G-4-G令100-G-4-G=0Gm=48Um=2304村规:gim=16﹤gi*=24uim=768﹥ui*=576三、混合策略纳什均衡(一)混合策略的提出猜硬币方正面反面正面-1,11,-1盖硬币方反面1,-1-1,1MatchingPennies不存在纯策略意义上的NE。那么,他们的合理选择是什么?ThedistinguishingfeatureofMatchingPenniesisthateachplayerwouldliketooutguesstheother.Inanygameinwhicheachplayerwouldliketooutguesstheother(s),thereisnoNashequilibrium(atleastasthisequilibriumconceptwasdefinedinSection1.3)becausethesolutiontosuchagamenecessarilyinvolvesuncertaintyaboutwhattheplayerswilldo.就一次游戏而言,猜测对方的策略,保密自己的策略。在多次反复游戏中,避免任何的倾向性和规律性。怎样才能让对方彻底猜不透?连自己也不知道自即将会采用哪个策略;把对方搞糊涂。随机地选择策略,即采用混合策略对纯策略空间来说,可延伸的混合策略很多,如本例中双方的纯策略空间都是{正面,反面},混合策略可以是(5%,95%),(3%,97%),(20%,80%),(50%,50%),……选择哪个混合策略?即p(正面,反面)=?先看盖硬币方的决策:令p盖方(正面,反面)=(r,1-r)。这时,猜硬币方若猜正面,则支付为(期望值):V(正)=1×r+(-1)×(1-r)=2r-1若猜反面,则支付为:V(反)=(-1)×r+1×(1-r)=-2r+1如果r﹥1/2或r﹤1/2,则有V(正)﹥0﹥V(反)或V(正)﹤0﹤V(反),那么,猜方只要猜正面或猜反面就赢定了,相应地盖方就输定了。所以只有使r*=1/2,盖方才能不输。令V(正)=V(反)使猜方猜正面与猜反面无区别。再看猜方的决策:令p(正面,反面)=(q,1-q),这时盖方的:V(正)=(-1)×q+1×(1-q)=-2q+1V(反)=1×q+(-1)×(1-q)=2q-1同理令:V(正)=V(反),即-2q+1=2q-1得:q*=1/2NE:p盖*(正面,反面)=(1/2,1/2)p猜*(正面,反面)=(1/2,1/2)要求:请验证是否有人愿意偏离这个概率分布。把这个包含概率分布(不确定性)的NE称为混合策略NE。混合策略定义P50DefinitionInthenormal-formgameG={S1,…,Sn;u1,…,un},supposeSi={si1,…,siK}.Thenamixedstrategyforplayeriisaprobabilitydistributionpi=(pi1,…,piK),where0≤pik≤1fork=1,…,Kand(pi1+…+piK=1.为了能简单地说明混合策略NE的精神,考虑标准式博弈G={S1,S2;u1,u2}。令S1={si1,…,siJ},S2={si1,…,siK},在纯策略情况下,ui=ui(s1j,

s2k),一个确定的数值。但在采用混合策略的情况下,参与人只能把注意力集中于期望效用:ui=Vi(s1j,

s2k)。令p1=(p11,…,p1J)为参与人1的概率分布,p2=(p21,…,p2K)为参与人2的概率分布。参与人1推测到参与人2将以p2在{s21,…,s2K}上选择,那么自己选择纯策略s1j的期望支付是V1(s1j)=∑p2kui(s1j,

s2k)k=1K并且,参与人1选择混合策略p1的期望支付是:

V1(p1,p2)=∑p1j[∑p2ku1(s1j,

s2k)]k=1Kj=1J同理:V2(p1,p2)=∑p2k[∑p1ju2(s1j,

s2k)]j=1Jk=1K在两人博弈里,混合策略NE是指两个参与人的最优混合策略组合。所谓最优混合策略是指使参与人的期望支付最大化的混合策略。换言之,一对混合策略(p1*,p2*)要成为NE,p1*与p2*必须同时分别满足:V(p1*,p2*)≥V(p1,p2*)与V(p1*,p2*)≥V(p1*,p2)混合策略NE定义DefinitionInthen-playernormal-formgameG={S1,…,Sn;u1,…,un},themixedstrategies(p1*,…,pn*)areaNashequilibriumifeachplayer’smixedstrategyisabestresponsetotheotherplayer’smixedstrategies:

V(pi*,p-i*)≥V(pi,p-i*)musthold.(二)混合策略NE的求解●支付等值法112113这种通过使对方选择各个纯策略的期望支付值相等来确定自己的策略空间上的最优概率分布的方法被称为“支付等值法”。●支付最大化法以猜硬币游戏为例。令盖硬币方以r的概率选正面,以1-r的概率选反面,即P盖=(r,1-r);猜硬币方以q的概率猜正面,以1-q的概率猜反面,即P猜=(q,1-q),有:V盖(p盖,p猜)=r[(-1)×q+1×(1-q)]+(1-r)[1×q+(-1)×(1-q)]=-4qr+2q+2r-1

V猜(p盖,p猜)=q[1×r+(-1)×(1-r)]+(1-q)[(-1)×r+1×(1-r)]=4qr-2q-2r+1解:MaxV盖(p盖,p猜)r得:q*=1/2MaxV猜(p盖,p猜)q得:r*=1/2混合策略NE是盖方在策略空间{正面,反面}上以概率分布P盖*,=(1/2,1/2)进行选择,猜方也在策略空间{正面,反面上以概率p猜*=(1/2,1/2)进行选择。对混合策略的辩护:*混合策略表示使用不同纯策略的大量参与人。*Harsanyi:混合可以解释为参与人收益上微小的不可观测变动的结果。*博弈多次反复进行时参与人实施某一纯策略的不确定次数和时间。*P52一个参与人实施混合策略的目的是给其他参与人造成不确定性,尽管其他参与人能推测到他选择某个纯策略的概率有多大,但却不知道他到底会选哪个纯策略。为了进一步理解混合策略的实际意义,下面分析“监察博弈”(JeanTiroleandSelten)监察博弈“监察博弈”是“MatchingPennies”的一种流行变种,它可以应用于武器控制、犯罪预防和工人激励。下图是这一博弈的简单版本。一个工人为一个老板工作(参与人);工人可以偷懒或工作、老板可以监察或不监察(策略集);工人工作能为老板产生价值为v的产出,但会使自己花费成本g。老板监察要花费成本h,但可以提供工人是否偷懒的证据。工人得到工资w(假设老板不允许根据观测产出水平来条件化工资),如果工人被抓住在偷懒,则他得到0(由于有限责任的原因)。两认同时选择他们的策略(特别地,老板在决定是否监察工人时不知道工人是否会选择偷懒)。为了限制要考察的情形数量,假设g>h>0;为了使分析更有趣,还假设w>g(否则工作对于工人来说会是一个严格劣策略)。监察不监察偷懒0,-hw,-w不偷懒w-g,v-w-hw-g,v-wP*(偷懒)=h/w,P*(监察)=g/w武器核查、工商打假、不定期抽查等等恋人之争battleofthesexes一对恋人,小娟和大海,在不同的地方上班,两人都很珍惜周末能够在一起的时间。某周末,小娟花高价购得两张芭蕾舞门票,大海也好不容易搞到两张足球赛门票。小娟从小酷爱芭蕾,大海是个十足的足球迷,怎么办?显然如果各自分开过周末,那才是双方最不乐意的事。大海芭蕾足球芭蕾小娟足球2,11,20,00,0Battleofthesexes存在两个纯策略NE:(芭蕾,芭蕾)和(足球,足球)。无法形成一致的预期,结果不确定。*Schelling(1960)认为,在现实生活中,参与人可能使用某些被博弈模型抽象掉的信息来达到一个“聚点”(focalpoint)均衡。这些信息可能与社会文化习惯、参与人过去博弈的历史等有关。*促成NE出现的另一种方法是参与人在博弈开始之前进行不花什么成本的“廉价磋商”(cheaptalk).*Aumann(1974)证明,如果参与人可以根据某个共同观测到的信号进行博弈,就可能出现“相关均衡”(correlatedequilibrium)。如天气抛硬币如果两个人都很任性,谁也不让步,谁也不肯让对方得意又确实离不开对方,那就变成实施混合策略:(小娟)选足球不甘心,选芭蕾又怕大海不乐意。大海也一样。那么最优的概率分布是什么?令小娟策略空间{芭蕾,足球}上的概率分布为(r,1-r),大海策略空间{芭蕾,足球}上的概率分布为(q,1-q),那么:V小娟=2×r×q+1×(1-r)×(1-q)=3rq+1-r-q最优化q*=1/3V大海=1×r×q+2×(1-r)×(1-q)=3rq+2-2q-2r最优化r*=2/3所以,混合策略NE是:小娟以2/3的概率选芭蕾,以1/3的概率选足球;大海以1/3的概率选芭蕾,以2/3的概率选足球。其效率是:V小娟=2/3=V大海<1最差的效率是两人都为对方着想,又没有事前沟通,结果小娟去了足球场,而大海去了剧场。(三)混合策略与反应对应P56回顾MatchingPennies,双方都会实施混合策略,其NE是r*=q*=(1/2,1/2)。这里,从另一个角度说明这样的概率分布确实是一个“不动点”。按照NE的条件,一个策略组合如过是一个NE,那么其中的每一个策略都是参与人针对其他参与人策略组合的最优反应,在纯策略NE中,这个“最优反应”可能是一个具体的纯策略(如在“Prisoners’Dilemma”中),也可能是一个反应函数(reactionfunction)(如在“CournotModelofDuopoly”中)。而在一个混合策略NE中,这个“最优反应”将是一个概率或很多个概率——被称为“反应对应”(reactioncorrespondence)。以MatchingPennies为例。r—盖方选正面的概率,q—猜方猜正面的概率先看盖方的最优反应,记为r*=R(q):当q<1/2r*=R(q)=1当q=1/2[0,1]当q>1/20猜方的最优反应反应,记为q*=R(r)当r<1/2q*=R(r)=0,当r=1/2[0,1],当r>1/21,反应对应与反应函数的区别:…作为NE,各个参与人的反应应该同时为最优,那么只要求两个反应对应的交点,用图示法:rq01(正面)1(正面)1/21/2r*=R(q)q*=R(r)(四)ExistenceofNashEquilibrium问题:是否所有的博弈都存在NE(纯的或混合的)?*Nash在1950年证明:任何有限博弈,都至少存在一个NE。Theorem(Nash1950):Inthen-playernormal-formgameG={S1,…,Sn;u1,…,un},ifnisfiniteandSiisfiniteforeveryithenthereexistsatleastoneNashequilibrium,possiblyinvolvingmixedstrategies.Nashtheorem的证明略Wilson(1971)证明,几乎所有有限博弈,都存在有限奇数个NE,包括纯策略NE和混合策略NE。——OddnessTheoremP63例证,P67-69证明Problems1、Inthefollowingnormal-formgame,whatstrategiessurviveiteratedeliminationofstrictlydominatedstrategies?Whatarethepure-strategyNashequilibrium?LCRT2,01,14,2M3,41,22,3B1,30,23,02、Players1and2arebargainingoverhowtosplit10thousanddollars.Bothplayerssimultaneouslynamesharestheywouldliketohave,s1ands2,where0≤s1,s2≤1.Ifs1+s2≤1,thentheplayersreceivethesharestheynamed;ifs1+s2>1,thenbothplayersreceivezero.Whataret

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论