第二完全信息动态博弈PPT课件_第1页
第二完全信息动态博弈PPT课件_第2页
第二完全信息动态博弈PPT课件_第3页
第二完全信息动态博弈PPT课件_第4页
第二完全信息动态博弈PPT课件_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2、博弈树(扩展型示意)例:仿冒博弈ABAB制止(-2,5)不仿冒(0,10)不仿冒仿冒仿冒制止制止不制止不制止仿冒仿冒(2,2)(10,4)(5,5)3、完全且完美信息不制止不制止第1页/共112页二、逆向归纳法1、 二人动态博弈的逆向归纳法 I=1,2,局中人1先行动,2根据1的行动选择行动 收益函数 局中人2 的选择: (反映函数) 局中人1知道2 会根据1的选择而做出选择 局中人1的选择: 从而得到这一动态博弈的逆向递归解 2、有限(行动)动态博弈的逆推法及可信性问题 仿冒博弈 开金矿博弈(三个版本),可信性 市场阻挠博弈),(21aauuii)(),(max122221222aRRa

2、aauAa111211)(,(max11aaaRauAa第2页/共112页案例:开金矿博弈案例:开金矿博弈版本版本1 1:无法律保障开金矿博弈:无法律保障开金矿博弈不借借还不还(1,0)P1P2(2,2)(0,4)第3页/共112页案例:开金矿博弈案例:开金矿博弈 版本版本2 2:法律保障不足的开金矿博弈:法律保障不足的开金矿博弈不借借还不还起诉放弃(1,0)P1P2P1(2,2)(-1,0)(0,4)第4页/共112页案例:开金矿博弈案例:开金矿博弈 版本版本3 3:法律保障充足的开金矿博弈:法律保障充足的开金矿博弈不借借还不还起诉放弃(1,0)P1P2P1(2,2)(1,0)(0,4)第5

3、页/共112页潜在进入者进入成本200万元 (1)进入不进入0,3000垄断者(2)默许900,1100商战-200,600阻止市场进入博弈的扩展形式第6页/共112页u二、Stackelberg双头垄断模型双头垄断模型 1、模型及求解(1)企业1选择产量 (2)企业2观察到 ,然后选择产量 (固定成本c为0) 企业2对企业1的最优策略反应 满足: 企业1的产量选择满足:, 01q1q02qcccqqQQaP2121,)(21cqqaqcqPqiiii)(12qR)(),(max21221202cqqaqqqq)(cqaqRq121122)()2()(,(max111121101cqacqaq

4、qRqq2*1caq第7页/共112页4)(*12*2caqRq最优总产量:最优总产量:)(43*2*1*caqqQ第8页/共112页2、S产量与古诺产量的比较(1)古诺产量 从而 在S模型中 (2)在古诺模型中 ,在S模型中 先动优势:信息占优者往往不利。 3、讨论u三、劳资博弈(里昂节夫三、劳资博弈(里昂节夫1944) 博弈双方:工会1,企业2 行动次序: (1)工会给出工资水平W; (2)企业观察到(并接受)W,随后选 择雇佣人数L)(43)(3233*2*1cacacacaqq*CSPP *2*1qq *2*1*2*1第9页/共112页支付:工会的效用函数: 企业的利润函数 : 求解(

5、逆推法) :由 得 可解得企业的反映函数 由 ,从而 于是 为逆推归纳解。),(LWUU wLLRLW)(),(WLLR)(max0)(WLRLwLR)()(*wLL )(,(max*wLwUU 0WU*ww )(*wLL )(,(*wLw第10页/共112页u三、讨价还价博弈(序贯谈判,鲁宾斯坦三、讨价还价博弈(序贯谈判,鲁宾斯坦1982)1、三回合讨价还价 设局中人甲、乙就如何分享10000美元现金进行 谈判,谈判规则如教材所述。贴现因子 (1)无贴现因子时的博弈树(无限策略,下图 1为示意性博弈树) (2)由贴现因子时的博弈树(图2) 逆推归纳法: (1)第三回合:各自收益 , (定值)

6、 (2)第二回合:2为使1接受(第二回合就结束), 需使第二回合1的收益大于等于第三回合人的收益, 且尽可能使自身收益极大化。10 ,s2)10000(2s第11页/共112页1211s出,2s拒绝,出),(11s-10000s)-1000022ss ,()10000,(ss接受接受拒绝,出S图1 图1 第12页/共112页1211S出,2S拒绝,出接受拒绝,出S),(11s-10000s接受)10000(,(22ss)(,(22s-10000s第13页/共112页逆推归纳法: (1)第三回合:各自收益 (定值) : , (2)第二回合:2为使1接受(第二回合就结束),需使第二回合1的收益大于

7、等于第三回合人的收益,且尽可能使自身收益极大化。S2)10000(2S第14页/共112页 应满足 ( ,取等号使2收益最大)即应有 ,人2的收益为显然, 即人2的收益在第二回合结束为上。(3)第一回合:人1知道自己第三回合的收益 ,也知道第二回合人2出价。 为使博弈在第一回合结束, 需满足: 从而 ,此时2的收益 等于第二回合的收益比较: (0 1)逆向归纳解:ss22ss22ss210000)10000()10000()10000(2ss110000)10000(ssss211000010000ss2110000100000100001000021ss)10000,1000010000(2

8、2ssss2第15页/共112页注:设S=10000S=10000,此时最优解: 双方收益的比例取决于 : (1) , ,即人2达到最大 (2) , 越大, 越大,人1的收益减少 (3) , 越大, 越小,人1 的收益增加 从而当 时,乙的讨价还价的筹码是与甲拖延时间。)(10000),1 (10000(225 . 025. 0)max(25 . 00215 . 025 . 00第16页/共112页u二、无限回合讨价还价博弈二、无限回合讨价还价博弈(shaked 1984)思路要点: 对一个无限回合讨价还价博弈来讲,从第三回合开始,还是从第一回合开始结果都是相同的。 求解过程:假设整个博弈有一

9、个逆向递推解(S,10000-S),即在第一回合甲出价S,乙接受使双方的收益。 由shaked的思路,解(S S,10000-S10000-S)也是从第三回合开始博弈的结果。即第三回合为甲出价S,乙接受,双方收益(S S,10000-S10000-S) 再把上述第三回合理解成从第一阶段开始的无限回合博弈的第三回合,由于甲在第三回合出价是最终出价,故可理解为三回合强制性讨价还价博弈,由前面的讨论: 甲在第一回合出价 双方收益SS211000010000第17页/共112页 =从而:解得: , ,为逆向递推解)10000,(11SS)10000,1000010000(22SSSSS21100001

10、0000110000*S1100001*S第18页/共112页2 2 完全非完美信息两阶段博弈完全非完美信息两阶段博弈一、模型表述 特点:每阶段中存在同时行动(注:“行动” 与策略是不同的概念) 基本模型: 第一阶段:局中人1与2同时选择行动 , (行动集) (i=1,2) 第二阶段:局中人3与4观察到第一阶段的结果 ( )然后各自同时选择行动 (i=3,4) 支付函数: (i=1,2,3,4) 应用背景:关税及国际市场的不完全竞争21,aaiiAa 21,aa 43,aaiiAa ),(4321aaaauuii第19页/共112页 求解:逆向归纳法 第二阶段:参与人3与4,按照人1与2的行动

11、 所作的最优选择 为: , 第一阶段:参与人1与2知道3与4 的反应函数,据此作出的选择,此时: (i=1,2) 得 为该两 阶段博弈的子博弈精炼解。21,aa),(21*33aaaa ),(21*44aaaa ),(),(,(21*421*321aaaaaaaauuii),(),(,(max),(),(,(max2*1*42*1*32*12*21*4*21*3*2112211aaaaaaaauaaaaaaaauAaAa由),(),(,(*2*1*4*2*1*3*2*1aaaaaaaa第20页/共112页二、间接融资和挤兑风险 设一家银行放贷2万元,以20%的年利润吸引客户存款,设两客户各有1

12、万元资金,若两客户都存款,银行向企业提供1年期贷款。第一阶段: 客户2 不存 存 客户1 不存 存 1 , 11 , 11 , 1下阶段第21页/共112页第二阶段 提前 到期 提前 到期 第二阶段有两个NE:(提前,提前),(到期,到期) 后一个NE为上策均衡(帕累托最优)(低效率情形也会出现)0.8 ,0.81 ,0.60.6 ,11.2 ,1.2第22页/共112页第一阶段:(1)若第二阶段的第一个NE出现,第 一阶段化为: 不存不存 存存 不存不存 存存 此时NE:(不存,不存) (2)第二阶段的第二个NE出现,第一阶段化为: 不不 存存 不不 存存1 , 11 , 11 , 10.8

13、 , 0.81 , 11 , 11 , 11 .2 , 1.2第23页/共112页此时NE:(不存,不存)及(存,存)(上策均衡) 结论:不会出现挤兑对风险 发生挤兑得原因分析:第24页/共112页u三、最优关税问题局中人:国家1,国家2,企业1 ,企业2 行动: , , 行动顺序 第一阶段:国家1与国家2的静态博弈(关于税率 ) 第二阶段:企业1与企业2的静态博弈( 与 ) :国内需求,国内需求, :出口量出口量 需求函数: 基本假定:(1)两企业的边际成本同为常数c (2)无固定成本t11进口税率A22tA进口税率Q13产量AA24Q产量ihitieihieiiQaPjiiehQ第25页/

14、共112页企业的收益: (i=1,2) (可决定的量) 分解表达: 国内市场: (i=1,2) (1) 国外市场: (i=1,2)(2) 国家i的收益=企业的利润+关税+消费者剩余ijiiijiiietehcephp)(ijiiijiiijetehceheahhea)()()(),(jijjiiitteheh),(max*iiiieh21iiiiijiiiiihchhehachhPi)(max1ijihceah)(2ijiijieetceePi2maxijiiijetceeeha)(ijjietchae)(2第26页/共112页消费者剩余消费者剩余2)(21jiehS剩余iPiQjieh iQ

15、aP), 0(a c iP2)(21jiehS剩余第27页/共112页 (注: 为i国总需求) (3) 计算:逆推法 第一步:由(1)、(2)得: (i=1,2;j=2,1) (4) (i=1,2;j=2,1) (5) 由(4),(5)(共4个方程)联立得: (6) (i=1,2;j=2,1) (7)),(2121iiiweettww 2)(21jijiiehetjieh ),(max*jijijiiihheettWw 01iih)(21ceahji02iie)(21jjitchae323*jiiitcaetcah第28页/共112页在给定 ,两企业的(静态)NE产量 第二步 将(6),(7)

16、代入(3)得:由: (i=1,2) (8)将(8)代入(6)、(7)得每国企业的总产量 : 21,tt),(),(*2*2*1*1eheh),(jiittw18)22(2itca9)(2itca9)2(2jtca3)2(jitcat0iitw3*cattji9)(4*cahi9*caei9)(5*caehii第29页/共112页四、工作竞赛(工资奖金制度)四、工作竞赛(工资奖金制度) 1、基本假定(1)一个雇主有两个雇员。雇员i的产出函数 其中 为努力水平。 为R.V满足 相互独立 已知雇员付出努力具有负效用函数g(e),满足 (严格凸)(2)雇员的产出可观察而他们的努力水平无法观察到。雇主根

17、据产出为工人支付报酬,产出水平高的工人获得工资 ,否则获得 。iiieyiei21,0iE)(fi0)(, 0)( egegHwLw第30页/共112页 工人的收益函数 : 雇主的收益函数 :(3)两雇员同时独立选择各自努力程度2、求解:(1)第二阶段:雇员选择努力水平 雇员i获得 的概率: 雇员i获得 的概率: 其平均支付: 其一阶条件:)(),(iiiiegwewuuLHwwyy210,iieeieHw)()(jjiieyeyP)()(jjiieyeyP)()(jjiiHieyeyPwu)()(jjiiLeyeyPw)(-ieg)()()(jjiiLHeyeyPwwLw)(g-ie)(LH

18、iiwweuijjiieeyeyP)()(*0)(*iegLw第31页/共112页即: (i=1,2;j=1,2) 注意 : = 从而一阶条件化为(1) (导数进入积分号) 由对称性,其NE解 代入(1)得:ijjiiLHeeyeyPww)()()(*)(*ieg)()(*jjiieyeyP)(*jjiieeP)(*ijjieeP)(iifjjjjjijjijjjjjibjjdfeePbeePbP)()()()()(*为连续型为离散型独立与jijjjijjdfeeF)()(1 *JijjijjLHegdfeefww)()()()(*2*1eee第32页/共112页 (2) (反应函数) 从(2

19、)知, 越大(即奖励越高), 越 大(因为 ) 从而 越大,即雇员的积极性越高。 (2)第一阶段(雇主选择: ) 在对称NE中,每个工人获胜的概率为1/2,即: 于是雇主的收益: 且工人的参与约束:jegdfwwjjLH)()()(*2)(*LHwwee)(LHww)(*eg0g*e21)()(*jjiieyeyp)(*eeejiLHwwyy21LHwweE*2LHww 与第33页/共112页 (最低工资水平) 上式取等号得: (3) 然而: 故雇主的最优选择为: 即 由 得 (4) 0*)(2121UegwwLHHLwegUw)(22*0)(222*0*egUeLHwwwweLH*02max

20、)(222max*0*0*egUee0*2)(2Uege0)(1 (2*ege1)(*egjjjlHdfww1)()(2JjjLHdfww)(12第34页/共112页由(3),(4)得:JjLHLHdfwwegUww2*01)(22求得*,LHww(3)设:), 0(2N2)(eeg2222*0LHLHwweUww得:222*02*0*eUweUwLH得:4w再由 2)(eegeeg2)(,12)(*eeg,21*e得:第35页/共112页3 3、委托、委托- -代理理论代理理论一、委托代理关系一、委托代理关系1、信息结构 完全信息:各博弈方相互了解得益情况(收益函数),即收益函数是共同知识。

21、 完美信息:各博弈方对自己选择前的博弈过程完全了解(动态),博弈过程是共同知识。 信息不对称:各博弈方对上述信息了解程度不同,即某些局中人拥有但另一些局中人不拥有的信息。2、委托人及代理人 委托人:不拥有私人信息的一方 代理人:拥有私人信息的一方第36页/共112页3、委托人与代理人的博弈关系:二人博弈 核心问题:委托人设计一个激励合同,以诱使代理人从自身利益出发,选择对委托人最有利的行动。 难点:委托人对代理人的监督。 例:流水线装配工人的工作比较容易监督,而 外派采购员的工作就难以监督。两类情况:(1)工作成果完全取决于努力程度:不存在监 督(如计件制)。(2)工作成果不完全取决于努力程度

22、:监督问 题无法避免。 如:律师打官师 ; 商店销售额。第37页/共112页 二、委托二、委托代理模型代理模型1、无不确定性的委托代理模型 表示代理人的努力程度,也表示代理人努力后 带来的负效用水平 表示代理人努力工作, 表示代理人偷懒。 为产出函数 , 为代理人的报酬 如: 为代理人努力时的产出, 为代理人偷懒时的产出。 基本假设:代理人的产出是努力程度的确定函 数 模型的扩展形式(树)x)(effortEx )(shirk)(xRR )(xww )(ERR )(SRR )(xRR Sx 第38页/共112页2、博弈树(扩展型示意 )122不委托(R(0),0)偷懒拒绝拒绝努力努力接受接受委

23、托委托(R(E)-w(E),w(E)-E) ( R(S)-w(S),w(S)-S )( R(0),0)信息结构:完全且完美信息 无不确定性的委托无不确定性的委托- -代理模型代理模型第39页/共112页代理人努力的激励相容约束: (1)即: 代理人偷懒的激励相容约束: (2) 显然只要 代理人必选择偷懒 对(1),代理人的参与约束: 对(2),代理人的参与约束: 对(1),委托人的委托条件: 对(2),委托人的委托条件: 两种情况下的子博弈完美NESSwEEw)()()0()()(xSwEwSSwEEw)()()()(SwEw0)( EEw0)( SSw)0()(REER)0()(RSSR第4

24、0页/共112页2、有不确定性但可监督的委托代理模型 基本假设: (1)代理人的努力和成果之间不完全 一致,即产出有随机性; (2)代理人的努力过程可监督。 合同设计:根据代理人的工作(努力)情况而非工作成果支付报酬,此时风险完全由委托人承担。 标准模型 (努力的)激励相容约束: 参与约束: 委托条件(期望值):SSwEEw)()(0)( EEw0)(10( 1 . 0)(20(9 . 0EwEw第41页/共112页博弈树(扩展型)122不委托(0,0)偷懒拒绝拒绝努力努力接受接受委托委托(20-w(E),w(E)-E) (20-w(S),w(S)-S ) 有不确定性但可监督的委托有不确定性但

25、可监督的委托- -代理模代理模型型00(0,0)高产(高产(0.1)低产(低产(0.1)低产(低产(0.9) (10-w(E),w(E)-E) (10-w(S),w(S)-S )高产(高产(0.9)第42页/共112页3、有不确定性且不可监督的委托代理模型 基本假设: (1)产出有随机性(代理人工作成果 不确定) (2)代理人的努力过程不可监督 ,如推销员。 合同设计:根据代理人的工作成果支付报酬,此时风险完全由代理人承担。 代理人的报酬函数 ,R为产出(而非努力程度)。 激励相容约束:(期望值) 参与约束:(期望值) 委托条件: 注:关于风险偏好的问题)(Rww 第43页/共112页博弈树(

26、扩展型)122不委托(0,0)偷懒拒绝拒绝努力努力接受接受委托委托(20-w(20),w(20)-E) (20-w(20),w(20)-S ) 有不确定性且不可监督的委托有不确定性且不可监督的委托- -代理模型代理模型00(0,0)高产(高产(0.1)低产(低产(0.1)低产(低产(0.9) (10-w(10),w(10)-E) (10-w(10),w(10)-S )高产(高产(0.9)第44页/共112页4、选择连续报酬和连续努力水平的委托选择连续报酬和连续努力水平的委托代理模型代理模型 基本假设:(1)努力成果不确定且不可监督,但知道其概率 分布;(2)委托人可以选择报酬函数(薪酬制度);

27、(3)代理人的努力水平是一个连续区间(不限于“努力”,“不努力” 两种情况)(4)代理人有正值的机会成本 ;(5)代理人努力的负效用是努力水平的单增凸函数 ;(6)产出水平 是随机变量(成果不确定)即对于给定的 , 具有确定的概率分布;(7)代理人的报酬由产出 决定,即 (因委托 人不知道 ); 注: 与 有关,但随机性由“自然”决定。U)(eCC )(eRR eR)()(eRWRWWevrR第45页/共112页核心问题:激励机制设计,即委托人如何设计薪酬 : ,使其满足参与约束及激励相容约束,进而达到委托人的利益与代理人的利益完全一致。 委托人的利益: 代理人的利益: 参与约束:代理人接受委

28、托得到的利益不小于机 会成本,即: 在代理人接受委托的前提下,委托人希望付出的 报酬最小,即: 从而委托人的收益函数为: (1))(RWW )()(eRWeRWR)()(eCeRWcWUeCeRW)()()()()()(eCUeRWUeCeRW)()()()(eCUeReRWeR第46页/共112页从方程(1)中求得 为最符合委托人利益的代理人的努力水平。 然而,在满足参与约束的条件下,代理人愿意接 受工作但努力水平未必是 , 欲使代理人选择 ,必须符合自身的最大利益,即对任何努力水平 , (2) (2)即为该模型的激励相容约束。 若努力水平 满足(1),(2)意味着委托代理双方利益完全一致,

29、即代理人的行为符合委托人的最大利益。*ee e*e*e)()(*)(*)(eCeRWeCeRW*e第47页/共112页案例 委托人:店主 代理人:店员 设产出 是一个线性随机函数 店员的收益 W=工资+奖金(固定工资+利润分成) 店主收益 为纯利润 店主目标 或 R eeR4)(), 0(2)0(E2)(eeC1UBBeAeBABRAW4)4(ABeBeBAeWRL)1 ()1 (4)4(41EWEREL1max)()(*)(*)()()(.eCeWeCeWUeCewts1maxEL)()(max()()(.eceWUeCeWts第48页/共112页逆推法思路:(1) ( 店员的最优选择)(2

30、) ( 店主的最优选择) 从而 本例中 关键问题:店主如何决定 与 的水平,以使这种工资制度成为有效激励 求解:)()()(max(*weeecew*1maxwEL得)(*wee )4(41ABeeEL22)4(eeBACWL224eBeAELABUecew)()(*第49页/共112页1、店员的选择 参与约束: 即: 设店员是风险中性者,得: (1) 设(1)已得到满足(即店员已接受工作) 店员希望利益最大化(其实质是激励相容约束) (2) (注:对不同的 ,店主的努力水平不同)即: UCW22141)4(eBBeAeeBA1422eBeAEL2224maxeBeAELLBeeBeEL202

31、4*2)()(,2*2eELeELeB第50页/共112页2、店主的选择: 满足参与约束的下限: 即: (3) (取期望) 此为符合店主最大利益的店员 的努力水平 将 代入(2) 得 即 由(3) (租赁承包制)(注;R是 )UCW1)4(2eeBA142eBeA14211eeELL2*0242eeeEL2*eB22 1B312242AARBRAW3vr.第51页/共112页3、激励相容的验证(代理人风险中性) 故 是激励相容设计 即按 的努力水平,代理人利益最大即 : 总结: (1)按代理人的努力水平付酬,委托人承担全部风险 (2)按代理人工作成果付酬,代理人承担全部 风险问题:如何让双方都

32、承担风险? 222433eeeRCWEL) 1, 3BA(2024*2eeeELRW32e)()(*2eELeELAe第52页/共112页三、一般委托三、一般委托代理模型代理模型 随机变量的数学期望 设 产出 , 其中 为外生(随机变量) (从而 为随机变量) 合同(工资制度) 可观察结果 (如产出) 代理人效用为: 委托人的效用函数: (随机变量) ( 即 的分布密度) 从而 (1)Ehg求),(),(),(e)(xSS ),(exx ),()(exsuxSu)(),(xSevv)(gvr.dgSevEv)()(),(dugEu)(第53页/共112页 委托人的问题:使 Ev最大化 但受到如

33、下约束: (1)代理人参与约束: 即: (2)代理人激励相容约束:努力水平 使 即: (努力集) dvgEv)(maxuEu udgexSu)(),(*e)()(*eCEueCEu)()(),()()(),(*eCdgexSueCdgexSuAe第54页/共112页4、重复博弈重复博弈现实背景:各博弈方存在长期的合作与竞 争关系。一、基本概念一、基本概念1、给定博弈 (动态或静态),重复进行 次 ,并且在每次重复 之前各博弈方都能观察到结果,此过程为 的 次重复博弈,记为 ,而 称为 的原博弈或 阶段博弈。2、分类 GGGGGTT)(TG)(TG.).)(.)(TGvRTTTG无限次重复博弈为

34、随机性重复博弈:为有限确定性确定性重复博弈:有限次重复博弈重复博弈第55页/共112页 3、策略、子博弈和均衡路径 策略: 或 的一个完整行动计划 子博弈:从某阶段开始,此后所有阶段的重复博 弈构成一个动态(子)博弈。 均衡路径:均衡策略组合所对应的路径,由每个阶段博弈双方的行动组合串联而成。 4、得益(支付) 总得益:博弈方各次重复得益总和。 平均得益:总得益/重复次数(有限) 令 为一个完全信息静态博 弈,对 局中人(一次性博弈) 的收益函数 为:)(TG)(GnnuuuAAAG,.,;,.,2121iiAa ),.,(21niiaaauu 第56页/共112页(1)贴现率:设市场利率为

35、,将数量 的资金存入 银行,经过时间 后变为 。反之,时刻 有资金,问这笔钱在时刻 的现值为多少? 设现值为 ,则 于是 称 为贴现率或折现因子 (显然 )贴现率反映资金的时间价值贴现率反映资金的时间价值(2) 的得益 设 中每次得益为 不考虑资金的时间价值的总得益: 考虑资金的时间价值的总得益:rattra)1 ( ta0tarxt )1 (xtrax)1 ( r1110)(TG)(TGT,.,21Ttt1TtttTT1113221.第57页/共112页(3) 的得益(必须考虑贴现问题) ,通常记(4)平均得益 若 作为重复博弈( 有限或无限)各阶段的得益,能产生与 相同的现值 ,称 为 的

36、平均得益。 对 ( 有限): 即 对 )(G113221.ttt: ),()(GG,.,21.,.,21n)(TGTTtttTTtttTtt11111111TTtttT1111111111ttttt1111tttttt11)1 (第58页/共112页5、随机停止及贴现率 在重复博弈中,每阶段用抽签方式决定是否停止,设停止重复的概率为 ,重复下去的概率为 第一阶段得益为 ,进入第二阶段的得益为 ,第一阶段停止,第二阶段得益为0 第二阶段的期望收益为 特别当 pp11222R0Pp1-p22)1 ( p 得0p第59页/共112页5、随机停止及贴现率 由于在重复博弈中,各阶段是否停止是相互独立的,

37、每次停止重复的概率为 ,重复下去的概率为 所以博弈进入第三阶段的概率为 ,得益为 ,第二阶段停止,第三阶段得益为0 于是第三阶段(贴现的)期望收益为 t=1,2,3, 总收益(期望值) 新的贴现因子p2)1 (p32323R0P2222)1 ( p111111111)1 (tttttttttttrPP 时0p2)1 (p2)1 (1p.11)1 (rpp)1 (p第60页/共112页61二、有限次重复博弈二、有限次重复博弈1、 G有唯一NE时的G(T) 例:两阶段囚徒困境 甲甲 乙乙L1R1L2R21 ,14 ,40 , 5 5 ,0 阶段博弈(原博弈)有惟一的阶段博弈(原博弈)有惟一的NE(

38、L1,L2)第61页/共112页62求解(逆推法)第二阶段: 双方最优的选择(NE)为 (L1, L2) , 得益 (1,1) 第一阶段:归结为一次性博弈 (将(1,1)加到每个人的收益上) NE 仍为 (L1, L2) 子博弈精炼解:每阶段都选择(L1, L2) 。 总收益如下L1R1L2R22 ,25 ,51 , 6 6 ,1第62页/共112页 一般表述(不考虑折现因子) 第二阶段: 由 得NE 以及 第一阶段:由 易知:子博弈精炼NE(或子博弈精炼解):每阶 段都选择 定理:如果原博弈G有唯一的NE(纯策略),则对任意有限 的 有唯一的子博弈精炼NE:G 的NE结果在每一阶段重复进行。

39、),(max),(max2*12*21121ssussuss),(*2*1sspayoff),(*2*11ssu),(*2*12ssu),(),(),(max*2*11*21*1*2111ssussussUs),(),(),(max*2*12*2*122*122ssussussUs),(*2*1ss)(,TGT第63页/共112页2、两人零和博弈两人零和博弈 对应的对应的 (以T=2为例) 猜硬币博弈 特点: 无纯策略NE 的混合策略NE: 第二阶段:NE: ,此时 第一阶段:将NE下的收益 加到 的支付矩阵NE仍为 一般表述 第二阶段 由G)(TG)(iG)( ii G)21,21(),21

40、,21(),(*2*1PP),(*2*1PP0),(),(*2*12*2*11PPvPPv)0 , 0(G),(*2*1PP)以及,:(得*2*12*12*211PPNE),(max),(max21PPvPPvPP),(),(*2*12*2*11PPvPPv第64页/共112页第二阶段 由: 子博弈精炼解: 每阶段都选择 定理: 为二人零和博弈,则 唯一的子博弈精炼NE为:各博弈方始终选择G的混合策略NE。注:对 中各博弈方的所有得益各自加上相同的值不会改变博弈的均衡结果。 3 3、 中中NENE不唯一时的不唯一时的 的均衡解(的均衡解( ) 分析如图( )所示的博弈 ),(),(),(max

41、*2*11*21*1*2111PPvPPvPPVP),(),(),(max*2*122*122*122PPvPPvPPVP),(*2*1PPG)(TGGG)(TG2T66P第65页/共112页66二、有限次重复博弈二、有限次重复博弈两阶段囚徒模型困境的扩展 甲甲 乙乙L1R1L2R21 ,14 ,40 , 5 5 ,0 阶段博弈的阶段博弈的NE不唯一:不唯一:(L1,L2)()(R1,R2) 3 ,3 0 ,0 0 ,0 0 ,0 0 ,0M1M2第66页/共112页特点 (1) 中有两个纯策略NE: (2)两次重复博弈的纯策略路径为 种 之多,其中的子博弈精炼NE路径也很多 如: 两阶段都采

42、用 ,两阶段都采用 第一阶段采用 ,第二阶段采用 第一阶段采用混合策略NE,第二阶段采用 等等. 问题:(1)究竟哪一个子博弈精炼NE结果会出现? (2)均衡路径中,是否包含原博弈G的非NE? 考虑如下的策略组合(一种触发策略) (1) 第一阶段选择结果 ,则第二阶段选择 第一阶段选择结果非 ,则第二阶段选择 G),(),(2121RRLL8199),(21LL),(21LL),(21RR),(21RR),(21LL),(21MM),(21RR),(21LL),(21MM第67页/共112页即博弈双方各自的策略均为: 第一阶段选 ,若第一阶段结果为 ,则第二阶 段选 若第一阶段结果为非 ,则第

43、二阶段选择由逆推法:第二阶段:第一阶段:iM),(21MMiR),(21MMiL.3),(.1),(),(maxNE(3),(1),(),(max2122122*12211211*21121RRuLLussuRRuLLussuss)即两个),(),.(.1),(),(),(),.(, 734),(),(),(max2121121121121212112112111MMssuLLussuMMssRRuMMussus若,若第68页/共112页于是 成为第一阶段的最优选择 在上述策略下,博弈 化为图( )的一次性静态博弈。显然 是该博弈的NE之一。(总共三个NE)于是策略组合(1)是 的子博弈精炼N

44、E,表示为 偏离合作的博弈分析(可能性):合作解的出现是一个小概率事件。合作解的不稳定性,原于触发策略的可信性:惩罚惩罚者?(重新谈判)策略:不管第一阶段选择什么行动,第二阶段总是选择将 加到 的每格上, 为非NE,即第一阶段选择 的动机不复存在,局中人 对 的最优反应是 而非),(21MM) 2(G67P),(21MM)2(G),(),(2121RRMM),(21RR)3,3(G),(21MM),(21MMijMiLiM第69页/共112页70二、有限次重复博弈二、有限次重复博弈两阶段囚徒模型困境的扩展触发策略的收益之和 甲甲 乙乙L1R1L2R21+1 ,1+14+3 ,4+30+1 ,

45、5+1 5+1 ,0+1 触发策略下触发策略下2阶段重复博弈:阶段重复博弈:3个个NE 3+1 ,3+1 0+1 ,0+1 0+1 ,0+1 0+1 ,0=1 0+1 ,0+1M1M2第70页/共112页解决方案(1)加强可信性(拒绝重新谈判 ) (2)扩大行动集,增加NE的个数思路:拒绝重新谈判(因拒绝谈判比接受谈判有更好的收益)图中有4个NE博弈双方选择如下触发策略博弈方1:第一阶段 ,若第一阶段结果 出现,到第二阶段选 ,否则第二阶段选博弈方2:第一阶段选 ,若第一阶段结果 出现,则第二阶段选 ,否则第二阶段选与前面的分析类似, 是 的一个子博弈精炼解且 第一阶段偏离 而选择 者(对 ,

46、 的最优反应是 而非 )最好的收益是5+1/2 ,即均衡解为 或为 1M),(21MM1R1P2M),(21MM2R2Q),(),(2121RRMM)2(G73421uuiMiLijMiLiR),(),(2121RRLL),(),(2121PPLL),(),(2121QQLL第71页/共112页72二、有限次重复博弈二、有限次重复博弈两阶段囚徒模型困境的扩展带Parote边界的情形 甲甲 乙乙L1R1L2R2 阶段博弈有阶段博弈有4个个NE 1 ,1M1M2 5 ,0 4 ,4 0 ,0 0,0 0 ,0 0,5 0 ,0 0 ,0 0 ,0 3 ,3 0 ,0 0 ,0 0 ,0 4 ,1/

47、2 0,0 0,0 0 ,0 0 ,0 0,0 0 ,0 0 ,0 0 ,0 1/2 ,4 0 ,0P1Q1Q2P2第72页/共112页 注记 背叛者的最好的收益是5+1/2(第二阶段选择其 它行动收益更差), 诚信者也有0+4 的收益。 可信性:惩罚背叛者,奖励惩罚者可信性:惩罚背叛者,奖励惩罚者。 结论:上述触发策略中(报复)的结论:上述触发策略中(报复)的 可信性比上一个博弈为强,从而合可信性比上一个博弈为强,从而合 作解是相对稳的。作解是相对稳的。第73页/共112页三、无限重复博弈三、无限重复博弈 核心问题:核心问题:可信性可信性 主要结论主要结论 : (1)对)对 :若若 有唯一有

48、唯一NENE,则,则 的每个阶的每个阶段段 的结果都是的结果都是 的的NENE。若若G有多个有多个NE,则则 存在子博弈精炼解:存在子博弈精炼解: ,阶,阶段段 的结果都不是的结果都不是 的的NE; (2)对对 :若:若 有唯一的有唯一的NE,则,则 可能存可能存在子博弈精炼解:在子博弈精炼解: 的任意阶段的任意阶段 的结果都不是的结果都不是 的的NE。 )(TG)(TGTt tGGG)(TGt)(GG)(G)(GtG第74页/共112页75三、无限次重复博弈三、无限次重复博弈1、 G有唯一NE时的 例:两阶段囚徒困境 甲甲 乙乙L1R1L2R21 ,14 ,40 , 5 5 ,0 阶段博弈(

49、原博弈)有惟一的阶段博弈(原博弈)有惟一的NE(L1,L2))(G第75页/共112页1 1、无限重复囚徒困境博弈、无限重复囚徒困境博弈 1t(1)对 ,在第 阶段开始前的 次阶段的结果都可知。 t (2 2)必须考虑贴现因子(度量收益之和) 。 (3 3) 的策略组合有无限多种,求解子博弈均衡非常难。 解决方法:先入为主地给出一些自认为“合理”的策略,然后再证明其为子博弈精炼均衡解。 给出以下触发策略: 参与者 :第一阶段选择合作(即 )且在第 阶段,如果所有前面 阶段的结果都是 ,则选择 ,否则选择 。)(GiiRt1t ),(21RRiRiL“触发策略”的含义: 如果没有人选择不合作,合

50、作将一直进行下去,一旦有人选择不合作,就会触发其后所有阶段都不再相互合作。 t第76页/共112页 若局中人 第一阶段选择 ,按上述触发策略,( 选择 ) 的总收益为 (引发 不合作) 若 第一阶段选择 (合作)( 选 ) 此时双方各自的总收益均为: 若选择 (合作)是 的最优反应,当且仅当下式成立: 即当贴现因子够大(接近1)时,博弈各方一直选择合作是 的子博弈的精炼NENE。 反之,当 时,各博弈方的选择是:从来不合作。iiLjjRi15.1152i jiiRjjR.4442V 144VVViRi 411514Vi,(G41 第77页/共112页2 2、重复博弈的有关概念、重复博弈的有关概

51、念 (1)策略 :局中人行动的一个完整计划 (2)子博弈 博弈 的子博弈 博弈 的子博弈 注:阶段博弈 本身不是 的子博弈 (3)子博弈精炼NE(Selten,1965) 如果局中人的策略组合在每一个博弈中都构成NE, 则称其为子博弈精炼NE 注: 子博弈精炼均衡 NE ,反之不然 (4)无限重复囚犯困境中触发策略是 的子博弈 精炼NE 论证关键 : 的任意子博弈 )(TG )(G),( GG)(TG ),(G),(G),(G第78页/共112页3 3、佚名定理、佚名定理(弗里德曼Fredman,1971)(1)阶段博弈 的可行收益 (可行支付): 的纯策略收益的凸组合 各种可能的收益组合向量

52、 为凸集(2) 平均支付(3)佚名定理 (费里德曼,1971) 定理 设 为一个有限的完全信息静态博弈, 为 的一个NE下的组合收益, 为任意可行支付向量。若对每一个 ,都有 ,则必存在贴现因子 ,当 时, 存在一个子博弈精炼NE,其平均支付向量可达到 GnuuuuSSSG,.,;,.,2121nxxxx,.,21niisssuu,.,21 nkkkkuuuv,.,21),.,2 , 1(mk 1,10,11mkkmkkkvxxVG),.,(21neeeGiiiex *1*G),(Gnxxxx,.,21nxxxx,.,21第79页/共112页可行收益集可行收益集V凸组合凸组合 (0,5) (5

53、,0) (1,1) (4,4) O 2 2 1 1 V第80页/共112页二人重复博弈的佚名定理图示二人重复博弈的佚名定理图示 (0,5) (5,0) (1,1) (4,4) O 2 2 1 1 (e1, e2)=(1,1)0,则努力工作,否则偷懒。 ,0*ww yw ,*ww 0ww 0ww *w第88页/共112页注:由于G也是动态博弈,且工人后行动,故在每个阶段博弈中,只要 , 工人将接受工作且选择偷懒。(这是工人策略中的一部分).论证(1)导出上述触发策略成为G( )的子博弈精炼NE的条件(每阶段都不是G的子博弈精炼) (2)证明该策略组合是子博弈精炼NE。 (1)工人的策略选择:若对

54、工人而言努力工作是最优的,则其收益现值满足 若对工人而言偷懒是最优的,则工人第一阶段得到 ,其后阶段的收益取决于概率分布(p,1-p),按触发策略,其收益现值为 ,eVew)(*)(11*ewVe)()()(*2*ewewewVew*ww 0*www1)1 ()(0*wpVpwVss)1)(1 ()1 ()1 (0*pwpwVs第89页/共112页 激励相容约束条件 (1) 特殊情形: p1时,说明偷懒很难被发现,工资升水必须提高 p 0时,偷懒是明摆的(偷懒的结果必然是低产出) 则 即可激励工人努力工作 ( 风险升水为 ) (2)企业的策略选择 由委托条件 (1) seVV epweppww

55、)1 (11 ()1 (100*epew)1 (10eww10*ew)11 (0e10*wy*wyepewy)1 (10第90页/共112页故 (2)结合(1)(2)两式可知:要使合作得以维持, 的值必须足够大( 越小说明未来利益越不重要) 应用 中国计划经济下工人不努力的原因 (1) (常数,无激励) (2) (偷懒难以被发现)。结果:偷懒是最优选择。 4 4、模型的局限性:、模型的局限性: (1)模型中暗含工人完全可替代,不符合 现实,一旦不可代 替,惩罚不再 有效。 (2)没考虑另外厂商雇用被解雇工人的情形。 5 5、模型发展:、模型发展:Bulow、Rogoff(1989)债务国家还债

56、问题 epwey)1 (10epw)1 (10pew1) 11(00*ww 1p第91页/共112页五、时间一致性的货币政策五、时间一致性的货币政策(Barro,1983)1 1、基本模型、基本模型局中人:公众1,政府2行动: 公众形成一个对通货膨胀率的理性预期 政府观测到 并选择真实的通货膨胀率 支付: (负效用) (1) (2) 其中 为有效产出水平(即正常失业率下的均衡产出) 菲利普斯方程 (3) c0表示政府在通胀率及产出两个目标之间的替代关系 b0表示意料外通胀 通过真实工资对产出的作用。 由(2)(3)得 求解(逆推法): 第二阶段由 (4) . (4)即政府的反应函数 211)(

57、),(eeuu2*22)(),(yycyw*y)(*edbyye*yy )(e2*22)() 1(),(eedybcw02w)1()(*2*eedybdcdee第92页/共112页 第一阶段:由 = (一阶条件) (阶段博弈的结果) 从而: 由(3)不难得到 (并非有效) 逆向递推解为 ( )即 子博弈精炼均衡:双方均选择通胀率 (理性预期) 2 2、分析、分析 当 时, 显然 ,当且仅当 ,此时 即政府实行零通胀政策就可提高双方的福利水平。 但 并非子博弈精炼解。 3 3、几个名词、几个名词 ),(max*1eeue2*)(ee)(*0*ee*)1 (ycbdessee*)(*)(ybyys

58、s,e*se),(2ew*22) 1(ybc*22) 1(maxybw011max0uu0e第93页/共112页 宏观经济政策的时间(动态)一致性:经济政策不仅要在制定阶段是最优的,而且在每个执行阶段也是最优的。 理性预期:略 (经济预测失效的原因)4 4、无限重复博弈、无限重复博弈G G( )公众策略(触发策略):第一阶段预期 ,在其后各阶段,若结果 出现,则继续预期 ,否则预期政府策略:第一阶段选择 的货币供给(政策),在其后各阶段若 出现,则继续选择 的货币政策。否则选择 .同前面几节的分析(双头共谋的说明)(1)由(4)知,当 时 ,即政府的最优选择是 而非此时 ,0e)0 , 0()

59、,(e0ese0)0 , 0(),(e0)(*e0e0)1 ()0(*2*ybdcd)0(*02*)0() 1()0()0),0(maxdybcww第94页/共112页 要使政府选择零通胀政策,应满足 解得 (2)由 反映函数 故, 时, 是公众的最优反映应 从而 也是公众贴现因子的下界。 5、进一步发展进一步发展 : BallBall(19901990)),(1) 0),0 () 0 , 0 (11*sswww22dcc0), 0(max1eue)(e00e第95页/共112页5 5 完全非完美信息动态博弈完全非完美信息动态博弈一、博弈的一、博弈的扩展式扩展式1、(回顾)博弈的标准式(策略型

60、)表示 DefDef:博弈G G的标准式表述包括: (1)局中人 I=1I=1,2 2,nn (2)策略集 i=1,2,n (3)支付 记为 G=G= 2、博弈扩展式表述(1) 博弈G的扩展式表述:6个基本要素(2) 策略(3)扩展式博弈转化为标准式博弈 iisS ),(21niisssuu,;,2121nnuuusss第96页/共112页 L R L R L R 例二人博弈的扩展式(树)表示) 1 , 3()2 , 1 () 1 , 2()0 , 0(第97页/共112页 本本博弈的基本要素及策略表述博弈的基本要素及策略表述 行动集 : 行动次序: 收益 , 决策节: 策略: 局中人 1:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论