版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2010-3-3,博弈论及其应用 (汪贤裕),#,博弈论及其应用,第3章 纳什均衡的扩展与精炼,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),2,第3章 纳什均衡的扩展与精炼,主要内容: 3.1 不完全信息的静态博弈 3.2 完全且完美信息动态博弈 3.3 重复博弈 3.4 不完全信息的动态博弈,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),3,3.3 重复博弈,3.3.1 基本概念 3.3.2 触发策略 3.3.3 重复博弈的应用,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),4,3.3.1 基本概念, 3.3.1 重复博弈 定理3.3.1 一种子博
2、弈完美纳什均衡的求解方法 开环策略集和闭环策略集 例3.3.1 价格重复博弈,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),5,定义3.3.1 重复博弈,设G是一个基本博弈(G可以是静态博弈,也可以是动态博弈),重复进行T次,T可以是有限的,也可以是无限的,这样的博弈称为重复博弈,并记为G(T) G称为G(T)的一个原博弈,每次原博弈称为一个阶段博弈。 当T是有限时称有限重复博弈,当T是无限时,称为无限重复博弈。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),6,定理3.3.1 一种子博弈完美 纳什均衡的求解方法,定理3.3.1:如果阶段博弈G有纳什均衡,对任意有限
3、或无限阶段的T,重复博弈G(T)有子博弈完美纳什均衡:即在每一阶段重复采用阶段博弈G的纳什均衡。 该定理的证明比较简单,只需验证它符合定义3.2.3规定的子博弈完美纳什均衡的条件就可以了。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),7,开环策略集和闭环策略集,开环策略集 若局中人 在 t 阶段进行行动决策时,不知道该阶段前其它局中人的行为选择,而又要在自己的原博弈行动集 中选择一个行动 , 这时他的策略称为开环策略,全部开环策略称为开环策略集。 显然,对T次重复博弈,局中人 的开环策略集为,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),8,开环策略集和闭环策略集
4、,闭环策略集 若局中人在 t 阶段进行行动决策时,他知道该阶段前其它局中人的行动选择,再在自己的原博弈行动集 中选择一个行动 ,这时他的策略称为闭环策略,全部闭环策略称为闭环策略集。闭环策略集记为 这里闭环是指有 t-1个前期的信息反馈。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),9,开环策略集和闭环策略集,关于开、闭环策略集的例子 设原博弈中, 若T=2,则局中人1的开环策略集为 , 一共有4个纯策略。 类似地局中人2也只有4个纯策略 图右是局中人1在G(T)中的闭环策略集有8个策略 。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),10,例3.3.1 价格战
5、重复博弈,某城区有两个商店出售同一商品,他们之间进行价格战,原博弈的情况见下表 若博弈只进行一次,有唯一的纳什均衡(降价,降价),其均衡结果为(2,2)。若博弈进行无穷多次,则情况发生变化。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),11,在闭环策略情况下,局中人1可选择的策略:先选择“不降价”行为,但当他发现对方采取的是“降价”行为后,他立即在下一期也选择“降价”行为,并永不改变。而局中人2也可以选择与局中人1同样的策略。 在这种情况下,我们分析局中人是否愿意单独地违背自己的策略。,例3.3.1 价格战重复博弈(续),博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕
6、),12,若局中人1不改变策略行为,他的总收益为: 当局中人1在第t期改变策略,其总收益为: (3.3.2),例3.3.1 价格战重复博弈(续),博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),13,结论: 当贴现率 时,局中人1不愿单独改变自己的策略; 当贴现率 时,局中人2也不愿单独改变自己的策略; 因此,当 时,上述策略组成的策略组合是一个均衡点。由于时期t是任意的,因此这个策略组合也是一个子博弈完美纳什均衡。 从该例中可以看出,在闭环策略下进行策略选择,每个阶段的收益都会达到(4,4),但(4,4)并不是原博弈的纳什均衡结果 。,例3.3.1 价格战重复博弈(续),博弈论及
7、其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),14,3.3.2 触发策略, 无限重复博弈 有限重复博弈,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),15,无限重复博弈,例3.3.1 的启示 从例3.3.1我们可以看到,若原博弈有某种行为组合 ,使得其纳什均衡点对每一个局中人 都有 ,将会产生一种将行为组合 和纳什均衡 相结合的行为组合序列。这种行为组合序列有两个特征: (1)这是一个“胡萝卜加大棒”的策略组合,遵守了有胡萝卜吃,违背了将受到“大棒”的惩罚; (2)这是可信的威胁(由贴现因子的大小决定),以至于没有局中人愿意单独地违背,这就遵循了纳什均衡的原则。,博弈论及其
8、应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),16,无限重复博弈,定义3.3.2 触发策略 在重复博弈G(T)中,原博弈为 , 是原博弈的纳什均衡点, 为G的一个行动组合,且对任意 有: 。局中人 的策略为: (1)第一阶段选择 ,以后也一直选择行动 ; (2)若第 t 阶段博弈前有任意其它局中人 选择不是 ,则它将选择 ,并一直进行到最后。 这样的策略,称为局中人 的触发策略。若每个局中人都采用触发策略,称为一个触发策略组合,记为( , ),博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),17,无限重复博弈,定义3.3.3 最好反应支付 在原博弈 中,对给定的策略组合 ,记
9、(3.3.3) 称 为局中人 对策略组合 的最好反应支付。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),18,无限重复博弈,定理3.3.2 无限重复博弈G的子博弈完美纳什均衡 设 是一个闭环策略下的无限次重复博弈, 是原博弈的一个均衡点, 是G的一个行动组合,且对任意 有 ,( , )是定义3.3.2下的触发策略组合。若对于贴现率有:对任意 有 (3.3.4) 则触发策略组合是无限重复博弈G的子博弈完美纳什均衡。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),19,无限重复博弈,例3.3.2 游船定价的博弈 有一用于旅游的湖,周围有5条供游客用的相同的游船,并分属
10、5位船主。船主对自己游船定价为每小时 元, 。在每位船主定价后,每位船主的需求函数为: 其收入为: 现5位船主对其自身的游船的定价进行博弈,这是一个静态的5人非合作博弈。,(3.3.6),博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),20,无限重复博弈,令 ,并由博弈方收益对称性,不难得出,有唯一的纯策略纳什均衡和均衡结果: 若5条游船达成合作,统一定价为 , 此时行动组合为 则共同的收益为,(3.3.7),博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),21,由(3.3.7)式,最优统一定价为 ,代回到(3.3.6)式,则每位船主收益为 。 若船主 在大家共同约定统
11、一定价 的情况下,单独降价,则他的最好反应支付为: 当 时,有最好反应支付 。 现在将(3.3.6)式表示的支付函数为5人非合作博弈记为G,并将G作为原博弈进行无限次重复博弈,将( , )作为触发策略组合,由(3.3.4)式有,无限重复博弈,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),22,因此,当 时,触发策略组合( , )是子博弈完美纳什均衡。而当 时,触发策略组合( , )不是子博弈完美纳什均衡。 越小,对合作的限制就越小,即合作的可能性就越大。从定理3.3.2可以看到,“合作”下的协调政策 的选取,会影响 的确立。 在例3.3.2中,若5位船主的协调策略选择 ,可以计算
12、出 这样降低了对合作的限制,增加了合作的可能性。,无限重复博弈,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),23,有限重复博弈,例3.3.3 双寡头垄断定价博弈 现有两个厂商垄断生产某一产品,每一个厂商在定价上都有策略集, 高价,中价,低价, 其收益函数如右表。 假设博弈只进行一次,则有 两个纯策略纳什均衡(中价,中价)和(低价,低价),对应的均衡结果分别是(3,3)和(1,1),博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),24,假设博弈进行两次,贴现率为 ,则出现这样的策略组合: 厂商1:第一阶段选取高价;若第一阶段博弈结果是(5,5),第二阶段采取中价,否则
13、采取低价。 厂商2:第一阶段选取高价;若第一阶段博弈结果是(5,5),第二阶段采取中价,否则采取低价。 若两厂商均采取以上策略,则他们的收益为: 两厂商是否会违背以上的策略组合呢?,有限重复博弈,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),25,有限重复博弈,假设厂商违背策略,只能在第一阶段违背,因为第二阶段采用的是纳什均衡策略。若在第一阶段采取了中价,第二阶段只能采取低价,他的总收益为 比较厂商 是否愿意违背。 的等价式为: 即当贴现率 时,两产商均不愿违背该策略组合。 该策略组合是子博弈完美纳什均衡。并且,他们的收益明显比每个阶段采用纳什均衡所得的结果要好。,博弈论及其应用
14、 (汪贤裕),#,博弈论及其应用 (汪贤裕),26,这种不是由全部纳什均衡组合构成的子博弈完美纳什均衡同样具有两个特征: (1)这是一个“胡萝卜加大棒”的策略组合; (2)这是可信的威胁,以至于没有局中人愿意单独地违背这种策略组合,这就遵循了纳什均衡的原则。,有限重复博弈,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),27,有限重复博弈,定义3.3.4 有区别的触发策略 在有限次重复博弈G(T)中,原博弈 有多个纳什均衡点,纳什均衡点集合为 ,且有某个策略组合 使得:,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),28,有限重复博弈定义3.3.4 有区别的触发策略(
15、续),定义3.3.4 有区别的触发策略(接上) 给定一个阶段 参数,局中人 的策略为 (a)第一阶段选择 ; (b)在t阶段,t=1,2, ,若t-1阶段没有其它局中人违背策略组合行动 ,则选 ;若有某个局中人 违背了 则选 ,并一直进行到第T阶段; (c)在t阶段, ,若t-1阶段没有其它局中人违背策略组合 ,则选 ,若有第 个局中人违背了 则选 ,并一直进行到第T阶段。 局中人的这种策略称为有区别的触发策略,其组合称为有区别的触发策略组合,并记为 。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),29,有限重复博弈,定义3.3.4与定义3.3.2的不同 惩罚要有针对性。由于多
16、重纳什均衡的结果对每个局中人的结局不一样,因此在策略组合违背后的惩罚选择也不一样。即当局中人j违背了上述触发策略,则所有人将针对局中人j进行惩罚。 惩罚的时段效应。由于重复博弈阶段T是有限的,不可能无限期地进行惩罚。因而设置了一个阶段 ,对 之前对该触发策略的违背,至少Tt*个阶段进行惩罚,从而保证有足够的惩罚威胁。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),30,有限重复博弈有限重复博弈,定理3.3.3 设 是采用闭环策略下的有限次重复博弈。原博弈 有多重纳什均衡,其纳什均衡集为 , 在G中有策略组合 ,且满足 为贴现率。则若 则存在一个正整数 ,使得在 的时候,上述触发策
17、 是一个子博弈完美纳什均衡。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),31,有限重复博弈,对例题3.3.3再讨论 该例中,对一次静态博弈有两个纳什均衡点(中价,中价)和(低价,低价)。但策略组合(高价,高价)的结果对双方都是好的。 令 (高价,高价), (中价,中价), (低价,低价), ,经计算有: 则 是触发策略。当贴现率 时,触发策略可以构成子博弈完美纳什均衡。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),32,当 。即当进行T阶段有限重复博弈时,取 ,则触发策略组合 是子博弈完美纳什均衡。在例3.3.3中,T=2, 。 当 ,即当T阶段的有限重复博弈
18、时, , 。这时触发策略组合 是子博弈完美纳什均衡。,有限重复博弈,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),33,有限重复博弈,例如T=3。若局中人 在第1阶段违背触发策略组合 ,总损失为: 因而局中人 不愿意违背触发策略组合。 但若只给一个阶段进行惩罚,则惩罚力度为: 这不能保证局中人 不违背触发策略组合。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),34,有限重复博弈,当 时,则触发策略 永远不可能是子博弈完美纳什均衡。 由该例可见,在有限次重复博弈中,触发策略组合构成子博弈完美均衡,不仅对惩罚阶段的数量有要求,并且对贴现率有要求。而惩罚阶段的大小,又与
19、贴现率有关。这与无限次重复博弈是不一样的。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),35,3.3.3 重复博弈的应用, 例3.3.4 无限次重复博弈的古诺模型 例3.3.5 有效工资率,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),36,例3.3.4 无限次重复博弈的古诺模型,考虑以由前文的静态古诺博弈为阶段博弈组成的无限重复博弈,且继承其符号。两企业的贴现因子均为 。下面我们计算两个企业的下述触发战略成为无限重复博弈的子博弈完美纳什均衡的条件。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),37,其触发策略为: 在第一阶段生产垄断产量的一半 ,
20、第 阶段时,如果前面 个阶段两个企业的产量都为 ,则生产 ;否则,生产古诺产量 。,例3.3.4 无限次重复博弈的古诺模型,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),38,双方都生产 时,每个企业单阶段的利润为 当双方都生产古诺产量 时,每个企业单阶段的利润为 如果在某期企业 生产 ,则企业在该期利润最大化的产量(最好反应支付)是下式的解 相应的利润水平为 。那么,要使两企业采取上述触发战略成为纳什均衡,必须满足 此时这一触发策略是子博弈完美纳什均衡,例3.3.4 无限次重复博弈的古诺模型,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),39,如果 ,企业的行为将
21、如何? 在重复无限次的古诺模型中,单阶段的纳什均衡产量为 ,对应的均衡结果 。 假设有一产量(不是最好反应支付),由对称性 。 不是单阶段的纳什均衡,也不是垄断产量的1/2。但具有: 即 是比均衡产量 更好的产量组合。这里,例3.3.4 无限次重复博弈的古诺模型,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),40,例3.3.4 无限次重复博弈的古诺模型,产量 和纳什均衡产量 组成定义3.3.2下的触发策略组合,记为 假定在t阶段企业 在对方生产 的情况下,违背约定,其最好反应支付为: 即企业 在t阶段,的产量为 ,相对应的利润所得 。由于企业 在前面t-1阶段利润为 ,第t阶段的
22、利润为 ,在第t+1阶段及以后各阶段利润为 。因此企业 要不违背生产 的约定,其充分必要条件为:,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),41,上式等价于 将 和 代入有: (3.3.12) (3.3.13) 当 时,右边= ,即垄断产量的一半;当 时,右边= 。并且我们也看到在贴现率 给定后,要使触发策略 为子博弈完美纳什均衡,需要,例3.3.4 无限次重复博弈的古诺模型,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),42,例3.3.5 有效工资率,在效率工资的模型中,一个企业劳动力的产出取决于企业支付的工资水平。夏皮罗和施蒂格里茨(1984)就此建立了一个
23、动态模型,其中企业为激励工人努力工作,一方面支付很高的薪水;同时又威胁一旦被发现偷懒,立即开除。作为这种高薪的一个后果,企业提高了劳动生产率,也就减少了对劳动力的需求,这造成部分工人的高薪就业,但同时有其他工人(非自愿)失业并存。失业工人的人数越多,一个被解雇的工人寻找新的工作岗位所需时间越长,于是解雇的威胁就更加有效。在竞争均衡条件下,工资水平 和失业率 恰好可以使工人不去偷懒,并且企业在工资水平 时的劳动需求恰好使失业率等于 。我们分析一个企业和一个工人的情况,从重复博弈的角度研究这一模型(而不考虑其竞争均衡的特点)。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),43,例3
24、.3.5 有效工资率,考虑如下的单阶段博弈(这是一个动态博弈):第一步,企业对工人开出一个工资水平 ;第二步,工人接受或拒绝企业的开价。如果工人拒绝了 ,则工人成为个体户,保留收益为 ,其中 ,如果工人接受了 ,则工人选择是努力工作(会带来 的负效用)还是偷懒(不会带来任何负效用)。 工人的努力程度 企业无法观测,但企业和工人都可观测到工人的产出水平 。产出可能高也可能低,为简单起见,我们认为低水平的产出为0,高水平的产出为 。假设如果工人努力工作则肯定可以得到高产出,但如果工人偷懒则以 的概率得到高产出, 的概率得到低产出。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),44,
25、例3.3.5 有效工资率,假设企业以 的工资雇佣了工人,那么如果工人努力工作,带来高产出时企业和工人的收益分别为:企业为 ,工人为 。如果工人偷懒,则 变为0;企业和工人的收益分别为:企业为 ,工人为 。为讨论方便,我们假定 。 若上述博弈只进行一次,采用逆向归纳法可以得出:工人在第二步会接受企业开价 ,接受后会选择偷懒;而企业在第一步会选择不雇佣工人。 因而单阶段的贝叶斯纳什均衡为(不雇佣,偷懒)。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),45,例3.3.5 有效工资率,但这个阶段博弈重复无限多次,则情况会发生变化。 首先建立由该阶段博弈组成的无限重复博弈的触发策略如下:
26、 (1)企业在第一阶段给出工资 ,在以后各阶段若观察到产量为 ,在其后的下一阶段给出工资 ;若观察到产量为 ,则下一阶段不雇佣工人(即单阶段的贝叶斯纳什均衡中企业的行为),并一直到结束。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),46,例3.3.5 有效工资率,(2)工人在第一阶段对给出工资 时,付出努力 。在以后各阶段,若企业付出的工资 ,则一直努力工作;若企业付出的工资 时,在下一阶段偷懒,并一直到以后各阶段。 该触发策略是双方都有一个威胁。企业的威胁是,若一旦发现产出 ,则下一阶段就不雇佣工人。工人的威胁是,若所给的工资带来的效用 ,则偷懒。 假设工人被解雇,企业收入为
27、0,而工人不解雇,企业的收入 (见前面假设)。 企业应给工人工资 为多少,才能既对企业有利,也符合工人的要求?,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),47,例3.3.5 有效工资率,采用前面触发策略能构成子博弈完美纳什均衡的方法讨论该问题。 (1)对工人进行分析。设工人在不违背触发策略一直努力工作,其总收益 为: 若工人违背了触发策略约定,假设在第 期选择违背,则总收益 为: 工人不违约的充分必要条件为:,(3.3.16),(3.3.17),(3.3.18),博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),48,例3.3.5 有效工资率,不失一般性,上式中取
28、时,工人就违约,则,(3.3.19),博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),49,例3.3.5 有效工资率,于是工人遵循不违约的充分条件为: 由于 ,则贴现率越低,给出的工资就越高。 (2)对企业进行分析。 企业不违约,可得收入为 ,企业违约,可得收入为0。则企业遵循触发策略的充分条件为: 结合上面(3.3.20)和(3.3.21)式,企业所给出工资 应满足:,(3.3.20),(3.3.21),(3.3.22),博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),50,例3.3.5 有效工资率,由(3.3.22)式给出的工资 ,使得上述触发策略为一个子博弈完美纳
29、什均衡。 当然,上面的模型是一个理论模型,在实际生活中的情况更加复杂。但该模型说明企业给工人的工资除了支付机会成本加努力成本 之外,还应有一个对工作努力的贴水 ,它与贴现率 有极大的关系,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),51,3.4 不完全信息的动态博弈,3.4.1 基本概念 3.4.2 信号博弈,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),52,3.4.1 基本概念, 不完全信息动态博弈 精炼贝叶斯纳什均衡的四个要求 精炼贝叶斯纳什均衡的定义 精炼贝叶斯均衡和一般贝叶斯均衡的比较,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),53,不
30、完全信息动态博弈,在完全且完美信息动态博弈中,我们要确定局中人的策略组合是一个子博弈完美纳什均衡,则它们必须是整个博弈的纳什均衡,同时还必须是任何一个子博弈的纳什均衡。 在不完全信息静态博弈中,我们通过海萨尼转换,将不完全信息静态博弈转换成了完全但不完美信息的静态博弈。我们要确定局中人的策略组合是一个贝叶斯纳什均衡. 不完全信息动态博弈实际上是上述两种类型博弈的一种合成。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),54,不完全信息动态博弈求解: 首先,我们可以采用海萨尼转换,将不完全信息动态博弈转换成完全但不完美信息的情况,即有博弈之外的局中人“自然”。“自然”对每个局中人确
31、立了不同类型,并且给予了在所有局中人类型上的一个概率分布。 其次,我们可以对这种完全但不完美信息情况下的博弈寻求类似的子博弈均衡。我们要确定局中人的策略组合是一个精炼贝叶斯纳什均衡,不完全信息动态博弈,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),55,思路实现与上述两种类型博弈的差异: 1、与完全且完美信息的动态博弈不同的是,在完全且不完美信息的情况下,信息集不再只有单点集,逆向归纳法无法进行。 2、与不完全信息静态博弈不同的是在动态博弈中,局中人对自己特定一种类型可以有多种行动选择,或不同类型有同一种选择,这影响其后博弈中其它人的博弈行为和最终的博弈结果。 3、在完全不完美信
32、息动态博弈下,上面两种特征又是交织在一起的。先期行动的局中人要从后续博弈中的分析中考虑自己的后期最后行动选择;而后续博弈的局中人又要依赖所观察到的前期博弈结果决定自己的特定类型下的行为。,不完全信息动态博弈,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),56,精炼贝叶斯纳什均衡的四个要求(1),要求1 在每个信息集中,局中人必须有一个定义在该信息集中每个决策结点上的一个概率分布,即对每一个结点给出一个信度推断。并且这种信度对每一个局中人都是相同的。 见例3.4.1,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),57,精炼贝叶斯纳什均衡的四个要求(1),例3.4.1
33、有一个厂商生产某产品,其生产成本是私人信息。该厂商面对一个新厂商想进入这个产品的生产,因而它可以不顾垄断定价的要求,而表现其它的产品定价。新厂商对该厂生产成本的高低具有一个共同知识的概率分布,但当他看到产品的定价以后,将对生产厂商的类型分布给出一个新的修订评价,以决定它是进入该种产品生产还是不进入该种产品生产。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),58,局中人1为生产厂商,它有两种类型 和 ,分别代表其生产成本是低成本还是高成本的类型。 局中人2为进入厂商,他不知道局中人1的具体类型,只有一个共同知识,即类型方面的概率分布: 和 。 假设局中人1在类型1的情况下,有不变
34、边际成本c1 ,在类型2的情况下有不变边际成本 , ,且都不计不变成本。,精炼贝叶斯纳什均衡的四个要求(1),博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),59,精炼贝叶斯纳什均衡的四个要求(1),博弈进行的第一阶段是生产厂商对产品定价。它在两种类型上都有两个行动策略:低价策略 ,定价为 ;高价策略 ,定价为 。 博弈的第二阶段是局中人2在知道局中人1的定价后,决定是否进入。它也有两个行动策略: 进入,要付的进入费 ,并且只能在对方是在高成本下生产,若对方是低成本则进入后的最终结果对他不利 ; 不进入,则不需有支付。 局中人1在第一阶段有收入,第二阶段也有收入,而局中人2只在第二
35、阶段有收入。若进入还要在收入中扣去进入成本。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),60,博弈过程和两阶段两人的总收入图,精炼贝叶斯纳什均衡的四个要求(1),博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),61,由上图可知局中人2必须要有一个对所在结点的置信度。用概率的表达,要明确: 一般应有(理性的局中人1也能推断出来): (3.4.1) (3.4.2),精炼贝叶斯纳什均衡的四个要求(1),博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),62,精炼贝叶斯纳什均衡的四个要求(2),要求2 在给定对每个信息集中决策结点上的概率分布后,局中人的策略必须
36、满足贯序理性的要求。即每一个局中人对于给定的信息集上的信息推断以及后续博弈的策略都必须是最优反应。 这里的后续博弈是指,从信息集中任一决策结点随后进行的博弈。后续博弈策略是指,后续博弈的每一种情况的完全的行动计划。 见例3.4.2,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),63,精炼贝叶斯纳什均衡的四个要求(2),例3.4.2 设有一个二人两阶段博弈, 每一局中人都只有一个类型。 其博弈的过程和结果用 扩展式表示为 用规范式表示为,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),64,从博弈规范式可以得到,该博弈有两个纯策略纳什均衡(L,A)和(R,B)。该博弈无
37、子博弈。因此(L,A)和(R,B)都是子博弈完美纳什均衡。但是,(L,A)明显地依赖于一个不可置信的威胁,因为局中人2行动时,他一定不会选A,而要选择B。 按照1的要求,若博弈进行到局中人2行动时,它的两个决策结点是在同一个信息集中。局中人2对其所在结点有一个信息推断,分别为 , 。,精炼贝叶斯纳什均衡的四个要求(2),博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),65,精炼贝叶斯纳什均衡的四个要求(2),按照2的要求,给定局中人2的推断, 局中人2选择A的数学期望为: 局中人2选择B的数学期望为: 由于对任意 都有 ,因此局中人2必定选B,因而排除了A。 所以(L,A)这一均衡
38、不满足贯序理性要求,被排除。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),66,精炼贝叶斯纳什均衡的四个要求(3),要求3 在处于均衡路径上的信息集,其推断由贝叶斯法则及局中人的均衡战略给出。 对于一个给定的扩展式博弈中给定的均衡,如果博弈根据均衡进行时将以正的概率达到某信息集,我们称此信息集处于均衡路径之上。反之,我们称之为处于均衡路径之外的信息集。 见例3.4.2,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),67,继续考虑例3.4.2,局中人2对到达左边决策点的推断是 ,到达右边决策结点的推断是 。右边决策结点是在(R,B)均衡路径上;因此,局中人2对右边决
39、策结点的置信推断必然是 ,即 。,精炼贝叶斯纳什均衡的四个要求(3),博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),68,精炼贝叶斯纳什均衡的四个要求(3),对要求3的另一种说明: 假想图3.4.2中,存在一个混合策略均衡,其中局中人1选择R的概率为 ,选择M的概率为 ,选择L的概率为 ,则要求3强制局中人2按照贝叶斯法则进行推断。 这时 。 (这里局中人1只有一种类型),博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),69,精炼贝叶斯纳什均衡的四个要求(4),要求4 对处于均衡路径之外的信息集,信念由贝叶斯法则及可能情况下局中人的均衡策略组合决定。 见例3.4.3,
40、博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),70,精炼贝叶斯纳什均衡的四个要求(4),例3.4.3 考虑下面的三人博弈,其扩展式表示及规范式表示如下:,1,2,2,3,A,D,R,L,R,L,图3.4.3 三人博弈扩展式,表3.4.3 三人博弈规范式,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),71,精炼贝叶斯纳什均衡的四个要求(4),该博弈有一个子博弈:它始于局中人2 的单点信集。这一子博弈的唯一纳什均衡为(L,R)。这一组策略组合和局中人3的推断 满足了 ,要求1到3,也满足了要求4。 从表3.4.3可以看到,该博弈有4个纳什均衡(D,L,R),(A,L,L
41、),(A,R,R)和(A,R,L)。考查纳什均衡(A,L,L)和局中人3的推断 ,这个纳什均衡也满足要求1和要求2,但它不是子博弈纳什均衡。 还有两个纳什均衡也不满足要求1到要求4,留给读者分析。 该博弈满足要求1到要求4的精练贝叶斯纳什均衡为(D,L,R),博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),72,精炼贝叶斯纳什均衡的四个要求(4),综合上面要求1到4,在完全但不完美信息动态博弈中,精练贝叶斯均衡要求不只是一个简单的均衡策略组合,而且还要求相对应的每个信息集中决策结点的信度推断。这种推断由贝叶斯法则及局中人的均衡策略组合有关。,博弈论及其应用 (汪贤裕),#,博弈论及
42、其应用 (汪贤裕),73,精炼贝叶斯纳什均衡正式定义,符号规定1,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),74,精炼贝叶斯纳什均衡正式定义,符号规定2,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),75,定义3.4.1 在不完全信息动态博弈中,精炼贝叶斯均衡是 一个策略组合 和 一个后验概率组合 它们满足: (1)对每一个局中人 和每个信息集有 (3.4.3) (2) 是使用贝叶斯法则从先验信念 ,观测到的 和最优战略 得到的(在可能的情况下)。,精炼贝叶斯纳什均衡正式定义,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),76,第一个条件称为精炼条
43、件,它是前面叙述的要求2的数学表示。它表明在其它局中人策略 和局中人 的后验信念 给定以后,局中人 的战略从信息集 开始以后的后续博弈上都是最优的,因此,在信息集 开始的后续博弈中构成了贝叶斯均衡。 第二个条件称为信念条件,它是前面叙述的要求1,3,4的综合表示,它表明局中人在其应行动的信息集中的信念是 上的一个后验概率分布,它依赖于先验概率,观察到的其它局中人的 以及博弈的均衡策略组合 。如果 不是均衡策略下的行动,则是前面叙述中要求4所提及的“不在均衡路径上”,那么对任意 都是允许的,但它必须与均衡策略组合相容。,精炼贝叶斯纳什均衡正式定义,博弈论及其应用 (汪贤裕),#,博弈论及其应用
44、(汪贤裕),77,在上述定义中,我们知道精炼贝叶斯纳什均衡是均衡战略和均衡信念的结合: 给定信念 ,策略组合 是最优的; 给定策略组合 ,信念是使用贝叶斯法则从均衡战略和所观测到的行动得到的。 因此,精炼贝叶斯均衡是一个对应的不动点 : (3.4.4),精炼贝叶斯纳什均衡正式定义,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),78,精炼贝叶斯均衡和 一般贝叶斯均衡的比较,与不完全信息静态博弈不同的是,在完全但不完美的动态博弈中,局中人 不能单靠类型集空间上的概率分布 来推算出其它局中人的类型 的概率分布 ,而要从它所观察到的其它局中人的行动 来修正对其它人类型的信念(也是一种概率
45、分布 ),即对其它局中人的后验概率。 在不完全信息动态博弈中,若局中人在某一中类型有多个行动,并在同一信息集中,则先验判断概率直接用于对信息集中所处结点的后续结果和可能的均衡,进行各节点出现信息的概率判断,如例3.4.2和3.4.3。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),79,3.4.2 信号博弈, 信号博弈的时间顺序 信号博弈的发送者纯策略 信号博弈的接收者纯策略 信号博弈的精炼贝叶斯均衡要求 精炼贝叶斯均衡定义 例题,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),80,信号博弈的时间顺序,1自然赋予发送者某种类型 是发送者的类型空间。 是发送者的私人信
46、息。对发送者类型的先验信念 是共同知识,且 , 。 2发送者s知道自己的类型 ,然后从可行的信号集 中选择一个发送信号 。 3接收者r观测到 ,然后从可行的行动集 中选择一个行动 。 4双方支付函数分别为 和 ,且是共同知识。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),81,信号博弈的发送者纯策略,1 :如果自然赋予类型 ,选择信号 ; 如果自然赋予类型 ,选择信号 ; 2 :如果自然赋予类型 ,选择信号 ; 如果自然赋予类型 ,选择信号 ; 3 :如果自然赋予类型 ,选择信号 ; 如果自然赋予类型 ,选择信号 ; 4 :如果自然赋予类型 ,选择信号 ; 如果自然赋予类型 ,
47、选择信号 。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),82,信号博弈的发送者纯策略,其中, 和 称为混同策略,即不同类型的发送者选择了相同的信号; 和 称为分离策略,即不同类型的发送者选择了不同的信号。 当发送者在同一类型下,随机地选择 ,也有相对应的混合策略,对此,我们称为杂合策略。在本节中,我们只考虑纯策略的情况。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),83,信号博弈的接收者纯策略,1 :如果收到发送者信号 ,选择 ; 如果收到发送者信号 ,选择 ; 2 :如果收到发送者信号 ,选择 ; 如果收到发送者信号 ,选择 ; 3 :如果收到发送者信号 ,
48、选择 ; 如果收到发送者信号 ,选择 ; 4 :如果收到发送者信号 ,选择 ; 如果收到发送者信号 ,选择 。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),84,信号博弈的接收者纯策略,其中, 和 称为混同策略,即不论观察到何种信息,都选择同一行动; 和 称为分离策略,即观察到不同的信息,采取相对应的不同行动。当接收者在观察到某一信息 后,随机地选择 ,也有相对应的混合策略,同样,我们也将此称为接收者的杂合策略。本节中,我们只考虑纯策略的情况。,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),85,信号博弈的精炼贝叶斯均衡要求,要求1 当接收者在观测到M中的任何信号 之后,依据对哪些类型可能发送信号 有一个信念概率表示 且 , 要求2R 对接收者,他对每一个信号 ,依据对哪些类型可能发送信号 的信念概率 的条件下,选择行动 ,并使自己效用最大化。亦即 为下式的解: 上式中,博弈论及其应用 (汪贤裕),#,博弈论及其应用 (汪贤裕),86,信号博弈的精炼贝叶斯
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度能源项目权益转让与投资合同3篇
- 二零二五年软件开发服务合同4篇
- 二零二五版智能LED户外广告平台合作项目合同3篇
- 影视器材租赁与技术服务2025年度合同3篇
- 二零二五年度房地产开发项目造价咨询合同6篇
- 二零二五版搬家运输合同:搬家运输途中物品丢失赔偿3篇
- 二零二五版海鲜加盟店日常运营管理与维护服务合同范本2篇
- 二零二五年度车辆转让附带绿色出行奖励政策合同3篇
- 二零二五年度智能办公桌椅研发合作合同2篇
- 二零二五版股权投资合同补充协议3篇
- 艺术课程标准(2022年版)
- 一年级语文雨点儿-教学课件【希沃白板初阶培训结营大作业】
- 替格瑞洛药物作用机制、不良反应机制、与氯吡格雷区别和合理使用
- 河北省大学生调研河北社会调查活动项目申请书
- GB/T 20920-2007电子水平仪
- 如何提高教师的课程领导力
- 企业人员组织结构图
- 日本疾病诊断分组(DPC)定额支付方式课件
- 实习证明模板免费下载【8篇】
- 复旦大学用经济学智慧解读中国课件03用大历史观看中国社会转型
- 案件受理登记表模版
评论
0/150
提交评论