Ch混合策略纳什均衡

上传人：6*** IP属地：湖北上传时间：2023-01-14 格式：PPT 页数：35 大小：713.50KB 积分：28 举报 版权申诉

已阅读5页，还剩30页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

混合策略纳什均衡

MixedStrategy

NashEquilibrium理学院顾聪gucong@1/14/20231两个参与人各拿一枚硬币，并选择出正面向上还是反面向上。若两枚硬币是一致的(即全部正面或全部反面)，则参与人2赢走参与人1的硬币；若两枚硬币不一致(一正一反)，参与人1赢得参与人2的硬币。支付矩阵如下：参与人1参与人2

-1，1

1，-1

-1，1正面反面正面反面由划线法可知，该博弈不存在纳什均衡。所以采取纯策略不存在稳定的纳什均衡解。4.1严格竞争博弈和混合策略1.混合策略的提出——猜硬币博弈1/14/20232在这类博弈中，不存在纯策略纳什均衡。参与人的支付取决于其他参与人的策略；以某种概率分布随机地选择不同的行动。每个参与人都想猜透对方的策略，而每个参与人又不愿意让对方猜透自己的策略。这种博弈的类型是什么？如何找到均衡？上述博弈的特征是：1/14/20233策略：参与人在给定信息集的情况下选择行动的规则，它规定参与人在什么情况下选择什么行动，是参与人的“相机行动方案”。纯策略：如果一个策略规定参与人在每一个给定的信息情况下只选择一种特定的行动，称为纯策略，简称“策略”，即参与人在其策略空间中选取唯一确定的策略。混合策略：如果一个策略规定参与人在给定的信息情况下以某种概率分布随机地选择不同的行动，称为混合策略。参与人采取的不是明确唯一的策略，而是其策略空间上的一种概率分布。2.混合策略、混合策略博弈和混合策略纳什均衡1/14/20234混合策略vs.纯策略(不确定性vs.确定性)在博弈中，博弈方的策略空间，则博弈方以概率分布随机在其个可选策略中选择的“策略”，称为一个“混合策略”，其中对都成立，且纯策略可以理解为混合策略的特例，即在诸多策略中，选择该纯策略的概率为1，选其他纯策略的概率为0.为何参与人可能会选择带不确定性的混合策略而放弃确定性的纯策略？参与人主观因素造成的犹豫不决外在客观因素的不确定性带来应对策略的不确定性迷惑对手：为了让其它参与人不能清楚了解自己的选择1/14/20235混合策略扩展博弈：博弈方在混合策略的策略空间(概率分布空间)的选择看作一个博弈，就是原博弈的“混合策略扩展博弈”。混合策略纳什均衡(MNE)：

由最优的混合策略构成的混合策略组合：1/14/20236

对于任意混合策略组合：若各参与人最终确定的组合(纯策略组合)为参与人的支付为发生此情况的概率为

参与人的期望效用：3.期望效用(ExpectedPayoff)1/14/20237由于混合策略伴随的是支付的不确定性，因此参与人关心的是其期望效用(平均效用)。最优混合策略：是指在给定对方的混合策略的情况下，使期望效用函数最大的混合策略。在两人博弈里，混合策略纳什均衡是两个参与人的最优混合策略的组合。1/14/20238

23，

3-1，

1-1，

00，流浪流浪汉政府救济不救济寻找工作虽这模型没有PNE，却有下述的MNE：参与人以一定的概率选择某种策略，然后计算相应于不同概率的期望效用。4.一个例子——社会福利博弈1/14/20239设：政府救济的概率θ=1/2；不救济的概率1-θ=1/2。流浪汉寻找工作的期望效用：1/2×2+1/2×1=1.5流浪的期望效用：1/2×3+1/2×0=1.53,2-1,3-1,1

0,0救济θ不救济1-θ寻找工作γ

游荡1-γ

此时，流浪汉选择任何混合策略的期望效用都是1.5，则流浪汉的任何一种策略(纯的γ=1或γ=0或混合的0<γ<1)都是政府所选择的混合策略的最优反应。

1/14/2023103,2-1,3-1,1

0,0救济θ不救济1-θ寻找工作γ

游荡1-γ而当γ=0.21-γ=0.8

游荡寻找工作如果流浪汉选择这个混合策略，政府的任何策略(混合的或纯的)带给政府的期望效用为-0.2。特别的，以1/2的概率分别选择救济和不救济当然也是政府对于流浪汉所选择的混合策略的最有反应。这样，我们得到一个混合策略组合，每一个参与人的混合策略都是给定对方混合策略是的最优选择，从而构成混合策略纳什均衡。策略期望收益政府

(0.5,0.5)-0.2流浪汉(0.2,0.8)1.51/14/202311既然参与人在构成混合策略时选择不同纯策略之间是无差异的，他为什么不选择一个特定的纯策略而要以特定的概率随机地选择不同的纯策略呢？一个参与人选择混合策略目的是给其他参与人造成不确定性。海萨尼(Harsanyi,1973)对混合战略的解释是，混合策略均衡等价于不完全信息下的纯策略均衡：如社会福利博弈中，假定有两类特征的流浪汉，一类选择寻找工作，另一类选择游荡；每个流浪汉都知道自己的特征，但政府并不知道流浪汉的准确特征，只知道流浪汉20%概率属第一类，80%概率属第二类。在这种情况下，政府在选择自己的策略时似乎面临的是一位选择混合策略的流浪汉。支付最大化法支付等值法最优反应函数法4.2混合策略纳什均衡的求解1/14/202313参与人1的混合策略为σ1=(q,1-q)(分别以概率q和1-q选择正面和反面)，参与人2的混合策略为σ2=(r,1-r)(分别以概率r和1-r选择正面和反面)。参与人1参与人2

-1，1

1，-1

-1，1r正面1-r

反面q

正面1-q

反面1.支付最大化法求纳什均衡——猜硬币博弈1/14/202314参与人1参与人2

-1，1

1，-1

-1，1r正面1-r

反面q

正面1-q

反面E1(正面)=(-1)×r+1×(1-r)=1-2r参与人1选取反面的期望效用为E1(反面)=1×r+(-1)×(1-r)=2r-1当给定参与人2选择混合策略σ1=(r,1-r)时，参与人1的选取正面的期望效用为

1/14/202315类似地，得到参与人2的期望效用为E2=E2(正面)×r+E2(反面)×(1-r)=(1-2q)(2r-1)由一阶条件：

参与人1的期望效用为E1=E1(正面)×q+E1(反面)×(1-q)=(1-2r)(2q-1)1/14/202316

23，

3-1，

1-1，

00，流浪1-γ流浪汉政府救济θ不救济1-θ工作γ即：流浪汉以0.2的概率选择寻找工作，0.8的概率选择流浪。社会福利博弈1/14/202317

23，

3-1，

1-1，

00，流浪1-γ流浪汉政府救济θ不救济1-θ工作γ即：政府以0.5的概率选择救济，0.5的概率选择不救济。社会福利博弈1/14/202318对γ*=0.2

的解释：如果流浪汉寻找工作的概率小于0.2，政府的最优选择是不救济；如果流浪汉寻找工作的概率大于0.2，政府的最优选择是救济。对

θ*=0.5

的解释：如果政府救济的概率大于0.5，流浪汉的最优选择是流浪；如果政府救济的概率小于0.5，流浪汉的最优选择是寻找工作。混合策略纳什均衡的含义：纳什均衡要求每个参与人的混合战略是给定对方的混合策略下的最优选择。因此在社会福利博弈中，γ*=0.2，θ*=0.5是唯一的混合策略纳什均衡。1/14/202319

由上面的例子可以看出，参与人选择的混合策略均使对方选择纯策略的期望效用相等，促使各方均采取严格策合策略。所以求解混合策略纳什均衡也可以采取如下方法：求出参与人的每个纯策略的期望效用，令其相等即可得到混合策略纳什均衡。2.支付等值法求纳什均衡1/14/202320参与人1的选取正面的期望效用为参与人1的选取反面的期望效用为E1(正面)=(-1)×r+1×(1-r)=1-2rE1(反面)=1×r+(-1)×(1-r)=2r-1令纯策略期望效用相等：得类似地，令参与人2的纯战略期望效用相等得：猜硬币博弈1/14/202321假定最优混合策略存在，给定流浪汉选择混合策略3，2-1，3-1，10，

0流浪流浪汉政府救济不救济寻找工作政府选择纯策略救济的期望效用为：选择纯策略不救济的效用为：如果一个混合策略(而不是纯策略)是政府的最优选择，一定意味着政府在救济与不救济之间是无差异的社会福利博弈1/14/202322在讨论连续纯策略均衡时(如古诺模型)，我们使用了反应函数的概念。现在我们可以使用反应对应的概念来描述一个参与人对应于其他参与人混合策略的最优选择。两个概念的区别仅仅在于：反应函数表示的是一个参与人只有一个特定的策略是其他人给定策略的最优选择；反应对应允许一个参与人有多个(甚至无穷多个)策略是其他人给定策略的最优选择。3.最优反应函数法求纳什均衡1/14/202323纯策略均衡：反应函数(reactionfunction)

在纯策略的范畴内，最优反应函数是各博弈方选择的纯策略对其他博弈方纯策略的反应。纯策略纳什均衡是博弈方反应函数的交叉点。混合策略均衡：反应对应(reactioncorrespondence)在混合策略的范围内，博弈方的决策内容为选择概率分布，最优反应函数就是一方对另一方的概率分布的反应。由于纯策略可以理解为混合策略，因此实际上最优反应函数的概念，也可以在混合策略概率分布之间反应的意义上统一起来。混合战略纳什均衡也是反应函数的交叉点。1/14/202324混合策略反应函数猜硬币博弈rq111/21/2参与人1参与人2

-1，1

1，-1

-1，1r正面1-r

反面q

正面1-q

反面1/14/202325夫妻之争博弈2，10，00，01，3电影足球丈夫电影足球妻子rq111/32/3混合策略反应函数(r,1-r)：丈夫的混合策略概率分布(q,1-q)：妻子的混合策略概率分布1/14/202326例题

监督博弈a-C+F,-a-Fa-C,-a0,0a

,-aθ检查1-θ不检查税收机关γ逃税

1-γ不逃税

纳税人其中，a:应纳税款，C:检查成本，F:罚款，

a-C+F:检查到逃税者,-a-F:除了要交税款又要交罚款求MNE两种方法：支付最大化方法(求一阶导数为0)；支付等值法(即选两个纯战略是没差异)假定

C＜a+F，在这个假设下，让我们来求解混合战略纳什均衡。1/14/202327用θ表示税收机关检查的概率，γ表示纳税人逃税的概率给定γ，税收机关选择检查(θ=1)和不检查(θ=0)的期望收益分别为：令得检查θ不检查(1-θ)不逃税(1-γ)逃税γ1/14/202328给定θ，纳税人选择逃税和和不逃税的期望收益分别为：检查θ不检查(1-θ)不逃税(1-γ)逃税γ令得因此，混合战略纳什均衡是：税收机关以的概率检查，纳税人以的概率选择逃税。1/14/202329结论：当逃税概率则税收机关最优选择是不检查

检查概率

纳税人选逃税。当逃税概率，则税收机关最优选择检查检查概率，纳税人选纳税。而当，则纳税人选择纳税与不纳税无差异当逃税概率，则税收机关随机地选择检查或不检查无差异

另一解释是：社会中有许多个纳税人，其中有比例的纳税人选择逃税，比例的纳税人选择不逃税；税收机关以比例随机地检查纳税人的纳税情况。纳税人选逃税概率越小；检查成本C越高，纳税人逃税的概率就越大。为什么应纳税款越多，纳税人逃税的概率反而越小呢？这是因为，应纳税款越多，税收机关检查的概率越高，逃税被抓住的可能性越大，因而纳税人反而不敢逃税了。这一点或许可以解释为什么逃税现象在小企业中比在大企业中更为普遍，在低收入阶层比在高收入阶层更普遍。即：每一个有限博弈至少存在一个纳什均衡。1.纳什定理(Nash,1950)：在一个有n个博弈方的博弈中，如果n是有限的，且Si

都是有限集，则该博弈至少存在一个纳什均衡(纯策略的或混合策略的)。现实中的博弈都是可以当作有限博弈来解决。这样纳什均衡的存在就是普遍的。纳什均衡的普遍存在性是纳什均衡概念最重要的性质。4.3纳什均衡的存在性

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Ch混合策略纳什均衡

文档简介

温馨提示

最新文档

评论

Ch混合策略纳什均衡

文档简介

温馨提示

最新文档

评论

相关文档