博弈论知识点总结完整版_第1页
博弈论知识点总结完整版_第2页
博弈论知识点总结完整版_第3页
博弈论知识点总结完整版_第4页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、博弈论(一):基本知识1.1 定义 :博弈论,又称对策论,是使用严谨的数学模型研究冲突对抗条件下最优决策问题的理论, 是研究竞争的逻辑和规律的数学分支。 即,博弈论是研究决策主体在给定信息结构下如何决策以最大化自己的效用,以及不同决策主体之间的均衡。1.2 基本要素:参与人、各参与人的策略集、各参与人的收益函数,是博弈最重要的基本要素。1.3 博弈的分类:博弈论根据其所采用的假设不同而分为合作博弈理论和非合作博弈理论。 两者的区别在于参与人在博弈过程中是否能够达成一个具有约束力的协议( binding agreement )。倘若不能,则称非合作博弈( Non-cooperative game

2、 )。合作博弈强调的是集体主义,团体理性,是效率、公平、公正;而非合作博弈则主要研究人们在利益相互影响的局势中如何选择策略使得自己的收益最大, 强调个人理性、个人最优决策,其结果有时有效率,有时则不然。 目前经济学家谈到博弈论主要指的是非合作博弈, 也就是各方在给定的约束条件下如何追求各自利益的最大化,最后达到力量均衡。博弈的划分可以从参与人行动的次序和参与人对其他参与人的特征、 战略空间和支付的知识、 信息,是否了解两个角度进行。把两个角度结合就得到了4 种博弈:a 、完全信息静态博弈,纳什均衡,Nash(1950)b、完全信息动态博弈,子博弈精炼纳什均衡,泽尔腾(1965 )c、不完全信息

3、静态博弈,贝叶斯纳什均衡,海萨尼(1967-1968 )d 、不完全信息动态博弈,精炼贝叶斯纳 什 均 衡 , 泽 尔 腾 ( 1975 )Kreps,Wilson(1982) Fudenberg, Tirole(1991)1.4 课程主要内容:完全信息静态博弈完全信息动态博弈 不完全信息静态博弈机制设计 合作博弈1.5 博弈模型的两种表示形式:策略式表 述(Strategicform),扩 展 式 表 述( Extensive form )1.6 占优均衡:a 、占优策略:在博弈中如果不管其他参与人选择什么策略, 一个参与人的某个策略给他带来的支付值始终高于其他策略, 或至少不劣于其他策略,

4、 则称该策略为该参与人的严格占优策略或占优策略。对于所有的 s-i , si* 称为参与人 i 的严格占优战略,如果满足:ui(si*,s-i)>ui(si',s-i)" s-i,"si' 1si*b 、占优均衡:一个博弈的某个策略组合中,如果对应的所有策略都是各参与人的占优策略, 则称该策略组合为该博弈的一个占优均衡。1.7 重复剔除严劣策略均衡:a、 “严劣”和“弱劣”的含义:设 si和 si是参与人 i 可选择的两个策略,若对其他参与人的任意策略组合s-i, 均成立ui(si, s-i) < ui(si, s-i), 则说策略 si严劣于策

5、略 si。上面式子中, 若将“<”改为“”,则说策略si弱劣于策略 si 。b、 定义:重复剔除严格策略就是各参与人在其各自策略集中,不断剔除严劣策略如果最终各参与人仅剩下一个策略,则该策略组合就被称为重复剔除严劣策略均衡。( 二 ): 纳 什 均 衡 ( Nash Equilibrium )2.1 纳什均衡定义:对于一个策略式表述的博弈 G= N,Si, ui, iN, 称策略组合 s*=(s1, si, , sn)是一个纳什均衡,如果对于每一个 i N, si*是给定其他参与人选择s-i* = s1* , ,si-1 * , si+1 * , , sn* 情况下参与人 i 的最优策略

6、(经济理性策略),即:ii*,-i*i i, s-i*), 对于任意的ii,u(ss) u (ssS任意的iN 均成立。通俗定义:纳什均衡是一种策略组合,给定对手的策略, 每个参与人选择自己的最优策略。纳什均衡是一种稳定的策略组合:当所有参与人的选择公开以后,每个人都满意自己作出了正确的选择;没有人能得到更好的结果了。 在博弈论中这种结果被称为纳什均衡( NE)。2.2 定理:Nash 在 1950 年证明:任何 有限博弈 ,都至少存在一个NE Existence of NashEquilibrium 。即在一个有n 个参与人的策略式博弈G=S1, ,Sn; u1, ,un 中,如果n 是有限

7、的, 且 Si 是有限集 ( i=1, ,n),则该博弈至少存在一个纳什均衡(在混合策略意义下)Wilson ( 1971 )证明,几乎所有有限博弈,都存在有限奇数个NE ,包括纯策略NE和混合策略NE 。 Oddness Theorem2.3 纳什均衡、占优均衡、重复剔除严劣策略均衡的关系定理 a每一个占优均衡、重复剔除严劣策略均衡一定是纳什均衡,但反过来不一定成立;定理 b纳什均衡一定不能通过重复剔除严劣策略方法剔除。2.4 划线法先找出自己针对其他博弈方每种策略或策略组合(对多人博弈)的最佳对策,即自己的可选策略中与其他博弈方的策略或策略组合配合, 给自己带来最大得益的策略 (这种相对最

8、佳策略总是存在的, 不过不一定唯一),然后在此基础上,通过对其他博弈方策略选择的判断, 包括对其他博弈方对自己策略判断的判断等, 预测博弈的可能结果和确定自己的最优策略。这就是划线法。2.5 箭头法箭头法对于理解博弈关系很有好处, 是寻找相对稳定性策略组合的分析方法。对博弈中的每个策略组合进行分析,考察在每个策略组合处各个参与方能否通过改变自己的策略而增加得益。如能,则从所分析的策略组合对应的得益数组引一箭头到改变策略后策略组合对应的得益数组。最后综合对每个策略组合的分析情况,形成对博弈结果的判断。划线法和箭头法的结果是一致的,可以相互替代。( 三 ): 混 合 策 略 ( Mixed Str

9、ategies )纳什均衡3.1 定义:混合策略的定义:在博弈G=N, Si, ui, iN 中,假设参与人 i 的纯策略构成的策略集合为 Si=si1, , sik ,若参与人 i 以概率分布pi=(pi1, , pik)在其 k 个可选策略中随机选择“策略”,称这样的选择方式为混合策略。这里,0 pij 1, 对于j=1 , , k 都成立,且有 , pi1+ + pik=1 。纯策略可看成特殊的混合策略。上述定义是在有限博弈前提下进行的。3.2 混合策略意义下策略组合的表述x1 X1, , xn Xn ,其中 Xi , i =1, ,n 表示参与人i 所有纯策略生成的概率空间,xi 为参

10、与人 i 的一个具体混合策略猜硬币博弈的一个混合策略就可记为( 1/2, 1/2 ) ,(1/2, 1/2)3.3VNM 效用函数( Von Neumann andMorgenstern冯·诺依曼和摩根斯坦)如果某个随机变量X 以概率 Pi 取值 xi,i=1,2, ,n,而某人在确定地得到xi 时的效用为 u(xi) ,那么,该随机变量给他的效用便是: U(X) = P 1u(x1) + P2 u(x2) + . +Pnu(xn)表示关于随机变量 X 的期望效用。因此 U(X) 称为期望效用函数,又叫做冯·诺依曼摩根斯坦效用函数( VNM 函数)。3.4 基于混合策略意义

11、下的博弈策略式表述定义:基于 (v-N-M 效用的 )策略式博弈由 a、参与人集合 b 、每个参与人有一个(纯)策略集合 c、对于每一个参与人来说,由所有参与人纯策略组合构成的风险结果空间,存在一个 v-N-M 效用3.5 混合策略意义下的纳什均衡定义:对于博弈 G= N, Si, ui, i N ,基于 v-N-M 效用的混合策略组合 *是一个纳什均衡, 若对于每一个 i, 以及 i 的任意一个混合策略 i,*对应的期望支付至少和 (i, *-i ) 的期望支付一样大换句话说, 称混合策略组合 *是一个纳什均衡, 如果没有一个参与人通过偏离策略 *i 实现支付的增加3.6 一个定理对于 N-

12、 人静态博弈问题,设混合策略纳什均衡对应的策略组合为 (Xi , X i ) 。对于任意的 i ,若最优混合策略为 Xi= x1, ,xl,0 0( 不失一般性, 假设前 l 个分量严格大于 0) ,记分量 xk (k=1, , l) 对应的纯策略 sk,则对于参与人i 而言,sk 与其他参与人的最优混合策略组合X i 形成的局势的收益值 ,等于纳什均衡混合策略组合(Xi,Xi )的收益值。即 ui (sk, Xi ) = ui (Xi, Xi )成立, k=1, , l3.7 方法:a、求解混合策略均衡可以用期望收益等值法b、 2 ×2 双矩阵博弈的图解法:反应函数的三个交点即是纳

13、什均衡(四):多重纳什均衡解及其分析4.1 帕雷托占优均衡帕雷托占优均衡的含义是:在多个纳什均衡中, 若存在一个纳什均衡,其支付结果针对每个参与人而言都严格优于其它纳什均衡,则该纳什均衡是帕雷托占优纳什均衡。4.2 风险占优均衡(risk-dominantequilibrium)参与人对风险占优均衡的选择倾向, 有一种强化的机制。 当部分或所有参与人选择风险占优均衡的可能性增强的时候, 任一参与人选择帕雷托占优均衡策略的期望支付会进一步减小, 而这又使得帕雷托占优均衡策略的支付更小, 从而形成一种选择风险占优均衡策略的正反馈机制, 并使其出现的概率越来越大。当参与人数目增加时, 选择合作的风险

14、将会更大, 可借助该点考虑招标机制如何减少投标方勾结问题。 上述问题是我们知道建立诚信机制社会的重要意义。 上述问题引出一个博弈相关分支为协调博弈(coordination game)4.3 聚点均衡由实际问题抽象出来的博弈模型中,更多的一类问题是: 多个纳什均衡间不存在帕雷托占优关系或明显的风险占优关系,如夫妻爱好问题的两个纯策略均衡。 这时如何预测哪一个纳什均衡会出现是一个很有意义的问题以夫妻爱好博弈为例, 在实际中往往二人很默契地知道如何进行博弈, 双方往往知道怎么进行选择策略, 且能够相互了解 (这里面排除了互相协商后达成的一致)实际博弈中参与人往往会利用博弈模型以外的信息, 实现对特

15、定博弈均衡一致关注的“聚点”这些信息如: 参与人共同的文化背景或规范,共同的知识, 具有特定意义事物的特征,某些特殊的数量、位置关系等聚点均衡确实反映了人们在多重纳什均衡选择中的某些规律性, 但因为涉及因素太多,对于一般博弈模型很难总结普遍规律,只能具体问题具体分析聚点:人们通常会协调彼此的行为。 (你弱他就强);先例产生的影响远大于逻辑或者法律效力; 人们总是乐于安守现状或接受自然形成的界线(三八线)4.4 相关均衡 (correlated equilibrium)实际上, 在现实中遇到选择困难时,特别是在长期中反复遇到相似选择难题时, 常会通过收集更多信息, 形成特定的机制和规则,为某种形

16、式的制度安排等主动寻找思路。相关均衡就是这样的一种均衡选择机制。对于实际中比较复杂的博弈问题, 参与人是否有能力设计这种机制, 并且有足够能力理解、信任这种机制,是有一定疑问的。相关均衡作为社会经济制度创新的一种解释也许更有意义。4.5 防共谋均衡 (coalition-proofequilibrium)定义:如果一个博弈的某个策略组合满足a、没有任何单个参与人的“串通”会改变博弈的结果, 即单独改变策略无利可图(该策略组合是纳什均衡) 。b、给定选择偏离的参与人有再次偏离的自由时,没有任何两个参与人通过“串通”改变博弈的结果。c、依此类推,直到所有参与人都参加的串通也不会改变博弈的结果。满足

17、上述要求的均衡策略组合称为“防共谋均衡”在有多个参与人的博弈中,若部分参与人通过某种形式的默契或串通形成小团体,可能得到比不串通个大的支付。这就是多人博弈的共谋问题。防共谋均衡是指这样的一个纳什均衡,在该均衡局势下, 少数参与人集合不能通过均衡策略的偏离,实现更好的局部利益。防共谋均衡是两个以上参与人参加的博弈中,参与人在帕雷托占优均衡中进行合作思想的扩展。(五):动态博弈5.1 特点一类博弈行为通常需要参与人多步决策才能完成,具有明显的阶段性。博弈的结局、各参与人的收益由多阶段决策结果确定。各参与人的决策有一定的顺序。由于动态博弈各参与人进行决策具有明显的阶段性、行动次序性,通常用扩展式 (

18、extensive form) 表述法描述这些信息。5.2 博弈的扩展式表示参与人集合: i=1, ,N。用 N 表示虚拟参与人“自然”;自然的含义是某些外生的客观概率分布事件参与人的行动顺序 (the order of moves): 描述各参与人在什么时候行动;参与人的行动空间 (action set) :在每次行动时,参与人可选择的行动集合;参与人的信息集(information set):每次行动时参与人知道什么;参与人的收益函数:在行动结束之后,每个参与人得到些什么。自然选择的概率分布(假定自然状态是共同知识) 。对于有限博弈,博弈树是常用的表述方式。5.3 博弈树a 若动态博弈是有

19、限博弈,则可用博弈树表示该博弈。这里有限的含义是:各阶段各参与人的行动数目有限;博弈的阶段数有限。b 博弈树的基本结构为结点 (nodes) 。包括决策结及终点结。决策结是参与人采取行动的时点;终点结是博弈行动路径的终点。枝( branches )。从一个决策结到它的直接后续结的连线,每一个枝代表参与人的一个行动选择。信息集。是决策结集合的一个子集。将博弈树中某一决策者在某一行动阶段具有相同信息的所有决策结称为一个信息集。注:每个决策结都是同一个参与人的决策结。该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟出于哪一个决策结(若该信息集有两个或两个以上元素)。5.4 对于有限动态博弈,

20、若参与人对彼此在各决策结点的行动集合, 彼此的效用函数,历史的行动有着完全的了解, 则称这样的博弈为完全信息动态博弈。如果博弈树的所有信息集都是单元素集,称该博弈为完美信息博弈(gameof perfect information)。上述两个定义的差别在于对自然行动信息的描述。5.5 动态博弈的策略式表述a 相机选择 (contingent play)动态博弈中参与人的策略是各自预先设定的,在博弈的各阶段,针对各种情况做出相应决策。即“等待”博弈到达自己的信息集 (包含一个或多个决策结)后再决定如何行动。在策略式表述博弈中,参与人似乎是博弈开始之前就制定出了一个完全的相机选择,即“如果发生,我

21、将选择”。b 从扩展式表述构造战略式表述若把 B 的信息集从左到右排列, 上述四个纯策略可以简单记为 开发,开发 开发,不开发 不开发,开发 不开发,不开发 。上面四个纯策略含义:当 A 选择开发时, B 选择大括号中前面的策略; 当 A 选择不开发时, B 选择大括号中后面的策略。B 的纯策略为: 开发,开发 开发,不开发 不开发,开发不开发,不开发A 的纯策略为:SA =(开发,不开发)于是可以写成策略式表述形式,为不开不开开发,开发,发,发,不开发不开发开发开发开发-3,-3-3,-31 ,01, 0不开0,10,00,10,0发在扩展式表述博弈中,所有n 个参与人的一个纯战略组合 s=

22、(s 1, ,sn)决定了博弈树上的一个路径。比如(开发,不开发,开发 )决定了博弈的路径为 A à开发àB à不开发à(1,0)5.6 完全信息动态博弈纳什均衡存在性定理如果有限博弈是完美信息博弈,他还有一个纯战略纳什均衡( Zermelo,1913 )。5.7 逆向归纳法:a 逆向归纳法求解策略:从动态博弈的最后一个阶段出发, 对该参与人采用经济理性原则进行分析, 逐步到推回前一个阶段相应参与人的行动选择, 一直到第一阶段的分析方法。b 逆向归纳法是求解完美信息动态博弈的经典方法。逆推归纳法是完美信息动态博弈分析中使用最普遍的方法。c 与策略式分析比

23、较:如果A 选择U,那么 B 的信息集不能达到,我们说B 的信息集不在均衡路径上(out-of-equilibriumpath) 。 此种情况下, B 的选择对A 没有什么影响。 因此,纳什均衡对一个参与人在非均衡信息集上的选择没有限制。但是,一个参与人在非均衡信息集上的战略可以影响其他参与人在均衡信息集上的选择。d 逆向归纳法实质上是重复剔除劣战略法在扩展式博弈中的应用。逆向归纳法适不用于无限博弈和不完美信息博弈。逆向归纳法剔除了“非理性”的均衡策略5.8 子博弈完美均衡(子博弈精炼纳什均衡)子博弈概念: 一个扩展式博弈的子博弈 G 由一个决策结 x 和所有该决策结的后续结 T(x) 组成,

24、它满足下列条件:x 是一个单结信息集,即 h(x)=x;对于所有的 T(x) 中的 x,如果 x与 x同属于一个信息集,则 x也在 T(x) 中。需要说明的是, G 本身是自己的一个子博弈。子博弈完美纳什均衡 (子博弈精炼纳什均衡)扩展式博弈的一个战略组合s*=(s1*, ,si*, ,sn*) 是一个子博弈完美纳什均衡,如果它是原博弈的纳什均衡。它在每一个子博弈上都是纳什均衡纳什均衡与子博弈精炼纳什均衡的关系前面分析说明, 一个特定的纳什均衡决定了原博弈树上唯一的一条路径, 这条路径称为“均衡路径”(equilibrium path) 。相对该纳什均衡, 其他路径称为非均衡路径 (out-of-equilibrium path)。在每一个子博弈上给出纳什均衡意味着,构成子博弈纳什均衡的战略不仅在均衡路径的决策结上是最优的,同时在非均衡路径的决策结上也是最优的。对于有限完美信息博弈,前面介绍的逆推归纳法得出的纳什均衡即是子博弈精炼纳什均衡。(六)多阶段静态博弈6.1 该类模型中至少在某个阶段参与人同时选择其决策。这类模型实质上就是完美信息动态博弈,因此仍然可以采用逆推归纳法进行分析。因为存在同时选择,因此每个阶段不再是单人优化问题,而是一个静态博弈。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论