版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四讲博弈论概论到目前为止,我们对经济活动的考察没有考虑人们之间行为的相互影响。其实,现实中一个人的行为总是受到其他人行为的影响和制约,人们在追逐自己利益的过程中难免要与他人发生利益冲突或矛盾。如何克服和解决人们之间的利益冲突?如何才能实现一种既能让每个人都实现自己的利益,又能让每个人都不妨碍和伤害他人利益的互利互惠的和谐局面?博弈论(GameTheory)为解决这些问题提供了一种有力的科学分析框架。什么是博弈论自20世纪80年代以来,博弈论在经济学中得到了广泛应用,在揭示人们经济行为的相互影响和相互制约方面取得了重大进展。大部分经济活动都可以用博弈论加以解释,甚至连市场调节与宏观调控这样的重大问题都可以看成是特殊的博弈现象,纳入到博弈论的范围加以研究。博弈论的思想方法博大精深,已经成为经济学的一个必不可少的组成部分。
Game参与人参与人的策略参与人的支付目标函数规则下的行动(期望)效用例子:田忌赛马剪刀石头布古诺斯塔克伯格思考:参与人数支付相抵策略数量同时开始类型博弈论是研究在策略性环境中如何进行策略性决策和采取策略性行动的科学。其中策略性环境是指每个人进行的决策和采取的行动都会对其他人产生影响。博弈的标准形式博弈的基本要素:局中人(玩家)、策略、收益。局中人的目标:收益最大化。策略博弈(gameofstrategies):局中人以策略定胜负。博弈的标准形式(normalformofagame):G=(Xi,
fi)n,其中
n
为局中人总数,
Xi
为局中人
i
的策略集合,S
=X1X2Xn
为G的局势集合,fi:SR为局中人
i
的收益函数。局势:由各局中人的策略组成的n元组
(x1,
x2,,
xn)(其中xiXi)。博弈的分类一般按照博弈的基本要素进行分类。按局中人数分:二人博弈、多人博弈按策略集合分:有限博弈、无限博弈按收益函数分:常和(零和)博弈、变和博弈按博弈性质分:非合作博弈、合作博弈按行动次序分:同时移动博弈、先后移动博弈(序贯博弈)
以上分类可以结合起来,形成更仔细的分类。比如,二人零和有限博弈(矩阵博弈)、多人非合作无限博弈等等。矩阵博弈
博弈是一种普遍的日常现象。当人们工作的时候,总是会有意识或潜意识地运用博弈论思维。比如,企业在经营决策中总是要考虑竞争对手的反应,个人与政府之间又存在着“上有政策,下有对策”的博弈迹象,金融监管与金融创新则犹如“猫鼠博弈”。在人们休闲时,博弈又作为消遣性的游戏让人们从中取得快乐,甚至获得智慧,例如下棋、玩牌、打麻将等。一般来讲,博弈的特征表现为两个或两个以上具有利益冲突的当事人处于一种不相容状态中,一方的行动取决于对方的行动,每个当事人的收益都取决于所有当事人的行动。当所有当事人都拿定主意作出决策时,博弈的局势便得以确定。博弈论正是要研究人们之间的这种不相容的行为,它推广了标准的一人决策理论。博弈论关注的问题是:在每个当事人的收益都依赖于其他当事人的选择的情况下,追求个人收益最大化的当事人应该如何采取行动。我们先以最简单的矩阵博弈为重点来讨论这个问题,建立博弈论的基本思路和分析框架。
因此,甲和乙的二人零和有限博弈G=(X,f;Y,g)可表示为G=(X,Y,f)。特别是当策略集合X和Y既定时,可直接用甲的收益矩阵表示这个博弈G
,并称作“矩阵博弈
f”。
例
便士匹配
甲和乙在玩一种游戏,每人手中都有一枚硬币,每人都有两种选择:出示硬币正面、出示硬币反面。
游戏规则:甲和乙各自独立决定是出示正面还是出示反面。如果都出示正面或都出示反面,那么甲赢1元,乙输1元;如果一人出示正面,而另一人出示反面,那么甲输1元,乙赢1元。这个游戏就是通常所说的便士匹配博弈(MatchingPennies),它类似于小孩子玩的“手心手背”游戏。其标准形式如下:
乙甲出示正面出示反面出示正面1(甲)1(乙)1(甲)1(乙)出示反面1(甲)1(乙)1(甲)1(乙)便士匹配博弈收益表古诺均衡局中人的目标:选择合适的策略以使自己的收益(对方的损失)达到最大,也就是要让对方的收益(自己的损失)达到最小。我们来分析局中人的博弈过程以揭示博弈的最优解。假定:甲和乙都彼此了解对方的收益矩阵,即双方都清楚自己的收益就是对方的损失——利益冲突。博弈过程:既然每个局中人都要根据对方的行动来调整和确定自己的行动,那么博弈过程必然是这样的策略调整与选择过程:每个人都要不断地在对方选定了策略的情况下来调整自己的策略以使自己的收益达到最大。博弈结局:当策略调整达到了这样的局势
(xh,yk)使得
xh是甲在乙选定yk的情况下的收益最大策略,同时yk是乙甲在选定xh的情况下的收益最大策略的时候,局中人双方的策略调整得以结束,博弈的解得以确定,这个解即所谓的古诺均衡。即古诺均衡局中人的目标:选择合适的策略以使自己的收益(对方的损失)达到最大,也就是要让对方的收益(自己的损失)达到最小。假定:甲和乙都彼此了解对方的收益矩阵,即双方都清楚自己的收益就是对方的损失——利益冲突。博弈过程:既然每个局中人都要根据对方的行动来调整和确定自己的行动,那么博弈过程必然是这样的策略调整与选择过程:每个人都要不断地在对方选定了策略的情况下来调整自己的策略以使自己的收益达到最大。博弈结局:当策略调整达到了这样的局势
(xh,yk)使得
xh是甲在乙选定yk的情况下的收益最大策略,同时yk是乙甲在选定xh的情况下的收益最大策略的时候,局中人双方的策略调整得以结束,博弈的解得以确定,这个解即所谓的古诺均衡。即古诺均衡:最小最大原理鞍点定理(最小最大原理)
是矩阵的鞍点(即博弈局势(xh,yk)是矩阵博弈f的古诺均衡)当且仅当下述等式成立:
鞍点定理表明,要找到矩阵博弈的古诺均衡(即最优解),只需按照如下步骤进行:第一,从矩阵各行的最小元中找出最大元,称为最大最小元;第二,从矩阵各列的最大元中找出最小元,称为最小最大元;第三,如果最大最小元与最小最大元一致,那么该元素就是矩阵的鞍点,代表矩阵博弈的古诺均衡。
乙甲作广告不作广告作广告3030不作广告2020例2.广告竞争的古诺均衡单位:万元古诺均衡:稳妥策略与不稳定性
最小最大原理指出,只有在收益矩阵的最大最小元与最小最大元一致的情况下,矩阵博弈才有最优解。注意,最大最小元和最小最大元总是存在的,但最大最小元与最小最大元未必总是一致。这样一来,矩阵博弈就可能没有最优解。比如,便士匹配博弈就没有最优解:该博弈的收益矩阵的最大最小元为和,最小最大元为和,结果最大最小元与最小最大元不一致,从而便士匹配博弈没有最优解。矩阵博弈可能没有最优解的真正原因是什么?
为了分析这个问题,我们把收益矩阵的最大最小元叫做甲的稳妥策略;把收益矩阵的最小最大元叫做乙的稳妥策略。矩阵博弈可能没有最优解的原因是稳妥策略可能不稳定:未必能使策略调整过程结束。因此,即使甲和乙都选择稳定策略,也未必能保证博弈达到古诺均衡。
古诺均衡:混合均衡
古诺均衡未必存在,这不是我们的期望。另外,实际中,局中人常常希望行动隐秘而不被对手觉察。为了解决这两个问题,人们提出了混合策略,即设计一种连自己都不知道会采取哪种策略的随机策略,对手就更不得而知,从而使得局中人的行动变得诡秘。
混合策略(mixedstrategies)
考虑二人有限博弈G=(X,f;Y,g)。X={x1,x2,…,xm}可叫做甲的纯策略集合,Y={y1,y2,…,yn}可叫做乙的纯策略集合,S=X
Y便为博弈G
的纯局势集合。甲可采取随机选择:以概率pi选择纯策略xi(
i=
1,
2,…,
m),从而可用概率分布p=(p1,p2,…,pm)来表示甲的这一选择。这种以概率分布表示的策略叫做混合策略,集合叫做甲的混合策略集合。同样,可给出乙的混合策略集合。集合就叫做博弈G的混合局势集合。
甲和乙的收益矩阵分别为:。博弈G的混合扩充为博弈:定理博弈G=(X,f;Y,g)为常和博弈当且仅当G
的混合扩充为常和博弈。当G
是常和博弈时,G
与具有相同的收入常和。
G的混合扩充的古诺均衡(最优解)叫做G的混合均衡(混合最优解)。换句话说,G的混合局势(p*,q*)叫做的混合均衡(混合最优解),是指(p*,q*)满足如下条件:
定理(混合均衡的存在性)任何矩阵博弈都有混合均衡。例
便士匹配的混合最优解
便士匹配博弈中,甲的收益矩阵为f。
寻找便士匹配博弈的混合最优解,就是去找出使得。
矩阵博弈混合均衡的存在性以及鞍点定理保证了博弈值V(G)是一个良好定义的数,并且当(p*,q*)是的混合最优解时,必有V(G)
=Ef(p*,q*)。博弈值在解释最优解的性质以及求解混合最优解方面相当有用,还可以通过博弈值来证明矩阵博弈G的混合均衡集(混合最优解集)具有下述定理所述的特点。博弈值
定理
对于甲和乙的矩阵博弈G=(X,Y,f)来说,T=
T1T2
且混合均衡集
T是空间的非空有界闭凸子集,从而甲的混合最优策略集T1是的非空有界闭凸子集,乙的混合最优策略集T2是的非空有界闭凸子集。
矩阵博弈仅仅是一类简单又典型的二人常和博弈,经济学中遇到的博弈往往都是变和博弈。矩阵博弈理论之所以重要,是因为它为研究变和博弈提供了很好的分析思路和框架。现在,我们来在矩阵博弈理论的基础上建立一般的二人博弈理论。
二人有限博弈例
囚徒难题博弈乙甲合作背叛合作3000300004000背叛4000010001000囚徒难题博弈收益表古诺均衡(纳什均衡)二人有限博弈:最小最大原理失效乙甲y1y2x15532x24366博弈GA:古诺均衡与最大最小元不一致乙甲y1y2x15637x24554博弈GB:不存在均衡,但存在最大最小元二人有限博弈:混合策略例
性别之战:性别差异导致效用收益差异定理(混合均衡的存在性)
任何二人有限博弈都有混合均衡。卡夫茹达话剧足球话剧2100足球0012混合均衡:茹达和卡夫的预期收益都为2/3。意味着“男女平等”。
二人无限博弈现在考虑二人无限博弈G=(X,f;Y,g),其中X和Y
分别任意集合,局势集合S=X
Y
是无限集合。显然,二人有限博弈的混合扩充就是二人无限博弈。二人无限博弈的混合扩充依然是二人无限博弈。因此,在无限博弈的情形,无需专门讨论混合扩充。二人博弈的古诺均衡是满足如下条件的局势(x*,
y*):XYRf
(x*,
y*)(x*,
y*)x*y*古诺均衡二人无限博弈:古诺均衡存在性假设G1甲的策略集合X
是某个拓扑向量空间V1的非空紧凸子集,乙的策略集合Y
也是某个拓扑向量空间V2的非空紧凸子集,从而局势集合S是拓扑向量空间V1V2的非空紧凸子集。假设G2甲的收益函数
f
(x,y)连续且关于策略变元
x
弱拟凹;乙的收益函数连续
g(x,y)且关于策略变元y
弱拟凹。范格不动点定理
设T是拓扑向量空间的非空紧凸子集,F:TT是集值映射。如果F上半连续且对任何xT,F(x)都是非空闭凸集,则F
有不动点,即(tT)(t=F(t))。定理(古诺均衡的存在性)任何满足假设G1和G2的二人无限博弈都有古诺均衡。二人无限博弈:反应函数
当乙采取策略y时,甲对乙的这一行动的反应是要确定甲的相应对策x以使收益f
(x,y)在乙选择y的情况下达到最大:f
(x,y)=max{
f
(x,y):xX}。这就确定了一个映射x=
(
y),叫做甲对乙的反应函数。同样,可以确定乙对甲的反应函数
y=
(
x):g(x,y)=max{g(x,y):yY}。由“x*=
(
y*)&y*=
(
x*)”确定的局势(x*,y*)的就是博弈G的均衡。
二人无限博弈的一种特殊情况:甲和乙的策略集合X和Y都是实数区间,收益函数f:XR和g:YR可微。则反应函数由下述方程确定:比如,重复博弈
虽然我们已经对二人博弈的最优解作了研究,但让局中人找到最优解却不是一个容易的过程,需要反复实践和锻炼,就好像棋手下棋一样,需要反复不断地下,才能越来越达到最优解。可见,博弈是可以重复进行的。但到目前为止,我们所研究的博弈都是一次性博弈。因此,有必要研究博弈的重复。事实上,当博弈可以重复进行的时候,其最优结局可能会与一次性博弈的均衡有所差异。下面以囚徒难题博弈为例来说明这个问题,分两种情况讨论:博弈重复有限次博弈重复无限次重复博弈:有限次重复
每个局中人都知道博弈将重复一个固定的次数。考虑最后一次博弈中局中人的推理:每个人都认为他们此时是在进行一次性博弈,这是最后一次行动,因而古诺均衡的标准逻辑推理得以应用,其结果是局中人双方选择“背叛”。再考虑倒数第二次博弈,这里似乎每个局中人都重视合作,可以向对方发出“善意”的合作信号,以便能在下一次博弈中继续合作。但局中人作为理性人,他清楚地知道最后一次博弈中对方必然背叛,因此他在倒数第二次博弈中采取合作就没有优势可言,故要选择背叛。同样,在倒数第三次博弈中,局中人的推理与倒数第二轮博弈中的推理一样,结果在倒数第三轮博弈中,局中人依然采取背叛。采用这种从后往前的“逆向归纳法(backwardinduction)”,便可知道每次博弈中,局中人双方都要选择“背叛”策略。可见,在有限次重复博弈中,最优的局势依然是古诺均衡,也就是说,古诺均衡是局中人双方的短期利益所在。重复博弈:无限次重复每个局中人都知道博弈要无限重复进行下去。此时,每个局中人的策略都是一个函数序列,它表明每个人在每个阶段策略选择都是此阶段之前的博弈历史的函数。这样,局中人的收益是各阶段收益的贴现值之和(向时刻0贴现):。R:局中人永不背叛的收益;RT:局中人第T次背叛的收益。
只要贴现率r<2,那么RT<R
,即采取背叛无利可图,还是合作为好。收入的贴现率小于2是平常的,可见通常情况下,只要博弈能够无限次重复下去,那么就可实现“(合作,合作)”的更好结局,这说明“(合作,合作)”是局中人双方的长期利益所在。
非合作博弈
二人一次性博弈是典型的非合作博弈,局中人之间没有串通和勾结,各个局中人都是独立决策和独立行动。
20世纪50年代,美国数学家纳什成功地将这种博弈模式推广到多人情形,接连发表了多篇研究论文,为现代博弈论的形成和发展奠定了坚实基础。纳什对多人非合作博弈作出了明确界定,提出了多人非合作博弈的纳什均衡概念,并证明了纳什均衡的存在性。由于纳什均衡是对矩阵博弈的古诺均衡概念的推广,因此人们也常常把纳什均衡称作古诺-纳什均衡。纳什均衡存在性定理的重要意义在于其结论可以直接向经济系统推广,并且这种推广是阿罗和德布罗重建瓦尔拉一般均衡理论大厦的关键所在。多人有限非合作博弈
定理(纳什定理)
任何n人有限博弈都有(非合作)混合最优解。多人连续博弈
对于多人无限博弈,人们更关注连续博弈,即在博弈的局势集合上赋予了某种拓扑结构,并且在该拓扑结构下各个局中人的收益函数都是连续函数。连续性表明:只要局中人行动变化不大,局中人收益也就变化不大。
定理x*S是纳什均衡
x*
(x*)(即x*为的不动点)。假设G1局中人
i
的策略集合Xi是某个拓扑向量空间Vi的非空紧凸子集,从而局势集合S是拓扑向量空间V1Vn的非空紧凸子集。假设G2连续且关于策略变元
xi弱拟凹。定理(均衡存在性)
任何满足假设G1和G2的n
人非合作博弈都有纳什均衡。带约束条件的纳什均衡
假设G3在受约束的博弈G
=
(Xi,
fi,
Bi)iI中,每个局中人
i
的约束集映Bi:SXi都是连续的集值映射,同时对任何xS,Bi(x)都是Xi的非空闭凸子集,并且Bi(x)与局中人i在局势x中的策略无关。带约束条件的纳什均衡存在性定理
任何满足假设G1、G2和G3的
n
人非合作博弈都有纳什均衡。纳什均衡:合作博弈
当博弈从二人发展到多人参与的时候,局中人就不再像二人博弈那样只是独立行动,而是可以开展合作,一些局中人联合起来对抗另外一些局中人。他们出于某种动机或需要而结成联盟,互通情报信息,采取一致行动,以便取得对自己有利的结果。这种相互配合、彼此协作、结成联盟的现象就是合作博弈的原型。在合作博弈中,局中人自己的策略选择已经不再是什么重要问题,重要的是联盟如何选择策略,如何采取一致行动,联盟的收入如何向其成员进行分配。收入分配问题至关重要,它决定着局中人能否形成联盟,盟外人又是否愿意加入到联盟中来。现在,我们来讨论这些问题,建立多人合作博弈的理论。我们将以有限博弈为对象展开讨论,至于无限博弈的情形,这里的理论和方法都可以自然地推广过去。
合作博弈:联盟对抗
博弈
G=(Xi,
ui)iI
的局中人集合为
I
=
{1,2,,n}。局中人的合作表现为结盟,即形成联盟,这个联盟就是
I
的子集。定义
博弈
G
中的一个联盟是指局中人集合
I
的一个子集。对于这个定义,以下三点值得注意:
通过结盟,合作博弈可转化为非合作博弈:若A是联盟,那么G就成为联盟
A
和其余联盟
B的非合作博弈。即可把A和B都看成局中人:A
和
B
的策略集合分别为
XA=
iAXi和
XB=
iBXi,局势集合为X=
iIXi=
XA
XB,局势
x
=
(x1,,
xn)
=
(xA,
xB),A
和
B
的收益函数分别为
uA(x)
=
iA
ui(x)和
uB(x)
=
iB
ui(x),于是G
转化为GA=
(XA,
uA;XB,
uB)。如果
A
是联盟,那么
B
=
I
–
A
也是联盟,称为联盟
A
的余联盟。任何联盟
A
都把局中人分成两个联盟:联盟
A
和余联盟
B。
I
和空集
都是联盟且互为余联盟。我们把空集
称为空联盟。只含一个局中人的集合也是联盟,叫做单人联盟。这是联盟的特殊情形,实际上单人联盟并没有真正的结盟意义。合作博弈:特征函数
通过联盟A,多人合作博弈G简化为二人非合作博弈GA
=
(XA,
uA;XB,
uB),由此可引出博弈G的特征函数V:P
(I
)R:
V(A)是
A的收益函数uA在鞍点处的值。事实上,V(A)是二人零和博弈(XA,
uA;XB,
uA)的古诺均衡中局中人
A
的收益。冯·诺伊曼据此提出了如上的特征函数概念。特征函数V(A)具有以下基本性质:性质1对于空联盟来说,V()
=
0。(这是因为
u
=
0)性质2若A,
BP
(I
)
且
AB
=,则V(AB
)
V(A)
+
V(B)。性质3当G为零和博弈时,V(I
)
=
0
且(AP
(I
))(V(I
–
A)
=
V(A))。如果把性质2中的不等式换为等式,即
V(AB
)
=
V(A)
+
V(B)
对一切不相交的联盟
A和B都成立,则称特征函数V
具有可加性。当V具有可加性时,
V(A)
=
iA
V({i})对一切联盟
A
成立,
这表明结盟与不结盟没有什么差别,从而博弈中合作没有什么意义。这种具有可加特征函数的博弈,称为非本质博弈,人们感兴趣的是本质博弈。合作博弈:收入分配
特征函数表示联盟总收入,那么这笔收入在联盟内部如何分配呢?为了研究联盟内的收入分配问题,首先给出收入分配的含义。
定义
博弈
G
=
(Xi,
ui)n
的收入分配(简称分配)是一个满足如下条件的n维向量(r1,
r2,,
rn):V(I
)
=
iI
ri且ri
vi=V({i})
(i
=1,2,,n)。定义中的条件
V(I
)
=
iI
ri意味着局中人全体组成统一联盟,并从这个联盟中得到收入;vi=V({i})表示局中人单干的收入,即不与其他人结盟的情况下的收入;条件ri
vi意味着局中人参加联盟所得到的收入不低于单干的收入,联盟的吸引力就在于参加联盟能够得到更多的收入。向量v
=
(v1,
v2,,
vn)就叫做单干收入向量,根据特征函数的性质可知,V(I
)
iI
vi。收入分配具有下述一些性质。性质1向量(r1,
r2,,
rn)
是G
的分配当且仅当存在向量(a1,
a2,,
an)
0
使得ri=
vi
+
ai(i
=1,2,,n)
且iI
ai=V(I
)
iI
vi。性质2
n
人非本质博弈的分配只有单干收入向量v
=
(v1,
v2,,
vn)。性质3本质博弈的分配有无限多个。合作博弈:核心最优解
局中人结盟是因为结盟能够提高联盟成员的收入。因此,对于任何一种收入分配
t
=
(t1,
t2,,
tn),如果存在AP
(I
)
及另一种收入分配r
=
(r1,
r2,,
rn)
使得V(A)
iA
ri
且ri
>
ti对一切
iA
成立,
那么
A中的局中人就会结盟一致反对收入分配
t以达到提高收入的目的,这个联盟
A
就叫做收入分配
t
的反对者联盟。一种收入分配只有不存在反对者联盟的时候,才能被所有局中人接受。这种收入分配就是合作博弈的最优解——核心最优解。由所有核心最优解构成的集合,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版危废处理设施环境影响评价与验收合同3篇
- 2024年钢材市场购销合作合同
- 2025年度大学外籍教师团队聘用及发展合同4篇
- 个性化借款协议范本:含第三方担保条款一
- 2025年度个人二手车交易合同(新车置换服务版)4篇
- 2025年度定制门窗产品生产与销售合作协议2篇
- 二零二五版木材行业木方板材库存管理合同范本4篇
- 二零二五版智慧城市建设与投资合作协议4篇
- 2023年-2024年新员工入职前安全教育培训试题及答案完美版
- 2025版知识产权质押贷款民间借款合同样本与法律依据4篇
- TB 10012-2019 铁路工程地质勘察规范
- 新苏教版三年级下册科学全册知识点(背诵用)
- 乡镇风控维稳应急预案演练
- 脑梗死合并癫痫病人的护理查房
- 苏教版四年级上册脱式计算300题及答案
- 犯罪现场保护培训课件
- 扣款通知单 采购部
- 电除颤操作流程图
- 湖北教育出版社三年级下册信息技术教案
- 设计基础全套教学课件
- IATF16949包装方案评审表
评论
0/150
提交评论