博弈论教学课件第六讲 混合策略和监督博弈_第1页
博弈论教学课件第六讲 混合策略和监督博弈_第2页
博弈论教学课件第六讲 混合策略和监督博弈_第3页
博弈论教学课件第六讲 混合策略和监督博弈_第4页
博弈论教学课件第六讲 混合策略和监督博弈_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六讲

混合策略与监督博弈

第十三章

混合策略

第十四章

监督博弈

第十三章

混合策略

第一节 概念及说明

纯策略和混合策略

纯策略:如果一个策略要求参与者在每一个给定

信息情况下只选择一种特定的行动。

混合策略:如果一个策略要求参与者在给定信息

情况下以某种概率分布随机地选择不同的行动。

混合策略

在n个参与人博弈的战略式表述G={S1,…,

Sn;u1,…,un}中,假定参与人i有K个纯

战略:SI={si1,…,siK},那么,概率分布

σi=(σi1,…,σiK)称为i的一个混合策略,

这里σiK=σ(sik)是i选择sik的概率,对于所

有的k=1,…,K,0≤σiK≤1,∑σiK=1.

随机药物检测

运动员

服药

未服药

IOC

抽检

1,-1

-1,1未抽检

-1,1

1,-1

点球射门

攻方的策略是:攻左边,或攻右边

守方的策略是:守左边,或守右边

(以守方的方向为准)

左边

右边

攻左边

-1,1

1,-1右边

1,-1

-1,1

石头、剪子、布

浙江大学发研究报告:石头剪刀布百战百胜策略

浙江大学、浙江工商大学和中科院理论物理研究

所的研究人员通过实验发现了石头剪刀布的一个

制胜策略。研究人员招募了360名学生,将他们

分成六组,随机配对玩300轮石头剪刀布游戏,

在每一轮中获胜的学生将会获得少量人民币奖励

。通过观察学生使用的策略,他们发现了获胜者

或失利者习惯使用的游戏策略。

简单说,如果你的剪刀输给了对手的石头,那么下一

轮你更有可能出能战胜石头的布;而如果你是获胜者

,那么下一轮你更有可能沿用相同的出手。赢家保持

现状输家做出改变的策略(胜留败走)。

石头剪刀布的制胜策略:如果你是输家,下一轮换用

能打败对手的出手;如果你是赢家,下一轮不要再使

用原来的出手。也就是说,你用石头打败了对手的剪

刀,那么下一轮你不能再出石头,而应该出剪刀,因

为对方很有可能会出布。

哈哈,刚偷学了,和老婆猜了五次都赢了

浪费纳税人的钱、简直比日本人都可恶

真他妈一群脑残,这东西能破解的了吗

大学就干这些?

科学家真他妈辛苦啊,这个难度的问题几天就

观察出来了!!

科学家不应研究3岁小孩都能知道的“石头剪子

布”哪招能赢这样高端的问题,应该去研究他

们自己脑子里为什么会进水这样简单的问题。

真是拿着纳税人的钱开玩笑,吃饱了撑的!

课堂测试

假设我和你一起玩“石头、剪子、布”的游戏,

如果我告诉你说,我准备出“石头”,请问:

你会出什么?(赌注为10元)

请问:事先的告知会影响你的选择吗?

特别提示:

小得失相信人,大得失怀疑人!

石头剪子布(高级版)

石头

剪子

石头

0,0

1,-1

-5,5

剪子

-1,1

0,0

2,-2

5,-5

-2,2

0,0

出石头和出布的学生,哪个多?

仁慈的教授

张三

平时勤快

平时偷懒

教授

放过

,2-1,3

不放过

,1

0,0

3-1

第二节 扩展分析

一、智猪博弈中的混合策略

在前述的智猪博弈中,当A<1时,任一方去按的净收

益都大于0,在确知对方去按的条件下,一方将选择

等待。在确知对方等待的条件下,一方的选择是去按。

因此两种明显存在的均衡结局为(9,1-A)和(6-

A,4),其整体的净收益都为10-A。然而,究竟哪种

组合会在实际中出现呢?

二、懦夫(斗鸡)博弈中的混合策略

懦夫(斗鸡)博弈

鹰鸽博弈

参与人

A

当A<C时,老鹰策略的概率α*=A/C。

各自的期望收益是=A(1-A/C)

双方总期望收益是=2A(1-A/C)

参与人B

老鹰

鸽子老鹰A-C,A-C

2A,0鸽子

0,2A

A,A

特别提示:

利益冲突需要协调,协调成本过

高,不如不协调。

特别提示:

能够降低协调成本的制度(技术),

是一种更好的制度(技术)。

第十四章

监督博弈

第一节

雇主与雇员的监督博弈

V是雇员的贡献,即雇员为雇主创造的价值。

W是雇员的工资,除了员工偷懒被雇主查到的情况,雇主是要给雇员发工资的。

H是雇员的付出,当雇员不偷懒时,雇员的收益将损失H,即努力工作的成本。

C是检查的成本,当雇主选择检查的时候,雇主的收益将减少C。

F是雇主发现雇员偷懒时的惩罚即没收雇员所交的抵押金。

3个问题:

1、求解混合策略纳什均衡。

2、求解雇主支付W为多少时,其期望收益最大?

3、如何理解雇员所交的抵押金?

一、混合策略纳什均衡

微分法(P152-153)

1、根据所设的策略集(各个策略选择的概率)

求出雇主与雇员的期望收益。

2、将雇主的期望收益对α求导,结果为0,解

出β。再将雇员的期望收益对β求导,结果

为0,解出α。

运用均衡的理念(P154)

当达到纳什均衡的时候,任何一方都不愿意改

变自己的策略。

即对于雇主来说:

不检查

当T检查=T不检查的时候达到均衡。

同理,对于雇员来说:

T

不偷懒

T

T

偷懒

不偷懒

(C

F

)

(V

W

C

1

检查

(

F

)

(W

)(1

TT

(W

)

(V

W

1

偷懒

(W

H

)

(W

H

)1

混合策略均衡解:当雇员以H/(W+F)

的概率偷懒,雇主以C/(W+F)的概率

检查,达到均衡状态。

若干推论

H越大,雇主越容易检查。

C越大,雇员越容易偷懒。

W越大,雇员越少偷懒,雇主越少检查。

F越大,雇员越少偷懒,雇主越少检查。

雇主检查的概率H/(W+F),雇员偷懒的概率C/(W+F)

T

3个问题:

2、求解雇主支付W为多少时,其期望收益最大?

雇主的期望收益=-Wβ +(V-W)(1-β)

=V-W-Vβ =V-W-V(1-C/(W+F

(W

)

(V

W

)(1

(C

F

)

(V

W

C

)(1

不检查

检查T

))

当雇主支付的工资额为

CV

F

时,雇主的期

望收益最大。

此时,雇主的期望收益是:T=V-2+F

雇员的期望收益:

双方总的期望收益是:

T总=V-H-CV/(W+F)

当W=时,双方总的期望收益是

T总=V-H- CV

W

H

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论