版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
GAME
THEORY
对策论第11章2/3/2023111矩阵对策6.1引言6.2对策论的基本概念6.3矩阵对策的概念及模型6.4矩阵对策的纯策略解(鞍点解)6.5矩阵对策的混合策略解(mixedstrategicsolution)6.6矩阵对策的解法2/3/20232OperationsResearch6.1.1何谓对策论(GameTheory)?6.1.2对策的例子6.1.3对策论的诞生与发展简况6.1引言2/3/20233OperationsResearch6.1.1
何谓对策论(GameTheory)?
定义:对策论亦称竞赛论或博弈论,是研究具有斗争或竞争性质现象的数学理论和方法。囚徒困境局中人2坦白不坦白局中人1坦白(-6,-6)(-1,-8)不坦白(-8,-1)(-2,-2)2/3/20234OperationsResearch齐王赛马决斗问题:神雕侠侣中武林盟主大会6.1.2
对策的例子朱子柳霍都郭靖达尔巴郝大通金轮法王2/3/20235OperationsResearch6.1.3对策论的诞生与发展简况早期工作1912年E.Zermelo‘关于集合论在象棋对策中的应用’
1921年E.Borel引入最优策略
1928年J.V.Neumann证明了一些猜想2/3/20236OperationsResearch6.1.3对策论的诞生与发展简况产生标志
1944年J.V.Neumann和O.Morgenstern”对策论与经济行为”(TheoryofGamesandEconomicBehavior)发展成熟
Nash均衡、经济博奕论、信息不对称对策和广义对策2/3/20237OperationsResearch6.2
对策论的基本概念6.2.1局中人(Player)6.2.2策略(Strategy)6.2.3支付与支付函数2/3/20238OperationsResearch6.2.1
局中人(Player)1、局中人:在一场竞争或斗争中的决策者称为该局对策的局中人通常,一局对策具有两个或两个以上---决策者,一般用I表示局中人集合:2/3/20239OperationsResearch6.2.1局中人(Player)2、对策分类:依据局中人的数量,可将对策分为有限对策无限对策(n>2)对策无限零和对策无限非零和对策有限零和对策有限非零和对策2/3/202310OperationsResearch6.2.2
策略(Strategy)1、策略与策略集局中人指导自己自始至终如何行动的一个方案,称为策略(Strategy)由所有策略构成的集合,称为策略集(Strategy
Set)2/3/202311OperationsResearch6.2.2
策略(Strategy)2、策略集的元素:对于局中人i,i∈I,都有自己的策略集Si,通常每一局中人的策略集中至少应包括两个策略对于例4的包、剪、锤游戏。假设有两个局中人I={甲,乙},甲的策略集为S甲={(包)、(剪)、(锤)}={a1、a2、a3};乙的策略集为S乙={(包)、(剪)、(锤)}={b1、b2、b3};2/3/202312OperationsResearch6.2.3
支付与支付函数1、局势:各局中人所选定的策略形成的策略组2、策略组若si是第i个局中人的一个策略,则n个局中人的策略组s=(s1,s2,…,sn)
就是一个局势。2/3/202313OperationsResearch6.2.3
支付与支付函数例如,对于包、剪、锤游戏。假设有两个局中人I={甲,乙},甲的策略集为S甲={(包)、(剪)、(锤)}={(a1)、(a2)、(a3)};乙的策略集为S乙={(包)、(剪)、(锤)}={(b1)、(b2)、(b3)};
则甲的一个策略ai,和乙的一个策略bj就构成一个局势sij.2/3/202314OperationsResearch6.2.3
支付与支付函数3、赢得(支付):当每个局中人所采取的策略确定后,他们就会得到相应的收益或损失,称为局中人的支付(Payoff)。若甲的一个策略a3(锤),乙的一个策略b2(剪),则构成一个局势s32
。在局势s32下,甲的支付为:乙的支付2/3/202315OperationsResearch6.2.3
支付与支付函数4、支付(赢得)函数:不同的策略会导致不同的支付,因此,支付是策略(准确的说应该是局势)的函数,称为支付函数(payofffunction)。对于例4,两人的支付函数分别记为:和例如,对于策略a3,b12/3/202316OperationsResearch6.2.3
支付与支付函数5、零和对策和非零和对策
根据各局中人支付的代数和是否为0,将对策分为零和对策和非零和对策(non-zero-sumgames)。若在任一局对策中,全体局中人支付的总和为0,则该对策称为零和对策,否则称为非零和对策(non-zero-sumgames)。对于前例,显然为零和对策,因为2/3/202317OperationsResearch6.2.3
支付与支付函数6、对策分类根据局中人的数目和支付函数代数和有限对策n人对策(n>2)对策合作对策非合作对策2/3/202318OperationsResearch6.3
矩阵对策的概念及模型1、定义:两个人零和对策称为矩阵对策例,“包、剪、锤”游戏中,甲、乙双方各有三种不同的策略,分别为:2/3/202319OperationsResearch6.3
矩阵对策的概念及模型甲的支付情况如下表β1(包)β2(剪)β3(锤)α1(包)0-11α2(剪)10-1α3(锤)-110乙的策略甲的支付甲的策略表6.12/3/202320OperationsResearch6.3
矩阵对策的概念及模型齐王赛马
β1β2β3β4β5β6α1(上中下)31111-1α2(上下中)1311-11α3(中上下)1-13111α4(中下上)-111311α5(下中上)11-1131α6(下上中)111-113田忌策略齐王赢得齐王策略上中下上下中中上下中下上下中上下上中2/3/202321OperationsResearch6.3
矩阵对策的概念及模型表6.1中的数字用矩阵的形式表示A称为甲的支付矩阵。显然,乙的支付矩阵为-A。因此,该对策可记为:2/3/202322OperationsResearch6.3
矩阵对策的概念及模型2、矩阵对策的模型一般地,若局中人Ⅰ,Ⅱ的策略集分别为:为了与后面的概念区分开来,我们称αi为Ⅰ的纯策略,βj为Ⅱ的纯策略,对于纯策略αi,βj构成的策略偶(αi,βj)称为纯局势。
2/3/202323OperationsResearch6.3
矩阵对策的概念及模型若Ⅰ的支付矩阵为:αij表示局势(αi,βj)下,局中人Ⅰ的支付,则矩阵对策可记为G={S1,S2,A}:即矩阵对策模型。2/3/202324OperationsResearch6.4
矩阵对策的纯策略解6.4.1矩阵对策的纯策略解例解过程6.4.2矩阵对策的纯策略解理论基础6.4.3矩阵对策的纯策略解性质2/3/202325OperationsResearch例5设二人零和对策
G={S1,S2,A},,其中6.4.1矩阵对策的纯策略解例解过程而且局中Ⅰ的支付矩阵为:两位局中人都想自己的支付最大化。2/3/202326OperationsResearch6.4.1矩阵对策的纯策略解例解过程这里我们认为局中人都是理智的,从矩阵A进行逻辑推理可知:如果局中人Ⅰ采取α3作策略,虽有可能获得最大支付18,但是,局中人Ⅱ分析到Ⅰ的这种心理,就会采取β3策略,使Ⅰ不仅得不到最大值18,反而取得很坏的结果-8;同样,局中人Ⅱ为了得到最大支付+12(即局中人Ⅰ的支付-12),会采取β2作为策略,但局中人Ⅰ也会猜到Ⅱ的这种心理,而采取α2作策略,这样局中人Ⅱ只能得到-3。2/3/202327OperationsResearch6.4.1矩阵对策的纯策略解例解过程从以上的分析可以看出,局中人Ⅰ选取最优策略时应该考虑到Ⅱ也是十分理智与精明的,Ⅱ的策略是要以Ⅰ支付最少为目的,所以不能存在任何侥幸心理。局中人Ⅱ也应作同样的考虑。
对于局中人来说,应该是从最坏处着想向最好处努力。2/3/202328OperationsResearch6.4.1矩阵对策的纯策略解例解过程对局中人Ⅰ来讲,各策略的最坏结果分别为: min{-6,2,-7}=-7 min{5,3,6}=3 min{18,0,-8}=-8 min{-2,-12,7}=-12这些最坏的情况中,最好的结果是:
max{-7,3,-8,-12}=32/3/202329OperationsResearch6.4.1矩阵对策的纯策略解例解过程同样,对局中人Ⅱ而言,各策略的最坏的结果分别为:
max{-6,5,18,-2}=18 max{2,3,0,-12}=3 max{-7,6,-18,7}=7在这些最坏的情况中,最好的结果(损失最小)是
min{18,3,7}=32/3/202330OperationsResearch6.4.1矩阵对策的纯策略解例解过程β1β2β3α1-62-7-7α25363α3180-8-8α4-2-127-1218372/3/202331OperationsResearch6.4.1矩阵对策的纯策略解例解过程课堂练习:求解对策 G=﹛S1,S2,A﹜已知:2/3/202332OperationsResearch定义1对于矩阵对策G=﹛S1,S2,A﹜,如果存在纯局势6.4.2矩阵对策的纯策略解理论基础则称局势为对策G在纯策略中的解。亦称其为G的鞍点(saddlepoint):
(列中最大,行中最小)使得对任意j=1,…,n,及任意i=1,…m有:2/3/202333OperationsResearch6.4.2矩阵对策的纯策略解理论基础
分别称为局中人Ⅰ,Ⅱ的最优纯策略。称
为对策G的值(value),记为2/3/202334OperationsResearch6.4.2矩阵对策的纯策略解理论基础定理1矩阵对策G={S1,S2,A}存在最优纯策略的充分必要条件为:2/3/202335OperationsResearch6.4.2矩阵对策的纯策略解理论基础求对G的解和值。例6已知G={S1,S2,A},其中,2/3/202336OperationsResearch6.4.2矩阵对策的纯策略解理论基础β1β2β3β4α186866α2134-3-3α396766α4-31103-3961066解:根据A可得2/3/202337OperationsResearch6.4.2矩阵对策的纯策略解理论基础由于:四个局势均为G的鞍点,且故知:2/3/202338OperationsResearch6.4.3矩阵对策的纯策略解性质从上例可知,对策的解可以是不唯一的,但对策的值是唯一的。对策解不唯一时,应满足下面两条性质:1.无差别性:若与
是矩阵对策G的两个解,则即对策值相等,它们在矩阵中的元素相同。2/3/202339OperationsResearch6.4.3矩阵对策的纯策略解性质2.可交换性:若与是矩阵对策G的两个解,则与也是对策的解。2/3/202340OperationsResearch6.4.3矩阵对策的纯策略解性质是不是每一个矩阵对策都有纯策略解(鞍点)?β1β2β3α10-11-1α210-1-1α3-110-1111答案是否定的。2/3/202341OperationsResearch6.5矩阵对策的混合策略解6.5.1混合策略与混合扩充(mixedstrategicsolution)6.5.2解的基本定理2/3/202342OperationsResearch6.5.1混合策略与混合扩充β1β2α1363α2544561、问题提出2/3/202343OperationsResearch6.5.1混合策略与混合扩充该对策问题表明不存在使对立双方达到平衡的局势,因此,局中人采取任何一种纯策略,都有一定的风险。所以,在这种情况下,局中人必须隐瞒自己选取策略的意图。2/3/202344OperationsResearch6.5.1混合策略与混合扩充2、问题处理方案设计这时我们可以设想局中人随机地选取纯策略来进行对策。即在一局对策中,局中人Ⅰ以概率
来选取纯策略,其中的满足
于是得到一个m维的概率向量2/3/202345OperationsResearch6.5.1混合策略与混合扩充同样对于局中人Ⅱ,有相应的一个n维的概率向量满足yj表示局中人Ⅱ选取纯策略βj的概率。2/3/202346OperationsResearch6.5.1混合策略与混合扩充3、混合策略概念引入定义:若给定一个矩阵对策G={S1,S2,A},其中则我们把纯策略集对应的概率向量:与分别称作局中人Ⅰ、Ⅱ的混合策略,(X,Y)称为一个混合局势。2/3/202347OperationsResearch6.5.1混合策略与混合扩充如果局中人Ⅰ选取的策略为
局中人Ⅱ选取
由于两局中人分别选取策略
的事件可以看成使相互独立4、混合策略的局中人支付
如果局中人Ⅰ选取的策略为2/3/202348OperationsResearch6.5.1混合策略与混合扩充就是局中人Ⅰ的支付值。所以局势(αi,βj)出现的概率是xiyj。从而知局中人Ⅰ支付αij的概率是xiyj。于是,数学期望值:2/3/202349OperationsResearch6.5.1混合策略与混合扩充令:则称为G的混合扩充。5、混合扩充2/3/202350OperationsResearch6.5.1混合策略与混合扩充定义2
如果存在,满足:对任意及均有:则称为G(在混合策略下的)解.
分别称为局中人Ⅰ、Ⅱ的最优(混合)策略.称为对策G(在混合意义下的)值,记为2/3/202351OperationsResearch6.5.1混合策略与混合扩充例7
设
,其中求它的解及值。解:显然该问题无鞍点解。设局中人Ⅰ、Ⅱ的混合策略分别为:
X=(x1,x2),Y=(y1,y2).则2/3/202352OperationsResearch6.5.1混合策略与混合扩充则局中人Ⅰ支付的数学期望为:2/3/202353OperationsResearch6.5.1混合策略与混合扩充可见:当2/3/202354OperationsResearch6.5.1混合策略与混合扩充显然2/3/202355OperationsResearch6.5.1混合策略与混合扩充由定义1知:分别是局中人Ⅰ、Ⅱ的的最优策略,且2/3/202356OperationsResearch6.5.2
解的基本定理定理2(基本定理)
任意一个矩阵对策其中一定有解(在混合策略意义下),且如果G的值是V,则以下两组不等式的解是局中人Ⅰ,Ⅱ的最优策略:2/3/202357OperationsResearch6.5.2
解的基本定理(11-1)(11-2)2/3/202358OperationsResearch6.5.2
解的基本定理(1)若则(G的值)(2)若则(4)若,则(3)若,则可用例7验证定理3
若
是对策G(同前)的最优混合局势,则对某一个i或j来说:2/3/202359OperationsResearch6.5.2
解的基本定理y1y2…ynβ1β2…βnx1α1a11a12…a1nV1’x2α2a21a22…a2nV2’…………………xmαmam1am2…amnVm
’V1V2…Vn≤V≥V2/3/202360OperationsResearch6.6
矩阵对策的解法6.6.1图解法6.6.2优势法6.6.3
简化计算法6.6.4
线性规划解法2/3/202361OperationsResearch6.6.1图解法例8
已知:其中求矩阵对策的解和值。2/3/202362OperationsResearch解:设局中人Ⅰ的混合策略为(x,1-x)T,x∈[0,1]。对局中人Ⅰ而言,他的最少可能收入为局中人Ⅱ选取β1,β2所确定的两条直线(定理3知):6.6.1图解法V1=5x+20(1-x)=20-15xV2=35x+10(1-x)=25x+10因为x1和x2一定大于0在x处的纵坐标中的最小者.局中人Ⅰ用“最大最小”原则选取自己的策略,即:2/3/202363OperationsResearchD点为极值点,D点坐标为:
即Ⅰ的最优混合策略为:
ED(1/4,16¼)VV1=5x+20(1-x)=20-15xV2=35x+10(1-x)=25x+10
xF从上图可以看出:就是折线EDF.2/3/202364OperationsResearch6.6.1
图解法同理,对局中人Ⅱ而言有V=5y+35(1-y)=35-30yV=20y+10(1-y)=10+10y最小最大点为:即Ⅱ的最优解为:对策值为:2/3/202365OperationsResearch6.6.1
图解法FG(5/8,16¼)HYV=5y+35(1-y)=35-30yV=20y+10(1-y)=10+10y2/3/202366OperationsResearch6.6.1
图解法课堂练习p145-10.4-3:求解下列矩阵对策,已知赢得矩阵为:2/3/202367OperationsResearch6.6.1
图解法例9
已知:其中求对策的解和值。解:显然无鞍点,作混合扩充:2/3/202368OperationsResearch6.6.1
图解法对局中人Ⅰ而言,若Ⅱ选取时,Ⅰ的最小可能收入为以下四条直线在x处纵坐标中的最小者v=2x+4(1-x)=4-2x (1)v=3x+(1-x)=2x+1 (2)v=x+6(1-x)=-5x+6 (3)v=5x (4)2/3/202369OperationsResearch6.6.1
图解法从图上可以看出B点坐标即为所求的极值点.AB(2)(3)(1)(4)B点坐标为:即Ⅰ的最优解为2/3/202370OperationsResearch6.6.1
图解法同理可得:
v=2y1+3y2+y3+5y4 (5) v=4y1+y2+6y3 (6) 由上节的定理3求出Ⅱ的最优解将分别代入方程(1)~(4)得:2/3/202371OperationsResearch6.6.1
图解法定理3的(4)定理3的(2)定理3的(2)定理3的(4)2/3/202372OperationsResearch6.6.1
图解法代入(5)、(6)得:解之得:故Ⅱ的最优策略为2/3/202373OperationsResearch6.6.2
优势法对于一般的矩阵对策其中定义3
若对固定的i、k有若对固定的j和l,有则称优超,记为则称优超,记为2/3/202374OperationsResearch6.6.2
优势法(1)定理4
设G中的某个被其余的之一优超,由G可得,其中于是有
(2)中局中人Ⅱ的最优策略就是G中Ⅱ的最优策略;2/3/202375OperationsResearch6.6.2
优势法若是Ⅰ在中的最优解,则为Ⅰ在G中的最优解.(3)2/3/202376OperationsResearch6.6.2
优势法例10已知某矩阵对策G的支付矩阵为:求解这个矩阵对策。2/3/202377OperationsResearch6.6.2
优势法解:显然无鞍点,由于A的阶数为图解法失效。由定义可知由定理1可将该问题简化为:2/3/202378OperationsResearch6.6.2
优势法可用图解法求得最优解和值分别为:由又可看出:从又可看出:,因此得:2/3/202379OperationsResearch6.6.2
优势法即可得到对策G的解为:值为V=5。2/3/202380OperationsResearch6.6.3简化计算法定理5若矩阵对策其中d为常数,则G1与G2有相同的解,且对策的值相差一个常数d,即:2/3/202381OperationsResearch6.6.3简化计算法推论1若矩阵对策其中k>0为常数,则G1与G2有相同的解,且2/3/202382OperationsResearch6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中物理公式解析+常规知识点+隐含知识点
- 《餐饮服务与管理》高教版(第二版)2.3摆台单元练习卷(解析版)
- 中介公司团队年终总结
- 冠脉搭桥手术病例分析
- 光伏行业报告:国内外光伏需求两旺
- 2024至2030年中国高压尿素用不锈钢角式截止阀数据监测研究报告
- 2024至2030年中国铁艺公园椅数据监测研究报告
- 2024至2030年中国轿车接油盘数据监测研究报告
- 2024年自动温度检定系统项目成效分析报告
- 2024至2030年中国石榴浓缩汁行业投资前景及策略咨询研究报告
- Q∕GDW 12176-2021 反窃电监测终端技术规范
- 系统解剖学——动脉
- 8 煤矿安全监测监控系统PPT课件
- 压力容器壁厚计算
- 新产品试制流程管理办法
- 通用横版企业报价单模板
- Excel 会计记账模板-录入凭证自动生成财务报表(超实用)
- 从高考“函数与导数”压轴题看数学学科核心素养
- 装修公司员工劳动合同
- 数控技术毕业论文幻灯片 数控立式铣床工作PPT学习教案
- 机械专业个人职业生涯规划书范文3篇
评论
0/150
提交评论