博弈论完整课件浙江大学GAMEChapter3

上传人：a*** IP属地：湖北上传时间：2024-01-24 格式：PPT 页数：45 大小：125.50KB 积分：18 举报 版权申诉

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Chapter3RepeatedGamesInthischapterweanalyzewhetherthreatsandpromisesaboutfuturebehaviorcaninfluencecurrentbehaviorinrepeatedrelationships.Muchoftheintuitionisgiveninthetwo-periodcase;afewideasrequireaninfinitehorizon.区分：repeatedgamesandsequentialgames张维迎P207—209Sequentialgame的特征：参与人在前一阶段的行动选择决定随后的子博弈的结构，因此，从后一个决策结开始的子博弈不同于从前一个决策结开始的子博弈，或者说，同样结构的子博弈只出现一次。Repeatedgame，顾名思义，就是同样结构的博弈重复屡次，其中每一次博弈称为阶段博弈Stagegame〔也称为原博弈〕。RepeatedGame的根本特征有3项：沸掉狐抱盘柱凭腑扁钻囚携殉朗差坛杭和琶换梅铱禽性邮尘袭奔它报曝板博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter31、阶段博弈之间没有“物质上〞的联系〔noPhysicallinks〕，也就是说，前一阶段博弈不改变后一阶段博弈的结构〔比照之下，序惯博弈涉及到物质上的联系〕；２、所有参与人都观测到博弈过去的历史；３、参与人的总支付是所有阶段支付的贴现值之和或加权平均值。１：阶段博弈本身可能是一个静态博弈，也可能是一个动态博弈。因此重复博弈可能是不完美信息博弈，也可能是完美信息博弈，尽管博弈论专家谈到重复博弈时一般是指前一种情况。伍斯叉柔库铰拔瞥狂期团垃蝴握降挑府旗终卯哑元厢淮里算鼻琢菊蔼芝颈博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3２：分析重复博弈的意义因为其他参与人过去行动的历史是观测得到的，一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史，因此，参与人在重复博弈中的策略空间远远大于和复杂于每一个阶段博弈的策略空间〔试想囚徒困境博弈重复５次，每个囚徒的纯策略数量会有多少？策略组合的数量会更多〕。这意味着，重复博弈可能带来一些“额外的〞均衡结果，这些结果在一次性博弈中是不会出现的。３影响重复博弈均衡结果的主要因素是重复博弈的次数和信息的完备性〔completeness〕.痔刁蚤诡救侠陆贾苏断蘑异洞燎婆逢辨道徘卉闰节奢缨股榔域竖壤蹄巾糊博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3重复次数的重要性来自于参与人在短期利益和长期利益之间的权衡。当博弈只进行一次，参与人只关心一次性的支付；但如果博弈重复多次，参与认可能会为了长远利益而牺牲眼前利益从而选择不同的均衡策略。这是重复博弈分析给出的一个强有力的结果，它为现实中观测到的许多合作行为和社会标准提供了解释。信息不完备的影响将在下一章讨论，这里只讨论重复次数对均衡结果的影响，并假定信息是完备的。哈绘俘焙阂虞朔费悸番珠硬脖统素浑锹拒警痈慨的注好冻魁莎疤椽省猴轻博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3一、有限次重复博弈〔以two-stagerepeatedgames为例〕考虑曾经给出的囚徒困境的标准式〔回忆并画出支付矩阵〕。假设两个参与者要把这样一个同时行动博弈重复两次，并且在第二次博弈开始之前可观测第一次的结果。再假设整个过程博弈的收益等于两阶段各自收益的简单相加〔即不考虑贴现因素〕，我们称这一重复进行的博弈为两阶段囚徒困境。〔一〕阶段博弈只有唯一NE趴恢去溢蝶雌渗补妇唇开社搭佬剃墓鞍唆挣找述用骇峰满撑暗鲜擞岭嚷甭博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3回忆第二章第四节的“有同时选择的两阶段动态博弈〞。两阶段囚徒困境其实属于这种类型博弈。无非这里的参与人3、4与参与人1、2是相同的，行动空间A3、A4也与A1、A2相同，并且总收益μi(a1,a2,a3,a4)等于第一阶段结果(a1,a2〕的收益与第二阶段结果(a3,a4)的收益简单相加。在“有同时选择的两阶段动态博弈〞中第二阶段参与人3和4的稳定行动依赖于第一阶段的可行结果(a1,a2)，表示为(a3*(a1,a2),a4*(a1,a2))，而不是简单的(a3*,a4*)(关税博弈中第二阶段企业的均衡产量依赖于政府第一阶段所选择的关税〕.买课拱浇局晌构氓赦辫爽红靖放炉约右云蒜媒入吧凭甘财恩己柿茸待柱训博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3而在两阶段囚徒困境中,第二阶段的NE可以完全不依赖于第一阶段的结果。分析时要注意3点：1逆推归纳法backwards-induction2参与人在第二阶段行动只须考虑该阶段的利益最大化，因为无须“瞻前顾后〞。3分析第一阶段时，可把第二阶段的均衡结果下的支付值叠加到第一阶段的相应支付值上。事肉建均告吊错功辫渐褒字抑溪切监针未萄滁钡套甸闺溅盏入膏傀殃桓俱博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3下面给出有限次重复博弈的定义DefinitionGivenastagegameG,letG(T)(T＜∞)denotethefinitelyrepeatedgameinwhichGisplayedTtimes,withtheoutcomesofallprecedingplaysobservedbeforethenextplaybegins.ThepayoffsforG(T)aresimplythesumofthepayoffsfromtheTstagegames.该例子中阶段博弈有唯一的NE，而且是一个帕累托次优的结果〔-5，-5〕，如果〔-1，-1〕能出现，那是一个合作的结果。讨论重复博弈就是想探寻合作的结果能否内生(endogenesis).劳站保揭拭半浩茅浸我偏帛譬雁式穗尧掇绪涂倘品仙傈溺录妙毒离旺奋衣博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3有限次“囚徒困境〞博弈的NE再一次说明了为什么会爆发价格战。试想两博弈方不是囚徒而是两个大公司，比方可口可乐公司和百事可乐公司、或者是联合利华公司和宝洁公司，如果摆在这些公司面前的是两种拓展市场份额策略的选择：保持原价或降低价格，“囚徒困境〞博弈告诉我们这些公司会降低价格并不断重复下去。这个结论是令人沮丧的。但实际情况并非完全如此。那么在什么情况下，它们会合作呢？罗伯特.艾克斯劳德在著作?合作的演进?一书中描述了一个计算机的竞赛：选择14种策略在读丝嚏偿裤誓虚研治裴畔呛虑徘词寝伊等啤正耍笛驴帜己沮愚颠吻揖羔争博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3200次“囚徒困境〞的博弈中与对方争斗。计算机中的竞赛结果说明，合作是可以出现的，即使竞争双方是理性的、自私的。这个胜出的策略就是“触发策略〞〔“针锋相对〞策略〕，这一策略着眼于合作，从合作出发而不是相互背叛。几轮博弈之后，各方的策略就会明朗起来，互为对方所知晓和理解。合作的出现有赖于两点：一是采取“触发策略〞，二是博弈重复“200次〞——足够屡次以至于可视为是无限次。怠盘汕整旁把晶挟帘仇雏纬柑石盾晓吵客闲王寂沉邵监茹窑仟野估罕碗絮博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3PropositionIfthestagegameGhasauniqueNashequilibriumthen,foranyfiniteT,therepeatedgameG(T)hasauniquesubgame-perfectoutcome:theNashequilibriumofGisplayedineverystage.注实崭诡呵菏协祁井蓑辐移护茵海冯胆撇浦寞外陇宝埃巫蕾嚎柳暮贼科聘固博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3注：在阶段博弈G为完全且完美信息动态博弈时类似的结论同样成立。设G属于第三章所定义的完全且完美信息动态博弈，如果G有唯一的逆推归纳解，那么G(T)有唯一的子博弈完美NE：其中每一阶段的结果都是G的逆推归纳解。类似的，设G为第三章所定义的有同时选择的两阶段动态博弈，如果G有唯一的子博弈NE，那么G(T)也有唯一的子博弈完美NE：G的子博弈完美NE重复进行T次。当然，上述结论对于阶段博弈G有两个及两个以上NE〔或子博弈完美NE〕的G(T)就不成立了。这种G(T)有多条子博弈完美NE路径。其中可能包含第一阶段有合作结果的稳定路径。兼泼红梢滴马痉帮尺茸撵奢私哨卫刀兄位屡桔昼符骡脏艺货赊窒戴塌叮戊博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3〔二〕阶段博弈存在两个以上NE市场开发博弈。P111借此了解重复博弈均衡路径、及其效率比较。*该G重复两次构成一个两阶段的重复博弈，那么可形成多少条路径？如果不考虑混合策略，16条。其中子博弈完美NE路径有哪些？从前述的例子中，阶段博弈的NE在每个阶段的重复或交替构成子博弈完美NE。那么不考虑混合策略NE情况下，有4条。径办面句烬砷冗二奎统倍钳雀对棠瞒酌雀双番纷妻安邮外票恢维绅贩祁胞博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3这4条均衡路径及其支付是：行动组合支付向量Stage1Stage2总支付平均支付〔A，B〕〔B，A〕〔A，B〕〔B，A〕〔A，B〕〔B，A〕〔2，8〕〔1，4〕〔5，5〕〔2.5，2.5〕〔5，5〕〔2.5，2.5〕〔8，2〕〔4，1〕你隙谗蓟馅疤束瞪垮小谢汕任蕊怔泼瀑稻枯款炕苦平落嚏茵啊斗材戎继撅博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3路径的支付采用平均支付与采用总支付相比的优点：平均支付可以与阶段博弈的支付相比较。0甲的平均支付乙的平均支付．．．．1231234〔1，1〕〔4，1〕〔1，4〕〔3，3〕·〔2.5,2.5〕·(2.67,2.67)曹缨享卞近扔欲揖濒当炽菊留耿鳖镊哉洒滥怎汰磨口精募派讲吐焕肾脾搜博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3*该博弈如果重复三次构成一个三阶段的重复博弈，由每阶段都重复或交替阶段博弈的纯策略NE，那么子博弈完美NE路径有几条？8条。它们的效率如何？同两阶段重复博弈。除此之外已找不到另外的效率更高的均衡路径。但可找到另外一条效率更高均衡路径。考虑如下面的策略组合：骡壤进暂侄满方额怒苗花擎泄扫微解窿轻阿呜旷芦屉洱鹅旧镍古大农伙欲博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3甲：第一阶段开发A市场；第二阶段视第一阶段的结果而定—如果结果是〔A，A〕，那么选A，如果是〔A，B〕，那么选B；第三阶段无条件选B。乙：第一阶段开发A；第二阶段开发B；第三阶段根据第一阶段的结果而定—如果第一阶段结果是〔A，A〕，那么选A，否那么选B。1、策略中都包含有条件的选择。2、策略是一个完整的行动方案。问题：该策略组合对应的路径是什么？娱拇臀岩决九韧阿崔扎甚堆尾片绵荚跋跟机亨诛糙岂屋已踪赠件渠猎糟扁博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3对应的路径：(A,A)(A,B)(B,A)该路径的平均支付向量：〔2.67,2.67〕这条路径比其它8条的效率都更高。是否均衡？这条路径的第三阶段行动组合〔B，A〕和第二阶段行动组合〔A，B〕，本身都是阶段博弈的NE，双方都不会偏离。因此只要看第一阶段的行动组合〔A，A〕是否有会偏离。验证：(3+4+1)/3=2.67(4+1+1)/3=2不偏离的平均支付=偏离的平均支付=-3#软楷骇童蓝阻颜睁厉蝴诉骚返炯你喂下扮螺侩项贯中钉庇叠哩谤肪眨躺殊博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3这就证明了该策略组合是子博弈完美的。从这条均衡路径中看到：将来利益对当前的选择有约束。这种策略有2个特点：1、第一阶段选A，试探合作。时机主义2、后续阶段中包含着奖励和惩罚机制：选A可以奖励对方，选B可以惩罚对方。因为〔A，B〕和〔B，A〕都是阶段博弈的NE，所以奖励和惩罚都是可信的。落拔拼灵耐厄六脆簿蝴崎袖晶漂堂猜兑阜眠蔑疵曼原酶腹制丰点越低苫帛博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3一方的时机主义行为将触发其他参与人策略中的惩罚机制发生。触发策略(Triggerstrategies):我们把这种包含着奖励和惩罚机制的策略称为触发策略。正是由于害怕“触发〞其他参与人的惩罚机制，所以不敢利用时机使自己在该阶段利益最大化，从而使该阶段的“合作〞出现。从这个意义上看，触发策略是“温柔的〞。该阶段博弈如果只有两个阶段，那么无法构造触发策略(不存在触发策略)。快琐腆菲亚掖伙械蔷帐类废姥讲拧奉季仟磷目舱崎绪捆闽岳桔五纱拇拧绎博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3考虑如下抽象博弈：参与人2LMRPQLMRPQ参与人11,15,00,00,00,00,54,40,00,00,00,00,03,30,00,00,00,00,04,1/20,00,00,00,00,01/2,4上面的例子因为阶段博弈的NE很丰富，且存在可供奖励和惩罚的NE，所以双方不仅可构造触发策略，而且触发策略是子博弈完美的〔或者说触发策略所包含的奖励和惩罚是可信的〕。双方的策略均为：第一阶段选择M；如果第一阶段的行动组合是〔M，X〕〔或〔X，M〕，X为除M之外的其它可选行动〕，那么第二阶段选P(Q)，如果是除此之外的其它任何组合，那么选R。第一阶段的行动组合是(M,M),那么第二阶段的行动组合将是(R,R);第一阶段的行动组合是(M,X)或(X，M)，那么第二阶段的行动组合将是(P,P)或(Q,Q);第一阶段的行动组合为其它，那么第二阶段还是(R,R)。弗札衡晓羡攫雌饰春僳打冕岂路簿惜隋崎叭响钓陪滚榷牛澈挤吐频燎冈酝博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3参与人2LMRPQ参与人1L4,45.5,43,33,33,3

M4,5.57,74,0.54,0.54,0.5

R3,30.5,46,63,33,3P3,30.5,43,37,3.53,3Q3,30.5,43,33,33.5,7槛阜酉印舀渺汤掏渡按纲酮性昆溢镇啼搭茧蛹影撮克却蚌鹿讼意番亮仇冬博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3除了〔M，X〕和〔X，M〕〔X=L、R、P、Q〕的第二阶段是〔P，P〕或〔Q，Q〕，其余的第二阶段都是〔R，R〕。由分析可知，其中〔M，M〕是NE，它表示路径〔M，M〕〔R，R〕，平均支付是〔3.5,3.5〕.这条路径的第一阶段是合作的。阶段博弈存在多个NE情况下，有限次重复博弈存在多条均衡路径，其中触发策略均衡〔如果均衡的话〕的路径效率更高。帝除阁赌陪渐命堂沾冰会返讶沙驹袱剥砷拒撰唯厅额傅捆荔械阉馏奠果剥博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3案例：美国Staten岛上的报纸发行市场上有两个主要的竞争对手：?纽约邮报?和?每日新闻?。1994年，?纽约邮报?所属公司RubertMurdoch将邮报的价格从40美分提高到50美分，这时?每日新闻?没有跟着提价。在将?纽约邮报?的价格降回到40美分之后，对方还是没有作出反响，于是RubertMurdoch公司宣布有意向将价格再降到25美分，但对方仍然没有做出响应。接着RubertMurdoch公司果然将邮报在这个岛屿上的发行价格降到25美分。此时，〈每日新闻〉终于明白了〈纽约邮报〉的意图，微涟死均脸尼尤抛二攀午例降固拐兑潜擒翻坠绝桥前混相扮姑怠仁烟初唆博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3将价格提高到50每分。不久，RubertMurdoch公司也将价格重新提高至50美分。〈纽约邮报〉的策略是友好的，因为它一开始就提高价格；同时也是挑衅的，在〈每日新闻〉没有跟着提价时，它又将价格降低；这一策略同样具有宽恕性，当〈每日新闻〉将价格提高到50美分后，也重新将价格提高；这一策略也是明了的，〈纽约邮报〉的意图对〈每日新闻〉来说经过了两个回合就变得显而易见。由于“触发策略〞的运用，在这场“囚徒困境〞式的价格博弈中出现了合作双赢的局面。Murdoch公司的做法和“触发策略〞的益处在事后看来更加明显。Murdoch公司的成功是因为它掌握了博弈论的重要原那么：你要了解竞争对手，也让竞争对手了解你。因此，如果公司的策略为竞争对手所明白，并且应向竞争对手清楚地说明公司准备合作，但对背叛行为将采取以牙还牙的报复行动，那么公司最终将赢得竞争，而竞争对手通过合作也将大有收获。耻鞘隧疵马涸删凿躺梯紫躬踞盈鱼诌夯愚倘佣虐非异酌做磐渊米课楚扎妈博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3二、无限次重复博弈对无限次重复博弈来说，即使阶段博弈只有唯一的纯策略NE〔P121脚注〕，也存在一条效率更高的子博弈完美NE路径，路径上每一个阶段的行动组合都不是阶段博弈的NE，而是合作的行动组合。〔一〕无限次重复囚徒困境的博弈画出囚徒困境的阶段博弈；设想无限次重复时的所有路径、均衡路径。路径的支付怎么计算？眉毙靳敖各烦侄玻干辖道轨恫酵帽与插买香犹鲍属避么蝎琼躲野捕疆怯啸博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3引入贴现因子δ,假设某个参与人在某一路径的各个阶段的支付分别为：π1、π2、……，那么该参与人在该路径的“总支付〞π为无限序列π1、π2、……的现值之和，即：

π=π1+δπ2+δ2π3+……=∑δt-1πtt=1∞δ？0≤δ≤1当δ0，行动短视化，时间视野往往局限于本期、近期；当δ1，参与人有远见，他充分意识到他现期的行动决策将通过其他参与人的反响影响到他未来的收益，因而试图跨期协调其行动决策。蹦刀尾感啪孩柿窝谁誓铅嚷医兄惧倚稼艳暮萝萤厚琉缅骂绿由慢侮舅哭淀博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3无限次重复博弈及其支付的定义：DefinitionGivenastagegameG,letG(∞,δ)denotetheinfinitelyrepeatedgameinwhichGisrepeatedforeverandtheplayerssharethediscountfactorδ.Foreacht,theoutcomesofthet-1precedingplaysofthestagegameareobservedbeforethetthstagebegins.Eachplayer’spayoffintheG(∞,δ)isthepresentvalueoftheplayer’spayoffsfromtheinfinitesequenceofstagegames.妈苔墨吧刷梦祥裕楔匆磺润雕愉轧悍痔棱瞪嘎校象正俘涌山炮钮碉赞讣尼博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3现在分析无限次重复囚徒困境博弈。我们将证明尽管阶段博弈中唯一的NE是不合作的(招认，招认)，在有限次重复时，唯一的子博弈完美NE还是在每个阶段都(招认，招认)，可是在无限次重复〔在可预见的将来不会结束〕进行的情况下，只要参与人有足够的内心(即δ足够接近1)，每个阶段的行动组合为(沉默，沉默)将形成一条子博弈完美NE的路径。考虑参与人的触发策略：在第一阶段选择不坦白，且在之后的任意阶段t，如果之前的〔t-1〕阶段的结果是双方都不坦白，那么继续选择不坦白，否那么从t阶段开始永远选择坦白。胃爬敬幽溢谈涉寨述沿均肆月萍闹笛末粹买冗梁码踊榔蚤准瞒巾撇馈授一博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3注意：参与人制订了一个关于未来的无所不包的行动方案，即一次性地选择了函数形式si(·)作为应对策略，而不是一期只作出依次行动选择。哭皖碍老斥斗斜赘厂重阻亚愿筏荔柄鸯娄惦躯伯嚏纲扫铬拼弱钾锌蚤帜驳博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3序列5，1，1，……的贴现值之和：5+δ·1+δ2·1+δ3·1+……=5+δ/(1–δ)沉默的现值4/(1-δ)招认的现值5+δ/(1–δ)≥δ≥1/4这说明，当且仅当δ≥1/4，给定对方的触发策略并且对方没有首先选择招认，自己也不会首先招认。瘸陀煞穗槐定悯凛寨挎秋藏渭岛纶绊辣封鹏梧吵凹胃嫁烷惭弓剃诞侠橙洁博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3〔二〕民间定理(无名氏定理)P125“民间定理〞第一段。先明确两个关于支付的概念。平均支付averagepayoff：在无限次重复博弈中，平均支付指为了得到相等的支付现值之和而在每一阶段都应得到的等额支付值。计算：令贴现因子为δ，那么无限支付序列π1、π2、……的现值之和V为：V=∑δt-1πt∞t=1无限支付序列π、π、……的现值之和V为：V=π+πδ+πδ2+……=π/(1-δ)如果下式成立：∑δt-1πt∞t=1=π/(1-δ)即：π=(1-δ)∑δt-1πt∞t=1龚崩以栋馒皖裳甫月毕方妒锦鸥皿滓扑吊柱内倍你敛匈淤呆烯鸣再作磅素博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3那么，π就是无限支付序列π1、π2、……的平均支付，它是各阶段支付现值之和的(1-δ)倍。可行支付向量feasiblepayoffs:支付数组x=(x1，x2、…、xn)称为可行支付向量，如果它是阶段博弈G的纯策略支付的凸组合(concavecombination)(即xi是阶段博弈中参与人i的纯策略支付的加权平均值，权数非负且和为1)。可行支付向量。以“囚徒困境〞为例…一个可行支付向量对应重复博弈的一条路径。瞻撼拷雏胰聋纤隘厨爵汐瓮殖琢钟钱器瞎哲纲漠泵捎短穷萤齐许筷共兼翱博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter30囚徒1的支付值囚徒2的支付值1234512345····(1,1)(4,4)(5,0)(0,5)阴影面积中的任意一个坐标点都是一个可行支付向量。哪些对应着均衡路径？薪礼绥甘嚏寇称焉币犀尚氰贷爷郡婚点帕唇巷仁侩辣威朱惦拄司剔弯缨边博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3FolkTheorem(Friedman1971)LetGbeafinite,staticgameofcompleteinformation.Let(e1,e2,……,en)denotethepayoffsfromaNashequilibriumofG,andlet(x1，x2、…、xn)denoteanyotherfeasiblepayoffsfromG.Ifxi＞eiforeveryplayeriandifδissufficientlycloseto1,thenthereexistsasubgame-perfectNashequilibriumoftheinfinitelyrepeatedgameG(∞,δ)thatachieves(x1，x2、…、xn)astheaveragepayoff.(P127)沦哪椅兼往某措进蛤肛酉懈倍赏痞沼夸巾嗣低那雹就拂柬芒姨宵细桔翌粪博弈论完整课件[浙江大学]GAME_Chapter3博弈论完整课件[浙江大学]GAME_Chapter3例如“囚徒困境〞无限次重复博弈中…P128

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

博弈论完整课件浙江大学GAMEChapter3

文档简介

温馨提示

最新文档

评论

博弈论完整课件浙江大学GAMEChapter3

文档简介

温馨提示

最新文档

评论

相关文档