重复外汇交易中的博弈策略选择_第1页
重复外汇交易中的博弈策略选择_第2页
重复外汇交易中的博弈策略选择_第3页
重复外汇交易中的博弈策略选择_第4页
重复外汇交易中的博弈策略选择_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重复外汇交易中的博弈策略选择

重复游戏是指同一结构的游戏重复一定次数。每一次游戏都被称为“阶段游戏”,这是一个特例和动态游戏。根据博弈重复的次数是否有限,重复博弈可分为有限次重复博弈与无限次重复博弈。由于任一参与人在重复博弈中都能观测到其他参与人过去的行动历史,因此所有参与人每个阶段的选择策略都依赖于其他参与人过去的行为。下面我们以“囚徒困境”(Prisoner,sDilemma)为例对重复博弈进行探讨,说明在重复博弈条件下合作产生的可能性,并分析其在实践中的应用。囚徒困境最早是由美国数学家艾伯特·培克(Alberttucker)于1950年提出来的。其内容如下:两个嫌疑犯共同盗窃作案后被警察逮捕,分别被关在不同的屋子里审讯。警察告诉他们:如果两个人都坦白,那么每人判刑4年;如果两个人都抵赖,每人各判刑1年(因为证据不足);如果其中一人坦白,另一人抵赖的话,坦白的人当场释放,抵赖的人判刑6年。5警察的这种做法实际上也符合我国法律规定的“坦白从宽,抗拒从严,疑罪从无”的原则。这里每个囚徒都有两种战略:坦白或抵赖,但其中任何一人在选择策略时都不可能知道另一人的选择是什么。图表中的数字表示对应的战略组合下两个囚徒的支付。其中矩阵中第一个数字代表决策结果后囚徒甲的得益,第二个数字代表决策结果后囚徒乙的得益。下面我们分别讨论两囚徒在有限次与无限次重复博弈中如何选择?一、博弈的三种类型有限次重复博弈指阶段数是有限的,在决策行动时一般使用逆向归纳法,即从重复博弈的最后一个回合开始往前推理从而决定每一步的选择。我们假定:a.每个参与者(即“囚徒”)都知道“博弈的规则”和“博弈结果”的支付矩阵;b.每个参与者具有两种类型:理性的和非理性的(1),并且博弈双方均不知道对方是不是理性的;c.不存在干涉个人决策的任何因素,即参与者可完全按照自己意愿自由地选择策略。在此博弈中可能存在的情况有三种:双方都是非理性的;双方都是理性的;一方为非理性的,另一方为理性的。(一)合作意愿—参与双方均为非理性人根据本论文对“非理性人”的定义,非理性人非常注重“讲义气重信誉,有强烈的合作意愿,而不顾及自身的利益”,所以,当参与双方都是非理性人时,他们都会一直合作,都会选择“抵赖”。因此该博弈均衡是(抵赖,抵赖)。(二)理性的推理假定用T表示该博弈重复的阶段数,我们可根据逆向归纳法来分析。先分析t=T阶段两博弈方的选择,由于此时所有阶段博弈的结果已成为既定事实,而在此阶段之后又不再有任何的后续阶段,因此实现自身在本阶段中的最大利益是两个参与人在该阶段博弈中决策的惟一原则,所以,无论此前所有阶段博弈的结果如何,理性的双方参与人都只会选择使自己得益最大化的行动。由于隔绝监禁,信息不明,二人并不知道对方的选择。每个理性的囚徒都作这样的推理:如果对方坦白,我抵赖的结果是判刑6年,坦白的结果是判刑4年;坦白的结果比抵赖好,那么,我应当选择坦白。如果对方抵赖,我也抵赖的结果将是判刑1年,坦白的结果是当场释放,坦白的结果比抵赖好,那么,我应当选择坦白。对方或者选择“坦白”,或者选择“抵赖”,总之,我选择“坦白”是最好的策略。此推理过程是演绎推理中二难推理的简单构成式。显而易见,这个博弈的纳什均衡是(坦白,坦白),且是唯一的纳什均衡点。故第T阶段的惟一结果必定是(坦白,坦白)。我们再看t=T-1阶段,由于这两个理性参与人都非常清楚后一阶段将会出现的结果,因此他们在第T—1阶段也会作与第T阶段一样的逻辑选择,故第T—1阶段博弈的结果还是(坦白,坦白)……依次类推,直到第一阶段,双方也是都采取坦白的行动。所以,对于双方都是理性的个人来说,在有限次重复博弈中,博弈的均衡是(坦白,坦白)。69(三)“冷策”及其所代表的囚徒设想理性的囚徒可以选择任意的策略,而非理性的囚徒只有一种策略:“冷酷战略”(2)。我们假设囚徒甲为理性人、非理性人的概率分别为1-p、p;囚徒乙为理性人、非理性人的概率分别为1-q、q;用T表示重复博弈的阶段数。1.理性囚徒甲和乙的期望支付由于第二阶段是最终阶段,在此阶段之后不再有任何后续阶段,实现自身在本阶段中的最大支付是理性参与人在该阶段博弈中决策的惟一原则,所以,无论第一阶段的博弈结果如何,理性的参与人都会选择使自己支付最大化的行动,即:理性的囚徒会选择坦白。而对于非理性的囚徒来说,根据“冷酷战略”,在第一阶段他会选择抵赖,而第二阶段所采取的策略以对方第一阶段的策略为自己现阶段的策略,故理性囚徒在t=1阶段的选择将是另一非理性囚徒在t=2阶段的选择,如下表所示。我们分析理性囚徒第一阶段的选择(X或Y)如何影响非理性囚徒第二阶段的选择。该博弈中的X、Y可分别表示“坦白”或“抵赖”,因此有四种情况:(1)如果X表示“抵赖”,Y表示“抵赖”,则理性囚徒甲的期望支付:(-1)×q+q×0+(1-q)×(-1)+(1-q)×(-4)=4q-5;而理性囚徒乙的期望支付:(-1)×p+p×0+(1-p)×(-1)+(1-p)×(-4)=4p-5。(2)如果X表示“坦白”,Y表示“坦白”,则理性囚徒甲的期望支付:q×0+q×(-4)+(1-q)×(-4)+(1-q)×(-4)=4q-8;理性囚徒乙的期望支付:p×0+p×(-4)+(1-p)×(-4)+(1-p)×(-4)=4p–8。(3)如果X表示“坦白”,Y表示“抵赖”,则理性囚徒甲的期望支付:q×0+q×(-4)+(1-q)×0+(1-q)×(-4)=-4;理性囚徒乙的期望支付:[p×(-1)+p×0+(1-p)×(-6)+(1-p)×(-4)]=9p–10。(4)如果X表示“抵赖”,Y表示“坦白”,则理性囚徒甲的期望支付:q×(-1)+q×0+(1-q)×(-6)+(1-q)×(-4)=9q-10;理性囚徒乙的期望支付:p×0+p×(-4)+(1-p)×0+(1-p)×(-4)=-4。所以囚徒甲和囚徒乙对应于X,Y的选择期望支付矩阵为:由此可见,如果理性囚徒甲认为囚徒乙在第二阶段属于非理性的概率不大于1/4,他将在第一阶段选择坦白,如果不小于2/5,则选择抵赖。同样,如果理性囚徒乙认为囚徒甲在第二阶段属于非理性的概率不大于1/4,他将在第一阶段选择坦白,如果不小于2/5,则选择抵赖。但是,如果甲或乙属于非理性的概率介于1/4与2/5之间,则理性乙或甲又该如何选择?由于甲和乙都不会向对方透露自己是属于理性还是非理性,因而甲、乙都不能确定对方属于哪一类型。假设理性囚徒选择坦白的概率为a,则选择抵赖的概率为1-a,当理性囚徒一方认为对方属于非理性的概率p或q大于或等于a时,他将在第一阶段选择抵赖。若满足:所以,当理性囚徒认为对方属于非理性的概率时,他将在第一阶段选择抵赖,在第二阶段选择坦白。2.b最明显的期望支付由于第三阶段是最终阶段,在此阶段之后又不再有任何的后续阶段,无论第一、二阶段双方是合作还是不合作,理性的囚徒肯定会在第三阶段选择坦白。而非理性的囚徒仍然以对方前一阶段的策略为自己现阶段的策略。就理性的囚徒甲和乙而言,第一阶段有合作的可能(双方都选“抵赖”),也有不合作的可能(其中一方或双方选择“坦白”)。(1)当理性囚徒甲、乙在第一阶段合作,即都选择抵赖,可能会出现如下情况:A、理性囚徒甲、乙在第二阶段都选择抵赖。博弈路径如下图所示:理性囚徒甲的期望支付:(-1)×q+(-1)×q+q×0+(1-q)×(-1)+(1-q)×(-1)+(1-q)×(-4)=4q-6;理性囚徒乙的期望支付:(-1)×p+(-1)×p+p×0+(1-p)×(-1)+(1-p)×(-1)+(1-p)×(-4)=4p-6B、理性囚徒甲在第二阶段选择坦白,而理性囚徒乙在第二阶段选择抵赖。理性囚徒甲的期望支付:(-1)×q+q×0+(-4)×q+(1-q)×(-1)+(1-q)×0+(1-q)×(-4)=-5;理性囚徒乙的期望支付:(-1)×p+p×(-1)+0×p+(1-p)×(-1)+(1-p)×(-6)+(1-p)×(-4)=9p-11C、理性囚徒乙在第二阶段选择坦白,而理性囚徒甲在第二阶段选择抵赖。理性囚徒甲的期望支付:(-1)×q+q×(-1)+0×q+(1-q)×(-1)+(1-q)×(-6)+(1-q)×(-4)=9q-11;理性囚徒乙的期望支付:(-1)×p+p×0+(-4)×p+(1-p)×(-1)+(1-p)×0+(1-p)×(-4)=-5D、理性囚徒甲、乙在第二阶段都选择坦白。理性囚徒甲的期望支付:(-1)×q+0×q+q×(-4)+(1-q)×(-1)+(1-q)×(-4)+(1-q)×(-4)=4q-9;理性囚徒乙的期望支付:(-1)×p+0×p+p×(-4)+(1-p)×(-1)+(1-p)×(-4)+(1-p)×(-4)=4p-9由于0<q<1,故4q-6>4q-9,当9q-11>-5,即q>2/3时,理性囚徒甲选择(抵赖,抵赖,坦白)优于(抵赖,坦白,坦白)。同样,由于0<p<1,故4p-6>4p-9,当9p-11>-5,即p>2/3时,理性囚徒乙选择(抵赖,抵赖,坦白)优于(抵赖,坦白,坦白)。(2)如果甲乙在第一阶段就不合作,即其中一方或双方在第一阶段选择坦白,则结果如下:a.理性囚徒甲在第一阶段选择“抵赖”,理性囚徒乙在第一阶段选择“坦白”,非理性囚徒甲在后面阶段都选择“坦白”,可能有的博弈路径为:理性囚徒甲的期望支付:[q×(-1)+q×(-1)+q×0+(1-q)×(-6)+(1-q)×(-6)+(1-q)×(-4)=14q-16;理性囚徒乙的期望支付:p×0+p×(-4)+p×(-4)+(1-p)×0+(1-p)×0+(1-p)×(-4)=-4p-4b.理性囚徒甲在第一阶段选择“坦白”,理性囚徒乙也在第一阶段选择“坦白”,非理性囚徒甲、乙在后面阶段都选择“坦白”,可能有的博弈路径为:理性囚徒甲期望支付:q×0+q×(-4)+q×(-4)+(1-q)×(-4)+(1-q)×(-4)+(1-q)×(-4)=4q-12;理性囚徒乙期望支付:p×0+p×(-4)+p×(-4)+(1-p)×(-4)+(1-p)×(-4)+(1-p)×(-4)=4p-12c.理性囚徒甲在第一阶段选择“坦白”,而理性囚徒乙在第一阶段选择“抵赖”,非理性囚徒乙在后面阶段都选择“坦白”,可能有的博弈路径为:理性囚徒甲的期望支付:q×0+q×(-4)+q×(-4)+(1-q)×0+(1-q)×0+(1-q)×(-4)=-4q-4;理性囚徒乙的期望支付:p×(-1)+p×(-1)+p×0+(1-p)×(-6)+(1-p)×(-6)+(1-p)×(-4)=14p-16由于0<q<1,故-4q-4<0,我们只需比较14q-16与4q-12的大小即可。当14q-16>4q-12,即q>2/5时,理性囚徒甲选择(抵赖,抵赖,坦白)优于(坦白,坦白,坦白)。同样,由于0<p<1,故-4p-4<0,我们只需比较14p-16与4p-12的大小即可。当14p-16>4p-12,即p>2/5时,理性囚徒乙选择(抵赖,抵赖,坦白)优于(坦白,坦白,坦白)。20因此,在博弈重复三次中,当q>2/5,p>2/5时,理性囚徒甲的最佳选择是(抵赖,抵赖,坦白),理性囚徒乙的最佳选择也是(抵赖,抵赖,坦白)。3.各阶段的比较类似于前面的分析,我们同样可以得出:当p,q≥2/5时,在T=1,2,3阶段,对于理性者来说,选择抵赖获得的收益最大,但在T=4阶段,由于此阶段是最终阶段,在此阶段之后又不再有任何的后续阶段,因此理性的囚徒会选择坦白,而非理性囚徒将一直选择抵赖。70所以,当p,q≥2/5时,重复4次的博弈的均衡为:4.各阶段的最终阶段和最终阶段由前面的分析可以看出,当p,q≥2/5,T>3时,对于理性的囚徒来说,在T=1到n-1阶段选择抵赖,其期望支付值最大,而在T=n阶段时,由于此阶段是最终阶段,在此阶段之后又不再有任何的后续阶段,因此理性的囚徒会选择坦白,而非理性囚徒将自始至终选择抵赖。20由此可得,当博弈重复n(T=n)次时,只要甲或乙为非理性的概率p,q≥2/5,理性囚徒在t=1至t=T-1阶段都会一直选择抵赖,但在最后阶段选择坦白,而非理性囚徒将一直选择抵赖。二、无限次重复博弈中的参与人无限次重复博弈指同一个博弈被无限期重复多次。在无限次重复博弈中,对于任何一个参与者的欺骗和违约行为,其他参与者总会有机会给予报复。它与有限次重复博弈的区别是:有限次重复博弈中,所有参与人都能准确地知道重复的次数,能准确地预测到最后一个阶段的博弈结果:任何一个理性参与人都会选择“不合作”,并且这种选择不会导致其他参与人的报复。因此,所有参与人都会在有限次重复博弈的最后阶段中选择“不合作”。19而无限次重复博弈由于不存在最终阶段,所以不能像有限次重复博弈那样可以运用逆向归纳法求解。正是因为在无限次重复博弈中,没有哪一次博弈一定是最后的回合,总是存在报复的机会,所以参与人总是要考虑到其目前的行动对其余参与人所可能产生的影响,这种考虑使得每一个参与者都不会采取违约或欺骗的行为,无限次重复博弈中的参与人比有限重复博弈中的参与人更加合作。假定甲乙两囚徒开始都选择“抵赖”,随后一直抵赖,直到某天发现对方选择“坦白”,然后就永远选择“坦白”。我们设想甲乙从开始一直到t时刻之前都合作,即都选择“抵赖”,甲在t时该如何选择?假定贴现因子为a,如果乙坚持“抵赖”,甲选择“抵赖”,那么甲在随后每个阶段的支付都是-1,这时维持长期合作的贴现值是:V1=-1+a×(-1)+a2×(-1)+…;如果甲选择“坦白”,则甲虽然在该阶段骗乙一次,得到0,即此时背叛的诱惑=0-(-1)=1,但从下个阶段开始,由于乙发现甲骗了他,乙会选择永远不再与甲合作,即永远选择“坦白”,也就是说,甲的这次背叛会遭到囚徒乙的永远惩罚,即甲在随后每个阶段的支付都是-4,这时的贴现值是V2=0+a×(-4)+a2×(-4)+…。也就是说,如果a≥1/4,乙坚持“抵赖”的话,则甲的最佳选择是一直坚持与乙合作,即也一直选择“抵赖”;如果a<1/4,则甲有可能会不合作,即选择“坦白”。只要a≥1/4,每个阶段的甲乙双方都会采用“抵赖”进行合作。如要甲乙不合作,就要设法改变贴现因子a的值。三、重复囚犯困难游戏的运用囚徒困境在现实社会中广泛存在,下面我们着重分析李天一轮奸案和公交车博弈。(一)李嫌犯主要情况是“抵赖”,但未取得利益最2013年2月17日李天一等5人在海淀一酒吧与李姓女子喝酒,其后李天一等5人将其带至宾馆轮奸。20日警方将李天一等5人全部刑拘。在这个案例中,只有王某已年满18周岁,其余4人都未满18周岁,包括李天一。北京市海淀区法院在一审中,以强奸罪判处被告王某(成年人)有期徒刑12年,剥夺政治权利2年;李天一有期徒刑十年;魏某(兄)有期徒刑4年;张某有期徒刑3年,缓刑5年;魏某(弟)有期徒刑3年,缓刑3年。北京市第一中级人民法院二审裁定驳回上诉人上诉,维持原判。李天一与魏某(兄)、张某、魏某(弟)都是未成年人,为何李某被判了10年,而其他三位只有3-4年?北京警方采取类似前面“囚徒困境”中警察的做法,对李天一等五名嫌犯进行分别关押,单独审讯。根据前面的分析,李天一等5人的最佳应对策略,就是保持一致立场,即“抵赖”。如果警方找不到足够证据,根据“疑罪从无”的法律规定,5人有可能无罪释放。但该博弈是有限次博弈,博弈主体很难达成攻守同盟。尽管李天一一直采取“非理性人”的策略,即一直选择“抵赖”,坚持自己无罪。如一审时,李称自己在酒店房间玩手机睡着了,二审时又改口解释案发时出去接母亲梦鸽电话,没有参与强奸。甚至在3名同案犯已认罪并指证李天一打人的不利情况下,李天一仍坚持既没打过受害人,也没与受害人发生性关系。而其他犯罪嫌疑人则采取“理性人”的策略,不仅承认有罪,还主动向受害人赔礼道歉,支付赔偿金。因此,尽管李天一与魏某(兄)、张某某、魏某(弟)都是未成年人,由于魏某(兄)、张某、魏某(弟)采用“坦白”的策略,获得的利益最大,结果只判3-4年;而李天一一直采取“抵赖”的策略,特别是梦鸽护犊心切,非要洗脱李天一的轮奸罪名,又无法搞定其他四名同案犯,不仅得不到法官的同情,也引起了广大公众和媒体的关注和反感,所以最终结果是李天一的判决结果最重。(二)双方都不挤时的博弈我们都有过这样的经历,在等公交车时,为了能坐上座位,很多人采取抢先上车,因此常常出现一拥而上的局面。出现这种混乱局面的主要原因是人们都认为:我不挤,而别人挤的话,我就有可能没有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论