下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
收敛性定理引理1:迭代(*)Q⑴=(1-^(x))Q(x)+^(x)[PQ](x)。假设t+1 t t t ttTOC\o"1-5"\h\zQ(x)=(1-a(x))Q(x)+a(x)[PQ*](x)产生的{Q(x)}序列以概率1收敛到Q*。其t+1 t t t t t中P为映射P:Q—Q。如果下面的条件满足:0<Y<1和序列{人tI七>0}以概率1收敛到0。若PPQ一PQ*P<YPQ一Q*P+人对VQeQ成立,且a(x)满足0<a(x)<1,tt t t t切a(x)=8,£a2(x)V8,则迭代(*)产生的序列{Q(x)}当ts时,以概率1收敛t t ti=0 i=0到Q*(x)。定理1:贝尔曼方程虽然直接,但状态的数量通常会很巨大(随问题维度指数增加),所以迭代全空间来精确求解Bellman方程是不可行的。所以一般会采用近似的方法,采用Q-Learning算法去求解。经典的Q-Learning方程:Q(s,a)=(1-a)Q(s,a)+a[r(s,a)+ymaxQ(s',a)]'+ ' a产生的序列{Q(s,a)}收敛到Q*(s,a)对VseS,VaeA成立。其中tQ*(s,a)=r(s,a)+y£p(s'Is,a)V(s')s证明:定义PQt(s,a)=r(s,a)+ymaxQt(s',a)]。有aPPQ一PQ*P<max|PQt(s,a)一PQ*(s,a)。其中P是空间Q到Q的映射。seS同理有PQ*(s,a)=r(s,a)+ymaxQ*(s',a)。a|PQt(s,a)一PQ*(s,a)=ymaxQt(s',a)—maxQ*(s',a)a a<y\Qt(s,a)-Q*(s,a)|已经有Q*(s,a)=r(s,a)+y£p(s'Is,a)V(s')=r(s,a)+yE(V(s'))s'E[PQ*](s,a)=E(r(s,a)+ymaxQ*(s',a))=r(s,a)+yE(maxQ*(s',a))a a因为有V(s')=maxQ*(s',a)a故Q*=E[PQ*]。引理1的两个条件都满足,所以说序列{Q,(s,a)}收敛到Q*(s,a)对VseS,VaeA成立。
定理2:很显然,以上的QLearning方程并不适用于本文的零和马尔可夫博弈模型,因此匕,结合minmax算法,将Qlearning算法改进为minmax Q算法,并将单方学习扩展至双方学习,以如下的公式来更新Q值:t)Qt(s,a,o) [r(s,a,o)Qt1展至双方学习,以如下的公式来更新Q值:t)Qt(s,a,o) [r(s,a,o)Qt1(s,a,o)(1maxminQ(s,a,o)]PD(A)aAt产生的序列s,a,o收敛到Q*s,a,otS,a入成立。其中Q*Q*(s,a)r(s,a)p(s'|s,a)V(s')。s证明:定义PQt(s,a,o)r(s,a,o)映射。有PQ*(s,a,o)r(s,a,o)maxPD(A)maxminQt(s,a,o)PD(A)aAminQ*(s,a,o)。aA其中s证明:定义PQt(s,a,o)r(s,a,o)映射。有PQ*(s,a,o)r(s,a,o)maxPD(A)maxminQt(s,a,o)PD(A)aAminQ*(s,a,o)。aA其中「是空间Qt到七的|PQt(s,a,o)PQ*(s,a,o)| |maxminQt(s,a,o)Amaxmin|Qt(s,a,o)PD(A)aAPD(A)aQ*(s,a,o)maxminQ*(s,a,o)|PD(A)aA因为Qt(s,a,o)|Qt(s,a,o)Qt(s,a,o)|(Qt(s,a,o)Q*(s,a,o)Q*(s,a,o)Q*(s,a,o)Q*(s,a,o)Q*(s,a,o)Q*(s,a,o))Q*(s,a,o)Q*(s,a,o)(Q*(s,a,o)Q*(s,a,o))于是|PQt(s,a,o)maxminPD(A)aA|Q|PQt(s,a,o)maxminPD(A)aA|Qt(s,a,o)PQ*(s,a,o)|in(Qt(s,a,o)Q*(s,a,o))Q*(s'a,o)|maxminPD(A)aA(Q*(s,a,o)Q*(s,a,o))很明显0(maxmin|q0(maxmin|q*(s,a,o)I)PD(A)aAQ*E[PQ*]同定理1可以证明sS,aA,Qt(s,a)于是收敛的两个条件满足。所以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园园长个人工作计划
- 中学生自我评价15篇
- 爱岗敬业演讲稿范文集锦6篇
- 大一新生自我鉴定15篇
- 学期班务工作计划
- 初中生新学期开学典礼演讲稿合集6篇
- 大学课前三分钟演讲稿(合集15篇)
- 《广告经典案例》课件
- 幼儿园大班老师的综合教育笔记合集6篇
- 金钱的诗句李白
- GB/T 9452-2023热处理炉有效加热区测定方法
- 肺炎支原体肺炎诊治专家共识
- 药物化学(第七版)(全套课件1364P)
- 中国近现代史人物陈独秀
- 酒店业轻资产运营模式案例研究
- 建筑师《建筑工程经济》习题(E)
- 《卓有成效的管理者》读书分享
- 优秀管理者评选方案
- 广州中医药大学2021学年第一学期19级护理学专业《灾难护理学》期末考试试题
- 全过程工程造价跟踪审计服务方案
- YS/T 937-2013镍铂靶材
评论
0/150
提交评论