下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于TDLearning算法的分析导读:人工智能之机器学习主要有三大类:1)分类;2)回归;3)聚类。今天我们重点探讨一下TDLearning算法。TDLearning时序差分学习结合了动态规划DP和蒙特卡洛MC方法,且兼具两种算法的优点,是强化学习的核心思想。虽然蒙特卡罗MC方法仅在最终结果已知时才调整其估计值,但TDLearning时序差分学习调整预测以匹配后,更准确地预测最终结果之前的未来预测。TDLearning算法概念:TDLearning(Temporal-DifferenceLearning)时序差分学习指的是一类无模型的强化学习方法,它是从当前价值函数估计的自举过程中学习的。这些方法从环境中取样,如蒙特卡洛方法,并基于当前估计执行更新,如动态规划方法。TDLearning算法本质:TDLearning(Temporal-DifferenceLearning)时序差分学习结合了动态规划和蒙特卡洛方法,是强化学习的核心思想。时序差分不好理解。改为当时差分学习比较形象一些,表示通过当前的差分数据来学习。蒙特卡洛MC方法是模拟(或者经历)一段序列或情节,在序列或情节结束后,根据序列或情节上各个状态的价值,来估计状态价值。TDLearning时序差分学习是模拟(或者经历)一段序列或情节,每行动一步(或者几步),根据新状态的价值,然后估计执行前的状态价值。可以认为蒙特卡洛MC方法是最大步数的TDLearning时序差分学习。TDLearning算法描述:如果可以计算出策略价值(状态价值v(s),或者行动价值q(s,a)),就可以优化策略。在蒙特卡洛方法中,计算策略的价值,需要完成一个情节,通过情节的目标价值Gt来计算状态的价值。其公式:MC公式:V(St)V(St)+tt=[Gt?V(St)]这里:tMC误差MC学习步长TDLearning公式:V(St)V(St)+tt=[Rt+1+V(St+1)?V(St)]这里:tTDLearning误差TDLearning步长TDLearning报酬贴现率TDLearning时间差分方法的目标为Rt+1+V(St+1),若V(St+1)采用真实值,则TDLearning时间差分方法估计也是无偏估计,然而在试验中V(St+1)用的也是估计值,因此TDLearning时间差分方法属于有偏估计。然而,跟蒙特卡罗MC方法相比,TDLearning时间差分方法只用到了一步随机状态和动作,因此TDLearning时间差分方法目标的随机性比蒙特卡罗MC方法中的Gt要小,因此其方差也比蒙特卡罗MC方法的方差小。TDLearning分类:1)策略状态价值v的时序差分学习方法(单步多步)2)策略行动价值q的on-policy时序差分学习方法:Sarsa(单步多步)3)策略行动价值q的off-policy时序差分学习方法:Q-learning(单步),DoubleQ-learning(单步)4)策略行动价值q的off-policy时序差分学习方法(带importancesampling):Sarsa(多步)5)策略行动价值q的off-policy时序差分学习方法(不带importancesampling):TreeBackupAlgorithm(多步)6)策略行动价值q的off-policy时序差分学习方法:Q()(多步)TDLearning算法流程:1)单步TDLearning时序差分学习方法:IniTIalizeV(s)arbitrarily?sS+Repeat(foreachepisode):?IniTIalizeS?Repeat(foreachstepofepisode):??AacTIongivenbyforS??TakeacTIonA,observeR,S??V(S)V(S)+[R+V(S)?V(S)]??SS?UntilSisterminal2)多步TDLearning时序差分学习方法:Input:thepolicytobeevaluatedInitializeV(s)arbitrarily?sSParameters:stepsize(0,1],apositiveintegernAllstoreandaccessoperations(forStandRt)cantaketheirindexmodnRepeat(foreachepisode):?InitializeandstoreS0terminal?T?Fort=0,1,2,?:??Ift<Tt<T,then:???Takeanactionaccordingto(˙|St)???ObserveandstorethenextrewardasRt+1andthenextstateasSt+1???IfSt+1isterminal,thenTt+1??t?n+1(isthetimewhosestate'sestimateisbeingupdated)??If00:???Gmin(+n,T)i=+1i??1Ri???if+nT+nTthen:GG+nV(S+n)(G(n))???V(S)V(S)+[G?V(S)]?Until=T?1注意:V(S0)是由V(S0),V(S1),,V(Sn)计算所得;V(S1)是由V(S1),V(S1),,V(Sn+1)计算所得。TDLearning理论基础TDLearning理论基础如下:1)蒙特卡罗方法2)动态规划3)信号系统TDLearning算法优点:1)不需要环境的模型;2)可以采用在线的、完全增量式的实现方式;3)不需等到最终的真实结果;4)不局限于episodetask;5)可以用于连续任务;6)可以保证收敛到v,收敛速度较快。TDLearning算法缺点:1)对初始值比较敏感;2)并非总是用函数逼近。TDLearning算法应用:从应用角度看,TDLearning应用领域与应用前景都是非常广阔的,目前主要应用于动态系统、机器人控制及其他需要进行系统控制的领域。结语:TDLearning是结合了动态规划DP和蒙特卡洛MC方法,并兼具两种算法的优点,是强化学习的中心。TDLearning不需要环境的动态模型,直接从经验经历中学习;也不需要等到最终的结果才更新模型,它可以基于其他估计值来更新估计值。输入数据可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 合伙投资竞业书合同
- 大班数学《坐船去探险》课件
- 手足口病风趣幽默讲解
- 2024房屋修缮合同
- 小学课外活动记录20篇-20211116120635
- 2024新版家政保姆合同样本
- 2024安置房买卖合同范本(标准版)
- 2024离婚合同协议书范本范文有子女
- 2024学校食堂租赁合同
- 2024新版影视剧摄制委托贷款合同
- 手术室实习出科
- 2024年2月年安徽省交通科学研究院招考聘用10人笔试参考题库附带答案详解
- 初中英语新课程标准测试题及标准答案
- DL-T 5117-2021水下不分散混凝土试验规程-PDF解密
- 2024-2029年中国硅锰合金市场深度调查研究报告
- 2023年外研版英语必修一全册课文翻译
- 土地管理法培训课件
- 国医馆活动策划方案
- 材料成型及控制工程大学生职业生涯规划
- 重庆火锅产业发展前景分析与投资风险预测报告
- 花馍行业分析
评论
0/150
提交评论