


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
文末送书如何使用深度强化学习算法解决实际问题在使用深度强化学习(DeepReinforcementLearning,DRL)算法解决实际问题的过程中,明确任务需求并初步完成问题定义后,就可以为相关任务选择合适的DRL算法了。以DeepMind的里程碑工作AlphaGo为起点,每年各大顶级会议DRL方向的论文层出不穷,新的DRL算法如雨后春笋般不断涌现,大有“乱花渐欲迷人眼”之势。然而,落地工作中的算法选择并不等同于在这个急剧膨胀的“工具箱”中做大海捞针式的一对一匹配,而是需要根据任务自身的特点从DRL算法本源出发进行由浅入深、粗中有细的筛选和迭代。在介绍具体方法之前,笔者先尝试按照自己的理解梳理近年来DRL领域的发展脉络。1DRL算法的发展脉络尽管DRL算法已经取得了长足进步,但笔者认为其尚未在理论层面取得质的突破,而只是在传统强化学习理论基础上引入深度神经网络,并做了一系列适配和增量式改进工作。总体上,DRL沿着Model-Based和Model-Free两大分支发展。前者利用已知环境模型或者对未知环境模型进行显式建模,并与前向搜索(LookAheadSearch)和轨迹优化(TrajectoryOptimization)等规划算法结合达到提升数据效率的目的。作为当前学术界的研究热点,Model-BasedDRL尚未在实践中得到广泛应用,这是由于现实任务的环境模型通常十分复杂,导致模型学习的难度很高,并且建模误差也会对策略造成负面影响。在笔者看来,任何Model-FreeDRL算法都可以解构为“基本原理—探索方式—样本管理—梯度计算”的四元核心组件。其中按照基本原理,Model-Free
DRL又存在两种不同的划分体系,即Value-Based和Policy-Based,以及Off-Policy和On-Policy。如图1所示,DQN、DDPG和A3C作为这两种彼此交织的划分体系下的经典算法框架,构成了DRL研究中的重要节点,后续提出的大部分新算法基本都是立足于这三种框架,针对其核心组件所进行的迭代优化或者拆分重组。图1
Model-FreeDRL的发展脉络和四元核心组件解构方法图1中几个关键术语的解释是:Off-Policy指算法中采样策略与待优化策略不同;On-Policy指采样策略与待优化策略相同或差异很小;Value-Based指算法直接学习状态-动作组合的值估计,没有独立策略;Policy-Based指算法具有独立策略,同时具备独立策略和值估计函数的算法又被称为Actor-Critic算法。关于上述Model-Free
DRL算法的四元核心组件,其中:基本原理层面依然进展缓慢,但却是DRL算法将来大规模推广的关键所在;探索方式的改进使DRL算法更充分地探索环境,以及更好地平衡探索和利用,从而有机会学到更好的策略;样本管理的改进有助于提升DRL算法的样本效率,从而加快收敛速度,提高算法实用性;梯度计算的改进致力于使每一次梯度更新都更稳定、无偏和高效。总体而言,DRL算法正朝着通用化和高效化的方向发展,期待未来会出现某种“超级算法”,能够广泛适用于各种类型的任务,并在绝大多数任务中具有压倒式的性能优势
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大母鸡美术课件
- 二手车买卖合同样本格式
- 个人车位购买合同样本
- 养猪场水电合同标准文本
- 公司广告运营合同标准文本
- 关于出租车运营合同标准文本
- 保洁保养合同标准文本
- 产品长期代理销售合同标准文本
- 与邮局合作合同标准文本
- 个人存款转让合同样本
- 小型提灌站管护合同范本
- 人机联合操作分析
- 义务教育数学课程标准(2022年版)知识竞赛题库及答案
- 《传统康复方法学》期末复习考试题库及答案
- 臭氧参考光度计nist srpqaqc手册
- 厨房烹饪操作流程图
- 比色皿的配套性检验方法
- 盘点数据统计表
- 铁路站段年度消防知识试卷及(答案)
- 银行保险客户KYC基础信息表
- CRPS电源设计向导 CRPS Design Guide r-2017
评论
0/150
提交评论