深度强化学习实践(原书第2版)_第1页
深度强化学习实践(原书第2版)_第2页
深度强化学习实践(原书第2版)_第3页
深度强化学习实践(原书第2版)_第4页
深度强化学习实践(原书第2版)_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

深度强化学习实践(原书第2版)读书笔记模板01思维导图读书笔记作者介绍内容摘要目录分析精彩摘录目录0305020406思维导图深度原书环境过程第版动作通用观察第章方法总结模型训练参考文献深度机器人环境梯度策略本书关键字分析思维导图内容摘要内容摘要本书的主题是强化学习(ReinforcementLearning,RL),它是机器学习(MachineLearning,ML)的一个分支,强调如何解决在复杂环境中选择最优动作时产生的通用且极具挑战的问题。学习过程仅由奖励值和从环境中获得的观察驱动。该模型非常通用,能应用于多个真实场景,从玩游戏到优化复杂制造过程都能涵盖。读书笔记读书笔记算法涉及比较多。优点:这书作者是老手,有自己心得体会,能用自己的经验和理解去解释串联概念。目录分析1.1机器学习分类1.2强化学习的复杂性1.3强化学习的形式1.4强化学习的理论基础1.5总结12345第1章什么是强化学习2.1剖析智能体2.2硬件和软件要求2.3OpenAIGymAPI2.4随机CartPole智能体第2章OpenAIGym2.6总结2.5Gym的额外功能:包装器和监控器第2章OpenAIGym3.1张量3.2梯度3.3NN构建块3.4自定义层3.5最终黏合剂:损失函数和优化器12345第3章使用PyTorch进行深度学习3.6使用TensorBoard进行监控3.7示例:将GAN应用于Atari图像3.8PyTorchIgnite3.9总结第3章使用PyTorch进行深度学习4.1RL方法的分类4.2交叉熵方法的实践4.3交叉熵方法在CartPole中的应用4.4交叉熵方法在FrozenLake中的应用4.5交叉熵方法的理论背景4.6总结010302040506第4章交叉熵方法5.1价值、状态和最优性5.2最佳Bellman方程5.3动作的价值5.4价值迭代法5.5价值迭代实践12345第5章表格学习和Bellman方程5.7总结5.6Q-learning在FrozenLake中的应用第5章表格学习和Bellman方程6.1现实的价值迭代6.2表格Q-learning6.3深度Q-learning6.4DQN应用于Pong游戏第6章深度Q-network6.6总结6.5可以尝试的事情第6章深度Q-network7.1为什么使用强化学习库7.2PTAN库7.3PTAN版本的CartPole解决方案7.4其他强化学习库7.5总结12345第7章高级强化学习库8.1基础DQN8.2N步DQN8.3DoubleDQN8.4噪声网络第8章DQN扩展8.5带优先级的回放缓冲区8.6DuelingDQN8.7CategoricalDQN8.8组合所有方法8.9总结8.10参考文献010302040506第8章DQN扩展9.1为什么速度很重要9.2基线9.3PyTorch中的计算图9.4多个环境9.5在不同进程中分别交互和训练12345第9章加速强化学习训练的方法9.6调整包装器9.7基准测试总结9.8硬核CuLE9.9总结9.10参考文献12345第9章加速强化学习训练的方法10.1交易10.2数据10.3问题陈述和关键决策10.4交易环境第10章使用强化学习进行股票交易10.5模型10.6训练代码10.7结果10.8可以尝试的事情10.9总结12345第10章使用强化学习进行股票交易11.1价值与策略11.2REINFORCE方法11.3REINFORCE的问题11.4用于CartPole的策略梯度方法第11章策略梯度:一种替代方法11.6总结11.5用于Pong的策略梯度方法第11章策略梯度:一种替代方法12.1减小方差12.2CartPole的方差12.3actor-critic12.4在Pong中使用A2C12.5在Pong中使用A2C的结果12345第12章actor-critic方法12.7总结12.6超参调优第12章actor-critic方法13.1相关性和采样效率13.2向A2C添加另一个A13.3Python中的多重处理功能13.4数据并行化的A3C第13章A3C13.6总结13.5梯度并行化的A3C第13章A3C14.1聊天机器人概述14.2训练聊天机器人14.3深度NLP基础14.4seq2seq训练14.5聊天机器人示例12345第14章使用强化学习训练聊天机器人14.6数据集探索14.7训练:交叉熵14.8训练:SCST14.9经过数据测试的模型14.10Telegram机器人14.11总结010302040506第14章使用强化学习训练聊天机器人15.1文字冒险游戏15.2环境15.3基线DQN15.4命令生成模型15.5总结12345第15章TextWorld环境16.1Web导航简介16.2OpenAIUniverse16.3简单的单击方法16.4人类演示16.5添加文字描述12345第16章Web导航16.7总结16.6可以尝试的事情第16章Web导航17.1为什么会有连续的空间17.2A2C方法17.3确定性策略梯度17.4分布的策略梯度第17章连续动作空间17.6总结17.5可以尝试的事情第17章连续动作空间18.1机器人与机器人学18.3模拟器和模型18.2第一个训练目标第18章机器人技术中的强化学习18.4DDPG训练和结果18.5控制硬件18.6策略实验18.7总结第18章机器人技术中的强化学习19.1Roboschool19.2A2C基线19.3PPO19.4TRPO第19章置信域:PPO、TRPO、ACKTR及SAC19.5ACKTR19.7总结19.6SAC第19章置信域:PPO、TRPO、ACKTR及SAC20.1黑盒方法20.2进化策略20.3遗传算法20.4总结20.5参考文献12345第20章强化学习中的黑盒优化21.1为什么探索很重要21.2ε-greedy怎么了21.3其他探索方式21.4MountainCar实验21.5Atari实验12345第21章高级探索21.7参考文献21.6总结第21章高级探索22.1基于模型的方法22.2想象力增强型智能体22.3将I2A用在AtariBreakout上22.4实验结果22.5总结22.6参考文献010302040506第22章超越无模型方法:想象力23.1棋盘游戏23.2AlphaGoZero方法23.3四子连横棋机器人23.4四子连横棋的结果第23章AlphaGoZero23.6参考文献23.5总结第23章AlphaGoZero24.1强化学习的名声24.2魔方和组合优化24.3最佳性与上帝的数字24.4魔方求解的方法24.5训练过程24.6模型应用010302040506第24章离散优化中的强化学习24.7论文结果24.8代码概览24.9实验结果24.10进一步改进和实验24.11总结12345第24章离散优化中的强化学习25.1多智能体RL的说明25.2MAgent环境25.3老虎的深度Q-network25.4老虎的合作25.5同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论