深度强化学习与机器人控制_第1页
深度强化学习与机器人控制_第2页
深度强化学习与机器人控制_第3页
深度强化学习与机器人控制_第4页
深度强化学习与机器人控制_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

深度强化学习与机器人控制深度强化学习与机器人控制2017/12/21强化学习(reinforcementLearning,rl)

Agent通过与环境交互学习一个从环境状态到行为的映射,学习的目标是使累积折扣奖赏最大。可用Markov决策过程描述,四个元素:S、A、P、R深度强化学习(DeepreinforcementLearning,Drl)

——从感知到控制

结合深度学习的感知能力和强化学习的决策能力,直接从高维原始数据学习控制策略。解决了强化学习的1.函数逼近器:连续状态到连续动作空间映射问题;2.endtoend:高维数据直接到动作的映射发展:Q-learningDQNPolicyGradient:endtoendDeepDeterministicPolicyGradientActionnetwork,Criticnetwork[1]Mnih,Volodymyr,etal."Human-levelcontrolthroughdeepreinforcementlearning"Nature518.7540(2015)

深度强化学习能干什么(棋类)游戏自动驾驶飞行器控制机械臂操作多足行走深度强化学习能干什么(对于我们)动目标捕获(在轨服务,工业,娱乐)自主装配(在轨构建,工业)自动驾驶、导航(星表探测)多目标识别(在轨监测)设计师助手DRL应用于机器人控制的步骤1.设计算法2.编写程序3.训练4.应用1.设计算法以动目标抓捕任务DQN方法为例明确任务,确定输入输(状态、动作)1.设计算法制定奖赏规则1.设计算法更新Q值函数传统上采用查表的方式计算Q值函数,为了计算方便,可以利用上一周期的值用Bellman方程等更新Q值:由于状态动作空间巨大,我们训练一个深度递归网络(DeepRecurrentNeuralNetwork,RNN)来拟合Q值表。1.设计算法

2.编写程序环境:Linux、Mac、Win架构:TensorFlow等语言:Python伪代码:3.训练两种训练方式:模拟训练:搭建模拟器、模拟训练、移植OpenAIGym,MuJoCo,rllab,DeepMindLab,TORCS,PySC2等一系列优秀的平台MuJoCo(Multi-JointdynamicswithContact)是一个物理模拟器,可以用于机器人控制优化等研究。TensorFlow等均集成了OpenAIGym,MuJoCo实物训练:单机;多机经验共享3.训练

实物训练

模拟训练+移植4.应用经过长时间训练,算法收敛,性能满足要求后可应用于真实场景DRL顶尖成果(左:DeepMind右:SIGGRAPH小组)总结深度强化学习为决策类问题(包括机器人控制)带来有效的解决方案,在某些领域可达到优于人的效果。对于我们来说在机器人抓捕、装配、规划、导航、行走方面皆可利用,服务于在轨服务、深空探测、辅助设计、民用市场开拓等领域。但DRL(人工智能)不是什么都适合干,不是什么都能干。我们应该斟酌其可利用的领域,不能为了赶时髦而盲目代入。AlphaGo战胜人类的意义确实是划时代的,借用两位人类棋手的话结尾:“人类千年的实战演练进化,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论