




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
深度强化学习与机器人控制深度强化学习与机器人控制2017/12/21强化学习(reinforcementLearning,rl)
Agent通过与环境交互学习一个从环境状态到行为的映射,学习的目标是使累积折扣奖赏最大。可用Markov决策过程描述,四个元素:S、A、P、R深度强化学习(DeepreinforcementLearning,Drl)
——从感知到控制
结合深度学习的感知能力和强化学习的决策能力,直接从高维原始数据学习控制策略。解决了强化学习的1.函数逼近器:连续状态到连续动作空间映射问题;2.endtoend:高维数据直接到动作的映射发展:Q-learningDQNPolicyGradient:endtoendDeepDeterministicPolicyGradientActionnetwork,Criticnetwork[1]Mnih,Volodymyr,etal."Human-levelcontrolthroughdeepreinforcementlearning"Nature518.7540(2015)
深度强化学习能干什么(棋类)游戏自动驾驶飞行器控制机械臂操作多足行走深度强化学习能干什么(对于我们)动目标捕获(在轨服务,工业,娱乐)自主装配(在轨构建,工业)自动驾驶、导航(星表探测)多目标识别(在轨监测)设计师助手DRL应用于机器人控制的步骤1.设计算法2.编写程序3.训练4.应用1.设计算法以动目标抓捕任务DQN方法为例明确任务,确定输入输(状态、动作)1.设计算法制定奖赏规则1.设计算法更新Q值函数传统上采用查表的方式计算Q值函数,为了计算方便,可以利用上一周期的值用Bellman方程等更新Q值:由于状态动作空间巨大,我们训练一个深度递归网络(DeepRecurrentNeuralNetwork,RNN)来拟合Q值表。1.设计算法
2.编写程序环境:Linux、Mac、Win架构:TensorFlow等语言:Python伪代码:3.训练两种训练方式:模拟训练:搭建模拟器、模拟训练、移植OpenAIGym,MuJoCo,rllab,DeepMindLab,TORCS,PySC2等一系列优秀的平台MuJoCo(Multi-JointdynamicswithContact)是一个物理模拟器,可以用于机器人控制优化等研究。TensorFlow等均集成了OpenAIGym,MuJoCo实物训练:单机;多机经验共享3.训练
实物训练
模拟训练+移植4.应用经过长时间训练,算法收敛,性能满足要求后可应用于真实场景DRL顶尖成果(左:DeepMind右:SIGGRAPH小组)总结深度强化学习为决策类问题(包括机器人控制)带来有效的解决方案,在某些领域可达到优于人的效果。对于我们来说在机器人抓捕、装配、规划、导航、行走方面皆可利用,服务于在轨服务、深空探测、辅助设计、民用市场开拓等领域。但DRL(人工智能)不是什么都适合干,不是什么都能干。我们应该斟酌其可利用的领域,不能为了赶时髦而盲目代入。AlphaGo战胜人类的意义确实是划时代的,借用两位人类棋手的话结尾:“人类千年的实战演练进化,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年生物质干馏热解系统合作协议书
- 2025年黑龙江省鹤岗市单招职业倾向性测试题库学生专用
- 口腔修复学模拟习题与参考答案
- 电气值班员(电力调度)-中级工试题+答案
- 《喜看稻菽千重浪》《心有一团火温暖众人心》《“探界者”钟扬》 群文阅读教学设计 2024-2025学年统编版高中语文必修上册
- 七年级数学苏科版下册第九单元《9.5多项式的因式分解》教学设计教案2
- 幼儿保教知识与能力-教师资格《幼儿保教知识与能力》模拟题3
- Module 12 Save our world Unit 2 教学设计 - 2024-2025学年外研版英语九年级上册
- 2024四川九洲电器集团有限责任公司招聘天线工程师等岗位39人笔试参考题库附带答案详解
- Module 6 Problems Unit 1 教学设计2024-2025学年外研版九年级英语上册
- 车站值班员(中级)职业鉴定题库(含答案)
- 2025教科版一年级科学下册教学计划
- 分娩前的准备
- 部编版小学三年级语文下册作文教学计划
- 中学生劳动安全课件
- 办公楼维修改造施工方案
- 老年髋部骨折治疗指南
- 2024年度教育软件采购合同
- 中华护理学会团体标准测试题库含答案
- 防暴队形演练和讲解
- 2024年医疗器械经营质量管理规范培训课件
评论
0/150
提交评论