版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
强化学习理论及自动驾驶应用实践第十章DeepLearningAndAutonomousDriving深度学习与自动驾驶应用DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第2页10.4策略梯度强化学习方法10.1强化学习概述10.3表格型强化学习方法10.2强化学习基础理论10.5实践项目目录ContentDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第3页10.1强化学习概述机器学习回顾无监督学习监督学习机器学习分类回归……聚类……DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第4页10.1强化学习概述机器学习与其他机器学习的关系DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第5页10.1强化学习概述机器学习系统两部分三要素环境智能体状态/观测值动作奖励DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第6页10.1强化学习概述MountainCar环境:整个游戏智能体:小车动作:向左施力、向右施力、不施力奖励信号:是否到达右侧山峰旗帜处状态:小车的位置MountainCar两部分三要素环境智能体状态/观测值动作奖励DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第7页10.1强化学习概述强化学习目标智能体唯一目标:最大化长期总收益策略价值函数价值函数环境建模(可选)DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第8页10.1强化学习概述监督学习玩MountainCar神经网络各方向施力的概率反向传播在MountainCar中,无法定义正确动作的标签。即使定义了标签,数据之间的序贯性也使得模型难以训练DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第9页10.1强化学习概述强化学习玩MountainCar右施力右施力右施力不施力右施力不施力左施力左施力胜利右施力左施力左施力不施力右施力失败左施力左施力不施力右施力右施力右施力失败右施力右施力左施力右施力左施力不施力右施力胜利可能的序列:让智能体尝试游玩,对状态、动作进行采样,游戏结束后对每个动作进行奖惩DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第10页10.1强化学习概述强化学习面临的问题右施力右施力右施力不施力右施力不施力左施力左施力胜利右施力左施力左施力不施力右施力失败左施力左施力不施力右施力右施力右施力失败右施力右施力左施力右施力左施力不施力右施力胜利可能的序列:1.输入的数据间具有强烈的序贯性2.训练过程中存在奖励延迟现象DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第11页10.1强化学习概述强化学习学习方式探索与利用旧饭店吃好吃的探索新饭店优秀的探店博主应用层DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第12页10.1强化学习概述按环境模型分类环境建模(可选)基于模型无模型1.动态规划2.…1.Q-learning2.DQN3.…DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第13页10.1强化学习概述按学习目标分类对智能体的训练可以分为基于价值和基于策略策略价值函数价值函数DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第14页10.1强化学习概述按学习目标分类确定性策略随机性策略DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第15页10.1强化学习概述强化学习分类强化学习有模型无模型基于价值基于策略动态规划……Q-learning……策略梯度……DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第16页10.2强化学习基础理论马尔可夫过程(MP)马尔科夫性质:一个随机过程在给定现在状态和所有过去状态的情况下,其未来状态的条件概率分布仅依赖于当前状态马尔科夫过程:一个满足马尔科夫性质的随机过程。其未来的转移和过去是独立的DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第17页10.2强化学习基础理论机器人回收问题回收机器人状态高电平低电平动作搜索等待充电DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第18页10.2强化学习基础理论马尔可夫决策过程(MDP)
p=1r=0a=充电高低a=搜索p=1-βr=-3p=βr=1a=等待p=1r=-1a=搜索p=αr=1p=1-αr=1a=等待p=1r=-1sas’P(s’|s,a)R(s,a,s’)高搜索高α1高搜索低1-α1低搜索高1-β-3低搜索低β1高等待高1-1高等待低0-1低等待高0-1低等待低1-1低充电高10低充电低00状态转移过程折扣累计回报
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第19页10.2强化学习基础理论值函数状态值函数动作值函数s0(r1,s1)(r3,s3)s0(r2,s2)(r4,s4)
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第20页10.2强化学习基础理论有模型方法α与β均为已知参数,问题的全局信息已知。智能体无需与环境进行互动。此时问题为一动态规划问题,可以很方便求解。通过策略迭代方法或值迭代方法求解状态值函数V,从而获得最优解。有模型强化学习策略评估策略改善动态规划DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第21页10.2强化学习基础理论动态规划障碍物R:-1终点R:1/people/karpathy/reinforcejs/gridworld_dp.htmlDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第22页10.2强化学习基础理论动态规划策略评估策略更新DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第23页10.2强化学习基础理论动态规划策略评估策略更新DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第24页10.2强化学习基础理论动态规划算法收敛优点缺点1.难以处理连续动作与连续状态问题2.需要环境模型完全已知,这在实践中几乎无法做到1.在数学上可以精确表达与分析2.处理小规模问题时,表现稳定且收敛速度较快DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第25页10.3表格型强化学习方法无模型方法p=1r=0a=充电高低a=搜索p=1-βr=-3p=βr=1a=等待p=1r=-1a=搜索p=αr=1p=1-αr=1a=等待p=1r=-1α与β均为未知参数,这时需要智能体与环境进行交互,从而选择合适的策略使得奖励最大化无模型强化学习
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第26页10.3表格型强化学习方法表格型思想搜索等待充电高000低000Q表格状态值函数动作值函数DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第27页10.3表格型强化学习方法蒙特卡洛思想
累计折扣收益累计折扣收益期望近似状态值函数蒙特卡洛方法难以应用于无终止的问题,但其思想可以与其他方法结合DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第28页10.3表格型强化学习方法时序差分(TD)蒙特卡洛方法
时序差分法TD(0)
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第29页10.3表格型强化学习方法基于时序差分法的Sarsa算法时序差分法TD(0)
Sarsa算法
TDtargetSarsa算法需要用到s,a,r,s’,a’五个参数,故名SarsaTDerrorDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第30页10.3表格型强化学习方法基于时序差分法的Q-learningQ-learningSarsa算法
异策略off-policy相较于Sarsa,Q-learing更具有试探性
同策略on-policyDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第31页10.3表格型强化学习方法寻路问题
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第32页10.3表格型强化学习方法寻路问题
【解】可将该网格游戏看成是一个马尔科夫决策过程,其中状态空间包括当前位置、陷阱位置、目标位置以及空位置,并将两个陷阱位置设为同一个状态,决策空间包括上下左右四个动作,分别用0,1,2,3表示,如下图所示。
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第33页10.3表格型强化学习方法寻路问题(Sarsa)
第1次迭代:设置初始位置的状态动作值函数取值均为0,如下表所示:
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第34页10.3表格型强化学习方法寻路问题(Sarsa)
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第35页10.3表格型强化学习方法寻路问题(Sarsa)
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第36页10.3表格型强化学习方法寻路问题(Sarsa)
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第37页10.3表格型强化学习方法寻路问题算法结果DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第38页10.3表格型强化学习方法值函数近似替代方法表格型Q函数线性Q函数非线性Q函数深度学习Q函数简单复杂
TDerror损失函数最小化Sarsa算法
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第39页10.3表格型强化学习方法DQN目标函数经验回放机制网络设计
预测网络目标网络
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第40页10.3表格型强化学习方法DQNQ表格神经网络DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第41页10.3表格型强化学习方法DQNDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第42页10.3表格型强化学习方法DDQN通过Q-eval选取最大Q值对应动作根据动作计算Q-target目标函数:Q-eval–Q-target
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第43页10.3表格型强化学习方法DDQNDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第44页10.3表格型强化学习方法DRQNReplayMemory经验池存储内存有限LSTM记忆DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第45页10.3策略梯度强化学习方法基于策略的强化学习方法Q-learning
由价值函数产生策略基于策略
价值不同采取动作概率不同DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第46页10.3策略梯度强化学习方法随机性策略与确定性策略随机性策略确定性策略输出动作概率分布输出确定动作DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第47页10.3策略梯度强化学习方法随机性策略方法梯度下降法蒙特卡洛思想目标函数
评价函数策略梯度定理
评价函数动作值函数
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第48页10.3策略梯度强化学习方法Actor-Critic蒙特卡洛梯度下降法蒙特卡洛方法带来较大的噪声和误差,无法相对准确地描述动作值函数
演员评论家算法
ActorCriticDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第49页10.3策略梯度强化学习方法Actor-CriticMC-AC算法A3C算法/princewen/tensorflow_practice/tree/master/RL/Basic-AC-DemoA2C算法DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第50页10.3策略梯度强化学习方法MountainCarTRPO算法AC算法训练过程中采用固定步长使得算法存在发散的可能性PPO算法奖励函数单调不减重要性采样保守策略迭代KL散度替换训练步长TRPO的近似版本目标函数引入KL散度目标函数修剪项DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第51页10.3策略梯度强化学习方法DQN与AC的优缺点DQNAC确定性策略和off-policy随机性策略和on-policy算法收敛快无法处理连续问题可以处理连续问题算法收敛慢DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第52页10.3策略梯度强化学习方法DDPGDQNACDDPGDPG早前的研究
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 眼镜行业销售工作总结
- 酒水饮料行业员工激励措施
- 2024年电大电子商务概论考试综合手册
- 创意设计服务协议书(2篇)
- 易错点12 抗日战争时期的主要史实与时间-备战2023年中考历史考试易错题(原卷版)
- 黄金卷6-【赢在中考·黄金八卷】(解析版)
- DB33T 2195-2019 家庭医生签约服务居家护理工作规范
- 以社區為基礎之糖尿病個案管理與疾病管理
- 2022-2023学年山东省聊城市高一上学期期末考试地理试题(解析版)
- 阜阳热熔胶项目可行性研究报告
- 【部编版】三年级语文上册全册《单元统整备课》教案
- 02S501-2 双层井盖图集标准
- 广东省湛江市寸金培才学校2022-2023学年下学期七年级数学期末试卷
- 顽固性高血压的基因治疗新进展
- (正式版)JTT 1495-2024 公路水运危险性较大工程安全专项施工方案审查规程
- 停车场管理系统说明书
- 医院药剂科年终总结
- (2024年)AED(自动体外除颤器)使用指南
- 麻醉药品精神药品管理
- 抽错血标本护理不良事件
- 科技成果转化培训资料
评论
0/150
提交评论