




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
汇报人:100871单击此处添加文本9深度强化学习目录
|
CONTENTS强化学习基本概念1深度价值学习2深度策略学习3模仿学习4基于人类反馈的强化学习5强化学习基本概念19.1.1强化学习基础框架受生物的环境适应性启发,强化学习是一种通过与环境交互并使用尝试和错误方法来最大化累积奖励,从而学习最优策略的技术。强化学习模型由五个关键元素构成,包括智能体(agent)、状态(state)、奖励(reward)、动作(action)和环境(environment)。在强化学习的框架中,算法称之为agent,
它与环境(environment)发生交互,agent从环境中获取状态(state),并决定要做出的动作(action),环境会根据自身的逻辑给agent予以奖励(reward)。强化学习的定义强化学习的构成要素9.1.1强化学习基础框架强化学习的特点:
①强化学习的奖励可能是稀疏且合理延迟的,不要求(或要求较少)先验知识,不要求有提供正确答案的教师;②强化学习是一种增量式学习,可以在线使用;③强化学习可以应用于不确定性环境;④强化学习的体系可扩展。强化学习的主体是智能体(agent)和环境(environment)。agent的主要目标是最大化未来产生的总奖励的可能性以适应环境。agent根据历史的动作选择,和选择动作之后,环境做给出的反馈和状态,决定如何选择下一个动作。如果某个动作(action)已经产生了积极的奖励,那么该动作将会被强化,否则将会被逐渐减弱。智能体与环境的交互9.1.2强化学习关键要素01策略策略根据状态决定行动,目标是找到使回报期望最大化的最优策略。可以分为随机策略和确定策略:(1)随机策略:
把状态记作S或s,动作记作A或a,随机策略函数π:S×A→[0,1]是一个概率密度函数:(2)确定策略:确定策略记作μ:S→A,它把状态s作为输入,直接输出动作a=μ(s),
而不是输出概率值。对于给定的状态s,做出的决策a是确定的,没有随机性。可以把确定策略看做随机策略的一种特例,即概率全部集中在一个动作上:02回报回报是未来奖励的总和,通常考虑折扣回报以处理未来不确定性,也叫做累计奖励(cumulativefuturereward)。强化学习的目标就是寻找一个策略,使得回报的期望最大化。这个策略称为最优策略(optimumpolicy)。9.1.3马尔可夫决策过程定义9.1:马尔可夫性马尔可夫决策过程是强化学习中的序列决策模型,强调当前决策只基于当前状态,常用于智能体策略优化。设
为一随机过程,E为其环境,若对任意的
,任意的
,随机变量
在已知变量
之下的条件分布函数只与
有关,而与
无关,即条件分布函数满足等式
,即
,此性质称为马尔可夫性,亦称无后效性或无记忆性。若
为离散型随机变量,则马尔可夫性亦满足等式
。9.1.3马尔可夫决策过程定义9.2:马尔可夫过程若随机过程
满足马尔可夫性,则称为马尔可夫过程。马尔科夫决策过程(markovdecisionprocess,MDP)根据环境是否可感知的情况,可分为完全可观测MDP和部分可观测MDP2种。马尔科夫决策过程是一个在环境中模拟智能体的随机性策略与回报的数学模型,通过六元组
表示,若转移概率函数和回报函数与决策时间无关,这时的MDP称为平稳MDP。MDP有3种类型决策优化目标函数:有限阶段总回报目标、无限折扣总回报目标和平均回报目标,分别为:9.1.3马尔可夫决策过程MDP模型由环境状态空间、系统动作空间、条件转移概率、奖励函数、折扣因子和决策优化目标函数六个基本元素构成,这些元素共同描述了智能体在环境中的决策过程。MDP模型具有无后效性、状态转移概率和奖励函数、折扣回报、策略、价值函数和最优策略等特点,这些特点使得MDP模型能够有效地模拟智能体在环境中的决策过程。MDP模型在强化学习、控制理论、运筹学等领域有广泛应用,是理解和设计智能决策系统的基础工具之一,通过最大化期望累积奖励来指导智能体的学习和决策。MDP模型的基本元素MDP模型的特点MDP模型的应用A和P共同定义了系统的动作空间及状态转移概率,即在特定状态下采取某一动作后达到新状态的可能性。在六元组表示中,S代表有限的环境状态空间,它是智能体决策过程中可能遇到的各种情况的集合,为系统提供了操作的背景和上下文。立即回报rs,a和决策优化目标函数J指导智能体评估行动的价值,而折扣因子γ则平衡了即时与长期回报之间的关系,影响策略的选择。010203六元组表示9.1.3马尔可夫决策过程9.1.3马尔可夫决策过程给定一个策略,无论是确定性策略还是随机性策略,动作值函数
和状态值函数
存在以下的关系:MDP对应的值函数有状态值函数
和状态-动作值函数(又称动作值函数)
两种,分别为:agent的最终目标是发现最优策略
,对于任意MDP,至少存在一个平稳确定性的最优策略,显然,最优策略可以不唯一。最优策略
可以通过最优值函数获得,假设
对应的最优状态值函数和动作值函数分别为
和
,则对于任意
,
,任意
都有下式所示的关系:9.1.3马尔可夫决策过程最优状态值函数
,也满足Bellman最优方程,定义为:类似地,对于任意的
,
最优动作值函数
定义为:
由此,可以得出最优策略:9.1.3马尔可夫决策过程POMDP简介定义:部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,用于处理状态无法完全观测的情况。应用:广泛应用于机器人导航、自然语言处理、推荐系统等领域,帮助在不确定环境中做出最优决策。决策与挑战决策依据:POMDP通过部分观测、历史动作和立即报酬来推断当前状态,并规划下一步行动。挑战:面临状态不确定性、历史依赖性和策略复杂性等挑战,需要有效算法来处理这些复杂性以优化决策。POMDPvsMDP模型差异:POMDP在MDP的基础上增加了观察空间,用七元组表示,而MDP直接观测状态。决策方式:MDP基于完全观测的状态进行决策,POMDP则需要依赖历史观测和推断来进行决策,更为复杂。应用场景:MDP适用于状态完全可观测的场景,POMDP适用于状态部分可观测的场景,根据实际需求选择合适的模型。深度价值学习29.2.1DQNQ学习是一种离线策略的算法,它学习在一个状态下采取动作的价值,通过学习Q值来选择如何在环境中行动。根据Q学习,智能体会采用任何策略来估算Q,从而最大化未来的奖励。可以用神经网络近似最优动作价值函数Q,这个神经网络称为深度Q网络(DQN):
,神经网络作为函数拟合器非常出色,该损失函数包含两个Qs函数:DQN的输出是离散动作空间A上的每个动作的Q值,即给每个动作的评分,分数越高意味着动作越好。
参数更新:DQN算法可以在多种Atari游戏中在线上场景中获得强劲的表现,并直接从像素中学习。两个启发式方法可用于限制不稳定性:1.目标Q网络的参数仅在每N次迭代后更新。这可以防止不稳定性快速传播并最小化发散的风险。2.可使用经验回放存储技巧。9.2.2TD算法训练深度Q网络最常用的算法是时间差分(temporaldifference,TD)方法,它是一种用于解决时间信度问题的方法。TD结合了蒙特卡罗的采样方法和动态规划方法的自举(bootstrapping)方法,能直接从学习者的原始经验学起。与动态规划方法类似,TD方法通过预测每个动作的长期结果来调整先前的动作奖励或惩罚,即依赖于后续状态的值函数来更新先前状态值函数,主要应用于预测问题。最简单的是一步算法TD(0),其迭代公式为:TD(λ)是改进的一种方法,在TD(λ)中agent获得立即回报后可以回溯任意步,其迭代公式为:资格迹是强化学习算法中的一个基本机制。通过引入资格迹,TD(λ)学习算法可以有效地实现在线、增量式学习。资格迹的定义方式主要分为增量式和替代式两类。状态的增量式资格迹的定义:状态的替代式资格迹的定义:9.2.3噪声DQN噪声网络将神经网络中的参数
替换为
,其中
的形状与
完全相同。噪声网络的含义是参数
的每个元素
从均值
、标准差为
的正态分布中抽取。训练噪声网络的方法与训练标准的神经网络完全相同,都是做反向传播计算梯度,然后用梯度更新神经参数。噪声网络可以用于DQN。标准的DQN记作
,其中的
表示参数。把
替换成
,得到噪声DQN,记作:
。噪声DQN的参数数量比标准DQN多一倍。噪声DQN训练的过程中,参数包含噪声: 。训练的目标是使DQN在带有噪声的参数下最小化TD误差,也就是迫使DQN容忍对参数的扰动。训练出的DQN具有鲁棒性。深度策略学习39.3.1策略梯度基于策略的方法是直接学习策略,显式优化策略参数,尤其适用于连续动作空间。该方法首先需要将策略参数化。策略学习的目标函数定义为:有了目标函数后,将目标函数对策略求导,得到导数后,就可以用梯度上升方法来最大化这个目标函数,从而得到最优策略。策略梯度定理提供了一个很好的目标函数导数的重构方式,使其不涉及状态分布
的导数,并简化了梯度
计算:策略梯度定理为各种策略梯度算法奠定了理论基础。这种基本策略梯度更新没有偏差,但方差很大。随后提出了许多算法来降低方差,同时保持偏差不变。9.3.2REINFORCE算法REINFORCE算法的一个显著优点是它能够直接从经验中学习,无需环境的动态模型,这使得它在处理复杂环境中表现出色。经验直接学习的优势蒙特卡罗策略梯度是一种强化学习算法,通过随机采样周期样本估计回报,利用这些回报更新策略参数,以最大化环境期望回报。蒙特卡罗策略梯度概述该算法采用策略梯度上升方法来更新策略参数,通过测量真实样本轨迹中的回报,不断优化策略以提高在环境中的表现。策略梯度上升方法9.3.3actor-critic学习在Actor-Critic方法中,Actor根据Critic提供的状态价值信息更新策略参数,而Critic则利用Actor生成的经验数据更新状态价值的估计,两者相互协作优化策略。Actor与Critic的协作机制Actor-Critic方法是一种强化学习技术,通过同时学习和优化策略和值函数来提高算法性能,其中Actor负责学习策略,Critic负责评估策略。Actor-Critic方法概述结合值函数与策略梯度,策略网络(Actor)选择动作,价值网络(Critic)评估并指导策略。为了减少方差并加速学习过程,Actor-Critic方法使用优势函数替代直接的状态价值进行策略更新,优势函数衡量动作预期回报与状态价值的差异,提供精确的策略梯度估计。优势函数在Actor-Critic中的应用9.3.4带基线的策略梯度方法带基线带策略梯度有如下定理:设b是任意的函数,但是b不能依赖于A。把b作为动作价值函数 的基线,对策略梯度没有影响:该定理说明b的取值不影响策略梯度的正确性。不论是让b=0还是让b=,对期望的结果毫无影响,期望的结果都会等于
。模仿学习49.4.1模仿学习基础模仿学习在某些情况下可以非常有效,尤其是在专家演示期望的行为比指定一个能产生相同行为的奖励函数或直接学习策略更容易时,另外也特别适用于难以定义奖励函数的场景。模仿学习的优势模仿学习是一种让深度策略网络做出的决策与人类专家相同的方法,通过向人类专家学习,目标是让智能体的策略网络尽可能地模仿专家的行为,而强化学习依赖环境反馈优化策略以最大化累计奖励。模仿学习的定义模仿学习广泛应用于各种领域如自动驾驶、机器人控制等,通过模仿专家的行为,智能体能够快速学习和适应新环境。模仿学习的应用场景9.4.1模仿学习基础——行为克隆算法行为克隆的基本流程包括从专家的演示中收集示例,将其划分为状态-动作对,然后应用监督学习并最小化损失函数。行为克隆的基本流程行为克隆通过让智能体观察和学习人类专家的行为,复制其决策策略,旨在训练出能做出与专家相同决策的策略网络πθ。行为克隆的核心思想行为克隆是简单的模仿学习形式,使用监督学习从专家数据中学习策略,但在MDP中可能因错误累积导致失败。行为克隆简单有效,适用于不需要长期规划的情况,但存在错误累积和不能处理长期规划的问题,可能导致灾难性的失败。行为克隆的优点与缺点9.4.1模仿学习基础——直接策略学习(DPL)DPL算法首先基于初始的专家演示开始一个初始的预测策略,然后在每次迭代中收集轨迹和反馈,最后使用这些反馈来训练一个新的策略。DPL算法工作流程直接策略学习是一种模仿学习方法,通过从专家那里收集演示并应用监督学习来学习策略,然后通过询问专家评估推出的轨迹来获取更多训练数据。直接策略学习概述直接策略学习通过迭代和反馈避免了行为克隆的问题,但需要可交互的专家。为了使DPL算法有效地工作,利用所有以前的训练数据进行训练是非常重要的,这样代理就可以看到它过去所犯的所有错误,从而改进其性能。利用所有以前的训练数据的重要性9.4.2逆强化学习在逆强化学习中,核心步骤之一是估计参数化的奖励函数,该过程涉及从专家的示范数据中学习,以使模型的行为尽可能接近专家的策略。参数化奖励函数估计逆强化学习是一种模仿学习方法,通过观察专家行为来推断奖励函数,进而利用深度强化学习技术寻找最优策略,实现从示范到策略的转化。逆强化学习概述逆强化学习估计专家的奖励函数,然后使用强化学习找到最优策略。根据是否需要环境模型,分为给定模型和无模型方法,两者都面临奖励函数模糊性的挑战。逆强化学习分为给定模型方法和无模型方法两种,前者依赖于环境动态模型,而后者则直接从数据中学习,两者在算法实现和应用场景上各有侧重。有模型与无模型方法基于人类反馈的强化学习59.5基于人类反馈的强化学习(1)收集人类生成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 反映护士资格证考试需要试题及答案
- 激光设备的经济性分析试题及答案
- 安徒生童话心得体会
- 安徒生童话打火匣读后感50字
- 程序设计考研试题及答案
- 心理咨询师考试中的自我调适试题及答案
- 系统规划与管理师考试中时间管理与任务安排的科学性分析试题及答案
- 税务师考试常见难点解析试题及答案
- 网络规划设计师考试知识点的加深与扩展试题及答案
- 电梯维保考试题及答案
- 起重机械安全技术规程(TSG-51-2023)宣贯解读课件
- 幼儿园医学科普 认识医生和护士
- 医学职业倦怠防治教案课件
- 癫痫知识培训课件
- 工厂领手套管理制度
- 少数民族怒族民俗文化科普介绍教学课件
- AOI直通率持续提升报告
- 浙江省钢结构DBJ33/T12752022
- 部编版初中历史《隋唐时期:繁荣与开放的时代》单元教材教学分析
- 2021城镇污水处理厂污泥隔膜压滤深度脱水技术规程
- 肺间质纤维化
评论
0/150
提交评论