


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章强化学习选择题1-5ABCD、ABCD、ABCD、AB、AB6-10BD、D、D、C、C二、判断题1-5√、×、×、×、√6-10√、×、√、×、√三、简答题1.简述强化学习的发展历程。尽管强化学习是由明斯基于1961年的论文中首次提出,但是这种试错学习在此之前已经开始发展。目前,大家认为强化学习的来源与两个领域密切相关:即心理学中的动物学习和最优控制的优化理论。2.请列举一些深度学习与强化学习的区别。深度学习:一切运用了神经网络作为参数结构进行优化的机器学习算法。强化学习:不仅能利用现有数据,还可以通过对环境的探索获得新数据,并利用新数据循环往复地更新迭代现有模型的机器学习算法。学习是为了更好地对环境进行探索,而探索是为了获取数据进行更好的学习。3.强化学习的要素有哪些?策略:定义了一个特定时刻智能体的行为方式。大概来讲,策略是一个从当前感知到的环境状态到改状态下采取的动作的一个映射。在某些情况下,策略可能是一个简单的函数或者是一个查找表,然而在其他情况下,也可能涉及大量的计算,比如搜索过程。回报信号:定义了强化学习问题的目标。每一个时间步,环境反馈给强化学习智能体一个单独的数字,叫做回报。智能体唯一的目标就是最大化整个运行周期收到的回报总和。值函数:不同于瞬时回报,值函数刻画了在长期状态下对于某个状态或者行为的偏好。粗略来讲,一个状态的值是一个智能体从这个状态开始一直运行下去能够得到的期望回报总和。第四个也是最后一个一些强化学习系统的要素是环境模型。环境模型就像一个仿真器,给定一个状态和动作,模型会预测这个动作导致的下一个状态和回报。4.请简要叙述Q-学习算法的基本原理。Q-learning的基本原理是学习一个称为Q值(Q-function)的函数,用于估计在给定状态下采取特定行动后可以获得的未来总回报。Q值可以表示为Q(s,a),其中s表示状态,a表示行动。通过学习和更新这些Q值,智能体(agent)可以选择在给定状态下执行最佳行动。5.请简要叙述Q-学习算法的算法流程。建立Q表,行是每种状态,列是每种状态的行为,值是某状态下某行为估计获得的奖励。每次进行状态转移时有e_greedy概率选当前状态最优方法,有1-e_greedy选随机方法。选完之后就更新当前状态下对应所选行为的Q值(估计值)。更新方法:其自身=其自身+学习率*(估计-现实)—>(实际更新=实际未更新+学习率*(预测-实际发生))现实值也是其自身,估计值是选择当前行为后的奖励及下一状态中选择与当前状态具有相同行为的Q值。6.什么是动态规划算法?动态规划(Dynamicprogramming)是一种在数学、计算机科学和经济学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。7.什么是蒙特卡洛算法?蒙特卡洛算法的应用有哪些?蒙特·卡罗方法(MonteCarlomethod),也称统计模拟方法,它是一种思想或者方法的统称,而不是严格意义上的算法。蒙特卡罗方法的起源是1777年由法国数学家布丰(ComtedeBuffon)提出的用投针实验方法求圆周率(具体算法见文末的好文推荐),在20世纪40年代中期,由于计算机的发明结合概率统计理论的指导,从而正式总结为一种数值计算方法,其主要是用随机数来估算计算问题。蒙特·卡罗算法在数学、增强学习、金融工程学,宏观经济学,计算物理学等领域应用广泛。求解积分问题对被积分函数的变量在某一区间内进行随机均匀抽样,然后对抽样点的函数值求平均,从而可以得到函数积分的近似值。此种方法的理论基础是概率论的中心极限定理,其不随积分维数的改变而改变。求解圆周率问题蒙特卡罗方法可用于近似计算圆周率,如本例所示。机器学习蒙特卡洛算法也常用于机器学习,特别强化学习算法。一般情况下,针对得到的样本数据集创建相对模糊的模型,通过蒙特卡罗方法对于模型中的参数进行选取,使之于原始数据的残差尽可能的小,从而达到创建模型拟合样本的目的。金融领域用随机过程理论进行理论建模,在必要时使用蒙特卡罗算法对模型做数值模拟,比如预测未来收益和走势,感兴趣的读者可以阅读好文推荐的内容。当然,一个复杂的问题不可能依靠一个蒙特卡罗模拟就解决,需要大量的其他方法如随机过程、机器学习相关方法、博弈论涉及的方法等。8.请简要叙述蒙特卡洛算法的算法流程。蒙特卡罗算法一般分为三个步骤,包括构造随机的概率的过程,从构造随机概率分布中抽样,求解估计量。构造随机的概率过程对于本身就具有随机性质的问题,要正确描述和模拟这个概率过程。对于本来不是随机性质的确定性问题,比如计算定积分,就必须事先构造一个人为的概率过程了。它的某些参数正好是所要求问题的解,即要将不具有随机性质的问题转化为随机性质的问题。如本例中求圆周率的问题,是一个确定性的问题,需要事先构造一个概率过程,将其转化为随机性问题,即豆子落在圆内的概率,而π就是所要求的解。从已知概率分布抽样由于各种概率模型都可以看作是由各种各样的概率分布构成的,因此产生已知概率分布的随机变量,就成为实现蒙特卡罗方法模拟实验的基本手段。如本例中采用的就是最简单、最基本的(0,1)上的均匀分布,而随机数是我们实现蒙特卡罗模拟的基本工具。求解估计量实现模拟实验后,要确定一个随机变量,作为所要求问题的解,即无偏估计。建立估计量,相当于对实验结果进行考察,从而得到问题的解。如求出的近似π就认为是一种无偏估计。9.请分析比较动态规划算法、Q-学习算法和蒙特卡洛算法。蒙特卡罗方法是一种基于采样的方法,也就是我们采样得到很多轨迹,然后根据采样得到的结果平均去算V(s)。动态规划的使用条件:最优化原理:如果问题的最优解所包含的子问题的解也是最优的,就称该问题具有最优子结构,即满足最优化原理。无后效性:即某阶段状态一旦确定,就不受这个状态以后决策的影响。也就是说,某状态以后的过程不会影响以前的状态,只与当前状态有关。有重叠子问题:即子问题之间是不独立的,一个子问题在下一阶段决策中可能被多次使用到。Q-learning的基本原理是学习一个称为Q值(Q-function)的函数,用于估计在给定状态下采取特定行动后可以获得的未来总回报。Q值可以表示为Q(s,a),其中s表示
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环保拖鞋租赁合同协议
- 瓦工出国劳务合同协议
- 2025至2030年中国男宝器数据监测研究报告
- 2025至2030年中国猪用浓缩饲料数据监测研究报告
- 2025至2030年中国烤管机数据监测研究报告
- 2025至2030年中国无机纳米复合纺织浆料助剂数据监测研究报告
- 2025至2030年中国提梁式防干烧全自动电茶壶数据监测研究报告
- 2025至2030年中国广告布接缝机数据监测研究报告
- 2025至2030年中国定压关闭阀数据监测研究报告
- 2025至2030年中国大叶女贞数据监测研究报告
- 丰田锋兰达说明书
- 2023年东莞市人民医院医师规范化培训招生(放射科)考试参考题库含答案
- 2022年甘肃省张掖市辅警协警笔试笔试模拟考试(含答案)
- 勾头作业施工方案
- 中医医院重症医学科建设与管理指南
- 创伤性网胃炎
- LY/T 1556-2000公益林与商品林分类技术指标
- GB/T 3522-1983优质碳素结构钢冷轧钢带
- 主要电气设备绝缘电阻检查记录
- 探析小学数学作业分层设计与评价获奖科研报告
- 2023年陕西高考理科数学试题
评论
0/150
提交评论