机器学习 课件 第10、11章 人工神经网络、强化学习_第1页
机器学习 课件 第10、11章 人工神经网络、强化学习_第2页
机器学习 课件 第10、11章 人工神经网络、强化学习_第3页
机器学习 课件 第10、11章 人工神经网络、强化学习_第4页
机器学习 课件 第10、11章 人工神经网络、强化学习_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章人工神经网络《机器学习》胡晓10.1神经元及基本模型

神经元(Neuron)是人脑神经系统的基本单元,负责接收和传递神经信号

通过突触(Synapse)与下一层神经元的树突连接起来,从而构成基本神经通路。美国心理学家FrankRosenblatt提出的感知机模拟了神经元的细胞膜电位累加和激活过程,建立了神经元的基本模型:线性变换和激活。

10.1神经元及基本模型

10.2激活函数

10.2激活函数

校正线性单元泄露校正线性单元指数线性单元软加函数softplus

10.2激活函数Swish激活函数2017年,GoogleBrain研究人员经过大规模搜索发现一种在许多任务上比ReLU性能更好的非线性激活函数,称为Swish,

10.3感知机感知机是1957年FrankRosenblatt在MP模型基础之上建立一个线性分类器。仅有一个神经元,并用符号函数作为激活函数,感知机学习算法是一种错误驱动学习算法感知机的异或难题

10.4前馈神经网络10.4.1前馈神经网络模型前馈神经网络的输入层和输出层之间有多个隐含层,各神经元分属于不同层。相邻两层神经元采用全连接,即每个神经元与相邻层的所有神经元相连接。每层神经元可以接收前一层神经元信号,并形成新信号,然后输出到下一层。整个神经网络没有反馈,信号从输入层向输出层单向传播。

10.4前馈神经网络单个神经元与前一层神经元的信息传递关系当前层所有神经元与前一层神经元的信息传递

10.4前馈神经网络

10.4前馈神经网络

10.4前馈神经网络10.4.3反向传播算法

结合梯度下降法可以训练神经网络参数10.5卷积神经网络

互相关和卷积

10.5卷积神经网络卷积层之所以称该层为卷积层,因为这一层的基本操作是卷积,即一张或一组特征图与滤波器核卷积。在神经网络中,把滤波器核在输入特征图覆盖区域称为感受野(ReceptiveField),10.5.2卷积神经网络架构图像卷积层中线性变换用矩阵表示为,

池化层在池化层主要完成特征图的不重叠下采样。池化函数主要有平局池化、最大池化、随机池化和全局平均池化。10.5卷积神经网络10.5卷积神经网络10.5卷积神经网络10.5.3卷积神经网络残差反向传播解决如何把残差往前级传送。

10.6简单卷积神经网络10.6.1LeNet-51998年,LeCun等人提出LeNet-5是经典的卷积神经网络。虽然LeNet简单,但模块齐全。20世纪90年代被美国很多银行使用,用来识别支票上面手写数字。网络架构由输入层、3个卷积层、2个池化层、1个全连接层和输出层组成。其中,每个卷积层包括卷积和激活2个子层组成。10.6简单卷积神经网络10.6.2AlexNet

10.6简单卷积神经网络10.6.3VGG2014年,由牛津大学视觉几何组(VisualGeometryGroup)提出VGGNet在ILSVRC中获得了定位任务第1名和分类任务第2名,设计了A、A-LRN、B、C、D和E共6种网络结构,其中D和E分别是著名的VGG16和VGG19:(1)VGG16包含

13个卷积层和3个全连接层共16个隐藏层;(2)VGG19包含16个卷积层个3个全连接层共19个隐藏层。10.6简单卷积神经网络10.6.4Inception2014年至2016年,Google团队发表了多篇关于Inception的经典论文详细介绍了Inception演进版本[15-18]:Inception-V1、-V2、-V3、-V4和Inception-ResNet等,10.6简单卷积神经网络10.6.5ResNet由微软实验室的KaimingHe等人于2015年提出的残差网络(ResidualNetwork,ResNet),较好地解决了上述问题,并斩获了当年ImageNet竞赛中分类任务第一名。此后,在分类、检测、分割等任务大规模使用残差网络(ResNet50/ResNet101)作为网络骨架。谢谢!第11章强化学习《机器学习》胡晓强化学习与监督学习、无监督学习在强化学习中,没有可学习的(标注)数据;在一个不断变化的状态空间,解决一个决策链问题。有一个明确目标,通过尝试达到目的。而规划学习则是通过计算达到目的监督学习无监督学习强化学习训练样本智能体与环境交互轨迹和累积奖励优化目标期望总回报学习准则期望风险最小最大似然估计最大似然估计最小重构错误策略评估策略改进11.1强化学习概述11.1.1基本概念

强化学习涉及到一个过程、两个主体(智能体和环境),三个要素(状态、动作和奖励)

智能体(Agent)可感知外界环境的状态(State)和接受反馈奖励(Reward),并具备学习能力(learning)和决策功能(policy)的实体环境(Environment)智能体从外部感知的所有事物和信息,称为环境,用状态描述11.1强化学习概述11.1.1基本概念

强化学习涉及到一个过程、两个主体(智能体和环境),三个要素(状态、动作和奖励)

动作(Action)对智能体能执行行为的描述,其描述值可以是离散的或连续的

状态转移概率转移模型

11.1强化学习概述11.1.2策略评估和策略控制

11.1强化学习概述11.1.2策略评估和策略控制价值函数(ValueFunction)智能体从某状态(也可从初始状态)到终点状态的一段行为轨迹称为一幕(Episode)。

11.1强化学习概述

11.1强化学习概述

11.1强化学习概述

定义最优状态价值函数为

11.1强化学习概述策略评估

这是迭代策略评估(iterativepolicyevaluation)的基本公式11.1强化学习概述

策略控制

11.1强化学习概述11.1.3强化学习分类按模型分基于模型(Model-Based)和无模型(Model-Free)按策略分同轨策略(on-policy)和离轨策略(off-policy)两类价值学习和策略学习11.2表格强化学习

11.2.1蒙特卡洛蒙特卡洛(MonteCarlo)基本思想:用大量随机试验估计未知量

首次访问(firstvisit)每次访问(everyvisit)11.2.2动态规划(DynamicProgramming)广义策略迭代(GeneralizedPolicyIteration,GPI)。

11.2.3时序差分

例11.2设从学生宿舍到教室上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论