![第6章 人工神经网络_第1页](http://file4.renrendoc.com/view/3e47db6f387990bdf3640ce671e8bf2e/3e47db6f387990bdf3640ce671e8bf2e1.gif)
![第6章 人工神经网络_第2页](http://file4.renrendoc.com/view/3e47db6f387990bdf3640ce671e8bf2e/3e47db6f387990bdf3640ce671e8bf2e2.gif)
![第6章 人工神经网络_第3页](http://file4.renrendoc.com/view/3e47db6f387990bdf3640ce671e8bf2e/3e47db6f387990bdf3640ce671e8bf2e3.gif)
![第6章 人工神经网络_第4页](http://file4.renrendoc.com/view/3e47db6f387990bdf3640ce671e8bf2e/3e47db6f387990bdf3640ce671e8bf2e4.gif)
![第6章 人工神经网络_第5页](http://file4.renrendoc.com/view/3e47db6f387990bdf3640ce671e8bf2e/3e47db6f387990bdf3640ce671e8bf2e5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1943年,McCulloch和Pitts提出了形式神经元,开创了神经科学理论研究2010年后兴起的深度学习,其神经网络算法的基石是BP算法神经网络的发展历史:人工神经网络简称为神经网络或称为连接模型。早在1943年,心理学家McCulloch和数学家Pitts合作提出了形式神经元的数学模型,从此开创了神经科学理论研究的时代;1957年Rosenblatt提出的感知器模型,由阈值性神经元组成,试图模拟动物和人脑的感知和学习能力;1986年,由Rumelhart和McCelland为首的科学家小组提出了BP神经网络,这一成果标志着神经网络的研究取得了突破性的进展;随着2010年后深度学习的兴起,出现了许多深度神经网络模型及相应的学习算法,但大多是基于梯度计算的误差反向传播学习算法这也是最常用的神经网络算法的基石。第一部分——第6章:背景——发展历史一般我们可以把神经网络的发展历史分成4个时期萌芽时期(1890-1960)第一次高潮时期(1969-1982)第二次高潮时期(1982-1986)第三次高潮时期(2000-至今)第一部分——第6章:6.1前馈神经网络前馈神经网络前馈神经网络(FeedforwardNeuralNetwork,FNN)也称为多层感知器(Mutlti-LayerPerceptron,MLP),前馈神经网络主要由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层与下一层连接。这种连接是前馈神经网络架构的关键。前馈神经网络前馈神经网络的早期形式为单层感知器(Perceptron),是FrankRosenblatt在1957年就职于Cornell航空实验室时所发明的一种人工神经网络。后来,在单层感知器基础上发展起了多层感知器(MLP),反向传播算法常被MLP用来进行学习,在模式识别的领域中算是标准监督学习算法,并在计算神经学及并行分布式处理领域中,持续成为被研究的课题。MLP已被证明是一种通用的函数近似方法,可以被用来拟合复杂的函数,或解决分类问题。MLP在80年代曾是相当流行的机器学习方法,拥有广泛的应用场景,譬如语音识别、图像识别、机器翻译等等。1人脑神经元结构第一部分——第6章:6.1前馈神经网络随着2010年后深度学习的兴起,深度神经网络在语音识别、模式分类、过程监控等领域取得了极大的成功。与卷积神经网络等深度神经网络相比,前馈神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构,MLP等前馈神经网络又重新得到了关注。1然而前馈神经网络并不是从生物系统角度描述人脑的神经元结构,只是对其某些结构和功能进行模仿和简化。网络中各个神经元之间的连接强度靠改变权值和阈值的大小来实现。权值和阈值随着网络训练和学习进行调整改变,优化各个神经元之间的连接强度,从而不断提高整个网络对训练样本特征的反应灵敏度和精确度前馈神经网络模型包括输入层、隐含层和输出层。各相邻层的神经元可全连接,但相同层各神经元之间不连接。通常所用的前馈神经网络都是三层网络,三层前馈神经网络是最基本的网络结构,对于一般的问题,三层网络可以很好地解决问题。Hecht-Nielsen证明有足够多结点的三层神经网络可以产生任意复杂的映射,足以用于解决一般性的问题。如图所示在基于BP算法的多层感知器中,是最普遍的单隐层网络的拓扑结构。前馈神经网络的拓扑结构第一部分——第6章:6.1前馈神经网络前馈神经网络的结构确定神经网络的隐含层是决定神经网络建立成功与否的关键,目前尚未有很好的数学表达式能够准确的计算出不同网络所需要的隐含层节点个数。隐含层的节点个数与输入层的神经元个数和输出层节的点个数密切相关。若隐含层节点数过少,网络用以解决问题的信息量不足;若隐含层节点数过多,不仅网络训练和学习的时间长,出现“过度吻合”。目前有以下3种常用于选择隐含层数的经验公式可供参考:第一部分——第6章:6.1前馈神经网络前馈神经网络的隐含层设计隐含层设计
第一部分——第6章:6.1前馈神经网络BP算法规则求vjk的梯度:求wij的梯度:第一部分——第6章:6.1前馈神经网络训练理念(梯度下降)1能以任意精度逼近任何非线性函数,在短时间内学习和贮存大量输入——输出模式映射,而不需要知道这些映射关系的数学表达式第一部分——第6章:6.1前馈神经网络以BP神经网络为代表的的前馈神经网络的最大优点在于其中,基于梯度计算的BP误差反向传播学习算法是后续深度学习神经网络的理论基石能通过训练样本反向传播调节网络的权值和阀值,通过网络的自学习来达到网络的误差平方和最小的目的第一部分——第6章:6.2卷积神经网络卷积神经网络卷积神经网络(ConvolutionalNeuralNetworks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeuralNetworks),是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称”平移不变人工神经网络”。
对卷积神经网络的研究可追溯至日本学者福岛邦彦提出的neocognitron模型。在其1979和1980年发表的论文中,福岛仿造生物的视觉皮层设计了以“neocognitron”命名的神经网络,其部分实现了卷积神经网络中卷积层(convolutionlayer)和池化层(poolinglayer)的功能,被认为是启发了卷积神经网络的开创性研究。
1988年,WeiZhang提出了第一个二维卷积神经网络:平移不变人工神经网络,并将其应用于检测医学影像。独立于WeiZhang,YannLeCun在1989年同样构建了应用于计算机视觉问题的卷积神经网络,即LeNet的最初版本。1LeNet包含两个卷积层,2个全连接层,共计6万个学习参数,且在结构上与现代的卷积神经网络十分接近。LeCun对权重进行随机初始化后使用了随机梯度下降进行学习,这一策略被其后的深度学习研究所保留。由于LeCun在论述其网络结构时首次使用了“卷积”一词,“卷积神经网络”也因此得名。卷积操作局部感受野第一部分——第6章:6.2卷积神经网络CNN网络概念CNN网络与神经网络卷积神经网络是神经网络的一种变形卷积神经网络与神经网络的主要区别就是CNN采用了卷积和子采样过程。神经生物学中局部感受野的提出(1962)催生了卷积的思想。卷积减少了CNN网络参数,子采样减少了网络参数,权值共享大大减少的CNN网络参数。但是CNN具备深层结构第一部分——第6章:6.2卷积神经网络卷积神经网络的一般结构第一部分——第6章:6.2卷积神经网络卷积核CNN网络的卷积核卷积核kernal在inputX图中从左向右,从上至下每次移动一个位置,对应位置相乘求和并赋值到OutputY中的一个位置。第一部分——第6章:6.2卷积神经网络池化CNN网络的池化(pooling)池化通常有两种形式。均值池化和最大池化,池化可以看做一种特殊的卷积过程。第一部分——第6章:6.2卷积神经网络小结卷积神经网络卷积神经网络一般由卷积层、池化层、全连接层和输出层组成卷积层和池化层通常设置成多个,挖掘输入数据中深层次的特征,卷积核对输入数据进行遍历卷积时,会生成二维的特征图;当特征图传输到全连接时,需要将特征图拉直成一维,再与全连接层连接,最后连上输出层,形成完整的CNN模型。CNN卷积神经网络因其卷积-池化的网络结构,能够从输入数据中提取较深层次的特征,在多个领域都有所应用。一般的全连接神经网络对维数较大的样本进行特征提取时,会产生很多的参数,忽略数据之间的局部相关性,且易出现过拟合现象,泛化能力较差,也无法对数据自身的这种位置特性进行学习。而CNN具有局部连接和权值共享两大优点,权值共享减少了网络参数,而其与输入数据的局部连接更是能够挖掘出输入数据的局部性特征。其结构和流程如下:11然而对于相对较复杂的问题,RNN便会暴露其缺陷,这归因于激活函数。激活函数在神经网络里最多只能存在6层左右,因为它的梯度随着网络层反向传播逐步累乘,梯度逐渐趋向于0。而在RNN中,误差传递不仅仅存在于网络层与网络层之间,也存在于每一层的样本序列间,所以RNN梯度弥散现象更加严重。第一部分——第6章:6.3长短期记忆网络虽然前馈神经网络取得很大成功,但它无法明确模拟时间关系,并且所有数据点都是固定长度的向量。所以就诞生了RNN(循环神经网络)。循环神经网络与其他网络的不同之处在于,所以能够持续保留信息,能够根据之前状态推出后面的状态。RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。由于RNN的网络参数相比较少,传统的RNN仅适用于简单的逻辑和样本长短期记忆网络(Long-ShortTermMemory,LSTM)论文首次发表于1997年,是一种时间循环神经网络,为了解决一般的RNN(循环神经网络)存在的长期依赖问题,学者提出了长短期记忆网络(LSTM),有效地消除了RNN的梯度弥散现象。由于独特的设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。长短期记忆网络结构第一部分——第6章:6.3长短期记忆网络第一部分——第6章:6.3长短期记忆网络长短期记忆网络结构网络结构长短期记忆网络(LSTM)通过对RNN隐含层神经元结构的改进,有效地解决梯度弥散的问题。LSTM通过设计“门”结构,实现对之前时间步的计算结果有选择地保留。LSTM单元中有三个门,分别为输入门,遗忘门和输出门遗忘门结构第一部分——第6章:6.3长短期记忆网络长短期记忆网络的门控单元网络结构LSTM神经元中遗忘门作用是对细胞状态中的信息进行筛选。遗忘门会将上一时间步隐藏层的输出和当前时刻节点的输入组合,再经过Sigmoid函数计算得到0和1之间的值并作用于上一时刻的细胞状态,来确定哪些信息是有价值的,其数学表达式如下:输入门结构第一部分——第6章:6.3长短期记忆网络长短期记忆网络的输入门结构输入门结构输入门用来控制当前隐含层细胞状态的输入。对输入的信息通过一些运算,判断是否将输入信息更新到当前时刻的细胞状态中。输入门输出的是Sigmoid函数在0到1之间的数值,然后作用于输入信息,来确定是否更新细胞状态,其中1表示需要更新,0表示不需要更新。其数学表达式如下:输出门结构第一部分——第6章:6.3长短期记忆网络长短期记忆网络的输出门结构输出门结构输出门用来控制当前隐藏层节点的输出,确定是否带入到下一时间步的计算中。先利用函数Tanh对细胞状态进行处理,并与Sigmoid的输出相乘。其数学表达式如下:第一部分——第6章:6.3长短期记忆网络小结长短期记忆网络解决了RNN网络中的梯度弥散问题,能学习较长时间步,适合处理和预测时间序列中间隔和延迟非常长的重要事件;能有效模拟时间关系并持续保留信息,能够根据之前状态推出之后的状态长短期记忆网络LSTM是一种时间递归神经网络,是使用RNN的一个飞跃。LSTM算法在人工智能之机器学习、翻译语言、控制机器人、图像分析、文档摘要、语音识别、图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等领域有着广泛应用。优点
强化学习的目标是学习一个策略,使得智能体选择的动作能够获得环境最大的回报。回报可以用一个函数来计算,又称为回报函数。为了衡量强化学习的长期效果,通常用值函数(valuefunction)来代替回报函数,不仅衡量动作的即时回报,还衡量从该状态起随后一系列可能的状态所累积的回报。经典的强化学习方法往往无法解决状态和动作空间维度很高的问题,一个有效的解决方法是使用函数近似,即将值函数或者策略用一个函数来表示。常用的近似函数有线性函数、核函数、神经网络等。第一部分——第6章:6.4强化学习强化学习强化学习,又称为增强学习或再励学习。强化学习的主体是智能体,其主要思想是智能体与环境交互和试错,利用评价性的反馈信号实现决策的优化。当智能体的某个动作导致环境正的奖赏或回报,即为强化信号,则智能体以后产生这个动作的趋势便会加强;反之,智能体产生这个动作的趋势会减弱。强化学习主要有4个要素,即策略、回报、动作和环境。第一部分——第6章:6.4强化学习什么是强化学习强化学习介绍生物进化过程中为适应环境而进行的学习有两个特点:一是人从来不是静止的被动的等待而是主动的对环境作试探;二是环境对试探动作产生的反馈是评价性的,生物根据环境的评价来调整以后的行为,是一种从环境状态到行为映射的学习。具有以上特点的学习就是强化学习。强化学习(reinforcementlearning)又称为再励学习,是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖励值最大的一种机器学习方法,智能控制机器人及分析预测等领域有许多应用。强化学习是一种在线的、无导师机器学习方法。在强化学习中,我们设计算法来把外界环境转化为最大化奖励量的方式的动作。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励1、能感知环境的状态2、选择动作(可能会影响环境的状态)3、有一个目标(与环境状态有关的)Agent以最终目标为导向,与不确定的环境之间进行交互,在交互过程中强化好的动作,获得经验第一部分——第6章:6.4强化学习强化学习工作原理强化学习工作原理Agent(学习的主体)具有特点四要素之间的关系第一部分——第6章:6.4强化学习强化学习基本要素除了Agent和环境之外,强化学习系统的四个主要子要素:策略(policy)、奖赏函数(rewardfunction)、值函数(valuefunction)和一个可选的环境模型(model)。基本要素第一部分——第6章:6.4强化学习强化学习基本要素策略策略定义了Agent在给定时间内的行为方式。简单地说,一个策略就是从环境感知的状态到在这些状态中可采用动作的一个映射,策略在某种意义上说是强化学习Agent的核心奖赏函数奖赏函数定义了在强化学习问题中的目标。简单地说,它把环境中感知到的状态(或状态-动作对)映射为单独的一个数值,即奖赏(reward),表示该状态内在的可取程度。强化学习Agent的唯一目标就是最大化在长期运行过程中收到的总奖赏值函数对于一个策略,如果我们可以在一个状态上就看到这个策略未来将会取得的累积奖赏,提供这种功能的函数在强化学习中称为值函数(Valuefunction)。奖赏决定了环境状态的直接、内在的可取性,而值表示的是把可能的后续的状态以及在这些状态中可获得的奖赏考虑在内的状态的长期可取性第一部分——第6章:6.4强化学习强化学习基本要素环境模型有些强化学习系统中还存在着第四个也是最后一个要素:环境模型。它模拟了环境的行为。例如,给定一个状态和动作,这个模型可以预测必定导致的下一状态和下一奖赏。强化信号强化信号可以从环境的状态中直接获得。例如:传感器检测到机器人与障碍物的距离信息小于给定值时都可看做一个失败信号。倒立摆的角度大于一定值就可产生一个失败信号。强化信号也可从环境的状态信息中间接获得,当环境的状态值达不到预期的要求时,也可以认为产生了一个失败的强化信号第一部分——第6章:6.4强化学习DeepMind团队于2016年提出的深度确定性策略梯度方法即DDPG算法,解决了连续动作空间的强化学习问题。DDPG算法,全称为深度确定性策略梯度(DeepDeterministicPolicyGradient,DDPG)算法,是一种无模型的离策略Actor-Critic强化学习方法,利用深度神经网络来学习连续动作空间的策略,DDPG算法中,策略是参数化的,通过策略梯度方法,直接优化深度神经网络的参数。深度强化学习深度学习和强化学习都是人工智能的重要分支,近年来最成功的函数近似方法就是使用深度神经网络作为强化学习的非线性近似函数,将深度学习和强化学习相结合,即为深度强化学习。深度强化学习由DeepMind团队于2015年首次提出之后,将其发展并分别应用于打败人类围棋冠军的AlphaGo和更强的AlphaGoZero。然而这时的深度学习技术DQN(DeepQ-Learning)依然解决的是离散动作的问题,无法直接应用于权重连续的投资组合管理。第一部分——第6章:6.4强化学习深度强化学习深度强化学习DDPG行为(action)可以简单分为:连续的:如赛车游戏中的方向盘角度、油门、刹车控制信号,机器人的关节伺服电机控制信号;离散的:如围棋、贪吃蛇游戏。AlphaGo就是一个典型的离散行为agent。DDPG是针对连续行为的策略学习方法,全称是DeepDeterministicPolicyGradient,是将深度学习神经网络融合进DPG的策略学习方法。相对于DPG的核心改进是:采用卷积神经网络作为策略函数μ和Q函数的模拟,即策略网络和Q网络;然后使用深度学习的方法来训练上述神经网络第一部分——第6章:6.4强化学习DDPG算法的结构DDPG算法结构DDPG算法是一种深度增强学习算法,使用了基于确定动作策略的演员-评论家算法框架,并在演员部分采用了确定性策略(DPG)。该算法的核心是4个神经网络,演员部分有2个神经网络(演员网络u和演员网络u'),评论家部分有2个神经网络(评论家网络Q和评论家网络Q)第一部分——第6章:6.4强化学习DDPG实现框架和算法DDPG实现框架实践证明,如果只使用单个"Q神经网络"的算法,学习过程很不稳定,因为Q网络的参数在频繁gradientupdate的同时,又用于计算Q网络和策略网络的gradient,基于此,DDPG分别为策略网络、Q网络各创建两个神经网络拷贝,一个叫做online,一个叫做target:在训练完一个mini-batch的数据之后,通过SGA/SGD算法更新online网络的参数,然后再通过softupdate算法更新target网络的参数。softupdate是一种runningaverage的算法:优点target网络参数变化小,用于在训练过程中计算online网络的gradient,比较稳定,训练易于收敛代价参数变化小,学习过程变慢。第一部分——第6章:6.5迁移学习迁移学习标准机器学习的前提假设是训练数据和测试数据的分布是相同的。如果不满足这个假设,在训练集上学习到的模型在测试集上的表现会比较差。而在很多实际场景中,经常碰到的问题是由标注数据的成本十分高,无法为一个目标任务准备足够多相同分布的训练数据。因此,如果有一个相关任务已经有了大量的训练数据,虽然这些训练数据的分布和目标任务不同,但是由于训练数据的规模比较大,我们假设可以从中学习某些可以泛化的知识,那么这些知识对目标任务会有一定的帮助。如何将相关任务的训练数据中的可泛化知识迁移到目标任务上,就是迁移学习(TransferLearning)要解决的问题。第一部分——第6章:6.5迁移学习迁移学习一种从以前的任务当中去学习知识,并应用于新的任务当中的方法目的从一个或多个源任务(sourcetasks)中抽取知识、经验,然后应用于一个新目标领域(targetdomain)当中去起源自1995年以来,迁移学习吸引了众多的研究者的关注。由于深度学习需要大量的高质量标注数据,但在某些特定领域中,高质量的数据是极其有限珍贵的,传统的深度学习对这类数据并不能很好地学习迁移学习深度学习将迁移学习与深度学习相互结合很好地解决了这类问题,当前深度学习中一个非常流行的策略就是将在大数据集上的预训练模型作为网络基础,针对自己特定领域的数据集进行网络底层微调。尤其是以图像领域为代表,大部分迁移学习网络选择预训练的ImageNet对模型进行初始化,取得了非常好的效果。迁移学习概述随着越来越多的机器学习应用场景的出现,而现有表现比较好的监督学习需要大量的标注数据,标注数据是一项枯燥无味且花费巨大的任务,所以迁移学习受到越来越多的关注。传统机器学习(主要指监督学习)基于同分布假设、需要大量标注数据然而实际使用过程中不同数据集可能存在一些问题,比如数据分布差异标注数据过期训练数据过期,也就是好不容易标定的数据要被丢弃,有些应用中数据是分布随着时间推移会有变化如何充分利用之前标注好的数据(废物利用),同时又保证在新的任务上的模型精度基于这样的问题,所以就有了对于迁移学习的研究第一部分——第6章:6.5迁移学习迁移学习的相关概念
第一部分——第6章:6.5迁移学习迁移学习的形式定义深度学习需要大量的高质量标注数据,Pre-training+fine-tuning是现在深度学习中一个非常流行的trick,尤其是以图像领域为代表,很多时候会选择预训练的ImageNet对模型进行初始化。第一部分——第6章:6.5迁移学习深度学习和迁移学习结合学习方案利用迁移学习,不是从零开始学习,而是从之前解决各种问题时学到的模式开始。这样我们就可以利用以前的学习成果(例如VGG19、Inception、MobileNet、ResNet),不用从零开始训练一个新模型,可以从在类似问题中训练过的模型入手,我们把这些模型叫做预训练模型。简单来说,预训练模型(pre-trainedmodel)是前人为了解决类似问题所创造出来的模型第一部分——第6章:6.5迁移学习实现迁移学习方案三种学习手段TransferLearning:冻结预训练模型的全部卷积层,只训练自己定制的全连接层。ExtractFeatureVector:先计算出预训练模型的卷积层对所有训练和测试数据的特征向量,然后抛开预训练模型,只训练自己定制的简配版全连接网络。Fine-tuning:冻结预训练模型的部分卷积层(通常是靠近输入的多数卷积层)甚至不冻结任何网络层,训练剩下的卷积层(通常是靠近输出的部分卷积层)和全连接层适应小数据迁移学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 酒店餐饮部年终总结
- 助理个人工作计划书
- 天然气施工合作协议
- 小产权房赠与协议书范本
- 餐饮公司股东出资协议书范本
- 小学英语听评课记录表格
- 江苏省连云港市七年级地理上册 1.2 地球的运动说课稿 新人教版
- 教育研究之路
- 2025年度航空航天材料研发与应用合同-@-4
- 五年级数学下册听评课记录《2因数与倍数2-2、5、3的倍数的特征》(人教版9)
- 科室医院感染风险评估表
- 山东省食用油(植物油)生产企业名录496家
- 《智慧农业》的ppt完整版
- GB∕T 33047.1-2016 塑料 聚合物热重法(TG) 第1部分:通则
- 经济学市场失灵与政府失灵课件
- 电力业务许可证豁免证明
- 特发性肺纤维化IPF
- FIDIC国际合同条款中英文对照.doc
- 建筑工程资料归档立卷分类表(全)
- 个人劳动仲裁申请书
- 国籍状况声明书
评论
0/150
提交评论