《大数据挖掘与统计机器学习(第3版)》 课件8-神经网络_第1页
《大数据挖掘与统计机器学习(第3版)》 课件8-神经网络_第2页
《大数据挖掘与统计机器学习(第3版)》 课件8-神经网络_第3页
《大数据挖掘与统计机器学习(第3版)》 课件8-神经网络_第4页
《大数据挖掘与统计机器学习(第3版)》 课件8-神经网络_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第8章神经网络什么是神经网络人工神经网络(ArtificialNeuralNetworks,ANN),简称神经网络(NeuralNetworks,NN),是通过对人脑神经系统的抽象和建模而得到的简化模型,是一种具有大量连接的并行分布式处理器,由简单的处理单元组成,具有通过学习来获取知识并解决问题的能力。[Kohonen,1988]经典定义:“神经网络是由具有适应性的简单单元组成的广泛并行互连网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应”

。2神经网络的发展历史人工神经网络研究的先驱是生理学家McCulloch和数学家Pitts,他们于1943年在神经细胞生物学基础上,从信息处理的角度出发提出形式神经元的数学模型(McCullochandPitts,1943),开启了神经网络研究的第一个热潮。1969年人工智能创始人之一Minsky和计算机科学家Papert在《感知器》一书(MinskyandPapert,1969)中指出感知器模型的缺陷,由此引发了神经网络发展史上长达十几年的低潮时期。1982年美国物理学家Hopfield提出了一种新颖的Hopfield网络模型(Hopfield,1982;Hopfield,1984),标志着人工神经网络研究工作的复苏。3神经网络的发展历史以Rumelhart和McClelland为首的科学家小组于1986年发表了《并行分布式处理》一书的前两卷(Rumelhart,1986),该书介绍了并行分布式处理网络思想,发展了适用于多层神经网络模型的反向传播算法,

由此引发了神经网络研究的第二个热潮。人工神经网络的巨大计算量和优化求解难度使其只能包含少量隐层,从而限制了在实际应用中的性能,且伴随以支持向量机和组合算法为代表的统计学习的兴起,

90年代起,人工神经网络又逐渐受到冷落。2006年,多伦多大学计算机系教授GeoffreyHinton和其学生Salakhutdinov在《科学》上发表文章(HintonandSalakhutdinov),认为多隐层的人工神经网络具有优异的特征学习能力,而对于多隐层神经网络在训练上的困难,可以通过“逐层初始化”(通过无监督学习实现)来有效克服,由此Hinton开启了深度学习的研究浪潮。4深度学习与浅层学习当前多数分类、回归等学习方法为浅层结构算法,其局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受到一定制约。深度学习可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。5神经网络用来做什么就领域而言,目前,深度学习引起学术界与工业界的广泛关注,在语音识别、图像识别、自然语言处理等领域获得了突破性进展。就问题本身而言,神经网络可以解决解决回归问题(如:函数逼近),也可以分析分类问题。回归问题中,输出神经元的个数是1,数据类型是连续型;分类问题可以分为二分类问题和多分类问题。二分类问题中,输出神经元的个数是1,数据类型是0—1型(或正负1)。多分类问题有两种处理方式:第一种处理方式(也是最基本的处理方式)是多输出型;第二种处理方式是单输出(多网络)的形式。68.1前馈神经网络8.1.1生物神经元神经元分为树突、突触、细胞体和轴突。树突为神经元的输入通道,其功能是将其它神经元的动作电位传递至细胞体。其它神经元的动作电位借由位于树突分支上的多个突触传递至树突上。神经细胞可以视为有两种状态的机器,激活时为“是”,不激活时为“否”。神经细胞的状态取决于从其他神经细胞接收到的信号量,以及突触的性质(抑制或加强)。当信号量超过某个阈值时,细胞体就会被激活,产生电脉冲。电脉冲沿着轴突并通过突触传递到其它神经元。78.1.2人工神经元同理,人工神经元模型就是为了模拟上述过程,典型的神经元模型如下:每个神经元都接受来自其它神经元的输入信号,每个信号都通过一个带有权重的连接传递,神经元把这些信号加起来得到一个总输入值,然后将总输入值与神经元的阈值(偏置)进行对比(模拟阈值电位),然后通过一个“激活函数”处理得到最终的输出(模拟细胞的激活),这个输出又会作为之后神经元的输入一层一层传递下去。8引入激活函数的目的是在模型中引入非线性。如果没有激活函数,无论神经网络有多少层,最终都是一个线性映射,单纯的线性映射无法解决线性不可分问题,只相当于有一个隐层的神经网络。引入非线性可以让模型解决线性不可分问题。(随着网络的加深,通过非线性映射可以构造出各种有趣的函数)(1)阈值函数——阶跃函数和对称型阶跃函数(2)分段线性函数——分段线性函数和对称型分段线性函数

(3)sigmoid函数

(4)双曲正切函数tanh(5)ReLu函数(RectifiedLinearUnits)

9阈值函数——阶跃函数和对称型阶跃函数这是最简单的激活函数,其输出状态取二值(1与0,或+1与-1),用来简单模拟生物神经元“兴奋—抑制”的二值状态。10分段线性函数——分段线性函数和对称型分段线性函数自变量与函数值在一定区间内满足线性关系11sigmoid函数具有非线性、单调性和可微性,在线性和非线性之间具有较好的平衡,是人工神经网络中最常用的一种激活函数。两个缺点:均值不是0;梯度消失——后面解释当z值非常大或者非常小时,sigmoid函数的导数g′(z)将接近0。这会导致权重W的梯度将接近0,使得梯度更新十分缓慢,即梯度消失。12双曲正切函数tanhtanh函数在0附近很短一段区域内可看做线性的。由于tanh函数均值为0,因此弥补了sigmoid函数均值为0.5的缺点。缺点:梯度消失——后面解释当z很大或很小时,g′(z)接近于0,会导致梯度很小,权重更新非常缓慢,即梯度消失问题13ReLu函数弥补了sigmoid函数以及tanh函数的梯度消失问题。计算速度要快很多。ReLU函数只有线性关系,不管是前向传播还是反向传播,都比sigmod和tanh要快很多。(sigmod和tanh要计算指数,计算速度会比较慢)缺点:当输入为负时,梯度为0,会产生梯度消失问题。148.1.3前馈网络在前向网络中神经元是分层排列的,每层神经元只接收来自前一层神经元的输入信号,并将信号处理后输出至下一层,网络中没有任何回环和反馈。前向网络的层按功能可分为输入层、隐层和输出层。输入层负责接收来自外界的输入信号,并传递给下一层神经元。隐层可没有,也可有一层或多层,它是神经网络的内部处理层,负责进行信息变换。输出层负责向外界输出信息处理结果。

“5—3—4—2”结构的网络15神经网络的学习有监督学习(有导师学习):在这种学习方式下,神经网络外部需提供训练向量(样例)和相应的期望输出(目标值)。神经网络计算当前参数下训练向量的实际输出与期望输出间的差值,根据差值的方向和大小,依据一定的规则调整网络权值,使调整后的网络的实际输出结果与期望输出更接近。这种调整逐步反复进行,直至系统达到稳定状态。无监督学习(无导师学习)。在这种学习方式下,神经网络外部只提供训练向量,而不提供期望输出。此时神经网络按照自己的结构和学习规则,通过调节网络的参数来挖掘数据中可能存在的模式或统计规律,使神经网络的输入与输出之间的模式或统计规律与之尽可能一致。强化学习。强化学习介于有监督学习与无监督学习之间,强化学习中环境对训练向量给出评价信息(奖励或惩罚),而不给出具体的期望输出。然后神经网络通过强化受激励的动作来调节网络参数,改善自身性能。

168.2反向传播(BP)算法BP算法由信号的正向传播与误差的反向传播两部分组成。在正向传播过程中,信号由网络的输入层经隐层逐层传递至输出层,得到网络的实际输出。若此实际输出与期望输出不一致,则转入误差反向传播阶段。在反向传播阶段,将输出误差经由隐层向输入层反传,从而获得各层各单元的误差信号,依此信号对网络连接权值进行调整。反复执行信号的正向传播与误差的反向传播

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论