版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录摘要 摘要神经网络作为一门新兴的信息处理科学,是对人脑若干基本特性的抽象和模拟。它是以人的人脑工作模式为基础,研究白适应及非程序的信息处理方法。这种工作机制的特点表现为通过网络中人量神经元的作用来体现它白身的处理功能,从模拟人脑的结构和单个神经元功能出发,达到模拟人脑处理信息的日的。目前,在国民经济和国防科技现代化建设中神经网络具有广阔的应用领域和发展前景,其应用领域主要表现在信息领域、自动化领域、程领域和经济领域等。不可否认的是,虽然它具有广泛的应有领域,同时自身也存在着许多缺点,从而成为当今人们一直研究的热点问题。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。它在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。将深度学习与各种实际应用研究相结合也是一项很重要的工作。关键词:神经网络,卷积神经网络,深度学习,图像识别AbstracTheneuralnetworkasakindofemerginginformationprocessingscience,whichcanabstractandsimulatesomebasiccharacteristicofthehumanbrain.Itisaninformationprocessmethodthatastudyauto-adapted,thenon-procedural,takesperson'scerebrumworkingpatternasafoundation.Thecharacteristicofthiskindworkmechanismdisplaysitownprocessingfunctioninthemassiveneuronsfunctionthroughthenetwork,fromsimulatingthehumanbrainstructureandthesingleneuronfunction,achievedthegoalthatsimulatesthehumanbrainprocessinformation.Atpresent,inthenationaleconomyandmodernizationofnationaldefensescienceandtechnology,theneuralnetworkhasthebroadapplicationdomainandtheapplicationprospect,itsmainlyappliedininformation,automated,project,economicalandsoon,withoutadoubt,althoughithaswidelyapplieddomain,simultaneouslyalsohasmanyinsufficiencies,thusbecomesthehottopicwhichnowthepeoplecontinuouslystudies.Asacomplexmachinelearningalgorithms,recognitionaccuracyofdeeplearningonimageandaudioisfarbeyondtheprevioustechnologies.Deeplearninghasalsoachievedgreatsuccessinthesearchtechnology,datamining,machinelearning,machinetranslation,naturallanguageprocessing,multimedialearning,speech,recommendationandpersonalizationtechnology,etc.Ithassolvedmanycomplicatedpatternrecognitionproblem,andpromotedtheprogressoftheartificialintelligencetechnology.Itisaveryimportantworktocombinedeeplearningwithapplicationresearch.Keywords:Neuralnetwork,ConvolutionalNeuralNetworks,deeplearning,Imagerecognition1.
绪论1.1神经网络概述自从1946年第一台计算机问世以来,计算机软、硬件技术得到飞速发展。这些技术的发展,使计算机在工业控制的应用中得到了普及的同时,也推动了高级过程控制、人工智能控制等复杂工业控制算法、策略的诞生、发展和完善。在过程计算机控制发展领域,值得一提的是预测控制技术的发展。经典控制理论和现代控制理论都需要受控对象的精确数学模型,然而实际中的对象往往是多变量、高阶、时变的复杂过程。预测控制是一种基于模型的先进控制技术,它是20世纪70年代中后期在欧美工业领域内出现的一类新型计算机优化控制算法。它对模型精度的要求不高,同时却具有较高的控制性能。由于模型形式、优化策略和校正措施的不同,可以形成各种预测控制算法,如动态矩阵控制(DMC)、模型算法控制(MAC)、广义预测控制(GPC)等等。20世纪80年代中期以来,人工神经网络以其独特的优点引起了人们的极大关注。对于控制界,神经网络的吸引力在于:能够充分逼近复杂的非线性映射关系;能够学习与适应不确定系统的动态特性;所有定量或定性的信息都分布存储于网络的各个神经元,所以有较强的鲁棒性和容错性;用并行分布处理方法,使得进行快速大量运算成为可能。这些特点显示了神经网络在解决高度非线性和严重不确定性系统的建模与控制方面的巨大潜力。可以断定,把神经网络引入控制系统是控制学科发展的必然趋势,神经网络的这些特点也使基于神经网络的预测控制算法得到迅速发展,将神经网络与预测控制相结合,为解决复杂非线性系统控制问题提供了新的方法。近年来,基于神经网络的预测控制在理论上及应用上均取得很大进展,出现了多种实用的方法,在复杂工业过程控制中取得了许多成功的应用。Jose等(1998)提出一种直接自适应神经网络控制器,能够对未知的非线性系统进行预测控制,并成功地将其应用在热交换过程的流速与温度控制中。Hu等(1999)设计了基于模糊神经网络模型的有约束多步预测控制,并将其应用于烧结生产线的线速度控制中。陈增强和袁著祉等(2001)将神经网络自校正预测控制应用于涤纶片基拉膜生产线横向剖面这个复杂的多变量非线性系统上,极大地提高了产品的优质率。王树青等(2003)将神经网络预测控制成功地应用到水轮发电机组的转速控制中,大大提高了系统的安全性。Arahal等(2004)采用并行结构的递归神经网络在多组热交换器中进行了应用。这些成功的应用实践表明结合神经网络与预测控制的优势而形成的神经网络预测控制在工业过程中具有广阔的应用前景。2.神经网络的提出与发展2.1神经网络的定义人工神经网络(Artificial
Neural
Network—ANN),简称为“神经网络(NN)”,作为对入脑最简单的一种抽象和模拟,是人们模仿人的大脑神经系统信息处理功能的一个智能化系统。它的出现成为人们进一步了解入脑思维奥秘的有力工具。尽管它还不是大脑的完美无缺的模型,但它特有的非线性适应性信息处理能力,可以通过学习来获取外部的知识并存储在网络内,可以解决计算机不易处理的难题,特别是语音和图像识别、理解、知识的处理、组合优化计算和智能控制等~
系列本质上非计算的问题,使之在神经专家系统、模式识别、智能控制、组合优化、预测等领域得到成功应用。人工神经网络与其他传统方法相结合,将推动人工智能和信息处理技术不断发展。80年后代期,特别是在近年来,神经网络的研究取得了很大的进展,在神经网络这个涉及生物、电子、计算机、数学、物理等多种学科的新的高科技领域中,吸引了众多的神经生理学家、心理学家、数学家、计算机与信息科学以及工程师和企业家等。大量的有关神经网络机理、模型、算
法特性分析,以及在各方面应用的研究成果层出不穷,在国际上掀起了一股人工神经网络的研究热潮。
神经网络是由多个简单的处理单元彼此按某种方式相互连接而形成的计算机系统,该系统通过对连续或断续式的输入作状态响应而进行信息处理。虽然每个神经元的结构和功能十分简单,但由大量神经元构成的网络系统的行为确实丰富多彩和十分复杂。
图2-1神经网络神经元的非线性模型BP神经网络是基于BP算法的多层前馈网络,其网络结构简单,算法成熟,具有自学习和自适应等优点,并且具有非线性动力学的特点。BP算法通过输入、输出数据样本集,根据误差反向传递的原理,对网络进行训练,其学习过程包括信息的正想传播过程以及误差的反向传播这两个过程,对其反复训练,连续不断地在相对误差函数梯度下降的方向上,对网络权值和偏差的变化进行计算,逐渐逼近,目标。典型的BP神经网络由一个输入层、至少一个隐含层和一个输出层组成。一个典型的三层BP神经网络如下图所示:图2-2三层神经网络模型2.1神经网络的发展历程
人工神经网络的研究始于20世纪40年代。半个多世纪以来,它经历了一条由兴起到衰退,又由衰退到兴盛的曲折发展过程,这一发展过程大致可以分为以下四个阶段。
2.1.1初始发展阶段
人工神经系统的研究可以追溯到1800年Frued的前精神分析学时期,他已做了些初步工作1913年人工神经系统的第一个实践是Russell描述的水力装置。1943年美国心理学家Warren
S
McCulloch与数学家Water
H
Pitts合作,用逻辑的数学工具研究客观事件在形式神经网络中的描述,从此开创了对神经网络的理论研究。他们在分析、总结神经元基本特性的基础上,首先提出了神经元的数学模型,简称胛模型。从脑科学研究来看,MP模型不愧为第一个用数理语言描述脑的信息处理过程的模型。后来MP模型经过数学家的精心臻理和抽象,最终发展成一种有限自动机理论,再一次展现了MP模型的价值。此模型沿用至今,直接影响着这一领域研究的进展。通常认为他们的工作是神经网络领域研究工作的开始。
在McCulloch和Pitts之后,1949年心理学家D.0.Hebb发表了论著《行为自组织》”,首先提出了一种调整神经网络连接权值的规则。他认为,学习过程是在实触上发生的,连接权值的调整正比于两相连神经元活动状态的乘积,这就是著名的Hebb学习律。直到现在,Hebb学习律仍然是神经网络中的一个极为重要的学习规则。人工神经网络第一个实际应用出现在1957年,F.Rosenblatt。”提出了著名的感知器(Perceptron)模型和联想学习规则。这是第一个真正的人工神经网络。这个模型由简单的闽值神经元构成,初步具备了诸如并行处理、分布存储和学习等神经网络的一些基本特性,从而确立了从系统角度研究神经网络的基础。同时。在1960年B.Widrow和M.E.Hoff”1提出了自适应线性元件网络,简称为Adaline(Adaptive
1inear
element),不仅在计算机上对该网络进行了模拟,而且还做成了硬件。同时他们还提出了Widrow—Hoff学习算法,改进了网络权值的学习速度和精度,后来这个算法被称为LMS算法,即数学上的最速下降法,这种算法在以后的BP网络及其他信号处理系统中得到了广泛的应用。
2.1.2低潮时期
但是,Rosenblatt和Widrow的网络都有同样的固有局限性。这些局限性在1969年美国麻省理工学院著名的人工智能专家M.Minsky和S.Papert共同出版的名为《感知器》”1的专著中有广泛的论述。他们指出单层的感知器只能用于线性问题的求解,而对于像XOR(异或)这样简单的非线性问题却无法求解。他们还指出,能够求解非线性问题的网络,应该是具有隐层的多层神经网络,而将感知器模型扩展到多层网络是否有意义,还不能从理论上得到有力的证明。Minsky的悲观结论对当时神经网络的研究是一个沉重的打击。由于当时计算机技术还不够发达,VLSI尚未出现,神经网络的应用还没有展开,而人工智能和专家系统正处于发展的高潮,从而导致很多研究者放弃了对神经网络的研究,致使在这以后的10年中,神经网络的研究进入了一个缓慢发展的低潮期。
虽然在整个20世纪70年代,对神经网络理论的研究进展缓慢,但并没有完全停顿下来。世界上~些对神经网络拖有坚定信心和严肃科学态度的学者一直没有放弃他们的努力,仍然在该领域开展了许多重要的工作。如1972年Teu。Kohonen”1和Jallles
Anderson”1分别独立提出了能够完成记忆的新型神经网络,Stephen
Grossberg”1在自组织识别神经网络方面研究也十分活跃。同时也出现了一些新的神经网络模型,如线性神经网络模型、自组织识别神经网络模型以及将神经元的输出函数与统计力学中的玻耳兹曼分布联系的Boltzmann机模等,都是在这个时期出现的。
2.1.3复兴时期
在60年代,由于缺乏新思想和用于实验的高性能计算机,曾一度动摇了人们对神经网络的研究兴趣。到了80年,随着个人计算机和工作站计算机能力的急剧增强和广泛应用,以及不断引入新的概念,克服了摆在神经网络研究面前的障碍,人们对神经网络的研究热情空前高涨。其中有两个新概念对神经网络的复兴具有极大的意义。其一是用统计机理解释某些类型的递归网络的操作,这类网络可作业联想存储器。美国加州理工学院生物物理学家John.J.Hopfield博士在1982年的研究论文就论述了这些思想。在他所提出的Hopfield网络模型中首次引入网络能量的概念,并给出了网络稳定性判据。Hopfield网络不仅在理论分析与综合上均达到了相当的深度,最有意义的是该网络很容易用集成电路实现。Hopfie]d网络引起了许多科学家的理解与重视,也引起了半导体工业界的重视。1984年,AT&T
Bell实验室宣布利用Hopfield理论研制成功了第一个研究神经网络芯片。尽管早期的Hopfield网络还存在一些问题,但不可否认,正是由于Hopfiel
d的研究才点亮了神经网络复兴的火把,从而掀起神经网络研究的热潮。其二是在1986年D.E.Rumelhart和J.L.Mcglelland及其研究小组提出PDP(ParallclDistributed
Processing)网络思想,则为神经网络研究新高潮的到来起到了推波助澜的作用。其中最具影响力的反传算法是David
RumeIhart和JamesMcClelland“”提出的。该算法有力地回答了60年代Minsky和Papert对神经网络的责难,已成为至今影响最大,应用最广的一种网络学习算法。
2.1.4二十世纪80年后期以来的热潮
20世纪80年代中期以来,神经网络的应用研究取得很大的成绩,涉及面非常广泛。为了适应人工神经网络的发展,1987年成立了国际神经网络学会,并于同年在美国圣地亚哥召开了第一届国际神经网络会议。此后,神经网络技术的研究始终呈现出蓬勃活跃的局面,理论研究不断深入,应用范围不断扩大。尤其是进入20世纪90年代,随着IEEE神经网络会刊的问世,各种论文专著逐年增加,在全世界范围内逐步形成了研究神经网络前所未有的新高潮。
从众多神经网络的研究和应用成果不难看出,神经网络的发展具有强大的生命力。尽管当前神经网络的智能水平不高,许多理论和应用性问题还未得得到很好的解决,但是,随着人们对大脑信息处理机制认识的目益深化,以及不同智能学科领域之间的交叉与渗透,人工神经网络必将对智能科学的发展发挥更大的作用。2.3神经网络研究的意义
神经网络是在许多学科的基础上发展起来的,它的深入研究必然带动其他学科的发展。许多现代科学理论的创导者对脑的功能和神经网络都有着强烈的兴趣,并从中得到了不少启示,创导或发展了许多新理。论冯-诺依曼曾谈到计算机和大脑在结构和功能上的异同,
对它们从元件特性到系统结构进行了详尽比较。McCuIIoch
和Pitts
提出的形式神经元模型导致了有限自动机理论的发展,
是最终促成第一台冯-诺依曼电子计算机诞生的重要因素之一。
维纳的<
控制论>
一书就是专门讨论动物机器的控制和通信问题的。我国著名学者钱学森在他的<
工程控论>
中,专辟章节论述生物体的调节控制和神经网络问题。因此,早在20
世纪四五十年代,神经系统的功能研究已经引起这些现代科学理论开拓者的兴趣,并对他们各自理论的产生创立理论基础。神经生物学家也正在期待着另一次理论的飞跃,这将使他们能够解释已知的各种现象,并提出可由实验室验证的假说。神经网络理论的发展,推动了理论神经科学的产生和发展,为计算神经科学提供了必要的理论和模型。同时,也促进脑科学向定量精确和理论化方向发展。以神经网络研究为开端,整个学术界对计算的概念和作用有了新的认识和提高。计算并不局限于数学中,并不仅仅采用逻辑的离散的形式,而且大量的运算表现在对模拟量的并行计算。对于后一类计算,传统的计算机无法施展其威力。神经网络的数学理论本质上是非线性的数学理论,
因此,
现代非线性科学方面的进展必将推动神经网络的研究,同时,神经网络理论也会对非线性科学提出新课题。神经网络研究不仅重视系统的动态特性,而且强调事件和信息在系统内部的表达和产生。神经网络在国民经济和国防科技现代化建设中具有广阔的应用领域和应用前景。主要应用有:语音识别、图像识别和理解计算机视觉、智能机器人、故障机器人、故障检测、实施语音翻译、企业管理、市场分析、决策优化、物资调运自适应控制、专家系统、智能接口、神经生理学、心理学和认知科学研究等等。随着神经网络理论研究的深入以及网络计算能力的不断提高,神经网络的应用领域将会不断扩大,应用水平将会不断提高,最终达到神经网络系统可用来帮人做事的目的,这也是神经网络研究的最终目标。3.神经网络的原理3.1神经网络的基本原理因为人工神经网络是模拟人和动物的神经网络的某种结构和功能的模拟,所以要了解神经网络的工作原理,所以我们首先要了解生物神经元。其结构如下图所示:图3-1锥形细胞从上图可看出生物神经元它包括,细胞体:由细胞核、细胞质与细胞膜组成;轴突:是从细胞体向外伸出的细长部分,也就是神经纤维。轴突是神经细胞的输出端,通过它向外传出神经冲动;树突:是细胞体向外伸出的许多较短的树枝状分支。它们是细胞的输入端,接受来自其它神经元的冲动;突触:神经元之间相互连接的地方,既是神经末梢与树突相接触的交界面。对于从同一树突先后传入的神经冲动,以及同一时间从不同树突输入的神经冲动,神经细胞均可加以综合处理,处理的结果可使细胞膜电位升高;当膜电位升高到一阀值(约40mV),细胞进入兴奋状态,产生神经冲动,并由轴突输出神经冲动;当输入的冲动减小,综合处理的结果使膜电位下降,当下降到阀值时。细胞进入抑制状态,此时无神经冲动输出。“兴奋”和“抑制”,神经细胞必呈其一。突触界面具有脉冲/电位信号转换功能,即类似于D/A转换功能。沿轴突和树突传递的是等幅、恒宽、编码的离散电脉冲信号。细胞中膜电位是连续的模拟量。神经冲动信号的传导速度在1~150m/s之间,随纤维的粗细,髓鞘的有无而不同。神经细胞的重要特点是具有学习功能并有遗忘和疲劳效应。总之,随着对生物神经元的深入研究,揭示出神经元不是简单的双稳逻辑元件而是微型生物信息处理机制和控制机。而神经网络的基本原理也就是对生物神经元进行尽可能的模拟,当然,以目前的理论水平,制造水平,和应用水平,还与人脑神经网络的有着很大的差别,它只是对人脑神经网络有选择的,单一的,简化的构造和性能模拟,从而形成了不同功能的,多种类型的,不同层次的神经网络模型。3.2人工神经元模型人工神经网络是利用物理器件来模拟生物神经网络的某些结构和功能。图3-2是最典型的人工神经元模型。图3-2人工神经元模型这个模型是1943年心理学家McCulloch和科学家W.Pitts在分析总结神经元基本特性的基础上首先提出的M-P模型,它是大多数神经网络模型的基础。代表神经元i与神经元j之间的连接强度(模拟生物神经元之间突触连接强度),称之为连接权;代表神经元i的活跃值,即神经元状态;代表神经元j的输出,即是神经元i的一个输入;代表神经元的阐值。函数f表达了神经元的输入输出特性。在M-P模型中,f定义为阶跳函数:人工神经网络是一个并行与分布式的信息处理网络结构,该网络结构一般由许多个神经元组成,每个神经元由一个单一的输出,它可以连接到许多其他的神经元,其输出有多个连接通路,每个连接通路对应一个连接权系数。严格来说,神经网络是一个具有如下性质的有向图。对于每个结点有一个状态变量;结点i到结点j有一个连接权系数;对于每个结点有一个阈值;对于每个结点定义一个变换函数,最常见的情形为。图3-3表示了两个典型的神经网络结构,做为前馈网络,右为反馈网络。图3-3典型的神经元网络结构3.3神经网络的特点由于人工神经网络是基于生理神经网络的自适应非线性动态系统,因此它具有独特的功能和特点(1)可以充分逼近任意复杂的非线性关系;(2)所有定量和定性的信息的保存为等势分布,储存在网络内的各神经元上,具有很强的“鲁棒性”和“容错性”;(3)并行分布处理使得运用计算机和特定的硬件,快速进行大量的运算成为可能;(4)可学习和自适应未知的或不确定的系统;(5)能够同时处理定量和定性的知识。3.4神经网络的分类目前人工神经网络的模型已经有50多种,为了研究方便,从不同角度对它进行分类:1)按网络结构分类:分为前馈型和反馈型网络;2)按网络的性质分类:分为连续性、离散性、确定性和随机性网络;3)按网络学习方式分类:分为有导师和无导师(包括自组织学习)学习;4)按突触连接的性质分类:分为一阶线性关联和高阶非线性关联网络。4卷积神经网络卷积神经网络是人工神经网络的一种已成为当前语音分析和图像识别领域的研究热点,它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。卷积神经网络本身可采用不同的神经元和学习规则的组合形式。其中一种方法是采用M-P神经元和BP学习规则的组合,常用于邮政编码识别中。还有一种是先归一化卷积神经网络,然后神经元计算出用输入信号将权值和归一化处理后的值,再单独训练每个隐层得到权值,最后获胜的神经元输出活性,这个方法在处理二值数字图像时比较可行,但没有在大数据库中得到验证。第三种方法综合前两种方法的优势,即采用McCulloch-Pitts神经元代替复杂的基于神经认知机的神经元。在该方法中,网络的隐层和神经认知机一样,是一层一层训练的,但是回避了耗时的误差反向传播算法。这种神经网络被称为改进的神经认知机。随后神经认知机和改进的神经认知机作为卷积神经网络的例子,广泛用于各种识别任务中,比如大数据库的人脸识别和数字识别。下面详细介绍卷积神经网络的原理、网络结构及训练算法。4.1卷积神经网络结构卷积神经网络是一个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。网络中包含一些简单元和复杂元,分别记为S-元和C-元。S-元聚合在一起组成S-面,S-面聚合在一起组成S-层,用Us表示。C-元、C-面和C-层(Us)之间存在类似的关系。网络的任一中间级由S-层与C-层串接而成,而输入级只含一层,它直接接受二维视觉模式,样本特征提取步骤已嵌入到卷积神经网络模型的互联结构中。一般地,Us为特征提取层,每个神经元的输入与前一层的局部感受野相连,并提取该局部的特征,一旦该局部特征被提取后,它与其他特征间的位置关系也随之确定下来;Uc是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射为一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数,降低了网络参数选择的复杂度。卷积神经网络中的每一个特征提取层(S-层)都紧跟着一个用来求局部平均与二次提取的计算层(C-层),这种特有的两次特征提取结构使网络在识别时对输入样本有较高的畸变容忍能力。网络中神经元的输出连接值符合“最大值检出假说”,即在某一小区域内存在的一个神经元集合中,只有输出最大的神经元才强化输出连接值。所以若神经元近旁存在有输出比其更强的神经元时,其输出连接值将不被强化。根据上述假说,就限定了只有一个神经元会发生强化。卷积神经网络的种元就是某S-面上最大输出的S-元,它不仅可以使其自身强化,而且还控制了邻近元的强化结果。因而,所有的S-元渐渐提取了几乎所有位置上相同的特征。在卷积神经网络早期研究中占主导的无监督学习中,训练一种模式时需花费相当长的时间去自动搜索一层上所有元中具有最大输出的种元,而现在的有监督学习方式中,训练模式同它们的种元皆由教师设定。
将原始图像直接输入到输入层(Uc1),原始图像的大小决定了输入向量的尺寸,神经元提取图像的局部特征,因此每个神经元都与前一层的局部感受野相连。文中使用了4层网络结构,隐层由S-层和C-层组成。每层均包含多个平面,输入层直接映射到Us2层包含的多个平面上。每层中各平面的神经元提取图像中特定区域的局部特征,如边缘特征,方向特征等,在训练时不断修正S-层神经元的权值。同一平面上的神经元权值相同,这样可以有相同程度的位移、旋转不变性。S-层中每个神经元局部输入窗口的大小均为5x5,由于同一个平面上的神经元共享一个权值向量,所以从一个平面到下一个平面的映射可以看作是作卷积运算,S-层可看作是模糊滤波器,起到二次特征提取的作用。隐层与隐层之间空间分辨率递减,而每层所含的平面数递增,这样可用于检测更多的特征信息。图4-1卷积神经网络结构图4.2神经元模型在卷积神经网络中,只有S-元间的输入连接是可变的,而其他元的输入连接是固定的。用Usl(kl,n)表示第l级,第kl个S-面上,一个S-元的输出,用Ucl(kl,n)表示在该级第kl个C-面上一个C-元的输出。其中,n是一个二维坐标,代表输入层中神经元的感受野所在位置,在第一级,感受野的面积较小,随后随着l的增大而增加。(4.1)式(4.1)中al(v,kl-1,k)和bl(k)分别表示兴奋性输入和抑制性输入的连接系数;rl(k)控制特征提取的选择性,其值越大,对噪音和特征畸变的容错性越差,它是一常量,它控制着位于每一S-层处的单个抑制子平面中每个神经元的输入:rl(k)的值越大,与抑制性成比例的兴奋性就得越大,以便能产生一个非零输出,换句话说就是相当好的匹配才一能激活神经元,然而因为rl(k)还需乘以φ(),所以rl值越大就能产生越大的输出,相反,小的rl(k)值允许不太匹配的神经元兴奋,但它只能产生一个比较小的输出;φ(x)为非线性函数。v是一个矢量,表示处于n感受野中的前层神经元n的相对位置,Al确定S神经元要提取特征的大小,代表n的感受野。所以式中对v的求和也就包含了指定区域当中所有的神经元;外面对于勺kl-1的求和,也就包含了前一级的所有子平面,因此在分子中的求和项有时也被称作兴奋项,实际上为乘积的和,输入到n的神经元的输出都乘上它们相应的权值然后再输出到nc。(4.2)式(4.2)表示的是指定某级(第l级)、某层(S-层)、某面(第kl个S-面)、某元(向量为n处)的一个输出。对于一个S-元的作用函数可分为两部分,即兴奋性作用函数和抑制性作用函数。兴奋性作用使得膜电位上升,而抑制性作用起分流作用。兴奋性作用为:(4.3)S-元与其前一级C-层的所有C-面均有连接,所连接的C-元个数由该S-级的参数感受野Al唯一确定。网络中另一个重要的神经元是假设存在的抑制性神经元V-元Uvl(n),它位于S-面上满足以下三个条件:环元的抑制作用影响整个网络的运作;C-元与V-元间存在着固定的连接;V-元的输出事先设为多个C-元输出的平均值。可以用它来表示网络的抑制性作用,发送一个抑制信号给Usl(kl,n)神经元,从与Usl(kl,n)类似的元接收它的输入连接值,并输出:(4.4)权cl(v)是位于V—元感受野中的v处的神经元相连的权值,不需要训练这些值,但它们应随着│v│的增加而单调减小。因此,选择式4.5的归一化权值。(4.5)式4.5中的归一化常量C由式4.6给出,其中:r(v)是从v处到感受野中心的归一化距离:(4.6)C神经元的输出由式4.7给出:(4.7)上式中ψ(x)为:(4.8)式中β为一常量。kl是第l级中的S子平面的数量。Dl是C—元的感受野。因此,它和特征的大小相对应。dl(v)是固定兴奋连接权的权值,它是│v│的单调递减函数。如果第kl个S神经元子平面从第kl-1子平面处收到信号,那么jl(kl,kl-1)的值为,1否则为0。最后,S_层的Vs神经元的输出为(4.9)图4-2为卷积神经网络中不同神经元之间的连接关系图,从图中可以很清楚地看出各种不同神经元之间的连接关系。图4-2卷积神经网络中不同神经元间的连接4.3卷积网络的训练过程神经网络用于模式识别的主流是有指导学习网络,无指导学习网络更多的是用于聚类分析。对于有指导的模式识别,由于任一样本的类别是已知的,样本在空间的分布不再是依据其自然分布倾向来划分,而是要根据同类样本在空间的分布及不同类样本之间的分离程度找一种适当的空间划分方法,或者找到一个分类边界,使得不同类样本分别位于不同的区域内。这就需要一个长时间且复杂的学习过程,不断调整用以划分样本空间的分类边界的位置,使尽可能少的样本被划分到非同类区域中。由于本文主要是检测图像中的人脸,所以可将样本空间分成两类:样本空间和非样本空间,因而本文所使用的学习网络也是有指导的学习网络。卷积网络在本质上是一种输入到输出的映射,它能够学习大量的输入与输出之间的映射关系,而不需要任何输入和输出之间的精确的数学表达式,只要用已知的模式对卷积网络加以训练,网络就具有输入输出对之间的映射能力。卷积网络执行的是有导师训练,所以其样本集是由形如:(输入向量,理想输出向量)的向量对构成的。所有这些向量对,都应该是来源于网络即将模拟的系统的实际“运行”结果。它们可以是从实际运行系统中采集来的。在开始训练前,所有的权都应该用一些不同的小随机数进行初始化。“小随机数”用来保证网络不会因权值过大而进入饱和状态,从而导致训练失败;“不同”用来保证网络可以正常地学习。实际上,如果用相同的数去初始化权矩阵,则网络无能力学习。训练算法主要包括4步,这4步被分为两个阶段:第一阶段,向前传播阶段:①从样本集中取一个样本(X,Yp),将X输入网络;②计算相应的实际输出Op。在此阶段,信息从输入层经过逐级的变换,传送到输出层。这个过程也是网络在完成训练后正常运行时执行的过程。在此过程中,网络执行的是由式(4.7)计算:Op=Fn(…(F2(F1(XpW(1))W(2))…)W(n))第二阶段,向后传播阶段①计算实际输出Op与相应的理想输出Yp的差;②按极小化误差的方法调整权矩阵。这两个阶段的工作一般应受到精度要求的控制,在这里,用式(4.8)计算Ep。作为网络关于第p个样本的误差测度。而将网络关于整个样本集的误差测度定义为:E=∑Ep。(4.8)如前所述,之所以将此阶段称为向后传播阶段,是对应于输入信号的正常传播而言的。因为在开始调整神经元的连接权时,只能求出输出层的误差,而其他层的误差要通过此误差反向逐层后推才能得到。有时候也称之为误差传播阶段。为了更清楚地说明本文所使用的卷积神经网络的训练过程,首先假设输入层、中间层和输出层的单元数分别是N、L和M。X=(x0,x1,…,xN)是加到网络的输入矢量,H=(h0,h1,…,hL)是中间层输出矢量,Y=(y0,y1,…,yM)是网络的实际输出矢量,并且用D=(d0,d1,…,dM)来表示训练组中各模式的目标输出矢量输出单元i到隐单元j的权值是Vij,而隐单元j到输出单元k的权值是Wjk。另外用θk和φj来分别表示输出单元和隐含单元的阈值。于是,中间层各单元的输出为式(4.9):(4.9)而输出层各单元的输出是式(4.10):(4.10)其中f(*)是激励函数采用S型函数式(4.11):(4.11)在上述条件下,网络的训练过程如下:1)选定训练组。从样本集中分别随机地选取300个样本作为训练组。2)将各权值Vij,Wjk和阈值φj,θk置成小的接近于0的随机值,并初始化精度控制参数ε和学习率α。3)从训练组中取一个输入模式X加到网络,并给定它的目标输出矢量D。4)利用式(4.9)计算出一个中间层输出矢量H,再用式(4.10)计算出网络的实际输出矢Y。5)将输出矢量中的元素yk与目标矢量中的元素dk进行比较,计算出M个输出误差项式(4.12):(4.12)对中间层的隐单元也计算出L个误差项式(4.13):(4.13)6)依次计算出各权值的调整量式(2.14)和式(2.15):(4.14)(4.15)和阈值的调整量式(4.16)和(4.17):(4.16)(4.17)7)调整权值式(4.18)和式(4.19):(4.18)(4.19)调整阈值式(4.20)和(4.21):(4.20)(4.21)8)当k每经历1至M后,判断指标是否满足精度要求:E≤ε,其中E是总误差函数,且。如果不满足,就返回(3),继续迭代。如果满足就进入下一步。9)训练结束,将权值和阈值保存在文件中。这时可以认为各个权值已经达稳定,分类器形成。再一次进行训练时,直接从文件导出权值和阈值进行训练,不需要进行初始化。5.深度学习的发展与应用5.1深度学习发展机器学习的发展历程可以大致分为2个阶段:浅层学习和深度学习直到近些年,大多数机器学习的方法都是利用浅层结构来处理数据,这些结构模型最多只有1层或者2层非线性特征转换层.典型的浅层结构有:高斯混合模型(GMMs)、支持向量机(SVM)、逻辑回归等等.在这些浅层模型中,最为成功的就是SVM模型,SVM使用一个浅层线性模式分离模型,当不同类别的数据向量在低维空间中无法划分时,SVM会将它们通过核函数映射到高维空间中并寻找分类最优超平而.到目前为止,浅层结构己经被证实能够高效地解决一些在简单情况下或者给予多重限制条件下的问题,但是当处理更多复杂的真实世界的问题时,比如涉及到自然信号的人类语音、自然声音、自然语言和自然图像以及视觉场景时他们的模型效果和表达能力就会受到限制,无法满足要求。早在1974年PaulWerhos提出了反向传播(backpropagation,BP)算法,解决了由简单的祌经网络模型推广到复杂的祌经网络模型中线性不可分的问题,但反向传播算法在祌经网络的层数增加的时候参数优化的效果无法传递到前层,容易使得模型最后陷入局部最优解,也比较容易过拟合。在很长一段时间里,研究者们不知道在有着多层全连接的祌经网络上怎样高效学习特征的深度层次结构。2006年,Hinton提出了深度置信网络(deepbe-liefnetwork,DBN),这个网络可以看作是由多个受限玻尔兹曼机(restrictedboltzmannmachines,RBM)荇加而成.从结构上来说,深度置信网络与传统的多层感知机区别不大,但是在有监督学习训练前需要先无监督学习训练,然后将学到的参数作为有监督学习的初始值.正是这种学习方法的变革使得现在的深度结构能够解决以往的BP不能解决的问题。随后深度结构的其他算法模型被不断地提出,并在很多数据集上刷新了之前的一些最好的记录,例如2013年WanLi等提出的dropconnect规范网络,其模型在数据集CIFAR-10上的错误率为9.32%,低于此前最好的结果9.55%,并在SVHN上获得了1.94%的错误率,低于此前最好的结果2.8%等等。5.2深度学习的应用深度学习从2006年开始在语音识别计算机视觉图像识别自然语言处理和信息检索上面都取得了较好效果,在不同的数据集以及工业应用上都表现出远超以往浅层学习所能达到的最好的效果。5.2.1深度学习在语音识别领域研究现状长期以来,语音识别系统大多是采用混合高斯模型(GMM)来描述每个建模单元的统计概率模型。由于这种模型估计简单,方便使用大规模数据对其训练,该模型有较好的区分度训练算法保证了该模型能够被很好的训练。在很长时间内占据了语音识别应用领域主导性地位。但是这种混合高斯模型实质上是一种浅层学习网络建模,特征的状态空间分布不能够被充分描述。而且,使用混合高斯模型建模方式数据的特征维数通常只有几十维,这使得特征之间的相关性不能被充分描述。最后混合高斯模型建模实质上是一种似然概率建模方式,即使一些模式分类之间的区分性能够通过区分度训练模拟得到,但是效果有限。在过去几十年中,语音识别领域的研究者们都把精力用在基于HMM-GMM的系统,而忽略了原始语音数据内部原有的结构特征。深度神经网络DNN在2010年开始被引入处理语音识别问题,因为DNN对数据之间的相关性有较大的容忍度,使得当GMM被DNN替换时,效果明显有了飞跃。2012年,微软公司一个基于深度学习的语音视步页检索系统(Microsoftaudiovideoindexingservice,MAVIS)成功问世,将单词错误率降低了30%(从27.4%到18.5%)。2014年IBM的沃森研宄中心的T.N.Sainath的工作结果显示DNN比以往过去的GMM-HMM模型有8%〜15%的提升,而CNN相比于一般DNN来说能对数据间强烈的相关性有更强的适应力,同时足够深的网络还有对数据的平移不变性的特性。5.2.2深度学习在计算机视觉领域研究现状深度学习在计算机视觉上的成功应用,主要体现在对象识别和人脸识别领域上。过去很长一段时间,机器视觉中的对象识别一直依赖于人工设计的特征,例如尺度不变特征转换(scaleinvariantfeaturetransform,SIFT)刚和方向梯度直方图(histogramoforientedgradients,HOG),然而像SIFT和HOG这样的特征只能抓取低等级的边界信息。针对以往小规模样本所无法表现的真实环境中更复杂的信息,2010年人们引入了更大的数据集,例如ImageNet数据集中有着15百万的标记高分辨率图像和超过2万2千个类别.A.Krizhevsky等在2012年通过训练一个大的深度祌经网络来对ImageNetLSVRC-2010中包含着1000个不同类别的1.2百万个高分辨率图像进行分类。在测试数据中,他们在top-1和top-5上的错误率是37.5%和17.0%,刷新了这个数据集的最好记录。5.2.3深度学习在自然语言处理领域研究现状自然语言处理(naturallanguageprocessing,NLP)意在将人类语言转换到能够容易地被计算机操作的表征的过程。大多数的研宄者将这些问题分离式考虑,例如词性标注、分块、命名实体识别、语义角色标注、语言模型和语义相关词等,而没有注重到整体性,使得自然语言处理领域中的进展不是很乐观。具体来说现有的系统有3个缺陷:①它们都是浅层结构,而且分类器通常是线性的;②对于一个效果好的线性分类器来说,它们必须事先用许多人工特征来预处理;③从几个分离的任务中进行串联特征以至于误差会在传播过程中增大。2008年R.Collobert等通过将一个普通的深度神经网络结构用于NLP,在“学习一个语言模式”和“对语义角色标签”任务上通过将重点关注到语义角色标签的问题上进行了没有人工设计特征参与的训练,其错误率为14.3%的结果刷新了最好记录。5.2.4深度学习在图像识别领域研究现状对于图像的处理是深度学习算法最早尝试应用的领域。早在1989年,加拿大多伦多大学教授YannLeCun就和他的同事们一起提出了卷积神经网络(ConvolutionalNeuralNetworks)。卷积神经网络也称为CNN,它是一种包含卷积层的深度神经网络模型。通常一个卷积神经网络架构包含两个可以通过训练产生的非线性卷积层,两个固定的子采样层和一个全连接层,隐藏层的数量一般至少在5个以上。CNN的架构设计是受到生物学家Hubel和Wiesel的动物视觉模型启发而发明的,尤其是模拟动物视觉皮层VI层和V2层中简单细胞(SimpleCell)和复杂细胞(C
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度IT行业兼职程序员合同范本:智能硬件开发合作协议3篇
- 2025年度电梯门套安装与节能评估合同4篇
- 二零二五年度床品电商销售及物流配送合同4篇
- 2025年度数字货币质押典当交易合同4篇
- 2025年度文化创意产业园区租赁合同范本11篇
- 二零二四年养老院活动指导员聘用合同(综合能力提升培训)3篇
- 2025年深海探测船购置合同3篇
- 2025个人地下室租赁合同书(含智能监控系统)3篇
- 2025年度智慧城市建设承包经营合同范本8篇
- 二零二五年度电器产品展示与销售中心租赁合同4篇
- 医疗健康大数据平台使用手册
- 碳排放管理员 (碳排放核查员) 理论知识考核要素细目表四级
- 撂荒地整改协议书范本
- GB/T 20878-2024不锈钢牌号及化学成分
- 诊所负责人免责合同范本
- 2024患者十大安全目标
- 会阴切开伤口裂开的护理查房
- 实验报告·测定鸡蛋壳中碳酸钙的质量分数
- 部编版小学语文五年级下册集体备课教材分析主讲
- 电气设备建筑安装施工图集
- 《工程结构抗震设计》课件 第10章-地下建筑抗震设计
评论
0/150
提交评论