




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第3章多层感知器网络対j:线性可分模式的分类问题,两层感知器是较好的解决方案;而对r非线性不可分模式的分类问题,及非线性函数逼近问题,可以用多层感知器(MultilayerPerceptron,简称MLP)解决。本章先介绍Rosenblatt的两层感知器网络用两分类的方法,包括感知器收敛定理,然后対两层感知器网络用多分类的方法作了简单介绍。本章的重点是激活函数采用Sigmoidal函数的多层感知器(即BP网),我们将详细介绍BP算法及算法实现,并介绍BP网用于分类和函数逼近的两个仿真实例。3.1两层感知器网络一个输入加输出的两层感知器的网络结构图如图3.1所示。该网络的输入层只用获得外部输入信
2、号,输出层的神经元才是计算节点,其基函数取线性函数,激活函数取硬极限函数。网络的输入矢量为xeRn,x=(x,x2,.,xjr;输入层到输出层的权矩阵为W=kv.gRnxm,其中叫为输入节点i到输出神经元J的连接权。显然,由于对不同的输出单元,其连接权是相互独立的,因而可将一个多输出两层感知器分解成多个单输出两层感知器,即讨论单个感知器的两分类问题。3.1.1单神经元用于两分类单神经元用r两分类时,被分类的模式必须是线性可分的。设有一训练样本集,其样本输入工或者属于A类,或者属丁类,若存在权欠鼠使得当网络输入为时y=l;输入为时y=0,则称该样本集是线性可分的。在二维空间,该判别函数就是一条直
3、线,如图3.2所示。图中直线wTx-0=wiXi+w2x2-0=0即为判别函数。2#图3.2A.B两类线性可分对单个神经元,为简化运算,可以考虎将阈值并入权欠量。即令权矢量w=(vvpvv2V.vv/?,)7,输入样本z=(xpx2V.xn-l)r,贝y=/(«),其中输出y和神经元函数/()的表达式为:y=/(S怙-°)(3.1)假定训练样本炖为:1=1l,M>0F面介绍单神经元感知器的权值训练算法o0,"<0(耳,/),(七,2),(,d),其中心wR”,<-g0,1/=1,2,.,P,共P个样本。设R为循坏迭代次数,P为每次迭代中的输入欠量
4、计数值,E-误差方差。丁是单神经元感知器的训练算法如卜:(1) 选择学习常数。权值初始化:vv/(0)=«x,W(.),/=!,.,«+1,a为小的正数。令误差£=0o(3)进行一个循环的训练:(a)依次输入训练样本矢量(次序有多种),并计算输出。输入第卩个样本时,计算:y=/(>v7zp)o(b)修正权值:w=w+77(<,-y)zpo(显然,只有在有错误分类时才有修正)(c) 计算并累加一个循坏中每次输入样本的误差方差:E=E+(d-y)2o(d) 若样本未输入完(p<P),转步骤(a);否则(p=P),转步骤(4)。(4)若E>0,转
5、步骤(3)进行下一轮循坏的训练;若E=0,训练结束。卜面我们分析算法的收敛性。我们先看算法的几何解释,如图3.3所示。设4类对应d=1,类对应d=0(反过來也是一样)。考虑到算法只在发生错误分类时调整权欠量,我们有:(a)若输入属A类,则d=l,但兀被错分为B类,即y=0,由y=/(“/*),说明x<0,w和*成钝角。为正确分类,要求权欠量w应向与兀成锐角的方向调整,而算法中Aw(7?0)=rj(d-y)x=ipc与*同向,由图3(a)可看出,这时算法确实是使侦厲+1)和尤逐步成锐角,与要求的一致。若输入工属B类,则d=0。但错分为4类,即y=l,由y=/(w7x),说明w7X>0
6、,w和工成锐角。为正确分类,要求权矢量w应向与兀成钝角的方向调整。而算法+'Aw(n0)=r)(d-刃x=-r/x,与兀反向,由图3(b)可看出,这时算法确实是使w(如+1)和x逐步成钝角,也与要求一致。图3.3单层感知器算法收敛性的几何解释一般地,我们有以下的感知器收敛性定理:感知器收敛性定理Rose1962:如果输入训练样本欠屋集合是线性可分的,则上述的两分类训练算法在经过有限次迭代后,必能对训练样本进行正确分类。证明:先设为正确解,它将所有模式正确分类。经M次迭代后,应有:)广)(3.2)5#所以,(3.3)3(曲)一诂)=(卩严)一崩)+y(w)z(m)若这次输入的被正确分类,
7、则无权植修正。若切分类错误,则由上式:材网_J=加(”_莎+科_ym)(wm)-w)Tzm)(3.4)注意(d®)_y)2=1易J:证明(参考收敛性的空间几何解释),对J:被错误分类的模式存在两种情况:d=1,y=0,w7z(w)>0,w(/w)7z(n0<0,或d=0,y=l,w7z(w)<0,>0,#对这两种情况,我们均有(3.5)(dm)-ym)wTz(m)=wTz'm)>0I(1J<0(3.6)所以我们有:啊曲_崩=pm)-w|2+72|z,n)|2-2(”七切|+艸”叫網)(3.7)若很小,则上式中的一次项一般都远大J:二次项,即
8、总的來讲加曲-诃会随迭代而减小,但其值不可能为负值,因此迭代在进行有限的/次数后必终止。注意,终止时的正确权值说不一定等JW。对于上面的算法,应注意以下问题: 学习样本的输入顺序,对学习的结果和收敛速度有一定的影响。一般情况卜,训练样本的选取最好在各类样本中轮流进行,以防止权值调整的不均匀。 学习速率取常数时(常系数算法)有以卜问题:小,收敛太慢:太人,又会导致算法不收敛。因此可以考虑卜面的可变速率的改进算法:假如当前模式错分,则按式(3.2)调整,取刁值使,即一步到位,故r)(dm-=w-w(in>,得刖“-ylm)|z<m>|2=wTzm->v(w)7z(,M)转置
9、后乘Z<w)可得理想的学习速率应每次取为:(3.8)同前而式(3.5)和(3.6)一样,可对该式进行简化,于是6#但实际上皿是未知的,所以用小正数/取代”七纠,即(3.9)#上述算法也称松弛算法。实际上,/的选取也是很困难的,因此(3.8)式中的肘叫干脆用”叫纠取代,得:(3.10)这样近似的结果使该学习算法变成了归一化学习算法,因为可以证明,这时若初始权值是归一化的,每次修正后的权值仍是归一化的。研究表明:常系数算法收敛速度起伏很人,松弛和归一化算法收敛速度相対平稳;刈易分类问题,常系数或松地算法优r归一化算法:对复杂分类问题,归一化算法优于其它算法。3.1.2多输出两层感知器用于多分
10、类多输出两层感知器可用J:线性可分的多类样本的分类问题。多类样本的线性可分性是指,对于给定的训练样本集S,Z,,z"”,其中CR",分别属J:类集GJ=1,上,则当且仅当存在权欠量叫,i=使对于任一样本欠量zeQ,有叫。,则称样本集S是线形可分的。图3.4为两维空间三类样本的线性可分示意图。oX图3.4A、B、C三类样本线性可分示意图如果多类样本是线性强可分的,则用两层感知器分类强更容易实现。多类样本的线性强可分是指:存在厶个判断边界,每一类样本都可用一个边界与其它类样本分开。也即是:対样本集S,若存在一个阈值g和厶个权欠量w,.,L,使对任意一模式ZGQ,.,>g&
11、gt;w/z,则s为线性强可分的。图3.5为两维空间三类样本的线性强可分示意图。图3.5A、B、C三类样本线性强可分示意图I、而介绍多输出两层感知器的权值训练算法。假设设训练样本集为S=丹),Z,心1,.,加分别属丁类集霸,心1,.,厶中的一类。(1) 择学习常数,权值初始化为较小的随机正数。(2) 依次输入样本Z(m)>期望输出应为欠量。对厶个神经元,计算=w/z,/n>,y,"”=/=厶,y,'”>即为第i个神经元的输出。(3) 对厶个神经尤的权欠駅进行奖-惩训练:叫=w(,)+(£"”-)z<m>(i=1,.,厶)(4)
12、 所有样本输入一次后,看有无奖-惩修正。若有,转第(2)步再循环输入样本;若无,训练结束。多多输出两层感知器的训练算法也有收敛性定理,证明的思路是将其转化为两分类的收敛性证明。3.2线性阈值单元组成的多层感知器由J:单层感知器网络只能完成线性分类,对线性不可分样本的分类问题,可以用线性阈值单元组成的多层感知器来解决。一个输入2输出的线性阈值单元组成的多层感知誥网络结构如图3.6所示。图3.6中,输入与输出层之间存在一些隐层。网络的输入层没有计算节点,只用J:获得外部输入信号,各隐层和输出层的神经元才是计算节点,其某函数取线性函数,激活函数取硬极限函数。假设M_P只有一个隐层,并设输入为坷,比,
13、兀,隐层有也个神经元,它们的输出分别为九,g,,饥,网络输出用表示。图3.6线性阈值单元组成的多层感知器网络结构则隐层第丿个神经元的输出为:Ithj=/(工叫兀一»j=12/(3.11)f=l最高层神经元输出为:nlOp=/(工Wjphj-ej,P=12冲<3.12);=|图3.7用线性阈值单元组成的多层感知器用丁线性不可分问题隐层与"个输入单元的关系同单层感知器一样,是形成一些”-1维的超平而,利用这些超平面组合而成的封闭区域可完成线性不可分模式的分类问题。例如対图3.7的A、B两类不可分样本,可在二维空间划出斜率、截距不同的三条线(即隐单尤数取为3),组成一个封闭
14、区域,使其内为A类,其外为B类。为获得这三条判别线,必须针对每个样本,指定隐层各单尤的期塑输出d是1还是0。隐单尤到输出层只要满足卜式即可得到正确划分:(召,耳(呵內+叫宀一G>°)c+vv22x2-<0)c(州3斗+%3尤2_仇>°)可见,虽然隐单元到输出单元之间为“与”的关系,但可用简单的MP模型实现。从上面的例子可见,多层感知器可通过单层感知器进行适当的组合达到任何形状的划分。另外,对r隐单尤个数的选择问题,对其上、卜限已都有一些结论,我们将在第六章神经网络的泛化理论部分讨论。线性阈值单元组成的多层感知器用解决实际问题时,首先必须解决输入到隐层间连接
15、权的训练问题,但是由r难以确定隐层输出的期望输出值,导致网络权值训练无法实现。因此人们寻求其它神经网络方案以解决线性不可分问题,卜一节的BP网就是这样一种网络。3.3BP网及BP算法331BP网络结构BP网与线性阈值单元组成的多层感知器网络结构完全相同,只是各隐节点的激活函数使用了第二章介绍的Sigrn)idal函数,所以BP网也称激活函数采用Sigrroidal函数的多层感知器。BP网输出节点的激活函数根据应用的不同而异:如果多层感知器用分类,则输出层节点一般用Sigmoidal函数或硬极限函数:如果多层感知器用函数逼近,则输出层节点应该用线性函数。与线性阈值单元组成的多层感知器一样,BP网
16、采用多层结构,包括输入层、多个隐含层、输出层,各层间实现全连接。如图3.8所示为隐节点和输出节点都使用Sigmoidal激活函数的BP网(注意:网络中没有画出各神经元的阈值)。图3.8隐节点和输出节点都使用Sigmoidal函数的BP网I、面讨论图3.8所示BP网的权值调节算法,即著名的BP算法RuH1986。此时,对BP网的各计算节点,我们有:",=工wixi一0j,儿=f(Uj)=1/(1+exp(-加丿),(/()是双级S函数亦可,实际上,连续可微单调上升即可)。注意广=肌xp(f_1_1+exp(-力仃)l+exp(-/y)(3.15)=2(l-/(w.)/(wy)假设BP网
17、的输入欠量为xgR”,其中x=(x0,Ap.,x_1)r;第一隐层有©个神经元,该隐层输出为XGRn',X=(兀,石,,兀第二隐层有“2个神经元,相应输出为xgR"2,尤=(尤,;输出层有加个神经元,输出ygR"',,=('。,儿,儿1)丁。又设输入层到第一隐层的权为叱厂阈值为8;第一隐层到第二隐层的权为w;*,阈值为区;第二隐层到输出层的权为叽,阈值分。是各层神经尤输出为:10yt=f工咏口一oJ=0,冲一1(3.16)X;=f工WjkXj一&朮=0,丿2-1一&j、j=0,1,.,也一11111#显然,它将完成维空间欠最
18、到m维空间的映射。3.3.2BP学习算法BP算法也称误差反向传播算法(ErrorBack-propagationAlgorithm),是一类有导学习算法,用于BP网的权值和阈值学习。I、面讨论所有训练样本同时用J:网络权值调节(即批处理)的BP算法。设有P个学习样本矢量,对应的期望输出为虐“,巾,学习是通过误差校正权值,使各丁接近d(po为简化推导,我们把各计算节点的阈值并入权矢量,即设0;=<,0k=、&,片=wnj,x:=x'lti=xn=-1,则(3.16)式中相应的欠量w,w,X,X,兀”维数均增加1。1) BP算法原理该学习规则的推导仍是基于最小均方误差准则。当
19、一个样本(设为第“个样本)输入网络,并产生输出时,均方误差应为各输出单元误差平方之和:(3.17)g忌严-y/町当所有样本都输入一次后,总误差为:P1PrT/工前弓工工仏-理(3.18)1#1#设爲为网络中的任一连接权值,则根据梯度下降法,误差修正鼠应为:1#11其中,如为迭代次数。竺丄求解过程如图3.9:(Ep是儿i,儿I的函数.但卜几/只影响片),一£(犷-*讥)計p=l(八严)7严(1-)丫)以批处理为例:1)对输出层:(3.19)”dEA厶dE(p)dEp)勿;">加;(")dypdu严dvkl"21/2(计=工心严,刑=/("严
20、),工(d严-/)L/=n/学习规则p=l其中砒、(d严-y严执叫l-y严)所以有W;I(«o+1)=叽。)+士硝卩=12)对中间隐层:6EaW八o+l)=匕人(0)一(3.20)(3.21)图3.10中间隐层权值增虽求解示意图其中些_求解过程如卜图3.10:OE卩dFp)-=y-(e(p)是儿,儿,,儿,t的函数,每个x都受於影响)f导旳刃dy;p)如s&严加严勿;"加严办严加严鸥P“L1=-ESM-y严)f(计)心严(1-x严)疔)p=l1=0P"L1一工工砒严)兀严p=l/=0一如叩)"=1其中魏、工霑咗兀严(17严)/=()所以有w;4o
21、+1)=wo)+工輯'(3.22)同理可得第一隐层的权值修正公式为:叫(/?0+1)=VV,.(”()+工5釘乂"(3.23)p=n2其中:巒二工密W";(刃(17严)丘=0注意,对增量式修正,上面各式中各权值的修正量是一项,而不是卩=1至P的工求和项。显然,学习分两个阶段:(1)由前向后正向计算各隐层和输出层的输出;(2)由后向前误差反向传播以用于权值修正。2)BP算法的各步骤(1) 权值初始化:w、q=Rand(-),sq为ij,jk或kl。(2) 依次输入P个学习样本。设当前输入第卩个样本。(3) 依次计算各层的输出:x'j,£及,;=,k=
22、0,1,.,«2,/=0,1,.,加一1。(4) 求各层的反传误差:巒=(d/八一儿")叮叫1儿),/=0,1,,加1巧H曙咗“严(If严),k=0,l,.,n2/=()n->*=0并记下各个兀严,兀严,兀的值。(5) 记录己学习过的样本个数卩。如果p<P,转步骤(2)继续计算;如果p=P,转步骤(6)。(6) 按权值修正公式修正各层的权值或阈值。(7) 按新的权值再计算©,”和若对每个p和/都满足dtlp)-yt(p)<£(或Ea<e),或达到最大学习次数,则终止学习。否则转步骤(2)继续新一轮的学习。上述算法实现的一个完整的例
23、子可参考10章灵敏度剪枝算法。3.3.3BP算法应用例子这一节我们给出BP算法训练的三个例子,分别对丁丁单个样本的训练、模式分类、及函数逼近的情况。1)单个样本训练的例子图3.12所示的三层BP网,隐层和输出层采用单极性Sigmoidal激活函数,即/(/)=7-,权系数和偏移的初始值如图所示。期望输入为A-,xJ7=l,3r,对应1+e的期塑输出为x/JlO.9,0.37o学习参数设定如卜:学习率=0.5,目标误差图3.11三层BP网J:是BP算法的学习过程如卜:先正向传播计算网络输出,刈第一次叠代可得隐节点输出为x=0192,0.731If,加偏移增维后为x=0.1192,0.7311,1
24、.00007,T是网络输出为ypy2f=io323,0.83987,此时网络输出与目标输出的误差平方和为SSE=0.8808o再反向传播误差调整权值:输出层的反向传播误差为=0.0881,-0.07267,隐层的反向传播误差为=0.0016,0.02867,于是隐层到输出层的扩展权值调整量为巾叱=°.0105,0.0644,0.088;,输入层到隐层的-0.0087,-0.0531,-0.072615扩展权值调整吊S叭0.0016,0.0049,0.0016调节后的两个扩展权值分另'J为1.000&-1.9976,3.0008'2.0143,0.0428,-0
25、.98571.0053,0.0322厂1.95990.9957厂2.0265,2.9637第一次叠代后的叭=1.000&-1.997612.0143,0.04283.0008-0.98571.0053,0.03220.9957厂2.02650.0286,0.0867,0.0286图3.12概念学习样本图3.12概念学习样本-19599g2.9637,用此组新权值重新计算网络输出与目标输出的误差平方和,可得=0.8510,己经有了很人的减小。经过160次叠代后误差平方和SSE小目标值,J:是算法停止。2)三层BP网用于三分类卜面是一个两概念(一个三角形和一个矩形)学习的例子,这是Cohn
26、三角形概念学习例子的推广,是一个典型的多分类例子。我们在(-2,2)x(-2,2)范围内随机产生200个均匀分布的样本,如图3.13所示。我们规定三角形内的样本属于q类(“+”号),矩形内的样本属C3类(“”号),其余样本属于类(“O”号)。我们可以用一个2输入3输出的三层BP网对三类样本进行学习,网络的隐节点数选为10。令q类样本的目标输出为10Of,C2类样本的目标输出为01Of,5类样本的目标输出为0011A08.0%Ob-ot£8巒色%-4OO.2+-+-+.+:0:務;句-一QO0圾±-ddH-口口尸-Q?5O.06。25.2-1-图3.12概念学习样本学习参数设
27、定如卜:神经网络隐层和输出层采用标准Sigrn)idal激活函数,隐节点数取10,学习率77=0,目标误差£=0.01,最人学习次数10000,初始权值和偏移取-0.1,0.1内随机值。经过10000次学习后,我们対神经网络进行测试:用同样方法产生5000个样本,判断分类正确率。图3.13为某次试验的训练误差一训练次数曲线(学习曲线)。训练结束后对所有200个样本的误差平方和为2.144。0200040006000800010000训纟东次数图3.13神经网络用丁分类的学习曲线806040200表3.1为该次试验对5000个样本的测试结果,表中,C,被表示测试样本中被分为q类的样本数
28、,C“表示被分为q、但被学习系统浜别为-的样本数,其中/,j=1,2,3o注意,由神经网络受初始权值的影响较人,如果初始权值的不同,每次训练的结果都可能不同。相应的NfetIab程序清单见附录A。表3.1神经网络对5000个测试样木的识别总测试样本数:5000正确率C,=4110C2=242C3=648C.3c21C225492.48%39091039845197013005183)三层BP网用于函数逼近考虑以FHerrrit多项式的逼近问题,该问题由Kfeckay提出Mack1992a:(3.24)F(x)=1.1(1-x+2x2)exp一I其中xe/?。训练样本产生方式如卜:样本数N=10
29、0,其中样本输入兀服从区间-4,4内的均匀分布,样本输出为尸(兀)©为添加的噪声,服从均值为0,方差为0.1的正态分布。产生的目标函数和一组样本(即图中的“+”号)如卜图314所示。刈r该函数逼近问题,我们可以用一个1输入1输出的三层bp网刈样本进行拟合,图3.14匸|标函数和一组训练样本其它学习参数设定如卜:神经网络隐层采用标准Signuidal激活函数,输出层采用线性激活函数,即f(u)=uo学习率=0.003,目标误差£=0.5,最人学习次数20000,初始权值和偏移取-0.1,0.1内随机值。图3.15为BP算法对图3.14中训练样本的学习曲线,训练结束后所有100
30、个样本的训练误差平方和为0.08K5000100001500020000训练次数0080604020H图3.15神经网络用丁函数逼近的学习曲线刈同一批样本,卜图3.16同时绘制了训练完成后的神经网络函数曲线与目标曲线。其中虚线部分为目标函数曲线,实线为神经网络的输入输出映射函数,“+”为样本。可见两条曲线是非常接近的。相应的WtIab程序清单见附录Be3.3.4有关BP网和BP算法的讨论。1)BP网用于函数逼近与分类的差别BP网输出节点的激活函数根据应用的不同而异:如果BP网用分类,则输出层节点一般用Sigmoidal函数或碾极限函数:如果BP网用函数逼近,则输出层节点应该用线性函数,即y=/
31、(w)=uo2)网络的逼近能力当神经网络的结构和权值确定后,网络从输入到输出就成了一个非线性映射。刈三层BP网,许多人证明了以卜的万能逼近定理Cybel989,HoStl989,Cott1990,Ito1991,Ito1992:含一个隐层的三层BP网络,只耍隐节点数足够多,能以任意精度逼近有界区域上的任意连续函数。我国陈天平等指出ChChl995,神经尤函数的有界性(而不是连续性)是保证任意逼近的充分条件。尽管力能逼近定理说明了神经网络有一个隐层就能实现任意逼近,这并不是说三层的网络结构就是最合理的。事实上,対同一目标函数,有人发现四层的BP网有时候可能比三层的BP网使用更少的神经元TaTal
32、997。3)样本预处理当网络用丁分类时,样本的期塑输出值为d广0或/=1,但由于升值在m=±co时才为0或1,这有可能将某些网络权值驱向无穷人。为了避免这种饱和现彖,期垫输出可适当放宽,如片0.9为1,y;<0.1为0,即每个样本的期望误差定义为£=(0)2=0.01。样本输入也必须进行归一化处理,使归一化后的样本输入均值为零。另外,应使用主成分分析等方法,尽最使各输入变最不和关,各输入变最的协方差也接近相等,以确保各权值的收敛速度大致相同。4) 网络的结构选择这里的网络结构选择包括三方面的内容:输入层和输出层节点数选择、网络隐层数的选择,及每个隐层隐节点数的选择。输
33、入层和输出层节点数选择由应用要求决定。输入节点数一般等要训练的样本矢最维数,可以是原始数据的维数或提取的特征维数;输出单元数在分类网络中取为类别数加,或10g2Hl,在逼近网络中取为要逼近的函数输出空间维数。当网络用工业过程辨识或时间序列预测建模时,输入节点数的选择应由非线性系统定阶的结果确定。网络的隐层数和隐节点数决定了网络的规模,而网络的规模与其性能密切相关。神经网络的规模越人,网络中的自由参数就越多;反之,网络中的自由参数就越少。如果神经网络用逼近一个目标函数(分类可以看成函数逼近的特殊情况),则当网络规模过小,神经网络逼近能力不足,容易导致欠拟合:网络规模过人,神经网络逼近能力过剩,则
34、容易导致过拟合。因此确定网络规模是神经网络设计的一项重要内容。我们将在第六章讨论网络结构对网络性能的影响。5) 增量学习和批学习批处理时,Aw=A>v(p),不存在输入模式次序问题,算法稳定性好,是有平均效应的梯度卜降法,一般取较小值:增屋处理适合j:在线处理,但耍求训练模式输入有足够的随机性,而且增最处理対输入模式的噪声比较敏感,即对剧烈变化的输入模式,效果较差。6) 激励函数的形式上面BP算法推导采用了单极Sigmoidal函数,即/(«)=1/(1+exp(-w),此时/(w)=T/)i石=(%-儿)力(1一)1)。我们也可以采用双极Sigrroidal函数,此时/(W)
35、=2/(l+exp(-W)-l,f(“)=*(l)f),5广*(/一开)(1一»)。一个采用双极Sigrroidal函数的BP算法的例子见第8章。当然,如果我们采用其它连续可微函数,也可用丁构造其它类型的前馈网络模型。110另外,神经尤函数的斜率由/(M)=l/(l+exp(-)中的乂确定,久值越人,激励函数就越陡悄,f(“)就越人,权值的调节|Avv|就越人。用可变的乂可摆脱局部极小点。但人的2值相当J:大值(学习常数),因此不如固定2,只调节值。7)误差函数的选择1 P/s前面我们采用的误差函数为®=丄工工(df>-*町,其中P为训练模式数,2 P=/=()加为输
36、出层神经元数。显然,如果P、m不同时,乞值也不同。为客观地比较两种网络地学习性能,可采用归一化的目标函数,即(3.25)其中£值的确定与应用有关。N网络用于分类时,还可以用如卜地分类误差来判断收敛与否:E=亠,其中?<.Pm为全部样本输入后,不符合期塑输出要求的实际输出分屋个数。当然,具体采用哪种目标函数形式,还要考虑具体应用的情况。8)初始权值的选取刈BP网而言,网络的初始权值不同,每次训练的结果也不同,这是由误差曲而的局部最小点非常多,BP算法本质上是梯度算法,易陷入局部最小点。一般情况卜,网络的初始权值要取小的随机值,既保证各神经元的输入"值较小,工作在激励函数
37、斜率变化最人的区域,也防止多次连续学习后,某些权值的绝对值不合理的无限增长。关初始权值对神经网络泛化能力的影响,以及相关的改进方法,我们将在第六、七章介绍。9)学习率(步长)在最优的梯度法中“应是可变的,是一个一维搜索的结果。但BP网络复杂,Ea是非常复杂的非线性函数,这使得求最优难度很人,计算堂也很人。应用实例表明,可取值1()710不等。一般要求是,当训练到误差曲而得平坦区时,为加快收敛应使增人:当训练到误差曲而得变化剧烈区时,为防止过学习(使误差增加),应使减小。为加快收敛,应使合理化,比如采用变步长算法。还要注意到,小值才能保证权值修正是真正沿梯度卜降方向。3.3.5BP算法的改进评价
38、一个神经网络学习算法的优劣可以有很多指标:1)学习所需的时间;2)泛化能力。3)神经网络的结构复杂性。4)鲁棒性,即算法的学习参数在很人范围变化,算法是否仍能较好地学习。通常认为,BP算法有以卜几个缺陷:1)易陷入局部极小点;2)收敛速度慢;3)所设计神经网络地泛化能力不能保证。改进泛化能力的方法我们将在第五章以后讨论,这里主要介绍避免局部最小和提高收敛速度的一些改进方法。1)加动量算法为加速算法收敛,可考虑引入动宣项RuHi1986,B|J:wOs+1)=>v(/z()+“Os+為v(J(3.26)其中d(nQ)=一fE.',Aw(n0)=“(”()-侦“。-1)=r)(nQ-
39、l)d(H0-1)。这时权值阪讥)修正量加上了有关上一时刻权值修改方向的记忆。动量因子Q般取值0.10.8,动量法対收敛性的改进可用下图3.17作定性说明。该图是二维误差曲面的俯视图。若。次迭代在点,厲+1次迭代在A?点,由于两点处的梯度方向(相邻叠代点之间的连线方向)是一致的,因此动最项可加速仏点的收敛;而若厲和耳)+1次迭代分别在坊、鸟点,这两点的梯度方向是相反的,这时表明-VEG。)和-VEG。+1)都没有准确指向极小点M,因此在色点将修正方向定为-rf7E(nQ+1)+必>呛°),使收敛方向更准确地指向M点。当然,対后一种情况应慎重对待。一般建议在碰到厶E>0,应
40、减小时,应让Q=0而去掉动量项,因为原-VESo-1)搜索方向很可能完全不合理;而当EvO,(川0)应增加时,可让Q再恢复。2)牛顿法常规的BP算法修正权值时只用到了误差函数対权值的梯度,即一阶导数的信息。如果采用二阶导数信息进行权值调整(即牛顿法),则可以加速收敛。假定神经网络权值修正的目标是极小化误差函数E(w),且网络的当前权值为两/),权值修正量为佩f),于是下一时刻的权值w(f+1)=w(f)+),则对E(网+1)进行二阶泰勒展开,得E(w(f+1)«E(w(f)+g厂山叩)+丄山“/"叩)(3.27)2其中g")为E(w)的梯度向量,方阵/(/)称为E(w)的Hessian阵,其元素值为E(w)对各权值的二阶导数,即A,(t)=a£(w)oJ:是权值修正后的误差函数变化最为:717E(f)=g(Z)Aw(f)+Aw(/)yl(/)A>v(Z)(3.28)我们期望通过变动A>v(f)使上式达最小。显然,当满足w<f)=-/T(f)g(f)(3.29)时,£(/)取得最小值。这就是牛顿法的基本原理。在实际应用中,Hessian阵/(f)的计算既求逆都比较麻烦,且
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年节能格栅射灯项目可行性研究报告
- 2025-2030中国美容个人护理产品行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国网络超市行业现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- 2025-2030中国绘画工具行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国细胞染色模拟工具行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国窗帘窗饰行业市场运行分析及发展趋势与投资研究报告
- 2025年胶布防尘套项目可行性研究报告
- 2025-2030中国私募股权行业市场发展现状及前景趋势与投资战略研究报告
- 2025-2030中国碳酸亚乙酯行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030中国碎石打桩机行业发展分析及投资前景预测研究报告
- T-CPQS C010-2024 鉴赏收藏用潮流玩偶及类似用途产品
- NB/T 11448-2023矿用乳化液配比装置
- 房地产中介服务质量调研报告
- 当代世界经济与政治 李景治 第八版 课件 第1、2章 当代世界政治、当代世界经济
- 2023年复合型胶粘剂项目安全评价报告
- DZ∕T 0215-2020 矿产地质勘查规范 煤(正式版)
- 【初中+语文】中考语文一轮专题复习+《名著阅读+女性的力量》课件
- 城市道路桥梁工程施工质量验收规范 DG-TJ08-2152-2014
- 响应面分析软件DesignExpert使用教程
- 《新病历书写规范》课件
- 2024城镇燃气管道非开挖修复更新工程技术规范
评论
0/150
提交评论