第六章神经网络(2)_第1页
第六章神经网络(2)_第2页
第六章神经网络(2)_第3页
第六章神经网络(2)_第4页
第六章神经网络(2)_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1李伟生李伟生信科大厦信科大厦19楼楼Tel:2内容提要内容提要: : 6.1 6.1 感知器(感知器(PerceptionPerception) 6.2 6.2 多层前馈型神经网络多层前馈型神经网络 6.3 6.3 误差逆传播算法(误差逆传播算法(BPBP算法)算法) 6.4 6.4 误差逆传播算法误差逆传播算法(BP(BP算法算法) )的若干改进的若干改进 6.5 6.5 径向基函数神经网络径向基函数神经网络36.1.1 单层感知器单层感知器6.1.2 感知器的收敛定理感知器的收敛定理 6.1.3 多层感知器网络多层感知器网络6.1.4 感知器用于分类问题的算例感知器用于分类问题的算例4一

2、、单层感知器网络一、单层感知器网络 单层感知器神经网络,输入向量为X=(X1,X2,Xm),输出向量为Y=(Y1,Y2,Yn)。 感知器的输入向量为XRn, 权值向量为WRn , 单元的输出为Y1,-1。其中: 其中,X= (X,-1),W= (W,)。 niTWXfTXWfiWiXfY1)()()(0, 10, 1)sgn(TTTWXWXWXY5w21wmjw22wmnw12w11xmx1x2y1y2yn12nw1nw2mwm2wijw2jw1jyjxix1x2xm 图图6.1 单层感知器网络单层感知器网络 图图6.2 最简单的感知器最简单的感知器 wm16单层感知器的学习算法:令Wn+1=

3、, Xn+1=-1, 则,具体算法如下: 初始化 给Wi(0)各赋一个较小的随机非零值。这里Wi(t)为t时刻第i个输入的权值(1in),Wn+1(t)为t时刻的阈值。 输入样本X=(X1,X2,Xn,T),T 称为教师信号,在两类样本分类中,如果XA类,则T=1;如果XB类,则T=-1。)(11niiiWXfY7 计算实际输出 修正权值 Wi(t+1)= Wi(t)+(T-Y(t)Xi i=(1,2,n,n+1) 其中,01用于控制修正速度,通常不能太大,会影响Wi(t)的稳定,也不能太小,会使Wi(t)的收敛速度太慢。 转到直到W对一切样本均稳定不变为止。 用单层感知器可实现部分逻辑函数,

4、如: X1X2: Y=1X1+1X2-2 即W1=W2=1,=2 X1X2: Y=1X1+1X2-0.5 即W1=W2=1,=0.5 X : Y=(-1)X1+0.5 即W1=-1,=-0.5)()(11tWXftYniii8三、单层感知器的局限性三、单层感知器的局限性 异或逻辑为 X1X2X1X2 ,假定单层感知器能实现异或逻辑,那么,Y=W1X1+W2X2-,要求: 表表 6.1 异或逻辑异或逻辑 011110101000输出 输入样本9 W1+W2- 0W1+W2 0+0- 00 0+W2-0W2 (a) XOR 逻辑逻辑 (b)AND逻辑逻辑 (c) OR逻辑逻辑 图图 6.3 线性可

5、分性线性可分性 (0,0)(0,0)(0,0)(0,1)(0,1)(0,1)(1,1)(1,1)(1,1)(1,0)(1,0)(1,0)10 一、线性可分函数一、线性可分函数 对给定的X和Y,存在W和和线性映像函数f ,使得: f:Rn 1,-1, XRn, 则称 f为线性可分函数。 所谓的线性可分是指存在一个超平面(二 维为一条直线)能将两类样本分开。 对于上面的异或逻辑可用一个平面将其输出类别分开。平面方程为: X1W1+X2W2+X3W3=, X1W1+X2W2+(X1X2)W3=。11 表表6.2 三维异或逻辑三维异或逻辑0111110010100000输出输出输入样本输入样本12图图

6、 6.4 异或问题的三维表示异或问题的三维表示 130.51.5输出单元x x1 1x x2 2输入单元隐含单元x x3 3+1+1+1+1 -214 二、定理二、定理 感知器收敛定理感知器收敛定理 若函数f是线性可分的,则感知器的学习算法在有限次叠代后收敛。(证明略) 15一、多层感知器网络一、多层感知器网络 两个隐层感知器的输入层有n个节点,第一隐层有n1个节点,第二隐层有n2个节点,各层节点的输出为: (j=1,2,n1) (k=1,2,n2)nijiijjXWfY11)(1112)(njkjjkkYWfY21230101)()(nkkknetnetnetfYWfY16 (A) 两个隐层

7、的感知器两个隐层的感知器 图图6.5 多层感知器网络多层感知器网络 Y3 2kY(j= 1,2,.,n1) (k = 1,2,.,n2) 1jY x1 x2 xn 17 二、多层感知器的分类决策能力二、多层感知器的分类决策能力 定理定理 假定隐层的节点可以根据需要自由设置,那么用三层的阈值网络可以实现任意的二值逻辑函数。 图6.5(B)中输出层节点的输出为: 此时隐层与n个输入节点的关系如同单层感知器一样,可以形成n1个n维空间的超平面把n维输入空间分成一些小的子空间。例如,n=2,n1=3的情况下,隐层第j个节点的输出为: (j=1,2,3)1112)(njjjYWfYnijiijjXWfY

8、11)(18 (B) 一个隐层的感知器一个隐层的感知器 图图6.5 多层感知器网络多层感知器网络 Y2x1x211Y12Y13Y19l 可以在二维输入空间上决定三条直线,因为各自的Wij和j不同,三条直线的截距和斜率各不相同,如同6.6(A)所示,就可以找到一个区域使其内为A类,之外为B类,用这三个隐单元所得到的一个封闭区域就可满足条件。从隐单元到输出层只要满足下式即可得到正确划分。 l 十分明显,隐节点到输出节点之间为“与”关系。对于图6.6(B),可以采用有两个隐层的感知器来实现,其中第二隐层节点到输出层节点为“或”关系,即满足下式即可。 20 Y2=(X1,X2)(W11X1+W21 X

9、2 -1)0(W12 X1+ W22 X2- 2)0(W13 X1+W23 X2-3)0 Y3=(X1,X2)Y12Y22 3 6 =(X1,X2)(W1jX1+W2j X2 -j )0)(W1j X1 j=1 j=4 +W2j X2- j )0)21 (A) (B) 图图6.6 多层感知器对输入空间的划分多层感知器对输入空间的划分 A类AABB22 Y11=1X1+1 X2-1 Y21=(-1) X1+(-1) X2-(-1.5) Y2=1 Y11+1 Y21-2图图 6.7 解决异或问题的三层感知器解决异或问题的三层感知器X1X211Y12Y21Y23l 感知器的结构见图 6.9所示。l

10、图图6.9 感知器结构感知器结构 Yw1w2x1x224 其中,u = W1X1+W2X2,在此特选定输出单元为非线性函数,其输出为: 输入模式为:(0.5, 0.05)、(0.05, 0.5) A类 (0.95,0.5)、(0.5,0.95) B类 教师信号为: BAT分类分类;0;10211)(uueufY25 W1(t+1)=W1(t)+(T-Y)X1 W2(t+1)=W2(t)+(T-Y)X2 (t+1)=(t)+(T-Y) 总的误差之和为 :41iiiYTE26NYW和用随即数初始化计算y更新W和输入一个学习样本(x,T)样本全部输入完吗?E小于上限吗?学习次数到吗?结束开始YNNY

11、图图6.10程序框图程序框图27l 表表 6.3 (a) 表表 6.3 (b) 0.95 0.500.500.05X2200最大学习次数最大学习次数 0.01误差上限误差上限0.300.010.500.400.010.950.20u00.990.050.10随机范围随机范围0.990.500.20W随机范围随机范围YX1取值取值参数参数28100学习次数200误差 xpb(0,0)(10)(1,0)y(1,1)papbpa501500100200图图 6.11 (a) 误差曲线误差曲线 (b) 直线变化情况直线变化情况296.2.1 网络结构及工作过程网络结构及工作过程 6.2.2 误差函数与

12、误差曲面误差函数与误差曲面 6.2.3 网络的学习规则网络的学习规则梯度下降算法梯度下降算法 30 一、学习样本一、学习样本 输入样本为:(XK ,TK),其中K1,2,N,N为学习样本数,XKRn,TKRm。 二、工作过程二、工作过程)()()(1111212312jniiijjknjjjkklnkkkllXWfYYWfYYWfY31 图图 6.12 前馈型神经网络结构前馈型神经网络结构 31Y3mYklWjkWijW21Y2nY211Y1nY1l k j i x1 x2 xn 32三、非线性单元常采用的转移函数三、非线性单元常采用的转移函数 1-1xy1 0.5xy00图图6.13 常用的

13、转移函数常用的转移函数(a) Sigmoid函数函数 (b) 双曲正切函数双曲正切函数33 (0 f(x) 1) 通常增加参数和来调整函数的斜率和使其左右平移, Sigmoid函数为一单调递增连续函数,且处处可导,其导数为: x)(ef(x)xexp1111)(exp(11)(xxf)(1)()( xfxfxf34 Sigmoid函数通过下式能够映射到(-1,1)范围:双曲正切函数的表达式为: ( -1 f(x) 0。存在正整数N和常数Ci、i(i=1,2,N)和Wij(i=1,2,N;j=1,2,n)使: (3.3.16) 成立。 此定理说明对于任意0,存在一个三层网络,其隐单元的输出函数为

14、(X),输入输出单元为线性的,对于任意连续映射f:RnRm,在任意的有界闭集合上能以任意精度逼近。NinjijijinKXXWCXXXf1121)(),.,(max53 BP算法虽然简单,对各个方面都有重要意义,但是它存在有以下问题: 1从数学上看它是一个非线性优化的问题,这就不可避免地存在局部极小的问题。 2学习算法的收敛速度很慢,通常需要几千步迭代或更多。 3网络的运行还是单向传播,没有反馈,目前这种模型并不是一个非线性动力学系统,只是一个非线性映射。 4网络的隐节点数目选取尚无理论上的指导,而是根据经验或实验选取。 5对于新加入的样本要影响已经学完的样本,不能在线学习,同时描述每一个样本

15、的特征数目也要求必须相同。 546.4.1 基于全局学习速率自适应调整的基于全局学习速率自适应调整的BP算法算法 6.4.2 基于局部学习速率自适应调整的基于局部学习速率自适应调整的BP算法算法 6.4.3 BI(Back Impedance)算法算法 55 1加入动量项 其中,为动量系数,一般取0.9左右。 引入这个动量项之后,使得调节向着底部的平均方向变化,不致产生大的摆动,即动量起到缓冲平滑的作用。若系统进入误差曲面的平坦区,那么误差将变化很小,于是(t+1)近似等于(t) ,而平均的将变为: 式中- / (1- )变化大,将调节尽快脱离饱和区和截至区。 )() 1(twwEtwwEw1

16、562学习速率的经验公式法 对于批处理更新的学习速率,是基于相类似训练模式产生类似梯度的假设。 =1.5 / =0.9 3学习速率渐小法 从大的学习速率(0)开始,在训练期间,这个值减小到大约(0)/(t+1),后来为 (t) = (0)/(t+1)22221mNNN 57 4渐进自适应学习速率 用一种简单的进化策略来调节学习速率。从某个值开始,下一步更新通过用增加和减小学习速率去完成。产生比较好性能中的一个被用作为下一步更新的起始点: 创建两个一样的网络和初始学习速率。按下式调节两个网络的权。EwEttwijij)()(58l 如果两者总误差已经得到增加(回溯),放弃这些网络并重新起动以前的

17、网络和初始学习速率。l 在减小总误差的情况下,用具有比较小的总误差的网络以及学习速率以启动下一个学习步。 591基于符号变换的学习速率自适应 工作步骤如下: 对每个权值,选择某个小初值ij(0); 修改学习速率 ij(t)= ij(t-1) u 如果 否则 01 tEtEijij 1tEttijijijij 1tEttijijijij60 更新连接 只要保持 u1/d,选择合适的参数和是很容易的。推荐的值分别是1.1-1.3或者0.7-0.9。如果总误差增加。用回溯策略重新起动更新步骤,对于这种重新起动,所有学习速率被减半。 2DeltaBarDelta技术 DeltaBarDelta方法通过

18、观察指数平均梯度的符号变化来控制学习速率。通过加入常值代替乘这个值来提高学习速率: 对每个权重,选择某个小的初值ij(0)61 修改学习速率如果 如果 其他 其中(t)表示指数平均梯度: utt1ijij01ijttEij dtt1ijij01ijttEij 1ijijtt 11ttEtijijij62 更新连接 对于u推荐很不同的值(5.0,0.095,0.085,0.035),对于d ,采用(0.9,0.85,0.666)和对于采用0.7。特别是难于找到合适的u ,小的值可能产生慢自适应,而大的值危及学习过程。 ijijijEtt631BI算法算法 给权值赋予一个小的随机数。 给定输入函数

19、值与相应的输出函数值。 计算每个节点的输出值, 计算输出层节点的误差项, )exp(11iiijjYWY)1 ()(lllllYYYTlkllkkkWYY)1 (jjkkjjjWYY)1 (64 调整权值 Wij(t+1)= Wij(t) + aj Yi + b(Wij(t) - Wij(t-1)+ c(Wij(t-1) - Wij(t-2) 式中,a学习率,相当于梯度下降算法中的学习步长;b影响从“前一次”权值改变到“当前”权值的权值空间运动方向,是影响权值变化的一个常数;c 影响从“再前一次”权值改变到“前一次”权值的权值空间运动方向,也是影响权值变化的常数。a、b、c三个常数满足下列关系

20、,则收敛速度会加快: a= 1 / (1+J+M+D) b= (2J+M) / (J+M+D) c= J / (J+M+D)65 式中J、M、D满足: 给定另一输入函数值,返回。所有的输入函数值循环进行计算,直至所有权值稳定,网络误差达到预定精度算法结束。WEtWDtWMtWJ223366l 图图 6.18 网络结构网络结构人工神经元输入端权值权值层3权值层2权值层1输入层隐含层隐含层输出层67 2算法应用于函数非线性变换 网络的输入函数为: 式中X=0,1,A、B、C是常数,网络的期望输出函数为:D=KX+P。取A=0.5, B=0.75, C=3, K=-5, P=12。使用BI算法,运行

21、结果见下表3.6, 精度达到99.206%。 2.1 ,5.025.022)2exp21(CBXAVi686.5.1 网络结构网络结构 6.5.2 网络算式及参数网络算式及参数6.5.3 应用应用691985年Powell提出了多变量插值的径向基函数(Radial Basis Function, RBF),1998年Broomhead和Lowe将RBF应用于人工神经元网络设计,构造了径向基人工神经网络(RBFN)。径向基人工神经网络的结构与多层前向人工神经网络类似,它是一种三层前向人工神经网络:第一层为输入层,由信号源结点组成;第二层为隐含层,单元数视所描述问题的需要而定;第三层为输出层,它对

22、输入模式的作用做出响应。从输入空间到隐含层空间的变换是非线性变换,而从隐含层空间到输出层空间的变换是线性变换。隐含层单元的变换函数是径向基函数(RBF),它是一种局部分布的相对中心点径向对称衰减的非负非线性函数。70径向基神经网络的基本思想是:用径向基函数(RBF)作为隐单元的基构成隐含层空间,将输入矢量直接(即不通过权连接)映射到隐空间。当径向基函数(RBF)中心点确定后,这种映射关系也就确定了,而隐含层空间到输出空间的映射是线性的,即输出是隐单元输出的线性加权和,此处的权为网络可调参数。由此可见,从总体上看,网络由输入到输出的映射是非线性的,而网络输出对可调参数而言却又是线性的,这样网络的

23、权就可由线性方程组直接解出或用递推最小二乘(RLS)算法计算得出,从而大大加快学习速度并避免局部极小问题。71 径向基函数神经网络结构径向基函数神经网络结构 2x2x1x 1x nxnx1G2GnG1G2GnGY1Y2YmY72l其中输入层神经元数为I,隐含层神经元数为H,输出层神经元数为O;X=(x1,x2,xI)T为输入向量, Z=(z1,z2,zH)T为隐含层状态, Y=(y1,y2,yO)T为输出向量。 1x2xIx1y2yOy。X输入层VYWZ隐含层输出层l自组织RBFN网络拓扑结构73该网络各层含义如下:第一层为输入层。输入层神经元只起连接作用,不进行信号变换。第二层为隐含层。设输

24、入层第i个神经元至隐含层第j个神经元的连接系数为vij;输入层神经元至隐含层第个神经元的连接系数矢量Vj=(v1j,v2j,vIj)T,j=1,2,.,H,也即隐含层第个神经元中心矢量为;输入层神经元至隐含层神经元的连接系数矩阵(又称隐含层中心矢量矩阵)为: 设自组织径向基神经网络隐含层神经元的变换函数为高斯核,隐含层第j个神经元对应输入X的状态为: 其中, 为隐含层第j个神经元的控制参数。IHIIHHHvvvvvvvvvVVVV21222211121121),()1 ()2/()(exp|)(|122HjvxVXKZIiiijijj)1 (Hjj74 第三层为输出层。设隐含层第j个神经元至输

25、出层第k个连接系数为wjk;隐含层神经元至输出层第k个神经元的连接系数矢量为Wk=(w1k,w2k,wHk)T;隐含层神经元至输出层神经元的连接系数矩阵为: 径向基网络对应输入X的输出Y为: 其中, 为输出层第个神经元的阈值。HOHHOOOwwwwwwwwwWWWW21222211121121),()1 (1OkZWZWzwyTkkTkHjkjjkk)1 (Okk75 定义定义 假设 ,以x0为中心(原点),x到x0的径向距离为半径,形成的核|x- x0 |(如图所示),构成的函数系 被称为径向基函数。由定义可知,一切以为核的函数都可以称为径向基函数。但是如果在前馈网络隐层单元构造非线性函数,

26、形成径向基函数网络,那么,该径向基函数必须满足有界性有界性和绝对可积绝对可积的条件 .nRxx0,|)(|)(0 xxOxKx0 x1x276 最常用的径向基函数形式为高斯函数,它的可调参数有两个,即中心位置及方差b(函数的宽度参数),用这类函数时整个网络的可调参数(待训练的参数)有三组,即各基函数的中心位置、方差和输出单元的权值。通常选择隐层的节点数为训练样本个数,每个节点都有一个径向基函数的中心向量,该中心向量即为训练样本的输入向量。 CK=| CK1 ,CK2 , CKn | K=1,2,N 隐节点的净输入定义为输入模式X与隐节点的径向基函数中心向量间的欧氏距离,即:NKCxCXniKi

27、iKK, 2 , 1)(12277 隐层节点的转移函数为Gauss函数: f (x)=exp(-x2 / b)=exp(- 2K / b) Gauss函数其形状见图,其中参数b控制钟形高斯曲线宽度的作用,隐层节点的输出 yK=f (K) 代表着输入模式离开该隐节点所代表的径向基函数中心的程度。输出层节点数为输出向量的维数,节点j 的输出为: 式中 Wj =w1j ,w2j , wNj , Z=z1 , z2 , zN NKjKKjjZWzwY178Gauss函数函数xYb=1b=0.5b=0.1-2-10120.5179 RBF网络的中心向量和权值均由学习样本来确定,因输出单元是线性单元,所以

28、它的权值可以用最小二乘法直接计算出来。因此,设计一个RBF网络时只有一个参数b需要调整,即高斯函数中的平滑因子b,它控制着高斯曲线钟型的宽度。 RBF 网络的中心向量、平滑因子b和权值w也可由BP算法学习训练得到。 80对于c个类别的模式识别问题,每个类别有Ni (i=1,2,c)训练样本矢量(总计有 个样本),那么,对应的外监督信号为:ciiNN1NcNNNRDc11000000110000001121 811.模型 雷达的载频,重频,脉宽三个特征参数与雷达体制间存在着联系。我们根据雷达体制对雷达数据库中的雷达进行分类,根据某雷达的载频,重频,脉宽三个特征参数找到该雷达所在的子集,然后进行全部参数的匹配,确定雷达的型号。. . . . . . . . . . .发射频率(RF)隐层输出层输入层端3端1端2重复频率(PRF)脉冲宽度(PW)端882输入层:选取载波频率、脉冲宽度、重复频率为神经网络的输入参数。隐 层:选用高斯核(GKF)作径向基函数输出层:选取8种雷达体制。端1表示脉冲重频参差,端2表示重频抖动,端3表示载频准正弦捷变,端4表示脉冲重频调制,端5表示载频随机捷变,端6表示常规脉冲,端7表示脉内相位编码,端8表示频率规则捷变。83l2.学习样本选取 设某雷达的库中记录如下:选取规则如下:1)每一个特征参数离散的工作点应选取到2)每一个特征参数的工作区间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论