![人工神经网络课程nn04_第1页](http://file3.renrendoc.com/fileroot3/2021-11/13/1bad3dab-1e16-449a-bfe7-e8791c46a956/1bad3dab-1e16-449a-bfe7-e8791c46a9561.gif)
![人工神经网络课程nn04_第2页](http://file3.renrendoc.com/fileroot3/2021-11/13/1bad3dab-1e16-449a-bfe7-e8791c46a956/1bad3dab-1e16-449a-bfe7-e8791c46a9562.gif)
![人工神经网络课程nn04_第3页](http://file3.renrendoc.com/fileroot3/2021-11/13/1bad3dab-1e16-449a-bfe7-e8791c46a956/1bad3dab-1e16-449a-bfe7-e8791c46a9563.gif)
![人工神经网络课程nn04_第4页](http://file3.renrendoc.com/fileroot3/2021-11/13/1bad3dab-1e16-449a-bfe7-e8791c46a956/1bad3dab-1e16-449a-bfe7-e8791c46a9564.gif)
![人工神经网络课程nn04_第5页](http://file3.renrendoc.com/fileroot3/2021-11/13/1bad3dab-1e16-449a-bfe7-e8791c46a956/1bad3dab-1e16-449a-bfe7-e8791c46a9565.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2022-1-16马尽文1第2章 前馈型人工神经网络vm-p模型v感知机模型与学习算法v多层感知机网络v自适应线性单元与网络v非线性连续变换单元组成的前馈网络vbp算法2022-1-16马尽文22.3 非线性连续变换单元组成的网络 由非线性连续变换单元组成的前馈网络,简称为bp(back propagation) 网络。1.网络的结构与数学描述 (i). 非线性连续变换单元 对于非线性连续变换单元,其输入、输出变换函数是非线性、单调上升、连续的即可。但在bp网络中,我们采用s型函数: )(111111)(ijnjijixwuiiijnjijiieeufyxwsu2022-1-16马尽文32.3
2、 非线性连续变换单元组成的网络函数 是可微的,并且这种函数用来区分类别时,其结果可能是一种模糊的概念。当 时,其输出不是1, 而是大于0.5的一个数,而当 时,输出是一个小于0.5的一个数。若用这样一个单元进行分类,当输出是0.8时,我们可认为属于a类的隶属度(或概率)为0.8时,而属于b类的隶属度(或概率)为0.2。)(uf)(ufu)(1)()11()( ufufeufu0u0u2022-1-16马尽文42.3 非线性连续变换单元组成的网络(ii). 网络结构与参数 下面以四层网络为例来介绍bp网络的结构和参数,一般情况类似。1x2xnx1y2ymy1 x2 x1nx1 x2 x2 nxl
3、kilkkjjimtmntnntnntnwwwryyyyrxxxxrxxxxrxxxx , ,),() , , ( ),(),(212121212211阈值:连接权:网络输出:第二隐层输出:第一隐层输出:网络输入:jiwkjwlkw 2022-1-16马尽文52.3 非线性连续变换单元组成的网络 网络的输入输出关系为:显然可以将阈值归入为特别的权,从而网络的参数可用 表示( 为一个集合)。上述网络实现了一个多元连续影射: 2111211,2,1), (,2,1),( ,2,1),(njlklklnjkjkjknijijijmlxwfynkxwfxnjxwfxmnrrwxfy: ),(ww202
4、2-1-16马尽文62.3 非线性连续变换单元组成的网络(iii).网络的学习问题学习的目标:通过网络(或 )来逼近一个连续系统,即连续变换函数 。 学习的条件:一组样本(对) 对于样本对 ,存在 使得 对于所有样本的解空间为: ),(wxf)(xg),( ,),(),(2211nnyxyxyxsiwmmnnnnnnnprwwxfypiii222111,),(winiww1 ),(iiyx2022-1-16马尽文72.3 非线性连续变换单元组成的网络(iv). kolmogorov定理kolmogorov定理(映射神经网络存在定理,1950s) 给定任何连续函数 ,则 能够被一个三层前馈神经网
5、络所实现,其中网络的隐单元数为 。注意:定理未解决构造问题。)(, 1 , 0 :xfyrfmnf12 n1x2xnx1z2z12 nz1y2ymy为正有理数。为常数,为连续函数,为连续单调递增函数,其中jjnjkkinijjgmkzgynjjjxz, 2 , 1),(12 , 2 , 1,)(12112022-1-16马尽文82.3 非线性连续变换单元组成的网络2. bp学习算法 (i).基本思想 bp算法属于 学习律,是一种有监督学习: 对于辅助变量并将阈值归入权参数: 则有: (误差)网络实际输出:理想输出或导师值),样本输入:erroryyytttxxxnnn,(,212121llkk
6、jjwxwxwx , 1 , 1, 1000000) (),( ),(21000knklkninjljkjkijijxwfyxwfxxwfx2022-1-16马尽文92.3 非线性连续变换单元组成的网络考虑第 个样本的误差:进一步得总误差:引入权参数矩阵:和总权参数向量:212)(21|21lmllytytenlmllnnytytee121121)(21|21)1()1()1(2121) ( ,)(,)(nmlknnkjnnjiwwwwww1011(,)tsgcdvecwvecwwwwvecwww2022-1-16马尽文102.3 非线性连续变换单元组成的网络根据总误差得到一般性的梯度算法:终
7、止规则:这里用梯度法可以使总的误差向减小的方向变化,直到 或梯度为零结束。这种学习方式使权向量 达到一个稳定解,但无法保证 达到全局最优,一般收敛到一个局部极小解。gssgsggssgnsgsgsgnwewweewxtwewewxtwee,2,11)(),(),(e)0(?0, 0eeewe2022-1-16马尽文112.3 非线性连续变换单元组成的网络(ii). bp算法的推导 令 为迭代次数,则得一般性梯度下降法: 其中 为学习率,是一个大于零的较小的实数。 先考虑对于 的偏导数:0njijijikjkjkjlklklkwenwnwwenwnwwenwnw)()1()()1( )( )1(
8、 000000lkw ) ( ) ( )( 2011knklklknllllklllnllkxwuxufytwuuyyewe2022-1-16马尽文122.3 非线性连续变换单元组成的网络在上式中, 为第 个样本输入网络时, 的对应值。另外令则:为了方便,引入记号:kx kx )1 () (1)( () ( lllllyyufufuf)1 ()(lllllyyytknllklklklkxnwwenwnw )( )( ) 1( 1000niijijjjnjjkjkkknkklklllxwuufxxwuufxxwuufy000),(),( ), (122022-1-16马尽文132.3 非线性连续
9、变换单元组成的网络对于 的偏导数,我们有:kjwlkmllkkkklkmllkjnkjkklknmlljkklklllnmlljklkllnmllkjkkkklllnmllkjwxxxxwxxxxwxxxwyyytxufwufytwuuxxuuyyewe ) 1 ( ) 1 ( ) 1 ( ) 1 ( )1 ()()( ) ( )( 11111111111 其中2022-1-16马尽文142.3 非线性连续变换单元组成的网络这样我们有:类似的推导可得:(iii). bp算法step 1. 赋予初值: step 2. 在 时刻,计算 及其广义误差 jnkkjkjxnwnw)() 1(100knk
10、kjjjjjknkkjjinjjijiwxxxxwxnwnw 1111100)1 ()1 ()() 1(其中) ,(, 0),5 . 0)() 0(lkkjjisgsgwwwwrandomwlkjyxx, ,12,2, 1,;,2, 1,;,2, 1,njnkmljkl 0n2022-1-16马尽文152.3 非线性连续变换单元组成的网络step 3. 修正权值: step 4. 计算修正后的误差: 若 ,算法结束,否则返回到step 2。injjijijnkkjkjknllklkxnwnwxnwnwxnwnw100100100)() 1()() 1( )( ) 1( ),),1() 1(01
11、0 xtnenenw|, 0() 1(0sgwene或预先给定)2022-1-16马尽文162.3 非线性连续变换单元组成的网络bp算法的讨论:a). 这里的梯度是对于全部样本求的,因此是一种批处理算法,即 batch-way,它符合梯度算法,稳定地收敛到总误差的一个极小点而结束。(注意:按总误差小于 可能导致算法不收敛.) b). 实际中更常用的是对每个样本修改,即自适应算法,当每次样本是随机选取时,可通过随机逼近理论证明该算法也是收敛的。特点是收敛速度快。c). 为了使得算法既稳定,又具有快的收敛速度,可以使用批处理与自适应相补充的算法,即选取一组样本(远小于全部样本)进行计算梯度并进行修
12、正,其它不变。2022-1-16马尽文172.3 非线性连续变换单元组成的网络3. bp网络误差曲面的特性 bp网络的误差公式为: 是一种非线性函数,而多层的bp网络中 又是上一层神经元状态的非线性函数,用 表示其中一个样本对应的误差,则有: 可见, 与 有关,同时也与所有样本对有关,即与 有关。211)(21lnmllyte )(llufyluenlmllxteexteyte121),(),()(21ww),( ,),(),(2211nnyxyxyxsew2022-1-16马尽文182.3 非线性连续变换单元组成的网络假定样本集 给定,那么 是 的函数。在前面考虑的4层网络中,权值参数的总个
13、数为:那么在加上 这一维数,在 维空间中, 是一个具有极其复杂形状的曲面。如果在考虑样本,其形状就更为复杂,难于想象。从实践和理论上,人们得出了下面三个性质:(i). 平滑区域 误差广义误差)1 ()(lllllyyyt平滑区域sew) 1() 1() 1(2211mnnnnnnwe1wne2022-1-16马尽文192.3 非线性连续变换单元组成的网络(ii). 全局最优解 不唯一 中的某些元素进行置换依然是全局最优解,这从右边的简单模型可以看出。(iii). 局部极小 一般情况下,bp算法会收敛到一个局部极小解,即:当 ,算法以希望误差收敛;当 ,算法不以希望误差收敛,但可按梯度绝对值小于
14、预定值结束。*w*w1x2x1 x2 x),(21wxxfy 00)(wwn)(0we)(0we2022-1-16马尽文202.3 非线性连续变换单元组成的网络4. 算法的改进 (i). 变步长算法( 是由一维搜索求得) step 1. 赋予初始权值 和允许误差 ; step 2. 在时刻 ,计算误差 的负梯度(方向): step 3. 若 ,结束;否则从 出发,沿 做一维搜索,求出最优步长 :step 4. , 转 step 2。 ) 0 (w00n)(0ne w)()(00| )(nnedwww|)(0nd)(0nw)(0nd)(0n)(minarg)()(000ndnenw)(0000)
15、()() 1(ndnnnww2022-1-16马尽文212.3 非线性连续变换单元组成的网络步长(学习率) 的确定方法:(a). 求最优解:对 求导数,并令其为零,直接求解:(b). 迭代修正法:令 0)()(00ndnwe)(0n)()(0)(00nedneenww0110,0,,其中eifeifoldoldnew2022-1-16马尽文222.3 非线性连续变换单元组成的网络(ii). 加动量项 为了防止震荡并加速收敛,可采用下述规则:注意注意:上式类似于共轭梯度法的算式,但是这里 不共轭。因此可能出现误差增加的现象,即 ,这时可令 ,即退回到原来的梯度算法。000()0000()(1)0
16、0000000(1)()()()(1)()()()()()()(1), 01)nnnnnn dnnnnddnnnnn wwwwwwww(其中为动量项()1()(00,nndd0e02022-1-16马尽文232.3 非线性连续变换单元组成的网络(iii). 加入 因子 当算法进入平坦区,即 ,则 。为了消除或减弱这种现象,引入 因子,使得:(iv). 模拟退火方法 在所有权上加一个噪声,改变误差曲面的形状,使用模拟退火的机制,使算法逃离局部极小点,达到全局最优而结束。0)1 (llyy| |lu201,/,11 exp( )nlllkkllklyuwxu2022-1-16马尽文242.3 非线
17、性连续变换单元组成的网络5.bp网络的设计(i).输入输出层的设计 bp网络输入、输出层单元个数是完全根据实际问题来设计的,我们分三种情况讨论: a.系统识别 这时输入单元个数为 ; 输入单元个数为 。xymnrrxfy: )(fnm2022-1-16马尽文252.3 非线性连续变换单元组成的网络b.分类问题 (a).若 ,则令 ,这样输出层仅需要一个单元。 (b).若 ,则令: 这样输出层则需要 个单元。 (c).二进制编码方法 对 进行二进制编码,编码位数为,),( ,),(),(212211minncccttxtxtxsjict )0(jtijict ),其余分量为个分量为第01()0
18、, 0 , 1 , 0 , 0(jttimmccc,212022-1-16马尽文262.3 非线性连续变换单元组成的网络 ,这样输出层仅需 个单元。(ii). 隐单元数与映射定理1989年,r. hecht-nielson证明了任何一个闭区间内的连续函数都可以用一个三层(仅有一个隐层)bp网络来逼近(任意给定精度)。 引理2.1 任意给定一个连续函数 及精度 ,必存在一个多项式 ,使得不等式 对任意 成立。 引理2.2 任意给定一个周期为 的连续函数 及精度 ,必存在一个三角函数多项式 ,使得 对于 成立。m2logm2log),(bacg0)(xp| )()(|xpxg,bax2cg20)(
19、xt| )()(|xtxgrx2022-1-16马尽文272.3 非线性连续变换单元组成的网络在 维空间中,任一向量 都可表示为 其中 为 的一个正交基。同样考虑连续函数空间 或 ,必然存在一组正交函数序列 ,那么对 ,则 nnnecececx2211,21neeenrx1)(kkx,)(bacxg为傅里叶系数。其中则有或对dxexgcxecececxgcxgxxcxcxgikxknnnkikxkkikxkikxkkffnnkkkkkk2222211)()()(,)()()()()(, bac2c2022-1-16马尽文282.3 非线性连续变换单元组成的网络当 充分大时,对每个 成立:进一步
20、考虑 中的多元连续函数: 根据傅立叶级数展开理论,若则同样存在一个 步傅立叶级数和函数:nx)0(|)()(|)(2xgxgecxgnffikxnnkknf) 1 , 0()(, 1 , 0: )(nncxgrxg) 1 , 0(ncndxdxxgn1 , 01| )(|11112(,)2(,)( ,)niitjnnnik xnnnnikxfkkkkknknknngx n gcece n2022-1-16马尽文292.3 非线性连续变换单元组成的网络其中系数为:并且当 时, 满足即 在 可以完全收敛达到 。 现在考虑对一个任意连续映射:其中 ,则 的每个分量也都可以用上面的傅立叶级数表示,依此
21、就可以得到下面的影射定理(定理中所考虑的三层网络输出单元为线性单元)。 dxexgcntnxikkk1 ,02)(1)(),(xggnxgfn),(gxgf)(xgmnrxh1 , 0 :)() 1 , 0()(),(,),()(1njncxhxhxhxhn1 ,0)(xh2022-1-16马尽文302.3 非线性连续变换单元组成的网络映射定理(hecht-nielsen):给定任意精度 ,对于一个连续影射 ,其中: 那么必存在一个三层bp神经网络来逼近函数,使得在每点上的误差不超过 。证明:由于输出单元是独立 的,分别与 的每个分量 函数相对应,我们仅需要 对单个输出单元和分量函 数来证明。
22、mnrxh1 , 0 :)(ndxdxxhn1 , 01|)(|01x2xnx1y2ymy)(xh2022-1-16马尽文312.3 非线性连续变换单元组成的网络根据傅立叶级数理论,对于 的分量 ,则其中 是 的 步傅立叶级数和函数:下面证明傅立叶级数中任意三角函数可以用三层bp子网络来逼近,那么通过傅立叶级数的线性组合就可以保证用三层bp网络来逼近函 。考虑结构为 的三层bp网络,其输出为:njfjxhnxgxh 1 , 0),0(| ),()(|1),(jfhnxgn12(,)2,(,)( ,),tnnnikxfjkkkknngx n hce dxexhcntnxikjkk1,02)(11
23、1nn)(xh)(xhj)(xhj)(xhj2022-1-16马尽文322.3 非线性连续变换单元组成的网络 我们来证明输出函数 能够逼近任何三角函数:令考虑函数 ,当 , 趋向于单位阶跃函数(见右图),则 为一些近似单位阶跃函数 的线性叠加,故当 充分 )(111jknkjknjjxwfwyy)(),22()sin()2sin(111jjjjjknkjknlllttuuxwedxkxkuuxk)(jjufj)(jjuf1)(),(11jjnjjufwuws1nju2022-1-16马尽文332.3 非线性连续变换单元组成的网络大时,我们可将区间 充分的细分,选取 和 , 使得 ,或 即得:
24、对于 ,我们有下面的展开: ,ed)0(| )sin(),(|2uuwsjj211| )2sin()(|1xkxwfwtjknkjknjj)2sin()(111xkxwfwtjknkjknjj)(xhj2022-1-16马尽文342.3 非线性连续变换单元组成的网络)2cos()2sin()2cos()2sin()2cos()2(sin(),()(),(),(),(),(),(),(),(),(2xkbxkaixkbxkaxkixkcechnxgxhtknnnnktktknnnnktktnnnnktknnnnkxikkjfjt02022-1-16马尽文352.3 非线性连续变换单元组成的网络使
25、用充分多的隐单元,可得令),(),()(),(),(kkkkkkkkknnnnkkuwsbuwsaxy)2cos()2sin()(),(),(xkbxkaxhtnnnnkktkf证毕) 1 , 0(|),()(cos(),()(sin(| )()(| )()(| )()(| )()()()(| )()(|),(),(21),(),(nknnnnkkkkkkkkkkknnnnkkkkfjffjffjjxbauwsubuwsuaxhxhxyxhxhxhxyxhxhxhxyxh2022-1-16马尽文362.3 非线性连续变换单元组成的网络(iii). 隐单元数的选择隐单元数:小,结构简单,逼近能力
26、差,不收敛;大,结构复杂,逼近能力强,收敛慢。对于用作分类的三层bp网络,可参照多层感知机网络的情况,得到下面设计方法:(a). 其中 为样本个数,选取满足上式最小的 。(b). . )0,(,1101inniinnnin1n10, 2 , 1(1aamnnnn21log2022-1-16马尽文372.3 非线性连续变换单元组成的网络(iv). 网络参数初始值的选取 初试权:随机, 比较小(接近于0),保证状态值较小,不在平滑区域内。6. bp网络的应用 (i). 模式识别、分类。用于语音、文字、图象的识别,用于医学图象的分类、诊断等。(ii). 函数逼近与系统建模。用于非线性系统的建模,拟合
27、非线性控制曲线,机器人的轨迹控制,金融预测等。2022-1-16马尽文382.3 非线性连续变换单元组成的网络(iii). 数据压缩。在通信中的编码压缩和恢复,图象数据的压缩和存储及图象特征的抽取等。例1. 手写数字的识别 由于手写数字变化很大,有传统的 统计模式识别或句法识别很难得到 高的识别率,bp网络可通过对样本的学习得到较高的学习率。为了克服字体大小不同,我们选取这些数字的一些特征值作为网络输入。(可提取)特征如: 1,2,3,7 :具有两个端点; 0,6,8,9:具有圈;2:两个端点前后;2022-1-16马尽文392.3 非线性连续变换单元组成的网络对于一个样本,若具有那个特征,所对应的特征输入单元取值为1,否则为0。我们可选择34个特征,即输入单元个数为34。输出可取10个单元,即1个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【部编人教版】八年级上册历史听课评课记录 第14课 中国共产党诞生
- 晋教版地理八年级下册《8.1 西双版纳──晶莹剔透的“绿宝石”》听课评课记录
- 小学二年级口算练习题
- 苏教版四年级数学上册期末复习口算练习题一
- 人教版七年级数学下册 听评课记录5.3.1 第1课时《平行线的性质》
- 七年级体育教学计划
- 商业营销策划项目合作协议书范本
- 建筑智能化工程框架合作协议书范本
- 商用精装房屋租赁协议书范本
- 锅炉及附属供热设备安装施工合同范本
- 长相思·其二李白
- 儿科早产儿“一病一品”
- 膀胱过度活动症的护理-控制尿频尿急提高生活质量
- 保险学(第五版)课件全套 魏华林 第0-18章 绪论、风险与保险- 保险市场监管、附章:社会保险
- 施工打扰告知书范本
- 督灸治疗强直性脊柱炎
- 许小年:浅析日本失去的30年-兼评“资产负债表衰退”
- 典范英语2b课文电子书
- 大数据与会计论文
- 17~18世纪意大利歌剧探析
- 微课制作技术与技巧要点
评论
0/150
提交评论