(计算数学专业论文)递归神经网络梯度学习算法的收敛性.pdf_第1页
(计算数学专业论文)递归神经网络梯度学习算法的收敛性.pdf_第2页
(计算数学专业论文)递归神经网络梯度学习算法的收敛性.pdf_第3页
(计算数学专业论文)递归神经网络梯度学习算法的收敛性.pdf_第4页
(计算数学专业论文)递归神经网络梯度学习算法的收敛性.pdf_第5页
已阅读5页,还剩80页未读 继续免费阅读

(计算数学专业论文)递归神经网络梯度学习算法的收敛性.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学博士学位论文 摘要 人工神经网络( a r t i a c i a ln e u r a ln e t w o r k s ,简写为a n n s ) 是一种模拟生物神经网络结 构进行信息处理的数学模型,也简称为“神经网络”( n e u r a ln e t w o r k , y n s ) 按照网络结构 可分为两类:前向神经网络( f e e d f o r w a r dn n s ) 和递归神经网络( r e c u r r e n ty y s ) 在前向神经网络中,前一层的输出为下一层的输入,信息的处理具有逐层传递进行 的方向性,一般不存在反馈环路前向神经网络实现输入向量x 到输出向量y 的映射,通 常称之为静态映射,可用于处理与时间无关的对象,如文字识别,曲线逼近等问题而在 非线性动态系统建模、辨识、控制、故障诊断以及时间序列预测等许多领域中,经常涉 及到两个离散时间序列x ( t ) 和y ( t ) 之间的映射,其中y ( t ) 不仅依赖于x ( t ) ,而且还依赖 于x ( t 一1 ) ,x 0 2 ) ,以及y ( t 一1 ) ,y ( t 一2 ) ,一般称之为动态映射。处理这类问题 的网络本身应是一个动态系统,为此需要在网络中引入记忆功能递归神经网络通过它 们自身的暂态操作能够处理时变的输入和输出,它实现的是动态映射,比前向神经网络 更适合于解决动态系统的问题 类似于前向神经网络,在训练递归神经网络时经常使用简单的梯度搜索算法由于 其递归的特性,致使对梯度的计算也是递归的,从而使其学习较前向网络要复杂得多递 归神经网络梯度学习算法的重要研究的课题之一便是其收敛性理论,对其开展研究不仅 有助于我们理解方法的本质与特性,而且对其众多的具体应用也有着重要的指导意义 第一章回顾了有关神经网络的一些背景知识 第二章讨论了全递归神经网络梯度下降学习算法的收敛性我们给出了误差函数单 调性及收敛性定理,并给出了数值试验结果 第三章考虑有限样本集上e l m a n 网络梯度学习算法的确定收敛性证明了误差函数 的单调递减性,在此基础上,给出了一个弱收敛性结果和一个强收敛结果,即误差函数的 梯度收敛于零,权值序列收敛于固定点。数值试验验证了理论结果的正确性 第四章研究了在e l m a n 神经网络的误差函数梯度中部分地去掉反馈项时对其性能的 影响。主要目的是为了解决计算量太大的难题我们分析了这种近似梯度算法的收敛性, 得到了在学习过程中目标函数的单调性及近似梯度趋近于零的结果 第五章揭示了递归神经网络梯度学习算法的等价性递归神经网络的两种经典学习 算法分别为实时递归学习算法和随时间演化的反向传播算法,当权值更新为批方式时, 我们证明这两种算法是等价的,二者所生成的权值增量相同 第六章针对递归神经网络的一些改进学习算法,给出了收敛性结果 递归神经网络梯度学习算法的收敛性 关键i - 3 :递归神经网络;梯度学习算法;单调性;收敛性;等价性 大连理工大学博士学位论文 c o n v e r g e n c eo fg r a d i e n tm e t h o d f o rr e c u r r e n tn e u r a ln e t w o r k s a b s t r a c t a na r t i f i c i a ln e u r a ln e t w o r k ( a n n ) ,w h i c hi so f t e nc a l l e d “n e u r a ln e t w o r k f n n ) ,i sa m a t h e m a t i c a lm o d e lo rc o m p u t a t i o n a lm o d e lb a s e do nb i o l o g i c a ln e u r a ln e t w o r k sf o rp r o c e s s i n g i n f o r m a t i o n a c c o r d i n gt os 缸u c n 。n e u r a ln e t w o r k sc a l lb ec l a s s i f i e di n t ot w oc a t e g o r i e s : f e e d f o r w a r dn e u r a ln e t w o r k s ( f n n s ) a n dr e c u r r e n tn e u r a ln e t w o r k s ( r n n s ) i nf n n s ,p r e v i o u sl a y e r so u t p u ti st h ei n p u to ft h en e x tl a y e r t h ep r o c e s s i n go ft h e i n f o r m a t i o nh a st h ed i r e c t i o no fp a s s i n gl a y e rb yl a y e r t h e r ea r en oc y c l e s0 1 l o o p si nt h e n e t w o r k f n n sa c h i e v et h em a p p i n gf r o mi n p u tv e c t o rxt oo u t p u tv e c t o ry ,w h i c hc a l lb ec a l l e d a st h es t a t i cm a p p i n g i tc a l lb eu s e dt od e a lw i t ht h e t i m e i n d e p e n d e n to b j e c t ss u c ha sc h a r a c t e r r e c o g n i t i o na n dc u r v ea p p r o x i m a t i o n h o w e v e r , t h em a p p i n gb e t w e e nt w od i s c r e t et i m es e r i e s x ( t ) a n dy ( t ) i so f t e nu s e d i nm a n yf i e l d ss u c ha sn o n l i n e a r s y s t e mm o d e l i n g ,c o n t r o l l i n g ,f a u l t d i a g n o s i sa n dp r e d i c t i o no ft i m es e r i e s ,i nw h i c ht h eo u t p u ty ( t ) r e l i e sn o to n l yo nx ( 亡) ,b u t a l s oo nx ( t 一1 ) ,x ( t 一2 ) ,a n dy ( t 1 ) ,y ( t 一2 ) ,w h i c hc a nb ev i e w e da sd y n a m i c m a p p i n g t h en e t w o r k sd e a l i n gw i t hs u c hk i n do fp r o b l e m ss h o u l db ead y n a m i cs y s t e m , i n w h i c ht h em e m o r yf u n c t i o ns h o u l db ea d d e d r n n sc a n c o p ew i t l lt h et i m e - v a r y i n gi n p u ta n d o u t p u tt h r o u g ht h e i ro w nd e l a y t h u s ,r n n sa c h i e v et h ed y n a m i cm a p p i n g n e ya r em o r e a p p r o p r i a t et os o l v et h ep r o b l e m si nd y n a m i cs y s t e mt h a nf n n s a si nt h ec a s eo ff n n s t h es i m p l eg r a d i e n ts e a r c h i n ga l g o r i t h m si so f t e nu s e di nt r a i n i n g r n n s t h ec o m p u t a t i o no fg r a d i e n ti sa l s or e c u r s i v ef o ri t sr e c u r s i v e n e s s ,w h o s el e a r n i n gi s m u c hm o r ec o m p l i c a t e dt h a nf 7 1 n i n s o n eo ft h ek e yr e s e a r c hs u b j e c uo ft h eg r a d i e n tm e t h o d f o rt r a i n i n gr e c u r r e n tn e u r a ln e t w o r k si si t sc o n v e r g e n c et h e o r y t h er e s e a r c ho ni tn o to n l y h e l p su st ou n d e r s t a n dt h en a t u r ea n dc h a r a c t e ro ft h em e t h o db u ta l s op r o v i d e st h es i g n i f i c a n t g u i d a n c ef o ral a r g en u m b e ro fa c t u a la p p l i c a t i o n s c h a p t e rlr e v i e w st h eb a c k g r o u n di n f o r m a t i o na b o u tt h en e u r a ln e t w o r k s c h a p t e r2d i s c u s s e st h ec o n v e r g e n c eo fg r a d i e n tm e t h o df o rf u l l yr e c u r r e n tn e u r a ln e t - w o r k s i nt h i sc h a p t e r , w ep u tf o r w a r dt h em o n o t o n i c i t yo ft h ee r r o rf u n c t i o na n d c o n v e r g e n c e t h et h e o r e t i c a lr e s u l t sa r es u p p o r t e db yn u m e r i c a le x p e r i m e n t s c h a p t e r3c o n s i d e r st h ec o n v e r g e n c eo fg r a d i e n tm e t h o df o rt r a i n i n ge l m a nn e t w o r k sw i t h m 递归神经网络梯度学习算法的收敛性 af i n i t et r a i n i n gs a m p l es e t m o n o t o n i c i t yo ft h ee r r o r 劬c o o ni nt h ei t e r a t i o ni ss h o w n ,o nt h e b a s i so fw h i c hw e a ka n ds t r o n gc o n v e r g e n c er e s u l t sa r ep r o v e d ,t h a ti s ,t h eg r a d i e n to ft h ee r r o r f u n c t i o ng o e st oz e r oa n dt h ew e i g h ts e q u e n c eg o e st oaf i x e dp o i n t ,r e s p e c t i v e l y an u m e r i c a l e x p e r i m e n t i sg i v e nt os u p p o r tt h et h e o r e t i c a lf i n d i n g s c h a p t e r4s t u d i e st h ei n f l u e n c e so fc u t t i n gt h er e c u r s i o ni nt h eg r a d i e n to ft h ee r r o rf u n c - t i o n ,w h o s ea i mi st or e d u c eg r e a t l yt h ec o m p u t a t i o n a le f f o r t w ea n a l y s ec o n v e r g e n c eo ft h i s a p p r o x i m a t e dg r a d i e n tm e t h o df o rt r a i n i n ge l m a nn e t w o r k s ,a n do b t a i nt h a tt h ee r r o rf u n c t i o n i sm o n o t o n i c a l l yd e c r e a s i n ga n di t sa p p r o x i m a t e dg r a d i e n tg o e st oz e r oi nt h el e a r n i n gp r o c e s s c h a p t e r5s h o w st h ee q u i v a l e n c eo fg r a d i e n tm e t h o df o rt r a i n i n gr e c u r r e n tn e u r a ln e t w o r k s t h et w oc l a s s i c a lg r a d i e n t - b a s e da l g o r i t h m sf o rr e c u r r e n tn e u r a ln e t w o r k sa r cr e a l t i m er e - c u r r e n tl e a r n i n g ( r t r l ) a n d b a c k - p r o p a g a t i o nt h r o u g ht i m e ( b 肿) ,r e s p e c t i v e l y 。f o rb a t c h s c h e m e ,w ep r o v et h a tr t r la n db p l 陌a r ee q u i v a l e n t t h ew e i g h ti n c r e m e n t ( s ) t h e yp r o d u c e d i s t h es a m e c h a p t e r6g i v e st h ec o n c l u s i o na b o u tt h ec o n v e r g e n c eo i ls o m ei m p r o v e dl e a r n i n ga l g o - r i t h i l l sf o rr e c u r r e n tn n s k e y w o r d s :r e c u r r e n tn e u r a ln e t w o r k s ;g r a d i e n tm e t h o d ;m o n o t o n i c i t y ;c o n v e r - g e n c e ;e q u i v a l e n c e 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方 外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已 申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的 贡献均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目:童血塑缝因缘燃蹈丞鱼盥丝: 丝 作者签名:盔k 鲢l 一 日期:4 年l 月二日 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间论文工作的 知识产权属于大连理工大学,允许论文被查阅和借阅。学校有权保留论文并向国家有 关部门或机构送交论文的复印件和电子版,可以将本学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印、或扫描等复制手段保存和汇编本学位论 文。 学位论文题目:显:垒翊纽旦丝盛盔望丝丞鱼蝗丛! 笠 作者终i 玺玺遮 脚二边弘月l 日 导一:坦隰斗月l 日 8 9 - 大连理工大学博士学位论文 1绪论 1 1 神经网络概述 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k s ,简写为a n n s ) 是以计算机网络系统模拟生 物神经网络的智能计算系统。也简称为“神经网络”( n n s ) 神经网络可以对信息进行并行 处理,具有良好的容错性、学习性、自适应性和联想记忆功能神经网络已广泛应用于 模式识别、函数逼近、优化、预测、自动控制、建模和快速信息处理等诸多方面 人工神经网络的研究始于4 0 年代初1 9 4 3 年,心理学家m s m c c u l l o c h 、数学家w h p i t t s 就提出了人工神经网络的第一个数学模型( m p 模型) 【1 】他们通过臌型提出了神 经元的形式化数学描述和网络结构方法,证明了单个神经元能执行逻辑功能,从而开创了 人工神经网络研究的时代1 9 4 9 年,心理学家d 0 h e b b 提出了神经元之间突触连接强度 可变的假设,并据此提出神经元的h e b b 学习准贝f j 【2 】,为神经网络的学习算法奠定了基础 1 9 5 7 年,计算机科学家er o s e n b l a t t 提出了一类具有自学习能力的感知器( p c r c e p t r o n ) 模 型【3 】对于最简单的没有中间层的感知机,er o s e n b l a t t 证明了一种学习算法的收敛性, 这种学习算法通过迭代地改变连接权来使网络执行预期的计算1 9 6 0 年,两位美国工程 师b w i d r o w 和m h o 雠0 造出了一种不同类型的会学习的神经网络处理单元,即自适应 线性元件( a d a p t i v el i n e a re l e m e n t , 简称a d a l i n e ) ,并且还为a d a l i n e 找出了一种有力的学习 规则,即通常所说的w i d r o w h o 婵习规则( 或称6 学习规则) 【4 】,这个规则至今仍被广泛应 用1 9 6 9 年,m m i n s k y 和s p a p e r t 所著的感知机一书【5 】,书中对以单层感知器为代表 的简单人工神经网络的功能及局限性进行了深入分析他们指出,单层感知器只能进行 线性分类,对线性不可分的输入模式无能为力而其解决的办法是设计出具有隐含层的 多层神经网络,但是要找到一个有效修正权矢量的学习算法并不容易这一结论让许多 神经网络研究者感到前途渺茫,从而使有关神经网络的研究热潮低落下来在此期间仍 有不少科学家在这一领域开展研究,如芬兰学者t k o h o n e n 提出了自组织映射理论【6 】。 美国学者s a g r o s s b e r g l 拘自适应共振理论( m m 【7 】,日本学者kf u k u s h i m a 提出了认知 机模型【8 】,s a m a r i 则致力于神经网络有关数学理论的研究等等,这些研究成果对以后的 神经网络的发展产生了重要影响美国生物物理学家j j h o p f i e l d 对人工神经网络研究的 复苏起到了关键性的作用1 9 8 2 年,他提出了霍普菲尔网络模型【9 】在这种网络模型的研 究中,作者首次引入了网络能量函数的概念,并给出了网络稳定性的判定依据他的研究 递归神经网络梯度学习算法的收敛性 成果开拓了神经网络用于联想记忆的优化计算的新途径另外,霍普菲尔德网络模型可 以用电子模拟线路来实现,为神经网络硬件实现开辟了道路另一个突破性的研究成果 是d e r u m e l h a r t 等人在1 9 8 6 年提出的解决多层神经网络权值修正的算法_ 误差反向传播 法,即著名的b p 算法【1 0 】近二十年来,神经网络走上了稳定发展的道路,各种神经网络理 论模型和学习算法相继提出,其应用已渗透到了生命科学和工程科学等诸多领域,并在 智能控制、模式识别、优化计算、计算机视觉、生物医学等方面取得了令人鼓舞的进 展 1 1 1 神经网络特征 神经网络主要有以下几个特点: 非线性映射非线性关系是自然界的普遍特性大脑的智慧就是一种非线性现象 一个人工神经元既可以是线性的,也可以是非线性的一个非线性神经元互联而成 神经网络自然是非线性的,并且非线性是一种分布于整个网络中的特殊性质 自适应学习例如实现图像识剐时,只在先把许多不同的图像样板和对应的应识别 的结果输入人工神经网络,网络就会通过自学习功能,学会对相似图像的识别 非局限性一个神经网络通常由多个神经元广泛连接而成一个系统的整体行为不 仅取决于单个神经元的特征,而且可能主要由单元之间的相互作用、相互连接所决 定通过单元之间的大量连接可模拟大脑的非局限性 联想记忆人工神经网络中神经元个数众多以及整个网络存储信息容量的巨大,使 得它具有很强的不确定性信息处理能力即使输入信息不完全、不准确或者是模 糊的,神经网络仍然能够联想思维存在于记忆中的事物的完整图象只要输入的模 式接近于训练样本,系统就能给出正确的推理结论 优化计算寻找复杂问题的优化解,往往需要很大的计算量,利用一个针对某问题而 设计的反馈型人工神经网络,发挥计算机的高速运算能力,可能很快找到优化解 鲁棒性生物神经网络不会因为个别神经元的损失而失去对原有模式的记忆例如, 当一个人的大脑因意外事故受轻微损伤之后,并不会失去原有事物的全部记忆人 工神经网络也有类似的情况当个别神经元实效时,整个网络仍能正常地工作 硬件实现神经网络不仅可以通过软件实现,而且还可以通过集成电路进行模拟, 2 大连理工大学博士学位论文 从而使神经网络具有快速、高效处理的大规模数据的能力 1 1 2 神经网络结构 人工神经网络按照连接方式可分为前向神经网络和递归神经网络 前向神经网络( f e e d f o r w a r d n n s ,简记f n n s ) 前向网络中的神经元是分层排列的, 每个神经元只与前一层的神经元相连,如图1 1 所示最左一层为输入层,最右一层 为输出层,中间层又称为隐层,隐层通常为单层,也可以取多层 图1 1前向神经网络 f i g 1 1f e e d f o r w a r dn e u r a ln e t w o r k s 图1 2全局递归神经网络 f i g 1 2f u l l yr e c u r r e n tn e u r a ln e t w o r k s 递归神经网络( r e c u r r e n tn n s ,简记r n n s ) 递归神经网络是指网络结构中具有反馈 回路的神经网络即网络中节点的输出是以前的时间步长上节点输出的递归函数 图1 2 表示的是一种全连接结构的递归型网络,每个神经元的输出都与其他神经元 互连 3 递i 胄神经网络梯度学习算法的收敛性 1 1 3 神经网络学习方式 学习是神经网络研究的一个重要内容,它的适应性是通过学习实现的根据环境的 变化,对权值进行调整,改善系统的行为由h e b b 提出的h e b b 学习规则为神经网络的学习 算法奠定了基础h e b b 规则认为学习过程最终发生在神经元之间的突触部位,突触的联 系强度随着突触前后神经元的活动而变化在此基础上,人们提出了各种学习规则和算 法【l l ,1 2 】,以适应不同网络模型的需要有效的学习算法,使得神经网络能够通过连接权 值的调整,构造客观世界的内在表示,形成具有特色的信息处理方法,信息存储和处理体 现在网络的连接中 根据学习环境不同,神经网络的学习方式可分为 有监督学习( s u p e r v i s e dl e a r n i n g ,也称有教师学习) 在监督学习中,将训练样本的数 据加到网络输入端,同时将相应的期望输出与网络输出相比较,德到误差信号,以 此控制权值连接强度的调整,经多次训练后收敛到一个确定的权值当样本情况发 生变化时,经学习可以修改权值以适应新的环境使用监督学习的神经网络模型 有b p 神经网络、感知器等 无监督学习( u n s u p e r v i s e dl e a r n i n g ,也称无教师学习) 非监督学习时,事先不给定标 准样本,直接将网络置于环境之中,学习阶段与工作阶段成为一体此时,学习规律 的变化服从连接权值的演变方程非监督学习最简单的例子是h e b b 学习规则竞争 学习规则是一个更复杂的非监督学习的例子,它是根据已建立的聚类进行权值调 整自组织映射、适应谐振理论网络等都是与竞争学习有关的典型模型 自监督学( s e l f - s u p e r v i s e dl e a r n i n g ,也称强化学 - - j ) 这种学习介于上述两种情况之 间外部环境对系统输出结果只给出评价( 奖或惩) ,而不是给出正确答案,学习系统 通过强化那些受奖励的动作来改善自身性能,直至达到给定的精度要求 无论哪种学习方式,其学习过程都有一定的规则,神经网络的几种具有普通意义的 学习规则有 h e b b 型学习( h e b b i a nl e a r n i n g ) h e b b 学习规则是一种相关学习,基本思想是如果两 个神经元同时兴奋,则它们之间的突触得以增强 误差修正型学习( e r r o r - c o r r e c t i o nl e a r n i n g ) 误差修正型学习是一个监督学习过程, 大连理工大学博士学位论文 其基本思想是利用单元期望输出与实际输出之间的偏差作为连接权调整的参考,最 终减小这种偏差 随机型学习( s t o c h a s t i cl e a r n i n g ) 结合随机过程、概率和能量概念来调整网络的变 量,从而使网络的目标函数最小或最大 竞争型学 - - - j ( c o m p e t i t i v el e a r n i n g ) 网络的某单元群体中所有单元相互竞争对外界 刺激模式的响应能力,竞争取胜的单元抑制了竞争失败单元对刺激模式的响应 1 1 4 神经网络研究内容 人工神经网络的研究主要集中在以下几个方面 1 3 - 2 7 : 结构设计运用神经网络解诀实际问题首先要面对的问题是如何确定神经网络的结 构,主要包括两方面的内容:神经网络的构型和最优的隐层节点数一般来说,传统 方法确定网络的构型有网络缩小( 剪枝法) 和网络增大两种类型 学习算法用于完成学习过程的程序称为学习算法,其功能是以有序的方式改变网 络的突触权值以获得期望的设计目标基于优化理论可以给出许多权值学习算法, 如共轭梯度法、l m ( l e v e n b e r g m a r q u a r d t ) 算法和牛顿法近年来,将进化计算和神 经网络结合越来越被研究者关注,并已经形成了一种新颖的进化神经网络a m a r i 教授提出了基于信息几何的随机神经网络f l 向e m ( e x p e c t a t i o n m a x i m i z a t i o n ) 学习算 法国内学者张建、史忠植较全面地探讨了多层随机神经网络的e m 算法理论 推广能力从统计观点可定义推广能力能力为:对某固定结构网络法,经训练后网 络对随机选取的其它输入给出正确响应的概率网络的推广能力是衡量神经网络性 能的最重要的指标之一,推广能力差的网络很难在实际应用中取得好的结果,如何 提高网络推广能力成为神经网络研究的重要方向之一 学习理论基于经验风险和结构风险最小化理论,传统的神经网络统计学习理论会 得到全新的发展,另外的一个趋势是在神经网络学习中借助概率统计学中的非参数 方法和思想,建立新的神经网络统计学习理论甘利俊一( a m 撕) 在神经网络的数学 基础理论方面做了大量的研究,包括统计神经动力学、神经场的动力学理论、联想 记忆,特别在信息几何方面作出了一些奠基性的工作 逼近问题神经网络逼近能力是网络性能的重要体现,现在理论研究已经拓展到网 5 递归神经网络梯度学习算法的收敛性 络强逼近能力与算子逼近能力等方向我国学者陈天平和蒋传海等入在这方面做出 了突出的贡献 模糊神经网络模糊神经网络充分发挥了模糊技术和神经网络技术各自的优点,既 有模糊逻辑的推理能力,又有神经网络的学习能力与非线性映射能力,已经引起越 来越多的学者的研究兴趣与关注 稳定性分析神经网络的稳定性被认为是神经网络各种应用的基础因而必须讨论 神经网络稳定性的条件及判据。在递归神经网络的稳定性、分叉和混沌理论研究 中,我国的曹进德教授、廖晓峰教授、章毅教授等做了大量卓有成效的工作 应用随着人工神经网络技术的不断发展,其应用领域不断扩大目前,神经网络已 经广泛应用于模式识别、数据预测、系统辨认、图像处理、信号处理、语音理 解、智能控制、组合优化等各个领域 1 2 前向神经网络 前向神经网络中各个神经元接受前一级的输入,并输出到下级,网络中没有反馈。 可以用一个有向无环路图表示这种网络实现信号从输入空间到输出空间的变换,它的 信息处理能力来自于简单非线性函数的多次复合网络结构简单,易于实现b p 神经网络 是一种典型的前向神经网络 1 2 1 多层感知网络 多层感知网络( m u l t i - l a y e rp e r c e p t i o n , m l p ) 是一种具有三层或三层以上的前向型神 经网络典型的多层感知网络是三层、即:输入层、隐含层( 也称中间层) 、输出层相邻 层之间的各神经元实现全连接,即下一层的每一个神经元与上一层的每个神经元都实现 全连接,而且每层各神经元之间无连接多层感知器具有强大的计算能力,在模式识别、 图像处理、系统辨识、函数拟合、优化计算、最优预测和自适应控制等领域有着较为 广泛的应用 一个典型的三层b p 神经网络模型如图1 3 所示其输入层、隐层和输出层的神经元 个数分别为。m 和q 记w o 硬q m 为隐层与输出层之间的权矩阵记w l r m 为 输入层与隐层之间的连接权矩阵设作用于隐层和输出层的函数分别为g :r m r m , f :r o _ r 口 6 大连理工大学博士学位论文 输入层 图1 3多层感知器网络 f i g 1 3m u l t i - l a y e rp e r c e p t i o nn e t w o r k s 对任一输入模式x r ,隐层的输出向量为 y = a ( w l x ) n 网络的最后的输出为 z = f ( w o y ) 兰f ( w o a ( w 1 x ) ) ( 1 2 ) 给定一个训练样本集 o ,o j ) 刍l ,其中囊是输入样本,口是相应的理想输出当训练 样本呈现给网络后,我们得到如下传统的平方误差函数 e ( w ) = 去桫一一1 1 2 = 壶桫- f ( w 。c ( w ,) ) 1 1 2 ( 1 3 ) j - - i 3 = 1 多层感知器的学习算法就是著名的误差反向传播( e r r o r b a c k - p r o p a g a t i o n ) 算法,简 称b p 算法,可实现函数逼近的一种方法在多层前向神经网络中,学习样本的输人信息从 输人层经隐含层到输出层,经过逐层处理计算得到网络的输出,然后计算网络输出与训 练样本期望输出之间的误差如果神经元的激活函数是连续可微的,那么每一个连接权 对输出误差的影响都可以由误差对权值的偏导数定量的描述此时,如果把权值按照梯 度的反方向修正则可以使误差减小这种思想便是误差反向传播算法的本质 b p 算法收敛速度慢,且容易收敛到局部极小现在已出现一些改进的b p 算法,如加 动量项的b p 算法、自适应学习率的b p 算法等等 7 递归神经网络梯度学习算法的收敛性 1 2 2 径向基函数神经网络 m j d p o w c l l 于1 9 8 5 年提出了多变量插值的径向基函数方法稍后d s b r o o m h e a d 等 人最早将径向基函数用于神经网络设计径向基函数( r a d i a lb a s i cf u n c t i o n ,r b f ) 神经网 络是一类常用的三层前向网络,既可用于函数逼近,也可用于模式分类与其它类型的人 工神经网络相比,r b f 网络具有生理学基础以及结构简单、学习速度快,良好的逼近性能 等特点 1 p ( 1 l x - - c ,l 图1 。4径向基函数神经网络 f i g 1 4r b f n e u r a ln e t w o r k s y 】 图1 4 所示为一m q 结构的r b f 神经网络其中x = ( 2 n ) r 为网络输入向量, ( c m ) 挺lc 是基函数中心,w = ( w q m ) r q m 是输出权矩阵,b = ( b q ) 岬为输出 偏移向量,y = ( ) r q 为网络输出,妒( 1 l x c m i i ) 为第m 个隐节点的激活函数输出层节 点中表示输出层神经元采用线性激活函数则网络输入输出映射模型变为: g = 1 ,2 ,q( 1 4 ) 假设给定了一组训练样本 文,) 刍1c r 职当期望输出只取有限个值( 例如, 取0 ,1 或士1 ) 时,可以认为是分类问题;而当期望输出可取任意实数时,视为逼近问题网 络学习( 或训练) 的任务就是利用训练样本来确定输入层到隐层的权向量c m 和隐层到输出 层的权矩阵w ,使得网络实际输出y j 与期望输出0 = 1 ,2 ,) 充分接近 r b f 神经网络常用的学习算法有:聚类方法,梯度搜索,以及正交最小二乘学习算 8 + 仇 c x 妒 笆 m 一 = 蜘 大连理工大学博士学位论文 法1 氇f 网络的梯度训练方法 2 8 1 与多层感知器的反向传播算法类似,也是通过最小化目 标误差函数实现对各隐单元的基函数中心、扩展系数和输出权值的调节 1 2 3 高阶神经网络 图1 5高阶神经网络 f i g i 5h i g h o r d e rn e u r a ln e t w o r k s 高阶( h i g h - o r d e r ) 神经网络是1 9 8 6 年y c l e e 等提出的一类前向神经网络的改进形式, 增加高阶连接权以加强其映射逼近能力和存储水平,已经广泛用于图像识别、分类、函 数逼近、控制等领域 图1 5 中所示的就是一个h i g h o r d e r 神经网络的结构,其中,m 和q 分别表示输 入层,层和层中节点的个数令w = ( w r n ) r m 为层和层问的权值向量,输入 层和层间的权值固定为1 乘积层节点的激活函数为线性函数,求和层的函数表示 为g :r _ r 令x = ( ) r 为输入向量,可为网络的实际输出 定义层的输出向量为7 - = ( 7 m ) r m ,其分量( 1 m m ) 为输入层部分节点的 乘积( 人m 表示这些节点标号的集合) 那么输出向量7 的分量应为 = 1 m sm n a ” 从而h i g h o r d e r 网络的最终输出为 y = g ( w r ) 9 ( 1 5 ) ( 1 6 ) 递归神经网络梯度学习算法的收敛性 1 3 递归神经网络 递归神经网络( r e c u r r e n tn n s ) 是指具有反馈结构的神经网络不太严格地说,递归神 经网络和反馈神经网络( f e e d b a c kn n s ) 或动态网络( d y n a m i c a ln n s ) 的基本含义是一样的 不过,通常在提及递归网络时,侧重的是其学习或训练的问题递归神经网络的结构形式 很多,概括为两大类:全局递归神经网络( f u l l yr e c u r r e n tn n s ) 、局部递归神经网络( l o c a l l y r e c u r r e n tn n s ) 由于结构上的不同,必然导致输入愉出关系的相异,因而表现出不同的动 态变化性能 1 3 1 全局递归神经网络 全局递归神经网络一般是单层的,节点之间有反馈连接大多数情况下,节点是完全 互联的,即每一个节点都与其他节点相连,也与自身相连 图1 6 h o p f i e d 网络 f i g 1 6a r c h i t e c t u r eo fh o p f i e dn e t w o r k s 全局递归神经网络的突出代表就是h o p f i e l d 两j 络,见图1 6 网络具有个处理单元, 从单元j 到单元i 的连接权记为,组成阶权矩阵w = ( w o ) r 设网络中已经 存储了,个样本模式 x j = ( 矗) r 一,歹= 1 ,2 , 即根据这些样本模式按某种方式确定了权矩阵w 典型的h o p f i e l d 联想记忆模型的工作 过程可描述为:给定任一输入模式s o = ( 0 ) r n ,按公式 s 知+ 1 = g ( w s 七) ,庇= 0 ,1 , - 1 0 ( 1 7 ) 大连理工大学博士学位论文 反复迭代,直至收敛,得到最后的输出模式s ,作为输入模式s o 的联想在( 1 7 ) 中,g : r _ r 为神经元激活函数( 1 7 ) 式是一种并行( 同步) 联想方式,即每次迭代同时更新 所有单元的状态也可以采用串行( 异步) 方式,即在第步迭代时,顺序地或随机地选取某 一个下标,只改变一个神经单元的状态,而其余一1 个单元保持不变 h o 叩e l d 网络的运行状态依据工作规则不断变化,最终网络收敛到能量函数的某个 极小点这里的能量函数表征网络状态的变化趋势如果把一个最优化问题的目标函数 转换成网络的能量函数,把问题的变量对应于网络的状态,那么h o p f i e l d 网络就能够用于 解决优化组合问题 1 3 2 局部递归神经网络 全反馈神经网络结构复杂,有丰富的动态行为,但难于分析和训练在实际应用时 往往需要简化,一种简单而自然的方法是对多层感知器引入反馈连接这样得到的网络 称为局部递归神经网络,其结构特点是以前传为主,同时又包含一组反馈连接反馈连接 有一组所谓联系单元( e o n t e x 0 构成,它记忆网络过去的状态,并在下一时刻连同网络输 入一起作为隐含层的输入,这种网络的反馈连接规定了网络的内部状态和记忆形式,使 其输出不仅依赖于当前的输入,也与过去的输出有关这一性质使部分反馈网络具有动 态记忆的能力 图1 7j o r d a n 网络 f i g 1 7j o r d a nn e t w o r k s 图1 8e l m a n 网络 f i g 1 8e l m a nn e t w o r k s 局部递归神经网络又可分为具有外部时延反馈的网络和具有内部时延反馈的网络 具有外部时延反馈的递归网络的典型结构如图1 7 所示,称为j o r d a n 网络有内部时延反 馈的递归网络典型结构如图1 8 所示,称为e l m a n l 网络由于它通过隐层的内部时延自反 递归神经网络梯度学习算法的收敛性 馈,把系统的动态直接包含于网络结构中因此,无需了解系统的阶数,就能学习非线性 动态系统这种结构的递归网络近年来已引起人们的广泛重视在机械手的控制、复杂 系统的建模、时间序列分析中得到了应用 1 4 本文的主要工作 递归神经网络可以模拟时间序列,用来完成控制、预测等任务其反馈机制一方面 使得它们能够表现更为复杂的时变系统,另一方面也使得有效学习算法的设计及其收敛 性分析更为困难和重要这方面现有研究工作主要集中在两个课题一个是对满足某些 条件的固定权值,研究递归神经网络的稳定性、分支、混沌等动力学特性,其背景是考 察递归神经网络处于工作状态时的表现另一个是针对满足某种概率分布的排成一个无 穷序列的训练样本,研究权值的学习过程我们注意到,实用中也常常需要在样本个数有 限时构造一个递归神经网络因此,我们考虑样本个数有限时学习过程的收敛性这时, 为了解决计算量太大的困难,可以在误差函数梯度中部分地去掉反

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论