




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 径向基函数神经网络是一种性能优良的非线性前馈神经网络,最基本结构形式 的径向基函数神经网络包括三层,输入层、隐含层和输出层,其中每一层都有着完 全不同的作用。在网络构建过程中,隐含层的设计是最为关键的,它影响着神经网 络的规模和泛化能力。 本文在分析径向基函数神经网络训练过程的基础上,重点研究隐含层神经元个 数及中心的确定问题,即隐层中心的选择问题。本文提出了两种隐层中心的选择方 法,基于局部泛化误差模型的径向基函数神经网络隐层中心的选择,该方法在局部 泛化误差模型的基础上,拓展w i n g 的思路,把训练误差与敏感性的线性加和作为 评价训练好的分类器性能优劣的标准,并利用该标准进一步确定隐层中心;基于样 例潜能的径向基函数神经网络隐层中心的选择,该方法充分利用样例的输入输出信 息,定义了一个公式来度量每个训练样例对选择隐层中心影响的大小,这个影响同 时也预示着一个样例能被选作初始隐层中心潜在能力的大小,可以用来指导隐层中 心的选择。实验结果表明,两种方法选择了合适的隐层中心,最终确定的网络具有 简单的结构和良好的泛化能力,是可行、有效的。 关键词径向基函数神经网络;隐含层;隐层中心;敏感性;潜能 a b s t r a c t a b s t r a c t r a d i a lb a s i sf u i l c t i o nn e l l r a ln e t w o r k ( r b f n n ) i san o n l i n e a rf c e d f o r a r dn e u r a l n e t w o r k i th a ss i m p l es t m c t u r e 孤1 df i n ep e 墒m a n c e t h ec o n s t r u c t i o no fr b f n n ,i n i t sm o s tb a s i cf 0 r m ,i i l v o l v e st 1 1 r e el a y e r sw i t he n t i r e l yd i f r e r e n tr o l e s t h eh i d d l a y e r i n f l u e n c e sc r i t i c a l l yt h eg e n e r a l i z a t i o na b i l i t yo fr b f n n t h e r e f o r e ,m ed e s i g no f h i d d e nl a y e ri sc o n s i d e r e da st h em o s ti m p o r t a n tp r o b l e mi nt h ec o n s t r u c t i o no fr b f i n n t h i sp a p e rm a i n l yc o n c e m st h es e l e c t i o no fl l i d d e nc e n t e r s ,i e 嬲c e n a i n i n gm e 仰n l b e r 觚dp o s i t i o no fh i d d e i lc e n t e r s t w om e t h o d so fs e l e c t i n gh i d d e i lc e n t e 璐o f r b f n na r ep r o p o s e d o n ei st h em e t h o db a s e do nl o c a l i z e dg e n e r a l i z a t i o ne r r o r m o d e l t h i sm e t h o de x t e n d sw i n g si d e aa i l dt a k e st h el i n e a rs 啪m a t i o no ft r a i n i n ge r r o r 锄ds t o c h a s t i cs e n s i t i v i t ya sac r i t e r i o na s s e s s i n gat r a i n e dc l a s s i f i e r t h e ni tf i n d s a p p r o p r i a t eh i d ( i e nc e n t e r sb ym i n i m i z i n gt h ec r i t e r i o n t h eo t h e r i st h em e t h o db a s e do n t h ep o t e n t i a lo fs 锄p l e s t i l i sm e t h o dt h i n k st h a ts 锄p l e st h e r i l s e l v e sc o n t a i nu s e 如l i n 舶m a t i o na n de a c ht r a i n i n gs a m p l eh a si n e q u a b l ei n f l u e n c eo ns e l e c t i n gl l i d d e n c e n t e r s s oi tm a k e sg o o du s eo ft h ei n p u ti n f 0 姗a t i o na n do u t p u tv a l u e so ft r a i n i n g s 锄p l e sa n dd e 丘n e saf o m u l at om e a s u r et h ei n n u e n c eo fe a c hs 锄p l e t h ei n f l u e n c e a l s oi n d i c a t e sm ep o t e n t i a lm a tas 锄p l ec a nb e 锄i n i t i a lh i d d e nc e n t e r i tc a ng u i d et h e s e l e c t i o no fh i d d e nc e n t e r s t h ee x p e r i m e n t ss h o wt h a tt h et w om e t h o d sf i n d 印p m p r i a t e h i d d e nc e n t e r sa n dc a nl e a dt o s i m p l e a i l db e t t e rn e t w o r ka r c h i t e c t u r e f u n h e r e x p e r i m e n t a lr e s u l t ss h o wt h a to u rp r o p o s e dm e t h o d sa r ef e a s i b l ea l l de f j i e c t i v e k e yw o r d sr a d i a lb a s i sf u n c t i o nn e u r a ln e t w o r k ;h i d d e nl a y e r ;h i d d e nc e n t e r ; s e n s i t i v i t y ;p o t e n t i a l l i 河北大学 学位论文独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作及取得 研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 已经发表或撰写的研究成果,也不包含为获得河北大学或其他教育机构的学位或证书 使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 既明并表示了致谢。 者签名:型:坌垄:日期:垫壁年上月卫日 学位论文使用授权声明 本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留并向国 有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。学校可以公布 文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 本学位论文属于 1 、保密口,在年月日解密后适用本授权声明。 2 、不保密。 ( 请在以上相应方格内打“ ) 保护知识产权声明 本人为申请河北大学学位所提交的题目为( 删隐屠札絮择专海自慨宠 的学位论文,是我个人在导师压熙满与导师合作下取得的研究成果,研 究工作及取得的研究成果是在河北大学所提供的研究经费及导师的研究经费资 助下完成的。本人完全了解并严格遵守中华人民共和国为保护知识产权所制定的 各项法律、行政法规以及河北大学的相关规定。 本人声明如下:本论文的成果归河北大学所有,未经征得指导教师和河北大 学的书面同意和授权,本人保证不以任何形式公开和传播科研成果和科研工作内 容。如果违反本声明,本人愿意承担相应法律责任。 声明人:主:金垒日期:_ 圣监年童月卫日 作者签名:型:全塾;日期:至蛭年l 月卫日 导师签名:j 乒一 日期:必上月址日 第1 章绪论 1 1 研究背景与意义 第1 章绪论 径向基函数神经网络( r a d i a lb 弱i sf u i l c t i o nn 即r a ln e t 、o r k ,简称r b 孙m ) 是一种 非线性前馈神经网络,是当前人工神经网络技术研究的热点之一。最基本结构形式的 i m d 包括三层,其中每一层都有着完全不同的作用。第一层为输入层,它将网络与 外界环境连接起来,传递外部信号到第二层。第二层是隐含层,由一些径向基函数组成, 它的作用是从输入空间到隐层空间之间进行非线性变换。原空间的线性不可分模式经隐 层处理后,变换至新的高维空间,成为线性可分。第三层为输出层,是线性的,它为作 用于输入层的信号提供响应,该层的输出实际为隐层各个神经元输出的线性加权和【l 】。 鉴于r b n 州优良的结构特点,它被广泛应用于众多领域,包括函数或信号逼近、 模式识别、机械故障信号的分析和处理等【2 1 。在实用中,泛化( g e i l e r a l i z a t i o n ) 能力, 即经过训练后的神经网络对未在训练样本集中出现的样本做出正确反应的能力,被认为 是衡量神经网络性能的最重要指标,没有泛化能力的网络是没有实用价值的。神经网络 的泛化能力主要取决于训练样本和网络结构两个因素,实际应用中遇到最多的是学习样 本数确定,选择较优的网络结构或学习算法、策略来保证泛化性能的问题【3 】。因而,提 高神经网络泛化能力的研究主要集中在如何选取恰当的网络规模,即网络结构设计选择 问题上。 r b f n n 结构选择的过程,就是r b f n n 训练、构建的过程,就是网络中各个参数 的确定过程。网络中需要选择的参数有隐层神经元的个数、隐层基函数的中心、宽度以 及隐层与输出层间的连接权重。由于r b f n n 的不同层在网络中起着不同的作用,因此 对于不同层的参数选取就要采取不同的策略,来分别优化隐层和输出层的各个参数。一 般情况下都是充分利用i 啦f n n 三层结构的特点来设计网络学习算法,第一步确定网络 隐层神经元个数、中心和宽度,第二步利用线性优化算法确定网络权值,即两阶段学习 方法( 栅o p h a s e1 e a n l i n g ) 【4 1 。 在网络结构选择过程中,隐层的设计是前馈神经网络构建中最具挑战性的问题【5 】。 河北大学理学硕士学位论文 具体到r b 卧矾,隐层的生成同样也是构建r b 聊叮n 的关键和难点【6 7 】。隐层需要确定的参 数包括隐层神经元个数、中心位置和基函数的宽度,本文主要关注隐层神经元个数和中 心位置的确定问题,即隐层中心的选择。隐层中心的选择决定着网络规模的大小,影响 着隐含层与输出层间的连接权重,很大程度上决定了网络性能的好坏,即隐层中心的选 择影响着网络的泛化能力【8 9 1 。所以本文中重点讨论r b 卧隐层中心的选择问题,这也 是径向基函数神经网络研究领域内的研究热点之一。 1 2 国内外研究现状 隐层中心选取包含两个因素:隐层神经元个数、中心位置。综合考虑这两方面的因 素,隐层中心选择方法大致分为三类:随机选取隐层中心、利用聚类技术选取隐层中心、 结构增长法和剪枝法选取隐层中心。分析总结见表1 1 。 表1 1 隐层中心选择方法总结表 方法 特点 备注 随机选取隐层中心_ 隐层神经元个数提前确定_ 如果样例的分布具有代 - 中心从训练样例集中随机 表性,该方法算是简单可 选取行 如果样例冗余性很大,该 方法容易生成泛化能力 差的网络结构 利用聚类技术选取隐_ 隐层神经元个数提前确定 常用的为k 均值聚类 层中心_ 初始中心随机从训练样例_ 聚类效果依赖于初始中 中选取心的选择及中心的个数 _ 最后中心选作聚类中心 结构增长法和删除法一隐层神经元个数不需要提中心的添加或删除依赖 前确定于指标函数 _ 依据某一指标,中心依次网络的复杂性依赖于停 添加到网络或从网络中删止条件,停止条件不好会 除造成网络过于简单或复 训练结束,隐层神经元个杂 数及中心同时确定完毕 1 9 8 5 年,p o w e l l 【1 0 1 提出了多变量插值的径向基函数( r a d i a lb a s i sf u n c t i o n ,简称 i m f ) ,在r b f 插值技术中,所有已知的数据点被看作径向基函数的中心,即数据集中有 多少个数据点就对应多少个径向基函数。1 9 8 8 年,b r o o m h e a d 和l o w e 【1 1 1 最早将r b f 用于 神经网络设计之中,初步探讨了r b f 用于神经网络设计与应用于传统插值领域的不同特 2 第l 章绪论 点,在i m f 用于神经网络设计时,中心个数要求小于训练样例的个数,进而提出了一种 三层结构的i m f n n 。随机选取隐层中心的方法较早的时候就在文献 1 1 】中出现过,它是 一种最简单的隐层中心选取方法,在此方法中,隐层神经元个数提前根据经验确定,中 心随机地在训练样例中选取。这样隐含层各个参数已知后,网络的权值可以通过梯度下 降的方法来确定。对于给定的问题,如果样例的分布具有代表性,随机选取隐层神经元 中心不失为一种简单可行的方法:如果问题规模较大,且样例具有一定的冗余性时,该 方法会导致最后网络具有较低的泛化能力。为此,人们利用聚类技术来选取隐层中心, 对输入空间的资源进行重新分配,使中心位于比较重要的有代表性的区域,一定程度上 减小了冗余隐层中心的产生。l m f n n 隐层中心的选取依据输出是否参与聚类过程,可 分为两组:一种是输入聚类( h 1 _ p u tc l u s t e r i n g ,简称i c ) ,最常用的为k - 均值聚类以及它 的改进方法【l2 1 ,该方法可以根据样例间的空间距离实现样例模式聚类,把距离相近的样 例归为一类,并把它们的算术平均值作为中心,这样便实现了用较少的中心来实现一些 规模较大的问题,然而该方法同样也需要首先确定聚类的数目,即隐层神经元个数;另 一种是输入输出聚类( i n 讲l 卜叫0 i 】钠l tc 1 u s t 嘶n g ,简称i o c ) 【1 3 ,1 4 1 。如何确定合适的r b 卧n 隐层中心问题至今尚无完善的理论指导,较为合理的是采用结构学习的方法。结构学习 主要有结构增长法和结构剪枝法,这两者都是通过定义一个反映网络泛化能力的目标函 数,然后结构学习就转化为优化这个函数。增长法或构造法,先从一个较小结构的网络 开始,然后根据需要逐渐添加隐层中心;剪枝法或删除法、修剪法,先从复杂的网络结 构开始,按一定规则删除或合并作用雷同的隐层中心,也就是冗余的隐层中心,以达到 网络优化的目的【1 5 】。文献 1 6 1 9 】提出的方法是结构增长法的很好体现。s c h e i l 【1 6 1 7 1 等人 提出一种利用正交最小二乘学习算法选择r b n 隐层中心的方法,基本思想是以o l s 导出的误差下降速率指标为依据,按照每个正交向量对误差下降速率的贡献大小,依次 选取其对应的输入向量作为网络的隐层中心。文献 1 8 】中作者提出了一种基于f i s h e f r a t i o 类可分离性度量的r b f n n 隐层中心选择方法,依次选择能提供较高的类可分离能 力的训练样例作为隐层中心。2 0 0 5 年,d s 1 1 i 【1 9 】等人提出了一种基于网络敏感性确定 r b f n n 隐层中心的方法,网络敏感性定义为由中心扰动引起的网络输出变化的平方的 期望。该方法最后选取的中心为类间的临界向量,不同于传统的利用聚类获得隐层中心 的方法。还有文献 2 0 2 2 】中提到的方法,也可以看作是结构构造选择隐层中心的方法, 河北大学理学硕十学位论文 与上面三种方法的不同是,定义的指标函数或者称为评价函数没有直接参与r b f n n 训 练,只是从诸多从简单到复杂的训练好的r b n 州中选择评价函数取最大值或最小值的 网络结构。另外,很多人也采用遗传算法来确定r b f n n 的隐层中心,遗传算法是一种 利用自然选择和进化思想在高维空间中寻优的方法,从本质上讲,它具有全局寻优的能 力,文献【2 3 】利用遗传算法进行r b n 模型选择,学习网络的各个参数,包括:隐层神 经元个数、中心、宽度及权重。 1 3 本文研究的主要内容 鉴于隐层中心选择对网络性能的重要影响,本文在两阶段学习方法训练i 氇d 的 基础上,重点研究第一阶段如何确定合适的隐层神经元个数及中心位置。主要从以下两 个方面设计隐层中心的学习方法,选择较优的隐层中心,以达到优化网络结构,提高训 练后的r b f n n 的泛化能力的目的。 一个是基于局部泛化误差模型( l 0 c a l i z e dg e i l 耐i z a t i o ne n d rm o d e l ,简称l g e m ) 的i m n 州隐层中心选择方法,该方法在局部泛化误差模型的基础上,拓展w i n g 的另一 种思路,把训练误差与敏感性的线性加和作为评价r b n 分类器优劣的标准,记为嬲。 利用这个标准提出了一种选择隐层中心的新方法m t a s ,丁表示训练误差,s 表示统计 敏感性,m t a s 则表示在训练好的网络结构中,选择使弼值最小的网络。训练误差控 制着网络的训练程度,即对训练样例的拟合程度,而敏感性一定程度上反映了网络结构 的复杂度。通过控制两者的大小可以得到合适的隐层中心个数,进而得到泛化性能好的 r b n 蝌结构。 另一个是基于样例潜能( p o t e l l t i a l ) 的r b n 州隐层中心选择方法,该方法充分利用 样例的输入输出信息,定义了一个公式来度量每个样例对隐层中心选择产生的影响的大 小,这个影响同时也预示着该样例能被选作初始隐层中心潜在能力的大小,称为样例潜 能。最后根据据样例潜能的不同来依次选择初始的隐层中心。 1 4 本文组织结构 具体章节结构安排如下: 第1 章绪论 第1 章绪论。介绍了课题的研究背景与意义、国内外研究现状和主要研究内容。 第2 章预备知识。主要介绍在研究过程中用到的一些基本知识:人工神经网络的定 义、结构和发展史,径向基函数神经网络结构、学习方法,以及本文中常用的定义。 第3 章基于局部泛化误差模型的r b 孙眦隐层中心选择。主要介绍了局部泛化误差 模型,在此基础上,拓展w i n g 的另一种思路,定义了一种评价训练好的l m 孙跗分类器 优劣的标准,并利用该标准选择具有合适的隐层神经元个数的网络结构。 第4 章基于样例潜能的i m 阶隐层中心选择。主要介绍了样例潜能的定义、度量 公式,并利用样例潜能来指导我们选择i 国f n n 隐层中心 第5 章结论与展望。对本文所做的工作进行了总结,并对后续的工作进行了展望。 河北大学理学硕士学位论文 第2 章预备知识 本章主要介绍在研究过程中用到的一些基本知识:人工神经网络的定义、结构和发 展史,径向基函数神经网络结构、学习方法、参数特征,以及本文中常用的定义。 2 1 人工神经网络 2 1 1 从生物神经网络到人工神经网络 在你阅读本文时,就正在使用一个复杂的生物神经网络,大约有1 0 个相互连接的 神经元帮助你进行阅读、呼吸、运动和思考。你的每一个生物神经元都是生物组织和化 学组织的有机结合。部分神经网络的结构和功能是与生俱来的,比如支配呼吸、哭、吮 吸等本能动作的功能;而大多数的功能需要通过后天的不断学习实践才能获得。 生物神经网络的工作机理是一个很复杂的信息处理过程。一般认为,包括记忆在内 的所有生物神经功能,都存储在神经元及其之间的连接上。学习则被看作是在神经元之 间建立新的连接或对已有的连接进行修改的过程【2 4 1 。这是对生物神经网络的工作机理的 最基本的认识。这种工作机理启发了人工智能领域的学者,启发他们考虑能否利用一些 简单的人工“神经元 构造一个小系统,然后对其进行训练,从而使这个小系统具有一 定有用的功能。构造的这个小系统,就是一个人工神经网络。这些人工“神经元是对 生物神经元极其简单的一个抽象,可以用计算机程序或硅电路实现。虽然构造的这个小 系统的功能的能力远远不如人脑能力那么强大,但是,由于人工神经网络具有信息的分 布存储、并行处理机制、学习、联想和记忆等功能,以及它的高度自组织、自适应能力 和和灵活性,它在信息处理、模式识别、智能控制等领域有着广阔的应用前景【2 5 1 。 人工神经网络是模仿脑细胞结构和功能、脑神经结构以及思维处理问题等脑功能的 分层信息处理系统,它通过学习外界环境把学习到的知识存储在网络中,以便以后用这 些知识来处理信息。据此,a l e l ( s a l l d e r 和m o n o n 【2 6 】在1 9 9 0 年提出了人工神经网络的定 义。神经网络是一个多并行分布处理器,由简单的神经处理单元组成,每一个处理单元 都有存储经验知识的功能,并且存储的知识都可以随时用来处理信息。神经网络在两方 面类似于人类大脑:一是网络中所储存的知识,是通过从网络所处的外界环境中学习获 0 第2 章预备知识 得;二是神经元之间联结的强度,也就是连接权重,用来存储从外界获取的知识。 2 1 2 人工神经网络的结构 人工神经元是人工神经网络的基本组成单元。每个神经元都是一个信息处理单元, 对前一层传递过来的信息进行处理,然后把处理过的信息输出,传递给下一层的神经元。 构造一个人工神经元如图2 1 所示。 五 输y a 信: 号 连接权重 激活函数输出 图2 1 人工神经元模型 上图为一个多输入单输出的神经元信息处理模型,可以简单地看作神经元对输入信 息作了一个线性或非线性的转换。定义刀维向量x = ( 五,而,吒) t 为该神经元的输入信 号量,它同时也为其他神经元的输出信号;w = ( w ,心) 表示其他神经元与该神经 元的连接强度。当信息数据向量传输给当前神经元时,该神经元首先用一个加和算子, 计算输入信号各个分量的线性加权和五;6 为神经元的阈值,如果神经元输入向量 f = l 的加权和w 五大于6 ,则该神经元被激活;缈表示神经元的输入输出关系函数,亦即 f = l 激活函数,它对输入值做一个线性的或非线性的运算后进行输出,该输出值就是信息经 过该神经元处理后的神经元的输出值,即y = 9 ( 6 + 喜w 五) 。 只有上亿个生物神经元连接成生物神经网络,才能完成对外部感知信息进行的处 理、记忆、学习等。同样,单个人工神经元往往不能完成对输入信号的处理,它要按一 定的规则连接成网络,并让网络中每个神经元的权值和阈值按一定的规则变化,才能实 现所设计神经网络的功能要求。人工神经网络的连接形式和其拓扑结构多种多样,但总 河北大学理学硕士学位论文 的来说有两种形式,即分层型和互连型神经网络【2 7 1 。 分层型神经网络的拓扑结构如图2 2 所示,它又分为简单前馈网络、反馈型前馈网 络和内层互连前馈网络,本文中研究的径向基函数神经网络属于一般的前馈型神经网 络。 一一一 ( a ) 一般前馈网络( b ) 反馈型前馈网络( c ) 内层互连前馈网络 图2 2 分层型神经网络的拓扑结构 分层型神经网络将所有神经元按功能分为若干层,一般有输入层、中间层和输出层, 各层顺序连接。因为中间层不直接与外部输入和输出打交道,所以又称为隐层。根据处 理功能的不同,隐层可以有多层,也可以没有。 互连型神经网络的拓扑结构如图2 3 所示,其网络的任意两个神经元都相互连接, 构成全互连神经网络;如果不是全部的神经元都彼此相互连接,则构成局部互连神经网 络。 图2 3 互连型神经网络 2 1 3 人工神经网络的发展史 人工神经网络的研究始于2 0 世纪4 0 年代,一般可以用两次热潮来划分其历史时期。 1 9 4 3 年,心理学家w m c c u l l o c h 和数学家w p i t t s 合作,提出了神经元和神经网络最早 第2 章预备知识 的数学模型( m c c h l l o c h - p i t t s ,m p 模型) ,标志着神经网络研究的开始。在此之后的1 9 4 9 年,d o h e b b 从心理学的角度出发提出了至今仍对神经网络理论有着重要影响的h e b b 学习法则。随后,许多的学者,如f r o s 锄b l a t t ,b w i d r o w m h o m 都对神经网络的发 展做出了不可磨灭的贡献。1 9 5 8 年,f r 0 s 肌b l a t t 首次引进了模拟人脑感知和学习能力 的感知器( p e r c 印仃0 n ) 概念。1 9 6 0 年,b w i d r o w 和m h o f r 提出了主要适用于自适应 系统的自适应线性元件( a d a p t i v el i n e a rn e u r o 玛a d a l i n e ) 网络,采用了比感知器 更复杂的学习程序。w i d r o w h o 行技术被称为最小均方误差( 1 e a s tm e 锄s q u a r e ,u m s ) 学习规则。从此神经网络的发展进入了第一个高潮期。直到2 0 世纪6 0 年代末,由于感 知器的某些局限性,同时,由于人工智能和数字计算机正处于全新时期并在人工智能领 域取得辉煌成就,从而使得人工神经网络的研究在其后的若干年内处于低潮。进入2 0 世纪8 0 年代,特别是8 0 年代末期,对神经网络的研究从复兴很快转入了新的热潮。这 主要是因为:一方面经过十几年迅速发展的以逻辑符号处理为主的人工智能理论和冯 诺依曼计算机在处理诸如视觉、听觉、形象思维、联想记忆等智能信息处理问题上受到 了挫折;另一方面,并行分布处理的神经网络的研究成果,使人们看到了新希望。1 9 8 2 年美国加州工学院的物理学家j h o p p f i e l d 提出了h n n ( h o p 曲e l dn e u r a ln e 觚o r k ) 模型, 并首次引入了网路能量函数概念,使网络稳定性研究有了明确的判据,其电子电路实现 为神经元计算机的研究奠定了基础,同时开拓了神经网路用于联想记忆和优化计算的新 途径,再次掀起了神经网络的研究热潮。 目前,人工神经网络的研究主要集中在以下几个方耐2 8 】: ( 1 ) 建立理论模型。从生物学、神经科学等学科对生物神经细胞和神经网络的研 究成果出发,建立概念模型、知识模型、物理化学模型和数学模型等。 ( 2 ) 网络模型与算法研究。在理论模型基础上构造具体的神经网络模型,以便实 现计算机模拟和硬件制造。 ( 3 ) 应用研究。在网络模型与算法研究的基础上,利用人工神经网络组成实际的 应用系统,以便实现某种实际功能。 人工神经网络由于其学习、自适应、自组织、函数逼近和大规模并行处理等能力, 因而具有用于广泛的应用领域。神经网络在人工智能、自动控制、计算机科学、信息处 理、机器人、模式识别等方面都有重要的应用实例。 河北大学理学硕士学位论文 2 2 径向基函数神经网络 径向基函数神经网络( r a d i a lb a s i sf u i l c t i o nn e u r a ln e t 、阳r k ,简称r b n ) 是一种 多层前馈神经网络,它的隐层激活函数是一种径向对称且具有局部响应的函数,在结构 上具有输出一权值线性关系。 2 2 1 径向基函数 所谓径向基函数( r a d j a lb 戚sf 1 1 i l c t i o n ,简称i m f ) ,就是沿径向对称的标量函数。 通常定义为空间中任一点x 到某一中心c 之间欧式距离的单调函数,可记作伊( i l x c 1 1 ) , 其作用往往是局部的,即当x 远离c 时函数值很小。 常用的径向基函数有以下几种形式: 1 多二次( m u l t i q u a d r i c s ) 函数 缈( ,) :( ,2 + 6 2 ) u 2 6 o ,飒 ( 2 1 ) 2 逆多二次( h l v e r s ei n u l t i q u a d r i c s ) 函数 矿( ,) 2 i : :专i 广万 6 。,孵( 2 2 ) 3 高斯( g a u s s ) 函数 卅一冲( _ 砉 一吼 亿3 , 2 2 2 径向基函数神经网络的产生 r b f 首先是在多变量插值问题中引入的,这方面的早期工作在p o w e n ( 1 9 8 5 ) 中综 述。插值问题概括如下: 现有个不同的向量( 数据点) x ,;x f 巩“,江1 ,2 , ,和个实数 咒;f = 1 ,2 ,) ,寻找一个函数f :孵刀专倪,使其满足下面的插值条件: f ( x j ) = 乃, f = 1 ,2 , ( 2 - 4 ) 径向基函数插值技术得到的函数f 是多个径向基函数线性加和的形式,用( 2 5 ) 第2 章预备知识 式表示,它对空间中的数据点进行回归逼近,尽可能的再现数据点所在的原曲面。 f ( x ) = + 矿( 0 x x ,0 ) f = l ( 2 - 5 ) 其中,伊( 1 i x x ,| 1 ) ,江l ,2 ,是个径向基函数,蚓i 是,l 维实向量空间上定义的一种 范数( 一般为欧几里德范数) ,x f = ( 毛l ,鼍2 ,) 。吼一是径向基函数的第f 个中心。 高斯函数在径向基函数插值技术中应用最广,径向基函数插值技术的逼近函数采用 高斯函数,( 2 5 ) 式可以表示为: 僻嘞+ ;| | ;叫一睁) p 6 , f ( x ) = 嘞+ 啦e x p l _ 学i ( 2 6 ) l = i 、_ 7 f, 1 9 8 8 年,b r o o l l l l l e a d 和l o w e 将i m f 应用于神经网络设计,构造了径向基函数神 经网络。神经网络的设计可以看作是一个高维空间中的曲线拟合( 逼近) 问题,按照这 种观点,学习等价于在高维空间中寻找一个能够最佳拟合训练数据的曲面,这里的“最 佳拟合准则是在某种统计意义上的最佳拟合。因此,泛化等价于利用这个多维曲面对 测试数据进行插值。上述观点是i m f 方法的出发点,r b f 方法在某种程度上利用了上 述的多维空间中传统的严格插值法的研究成果。在神经网络的背景下,隐藏单元提供一 个“函数”集,该函数集在输入模式( 向量) 扩展至隐层空间时为其构建了一个任意的 “基;这个函数集中的函数就称为径向基函数。 在i 啦f 插值技术中,已知数据点的个数作为径向基函数的个数,每个数据点都对应 着一个径向基函数的中心。而r b f 应用于神经网络设计与r b f 插值技术最根本的不同在 于隐含层径向基函数个数的选择,在设计i 氇f n n 时,径向基函数的个数一般要远远小 于给定的数据点的个数。 2 2 3 径向基函数神经网络的拓扑结构 最基本形式的i 也阶包括三层,其中每一层都有着完全不同的作用。图中每一个 结点代表网络中的一个神经元。输入层由一些源点( 感知单元) 组成,它们将网络与外 界环境连接起来;第二层是网络中仅有的一个隐含层,它的作用是从输入空间到隐层空 间之间进行非线性变换,在大多数情况下,隐层空间有较高的维数;输出层是线性的, 它为作用于输入层的信号提供响应。 1 1 河北大学理学硕士学位论文 单输出的l m 孙n 基本形式结构如图2 4 所示。 厂( x ) 图2 - 4 径向基函数神经网络结构图 具有单输出的r b f n n 实现的函数表示为: m h + 善w 唧( _ 曙) 陋7 , ,( x ) = + w 唧l _ 譬l ( 2 - 7 ) f = l 7 f j 其中,埘为隐含层神经元的个数,也就是用到的径向基函数的个数, 咋= ( 嘶l ,吩2 ,) 1 吼以为第f 个基函数的中心,u 为第f 个基函数的宽度。 分析r b n 悄结构特点及实现的函数,i m n 州结构中需要选择的参数有隐含层神 经元的个数肌、中心、宽度u 以及输出层与隐含层间的连接权重。 2 2 4 径向基函数神经网络的训练方法 r b f n n 的训练过程就是网络中各个参数的确定过程,根据r b f n n 的隐含层和输 出层所起的作用不同,前者实现从输入空间到隐层空间的非线性映射,而输出层是隐含 层各单元输出的加权线性组合,r b f n n 的训练方法主要有两大类:一种是网络各个参 数分别进行训练,另外一种是同时进行训练。 我们知道,在r b f n n 训练过程中需要确定下面的参数【2 9 】: 隐含层神经元的个数,即径向基函数的个数聊 每个径向基函数的中心, 每个径向基函数的宽度, 第2 章预备知识 - 权重,表示第_ ,个隐含层神经元到输出层第f 个神经元的权重 依据参数是否要训练得到和参数确定的先后顺序,r b 孙m 训练方法可以分为:一 阶段学习、两阶段学习、三阶段学习【4 1 。 ( 1 ) 一阶段学习( o n 争p h a s el e 锄i n g ) 一阶段学习算法中,中心从训练样例集中随机选取,宽度预先设定为一个固定的数 值,并且所有的径向基函数所取的宽度值相同。最后可以用有监督的学习算法计算得到 隐层与输出层之间的连接权重。 ( 2 ) 两阶段学习( 栅o - p l 粥el e a n l i n g ) 两阶段学习与一阶段的主要区别在于两阶段学习中隐层参数也需要训练得到,然后 可以利用求伪逆矩阵的方法求解权重。各阶段确定参数详细列表如下: 第一阶段: 一 隐含层神经元的个数,即径向基函数的个数所 - 每个径向基函数的中心, 一每个径向基函数的宽度, , 第二阶段: 隐含层与输出层问的连接权重w 隐含层神经元个数和中心的选择 为了提高神经网络的泛化能力,目前的研究主要集中在如何选取恰当的网络规模 上,即网络结构设计问题。我们知道,i m f n n 结构设计的过程,就是r b n 训练、 构建的过程,也就是网络中各个参数的确定过程。其中隐层中心的确定是网络结构选择 的关键,它影响着训练好的r b f n n 的泛化能力。 隐层中心包含两个因素:隐层神经元个数、中心位置。综合考虑这两方面的因素, 隐层中心选择方法大致分为三类:随机选取隐层中心、利用聚类技术选取隐层中心、结 构增长法和删除法。三类方法的主要特点和优缺点可以参考表1 1 。 隐含层径向基函数宽度的确定 一般来说,g a u s s 基函数的形式表示为: 乃( x ) = e ) ( p ( 一( x c j ) 2 弓( 工一c j ) ) ( 2 - 8 ) 上式中尺i 为对角矩阵,对角线上的元素由每个中心的宽度计算得到。 1 3 闸北大字理宁硕士字位论文 在中心已经确定的情况下,可参考下面几种计算宽度的方法: 方法1 :所有中心的宽度值1 ,j = 1 ,2 ,七,取相同的值仃。 步骤一:求出所有中心对间的距离= 0 以一以i i ,肌= l ,2 ,七,以= m + l ,肌+ 2 ,七, 并让每个数对映射到一个索引值( 聊,拧) 一( 胁一1 ) 七+ ( 以一1 ) 。 步骤二:对这些距离排序,使得4 ( 1 ) 4 2 ,t ( m - i ) ,2 ) ,其中f 是原距离叱的 索引。 步骤三:让盯正比于p 个最小距离的平均值仃= 口刍喜t ( f ) 。 此时,r ,= 1 2 盯2i d ,i d 为单位矩阵。 - 方法2 :q ,歹= 1 ,2 ,后取值按下述方法确定。 步骤一:求出其它所有中心到中心一的距离= 0 以一州,肌= 1 ,2 ,七,m j f , 并让每个数映射到一个索引值,对于朋 ,( m ,歹) 一册一1 。 步骤二:对这些距离排序,使得t ( i ) 或( :) t ( h ) ,其中f 是原距离的索引。 步骤三:让巳正比于p 个最小距离的平均值町= 口刍喜以。 此时,吩= 1 2 巧i d ,i d 为单位矩阵。 _ 方法3 :q ,= 1 ,2 ,j | 取值为其它中心与该中心距离的最小值的常数倍。 q = 口m i n 硼鸬一川:鸬一,f = l ,2 ,七 此时,弓= 1 2 巧i d ,i d 为单位矩阵。 一 方法4 :q ,j = 1 ,2 ,尼取值为属于该类的样例与该类中心间距离的平均值的 常数倍。 巳= 口由卜竹0 巳钳冈剖卜竹。 此时,吩= 1 2 巧i d ,i d 为单位矩阵。 ( 3 ) 三阶段学习 在两阶段得到的网络的基础上,应用梯度下降的方法,同时调整网络的各个参数, 第2 章预备知识 包括中心、宽度与权重。 2 3 径向基函数神经网络隐层参数的影响 本节主要介绍了隐层各个参数的选取对网络规模和泛化能力产生的影响,做了一些 相关的实验,并以实验结果图的形式直观的显示各个参数与测试精度问的关系。测试精 度一定程度上可以表征网络的泛化能力。 隐层神经元个数的影响 隐层中心个数选取不当引起的问题有:隐层中心个数太少,网络结构过于简单,虽 然节省了网络的计算时间,但网络不能从训练集中获得足够的信息,因此网络不能具有 足够的学习能力和信息处理能力,泛化能力差;反之,如果隐层中心个数太多,不仅会 大大增加网络结构的复杂性和计算时间,而且会产生过拟合现象,使网络的泛化能力下 降,不能正确预测未知样例;合适的隐层中心个数,不仅可以降低运算量,而且能使网 络获得较好的泛化能力。 图2 5 人工样例集t o y 的样例分布图 图2 5 表示一个简单的人工二维样例集t o y 的样例分布情况,包含两类,每类各1 5 个样例。 河北大学理学硕十学位论文 下面实验说明隐层神经元个数与网络训练精度和测试精度的关系。把样例集按3 :2 划分为训练样例和测试样例,从一个隐层神经元开始,依次取训练样例添加到隐层,直 到取到所有的训练样例。一次实验的结果如图2 6 。 图2 6 训练精度和测试精度随隐层神经元个数增加变化图 从图2 6 可以直观地看到,随着隐层神经元个数的增加,网络规模逐渐变大,训练 精度有增加的趋势,最初的时候,测试精度也在增加。但是,当隐层神经元个数增加到 一定程度的时候,测试精度开始减小,即此时产生了过拟合现象,网络泛化能力降低。 中心位置的影响 关于中心的位置,也会有下面的问题:如果误把某个噪声样例选作中心,网络就会 学习到错误的信息;若在一个小区域出现了过多的隐层中心,就会造成隐层中心冗余, 导致产生复杂的网络结构。另外中心位置也影响到中心个数,如果中心的位置选取适当, 中心个数就以最合适的数量,提高网络的计算速度和泛化能力;如果中心位置选取不适 当,则网络中心个数就会过多或者过少,最终影响到网络的泛化能力。 基函数宽度的影响 宽度值的选取也要适当。一个采用高斯函数的径向基函数神经网络,是一系列高斯 函数的线性加和。每个高斯函数的宽度( 半径) ,描述了单个神经元的覆盖面积的大小。 第2 章预备知识 对于具有一个输入属性的样例,单个神经元在不同宽度下的曲线如图3 3 所示。由图中 可以看到,宽度越小,隐层的每个径向基函数的函数值变化越大,图形越陡峭;反之如 果宽度越大,隐层的基函数的函数值变化越小,图形越平滑。宽度也控制着隐层中心的 影响范围,直接影响着隐层中心的个数。如果宽度选择过于大,则网络需要很多的隐含 层神经元来逼近一个图形变化很快、很陡峭的函数;如果宽度选择过于小,则网络同理 又需要很多的隐含层神经元来逼近一个图形变化很缓慢的函数。宽度选择过于大或过于 小,都会在很大程度上减弱网络的泛化能力。 图2 7 单个神经元在中心为原点,宽度分别为1 、2 、3 的输出函数图形 隐层设计对r b f n n 的泛化能力有决定性的作用,所以我们研究隐层中心的选择问 题,以便获得较优的网络结构。 2 4 文中常用定义 定义2 1 训练样例:样例集合中被用来训练构建网络的样例。 定义2 2 测试样例:样例集合中被用来测试训练好的网络的性能的样例。 样例集合中,训练样例集与测试样例集划分情况如图2 6 所示,不同情况下可以采 用不同的划分比例。 1 7 河北大学理学硕士学位论文 数据库( 样例集合) 图2 8 样例集划分图示 下面给出分类问题中训练精度与测试精度的定义。 定义2 3 训练精度:在训练样例集中,被训练好的网络分类器正确分类的样例占训 练样例总数的百分比。 定义2 4 测试精度:在测试样例集中,被训练好的网络分类器正确分类的样例占测 试样例总数的百分比。通常测试精度可以反映网络的泛化能力。 定义2 5 泛化( g e n e r a l i z a t i o n ) 能力:训练后的神经网络对未在训练样例集合中出 现( 但具有同一规律性) 的样例做出正确反映的能力,即网络识别训练集合以外未知样 例的能力。被认为是衡量神经网络性能的最重要指标,没有泛化能力的网络是没有实用 价值的。 定义2 6 过拟合( o v * f i t t i n g ) :在神经网络训练过程中,由于训练样例中不可避免 地存在噪音数据,过度的严格要求学习算法精确拟合每个样例,而导致网络被噪声误导, 泛化
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 财报中的资产质量评估与优化策略
- 跨境B2B平台的供应链管理运营研究
- 建筑电气控制技术赵建伟60课件
- 6.1《学无止境》教学设计 - 2024-2025学年统编版道德与法治九年级下册
- 现代办公软件的进化与效能提升
- 建设工程招标标底的编制方法和程序学习情境二建设工程招标课件
- 兴安职业技术学院《企业经营决策沙盘模拟》2023-2024学年第二学期期末试卷
- 华北电力大学《音乐学科教学理论与方法(1)》2023-2024学年第二学期期末试卷
- 2025甘肃顺路通机动车管理有限公司招聘2人笔试参考题库附带答案详解
- 广东理工学院《图形设计提炼与表达》2023-2024学年第二学期期末试卷
- 2025年买卖双方合同模板
- 最专业的企业介绍模板课件
- 2025国家电投集团资本控股限公司本部招聘11人高频重点模拟试卷提升(共500题附带答案详解)
- 2025年湖南中医药高等专科学校高职单招职业技能测试近5年常考版参考题库含答案解析
- 2025年山东司法警官职业学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 2024年05月湖南招商银行长沙分行长期社会招考笔试历年参考题库附带答案详解
- 2025新人教版英语七年级下单词英译汉默写表(小学部分)
- 《联合国教科文:学生人工智能能力框架》-中文版
- 2023年部编人教版六年级道德与法治下册全册课件【完整版】
- 第1课 古代亚非(教学课件)-【中职专用】《世界历史》同步课堂(同课异构)(高教版2023•基础模块)
- 烟草栽培(二级)鉴定理论考试复习题库-下(多选、判断题汇总)
评论
0/150
提交评论