(计算机应用技术专业论文)神经网络集成的泛化能力研究及其应用.pdf_第1页
(计算机应用技术专业论文)神经网络集成的泛化能力研究及其应用.pdf_第2页
(计算机应用技术专业论文)神经网络集成的泛化能力研究及其应用.pdf_第3页
(计算机应用技术专业论文)神经网络集成的泛化能力研究及其应用.pdf_第4页
(计算机应用技术专业论文)神经网络集成的泛化能力研究及其应用.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文 摘要 目前,神经网络集成技术已经被广泛应用于回归和分类等诸多领域。提高预 测和分类的精度作为其应用的一种是目前很多决策领域面对的重要而困难的工 作,多模型结合的结构是预测领域一个较为有效的方法,而神经网络集成作为多 模型结合结构的一种,易于使用且效果明显,已然成为目前国际机器学习和神经 计算界的研究热点。本文通过对神经网络集成理论的研究,将神经网络集成用于 时间序列预测领域和分类领域,通过增加集成系统的泛化能力的方法来提高时序 预测的精度。在提高集成系统的泛化能力方面主要做了如下研究和探讨。 首先,从原始训练数据角度,为了尽可能的充分利用训练数据,提高集成的 泛化能力,通过在训练样本上加入一定量噪声的方法,增大了训练样本集,新训 练数据集和原数据集相似,不同的个体网络在不同的训练样本上训练,增加了集 成中个体网络的差异度。从这个角度来提高神经网络集成的泛化能力。 其次,从增加个体网络间差异度的角度,引入基于小生境技术的神经网络进 化集成方法。利用小生境技术在增加进化群体的多样性,提高进化的局部搜索方 面的良好性能,通过个体间的相似程度的共享函数来调整神经网络集成中个体网 络的适应度,再依据调整后的新适应度进行选择,以维护群体的多样性,得到多 样性的个体网络,提高神经网络集成系统的泛化能力。 最后,将提出的方法应用于南方某城市的电力负荷短期预测及u c i 机器学习 知识库下面的两个标准数据集,实验仿真显示,取得了较好的效果。 关键词:神经网络集成:泛化能力;噪声添加;小生境;进化集成;聚类 神经网络集成的泛化能力研究及其应用 a b s t r a c t n o 、,n e u r a ln e t w o r ke n s e m b l et e c h n o l o g yh a s b e e nw i d e l ya p p l i e di nr e g r e s s i o n a n dc l a s s i 行c a t i o nf i e l d s i n l p r o v i n gc l a s s i f i c a t i o na n df o r e c a s t i n ga c c u r a c ya so n eo f i ti sa ni m p o n a n ty e td i m c u l tt a s kf a c i n gd e c i s i o nm a k e ri nm a n ya r e a s c o m b i n g m u l t i p l em o d e l sc a nb ea ne f 诧c t i v ew a y t oi m p r o v ef o r e c a s t i n gp e r f o r m a n c e n e u r a l n e t w o r ke n s e m b l e( n n e )a so n eo fm u l t i p l em o d e l s , e a s y t ou s ea n dg o o d p e r f o r m a n c e , i sb e c o m i n gah o tr e s e a r c hf i e l di nm a c h i n el e a r n i n ga n dn e u r a l c o m p u t i n g i nt h i sp a p e r w eh a v ed o n es o m er e s e a r c ho nt h e o r yo fn n ea n da p p l i e d i tt ot h ef i e l do ft i m es e r i e sf o r e c a s t i n ga n dc l a s s i f i c a t i o n ,t h r o u g hi n c r e a s i n gn n e g e n e r a l i z a t i o ne r r o rt oi m p r o v et i m es e r i e sf o r e c a s t i n ga c c u r a c y m a i n l yw o r k sa b o u t i m p r o v i n gn n eg e n e r a l i z a t i o ne r r o ra r es h o w na sf o l l o w i n g f i r s t l y ,f i r o mt h ep o i n to fo r i g i n a lt r a i n i n gd a t a ,i no r d e rt of u l l yu s i n go r i g i n a l t r a i n i n gd a t aa n di m p r o v i n gg e n e r a l i z a t i o ne r r o r ,b ya d d i n gn o i s e si n t ot h ei n p u td a t a a n dt h u sa u g m e n tt h eo r i g i n a lt r a i n i n gd a t as e tt of 0 r mm o d e l sb a s e do nd i f f - e r e n tb u t r e l a t e dt r a i n i n gs a m p l e s i n d i v i d u a ln e u r a ln e t w o r k st r a i no nd i f 诧r e n tt r a i n i n g s a n l p l e sa n dg e th i g hd i f f e r e n c ed e g r e e f o r mt h i sa n g l e ,i ti m p r o v eg e n e r a l i z a t i o n e r r o r s e c o n d l y , i no r d e rt o a u g m e n td i f f e r e n c ed e g r e e o fi n d i v i d u a ln e t w o r k s , p r o p o s i n gam e t h o do fe v o l u t i o n a r ye n s e m b l e0 fn e u r a ln e t w o r kb a s e do nn i c h e t e c h n i q u e u s i n gn i c h et e c h n i q u e sg o o dp e r f b r m a n c ei ni n c r e a s i n gp o p u l a t i o n d i v e r s i t ya n di m p r o v i n gl o c a ls e a r c ho fe v o l u t i o n a r y ,a d j u s t i n gi n d i v i d u a ln e t w o r k s f i t n e s sb yt h es i m i l a r i t yd e g r e e ss h a r i n gf u n c t i o na m o n gi n d i v i d u a l s t h e ns e l e c t n e t w o r k sa c c o r d i n gt ot h en e wa d ju s t e dn t n e s st o g e ti n d i v i d u a ln e t w o r k sw i t h d i v e r s i t y l a s t l y ,a p p l yp r o p o s e dm e t h o d st ot h ep o w e rs h o r t t e r ml o a df b r e c a s t i n go fac i t y o fs o u t ha n dt w oc r i t e r i a k n o w l e d g ed a t a s e t si nt h eu c im a c h i n el e a r n i n g e x p e r i m e n tr e s u l t ss h o wt h a tt h e s em e t h o d sc a ng e tg o o dp e r f o r m a n c e k e yw o r d s : n e u r a ln e t w o r ke n s e m b i e ;g e n e r a l i z a t i o ne r r o r ;n o i s ea d d i n g ; n i c h e ;e v o l u t i o n a r ye n s e mb i e ;c i u s t e r i n g 1 i 硕士学位论文 插图索引 图2 1 不同的划分超平面及其边际l l 图4 1 本文n a 仿真结果与真实值比较2 3 图4 2b a g g i n g 仿真结果与真实值比较2 3 图5 1 进化方向原理说明图一2 9 图5 2 神经网络进化集成的流程3 1 图5 3 网络中神经元连接关系3 l 图5 4 神经网络结构示意图一3 2 图5 5 个体神经网络的分层聚类。3 3 图5 6 引入小生境的进化集成多样性分析3 5 神经网络集成的泛化能力研究及其应用 附表索引 表4 1 预测结果及真实值比较2 3 表4 2n a 与b a g g i n g 预测误差比较2 4 表4 3 十二个整点负荷数据及三个气象数据2 5 表4 4 续表4 3 2 5 表5 1i r i s 数据的分类效果一3 4 表5 2d i a b e t e s 数据的分类效果3 4 表5 3 引入小生境与未引入的进化集成方法比较3 4 i v 兰州理工大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名: p 珞 吼7 年善月易日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即: 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许 论文被查阅和借阅。本人授权兰州理工大学可以将本学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段 保存和汇编本学位论文。同时授权中国科学技术信息研究所将本学位论文 收录到中国学位论文全文数据库,并通过网络向社会公众提供信息服务。 作者签名:7 8 f i 日期:口7 年6 月孑日 翩签名:方惭眦多年月驴日 硕士学位论文 1 1 课题背景及意义 第1 章绪论 1 1 1 神经网络集成研究的历史及现状 人工神经网络是对人脑工作机理的简单模仿,它建立在简化的神经元模型和 学习规则的基础上,由此产生了许多计算上的优势,并且已在很多领域得到了成 功的应用,但由于缺乏严密理论体系的指导,其应用效果完全取决于使用者的经 验。虽然h o r n i k 等人证明,仅一个非线性隐层的前馈网络就能以任意精度逼 近任意复杂度的函数,但一些研究者乜3 1 指出对网络的配置和训练是n p 问题。 在实际应用中,由于缺乏问题的先验知识,往往需要经过大量费力耗时的实验摸 索才能确定合适的神经网络模型、算法以及数值设置,其应用效果完全取决于使 用者的经验。即使采用同样的方法解决同样的问题,由于操作者不同其结果也很 可能大相径庭。在实际应用中,操作者往往是缺乏神经计算经验的普通工程技术 人员,如果没有易于使用的工程化神经计算方法,神经网络技术的应用效果将很 难得到保证。随着应用的深入推广,神经计算的局限与不足也逐渐显现出来,特 别表现在:( 1 ) 传统意义上的学习在信息量大的情况下处理速度过慢,不符合人 脑实时反应、大容量作业的特征;( 2 ) 神经网络的记忆容量有限;( 3 ) 神经网络 需要反复训练,而人脑却具有一次学习的能力;( 4 ) 神经网络在接受新信息时会 发生灾变性失忆现象等h 1 。 神经网络集成的方法可以简单地通过训练多个神经网络并将其结论进行合 成,从更广的意义上说也可称为多学习机集成,其目的有二,一是基于分而治之 的思想,把一个复杂的问题分解为一些简单的问题,用一些简单的网络去分别处 理,最后再把结果综合起来,这样可以简化网络设计,节省训练时间;二是为了 提高学习机的正确率( 提高推广能力) 。采用多个网络( n e t w o r ke n s e m b l e s ) 可 以显著地提高学习系统的泛化能力。它不仅有助于科学家对机器学习和神经计算 的深入研究,还有助于普通工程技术人员利用神经网络技术来解决真实世界中的 问题。因此,它被视为一种有广阔应用前景的工程化神经计算技术。 目前神经网络集成技术已在很多领域中得到了成功的应用。南京大学周志华 与微软中国研究院的合作者一起,将神经网络集成技术用于图像在深度方向上发 生偏转的多姿态入脸识别1 ,将预测结果分解成多个特征向量的加权和,建立多 视角特征空间,为每一视角的特征空间各训练一个神经网络,用另一个神经网络 对其结合。取得了较好的效果。 神经网络集成的泛化能力研究及其应用 s h i m s h o n i 和i n t r a t o r 利用神经网络集成进行地震波分类1 ,他们采用了二级 集成方式,地震波信号的三种不同表示分别被输入到采用不同网络结构的三个集 成中,每个集成都被赋予一个可信度,第二级集成就以该可信度为权值,通过加 权平均对第一级的三个集成进行结合,取得了较好的效果。 y u m e r ,r a m a n u i a m ,g h o s h 等用径向基( r a d i a lb a s i sf u n c t i o n ,r b f ) 网 络集成进行早期癌细胞检测卵1 。此外,神经网络集成还在语言识别、文本过滤、 疾病诊断等多个领域成功地得到应用。 1 9 9 5 年,l a m 拍1 采用权值优化方法进行集成,这种方法在一定程度上是对投 票方法的扩展。 当分类器相互独立且分类器的输出用后验概率表示时,则可以应用贝叶斯集 成方法阳j 引。贝叶斯集成方法主要包括平均贝叶斯方法和贝叶斯信任集成方法。 平均贝叶斯分类器的质量依赖两个因素,即后验概率的估计以及分类器之间的差 异性。在平均贝叶斯集成方法中,它将所有的分类器视为均等的,并没有明确地 考虑由每个分类器产生的不同错误:为了解决这些问题,在贝叶斯信任集成方法 中,通过混淆矩阵( c o n f u s i o nm a t r i x ) 描述每个分类器产生的不同错误,进而定义 每个分类器的信任度,最后确定集成分类器的信任度。 最近,k u n c h e v a 3 提出了一种决策模板全局集成方法。将所有分类器在x 上的输出形成决策轮廓矩阵,并且为每类定义一个模糊模板,然后使用聚集算子 ( 例如求最小、最大、平均、积加权平均算子等n 2 j 3 1 ) 对决策轮廓矩阵的列做聚集 操作以获得类的顺序;或者计算一个软类标号向量以决定决策轮廓矩阵与模糊模 板矩阵间的相似性。 为了克服分类器之间相互独立性的假设条件,l9 9 5 年h u a n g 等n 们提出了行 为知识空间( b k s ) 方法。对于每个训练点,通过收集所有分类器上的决策记录以 组成知识空间,然后使用一种规则确定输入数据所属的类别。但由于这种方法 需要确定阑值九,所以决策方法的可靠性在很大程度上依赖于该值的选择;同时 这种方法需要大量的训练数据。 k i t l e r 根据一般的贝叶斯结构,基于积规则与和规则为现有的分类器集成提 供了理论上的指导,并且提出和规则对于个体分类器子集中错误的敏感性较小 1 6 】 o 陈爱斌等n 叫提出基于b o o s t i n g 技术的人脸检测算法,实验结果显示,本方 法能明显提高检测性能。 傅向华等n 7 1 提出了一种增量构造异构神经网络集成的方法:在训练个体网 络时,不仅调整权值,也调整网络结构,以此提高个体网络的预测精度、增大差 异度,通过这种应用负相关学习来动态构造多个最佳的个体网络的方法,其泛化 能力均肯不同程度的改善。 2 硕士学位论文 在神经网络集成的研究中,也存在很多待解决的问题。例如,现有研究成果 表明,当神经网络集成的个体网络差异较大时,集成效果较好,但如何获得差异 较大的个体网络还值得进一步探索。另外,神经网络集成在训练样本上产生个体 网络,训练样本的有限性以及如何尽可能充分利用训练数据等问题也都是值得研 究的重要课题。本文将从选择差异度高的个体网络以及充分利用训练数据两方面 进行了研究和探讨。 1 1 2 时间序列预测及分类的现状 目前,在很多决策,通信和金融等众多不同的领域,时间序列预测都有着广 泛应用。提高时间序列预测的精度是一项重要而困难的工作。国内外研究者已经 提出许多时间序列预测方法,如b o x j e n k i n s 法、神经网络方法和卡尔曼滤波法 等。这些方法被广泛应用的同时,也表现出很多缺陷和局限性。这些方法在对复 杂系统的建模时,往往需要建立一个单一模型,通过复杂参数来表征模型特征。 但单一模型的泛化能力较差,预测的鲁棒性没有保障,预测的精度也不能满足实 际工程的要求。集成学习能有效提高机器学习系统的泛化能力,但如何有效地度 量和产生泛化能力强、差异大的个体学习机器仍是集成学习的一个还没有被很好 解决的问题。为了增加所构造的神经网络个体之间的差异性,本文做了一些研究 和探讨。 时间序列预测,就是根据给定的时序数据【x 1 ,x ,x n 】,其中n 为时间 序列的长度,x 。为时刻t 的抽样值,预测未来时刻的序列值 x n + l ,x n + 2 】, 也称为趋势分析。考虑到时序数据具有多样性,连续性,时变性,有序性等特点, 时间序列预测面临很多严峻的挑战。迄今为止,人们已经提出多种时间序列预测 方法,神经网络集成方法通过对某段历史数据的训练,建立基于神经网络集成的 预测模型来实现对时间序列数据的预测,易于使用且效果明显n 引。 对于神经网络集成技术应用于分类领域,已经取得了很多成功的应用。 1 2 本文的主要研究内容 1 2 1 论文的主要研究工作 1 收集有关神经网络集成及时序预测及分类的相关研究的国内外论文,了 解神经网络集成的最新动态,引导研究工作的进行。 2 对神经网络集成整个过程中涉及到的每个步骤进行研究,包括理论研究, 个体及结论的生成,泛化能力的提高,训练数据的充分应用等等。 3 训练样本是机器学习的基础,对样本的有效处理将提高后续神经网络学 习的效率和性能。为充分利用训练数据提出了添加噪声的方法。 4 提高集成中个体网络的差异度能提高集成的泛化能力和计算精度,提出 3 神经网络集成的泛化能力研究及其应用 了基于小生境技术的神经网络进化集成方法。 5 将本文提出的方法通过实验验证。 1 2 2 论文内容安排 论文其余各章的安排如下: 第2 章:神经网络集成理论分析; 第3 章:神经网络集成泛化能力研究; 第4 章:基于充分利用训练数据提高集成泛化能力; 第5 章:引进小生境技术增加个体网络差异性研究; 4 硕士学位论文 第2 章神经网络集成理论分析 2 1 引言 本章首先对神经网络集成的概念及原理进行了简要介绍,进而对神经网络集 成的构造方法进行了分析比较,并从结论生成方法和个体生成方法两个方面对神 经网络集成进行了理论分析,解释了神经网络集成有效的原因。 2 2 神经网络集成概述 2 2 1 神经网络集成的概念 神经网络已经在很多领域得到了成功的应用,但由于缺乏严密理论体系的指 导,其应用效果完全取决于使用者的经验。虽然h o m i k 等人证明,仅有一个非 线性隐层的前馈网络就能以任意精度逼近任意复杂度的函数,但一些研究者心一1 指出,对网络的配置和训练是n p 问题。在实际应用中,由于缺乏问题的先验知 识,往往需要经过大量费力耗时的实验摸索才能确定合适的神经网络模型、算法 以及参数设置,其应用效果完全取决于使用者的经验。即使采用同样的方法解决 同样的问题,由于操作者不同,其结果也很可能大相径庭。在实际应用中,操作 者往往是缺乏神经计算经验的普通工程技术人员,如果没有易于使用的工程化神 经计算方法,神经网络技术的应用效果将很难得到保证。 1 9 9 0 年,h a n s e n 和s a l a m o n n 叫开创性地提出了神经网络集成( n e u r a ln e t w o r k e n s e m b l e ,n n e ) 方法。他们证明,可以简单地通过训练多个神经网络并将其结 果进行合成,能显著地提高神经网络集成系统的泛化能力。由于该方法易于使用 且效果明显,即使是缺乏神经计算经验的普通工程技术人员也可以从中受益,因 此它被视为一种非常有效的工程化神经计算方法。 l9 9 6 年,s o l l i c h 和k r o g h 为神经网络集成下了一个定义,即“神经网络集 成是用有限个神经网络对同一个问题进行学习,集成在某输入示例下的输出由构 成集成的各神经网络在该示例下的输出共同决定 。目前这个定义已被广泛接受。 但是,也有一些研究者心妇认为,神经网络集成指的是多个独立训练的神经网络 进行学习并共同决定最终输出结果,并不要求集成中的网络对同一个( 子) 问题进 行学习。符合后一定义的研究至少可以上溯到19 7 2 年诺贝尔物理奖获得者 c o o p e r 心2 1 及其同事和学生于2 0 世纪8 0 年代中后期在n e s t o r 系统中的工作,但是, 目前一般认为神经网络集成的研究始于h a n s e n 和s a l a m o n 在19 9 0 年的工作。 由于认识到神经网络集成所蕴涵的巨大潜力和应用前景,在h a n s e n 和 s a l a m o n 之后,很多研究者都进行了这方面的研究,但当时的研究工作主要集中 5 神经网络集成的泛化能力研究及其应用 在如何将神经网络集成技术用于具体的应用领域。从2 0 世纪9 0 年代中期开始,有 关神经网络集成的理论研究受到了极大的重视,大量研究者涌入该领域,理论和 应用成果不断涌现,使得神经网络集成成为目前国际机器学习和神经计算界的一 个相当活跃的研究热点。 2 2 2 神经网络集成的思想由来 m k e a r n s 和l q v a l i a n t 指出,在( p r o b a b l ya p p r o x i m a t e l yc o r r e c t ,p a c ) 学习模型心4 1 中,若存在一个多项式级学习算法来辨别一组概念,并且辨别正确 率很高,那么这组概念是强可学习的;而如果学习算法辨别一组概念的正确率仅 比随机猜测略好,那么这组概念是弱可学习的。m k e a r n s 和l g v a l i a n t 提出了弱 学习算法与强学习算法的等价性问题,即是否可以将弱学习算法提升成强学习算 法。如果两者等价,那么在学习概念时,只需找到一个比随机猜测略好的弱学习 算法,就可以将其提升为强学习算法,而不必直接去找通常情况下很难获得的强 学习算法。上述等价性问题可视为神经网络集成思想的出发点。1 9 9 0 年, s c h a p i r e 乜目通过一个构造性方法对该问题作出了肯定的证明,其构造过程称为 b 0 0 s t i n g ,虽然b o o s t i n g 算法并非专为神经网络设计,但其与神经网络集成有着 难以分割的血缘关系。 在神经网络集成的研究中,始终存在着两方面的内容:一方面,研究者们试 图设计出更有效的神经网络集成实现方法,以直接用于解决问题;另一方面,研 究者们试图对神经网络集成进行理论分析,以探明这种方法为何有效、在何种情 况下有效,从而为实现方法的设计提供指导。除此之外,还有很多研究者将神经 网络集成应用到实际问题中,取得了很好的效果。 2 3 神经网络集成的方法及主要技术 神经网络集成方法是一种学习算法,算法构造分类器或预测器的集合,然后 对这些分类器或预测器的结果进行合成,例如( 加权的) 投票,分类或预测新的数 据点、数据集等。要得到和使用神经网络集成,一般需经过如下步骤: ( 1 ) 首先要确定构成集成的单个神经网络的结构; ( 2 ) 应用一定的个体网络构建方法,训练出多个独立的神经网络; ( 3 ) 在上两步基础上,再用一定的合成方法,对构成集成的各个网络的输出进 行合成,得到集成的神经网络; 2 3 1 神经网络集成的构造方法 构造集成的方法有多种,常用的方法有以下几种: ( 1 ) 贝叶斯投票方法( b a y e s i a nv o t i n g :e n u m e r a t i n gt h eh y p o t h e s e s ) :定义 条件概率分布,为每种概率假设分配权值,以加权求和得出整个假设的输出,如 6 硕士学位论文 果函数按概率逼近假设,这种方法是最优的。但实际中假设空间和先验概率很难 确定,因此贝叶斯方法不是最优的。 ( 2 ) 处理训练样本( m a n i p u l a t i n gt h et r a i n i n ge x a m p l e s ) :通过处理训练样 本产生多个样本集,学习算法运行多次,每次使用一个样本子集。这种构造方法 中具体又有b a g g i n g ,c r o s s v a l i d a t e dc o m m i t e e s 和a d a b o o s t 等方法。这类方法很 适合不稳定的学习算法。神经网络,决策树算法都是不稳定算法。 ( 3 ) 处理输入特征集( m a n i p u l a t i n gt h ei n p u tf e a t u r e s ) :把输入特征划分成 子集,用于不同集成网络的输入向量。这种方法适于输入特征高度冗余、特征向 量维数很高的情况。 ( 4 ) 处理输出( m a n i p u l a t i n gt h eo u t p u tt a r g e t s ) :这类方法中的代表是 e r r o r c o r r e c t i n go u t p u tc o d i n g 方法。它改善了c 4 5 决策树算法和b p 算法求解复杂 分类问题的性能。 ( 5 ) 随机设置初始权值( i n j e c t i n gr a n d o m n e s s ) :对同一训练样本赋不同初 始权值使构成集成的子网的分类结果不同。在实际应用中待解决的问题一般是较 为复杂的,例如对电力负荷的预测,影响负荷的因素很多。显然很难用一个单个 的神经网络或分类器以高的精度去解决一个很复杂的问题。可以把复杂问题分 解,再对简单闻题构造学习、分类器进行求解。而对简单问题求解时,又可以应 用集成的思想,对局部的问题域,采用b a g g i n g 的集成构造方法。因此我们结合 使用处理训练样本和处理特征集的方法,采用了二级集成:先将整个问题域划分 为子问题域,每个子问题域由一个采用b a g g i n g 技术的集成实现,整个问题域又 由子问题域的集成求解。 2 3 2 神经网络集成的主要技术 对神经网络集成方法的研究主要集中在两方面,即如何生成集成中的个体网 络和怎样将多个神经网络的输出结论进行合成。 在个体网络的生成方面,最重要的技术是b o o s t i n g 和b a g g i n g ( b o o t s t r a p a g g r e g a t i o n ) 。 b o o s t i n g 是一大类算法的总称,最早由s c h a p i r e 提出,f r e u n d 对其进行了改进, 通过这种方法可以产生一系列神经网络,各网络的训练集决定于在其之前产生的 网络的表现,被已有网络错误判断的示例将以较大的概率出现在新网络的训练集 中,这样新网络将能够很好地处理对已有网络来说很困难的示例。另一方面,虽 然b o o s t i n g 方法能够增强神经网络集成的泛化能力,但同时也有可能使集成过分 偏向于某几个特别困难的示例,因此,该方法不太稳定,有时能起到很好的作用, 有时却没有效果。 b a g g i n g 的基础是可重复取样( b o o t s t r a ps a m p l i n g ) 。在该方法中,各神经网 7 神经网络集成的泛化能力研究及其应用 络的训练集由从原始训练集中随机选取若干示例组成,训练集的规模通常与原始 训练集相当,训练例允许重复选取。这样,原始训练集中某些示例可能在新的训 练集中出现多次,而另外一些示例则可能一次也不出现。b a g g i n g 方法通过重新 选取训练集增加了神经网络集成的差异度,从而提高了泛化能力。 b a g g i n g 算法与b o o s t i n g 算法的主要区别在于b a g g i n g 的训练集的选择是随机 的,各轮训练集之间相互独立,而b o o s t i n g 的训练集的选择不是独立的,各轮训 练集的选择与前面各轮的学习结果有关;b a g g i n g 的各个预测函数没有权重,而 b o o s t i n g 是有权重的;b a g g i n g 的各个预测函数可以并行生成,而b o o s t i n g 的各个 预测函数只能顺序生成。对于像神经网络这样极为耗时的学习方法,b a g g i n g 可 通过并行训练节省大量时问开销。另外,一些研究者发现,一般情况下,b a g g i n g 方法总是可以改善学习系统的性能;而b o o s t i n g 方法在有效时效果比b a g g i n g 还 好,但在无效时却可能使学习系统的性能恶化。 对于输出结论合成方面,当神经网络集成用于分类器时,集成的输出通常由 个体网络的输出投票产生,通常采用绝对多数投票法即某分类成为最终结果当且 仅当有超过半数的神经网络输出结果为该分类,或相对多数投票法即某分类成为 最终结果当且仅当输出结果为该分类的神经网络数目最多。理论分析和大量试验 表明,后者优于前者。因此,在对分类器进行集成时,目前大多采用相对多数投 票法。当神经网络集成用于回归分析时,集成的输出通常由各网络的输出通过简 单平均或加权平均产生。p e r r o n e 等人认为,采用加权平均可以得到比简单平均 更好的泛化能力。但是,也有研究者认为,对权值进行优化将导致过配 ( o v e r n t t i n g ) ,从而使得集成的泛化能力降低,因此他们建议使用简单平均心引。 此外还存在多种结论生成方式。有的用神经网络这样的学习系统,通过学习 来对多个预测进行合成;有的通过对一组子网进行优化,使各子网都能较好地处 理一个输入子空间,从而进一步进行合成;有的不使用线性合成方法,而是使用 些随个体网络输出的确定程度而变化的动态权值来产生最终的分类;有的以最 小化分类误差为标准选择出相对于每个输出分类的最佳网络,然后估计出最优线 性权,将个体网络集成起来形成理想分类器。 2 4 神经网络集成的理论分析 2 4 1 结论生成 1 9 9 0 年,h a n s e n 和s a l a m o n n 们证明,对神经网络分类器来说,采用集成方法 能够有效提高系统的泛化能力。假设集成由n 个独立的神经网络分类器构成,采 用绝对多数投票法,再假设每个网络以l p 的概率给出正确的分类结果,并且网 络之间错误不相关,则该神经网络集成发生错误的概率阢,为 8 硕士学位论文 一七煮:脚( 1 _ 。 d 在p 0( 2 2 ) y 眦:1( 2 3 ) 再假设训练集按分布p ( x ) 随机抽取,网络倪对输入x 的输出为( x ) ,则神经网 络集成的输出为 矿( x ) = 眦y 。( x ) ( 2 4 ) 神经网络口的泛化误差e 。和神经网络集成的泛化误差分别为: 9 神经网络集成的泛化能力研究及其应用 各网络泛化误差的加权平均为: e 口= 腼( x ) ( 厂( x ) 一酽( x ) ) 2 e = 胁( x ) ( 厂( x ) 一歹o ) ) 2 面= 眦酽 ( 2 5 ) ( 2 6 ) ( 2 7 ) 神经网络口的差异度和神经网络集成的差异度彳分别为: 么“= 脑( x ) ( y ( x ) 一矿2 ( 2 8 ) j = 眦彳口 ( 2 9 ) 则神经网络集成的泛化误差为: e :面一j ( 2 1 0 ) 式( 2 1 0 ) 中的彳度量了神经网络集成中各网络的相关程度。若集成是高度偏向 的,即对于相同的输入,集成中所有网络都给出相同或相近的输出,此时集成的 差异度接近于o ,其泛化误差接近于各网络泛化误差的加权平均。反之,若集成 中各网络是相互独立的,则集成的差异度较大,其泛化误差将远小于各网络泛化 误差的加权平均。因此,要增强神经网络集成的泛化能力,就应该尽可能地使集 成中各网络的误差互不相关。 2 4 2 个体生成 1 9 9 7 年,f r e u n d 和s c h a p i r e 幽1 以a d a b o o s t 为代表,对b o o s t i n g 类方法进行了 分析,并证明该类方法产生的最终预测函数日的训练误差满足式( 2 11 ) 其中s ,为 预测函数曩的训练误差,n = 1 2 一, 一,、 ,日= 兀 2 正,( 1 一q ) 】= 兀l 一4 y 墨e x p l 一2 疗l ( 2 1 1 ) , f 从式( 2 1 1 ) 可以看出,只要学习算法略好于随机猜测,训练误差将随f 以指数级 下降。在此基础上,f r e u n d 和s c h a p i r e 圳用v c 维3 。1 对b o o s t i n g 的泛化误差进行了 分析。设训练例为聊个,学习算法的v c 维为d ,训练轮数为r ,则其泛化误差上 限如式( 2 1 2 ) 所示,其中p ( ) 表示对训练集的经验概率: 纵聃小。“ ( 2 1 2 ) 式( 2 12 ) 表明,若训练轮数过多,b o o s t i n g 将发生过配。但大量试验表明,b o o s t i n g 硕士学位论文 即使训练几千轮后仍不会发生过配现象,而且其泛化误差在训练误差已降到零后 仍会继续降低。为解释这一现象,19 9 8 年s c h a p i r e 等人口从边际( m a r g i n ) 的角度 对泛化误差进行了分析。边际所a r g 切“y ) 定义为: 聊a r g 觑( 五y ) = y q 鹰( x ) ( 2 1 3 ) i = l 正边际表示正确预测,负边际表示错误预测,较大的边际可信度较高,较小的边 际可信度较低。如图2 1 所示,假设存在两个不同的类别的数据点,若以 1 为划 分超平面,则两个分类的最小边际为d 1 :若以j l l 2 为划分超平面,则两个分类的 最小边际为d 2 。显然,如果d 2 d 1 ,则j i l 2 是比j j l l 更好的划分超平面,因为其分 类鲁棒性即系统的抗噪恢复能力更好。 , 图2 1 不同的划分超平面及其边际 s c h a p i r e 等人n 认为,在训练误差降为零后,b o o s t i n g 仍会改善边际,即继续寻 找边际更大的划分超平面,这就使得分类可靠性得到提高,从而使泛化误差得以 继续降低。进一步,s c h a p i r e 等人口妇还具体地给出了泛化误差的上限: ,厂厂、 只 聊鹕吣,y ) 卯】加“l 嘉j 1 4 ) 从式( 2 1 4 ) 可以看出,b o o s t i n g 的泛化误差上限与训练轮数无关,s c h a p i r e d 2 1 的 一些实验也证实了这一点。然而,19 9 8 年g r o v e 和s c h u u m a n s 3 3 1 指出,s c h a p i r e 等人的边际假说并不能真正解释b o o s t i n g 成功的原因。为证明这一点,他们在 a d a b o o s t 的基础上设计了l p b o o s t 算法,通过线性规划来调整各预测函数的权重, 从而增大最小边际。他们指出,如果边际假说成立,那么l p b o o s t 算法产生的学 习系统泛化误差应比较小,然而实验表明,该学习系统的泛化误差并不小,也就 是说,边际的增大并不必然导致泛化误差的减小,有时甚至造成泛化误差增大。 因此,关于b o o s “n g 为什么有效,目前仍然没有一个被广泛接受的理论解释。 1 9 9 6 年,b r e i m a n 【3 4 】对b a g g i n g 进行了理论分析。他指出,分类问题可达到的 神经网络集成的泛化能力硼f 究及其麻用 最高正确率以及利用b a g g i n g 可达到的正确率分别如式( 2 1 5 ) 和式( 2 1 6 ) 所示,其 中c 表示序正确( o r d e rc o r r e c t ) 的输入集,c 。为c 的补集,j ( ) 为指示函数 ( i n d ic a t o rf u n c t i o n ) 。 ,= i m 妒( - ,i 功最( 功 ( 2 1 5 ) 广1 ,= | 2 ,胤甲p ( i x ) 只( 出) + l 。l 手,( 九( 曲= 力以j f i 功j 最( 功 ( 2 1 6 ) 显然,b a g g i n g 可使序正确集的分类正确率达到最优,单独的预测函数则无法做 到这一点。对回归问题,b r e i m a n 推出式( 2 1 7 ) ,不等号左边为b a g g i n g 的误差平 方,右边为各预测函数误差平方的期望: l 臣伊( 五) 1 2 巨缈2 ( 工,三) ( 2 1 7 ) 显然,预测函数越不稳定,即式( 2 17 ) 右边和左边的差越大,b a g g i n g 的效果越 明显。除此之外,b r e i m a n m l 还从偏向( b i a s ) 和差异( v a r i a n c e ) 的角度对泛化误差 进行了分析。他指出,不稳定预测函数的偏向较小、差异较大,b a g g i n g 正是通 过减小差异来减小泛化误差的。在此之后,w o l p e n 和m a c r e a d y 汹1 具体地给出了 泛化误差、偏向和差异之间的关系: e ( ci 厂,聊,g ) = 尸( dl 厂,m ) ( ( g ) 一厂( g ) ) 2 = ( 办( g ) 一厂( g ) ) 2 + 尸( d i 厂,卵) ( ( d ) 一办( g ) ) 2 ( 2 1 8 ) d 式( 2 18 ) 左边为泛化误差,右边第一项为偏向的平方,第二项为差异。b a g g i n g 就是对j i l ( g ) 进行模拟,使得在偏差相同的情况下差异尽量趋向于零。值得注意 的是,虽然利用偏向和差异来解释b a g g i n g 获得了一定的成功,但f r e u n d 和 s c h a p i r e b 7 1 通过一系列基于s t u m p s 和c 4 5 的实验指出,偏向和差异并不能很好地 解释b o o s t i n g 。 2 5 小结 本章首先对神经网络集成的概念和原理进行了简要介绍。接着介绍了神经网 络集成的几种常用的构造方法,并且对b o o s t i n g 和b a g g i n g 这两种主要技术进行了 分析比较,并且从个体生成和结论生成两个方面对神经网络集成算法进行了理论 分析,从而解释了神经网络集成算法有效的原因。理论分析表明对神经网络这种 不稳定的学习过程来说,应用神经网络集成方法可以提高学习的性能。但是理论 分析同时表明:集成的差异度( v i a r a n c e ) 越大,神经网络集成的泛化误差越小。 因此要提高神经网络的泛化能力,应尽可能提高神经网络集成的差异。另外神经 1 2 硕士学位论文 、 网络集成要训练多个不同的神经网络。下一章将对提高神经网络集成泛化能力的 几个方面做学习研究。 j 3 神经网络集成的泛化能力研究及其席用 第3 章神经网络集成泛化能力研究 3 1 泛化能力概述 人工神经网络技术以其诸多显著优点,如非线性建模能力、强大的自学习能 力、容错能力和自适应能力,受到青睐而被广泛地应用到科学研究和工程技术领 域,并取得了很好的效果。神经网络本质上是一种工具,而我们使用这种工具一 定是为了完成某项任务,即该工具一定要具有实用性。 在神经网络的所有特性中,其泛化能力或者叫作推广能力是研究者关注的焦 点之一。神经网络的泛化能力是指对于同一样本集中的非训练样本,网络仍能给 出正确的输入输出关系的能力。由于在实际应用当中人们所关心的并不是网络对 已知输入输出样本的拟合能力,而是对系统中已知输入未知输出( 即非训练样本) 的反映程度,因此使得网络的泛化能力成为网络应用成功与否的关键。网络的泛 化能力可以理解为网络对系统的拟合能力。网络对系统的拟合程度越高,网络对 系统中未训练样本的输入输出关系反映得越准确;反之,若网络的泛化能力强, 即网络能正确反映样本集中未训练样本的输

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论