IEEE论文部分翻译《CanThreshldNetworksBeTrainedDirectly》.docx_第1页
IEEE论文部分翻译《CanThreshldNetworksBeTrainedDirectly》.docx_第2页
IEEE论文部分翻译《CanThreshldNetworksBeTrainedDirectly》.docx_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

阈值网络可以被直接训练么第29号PDF 32011001 3201100134 姚永强抽象说,带有阈值激活功能的神经网络是被很期望得到的,因为其在硬件方面是易于实现的。但是,流行的基于梯度的学习算法不可以被直接应用于训练这些网络,因为阈值函数的非线性不可微。文献中可以使用的方法主要关注点是用s型的函数来逼近阈值激活函数。在本篇论文中,我们从理论上展示了最近开发的极端学习机器(ELM)算法可以直接用阈值函数来训练这种神经网络而不是用s型的函数来逼近。建立于现实世界的基准回归问题上的实验数据证明通过ELM得到普遍的表现是优于其他用于阈值网络的算法。同时,这种ELM的方法不需要去控制变量(手动调优参数)并且更快。索引词-极端学习机器(ELM) 梯度下降方法 阈值神经网络1 介绍多层的神经网络在过去的几十年里引起了很大的兴趣,尽管这个带有模拟激活功能神经系统如s型或者正弦在隐藏的层次中有很强的计算能力,但是带有阈值和硬限幅激活函数的网络在隐藏的层次中仍然是希望得到的由于以下的原因(1)这个阈值单元在硬件方面是易于实现的。(2)用了阈值单元的网络的大小及训练的复杂性之间的关系以更易于理解的。但是,这种广泛应用的误差反向传播学习(BP)算法以及它的变化体不能被直接应用于去训练这种阈值神经网络因为阈值函数非线性不可微,因此在文献当中,为了修正基于梯度的学习方法以使其并不是直接应用于带有阈值单元的网络已经耗费了不少的努力。BP和它的变化体经常是很慢的并且会面临局部最小的问题在学习当中,这个验证的过程(控制变量的选择比如学习率,隐藏神经元的数量,以及学习的周期)是很复杂的并且时时挑战用户,特别是那些几乎没有神经网络方面知识的人们。在学习过程中所涉及的大量的计算的消耗使得完成以芯片的形式完成一个在线的学习系统变得相当的困难,因此,这些算法一般是首先线下训练的之后所有的神经网络的参变量(重量和偏见)被转化到阈值网络以硬件的形式来实现。最近,一个应用于单隐层前馈神经网络(SLFNs)的神奇的学习方法叫做极端学习机器(ELM)的算法在黄的论文中被提出。在这个算法中输入权重(连接着输入神经元与隐藏神经元之间的联系)以及隐藏的神经元的偏置是随机分配的是基于连续分布概率(在我们的仿真中统一使用的分布概率)而随机产生的并且保持固定。输出权重在分析的基础上加以确定。ELM比传统的BP学的更快并且没有一般化表现的损失。就像黄所说明的那样,ELM算法同样适用于带有阈值单元的神经网络,然而,一个对于阈值神经网络的ELM的详尽表现的研究迟迟没有进行而这篇文章将填补空缺。这篇论文的目的主要有两层:(1)在理论上证明,对于s型的网络相似于ELM,输入的权重和阈值系统的偏置也可以被随机分配基于连续分布的概率(就像在我们的仿真中统一使用的分布概率)因此ELM可以很简单的被应用于训练这种网络并且不需要任何的修正。(2)提供一个ELM的对于阈值单元的详尽的进化的表现,基于大量的许多现实世界的基准回归问题。仿真的结果显示出对于阈值网络的ELM比通过其他途径训练的BP在普遍化方面实现的更好。2对于阈值网络的学习算法的主要观点因为阈值函数非线性不可微,以及对于多层前馈神经网络的梯度下降学习算法不能被直接应用。因此,在文献中一系列的对于梯度下降方法的修正已经被提出来。Tom提出了一个对于网络的梯度下降学习算法用集成的激活函数,这个函数由线性的s型函数和阈值函数组合而成为F(x)=bS(x)+(1-b)(x)此处的S(x)是s型的函数而(X)是一个阈值函数当b=1的时候这个学习就开始了。在学习的过程当中b是逐渐降到0的。因此隐藏神经元激活函数就逐渐从一个纯模拟单元转化成纯阈值单元,这个激活函数f(x)并不是一个直接的阈值函数并且是处处非线性不可微的除了在x=0的时候。Crown已经提出了一种用阈值函数来训练多层网络的迭代的方法。这个s型的函数有一个增益参数被应用在训练中而不是阈值函数的直接应用,如果训练的错误是很小的,这个参数增益在学习的过程中是逐渐增长的直到s型函数的斜率是足够大的,从而允许其转化成阈值函数以相同的架构。但是,在很多情况下,这个错误并不是足够的小来使得增加,从另一方面来说,图一中显示的那样,的值要足够的大来使s型单元很好的接近于阈值单元。在一个非常近似于BP的模式中,Goodman和Zeng计算了“伪梯度”(而不是真正的梯度),用一个s型函数的梯度作为一个启发式的脉冲来代替硬限幅函数。就像Goodman和Zeng评价的那样,这个“伪梯度”在隐藏的层中存在不准确性。Bartlett和Downs提出了一个基于梯度下降途径的概率分布,这个途径假设单元的权重w是概率密度函数f(w)的随机变量,当这些权重均匀的分布在平均水准和标准差时,此时这个网络的训练可以轻易地实现通过调整累积分布函数(CDF)的每一个权重的参变量。最终平均值作为权重而它的标准差作为一个附加的一个Gaussian噪声和单元联系的权重。因为训练中涉及太多的计算消耗,Bartlett和Downs已经指出这个算法不适用于在线的训练。Plagianakos已经展示了一个训练阈值系统的算法通过应用微分进化(DE)策略。尽管这个算法不需要计算错误函数的梯度,也不需要一个迭代的学习计划。同时,一些控制变量需要去手动的调节从而使得它很慢特别是大型的应用场合。应该注意到,以上所述的所有的算法不适用于环境中的线上的学习在那目标函数总是时时变化的。它们仅仅适用于线下训练(芯片以外),并且训练完成后得到的参变量之后被转化成阈值网络以芯片的形式。5 讨论以及结论众所周知和模拟神经网络相比,阈值网络可以产生硬件方面神经网络完成的复杂性,传统的BP算法不能被应用于这样的阈值网络,因为所需的衍生品没有得到。许多学习算法并不总是直接处理阈值网络,而是用一些模拟的网络去接近这样才使得梯度下降的方式最终得以应用。和传统的BP相似,这些方法也会面临局部最小和过拟合问题。就我们所知道的而言,所有的这些算法在在线应用和硬件完成面临困难时由于以下原因(1) 除了网络的形状,许多控制的变量(手动控制的参变量)都得手动提前选好。(2) 学习参变量(联系权重和隐藏的神经元的偏置)只有在训练完成之后才可以以硬件的形式被转化成阈值网络。(3) 所有的这些算法面临困难当学习任务随着时间改变的时候,这在现实应用中时经常发生的。在这篇文章中,依靠s型网络得到的结果,在定理3.2中我们表明阈值网络输入权重和隐藏的神经元的偏置可以被随机分配而不是贪婪的调优。一旦输入权重和隐藏的神经元的偏置被随机分配,并不像传统的以梯度下降为基础的经常陷入最小化问题方式,ELM趋向于直接打到全局的最小化通过应用Moore-Penrose普遍迭代方式。我们进一步表明ElM学习算法可以直接被应用来训练阈值网络并且有很好的一般性。这个已经被建立在大量现实世界基准应用程序所验证。这个结果同时也表明对于阈值网络的ELM花费更少的训练时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论