概率神经网络讲解_第1页
概率神经网络讲解_第2页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、DonaldF.SpechtProbabilisticNeuralNetworksNeuralNetworks,Vol.3,pp.109-118,1990概率神经网络摘要:以指数函数替代神经网络中常用的S形激活函数,进而构造出能够计算非线性判别边界的概率神经网络(PNN),该判定边界接近于贝叶斯最佳判定面。还讨论了拥有类似性质的其他激活函数。所提出的这种4层神经网络能够把任何输入模式映射到多个类别。如果能取得新数据的话,可以使用新数据实时地修改判定边界,并可以使用完全并行运行的人工“神经元”付诸实现。还为估计类别的出现概率和可靠性,以及做判别作好准备。对于反向传播增加的适应时间占总计算时间的重

2、大部分的问题,这种方法显示出非常快速的优点。PNN范式比反向传播快200,000倍。关键词:神经网格,概率密度函数,并行处理机,“神经元”,模式识别,Parzen窗口,贝叶斯策略,相联存储器1. 动机神经网络常用来依据向实例学习进行模式分类。不同的神经网格范式(paradigm)使用不同的学习规则,但都以某种方式,根据一组训练样本确定模式的统计量,然后根据这些统计量进行新模式分类。通用方法如反向传播,使用探试法获得基础的类别统计量。探试法通常包含对系统参数的许多小的改进,逐渐提高系统的性能。除了训练需要长的计算时间外,还表明,反向传播增加的适应近似法对错误的最小值很敏感。为了改进这种方法,找到

3、了基于己确立的统计原理的分类方法。可以表明,尽管最终得到的网络在结构上类似于反向传播,且其主要区别在于以统计方法推导的激活函数替代S形激活函数,但这个网络具有的特点是:在某些易满足的条件下,以PNN实现的判别边界渐进地逼近贝叶斯最佳判定面。为了了解PNN范式的基础,通常从贝叶斯判定策略以及概率密度函数的非参数估计的讨论开始。之后可以表明,这种统计方法如何映射到前馈神经网络结构,网络结构是以许多简单处理器(神经元)代表的,所有处理器都是并行运行。2. 模式分类的贝叶斯判定策略用于模式分类的判定规则或策略的公认标准是:在某种意义上,使“预期风险”最小。这样的策略称之“贝叶斯策略”,并适用于包含许多

4、类别的问题。现在考察两类的情况,其中,已知类别状态e为°或°。如果想要根据p维向量冶二xAB1xx描述的一组测量结果,判定°二e或e二e,贝叶斯判定规则变成:ipABd(x)=e如果hif(x)>hif(x)AAAABBBd(x)=e如果hif(x)<hif(x)(1)BAAABBB式中,f(x)和f(x)分别为类别a和b的概率密度函数;为e二e时判定d(x)=eABAAB的损失函数;i为e二e时判定d(x)=e的损失函数(取正确判定的损失等于o);h为BBAA模式来自类别a出现的先验概率;和h=1-h为e二e的先验概率。BAB于是,贝叶斯判定规则d(

5、X)=e的区域与贝叶斯判定规则d(X)=e的区域间的界限可AB用下式求得f(X)=Kf(X)(2)AB式中K二hi/hi(3)BBAA一般地,由式(2)确定的两类判定面可以是任意复杂的,因为对密度没有约束,只是所有概率密度函数(PDF)都必须满足的那些条件,即它们处处为非负,是可积的,在全空间的积分等于1。同样的判定规则可适用于多类问题。使用式(2)的关键是根据训练模式估计PDF的能力。通常,先验概率为己知,或者可以准确地加以估计,损失函数需要主观估计。然而,如果将要划分类别的模式的概率密度未知,并且给出的是一组训练模式(训练样本),那么,提供未知的基础概率密度的唯一线索是这些样本。在Parz

6、en(1962)的经典论文中,他指出,只要基础的母体密度是连续的,类别的PDF估计器可以渐进地逼近基础的母体密度。3. 密度估计的一致性判别边界的准确度决定于所估计基础PDF的准确度。Parzen(1962)论述如何构造f(X)的一族估值,上厶八1p(X-Xf(X)=%一厂亠(4)nn人(人丿i=1其在连续PDF的所有点X上都是一致的。令X,X,X为恒等分布的独立随机变量,A1AiAn因为随机变量X的分布函数f(X)=Px<X是绝对连续的。关于权重函数(y)的Parzen条件是5)supIB(y)|<gy<+g其中,sup为上确界,式(4)中,I+gIb(y)Idy<g

7、glimIyb(y)I=0yTgI+gb(y)dy=1g6)7)8)选择X=X(n)作为n的函数,且219)10)lim九(n)=0nTglimn九(n)=gnTgParzen证明,在EIf(X)f(X)|2t0随nTg(11)n意义上,f(X)估值的均方值一致。一致性的这一定义,一般认为,当根据较大数据集估计时,预计误差变小,这是特别重要的,因为这意味着,真实分布可以按平滑方式近似。Murthy(1965,1966)放宽了分布f(X)绝对连续的假定,并指明,类别估计器仍然一致地估计连续分布F(X)所有点的密度,这里密度f(X)也是连续的。Cacoullos(1966)还扩展了Parzen的结

8、果,适用于多变量情况°Cacoullos(1966)中定理4.1指明如何扩展Parzen的结果,以在这种特殊情况下估计出多变量核为单变量核之积。在Gaussian核的特殊情况下,多变量估计可表达为1m乙expf(Xi=1(X-X5(X-X)A亠(12)2g2式中,i=模式号,m=训练模式总数,XAi=类别QA的第i训练模式,b二“平滑参数”P=度量空间的维数。请注意,f(X)简单地为中心位于每个训练样本的小的多变量Gaussian分布之和。然而,A这个和不限于Gaussian分布。实际上,可以近似任意平滑密度函数。图1表示出独立变量X为二维情况下,不同的平滑参数b值对f(X)的影响。

9、三种不同A的b值,各种情况使用相同的训练样本,据式(12)绘制出密度。较小的b值使得估计的母体密度函数对应于训练样本的位置具有不同的模式。较大的P值,如图1(b)所示,在各点间产生较大等级的内插。这里,靠近训练样本的X值,估计具有大约与给定样本相同的出现概率。更大的b值,如图1(c)所示,产生更大等级的内插。很大的b值使得估计的密度为Gaussian分布,而与真实基础分布无关。在“随着bTO和随着b极限条件”一节,讨论适当平滑值的选择。式(12)可以直接与式(1)表述的判定规则一起使用。为使用这些方程式执行模式识别任务,已编写了计算机程序,并就实际问题取得了良好结果。然而,为使用式(12)存在

10、2个固有的局限性:(a)检验过程中必须存储和使用整个训练集,和b)为划分未知点的类别所必需的计算量与训练集的大小成正比。在这种方法最先提出并应用于模式识别时(Meisel,1972,chap.6;Specht,1967a,1967b),这两条因素严重地限制了式(12)直接用于实时的或专门应用。必须使用近似方法替代之。后来,计算机存储器变成致密和足够便宜,从而使存储训练集不再成为阻碍,但是,串联计算机的计算时间仍然点是一个制约。由于具有强大并行计算能力的大型神经网络的出现,限制式(12)直接使用的第二个阻碍即将解除。4. 概率神经网络采用PDF非参数估计进行模式分类的并行模拟网络与用于其他训练算

11、法的前馈神经网络,它们之间有惊人的相似性(Specht,1988)。图2表示出输入模式X划分成2类的神经网络结构。c.Anevenlargervaueof.白一Asmallvalueofab.Alargervalueofct.图1不同值对根据样本估计的PDF的平滑影响ihjPUTOUTPUTUNlTSPAOErvJMIT客£LI話倔TIIMUNITS图2模式分类的结构图3模式单元在图2中,输入单元只是分配单元,把同样的输入值提供给所有模式单元。每个模式单元(图3作更详细表示)生成输入模式向量X与权向量W.的标量积Z.二XW.,然后,在把iii其激活水平输出到求和单元之前,对Zj进行非

12、线性运算。代替反向传播所通用的S型激活函数,这里采用的非线性运算是exp(Z-1)/b2。假定X和W均标准化成单位长度,这相当于使用(W-X)t(W-X)exp-ii22其形式同于式(12)。这样,标量积是在相互连接中自然完成的,后面是神经元激活函数(指数)。求和单元简单地把来自模式单元的输入相累加,该模式单元己对应于所选定训练模式的类别。输出或判定单元为2个输入神经元,如图4所示。这两个单产生二进制输出。它们有单一的变量权值C,13)kBBkkhlAkAk式中,S=来自A类的训练模式数,气=来自Bk类的训练模式数。图4输出单元请注意,C为先验概率比除以样本比并乘以损失比。任何问题,其均可与它

13、的先验概率成k比例地从类别A和B获得训练样本的数量,其变量权值C=-1/1。不能根据训练样本kBkAk的统计量、而只能根据判定的显著性来估计最终的比值。如果没有偏重判定的特殊理由,可简化为1(变换器)。训练网络的方法是:指定模式单元之一的权向量W,等于训练集内i每个X模式,然后,模式单元的输出连接到适当的求和单元。每个训练模式需要一个单独的神经元(模式单元)。正如图2所示,相同的模式单元按不同求和单元聚集,以在输出向量中提供附加的类别对和附加的二进码信息。5. 另外的激活函数尽管至此所有实验工作都使用式(12),但它不是可以应用的准一一致的估计器。表1列出f(X)=亠K(y)An入ppi=11

14、4)(15)(16)了Cacoullos(1966)和Parzen(1962)提出的其他估计器,那里和K为常数,以使pJK(y)dy=1pZ=X-W如前。ii当X和W都标准化成单位长度时,Z范围变化在一1至+1之间,且激活函数为表1所示ii形式之一。请注意,这里,所有估计器都表达成标量积,输入到激活函数,因为都包含y=-1/九J22X-乂人。后面将讨论非标量积形式。表1所示的全部Parzen窗口,连同式(1)的贝叶斯判定规则,应能得到逐渐达到贝叶斯最优的判定面。与神经网络相一致,唯一差别是模式单元内非线性激活函数的形式。这就使人们怀疑,精确形式的激活函数不是网络效能的关键。所有神经网络的普通单

15、元是:激活函数在Z=1处取最大值,或在输入模式X与模式单元储存的模式之间最相似的;当模式i变得不尽相似时,激活函数则降低;随着训练模式数n增大,整个曲线向Z=1直线靠近。i表1权函数及其等效的神经网络激活函数ACTIVATIONFUNCTION6. 当aTO和aT®时的限制条件业已表明(Specht,1967a),式(2)定义的判定界限,从aT®时超平面连续地变化到高度非线性边界,表示aTO时最近邻域分类器。CoverandHart(1967)详细研究了最近邻域判定规则。一般地,极限情况都不能提供两个分布的最佳分离。最近邻域的均化程度,其决定于训练样本的密度,比起基于单一最

16、近邻域的的判定,它提供更良好的普适性。本研究所提出的网络实际上类似于k最近邻域分类器。Specht(1966)就随着问题维数p和训练模式数n变化,如何选择平滑参数a值,做了相关讨伦。但是,业已发现,在实际问题中不难找到良好的值,并且,随着a的微小变化,错误分类比率不发生显著变化。Specht(1967b)叙述了心电图分类试验,其使用式(1)和(12)二类分类法,分成正常或异常。在那种情况下,249个模式用作训练,另外63个实例用作检验。每个模式均以46-维模式向量(但未标准化成单位长度)加以描述。图5表示出检验样本的正确分类百分率随平滑参数a值的变化。有几个重要计算值是明显的。在使用4和6之间

17、任一a值情况下,均可获得最高诊断精度;曲线的峰值有足够宽度,通过实验寻找良好a值并不难。而且,在3至10的范围内的任何a值,得到的结果仅略次于最佳曲线段。结果是:对于同一检验集,a从0至®的所有值得出的诊断结果显著优于心脏病专家诊断的结果。图5检验样本的正确分类百分率随平滑参数a值的变化在所提出的方法中,唯一要调整的参数是平滑参数。因为它控制指数激活函数的标度系数,故对于每个模式单元,它的值应相同。7 相联存储器在人类思维过程中,通常以不同的方式,把对一目的积累的知识应用于不同目的。类似地,在这种情况下,如果已知判定类别,但不知道全部输入变量,那么,可以把己知输入变量输入到正确类别的

18、网络上,并改变未知输入变量,以使网络的输出最大化。这些值代表与己知输入最可能相关的值。如果只一个参数未知,通过对所有可能参数值的滑行(ramping),以及选择使PDF最大的值,可以求得那个参数的最可能值。如果几个参数未知,这种方法不实用。在这种情况下,人们对寻找到PDF的最接近模型表示满意。使用最速上升方法可以达此目的。形成联想记忆的较普通方法是要避免输入与输出之间的区别。通过X向量和输出向量连结成一个更长的测量向量X',可以使用单一概率神经网络寻求总体PDF,f(X)。这个PDF在不同位置可能有许多模式集聚在超球体上。使用这个网络作为联想记忆,8 相对于反向传播,具有速度优势PNN

19、范式的基本优点之一是,针对求解反向传播增加的适应时间占总计算时间的很大部分的问题,比众所周知的反向传播范式快得多(Rumelhart,1986,第8章)。在海军海洋系统中心(NOSC)提供的船体与发射体相互关系问题中,根据difficult,非线性边界,多区域,重叠发射体报告参数数据集,PNN精确地识别出船体。MarchetteandPriebe(1987)阐述了使用反向传播和常规技术分类的问题和结果0Maloney(1988)叙述了根据相同的数据,使用PNN的结果。数据集包含113发射体报告,每个报告有3个连续输入参数。输出层由6个二进制输出组成,指示6个可能的船体分类。这些数据集较小,但是

20、,与许多实际问题一样,更多数据得不到或要获得花费代价太高。为了充分利用现有数据,既(groupsdecidedtoholdoutonereport)训练其余112个报告的网络,又使用训练过的网络来为(holdout)模式分类。113报告的每一个再重复这一过程。MarchetteandPriebe(1987)估计,为按计划执行实验,在DigtalEquipmentCorp.VAX8650上连续运行时间超过3周。因为他们没有VAX需要的那么长时间,他们减少了隐含层单元的数量,直至在本周期间完成。另一方面,Maloney(1988)在IBMPC/AT(8MHz)上使用PNN版本,并在9秒钟内运行全部

21、113个网络(其中大部分在在屏幕上写结果上)。没有看考虑VAX的I/O和较高速度,这就相当于速度改进200,000倍!分类准确度大体相当于反向传播产生的82%准确度,而PNN准确度85%(数据分布是一致的,以致于90%为最高的准确度,海军海洋系统中心(NOSC)使用精心设计的专门目的的分类器才能达到)。我们以为,如果允许运行3周,反向传播也能达到与PNN相同的准确度。据Maloney报告,通过分立的PNN网络划分子问题的类别,PNN分类的准确度提高到89%。作者使用PC/AT,对同样数据库运行PNN。通过把显示输出减化战113网络的分类结果概要,需要0.7秒重现原准确度85%。与运行一同的反向

22、传播相比,其准确度82%,这一结果具有略高的准确度,又快200,000倍。9 PNN不限于决策还可以使用输出f(X)和f(X)来估计后验概率,或除了输出单元的二元判定以外的其AB他目的。我们发现的最重要应用是估计X归属于类别A的后验概率PAIX。如果类别A和B为互斥事件,且h+h=1,根据贝叶斯定理,我们有AB1hf(X)pAHamming距离可以量训存储的训练向量的特征值与要分类的模式特征值之差的绝对值。注hf(X);hf(X)(17)AABB还有,的最大化是X附近训练样本密度的测度,并可用来指示二元判定的可靠性。10使用f(X)其他估计器的概率神经网络较早的陈述只论及简化成标量积形式的多变

23、量估计器,Cacoullos(1966)定理4.1在Parzen(1962)提出的其他单变量核的进一步应用,得到以下多变量估计器(其为单变量核之积):1n(2九)p工1i=1当所有1Xj-yf(X)=Af(X)=Ai=1j=1(2兀/2九1-e-1i=1j=1当所有1J-XAjAj九2I<X18)(19)1n(2兀)p/2九p工expi=1工(X-X)jAijj=12九220)(X)=1n(2九)p加"e平-/九i=1J=1(X)=f(X)A1n(2九)p工expi=1-另IX-XI九jAijJ=121)G九)p卩i=1j=11n(2兀九)ppi=1j=11+jAij九2jAi

24、J2九2sinX-XjAIJ2九22)23)式(20)简单地为式(12)的另一种形式的标量积估计器。没有简化成标量积的形式则需要另一种网络结构。完全可以按现状,通过计算实现它们。并不曾证明,哪个估计器是好的并应始终使用。因为所有估计器都收敛于正确的基础分布,故可根据计算的简单性或与生物神经网络计算模型的相似性做出选择。它们当中,从计算简单的观点看,式(21)(连同式(1)至(3)特别有吸引力。当测量向量X局限于二进制测量时,式(21)简化为测定输入向量与存储问量之间的Hamming距离,然后使用指数激活函数。现在,它本身提出一个最终的而又非常有用的变异。如果按二进制(1或1)形式表达输入变量,

25、所有输入向量自动具有同样长度,并不必标准化。还可以使用这些模式,以及图2至4的网络。在这种情况下,Zi的范围为十p至一p。通过激活函数g(Z)=exp(Zp)/pc1通过(nXp)比特长度的特征向量上,一个大的Hamming距离计算,可以操作式(21)所需要的P特性上整个求和。的微小改变,可以调节这一变化。ii在不舍弃贝叶斯渐近最优化的网络最佳属性情况下,允许表1所示激活函数形状的变化。即便当输入的测量值原本为连续的,最好是把它们变换成二进制表示,因为有些适用于大规模平行硬件的技术,本身适合于Hamming距离计算。连续观测值可以按二进制形式,以编码方案(有时称之“温度计编码”表示,其中每个特点以n比特二进制编码表示,二进制编码即一系列+1,继之以一系列一1(Widrowetai.1963)。以+1的和表示特征的值。这个表面上无效的编码有以下优点:11 讨论运行上,概率神经网络的最重要优点是训练容易且瞬时完成。可以实时地使用它,因为刚一观察完代表每个类别的一个模式,网络便开始推广到新模式。当观察附加模式并存储入网络时,普适性将提高,判定边界可能变得更复杂。PNN的其他优

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论