概率神经网络讲解_第1页
概率神经网络讲解_第2页
概率神经网络讲解_第3页
概率神经网络讲解_第4页
概率神经网络讲解_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Donald Probabilistic Neural Networks Neural Networks, 1990 概率神经网络 摘要:以指数函数替代神经网络中常用的S形激活函数,进而构造岀能够计算非线 性判别边界的概率神经网络(PNN),该判过边界接近于贝叶斯最佳判泄而。还讨论了拥有 类似性质的英他激活函数。所提出的这种4层神经网络能够把任何输入模式映射到多个类 别。如果能取得新数据的话,可以使用新数据实时地修改判定边界,并可以使用完全并行 运行的人工“神经元”付诸实现。还为估计类别的岀现概率和可靠性,以及做判別作好准 备。对于反向传播增加的适应时间占总汁算时间的重大部分的问题,这种方法显

2、示岀非常 快速的优点。PNN范式比反向传播快200, 000倍。 关键词:神经网格,概率密度函数,并行处理机,“神经元”,模式识别,Parzen窗 口,贝叶斯策略,相联存储器 1.动机 神经网络常用来依据向实例学习进行模式分类。不同的神经网格范式(paradigm)使 用不同的学习规则,但都以某种方式,根据一组训练样本确定模式的统计量,然后根据这 些统计量进行新模式分类。 通用方法如反向传播,使用探试法获得基础的类别统汁量。探试法通常包含对系统参 数的许多小的改进,逐渐提髙系统的性能。除了训练需要长的计算时间外,还表明,反向 传播增加的适应近似法对错误的最小值很敏感。为了改进这种方法,找到了基

3、于己确立的 统计原理的分类方法。 可以表明,尽管最终得到的网络在结构上类似于反向传播,且其主要区别在于以统计方 法推导的激活函数替代S形激活函数,但这个网络具有的特点是:在某些易满足的条件下, 以PNN实现的判别边界渐进地逼近贝叶斯最佳判定而。 为了了解PNN范式的基础,通常从贝叶斯判定策略以及概率密度函数的非参数估计的 讨论开始。之后可以表明,这种统计方法如何映射到前惯神经网络结构,网络结构是以许 多简单处理器(神经元)代表的,所有处理器都是并行运行。 2. 模式分类的贝叶斯判定策略 用于模式分类的判泄规则或策略的公认标准是:在某种意义上,使“预期风险”最小。 这样的策略称之“贝叶斯策略”,

4、并适用于包含许多类别的问题。 现在考察两类的情况,其中,已知类别状态Specht, 1967a, 1967b),这两条因素严重地限制了式(12)直接用于实时 的或专门应用。必须使用近似方法替代之。后来,计算机存储器变成致密和足够便宜,从 而使存储训练集不再成为阻碍,但是,串联计算机的计算时间仍然点是一个制约。由于具 有强大并行讣算能力的大型神经网络的出现,限制式(12)直接使用的第二个阻碍即将解 除。 4. 概率神经网络 采用PDF非参数估计进行模式分类的并行模拟网络与用于其他训练算法的前馈神经网 络,它们之间有惊人的相似性(Specht, 1988)。图2表示出输入模式X划分成2类的神经 网

5、络结构。 a. A small value of o. b A larger value of o. g. An even larger value of o. 图1不同cr值对根据样本估计的PDF的平滑影响 2 UMIIS A. PAFTEFW UNITS UNITS GXJ7PUT UMITS 图2模式分类的结构 图3模式单元 在图2中,输入单元只是分配单元,把同样的输入值提供给所有模式单元。每个模式 单元(图3作更详细表示)生成输入模式向量X与权向量虬的标量积Z.= X-W.然后, 在把英激活水平输岀到求和单元之前,对乙进行非线性运算。代替反向传播所通用的S型 激活函数,这里采用的非线性

6、运算是exp(乙-l)/b讣假泄X和W均标准化成单位长度, 这相当于使用 (比X)(叱一 X) exp 一 其形式同于式(12)。这样,标量积是在相互连接中自然完成的,后而是神经元激活函 数(指数)。 求和单元简单地把来自模式单元的输入相累加,该模式单元己对应于所选左训练模式 的类别。 输出或判泄单元为2个输入神经元,如图4所示。这两个单产生二进制输出。它们有 单一的变量权值 G=_込么( 式中,人二来自凡类的训练模式数, 皆来自5类的训练模式数。 图4输出单元 请注意,q为先验概率比除以样本比并乘以损失比。任何问题,英均可与它的先验概 率成比例地从类别A和B获得训练样本的数疑,其变量权值C*

7、 = -lHi /*。不能根拯训练 样本的统计量、而只能根拯判泄的显着性来估计最终的比值。如果没有偏重判泄的特殊理 由,可简化为一 1 (变换器)。 训练网络的方法是:指定模式单元之一的权向量巴,等于训练 集内每个X模式,然后,模式单元的输出连接到适当的求和单元。 每个训练模式需要一个单独的神经元(模式单元)。正如图2所示, 相同的模式单元按不同求和单元聚集,以在输出向量中提供附加的 类别对和附加的二进码信息。 5. 另外的激活函数 尽管至此所有实验工作都使用式(12),但它不是可以应用的准一一致的估计器。表1 列岀T Cacoullos (1966)和Parzen (1962)提出的其他估计

8、器,那里 (14) 1 “ 办(X)=而K略呛) (15) (16) 和Kp为常数,以使 Klco(y)dy = 乙=x“ 如前。 当X和比都标准化成单位长度时,Z,范圉变化在一1至+ 1之间,且激活函数为表1 所示形式之一。请注意,这里,所有估il器都表达成标量积,输入到激活函数,因为都包 含y = -l/2j2-2XX。后而将讨论非标量积形式。 表1所示的全部Parzen窗口,连同式(1)的贝叶斯判左规则,应能得到逐渐达到贝叶斯最优的判左而。与神经网络相一致,唯一差别是模式单元内非线性激活函数的形式。 这就使人们怀疑,精确形式的激活函数不是网络效能的关键。所有神经网络的普通单元是: 激活函

9、数在Z尸1处取最大值,或在输入模式X与模式单元储存的模式之间最相似的:当模 式变得不尽相似时,激活函数则降低;随着训练模式数n增大,整个曲线向乙二1直线靠近。 表1权函数及其等效的神经网络激活函数 W (y) ACTIVATION FUNCTIONi o. y 1 1 1 - y. y M 1 0.y = i i ;./ 1 e-1,2yz (丿 Q e-lvl j n 2I 1 1 M & Z. (sin(y/2)2 1 u a 右 6. 当 0和cr 8时的限制条件 业已表明(Specht, 1967a),式(2)定义的判定界限,从Q十8时超平面连续地变化 到高度非线性边界,表示b-O时最

10、近邻域分类器。Cover and Hart (1967)详细研究了 最近邻域判定规则。 一般地,极限情况都不能提供两个分布的最佳分离。最近邻域的均化程度,其决左于 训练样本的密度,比起基于单一最近邻域的的判定,它提供更良好的普适性。本研究所提 出的网络实际上类似于k一最近邻域分类器。 Specht (1966)就随着问题维数p和训练模式数n变化,如何选择平滑参数cr值,做 了相关讨伦。但是,业已发现,在实际问题中不难找到良好的7值,并且,随着o的微小 变化,错误分类比率不发生显着变化。 Specht (1967b)叙述了心电图分类试验,其使用式(1)和(12)二类分类法,分成 正常或异常。在那

11、种情况下,249个模式用作训练,另外63个实例用作检验。每个模式均 以46-维模式向量(但未标准化成单位长度)加以描述。图5表示出检验样本的正确分类 百分率随平滑参数cr值的变化。有几个重要计算值是明显的。在使用4和6之间任一er值 情况下,均可获得最高诊断精度;曲线的峰值有足够宽度,通过实验寻找良好o值并不难。 而且,在3至10的范囤内的任何cr值,得到的结果仅略次于最佳曲线段。结果是:对于 同一检验集,a从0至8的所有值得岀的诊断结果显着优于心脏病专家诊断的结果。 槪 0 血sfe出 图 5检验 样本的 正确分 类百分 率随平 滑参数 (T值 的变化 在 所提岀 的方法 中,唯 一要调 整

12、的参数是平滑参数因为它控制指数激活函数的标度系数,故对于每个模式单元,它 的值应相同。 7相联存储器 在人类思维过程中,通常以不同的方式,把对一目的积累的知识应用于不同目的。类 似地,在这种情况下,如果已知判左类别,但不知道全部输入变疑,那么,可以把己知输 入变疑输入到正确类别的网络上,并改变未知输入变呈:,以使网络的输出最大化。这些值 代表与己知输入最可能相关的值。如果只一个参数未知,通过对所有可能参数值的滑行 (ramping),以及选择使PDF最大的值,可以求得那个参数的最可能值。如果几个参数未 知,这种方法不实用。在这种情况下,人们对寻找到PDF的最接近模型表示满意。使用最 速上升方法

13、可以达此目的。 形成联想记忆的较普通方法是要避免输入与输出之间的区别。通过X向量和输岀向量 连结成一个更长的测量向量X ,可以使用单一概率神经网络寻求总体PDF, 这个 PDF在不同位宜可能有许多模式集聚在超球体上。使用这个网络作为联想记忆, 8相对于反向传播,具有速度优势 PNN范式的基本优点之一是,针对求解反向传播增加的适应时间占总计算时间的很大 部分的问题,比众所周知的反向传播范式快得多(Rumelhart, 1986,第8章)。在海军海 洋系统中心(NOSC)提供的船体与发射体相互关系问题中,根据difficult,非线性边界, 多区域,重叠发射体报告参数数据集,PNN精确地识别岀船体

14、。 Marchette and Priebe (1987)阐述了使用反向传播和常规技术分类的问题和结果。 Maloney (1988)叙述了根据相同的数据,使用PNN的结果。 数据集包含113发射体报告,每个报告有3个连续输入参数。输出层由6个二进制输 出组成,指示6个可能的船体分类。这些数据集较小,但是,与许多实际问题一样,更多 数据得不到或要获得花费代价太高。为了充分利用现有数据,既(groups decided to hold out one report)训练其余112个报告的网络,又使用训练过的网络来为(holdout)模式 分类。113报告的每一个再重复这一过程。Marchette

15、 and Priebe (1987)估计,为按计 划执行实验,在Digtal Equipment Corp. VAX8650上连续运行时间超过3周。因为他们没 有VAX需要的那么长时间,他们减少了隐含层单元的数量,直至在本周期间完成。另一方 面,Maloney (1988)在IBM PC/AT (8MHz)上使用PNN版本,并在9秒钟内运行全部113 个网络(苴中大部分在在屏幕上写结果上)。没有看考虑VAX的I/O和较髙速度,这就相当 于速度改进200, 000倍! 分类准确度大体相当于反向传播产生的82%准确度,而PNN准确度85% (数据分布是一 致的,以致于90%为最高的准确度,海军海洋

16、系统中心(N0SC)使用精心设计的专门目的 的分类器才能达到)。我们以为,如果允许运行3周,反向传播也能达到与PNN相同的准确 度。据Maloney报告,通过分立的PNN网络划分子问题的类别,PNN分类的准确度提高到 89% o 作者使用PC/AT,对同样数据库运行PNN。通过把显示输出减化战113网络的分类结果 概要,需要秒重现原准确度85%。与运行一同的反向传播相比,其准确度82%,这一结果具 有略高的准确度,又快200, 000倍。 9 PNN不限于决策 还可以使用输出办(X)和九(X)来估计后验概率,或除了输岀单元的二元判泄以外 的其他目的。我们发现的最重要应用是估计X归属于类别A的后脸概率PAX.如果类 别A和B为互斥事件,且仏+心二1,根据贝叶斯农理,我们有 pAX = 也(X) 饥(x)+/(x) (17) 还有,的最大化是X附近训练样本密度的测度,并可用来指示二元判泄的可靠性。 10使用f (X)其他佔汁器的概率神经网络 较早的陈述只论及简化成标量积形式的多变量估计器,Cacoullos ( 1966)泄理在 Parzen (1962)提岀的英他单变量核的进一步应用,得到以下多变量估计器(其为单变量 核之积): 办(X) = _1 n(22) n r-1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论