基于深度置信网的络的快速学习方法_第1页
基于深度置信网的络的快速学习方法_第2页
基于深度置信网的络的快速学习方法_第3页
基于深度置信网的络的快速学习方法_第4页
基于深度置信网的络的快速学习方法_第5页
免费预览已结束,剩余17页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、AFastLearningAlgorithmforDeepBeliefNets基于深度置信网的快速学习算法杰弗里e辛顿西蒙O计算机科学、多伦多大学、加拿大多伦多m53g4Yee-WhyeT.sg新加坡国立大学计算机科学系,新加坡117543我们介绍了如何使用“complementarypriors”去减少解释在含有许多隐藏的层的紧密连接置信网方面推理比较困难的影响。利用先验互补,倘若最高的两侧形成一个无向联想记忆,我们同时可以得到这样一个含有一个层次的快速贪心

2、算法。快速贪心算法被用来初始化一个慢学习的过程,它通过使用唤醒睡眠算法的对比版本微调权重。微调后,含有三个隐藏层的网络形成一个很好的关于手写数字图像和标签的联合分布的生成模型。相对于最好的判别式算法而言,生成模型给出了更好的数字分类。使用顶层联想记忆的在自由能量景观的长峡谷来对数字谎言的低维流形进行建模,便于我们探讨这些峡谷,通过使用直接连接的方式展示已经形成的联想记忆。1引言学习紧密连接且含有多个隐藏层定向的信念网的过程是不易的,因为当给定一个数据向量时,它是很难推断隐藏活动的条件分布。对于真实的条件分布,变分方法使用简单的近似值,但近似值可能会很差,特别是在先验假设独立的最深的隐藏层。同时

3、,变量的学习还要求所有的参数在一起学习,这使得学习时间尺度随着参数的数量增加而变得越差。我们描述了一个模型,其中顶部的两个隐含层形成一个无向联想记忆(见图1),其余的隐藏层形成一个有向无环图,将联想记忆的表示转化为可观测变量,比如一个图像的像素。这种混合模型具有一些比较吸引人的特征:2000top-levelunits|1。i日b巳iLimits500units仃讣0500units这可能是另一种感知器的最高级vI28x28pixelimage图i:这种网络用于数字图像和数字标签的联合分布的建模。在这篇文章中,每个训练实例包含一个图像和一个明确的类标签,然而进展中的工作表明,相同的学习算法可以

4、被使用,如果“标签”是由多层通路的输入的光谱图从多个不同的发言者分离数字所替换。则这种网络学习产生包括图像和相同数字类的光谱图对。快速贪心学习算法,可以快速地找到一组比较好的参数,即使对于含有无数的参数和许多隐藏的层的深度网络。学习算法是无监督的,但是可以通过学习一个模型被应用于标记数据,产生标签和数据模型。微调算法是一个很好地生成模型,在又MNIST手写数字数据集处理方面优于判别方法。生成模型在深度隐藏层方面更容易去解释分布式表征方法。推理过程要求形成一个快速而且准确的感知器。学习算法是局部的。突触强度的调整仅取决于突触前和突触后神经元的状态。沟通是简单的。神经元只需要与它们的随机的二进制状

5、态进行沟通。第2节介绍了先验的“互补”的思想,取消“解释”的现象,使得在定向模型中推理变得比较困难。我们给出了一个关于带有先验互补的定向置信网的例子。第3节介绍了受限玻尔兹曼机与带有权重的无限定向网络之间的等价性第4节介绍了一种用于每次在单层构造多层定向网络的快速贪心学习算法。利用变分约束,它显示了当每增加一个新的层时,整体生成模型提高了。在推进重复使用相同的“弱”的学习者方面,贪心算法有些相似之处。但是不是重置每个数据向量去确保下一步学习到新的一些东西。它只是表示它。“弱”的学习者是用来构造深度定向网,它本身是一个无向图模型。第5部分介绍了如何使用自上而下的算法微调快速贪心算法的方式产生权重

6、。眠算法进行对比,它不会引起导致唤醒睡眠算法去学习差的识别权重这样的题。第6节介绍了手写体数字在MNIST数据集中,含有三个隐含层和大约的网络的模式识别的性能。如果没有利用几何的相关知识和特殊的数据预处理,在与唤醒睡“平均模式”问1700000个权重10000个数字的官方测试集中,该网络的泛化性能有1.25%的错误率。当对于这项特殊的应用没有人为的改造时,它比可以错误率达到1.5%的BP网络要好得多。对于同一个任务而言,它也比Decoste和Schoelkopf(2002)提出的支持向量机的错误率达到1.4%要稍微好点。最后,第7节当没有运行被约束的可视化输入时,该网络将会发生怎么的变化。该网

7、络是一个完整的生成模型,所以便于我们可以从高层表示中简单地生成一个图像,而容易地理解它的思想,本文,我们考虑了由随机二进制变量组成的网络,但是这种思想可以被推广应用到其他的模型中,该模型中变量的变量的对数概率的是一个关于它直接连接的邻居状态的加性函数。图2:一个简单的逻辑信念网包含两个独立的,仅有的因素。我们观察房子震动的时这两个因素是高度不相关的。地震节点偏置-10意味着在没有任何观察的情况下,这个节点较比往常有E10倍可能发生地震。如果地震节点变动而卡车节点不变动,则下了一跳节点总投入为0,这意味着有一个机会存在。这是对于我们观察房子震动的可能性为e-20的一个更好的解释。它适用隐藏因素都

8、不活跃得情况。但是用两个隐藏因素与解释我们观察的结果是没有意义的,因为他们两个加在一起发生的可能性大小为E10*E10=e-20。当地震节点变化时,它“解释了”对于汽车节点变化的证据。2先验互补解释这一现象在(如图2所示)进行推理定向信念网时比较难。在紧密连通网络中,隐藏变量的后验分布比较难理解,除了少数特殊情况下,如混合模型或带有高斯噪声的线性模型。使用马尔可夫链蒙特卡罗方法(尼尔,1992)可以从后验样本中取样,但这样比较浪费时间。变分方法(尼尔和Hinton,1998)可以粗略的估计更容易处理的后验分布,也可以用来改善对训练数据的对数概率约束。值得欣慰的是,学习是保证提高变分约束,甚至隐

9、藏状态的推理是错误的,但它会找到一种更好的方式去完全消除解释,即使在隐藏变量与可见变量密切相关的模型中。它是普遍认为是不可能的。一个逻辑信念网络(尼尔,1992)是由随机的二进制单元组成的。当网络产生数据时,打开的单元i的概率是它的直接前驱j和定向连接的前驱的权重Wij的一个逻辑函数:P&=I)=-fJ不T,(2.1)其bi是单元i的偏置。当模型产生数据时,如果逻辑信念网仅含有一个隐含层,那么隐藏变量的先验分布是成阶乘关系的,因为当模型用于生成数据时,它们的二进制状态是相互独立的。创建非独立性的后验分布来自数据的似然函数。也许我们可以通过使用特殊的隐藏层去创建一个“互补”的先验,在似然函数中它

10、们完全不相关,来在第一隐藏层消除解释。然后,当似然函数乘以先验时,我们会得到一个精确的阶乘的后验。先验互补的存在不是显而易见的,而图3介绍了一个关于带有权重的逻辑信念网的简单例子,该网络中每一个隐含层的先验都是互补的。(附录A给出了在先验互补的条件下更一般的条件的处理)。使用绑定的权重去构造先验互补的方式可能仅仅只是一种方式,这方面在构造定向模型和非定向模型时等同的。然而,正如我们所观察到的,它会产生一个新的非常有效的算法,该算法的主要思想是通过较高层的权重然后逐层分解每层的权重。2.1带有权重的无限定向模型我们可以从图3的无限定向网络中产生数据,通过它的无限深度隐藏层的随机结构开始。然后根据

11、自上而下的算法执行自上而下的“祖先”过程,在这个过程中,每一层的每个变量是从伯努利分布中选择出来的,伯努利分布是由以上各层的活跃父节点获取输入值自上而下决定的。在这方面,它同其他定向无环信念网相似。然而,不同其他定向网络之处在于,我们可以在所有的隐藏层上的真实的后验分布取样,通过可见单元上的数据向量开始,然后轮流在每一个隐藏层上利用转置权矩阵去推断阶层分布。在每一个隐藏层,我们在计算每层上的阶层因子的后验之前从阶层后验取样。附录A介绍了一个无偏样本的程序。etc.vs3IHi此口卬|Vi.W寺口建H.力;17.中图3:带有权重的无限逻辑信念网。向下的箭头代表生成模型。向上的箭头不是模型的一部分

12、。他们表示当一个数据向量在V0上添加数据时,该网络中每一个隐藏层的后验分布中用于推断样本。因为之前每层的先验互补在推论后分布是阶乘的。因为我们可以从真实的后验分布取样,让我们计算数据的对数概率的导数。我们可以计算从H0层的单元j到V0层的单元i的生成权重Wij的导数。在逻辑信念网络中,对于单个的数据向量V0的最大似然估计规则为:3logp(V0)(2.2)其中表示平均采样状态,如果被采样的隐藏状态的可见向量被随机的重建,v0表示单元i被打开时的概率。从第一隐藏层H0的取样的二进制状态计算第二隐藏层V1的后验分布,该过程和重建数据的过程是相同的。所以v1是概率V0的伯努利随机变量的样本。因此它的

13、学习规则可以写为:(23)从公式2.2推导2.3的过程中,V1在hj0上的依赖是毫无疑问的。因为V1是在h0条件下的期望。由于权重是可以被复制的,生成权重的全导数是所有两两对层权重的导数之和:则H-喟+付娉-剃+色川-硝(24)OU-fi除了第一个和最后一个取消,所有成对的产品遵循玻尔兹曼机的学习公式3.1计算规则。注:1代过程的收敛的马尔可夫链的平稳分布,所以我们需要在一个层,它需要链时间比较深的开始达到平衡。2这是相同的作为唤醒睡眠算法的推理过程(Hinton等人。,1995)但在这封信中没有描述的变分近似模型是因为推理过程给出了无偏样本。3受限玻尔兹曼机的对比散度学习图3的无限的有向网络

14、相当于一个受限玻尔兹曼机(RBM)可能不会容易明显的理解。RBM的每个隐藏单元一个单层都互不相连并且与可见单元的每个层都有无向的堆成的连接。从RBM产生数据,我们可以从这些层中的一层的随机状态开始,然后利用吉布斯交替执行采样。每一层的所有单元的更新都是并行的,并给出了其他层的单元的现行状态。所有的单位在一层并行更新了单位的现状在另一层,重复执行直到系统抽样达到平衡分布。注意,这和从带有权重的无限信念网络中生成数据的过程是完全相同的。在一个RBM中执行在一个以最大似然法的学习,我们可以利用差异的相关性。在可见层i和隐藏层j中的每个权重Wij,当在可见层和隐藏层中的一个数据向量从它们的条件分布中取

15、样,并且是阶乘的,我们可以估测它的相关性vh:。然后,利用交流吉布斯采样,如图4所我们运行的马尔可夫链,直到达到它的平稳分布和测量出相关性V迂h:。训练数据的对数概率的梯度,则为:(3.1)logp(v0)t=infinityt=0t=1t=21=infinity图4:这是一个马尔可夫链,使用吉布斯交替采样。在吉布斯采样的一个完整步骤中,顶层的隐单元都是并行更新的,通过利用公式2.1输入顶层可见单元的现行状态得到的值。然后可见单元都并行更新,给出目前的隐藏状态。和数据向量相同,马尔可夫链通过设置可见单元的二进制状态的过程进行初始化。在隐藏单元第一次更新后,可见单元和隐藏单元的活动相关性可以被测

16、量。在马尔可夫链的末尾再一次执行。这两个相关性的差异提供了更新连接的权重的学习方法。对于带有权重的无限逻辑信念网,这种学习规则等同于最大似然学习规则。吉布斯取样的每一步都等同于计算逻辑信念网络的一层的精确的后验分布。最大化数据的对数概率等同于最小化数据P0和由模型电定义的平衡分布的KL散度KL(P0|Pq)。在对比散度学习的过程中(辛顿,2002),在第二个相关性之前我们运行n步骤的马尔可夫链。这相当于不考虑无限网的高层的导数。这些被忽略的导数之和是层Vn的后验分布的对数概率的导数,也是在层Vn和由模型p:定义的平衡分布的KL散度。所以两个KL散度的对比散度学习最小化差异为:KL(PP)-KL

17、(PPY(3.2)忽略采样噪声,这种差异是积极的。因为吉布斯抽样用来从P0产生Pg,而且吉布斯总是降低有平衡分布的Kullback-Leibler散度。我们还注意到,用取决于当前模型的参数,并且随着参数的变化,用的变化被对比散度学习忽略。这个问题不会随着P0而出现,因为训练数据不依赖于参数。极大似然和对比散度学习规则的关系的经验调查可以在Carreira-PerpinanandHinton(2005)被发现。对比散度学习在受限玻尔兹曼机中的应用是非常有效的(Mayraz&Hinton,2001)。使用实值的单元和不同的取样方案的变化(Variations)在Teh,Welling,Osinde

18、ro,andHinton(2003)中有描述。并且已经相当地成功的应用于地形图的生成模型(Welling,Hinton,&Osindero,2003)、自然图像去噪(Roth&Black,2005)或生物细胞图像(Ningetal.,2005)。Marks&movellan(2001)描述了一种使用对比散度去研究因子分析的方式。Welling,Rosen-Zvi,andHinton(2005)介绍了逻辑,二进制可见单元的网络和线性,高斯隐单元可以用于快速文件检索。然而,它看起来似乎是以高的代价带来了效率:但是当应用在具有明显路径时,对比散度学习不能适应于在每一层带有不同权重的深度多层网络。因为

19、这些网络花费太多的时间才能达到含有一个数据向量的均衡条件。我们现在介绍在RBM矫口带有权重的无限定向网络之间的等价性,为不含有权重的多层网络提出一个有效的学习算法。注释:每个全步骤都是由给定v更新h,然后在给定h更新v。4.基于转换表示的贪心学习算法学习复杂模型的有效方式就是结合一组较简单的被顺序学习的模型。为了迫使顺序模型学习的东西不同于之前模型的内容,在每一个模型被学习之后,数据需要做一些调整。为了促进每一个顺序模型上的加权数据被训练,需要强调先前的模型时错误的。在主要分量分析的一个版本中,模型化方向的方差被删除,因此迫使下一个建模方向依赖于正交的子空间(Sanger,1989)。在投影寻

20、踪(弗里德曼和Stuetzle,1981),通过在数据空间中非线性扭曲把数据转换成一个方向,然后在那个方向删除所有的非高斯分布。这种思想支持我们的贪心算法去允许每个序列模型接受数据的不同表示形式。该模型对输入的向量进行非线性变换,输出向量将作为序列中下一个模型的输入。跖丁仃。场H0踞图5:混合网络。前两层具有无向连接形成联想记忆。下面的层是有向,自上而下的生成连接,它可应用于形成一个图像的联想记忆的状态。以下各层也有定向、自底向上的认知连接,可用于在一层从二进制活动推断阶乘表示。在贪心初始学习过程中,认知连接与生成连接是相关联的。图5显示了一个多层生成模型,其上的前两层通过无向连接交互,而其他

21、所有的连接都是有向的。顶部的无向连接相当于许多带有权重的无限高层。中间没有夹层连接,可以简化分析的过程并且所有层都含有相同的单元数。通过假设较高层之间的参数用于构建先验互补,对于参数W学习价值是可取的(尽管不是最优的)。这等同于所有的权矩阵是等同的。在这种假设下学习Wo的任务归结于学习一个RBM,尽管这仍然很困难,但是通过最小化对比散度学习可以快速获取较好的近似解。一旦W0被学习,在第一隐藏层数据可以通过WT映射去创建较高级的“数据”。如果RBM是一个完美的原始数据模型,那么较高级别的“数据”已被较高级的权矩阵建模。然而,一般来说RBM无法对源数据进行完美的建模,我们可以使用下面的贪婪算法获得

22、更好的生成模型:1 .了解W0假设所有的权重矩阵是并列的。2 .冻结W)和致力于使用WT去推断在第一隐藏层上的变量状态的阶乘近似后验分布。即使后面在较高级的权重发生改变,意味着这种推理方法不再是正确的。3 .保持较高的权重矩阵彼此并列,但是当学习通过使用WT转化源数据生成较高级“数据”的一个RBM模型时,需要从W)释放。如果这种贪心算法改变更高层次的权矩阵,它保证提高生成模型。正如NealandHinton(1998)所介绍的,在多层生成模型下,单个数据向量V0的负的对数概率受约束于自由能量的变化,它是在近似分布情况下Q(h|v0)的期望能量,减去分布的嫡。对于有向模型来说,这种配置V,h。的

23、能量是由下式给出:E(v,h)=-log跃h。)十Lgp(v、h。),(41)所以约束为:hgp“)Q(hn|v0)luSp(hn)+logp(v0|h0)allhu-C2(h|v)logqMH),(4.2)dih其中h0是第一隐层单元的二进制配置,P(h0)是当前模式下h0的先验概率(即由H0上的权重定义的),并且Q(.|v)是第一隐藏层的二进制配置上的任何概率分布。当且仅当Q(,|v)是真实的后验分布,这种约束才是等价的。当所有的权重矩阵是捆绑在一起的,H0上的阶乘分布通过在一个数据向量上应用W0T产生的,是真实的后验分布。所以在贪心算法的第二步,对数P(v)等价于约束,步骤2冻结Q(,|

24、v)和P(v|h0),并与这些元素都是固定的,约束的导数等同于下式的导数Q(hO|v)logp0i%(43)allM所以最大化的更高层次的权重的约束,正是相当于最大化数据集的对数概率,h0发生的概率为Q(h|v0卜如果约束变得更加紧密,对数P(v0)可能下降,尽管它的下界增加,但是在贪心算法的第二步对数P(v)不会低于它自己的价值,因为在这个点上的约束是紧密的而且总是增加的。贪心算法可以递归地应用。所以,如果我们用全最大似然的玻尔兹曼机学习算法去学习每个权重集合。然后我们从以上的权重分解集合的最底层。我们可以一次保证学习一层的权重,从来不会减少在模型下数据的对数概率的约束。实际上,我们用对比散

25、度学习取代最大似然玻尔兹曼机,因为它的效率较高而且快速。使用对比散度学习保证会无效,但是如果我们有足够的耐心学习每一层,我们需要知道额外的其他层确保去改善未完善的模型。为了保证生成的模型是由贪婪地学习更多的层所改善的,它是方便的考虑模型中的所有层是相同大小的,以便较高层的权重在被从以下层分解之前可以初始化为所学的价值。然而,相同的贪心算法可以应用甚至对于层的大小不相同的情况下。5自上而下算法的反向拟合一次学习单层的权矩阵是有效的但不是最优的。一旦高层的权重被学习,对于较低层的权重和简单的推理过程都不是最优的。对于无监督的方法比如boosting相对地可以产生次优的。标签通常是稀缺的,每个标签可

26、能只提供一些约束参数,所以过度拟合要比低度拟合会带来更多的问题。因此重回去调整之前的模型可能弊大于利。然而,无监督方法可以使用非常大的未标记的数据集,每个案例可能是高维的,从而在生成模型提供多点约束。因此低度拟合是一个严重问题,它可以通过后面的顺序拟合阶段的过程而减轻,我们之前学习的权重会随着后来学习的权重进行调整更好的适合在对于每层的权重,在贪心学习好的初始值之后,我们从定义模型的生成权重去分解开用于推理的“识别”权重。但是必须保留有阶乘分布估计得每层的后验约束。其中层内变量条件依赖于以下各层的变量的值。唤醒睡眠算法的变体由Hinton等人描述过(1995),后来被适用于较高层的权重去改变较

27、低层的权重,在“向上”的过程中,认知权重在自底向上的过程使用,随机地为每个隐藏层挑选状态。在等式2.2(5)用最大似然学习规则调整有向连接的生成权重。如前所述,拟合顶层的RBMHIJ倒数第二层的后验分布,学习顶层的无向连接的权重。“向下”从顶层的联想记忆的状态开始,进而使用自顶向下的的生成连接随机的轮流激活每个较低层。在向下的过程中,顶层无向连接和生成的有向连接都不会发生变化。只有自底向上的权重被修改。如果在初始化向下的过程之前允许联想记忆设置它的均衡分布,这个过程相当于唤醒睡眠算法中的睡眠阶段。但是如果向上的过程初始化联想记忆,并且仅允许运行几个交替吉布斯采样,在初始化向下的过程之前。这是唤

28、醒睡眠算法的对比形式,它减少了从联想记忆的均衡分布取样的要求。这种对比形式也调整了睡眠阶段的一些问题。对于表示法,它确保识别权重被学习,类似于用于真实数据的情况,并且有助于消除模式的平均问题。如果,给定一个特定的数据向量,现行识别权重总是在以上的水平选择一个特定的模式,并且忽略了其他相当擅长生成数据的模式,在向下的学习过程中,它不会改变这些识别权重用来回溯任何其他的模型,如果睡眠阶段被用于纯的寻祖过程。一个纯的寻祖过程从使用延长吉布斯取样的过程开始,从顶层联想记忆获得均衡样本。通过使用顶层联想记忆,我们也可以消除唤醒阶段的一些问题:独立的顶层单元貌似允许寻祖过程,但是它们意味着变分近似法对于顶

29、层的权重的效果不好。附录B说明了通过使用图1显示的网络的MATALAM样介绍了自上而下算法的详细过程。为了简单起见,关于所有参数的权重、能量、学习速率在这里不再赘述。同时,只讨论单案例的训练数据。注释:5,因为权重与它们上面的权重不再相关联,d必须使用i层以上的变量的状态计算,从这些变量生成i的权重。6. MNIST数据库的特征6.1 训练网络。手写体数字MNIST数据库包含60000个训练图像和10000个测试图像,许多不同的模式识别技术已经发表了这种公开可用的数据库,因此它是理想的评价新模式识别方法。对于MNIST学习任务的基本版本,没有几何学的相关知识,并没有特殊的预处理或优化训练集,所

30、以一个未知但固定的随机排列的像素不会影响学习算法。对于这种“排列不变”版本的任务,在官方测试集上,我们的网络的泛化性能错误是1.25%。图1介绍的网络是在44000个训练图像上被训练,把它分440个均衡的小批次,每一个都包含每个数字类的10例子。每个小批次之后更新权重。在训练的初始阶段,在第4节介绍的贪心算法是用来从底部开始分别训练各层权值的。每层迅速浏览30个训练集训练(称为“时代”)。在训练中,每一个RBM的“可见”层的单元在0和1之间的有实数值的活动。当学习底层的权重时,这些都是标准化的像素强度。训练更高层次的权重时,RBM中可见层的实数值活动是RBM中较低层的隐藏单元的激活概率。当RB

31、M被训练时,每个RBM中隐藏层使用随机的二进制值。贪心训练在GHzXeon处理器使用MATLAB语言需要每层花费几个小时,它运行的时候,在测试集上的错误率为2.49%(下面详细的看网络是如何测试的)。当训练顶层的权重时(在联想记忆中的),标签被设置为输入部分。标签表示通过对“10个单位一个单位的SOFTMAX组被激活。当这组中的活动从以上活动被重建时,确切的单元是活跃的,被选择出来的单元i的概率由下式给出:(6.1)_exp(苫)“Eexp)其中Xi是单元i的总输入。特别的,学习规则不受Softmax组中两两单元竞争的影响,所以不需要知道那两个单元的神经突触。竞争影响单元被激活时的概率,但是仅

32、仅是这个概率影响学习规则。注释:Preliminaryexperimentswith16x16imagesofhandwrittendigitsfromtheUSPSdatabaseshowedthatagoodwaytomodelthejointdistributionofdigitimagesandtheirlabelswastouseanarchitectureofthistype,butfor16x16images,onlythree-fifthsasmanyunitswereusedineachhiddenlayer.通过贪心算法层层训练,用不同的学习效率和权重衰减训练网络,对于30

33、0个epochs可使用5节中描述的自上而下的算法。学习率,动量和权重衰减是通过几次训练网络,并且观察在一个含有10000张图像的分离的验证集上的特性进行选择的,这些图像时完整的训练集的剩余部分。对于前100次的自上而下算法,传递是基于执行前联想记忆中的吉布斯交替采样的前三次迭代。对于之后的100次,进行6次迭代,对于最后的100次进行10次迭代。每一次对吉布斯提出的采样迭代次数的提高,误差在验证集明显下降。在验证测试中表现最好的网络被测有1.39%的错误率。该网络将通过60000训练图像训练集的每个类的数目不等,所以图像被随机分配600个小批。进行训练,直到它在完整的训练集上的错误率越来越低,

34、最终的错误率一直存在44000图像的初始训练集中。再进行59次,让其学习大约一周的时问。最终网络有1.25%的错误率检查进一步学习不会明显改善错误率,网络就用一个非常小的学习率,和测试在运行错误每个时期的表现。六周后,试验误差之间波动1.12%、1.31%和1.18%的时代,训练误差的数最小的。网络的错误如图6所示。网络的49个案例显示正确,次好的概率在0.3,最好的卞S率如图7所示。aosbvbGp孑e。、305590598041c577i826152/争57&2弋%56/产4右外883893538955z900/Gqzq夕8182901O92646AQ5十5CPG72L9548593521

35、954,ZZ?4W&C7,/r8789935299O4A-7,乙弓方幺677&、37615938591317p以smlou95458*8541364134Drlqfl产6Qez/8名。*29-8oO29O8404s切3,7235287s-。O82932T3图6:错误网络中125个测试用例。每个案例标记网络的猜测。正确的类安排在标准的扫描顺序。axziO157夕1夕B、出718区tgq力949。7图7:其中仅有49例网络猜对了,但有第二种猜测,它最好的概率在0.3正确的类安排在标准的扫描顺序。1.25%的错误率与通过有一个或两个隐藏层的前馈神经网络和被训练使用反向传播算法优化的歧视算法(见表1)

36、相比是很好地。当网络的详细连接不是手工制作的这个特定的任务,一个单独在10个随机在线学习输出单元的平方误差的最佳报错率是2.95%。在具有一个隐层的800个单元采用小的初始权重的网络中这些错误率可以降低到1.53%,这个权重是每个输出单元单独的交叉嫡误差函数,而且这种学习方式很温和。1.51%个几乎相同的结果实现了在一个第一隐层有500个单元的和第二隐层有300个单元的网中采用“回归”算法输出单元和一个不利平方量通过仔细选择使用验证集的正则化矩阵。相比之下,如果60000个训练样本被使用最近的邻居报错率为3.1%,(这是非常缓慢的),如果20,000个训练样本被使用最近的邻居报错率为4.4%。

37、这可以通过使用一个L3规范减少至IJ2.8%和4%0我们基本任务中生成错误率接近1.25%模型的标准机器学习技术是一个给出了1.4%的错误率的支持向量机(德科斯特&Schoelkopf,2002)。但是支持向量机如何利用特定领域技巧,如体重共享和抽样,这是很难看到的,其中LeCun,bottou,哈夫纳(1998)使用从1.5%到0.95%提高判别神经网络的性能。权值共享和抽样不能用来减少生成的错误率模型是没有明显原因的,我们目前正在调查这种方法。通过平均多元网络总是可以进一步改进,但这种技术可用于所有的方错误率的大幅减少可以通过补充有转换版本的数据集训练数据实现。使用一、两像素平移,德科斯特

38、和Schoelkopf(2002)通过该方法实现错误率达到0.56%。在卷积神经网络局部使用伸缩变形,Simard,斯坦克劳斯,和普拉特(2003)实验结果达到0.4%,比最好的手工编码识别算法达到了0.63%(belongie,马利克,和puzicha,2002)是略好。我们尚未探索的使用扭曲的数据学习生成模型,因为许多类型的失真需要调查,以及微调算法目前来说太慢了。6.2 测试网络测试网络的一个方法是通过从图像中随机确定的500个单位的二进制状态相联存储器的低层。这些固定的状态,标签单位给定初始值0.1和吉布斯交替采样的迭代是用于激活正确的标签装置。这种测试方法给出了错误率几乎是1%,高于

39、上述的报错率。表1:各种学习算法对MNIST数字识别错误率任务MNIST任务版学习算法错误率排列小艾我们的生成模型784500500?2000?101.25排列小艾支持向量机:9阶多项式1.4排列小艾前馈:784500300-10交叉嫡和权重衰减1.51排列小艾前馈:784800-10交叉嫡和提前终止1.53排列小艾前馈:784500150-10误差平方和在线更新2.95排列小艾最近的邻居:所有60000例和L3规范2.860000例3.1和L2规范排列小艾最近的邻居:所有20000例和L3规范4.0排列小艾最近的邻居:所有20000例和L2规范4.4练习阶段图像,前馈:弹性提早停止卷积神0.

40、4变形的大量数据经网络的交叉嫡和数据练习阶段扭曲图像;2像素转换的额外数据虚拟机:9次多项式0.56初始阶段图像形状上卜文特征:手工编他匹配0.63初始阶段图像;在lenet5的前馈:卷积神经0.8仿射变换的额外数据网络初始阶段图像在lenet5的前馈:卷积神经10.95更好的方法是先把低层的联想记忆中的500个单位的二进制状态固定,然后打开每一个标签单位并计算510组件的二进制向量准确自由能的结果。几乎所有需要计算的是被打开的独立标签单位(Teh和Hinton,2001),这方法计算精确条件的平衡分布标签而不是通过吉布斯采样逼近,以前的方法是这样做的。该方法错误率约0.5%,高于由随机决策引

41、用的。我们可以将这两种方法移除噪声。简单的是通过使用随机二进制状态的激活概率确定回馈(up-pas。二是重复随机过程20次,平均标签概率和标签记录概率,在20次之前选择最好的一个。平均两类给了几乎相同的结果,而这些结果也非常相似用一个确定性的过程,这是使用方法的报告结果。7神经网络的展望为从模型生成样本,我们与在顶层的联想记忆的吉布斯抽样进行交流直到马尔可夫链收敛为平衡分布。然后使用分布样本输入到下面的层,产生一个由生成连接的单一反馈(down-pasS图像。如果我们固定标签单位特别是在吉布斯抽样的类,我们可以从模型中看到图像类的条件分布。图8显示了一个图像序列的每个类,它是由样本间1000次

42、迭代的吉布斯采样生成。9/2J/r67匕9O/Z3V5G7gq工33LJ67g夕。/23M5。7270/-JY4SG7sqOTl/M1047%s/12_?,_bb7&a图8:每一行显示10样品从生成模型与特定标签卡。顶层的联想记忆是样本之间运行1000次迭代吉布斯抽样的交替。我们也可以初始化两层顶部的状态通过提供一个随机的二进制图像作为输入。图9显示了如何联想记忆类的条件状态发生转变时可以自由地运行,但同时固定标签。这种内在的状态是“观察”进行了每20次迭代看看联想记忆在脑海中。本文运用脑海这个词不是隐喻。我们认为,精神状态是一个假设的状态,一个高层次的内部表示构成真实的感知的外部世界。假设世

43、界如图像显示。QJ乙3y厂7Q*01。匕yL*7*G。幺K夕cO71q碰Q学/cD75V-c7V5图9:每一行显示由一个特定的固定标签模型生成的10个样本。顶层的联想记忆是通过从随机的每个像素概率为0.5的二进制图像初始化得到的。第一列示了一个从最初的高水平状态向下传递的结果。之后的几列由20次迭代的交替吉布斯在联想记忆采样产生。8结论我们已经知道它可能是深度学习,密切的连接着置信网络的每一层。最明显的方式就是当学习较低层时假设更高层次不存在,但利用阶乘近似代替难处理的后验分布这不简单的。这些近似工作,我们需要真实的后验是尽可能接近的阶乘。所以不要忽略了更高层次,我们假设他们存在且有个权重约束

44、实现优先互补,让真实的后验完全析因。这是相当于有一个可以有效地学习使用对比发散的无向图模型。它也可以被看作是因为近似与真实的后验概率之间发散的惩罚项约束变分学习,已被先前使变分近似精确约束条件取代。在学习过每一层后,从高层的权重指标解开权重。随着这些高层权重的变化,低层的先验知识不再互补,所以在低层真实的后验分布不再是阶乘,生成权重推论的转置使用是不正确的。然而,我们可以用变分约束,其表明改变更高层次的权重提高了整体的生成模型。为了证明贪婪的学习算法的快速能力,我们用它初始化一个较慢的微调算法学习数字图像的极好的生成模型和标签的权重。使用快速贪心算法是否为最好的方式是不明确的。它最好是省略微调

45、和使用贪婪算法的速度去学习更大的系统,更深层次的网络或一个更大的训练集。图1中的网络有许多的参数为0.002立方毫米的小鼠皮层(贺拉斯Barlow,个人通信,1999),而这种复杂性为几百个网络适合在一个单像素的高分辨率fMRI扫描。这表明更大的网络可能需要与人的形状识别能力竞争。我们目前的生成模型在许多方面受到限制(2003李和芒福德,)。它是专为图像的可以视为概率二进制数值(不是对自然图像);感知自上而下的反馈,它的使用是在前两层有限的联想记忆;它没有知觉不变性处理系统;它假设已经执行分割;当识别很困难时它间断加入最丰富的有益的部分对象学习,然而,证实了相比其他的一些生成模型的其主要优点:

46、生成的模型不需要从标签的反馈就可以学习低级别的功能,比无拟合的判别模型他们可以学习更多的参数。在判别学习,每个训练样本的参数约束只能通过尽可能多的信息要求所指定的标签。对于一个生成模型,每个训练样本的参数约束的比特数要求指精确输入。很容易看到网络已经从模型中生成。它可能解释为非线性,在深隐层的分布由它们生成图像表示。判别学习方法的分类性能优越受域控制,在域中不可能学习好的生成模型。这系列域是由穆尔定律侵蚀。附录一:先验互补A.1一般互补。考虑一个联合分布的观测值,X,Y和隐藏的变量,对于一个给定的似然函数P(X,丫|),我们定义了相应的家庭是互补的先验分布,P(Y),其联合分布,P(x,y)=

47、P(x|Y)P(Y),导致的后验概率,P(X,Y|)完全分解,即,导致后可以表示为P(Y|x)=P(YJ|X)。可能并不是所有的功能形式承认补充之前。在本附录中,我们表明,家庭构成所有的似然函数之前承认互seo)=exp(A,l)哪里是标准化术语。这一主张举行,我们需要承担的阳性分布:,P(Y)0和P(x|Y)0每值Y和X的先验互补对应的家庭则形成P(y)=exp(log2(y)十叼(卯)(A.2)其中C是保证归一化常数。这一功能的组合形式导致以下表现为关节,P(x,y)=、d(%(乂,明)十的)+5叼(环)(A3)为了证明我们的主张,我们需要证明每一个似然函数的方程形式的承认互补之前,反之亦

48、然。首先,它可以直接验证了公式A.2是补充之前的似然函数的方程。表明反过来,让我们假设P(Y)是一种互补的前部分似然函数P(x|Y)o注意,后因子形式简单的说就是联合分布P(x,y)=P(Y)p(x|Y)满足下列条件独立性:YJHYK|X每J=K这组条件独立性完全对应关系通过每一个隐藏的和观察到的变量和观测变量之间的边缘的无向图模型满意。由哈默斯利克利福德定理和使用我们的积极性假设的联合分布,必须对方程a的形式,而形式的似然函数方程的方程和前A.2随之而来。A.2互补无限书库。我们现在考虑的一个子集的形式模型方程的可能性也factorizesA.3。这意味着,我们现在有两套条件独立性:Nx|y

49、)=qP5|y)(A.4)iP(y|x)=P(切|4(A,5)我们的无限栈的有向图模型的构建这一条件是有用的。识别条件独立方程的A.4和A.5二部完全无向图模型表示满意,并再次使用thehammersley克利福彳惠定理(假设性),我们可以看到如下形式充分刻画所有感兴趣的联合分布,也。)=;巳吓(2必/(4与)一力国)一5叼(%)(A而采取的形式的似然函数p(x|y)=exp(电/出M+Z%-loeSy)(A7)虽然很不明显,边缘分布的观测值,x,方程的书信也可以表示为一个无限的定向模型而定义的条件分布层与层之间的参数绑在一起。验证这一说法直观方法如下。考虑一个方法,我们可以从边际分布P(x)

50、的方程,得出样品的书信暗示。从Y任意配置,我们会反复地进行吉布斯抽样,在交替,在A.4和A.5给出分布方程。如果我们运行这个马尔可夫链足够长的时问,那么,供应链和适当的假设下,我们最终会从书信给方程的联合分布得到无偏样本。现在让我们想象一下,我们把这个序列的吉布斯更新的空间,这样,我们考虑的变量,每个并行更新构成一个单独的层状态图。这个展开状态序列有一个纯粹的定向结构(有条件分布以方程的形式和A.4和A.5交替)。通过等价的吉布斯抽样方案后,在这样一个展开图的许多层,层相邻对将有一个联合分布在给定方程的书信。我们可以为展开图如下描述以上的直觉。其基本思想是把图的“向上”(即,远离数据),所以我

51、们可以把一个明确的分布变量的无限叠加。然后我们验证一些简单的边际和条件的联合分布特性,从而证明所要求的性能曲线图中的“向下”的方向。让XX,y.、,yQ),x,严,是一个序列变量(栈),第一个被确定为我们的原始观测和隐变量。定义函数y)=,xp片+卬珞)川)二短,尾)=y9/力8),(A(A.10)(A.巾)(A2)定义一个联合分布在我们的序列变量如下:P(x叫严)=y(xf0y巧(A.13)P(x。|yS)二以伊)|产,i=1.2,(A.14)Pjy叫收)心(严|一),i12(AJ5)我们验证的感应,分布有以下的边际分布:P(x)伊)i0,1,2,(A,16)P(y)=人任叫=0,1,2,(

52、AJ7)i=0这是由方程a.13分布定义。i0,我们有:一、fix代*P(x)=工P(/1yX)P(yfi)=汇?I)MV-)Ut-1)AVT=4(E)(A18)同样,P(Y(我)。现在我们看到的是以下的条件分布也成立:P(孙严)=P(x,严)/P(严)=邱(x,y巧(A.19)P(yC)|x(i)=p(yR/+i)/P(W+i,)=gy(ylx(w).(A.20)所以我们在变量的联合分布的叠加也导致相应的条件分布的展开图在“向下的方向。在这无限的图形推理是推理的联合分布,相当于在变量,序列是,给定的x(0),我们可以得到一个采样后通过采样Y(0)|x(0),x(1)|Y(0),Y(1)|X(

53、1),0.0这直接说明我们的推理过程是精确的展开图。附录B:上下算法的伪代码我们现在MATLAB风格伪代码为5节中描述的用于重新拟合升降算法实现。(这是一种对比版本的唤醒睡眠算法;Hinton等人。,1995。)下面的代码是在图1所示的标签,可见输入,节点式网络,和三层的隐单元。在应用上的算法,我们首先会进行逐层贪婪的训练中所描述的部分3和4。VKUP-DOWNALGORITHM%thedataandallbiasesarerowvectors.thegenerativemodelis:labtoppen-hidvisthenumberofunitsinlayerfoeisniunfooYwe

54、ightmatriceshavenamesfromlayer.tolayer送recisforrecognitionbiasesandgenisforgenerativebiases.Xforsimplicity*thesamelearningrate,r,iausedeverywhere.%PERFORMABOTTOM-UPPASSTOGETWAKE/POSITIVEPHASE%PROBABILITIESANDSAMPLESTATESwakehidprobs=logistic(data+vishid+hidrecbiases);wakehidstates=wakehidprobsrand(l

55、,numhid);wakepenprobs=logistic(wakehidstates+hidpen+penrecbiases);wakepenstates=wakepenprobsrand(l,numpen);wakeopprobs=logistic(wakepenstates+pentop+targets+labtop+topbiases);Bakeopstates=wakeopprobsrand(l,numtop);%POSITIVEPHASESTATISTICSFORCONTRASTIVEDIVERGENCEposlabtopstatistics=targets?*waketopstates;pospentopstatistics=wakepenstatesvaketopstates;XPERFORMnumCDitersGIBBSSAMPLINGITERATIONSUSINGTHETOPLEVEL%UNDIRECTEDASSOCIATIVEMEMORYnegtopstates=waketops

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论