版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种深度学习的快速学习算法Hinton,G.E.,Osindero,S.andTeh,Y.摘要:我们展示了如何使用“先验的补充”,以消除解释离开的影响,使在有许多隐藏层密集相连的信念网推理困难。使用互补先验,推导一种快速,贪心算法,可以在一个时间学习深,有向信任网络一层,设置在顶部两层形成一个无向相联存储器。快速,贪心算法被用来初始化一个较慢的学习过程,使用所述唤醒睡眠算法的对比版本微调的权重。经过微调,有三个隐藏层的网络构成了手写数字图像和它们的标签的联合分布的一个很好的生成模型。这生成模型提供了更好的数字比分类的判别最好的学习方法。低维流形在其上的数字谎言由长沟壑在顶层联存储器的自由能量景观进行建模,这是容易探索这些沟壑通过使用定向的连接,以显示什么相联存储器具有记。1.介绍学习难以在密集连接的,即有许多隐藏层,因为它是难以推断的隐藏活动的条件分布当给定一个数据矢量定向信念网。变分方法使用简单的近似真实条件分布,但近似值可能是差的,特别是在最深隐藏层,其中事先假定独立性。另外,变学习仍然需要所有一起被了解到的参数,使学习时间差缩放作为参数的数量增加。我们描述了一种模型,其中,顶部的两个隐藏层形成一个无向关联存储器(见图1)和剩余的隐藏层形成,在相联存储器将观测变量的表示变换如图象的象素的向无环图。这种混合模式有一些吸引人的特点:1.有一个快速的,贪婪的学习算法,可以找到一个相当不错的参数集快,即使在深网络与数以百万计的参数和许多隐藏的图层。2.学习算法是无监督,但可以通过学习一个模型,同时生成的标签和数据被施加到标签的数据。3.有一个微调算法,学习优良的生成模型优于手写数字的MNIST数据库上判别方法。4.生成模型可以很容易地理解在深隐层分布式表示。5.需要形成一个知觉推理是既快速又准确。6.学习算法是本地:调整突触强度只依赖于突触前和突触后神经元的状态。7.沟通是简单的:神经元只需要传达他们随机二进制状态。第2节介绍的想法“互补”之前这正是取消“解释离开”的现象,使推理难以在指挥模式。定向信念网络具有互补先验的一个实例。第3节显示了限制玻耳兹曼机之间和无限向网络使用权并列的等价性。第4节介绍了一种快速,贪婪学习算法的时间构建多层向网络一层。使用变约束它表明,因为每个新层添加,整体生成模型提高。贪心算法有某些相似之处,以提高其重复使用相同的“弱”学习的,但不是每个重新加权数据载体,以保证下一步学习新的东西,它会重新代表它。是,用于构造深定向网的“弱”学习者是本身无向图形模型。第5节指出由快速贪婪算法产生的权重如何能够进行微调使用“上下”算法。这是唤醒休眠算法顿等人的对比版本。(1995),其不从“模式平均”的问题,可能会导致唤醒睡眠算法学习差识别权重受损。第6节显示了一个网络有三个隐藏层并在MNIST一套手写数字约为170万权重模式识别性能。当没有知识的几何设置,并且没有特殊的预处理,网络的推广能力是在101.25%的误差;000数字网络官方测试集。这被击败最好的反向传播网实现时,不手工精制而成,为这个特殊的应用,他们的1.5%。它也比同一任务支持向量机报告Decoste和Schoelkopf(2002年)的1.4%的误差略胜一筹。最后,第7示出当它不被约束通过视觉输入运行在网络的头脑发生了什么。该网络有一个完整的生成模型,所以很容易寻找到了主意-我们只是生成了高级别交涉的图像。整篇文章,我们会考虑网随机二元变量组成,但思想可以推广到其他车型,其中一个变量的数概率是其直连的邻居状态的附加功能(请参阅附录A了解详细信息)。图1:用于模拟数字图像和数字标签的联合分布的网络。在本文中,每个训练情况下由图像和显式类标签的,但在正在进行的工作已经表明,同样的学习算法可以如果“标签”是由一个多层通路的输入是从多个不同的扬声器谱图替换使用话说隔离数字。然后,网络学习,以产生对,它由一个图象,并且在同一数字类的谱图。图2:包含两个独立的,少见的原因是变得高度抗相关,当我们观察到的房子跳一个简单的逻辑的信念网。10地震节点上的偏置装置,在没有任何观察,此节点是E10倍更可能是又比上。如果地震节点上,叉车节点是关闭的,跳转节点具有0总输入,这意味着它具有偶数几率成为上。这是一个更好的解释,房子比跃升20Ë的适用如果没有隐藏的原因是活动的赔率观察。但它是一种浪费就开启,既隐藏的原因来解释,因为观察他们两人发生的概率为E-10E-10=E20.当地震节点开启了“解释离开”为卡车节点证据。2互补先验客场解释的现象(在网络古尔2所示)进行推理难以在定向信念网。在密集连接的网络,在隐变量的后验分布是棘手除少数特殊情况下,如混合模型或线性模型的加性高斯噪声。马尔可夫链蒙特卡罗方法(尼尔,1992年),可用于从后品尝,但它们通常非常耗时。变分法(尼尔和欣顿,1998年)近似真实后具有更易于处理的分布,它们可以被用来改善对训练数据的对数概率的下限。令人欣慰的学习是保证提高,即使隐藏状态的推断操作不当势必一变,但它会好得多第二科幻消除解释完全走的方式,即使在车型的隐藏的变量有高度相关性的影响上的可见的变量。人们普遍认为这是不可能的。一个逻辑的信念网(尼尔,1992年)是由随机二进制单位。当网被用于生成数据,装置接通i的概率是它的直接祖先,j的状态的逻辑功能,和权重,Wij,从祖先定向连接:其中,Bi是我单位的偏差。如果一个逻辑信念净只有一个隐藏层,先验分布在隐变量是阶乘,因为它们的二进制状态为独立选择的,当模型被用来产生数据。非独立于后部分布由似然项从所述数据到来创建。也许我们可以消除额外的使用隐藏层来创建一个“补充”之前,有完全相反的关系到那些在任期的可能性的第一个隐藏层中解释了。然后,当似然性项乘以在先,我们将得到的后这正是阶乘。这是不是在所有明显的互补先验存在的,但网络古尔图3显示的是无限的物流信念网一个简单的例子绑权重,其中先验是每隐藏层补充(见附录A的条件下更加一般治疗这互补先验存在)。使用捆绑的权重,构建互补的先验可能看起来像一个纯粹的把戏使定向模式等同于无向的。正如我们将要看到的,但是,它导致了一种新的和非常有效的学习算法,它通过逐步从权重解开的权重中的每个层中更高的层。2.1在一个无限定向模型绑权重我们可以从在无限向网在图3中通过启动与随机配置以在网络连接奈特雷深藏层,然后进行自顶向下的生成数据“祖先”传递,其中,每个变量在一个层中的二进制状态从选择贝努利分布通过自上而下输入从其活跃父母在上面的层未来确定的。在这方面,它只是像任何其他向无环信念网。不同于其他定向网,然而,我们可以从以上所有隐藏层的真实后验分布通过启动上的可见单元的数据向量,然后使用转置权重矩阵来推断在每个隐藏层依次阶乘分布进行采样。在每一个隐藏层,我们计算阶乘后的上述2附录A层,从之前的阶乘样品后表明,该方法给出了公正的样品,因为之前互补每层保证后验分布真的是阶乘。因为我们可以从真后样,我们可以计算数据的对数概率的衍生物。让我们先来计算衍生的生成量,w00ij,从层H0单位J可我单位在层V0(见图3)。在后勤信念网,用于单个数据向量的最大似然学习规则,V0,是:其中<>表示平均过采样的状态和^V0i是概率单位我会被接通,如果可见载体从采样的隐状态随机重建。计算在第一个隐藏层,H0后验分布在第二隐蔽层,V1,从采样的二进制状态,是完全相同的过程作为重建数据,所以V1i是从概率伯努利随机变量的样本^V0我。该学习规则,因此可以写为:对H0ĴV1我的依赖是没有问题的公式的推导。从3方程2,因为^V0i是一种期望,是有条件的,H0学家自的权重被复制,通过累加所有成对层之间的生成权重的导数得到的全衍生物的生成重量:所有的垂直排列的术语取消离开式.5玻尔兹曼机器学习规则。3受限玻尔兹曼机对比发散学习它可能不会立即明显的是无限向网图3是相当于一个受限波尔兹曼机(RBM)。的成果管理具有未彼此连接的,并已无向,对称连接到一个层可见单元的隐藏单元的单层。以从一个成果管理数据,我们可以用一个随机状态启动在所述层中的一个,然后执行交替Gibbs抽样:所有的单位中一个层的被并行更新给定的单元的当前状态中的其他层,这重复进行,直到系统从它的平衡分布采样。请注意,这是完全一样的过程,从在无限的信念与净重量绑生成数据。来执行最大似然学习的成果管理,我们可以使用两个相关之间的差。对于每个权重,WIJ,可见光单元i和一个隐藏的单元之间,J我们测量的相关性<v0ih0j>当数据载体被夹紧在可见单元和隐状态从它们的条件分布,这是阶乘采样。然后,交替使用Gibbs抽样,我们运行图4所示的马尔可夫链,直到它达到其平稳分布和测量相关<V1H1J>。训练数据的对数概率的梯度,然后这种学习规则是相同的在无限物流信念净绑权重最大似然学习规则,和Gibbs抽样的每个步骤对应于计算的层中的在无限物流信念净的确切验分布。最大化的数据的对数概率是完全相同最小化的Kullback-Leibler散,KL(P0jjP1),数据,P0的分布,以及借助该模型中,P1中定义的平衡分布之间。在对比发散学习(欣顿,2002年),我们只测量第二相关运行前的马尔可夫链n个完整步骤3。这等同于忽略了来自于无限网的更高层的衍生物。所有这些忽略衍生物的总和是在层Vn的,后验分布的对数概率由限定的衍生物也是在层Vn的,光合速率后验分布之间的Kullback-Leibler散的衍生物,和平衡分布模型。因此,对比分歧最小化学习两个库勒巴克-莱布勒分歧的区别:忽略抽样噪音,这种差异绝不是负的,因为吉布斯抽样用于从P0和Gibbs抽样产生的Pn总是降低库勒巴克-Leibler距离的平衡分布。注意到,光合速率取决于当前的模型参数,并且其中的Pn变化的参数变化是由对比发散学习忽略的方式,它是重要的。与P0不会出现这个问题,因为训练数据不依赖于这些参数。最大似然和对比发散学习规则之间的关系进行了实证研究可以在Carreira的-Perpinan和韩丁(2005)中找到。图3:在一个无限的物流信念与净权重追平。向下的箭头表示的生成模型。向上的箭头不是模型的一部分。它们代表了用于推断从后验分布的样本在网的每个隐藏层时一个数据矢量被夹持在V0的参数。图4:这描述了使用交替Gibbs抽样马尔可夫链。在Gibbs抽样的一个完整步骤中,隐藏单元在顶层中都并联通过应用公式更新。1到输入从可见单元的当前状态容纳在底部层,则可见单元并联全部更新鉴于目前的隐藏状态。链是通过设置的可见单元的二进制状态是相同的作为数据矢量初始化。在可见和隐藏单元的活动的相关性隐藏单元的第一个更新后并再次在链的末端被测量。这两个相关的差异提供了学习信号为连接上更新的重量。对比发散学习在限制波尔兹曼机是足够的效率是实际的(Mayraz和欣顿,2001年)。使用实值的单位和不同的采样方案变化德等人的描述。(2003),并已相当成功的建模形成地形图(威灵等人,2003,),去噪自然图像(罗斯和黑色,2005)或生物细胞的图像(Ning等人,2005)。标记和Movellan(2001)描述了使用对比发散进行因子分析和威灵等人的方法。(2005)表明,与物流,二进制可见单元和线性网络,高斯隐藏单元可用于快速文件检索。但是,看来效率已经买了高昂的代价:当处于明显的方式应用,对比发散学习失败深,多层网络具有不同的权重,在每一层,因为这些网络花费的时间太长了,甚至达到使用条件的平衡被夹住的数据载体。我们现在表明,RBM的之间的无限的等价定向篮网并列权提出一个有效的学习算法的多层网络中的权重是不依赖。4贪婪学习算法转化交涉学习复杂模型的有效方式是结合的一组简单的模型被顺序教训。要强制每个模型的顺序来学习的东西从以前的机型不同的是,数据以某种方式之后每个模型已经学会了作案网络版。在提高(弗氏,1995年),序列中的每个模型进行训练上强调,对于前代车型有错的情况下重新加权数据。在主成分分析的一个版本,在模型化方向的方差被除去从而迫使下建模的方向躺在正交子空间(桑格,1989)。在投影寻踪(Friedman和Stuetzle,1981),该数据是通过在数据空间非线性扭曲一个方向以除去所有非高斯在该方向变换。后面我们的贪婪算法的思想是,以允许序列中的每个模型来接收数据的一个不同的表示。该模型上执行其输入向量的非线性变换,并产生作为输出将被用作输入的序列中的下一个模型的向量。图5示出的多层生成模型,其中,顶部的两层经由无向连接交互和所有其他连接的定向。顶部的无向连接等价于具有无限多的高层与并列的权重。有没有层内的连接和,为了简化分析中,所有的层具有的单位数相同。有可能通过假设较高层之间的参数将被用于构造互补之前为W0学习明智(尽管不是最佳的)的参数W0的值。这等同于假定所有的权重矩阵的被约束为相等。这个假设下学习W0的任务减少了学习的RBM的任务,虽然这仍是困难的,良好的近似解可迅速通过最小化对比发现分歧。一旦W0已经了解到,数据可以通过WT0被映射在第一个隐含层创造更高层次的“数据”。如果RBM的是原始数据的一个完美的模型中,较高级别的“数据”,将已被完全由上级权重矩阵建模。但是,一般来说,RBM的将不能够完全模拟原始数据,我们可以使生成模型更好使用以下贪婪算法:1.了解W0假设所有的权重矩阵并列。2.冻结W0,并致力于用WT0来推断在变量的状态阶乘近似后验分布在第一个隐藏层的网络连接,即使在更高级别的权重后续变化意味着这种推断方法不再正确。3.保持所有的较高权重矩阵绑对方,但解开从W0,得知是通过使用WT0改造原有数据产生的更高级别的“数据”的RBM模式。如果此贪婪算法改变上级权重矩阵,它是保证改善生成模型。如图(尼尔和欣顿,1998年)中,单个数据向量的负对数概率,v0,即多层生成模型下由变自由能是下近似分布的预期能量为界,Q(h0jv0)该分配,减去熵。对于定向模式,配置V0的“能量”;H0由下式给出:所以结合是:其中,H0为单位在第一个隐藏层的二元结构,第(H0)是当前模型下ho与Q(JV0)(这是由上面的H0的权重定义)的先验概率是在任何概率分布在第一个隐藏层二元结构。结合变得相等当且仅当Q(JV0)是真验分布。当所有的权重矩阵的被连接在一起,阶乘分布在H0通过施加WT0到数据载体产生是真正的后验分布,所以在贪婪算法的logP(V0)的第2步是等于结合。步骤2冻结两个Q(JV0)和p(v0jh0)中,用这些术语固定的,结合的衍生物是一样的衍生物因此,最大限度地结合w.r.T。在更高的层的权重,完全等同于最大化,其中H0发生概率Q(h0jv0)数据集的对数概率。如果结合的变紧,它有可能为日志ρ(V0)下降,即使下界它增加,但登录ρ(V0)不能低于其值在贪婪算法的步骤2,因为结合的是紧在这一点上与所述的约束总是增加。贪心算法可以清楚地递归应用,因此,如果我们使用完整的最大似然波尔兹曼机器学习算法学习各组并列的权重,然后我们解开了一套从权重的底层上面,我们可以学习的权重一层在具有保证4,我们永远不会降低充分生成模型下的数据的对数概率一个时间。在实践中,我们通过对比发散代替最大似然波尔兹曼机器学习算法学习的,因为它运作良好,并要快得多。采用对比发散空洞的保证,但它仍然是欣慰地知道,额外的层,保证改善不完美的车型,如果我们学会每一层有足够的耐心。为了保证生成模型是通过贪婪地学习更多的层提高,方便的是考虑模型,其中所有的层具有相同的尺寸,以使更高级别的权重可以被初始化为学习值它们从权重解开之前层以下。相同的贪婪算法,然而,可以即使当层的大小不同的应用。5回到拟合与上下算法学习权重矩阵一层的时间是有效率的,但不是最优的。一旦在更高的层的权重已经了解到,无论是权重,也没有简单的推理过程是最适合于下层。被贪婪的学习产生的次优性是相对无害的监督方法,如提高。标签通常是稀缺和每个标签可以仅提供约束的几比特的参数,所以过度拟合通常比下拟合更多的问题。回去和重新拟合早期型号可能,因此,造成弊大于利。无监督方法,但是,可以使用非常大的未标记数据集和每一种情况下可以是非常高的维从而提供约束的许多位上的生成模型。不足拟合是随后可以通过背拟合的后续阶段,其中该被了解到第一个权重修改为科幻吨与后来了解到的重量更好地减轻的严重问题。后贪婪地学习良好的初始值中的每一层的权重,我们解开了用于推理从“生成”的权重定义该模型的“识别”的权重,但保留在每一层后必须由进行近似的限制阶乘分布,其中一个层内的变量是条件独立于下面的层中的变量的值。在寒春等人描述的唤醒睡眠算法的一个变种。(1995)随后可以用于允许较高级别的权重来影响下层的。在“上通”,承认权重用于自下而上的传球被随机选取一个状态,每一个隐变量。在定向连接生成使用权公式中的最大似然学习规则,然后进行调整。25.在顶层的无向连接的权重作为了解到由前拟合顶级RBM到倒数第二层的后验分布。“向下通”打头的顶层相联存储器的状态,并使用自上而下生成连接到随机激活反过来每个较低层。在向下通,顶层无向连接和生成针对连接不改变。只有自下而上识别权重是改性音响编这等同于所述唤醒睡眠算法的睡眠阶段,如果相联存储器被允许发起向下通之前沉降到它的平衡分布。但如果相联存储器是由一个向上通初始化,然后只允许运行交替Gibbs抽样发起向下通之前的几个迭代,这是一个“对比”形式的唤醒睡眠算法的因而无需从相联存储器的平衡分布进行采样。该对比表格也连接XES睡眠阶段的其他几个问题。它确保了识别的权重被用于了解到,类似于那些用于实际的数据表示,它也有助于消除模式平均的问题。如果给定一个特定的数据矢量,当前的识别权重总是在高于电平选择一个特定的模式,并忽略其他非常不同的模式是在产生该数据同样良好,在向下通学习不会尝试改变这些识别权重来恢复任何其它模式,因为它会如果睡眠阶段中使用的纯祖通。纯祖通将不得不开始通过延长Gibbs抽样获得从顶层联想记忆平衡样本。通过使用顶层联存储器我们也消除在唤醒阶段的一个问题:独立顶层单位似乎需要允许一个祖先通,但它们表示的变分近似非常差为权重的顶层。附录B特定网络连接上课用matlab式伪代码在图1为了简单起见示出的网络上下算法的细节,也没有惩罚的重量,没有动力,和同样的学习速率为所有参数。另外,训练数据被减少到单个壳体。图6:所有49例,其中网络猜对了,但有一个第二猜测的概率是在0:最佳猜测的概率3。真正的类被布置在标准扫描顺序。6.在MNIST数据库的性能6.1训练网络手写数字的MNIST数据库包含60000训练图像和10000测试图像。结果有许多不同的模式识别技术已公布了该公开的数据库,所以它是理想的评估新的模式识别方法。为“基本”版本MNIST学习任务,没有知识的几何设置,并且没有特殊的预处理训练集的或增强,所以一个未知但固定的随机置换的象素不会影响学习算法。对于这种“排列不变”版本的任务,我们的网络的泛化性能是在网络的官方测试集1.25%的误差。在图1所示的网络进行训练上分成440均衡各自含有每个数字类的10例迷你分批训练图像44000。的权重的每个小批量后进行了更新。图7:125测试用例网络得到了错误。每个案例是由网络的猜测标记。真正的类被布置在标准扫描顺序。在训练的初始阶段,在第4中描述的贪心算法被用来单独训练权重的每一层,从底部开始。每一层都被训练,通过训练集30扫描(称为“时代”)。在训练期间,各单位中的每个成果管理的“可见”层学习权重的底层时具有实值活动0和1之间,这些被归一化的像素强度。用于训练权重的更高层,可见单位RBM的实数值活动是隐藏的单位在较低级别的成果管理的激活概率。每个RBM的隐层采用随机二进制值时RBM被训练。贪婪的培训花了几个小时,每一层在Matlab上3GHz的至强处理器,它做的时候,在测试集上的误差率为2.49%(参见下面的网络是如何进行测试的详细信息)。当训练权重的顶层(那些在相联存储器)的标签被提供作为输入的一部分。标签通过在一个“软最大”组的10个单位的接通一个单位来表示。当在该组中的活动从在上面的层中的活动重建,正好一个单元被允许激活和拾取单元i的概率由下式给出:其中xi是我单位收到的总投入。奇怪的是,该学习规则不受在软最大组单元之间的竞争,故突触不需要知道哪些单元是与其它单元相互竞争。竞争会影响一个单元接通的概率,但它仅仅是这个概率,影响学习。贪婪层-层训练之后,网络被训练,具有不同的学习率和重衰变,用于使用在部分5的学习速率,动量所述的上下算法300历元,和重衰变分别通过训练网络几次,在一个单独的验证集取自完整训练集的其余部分即10,000张观察它的性能选择。对于第一个上下算法100历元,向上通随后交替的三个完整迭代Gibbs抽样在执行下通之前,联想记忆。对于第二个100历元,六迭代被执行,并且在过去的100历元,10次重复进行。每次Gibbs抽样的迭代次数提高后,在验证集的误差明显减小。这对验证组表现最佳的网络,然后测试,有1.39%的误差率。这个网络然后上训练所有60000训练图像直到对充分训练集其错误率较低,为它的最终的误差率一直在44,000图像的初始训练集。这花了59进一步作出时期大约一个星期的总学习时间。最终网络有一个误差率1.25%。由网络作出的错误显示于图7。49案件该网络得到正确的,但对于其中第二最佳概率是内最好概率0.3被示出在图6中。误差率的1.25%百分率较由具有一个或两个隐藏层和被训练使用的反向传播算法来优化歧视前馈神经网络所取得的错误率(见表1中,引用后出现)。当没有手工制作此特定任务这些网络的详细连接,最好报告错误率用于随机在线学习对各10个输出单元的单独的平方误差为2.95%。这些错误率可以为800单位一个隐藏层通过使用较小的初始权重,每个输出单元上的单独的交叉熵误差函数,和非常温和的学习(约翰普拉特,个人通讯)减少到1.53%,在一个网1.51%,几乎相同的结果,在一个网,有500个单位,在第一个隐含层300第二隐层中使用“SOFTMAX”输出单元和正规化是由精心挑选的量惩罚平方的权重达到了使用验证集。为了便于比较,近邻有3.1%,如果所有60000训练的情况下被用于报告的错误率(/wilder/Mnist/)(这是非常缓慢)和4.4%,如果20000顷使用。这可以通过使用三层规范被减少到2.8%和4.0%。来接近我们的基本任务生成模型的1.25%的误差率的唯一标准机器学习技术是一种支持向量机,它给出了1.4%(Decoste和Schoelkopf,2002年)中的错误率。但是,很难看到支持向量机怎样可以利用的领域特定网络Ç技巧,像体重共享和二次采样,这LeCun等。(1998)使用,以改善判别神经网络的性能从1.5%至0.95%。还有就是为什么重共享和子采样不能用于减小误差率生成模型的和我们目前正在研究这种方法没有明显的原因。进一步的改进可以随时通过平均多个网络的意见来实现,但这种技术可用于所有的方法。大幅度减少误差率可以通过补充设定与训练数据的略变换版本的数据来实现。使用一个和两个像素翻译。Decoste和Schoelkopf(2002年)实现0:56%。在卷积神经网络中使用本地弹性变形,锡马德等。(2003年)达到0:4%,这是比0稍好:63%的最好的手工编码识别算法实现(Belongie等人,2002)。我们还没有探索利用扭曲数据的学习生成模型,因为许多类型的失真需要进行调查和FINE-调整算法是目前速度太慢。6.2测试网络以测试网络的一种方法是使用一个随机向上通从图像到固定相联存储器的较低层中的500个单位的二进制状态。与这些状态固定的,标签单元被给定的0初始实值的活动:1和交替Gibbs抽样的几次迭代,然后用来激活正确的标签单元。这种测试方法,给出了比上述报道的利率高出近1%的误差率。一种更好的方法是将第一个固定的相联存储器的较低层中的500个单位的二进制状态,并然后打开每一个标签单元反过来,并计算所得到的510组分的二元载体的确切自由能。几乎所有所需的计算是独立于标签单元接通(德和欣顿,2001年),并且此方法计算由Gibbs抽样这就是以前的方法是做逼近它超过标签的确切条件平衡分布来代替。此方法提供了比那些因为在向上通取得的随机决定的引述高约0.5%的错误率。我们可以通过两种方式消除这种噪音。最简单的是使向上通确定性通过使用代替随机二进制状态的激活的概率。二是挑选最好的前一个重复的随机向上通二十次和平均无论是标签概率或标签日志概率在21重复。这两种类型的平均得到几乎相同的结果和这些结果也非常类似于使用一个确定性的向上通,这是用于报告的结果的方法。图8:每行显示了具有特定标签的生成模型10个样品夹紧。顶层相联存储器是运行1000次迭代交替取样之间Gibbs抽样的。7展望神经网络以产生从模型样品,进行交替Gibbs抽样中的顶层相联存储器,直到马尔可夫链收敛到平衡分布。然后,我们使用的样品从该分布作为输入到下面的层,并通过生成的连接产生由单个向下通图像。如果我们夹紧Gibbs抽样期间标签单元到特定类中,我们可以看到从模型的类条件分布的图像。图8示出通过使1000次迭代样本之间Gibbs抽样的生成的用于每个类别的图像的序列。我们还可以通过提供一种随机二值图象为输入初始化顶部两层的状态。图9示出了如何相联存储器的类条件状态然后当它被允许自由运行的发展,但与标签夹紧。该内部状态是“观察”通过执行下每20次迭代,看看有什么联想记忆在脑海。此使用的词“记”不旨在是隐喻。我们相信,一种精神状态是一个假设,外部世界,在其中一个高层次的内部表示将构成不虚伪知觉的状态。这假设的世界是什么样的图中显示。图9:每行显示了具有特定标签的生成模型10个样品夹紧。顶层相联存储器是由一个向上通从一个随机二进制图像,其中每个像素是上为0的概率初始化:5。在第一个柱显示了一个向下通从该最初的高电平状态的结果。随后列由20次迭代交替Gibbs抽样的联想记忆的产生。8结论我们已经表明,它有可能在一个时间来学习深,密集的连接,信仰网络一层。显而易见的方法来做到这是假设学习下层时较高层不存在,但是这不是与使用简单阶乘近似值来代替顽固验分布兼容。对于这些近似很好地工作,我们需要真正的后路尽量靠近阶乘越好。替代忽略较高层所以,我们假定它们存在但并列这些约束来实现的互补之前,使真实后恰好阶乘权重。这相当于具有能有效地利用对比发散而获知无向的模型。它也可以被看作约束变学习,因为一个惩罚项-大致与真实后验之间的差异-已取代了现有必须使变分近似精确的约束。在每个层已经了解到,其权重是来自更高层的权重解开。由于这些较高级别的权重变化,先验对于较低层不再是互补的,所以在下层的真实后验分布不再阶乘和使用生成的权重为推断的转置的不再是正确的。然而,我们可以使用绑定到表明适应较高级别的权重提高了整体生成模型一变。为了证明我们的快,贪婪学习算法的力量,我们用它来初始化权重低得多的微调算法,学习数字图像和它们的标签的一个很好的生成模式。目前尚不清楚,这是使用快速,贪心算法的最佳方式。它可能会更好省略微调和使用贪婪算法的速度学习更大,更深的网络的一个集合或一个更大的训练集。在图1的网络中有一样多参数为0:(霍勒斯巴洛,个人通信)小鼠皮层002立方毫米,并且这种复杂几百网络可以适合于高分辨率功能磁共振成像扫描的一单个体素。这表明,更大的网络,可能需要与人体形状识别能力竞争。我们当前的生成模型在许多方面(Lee和芒福德,2003)的限制。它被设计为在其中非二进制值可以被视为概率(这是不自然的图像的情况下)的图像;其感知中使用的自顶向下的反馈被限制在相联存储器中顶部两层;它没有涉及感知不变性的系统方法;它假定分割已经执行,并没有学会顺序参加对象的信息量最大的部件时判别是困难的。它然而说明一些生成模式的主要优点相比,歧视性的:1.生成模式可以学习低级别的功能,而无需从标签的反馈,他们可以学到更多的参数比判别模型,无需过度拟合。在辨别学习,每次训练情况下,只有约束的参数通过信息尽可能多的比特都需要指定标签。要生成模型中,每个训练情况下限制了参数所需要指定输入的位数。
2.这是很容易看到网络已经从它的模型生成学会
3.有可能通过从它们产生的图像来解释非线性的,在深隐层分布的表示。
4.判别学习方法优越的分类性能仅持有的域在它是不可能很好的学习生成模型。这组域正在侵蚀摩尔定律。附录1.互补先验一般的互补性考虑联合分布在观测,X,和隐藏变量,Y。对于给定的似然函数,P(XJY),我们定义互补先验的相应家族是那些分布P(y)时,对其中的联合分布P(X;Y)=P(XJY)P(y)的,引出后验,P(YJX),即恰好事实上上升,即导致可以表示为P(YJX)=QJ个P(YJJX)后部。不是所有的函数形式可能性承认先前的互补性。在本附录中,我们将显示以下家庭是一切似然函数承认以前的互补:哪里是规范化条件。这种说法持有我们需要假定分布阳性:这两个P(Y)>0和P(XJY)>0的y和x的每一个值。互补先验相应的家庭再假设的形式:其中,C是常数,以确保正常化。功能形式的这种结合导致以下表达式为联合:为了证明我们的主张,我们需要证明方程形式的每一个似然函数。11承认互补之前,也即意味着互补式中的函数形式。11.首先,它可以直接证实方程图12是互补的事先对公式1的似然函数。11.要显示相反的,让我们假定P(y)为互补现有一些似然函数P(XJY)。注意后的阶乘形式简单的说就是联合分布P(X;Y)=P(Y)P(XJY)满足下列一组条件独立性:YJ?YKĴx对于每次J的=K。这组条件独立的正是那些与每个隐藏变量之间的边缘清偿无向图模型,观察变量,并在所有观测变量(明珠,1988年)。由哈默斯利-克利福定理,利用我们的积极性的假设,联合分布必须是公式1的形式下。13,并且形成为似然函数式11和以前的公式。12遵循这一点。互补性是无限堆栈我们现在考虑的方程形式的模型的一个子集。13其中的可能性也因素。这意味着,我们现在有两套条件独立性:这种情况是我们建设有向图模型的是无限的堆栈有用的。识别公式的条件独立性。14和15作为那些由一个完整的二分无向图模型满足,并使用哈默斯利-克利福德定理(假设阳性),我们再次看到以下形式充分刻画所有感兴趣的联合分布,而似然函数采取的形式,虽然这不是立即显而易见的,边缘分布在观测中,x,在方程16也可以被表示为在无限定向模型,其中限定层之间的条件分布的参数连接在一起。验证这一说法的一个直观的方法如下。考虑的,使我们可以得出样品从边缘分布P(x)的由式隐含的方法之一。16.从y的任意配置开始,我们将使用迭代进行Gibbs抽样,在轮换时,分布在给定的公式。14和15.如果我们运行这个马尔科夫链足够长的话,因为我们的假设,积极确保链条正确的混合,我们最终会得到公正的样本在给定式的联合分布16。现在让我们想象一下,我们展开吉布斯更新这个序列空间-比如,我们考虑的变量每个并行更新构成图中的一个单独的层的状态。该展开状态序列具有纯粹定向结构(与条件分布采取等式交替14和15的形式)。由等价于Gibbs抽样方案,在这样的展开图许多层后,相邻的成对的层将有一个联合分布如等式给出16。我们可以正式这种直觉的展开图如下。其基本思想是通过展开图“向上”,构建联合分布(即远离该数据层先后更深的隐藏层),这样我们就可以把一个良好定义的分布在一个在变量无限堆栈。然后我们验证此联合分布的一些简单的边缘和有条件的属性,并表明,我们的结构是相同的,通过从艾利深层向下展开的曲线获得。令x=X;Ÿ=Y;X;ÿ;X;ÿ;:::是的第一其中两个被标识为我们的原始观测和隐变量的变量的序列(堆栈),而X(i)和Y(I)将被解释为依次更深层的序列。首先,定义功能在虚拟变量Y0,X0。现在定义一个联合分布在我们的变量(假设一阶马尔可夫依赖)如下顺序:我们核实感应的分布具有以下边缘分布:对于i=0,这是通过在式中的分布的定义给出。23和公式。19和20.I>0,我们有:并且类似地对应于P(Y(I))。现在我们看到下面的“向下”的条件分布也持如此:因此,我们的联合分布在变量的堆栈还给出了“向下”的方向展开图,因为公式的条件分布。29和30是相同的那些用于产生在一个向下通和马尔可夫链混合物的样品。在推断这无限有向图的堆栈相当于推理的联合分布在变量的顺序。换句话说,给定x(0),我们可以简单地使用联合分布方程的定义。23,24和25简单地通过采样Y(0)JX获得从后一个样品(0)中,x(1)的jy(0)中,y(1)JX(1),:::。这直接表明了我们的推论过程是精确的展开图。2.上下算法的伪代码我们现在提出“MATLAB”伪代码在第5节,并用于背景拟合上下算法的实现。(此方法是在唤醒睡眠算法(Hinton等人的对比版本,1995年)。)下面概述的代码假定有可见的输入,标记节点和隐藏单元三层如图1中所示的类型的网络。之前施加上下算法,我们将第一个作为在第3及4所描述进行逐层贪婪训练。\%UP-DOWNALGORITHM\%\%thedataandallbiasesarerowvectors.\%thegenerativemodelis:lab<-->top<-->pen-->hid-->vis\%thenumberofunitsinlayerfooisnumfoo\%weightmatriceshavenamesfromlayer_tolayer\%"rec"isforrecognitionbiasesand"gen"isforgenerativebiases.\%forsimplicity,thesamelearningrate,r,isusedeverywhere.\%PERFORMABOTTOM-UPPASSTOGETWAKE/POSITIVEPHASEPROBABILITIES\%ANDSAMPLESTATESwakehidprobs=logistic(data*vishid+hidrecbiases);wakehidstates=wakehidprobs>rand(1,numhid);wakepenprobs=logistic(wakehidstates*hidpen+penrecbiases);wakepenstates=wakepenprobs>rand(1,numpen);postopprobs=logistic(wakepenstates*pentop+targets*labtop+topbiases);postopstates=waketopprobs>rand(1,numtop));\%POSITIVEPHASESTATISTICSFORCONTRASTIVEDIVERGENCEposlabtopstatistics=targets’*waketopstates;pospentopstatistics=wakepenstates’*waketopstates;\%PERFORMnumCDitersGIBBSSAMPLINGITERATIONSUSINGTHETOPLEVEL\%UNDIRECTEDASSOCIATIVEMEMORYnegtopstates=waketopstates;\%toinitializeloopforiter=1:numCDitersnegpenprobs=logistic(negtopstates*pentop’+pengenbiases);negpenstates=negpenprobs>rand(1,numpen);neglabprobs=softmax(negtopstates*labtop’+labgenbiases);negtopprobs=logistic(negpenstates*pentop+neglabprobs*labtop+topbiases);negtopstates=negtopprobs>rand(1,numtop));end;\%NEGATIVEPHASESTATISTICS
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024简单家具维修合同范本
- 2024年加工承揽合同标的与质量标准
- 2024建筑材料采购合同范本下载
- 2024年度公园绿化树苗采购合同
- 2024年山东潍坊物业委托管理合同
- 迷雾解说课件教学课件
- 2024年度互联网金融产品研发与推广合同
- 04版智能家居系统研发与销售合同
- 2024年度云服务提供商合同
- 2024年店铺投资合作协议
- 护理质量安全与风险管理的案例分析
- 工程流体力学课后习题答案-(杜广生)
- AI智能客服应用实践
- 《止吐药临床应用》课件
- 幕墙工程检验批质量验收记录
- 危险化学品经营企业安全生产奖惩制度范本
- 报价单模板完
- 30题药品质量检测岗位常见面试问题含HR问题考察点及参考回答
- 《婴幼儿行为观察、记录与评价》期末试卷及答案 卷3
- 企业战略管理概述
- 消防安全概述
评论
0/150
提交评论