受限玻尔兹曼机学习笔记(一)预备知识_第1页
受限玻尔兹曼机学习笔记(一)预备知识_第2页
受限玻尔兹曼机学习笔记(一)预备知识_第3页
受限玻尔兹曼机学习笔记(一)预备知识_第4页
受限玻尔兹曼机学习笔记(一)预备知识_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、受限波尔兹曼机(Restricted Boltzmann Machine, RBM)是一种可用随机神经网络 (stochastic neural network)来解释的概率图模型(probabilistic graphical model).它由 Smolensky于1986年在波尔兹曼机(Boltzmann Machine, BM)的基础上提出,所谓“随 机”,是指这种网络中的神经元是随机神经元,其输出只有两种状态(未激活、激活),一般用 二进制的0和1来表示,而状态的具体取值则根据概率统计法则来决定(3).随着计算机计算能力的迅速提高和快速算法的不断发展,RBM在各种相关机器学习算 法中

2、已经变得实际可行.尤其是 在Hinton于2006年提出了以RBM为基本构成模块的 DBN (Deep Belief Network)模型之后,机器学习界更是掀起了一股研究RBM理论及应用 的热潮.RBM模型涉及的知识点较多,本文主要针对RBM的网络结构、数学模型以及快速训 练算法进行介绍,且重点放在一些数学公式的推导及具体算法的描述上.1预备知识本节的预备知识相对独立,仅供参考,读者可以先跳过本节:阅读过程中碰到相关问题 再回过头来查阅.1.1 sigmoid 函数sigmoid函数是神经网络中常用的激活函数之一,其定义为sigmoid) =1,(1.1)J- I e该函数的定义域为(-oo

3、:+oc),值域为(0,1).图1给出了 sigmoid函数的图像.图1 sigmoid函数的图像(1.2)(1.3)(1.4)1.2 Bayes 定理贝叶斯定理是英国数学家贝叶斯(Thomas Bayes)提出来的,用来描述两个条件概率之 间的关系.若记P(B)分别表示事件A和事件B发生的概率,P(AB)表示事件B 发生的情况下事件A发生的概率,表示事件4 B同时发生的概率,则有时)P(B) 5利用(1.2)和(1.3):进一步可得风4|切=尸(&羯巳这就是贝叶斯公式.在(1.4)中,我们把PQ4)称为“先验概率” (Prior probability),即在事件B发生之前:我 们对事件山发

4、生概率的一个判断.P(AB)称为“后验概率” (Posterior probability),即在事 件B发生之后,我们对事件A发生概率的重新评估.称为“可能性函数” (Likelyhood), 这是一个调整因子:使得预估概率更接近真实概率(6).二分图(bipartite graph)又称二部图、双分图或偶图,是图论中的一种特殊模型.设 G =(吒E)是一个无向图,如果顶点V可分割为两个互不相交的子集峪和协,并且图中的 每条边0项)所关联的两个顶点i和j分别属于这两个不同的顶点集,即ie Vuj 仍,或 者ie V2J G崎,则称图G为一个二分图.1.4 MCMC 方法(2)最早的蒙特卡罗方

5、法是由物理学家发明的,旨在于通过随机化的方法计算积分.假设给 定函数九(游,我们想计算如下的积分f h(x)dx.(1.5)J a如果我们无法通过数学推导直接求出解析解,那么)为了避免对区间(Q0)上所有的 值进行枚举(多数情况下这也是不可能的),我们可以将烦%)分解为某个函数/(游和一个定 义在(Q,b)上的概率密度函数p(x)的乘积.这样整个积分就可以写成rbf*b/ hxdx = / f(x)p(x)dx = Ep(rE)/(rr).(1.6)J aJ a这样一来,原积分就等同于在夙对这个分布上的均值.这时:如果我们从分布说%) 上采集大量的样本点1,皿 ,rrn,这些样本符合分布p(z

6、),即对V如有(17)2=1那么,我们就可以通过这些样本来逼近这个均值/ h(x)dx = Ep(M/(z)七一 以豹)(L8)Jan i=i这就是蒙特卡罗方法的基本思想.近年来,随着随机化模型的流行,蒙特卡罗方法在机 器学习领域有着越来越广泛的应用.假如我们现在已经定义好分布夙对,那么,蒙特卡罗方法的一个核心问题是:如何从这 个分布上采集样本?一般来讲,对于经典的分布,例如对于均匀分布和正态分布等,都已有比较成熟的算法可 以快速地直接生成该分布下的无偏(unbiased)样本.然而,对于任意的分布,我们并不能做 到这一点.那么,如何在任意分布下采样呢?这就是马尔可夫链蒙特卡罗方法(Marko

7、v chain Monte Carlo, MCMC)需要解决的问题.简单来说:MCMC的基本思想就是利用马尔可夫链来产生指定分布下的样本.为此, 先简单介绍一下马尔可夫链的基本知识.设Xt表示随机变量X在离散时间t时刻的取值.若该变量随时间变化的转移概率仅 仅依赖于它的当前取值,即P(Xt+i = SjXQ = %Xi = s如,Xt = Si) = P(Xt+i = SjXt = sj,则称这个变量为马尔可夫变量.其中s知,e Q为随机变量X可能的状态.这个 性质称为马尔可夫性质,具有马尔可夫性质的随机过程称为马尔可夫过程.由(1.9)可知,对于一个马尔可夫随机变量,我们只需知道其当前的取值

8、,就足以充分 预测其未来的变化趋势.而所谓的马尔可夫链就是指一段时间内随机变量X的取值序列 (Xo,Xi,,Xm),它们符合条件(1.9).一般来说,一个马尔可夫链可通过其对应的转移概率来定义.所谓的转移概率,是指随 机变量从一个时刻到下一个时刻,从状态&转移到另一个状态Sj的概率即(1.10)P(0 J):= Pi,j = P(X*1 = SjXt = Si)若记理表示随机变量X在时刻t取值Sk的概率,则X在时刻t + 1取值为&的概补中)=”+1 = &)= P(X*i =我区=%) P(K = sk)设状态的数目为心则根据(1.11),有(祥+气.,7T肿)=(冗也,酒R,i如尸1,2

9、Pl,n3,2我71上式也可写成矩阵向量形式(1.12)其中冗=(*), . /$), r = t,t+l为行向量,P = (Pij)nxn为转移概率矩阵.如果存在某个取值,从它出发转移回自身所需要的转移次数总是整数( 1)的倍数,那 么这个马尔可夫过程就具有周期性(Periodic).如果任意两个取值之间总是能以非零的概率 相互转移,那么该马尔可夫过程就称为不可约(Irreducible)(-不可约”是指每一个状态都可 来自任意的其它状态).如果一个马尔可夫过程既没有周期性,又不可约,则称它是各态遍历 的(Ergodic).对于各态遍历的马尔可夫过程,不论招)取何值,随着转移次数的增多,随机

10、变量的取 值分布最终都会收敛于唯一的平稳分布兀二即lim 7FP,= 7T*,(1.13)一8且这个平稳分布7T*满足7T*P = 7F*.(1.14)这意味着,不论招)取何值,经过足够多次转移后,随机变量各取值总会不断接近于该过程 的平稳分布.这为MCMC建立了理论基础:如果我们想在某个分布下采样,只需要模拟以 其为平稳分布的马尔科夫过程,经过足够多次转移之后,我们的样本分布就会充分接近于该 平稳分布.这意味着我们近似地采集到了目标分布下的样本.1.4.2正则分布假设一个物理系统具备一定的自由度(例如,一滴水珠里的水分子在空间中可以任意排 列),那么,系统所处的状态(所有水分子的位置)就具备

11、一定的随机性.假设系统处于状态i 的概率为例,则显然有Pi 0,且 皿=1.(1.15)i根据系统的物理性质,不同的状态可能会使系统具备不同的能量.我们用E来表示系 统处于状态2时的能量.统计力学的一个基本结论是:当系统与外界达到热平衡时,系统处 于状态i的概率Pi具有以下形式Pi = e 一争,(L16)其中= 厂筝(17)i被称为归一化常数(Normalizing Constant), T为正数,表示系统所处的温度.(1.16)这种概 率分布的形式叫做正则分布.从这个分布形式我们可以看到,同一温度下,能量越小的状态具有越大的概率.另一方 面,当温度T升高时,概率分布会对能量越来越不敏感:并

12、逐渐趋近于均匀分布.特别是当 T T 8时,整个分布完全退化为均匀分布,这时系统的状态变得完全随机.以水滴作为例 子,此时所有的水分子将不再受整个系统能量的限制,而四散开来,宏观上看到的就是蒸发.在机器学习领域,人们通常根据需求自定能量函数.然后借鉴物理规律去实现其他的功 能,而正则分布就是沟通两者的桥梁.在MCMC算法中,为了在一个指定的分布上采样,我们首先从系统的任意一个状态出 发,然后模拟马尔可夫过程,不断进行状态转移.根据马尔可夫的性质,在经过足够的转移次 数之后:我们所处的状态即符合目标分布,这时,该状态就可以作为一个采集到的样本.而算 法的关键就是,设计出合理的状态转移过程.Met

13、ropolis-Hastings是一种非常重要的MCMC 采样算法,并且对于设计状态转移过程建立了统一的框架.在Metropolis-Hastings算法中,假设我们想从分布冗()上采集样本,那么,我们引入另 一组转移提议分布(proposal density) Q(.;2).这个分布的作用是,根据我们的当前状态2,提 议转移之后的状态.每次状态转移时,我们首先利用Q(;i)提议出下一步的状态,假设为顶, 然后,我们以下面的概率接受这个状态1,m 顶)q(2;/)(1.18)(1.18)中,T j)被称作接受概率.为了模拟接受新状态3的过程,我们可以首先产生一个0,1之间的均匀分布的随机数 r

14、,然后,如果尸V-顶),则采用状态J作为新状态,否则维持状态i不变.Q。; i)表示从 状态i提议转移到状态j的概率.一般来说,Q(.,)可以选择为一些比较简单的概率分布.下面我们简单分析Metropolis-Hastings算法的正确性.显然,对于上面的例子,状态i转移到状态j的转移概率为pgJ)=t 项)如;n(1.19)于是很容易验证:对于任意的状态 辅,成立如下的所谓细致平衡条件(detailed balance)T i)汗Q侦7F(i) min 1,min (7t(z)Q(j; z),力(顶)Q(2; j)7r(j) min汗(小侦 2)Q(2;力当细致平衡条件满足时,就可以证明状态

15、分布tt()在转移P(i - j)下保持不变,即52 汗0)2(顶一2) = 冲)P(2 T 项)=汗0) E PQ T j)=汗(J33若该马尔可夫过程满足各态遍历性,那么,根据稳定分布的唯一性,我们就知道在转移P下, 状态的分布最终会收敛于),也就是我们要采样的分布.Gibbs采样(Gibbs Sampling)是Metropolis-Hastings的特殊形式.它应用于系统具有 多个变量,并且对于变量间的条件分布我们能够直接采样的情况下.Metropolis-Hastings作 为一个通用的框架,它的缺点就在于它过于灵活.转移提议分布。(.;.)如果选择得不好,很 有可能每次提议都被拒绝

16、(即顷2 T项)总是很小),于是造成状态迟迟维持不变,影响马尔可 夫链收敛的速度.在Gibbs采样中:我们假设系统由m个变量构成,不妨定义系统状态X三(吼阳,xm 并且对于任一变量我们能够直接从条件分布PEtE+i,双血)中为其采 样.Gibbs采样算法的流程如下:算法LI (Gibbs采样算法)初始化系统状态为X().初始化时间t 0.对每个变量Xi, z G按以下条件概率对其采样P (砖中)IZ件 1), . . .,云拦)t 七-t + 1.若t少于足够的转移次数,则返回第3步.返回X(。作为采集到的样本.和Metropolis-Hastings采样相比,Gibbs采样的一大特点是,不存

17、在接受概率a,因此, 状态转移总是能够实行所以它往往比Metropolis-Hastings具有更快的收敛速度.参考文献Asja Fischer, Christian Igel. An Introduction to Restricted Boltzmann Machines. Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications Lecture Notes in Computer Science Volume 7441, 2012, pp 14-36.胡洋.基于马尔可夫链蒙特R罗方法的RBM学习算法改进.硕士学位论文,上海交通大 学,2012.张春霞,姬楠楠,王冠伟.受限玻尔兹曼机简介J. 2013.Hinton G.E.: Training products of experts by minimizing contrastive divergence. Neural Computation 14, 1771-1800 (2002)Welling, M.: Product of experts. Scholarpedia 2(10), 3879 (2007)阮一峰的博客 HYPERLINK /blog/20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论