




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、人工神经网络及其应用人工神经网络及其应用 第六讲第六讲 随机神经网络随机神经网络 第六讲第六讲 随机神经网络随机神经网络 主讲内容主讲内容 6 6.1 .1 模拟退火算法模拟退火算法 6 6.2 .2 Boltzmann机机 6 6. .3 3 受限受限Boltzmann机机 6 6. .4 4 模糊神经网络的基本概念和原理模糊神经网络的基本概念和原理 第六讲第六讲 随机神经网络随机神经网络 确定型神经网络:确定型神经网络: 解决全局最优化问题时,容易陷入系统的局部极小,对输入数据要求的精度 高,问题求解依赖于领域知识; 在生物神经元中由于有各种各样的干扰这实际上是很难实现给定神经元的输 入其
2、输出就是确定的。同时人工神经元的硬件实现也会有各种扰动,从而带来某 些不确定性, 因此讨论随机神经元显得必要且必需。 随机型神经网络:随机型神经网络: 系统中引入随机波动,摆脱局部极小,从而收敛于全局极小,适合于模糊的 、带噪声的输入数据;问题求解不依赖或很少依赖于领域知识; 随机型神经网络引入随机过程、概率和能量等概念来调整网络的变量,从而 使网络达到全局最优; 网络的变量可以是连接权,也可以是神经元节点的状态。在学习过程中,要 考虑网络的变量随机变化时,网络的能量函数变化。 如果能量变得更小,就接受这种变化;(网络性能改善) 如果能量没有变化或者变大了(网络性能变差) ,就以某概率分布接受
3、这种 变化,这就相当于给网络的变量引入“噪声”,使网络容易跳出能量函数局部极 小,而向全局极小方向发展。 随机神经网络中建立随机机制:随机神经网络中建立随机机制: 随机型神经元激励函数,Boltzmann机 随机型连接权。 随机系统的数据表示精度:随机系统的数据表示精度: 通过分布式信息表达方式,采用大规模并行分布式处理实现强大的容错 性; 6 6.1 .1 模拟退火算法模拟退火算法 6 6.1.1 .1.1 模拟退火算法基本思想模拟退火算法基本思想 6 6.1.2 .1.2 MetropolisMetropolis接受准则接受准则 6 6.1.3.1.3 模拟退火算法模拟退火算法 6 6.1
4、.4 .1.4 模拟退火算法的收敛性模拟退火算法的收敛性 6 6.1.1.5 5 模拟退火算法的参数控制问题模拟退火算法的参数控制问题 C B A 快速下降法 6 6.1 .1 模拟退火算法模拟退火算法 基本思想基本思想: 控制连接权修改大小控制连接权修改大小; 修改允许网络的性能暂时变差修改允许网络的性能暂时变差; 修改量的大小和网络的修改量的大小和网络的“能量能量”相关相关; 依据网络的能量和温度来决定联接权的调整量(即步长)依据网络的能量和温度来决定联接权的调整量(即步长). 如何逃离局部极小如何逃离局部极小? ? 6 6.1 .1 模拟退火算法模拟退火算法 模拟退火算法: 1983年提
5、出,基于Monte Carlo 迭代求解法,进行启发式随机搜索算法,模拟 退火过程,寻找全局最优解方法。 是模拟冷却晶体的过程。 最早1953年由Metropolis等人提出 1982年,Kirkpatrick等人将其运用在求最佳化 的问题 金属中原子的能量与温度有关金属中原子的能量与温度有关 原子能量愈高,有能力摆脱其原来的能量状态而最后达到一个更加稳定原子能量愈高,有能力摆脱其原来的能量状态而最后达到一个更加稳定 的状态的状态全局极小能量状态全局极小能量状态 金属的退火过程中,能量的状态分布金属的退火过程中,能量的状态分布 ( ) ( ( )exp i i c s p c s kT P(c
6、(Si) c(Si)系统处于具有能量系统处于具有能量c(Si)的状态的概率的状态的概率 C(si)表示系统在状态表示系统在状态si下的内能下的内能 kBoltzmann常数常数 T系统的绝对温度系统的绝对温度(Kelvin) 6 6.1 .1 模拟退火算法模拟退火算法 6 6.1.1 .1.1 模拟退火算法基本思想模拟退火算法基本思想 一个物体(例如金属)的退火过程大体上是这样的:首先对该物体加热(熔化),那么物体内的原子就可高速自 由运行,处于较高的能量状态。但是作为一个实际的物理系统,原子的运行总是最低的能态。一开始温度较高时, 高温使系统具有较高的内能,而随着温度的下降,原子越来越趋向于
7、低能态,最后整个物体形成最低能量的基态 高温情况高温情况 T足够大,对系统所能处的任意能量状态足够大,对系统所能处的任意能量状态c(si),有概率趋于,有概率趋于1. () limexp()1 i T c s kT 中温情况中温情况 T比较小,比较小, c(si)的大小对的大小对P(c(si)有较大的影响有较大的影响 ,设,设c(s1) c(s2), P(c(s2)P(c(s1)。 即系统处于高能量状态的可能性小于处于低能量状态的可能性即系统处于高能量状态的可能性小于处于低能量状态的可能性 1 2 0 ( ( ) lim0 ( ( ) T P c s P c s 低温情况低温情况 T非常小,非
8、常小, c(si)的大小对的大小对P(c(si) 的影响非常大的影响非常大 ,设,设c(s1) c(s2), P(c(s2)P(c(s1)。 即当温度趋近于即当温度趋近于0时,系统几乎不可能处于高能量状态时,系统几乎不可能处于高能量状态 6 6.1 .1 模拟退火算法模拟退火算法 降温过程降温过程 高温高温低温低温 原子运动平稳原子运动平稳 原子激烈随机运动原子激烈随机运动 能量与温度相关能量与温度相关 步长与能量和温度相关步长与能量和温度相关 步长与能量相关步长与能量相关 步长大步长大步长小步长小可逃离可逃离 难逃离难逃离 大大 小小 高高低低 高能量高能量 低能量低能量 目标函数值目标函数
9、值网络的能量网络的能量 训练训练 步长步长 与能与能 量、量、 温度温度 关系关系 6 6.1 .1 模拟退火算法模拟退火算法 基本思想基本思想是把某类优化问题的求解过程与统计热力学中的热平衡问题进行对比,试图通过模拟高温物体退火过程的 方法,来找到优化问题的全局最优或近似全局最优解。 6 6.1 .1 模拟退火算法模拟退火算法 模拟退火算法与传统的启发式搜索算法模拟退火算法与传统的启发式搜索算法 传统的启发式搜索算法传统的启发式搜索算法 每次向改变解的方向搜索,容易导致局部极小。 局部搜索: 通过局部调整来达到某个极大值 局部搜索的缺点: 容易遇到局部最大值 侧向移动:在无法找到一个更好的解
10、的时候,选择一个相等的解。 需要限制侧向移动的步数,因为很容易陷入死循环。 模拟退火算法模拟退火算法 模拟退火算法是把局部搜索和随机化思想结合起来应用。 在每次选择局部调整的时候,随机选择一个调整方案。如果调整 方案得到的解优于当前解,则接受。否则以某个小于1的概率接 受。这个概率和解的“恶劣程度”成指数关系,越“恶劣”则越 小。并且随着迭代的深入,这个概率也会越来越小。 6 6.1 .1 模拟退火算法模拟退火算法 6 6.1.2 .1.2 MetropolisMetropolis接受准则接受准则 MetroplisMetroplis抽样抽样过程过程 系统从一个状态s1变化到另一个状态s2,对
11、应的能量从c(s1)变化到c(s2),概率: 21 ()()c sc s kT p=e (1)如果系统c(s2)-c(s1)0,系统以一个概率接受为当前状态,或保留原状态为当前状态。 经过一定次数迭代,系统会逐步趋于稳定的分布状态(能量最小),-Metropolis抽样过程 6 6.1 .1 模拟退火算法模拟退火算法 , ()min() () ii i ii ss c sc sss s c ssT 11ni i 设可能的状态集s= s ss,对于目标函数c(s )0,反映 取状态s 为解的代价,组合优化问题可以表达为寻找,满足 其中组合状态表示为动力系统的微观状态, :系统在状态 下内能;:控
12、制参数(类比温度) 让T从足够高的值慢慢下降,对每个T,用Metropolis(M) 抽样法模拟在此T下的热平衡态,也就是对当前状态s做随机扰动产 生一个 () () ()( 1 () i i c kT c s kT c s kT i e s Boltzmann fz T ekBoltzmann z T e i 新状态s ,增量c =c(s )-c(s),并以概率 接受作为新的当前状态,重复多次随机扰动,状态s 出现为当前状态 概率将服从分布: 为常数) 其中Metropolis抽样方法退火组织模拟解决问题的方法 ,设计微观状态的转变概率和建立平衡条件是实现 Metropolis抽样的关键 6
13、 6.1.1.3 3 模拟退火算法模拟退火算法 6 6.1 .1 模拟退火算法模拟退火算法 2 , M c j j j 三个部分组成: 1 生成函数generate(s) 以一定的概率密度函数跃迁到新的状态,是从s的邻域N随 机产生下一个状态s。 容忍函数accept(j,s)抽样法 以一定的概率密度容忍评价函数的偶然上升,即当c 则接受 为新的当前状态,否则仅以一定概率接受j为新的当前状 态。 3 随机扰动强度 以一定的冷却程式降低温度,这是生成函数和容忍函数中的 控制参量T。 6 6.1 .1 模拟退火算法模拟退火算法 初使化 随机产生一个初始解 扰动产生一个新解 是否接受? 修改当前解
14、降温 降低温度 是否达到中止条件? 最佳解 No Yes Yes Yes No No 通用性强的全局 随机搜索算法, 可以达到全局极 小 系统沿能量减少 的方向搜索时, 偶尔允许搜索较 差的解,以避开 局部极小 (最大优点:跳开 局部最优解陷阱 的能力) 收敛慢 SASA算算法法程程 6 6.1 .1 模拟退火算法模拟退火算法 6 6.1.1.4 4 模拟退火算法的收敛性模拟退火算法的收敛性 0 ( )( ), ( )0, 1( ) jijj j ij ij ijiji iji ik SA gij jNgN N aij ga g Ta TjNji p TjNji pTj ij ij 算法的分析
15、工具非平衡的马尔可夫链 对于生成函数:表示在状态空间从状态 产生状态 的概率, 如果,;(为状态空间的一个子集, s) 接受函数 : 表示当前状态 时,接受 为新的当前状态的概率 (接受概率); 依据和获得马尔可夫链的一步转移概率: , i k N i js i 6 6.1 .1 模拟退火算法模拟退火算法 6 6.1.1.5 5 模拟退火算法的参数控制问题模拟退火算法的参数控制问题 温度 温度T的初始值设置的初始值设置 影响SA算法全局搜索性能的重要因素之一。 初温高,则搜索到全局最优解的可能性大,但计算时间长; 初温低,则可节约计算时间,但可能影响全局搜索性能。 实际应用过程中,初温一般需要
16、依据实验结果进行若干次调整 退火速度 退火速度 SA算法的全局搜索性能与退火速度密切相关。 同一温度下,要“充分”搜索(退火),但很费时。实际应用中,要针对具体问题的性质和特征设置 合理的退火平衡条件。 温度管理 温度管理 是SA算法难以处理的问题之一 6 6.2 .2 Boltzmann机机 6 6.2.1 Boltzmann.2.1 Boltzmann机模型机模型 6 6.2.2 Boltzmann.2.2 Boltzmann机能量函数机能量函数 6 6.2.3 .2.3 网络状态的网络状态的BoltzmannBoltzmann分布分布 6 6.2.4 Boltzmann.2.4 Bolt
17、zmann机的学习算法机的学习算法 6.2.56.2.5 Boltzmann Boltzmann机的不足与问题机的不足与问题 6 6.2 .2 Boltzmann机机 图模型图模型 hidden i j visible hidden i j visible 无向图模型 无向图模型 推理无观测的变量状态容易 推理无观测的变量状态容易 学习(调整变量之间权使得网络更可能生成观测数据)和生成过程难 学习(调整变量之间权使得网络更可能生成观测数据)和生成过程难 有向图模型 有向图模型 推理难 推理难 学习与生成过程简单 学习与生成过程简单 产生式模型( 产生式模型(G enerative model)
18、 可以捕获因果过程,生成新的观测数据可以捕获因果过程,生成新的观测数据 概率分布概率分布 联合概率分布 联合概率分布 边缘概率分布 边缘概率分布 条件概率分布 条件概率分布 6 6.2 .2 Boltzmann机机 1985年由Hinton等人利用统计物理学概念和方法提出来的。在节 点的状态变化中引入概率。 6 6.2.1 Boltzmann.2.1 Boltzmann机模型机模型(BM(BM模型)模型) 对于n个节点的神经网络,各节点仅有0,1两种状态,并存在 对称连接权矩阵。当网络的神经元输入加权和发生变化时,节点 将以下列概率发生状态变化: i S 1 1 exp() (0)(1) i
19、i iii ii p E T EE SE ST EP Boltzmann 其中, :网络的温度, 当输入增大时,概率 增加。节点i的状态变化是异步的。 机的网络结构: 多层网络,包括输入层、隐含层和输出层,但是网络 的层次不分明,隐含层单元互连,网络状态按概率方式 转移。 6 6.2 .2 Boltzmann机机 输入层 隐含层输出层 Boltzmann机结构 BoltzmannBoltzmann机是多级循环网络,是机是多级循环网络,是HopfieldHopfield网的一种扩展网的一种扩展. . T T趋近于趋近于0 0时,神经元的状态不再具有随机性,时,神经元的状态不再具有随机性,Bolt
20、zmannBoltzmann机退化成一般机退化成一般HopfieldHopfield网。网。 与与Hopfield不同之处:在网络中引入了状态转换的不确定性,并利用模拟退火算法,通过改变温度参数控不同之处:在网络中引入了状态转换的不确定性,并利用模拟退火算法,通过改变温度参数控 制这种不确定性。从而增加网络在状态转移过程中逃逸出稳态的可能性。制这种不确定性。从而增加网络在状态转移过程中逃逸出稳态的可能性。 6 6.2 .2 Boltzmann机机 Boltzmann机 机模型模型 一层输入层与一层隐含层 一层输入层与一层隐含层 每个单元典型二元状态 每个单元典型二元状态 随机性 随机性vs确定
21、性确定性 周期性 周期性vs前馈前馈 生成模型 生成模型 (vs判别判别): 估计观测的分布,而传统判别网络仅估计标签估计观测的分布,而传统判别网络仅估计标签 网络的定义能量与单元的状态概率 网络的定义能量与单元的状态概率 : )/ )( 1 1 ) 1( 1 , )( m i ijij T E j Tsws e sP j iji ji ji i i swssasE , )( Boltzmann机 12 , N s sss= 6 6.2 .2 Boltzmann机机 随机搜索 在传统网络中不同优化准则与以优化目的的 在传统网络中不同优化准则与以优化目的的RBM: 传统方法 传统方法: 误差准则
22、。误差准则。 BP 方法严格按照梯度下降方向。不接受使得误差增大的任何方向。容易陷入方法严格按照梯度下降方向。不接受使得误差增大的任何方向。容易陷入 局部极小局部极小 BM方法 方法: 网络与网络与”能量能量”联系。联系。模拟退火法(SA)使得能量在一定的概率增长 6 6.2 .2 Boltzmann机机 6 6.2.2 Boltzmann.2.2 Boltzmann机能量函数机能量函数 ,01 iji Ei jSSi状态k下的能量 。节点的状态 ,为节点 的阈值。 在能量函数E中,E的极小点对应于动力学系统的稳定平稳点,要 解决局部极小问题,可以采用模拟退火算法SA。 11,1 NNN ij
23、 ijii ijiji w s ss E=- 单个神经元i的能量 01 1 ii N issijji j w s E =E-E 网络的能量函数 单个神经元i的不同状态下的概率 1 i s 1 1 1 i i sE T p e = 0 i s 01 1 i ii i E T ssE T e pp e =1- 6 6.2 .2 Boltzmann机机 6 6.2.3 .2.3 网络状态的网络状态的BoltzmannBoltzmann分布分布 高温时网络的各个状态出现的概率基本相同,这就给它逃离局部极小点提供了机会 当系统的温度较低时,如果EP :网络处于较低能量状态的概率较大 单个神经元i的2个状
24、态状态下的概率比 01 0 1 ss iii i i EE E s TT s p ee p = 网络的两个全局状态 和 及其对应能量 和 S ()E S ()E S S 两个全局状态的概率比 ()() e E SE S T p p 6 6.2 .2 Boltzmann机机 6 6.2.4 Boltzmann.2.4 Boltzmann的学习算法的学习算法 越大的K,多重积分实现非常复杂 解决办法:吉布斯采样法(Gibbs Sampling) 一种马尔科夫链算法,可称马尔科夫链蒙特卡洛法(MCMC) ( |)pX 未知参数向量 12 , T K 采集数据X 求解基于X的未知参数的边缘概率密度,要
25、对联合概率密度中其它所有参数多重积分 111 (|)( |),1 jjjK pXpX ddddjK 基本思想:对联合概率密度 进行随机采样,再利用这些随机样本估计边缘概率密度 吉布斯采样法(吉布斯采样法(Gibbs Sampling) 6 6.2 .2 Boltzmann机机 6 6.2.4 Boltzmann.2.4 Boltzmann的学习算法的学习算法 吉布斯采样过程: (0)(0)(0)(0) 12 , T K 抽取样本 获得的样本向量序列符合一个马尔可夫链 初始值 从概率密度 ( )( ) 12 (|,) ii K pX ) 1 i ( 抽取样本 从概率密度 ( )( )( ) 21
26、3 (|,) iii K pX ) 2 i ( 抽取样本 从概率密度 ( )( ) 211 (|,) ii K pX ) i K ( ( -1)( )( +1) , iii , 在联合概率分布未知时,进行采样,每次迭代训练BM。设置一个收敛到模型分布的马 尔科夫链,并运行到平衡状态 6 6.2 .2 Boltzmann机机 2 2 ( ) 1 (1)(0) log(1) x T Boltzmann aT b cBoltzmannp xe d cBoltzmann eT nT n fcf 机学习算法过程 、设置温度参数 为高,并随机设置网络的全部连接权; 、外加一个输入向量,用连接权计算目标函数
27、; 、依据分布,随机地改变每个连接权; 、重新计算目标函数,如减少,则改变固定连接权值, 否则,由 步分布决定的概率来确定改变; 、用公式计算新的温度值; 、重复 到 。 6 6.2 .2 Boltzmann机机 6.2.5 Boltzmann机机的不足与问题的不足与问题 MCMC采样估计需要经过许多步的状态转移才能保证采集的样本符合目标分布 MCMC方法的优点方法的优点 -可以实现对各种类型概率分布的抽样 MCMC方法缺点方法缺点 -在达到稳定分布之前需要进行多次状态转移,收敛过程很慢 -至今缺乏一个简单可靠的方法来判断抽样是否已达到稳定分布 6 6. .3 3 受限受限Boltzmann机
28、机 6 6. .3 3.1.1受限受限BoltzmannBoltzmann机机(RBMRBM)网络结构)网络结构 6 6. .3 3.2.2 能量函数与概率分布能量函数与概率分布 6 6. .3 3.3.3 RBM RBM参数训练方法参数训练方法-对数似然函数对数似然函数 6 6. .3 3. .4 RBM4 RBM参数训练方法参数训练方法-梯度计算梯度计算 6 6. .3 3. .5 RBM5 RBM参数训练方法参数训练方法-对比散度对比散度 6.3.6 RBM6.3.6 RBM的权学习算法的权学习算法 受限受限Boltzmann机机 1986年Hinton和Sejnowski提出的一种生成
29、式随 机神经网络(generative stochastic neural network ) 6 6. .3 3 受限受限Boltzmann机机 6.3.1 受限受限Boltzmann机机网络结构网络结构 下章深度信任网络基础 6 6. .3 3 受限受限Boltzmann机机 定义 定义RBM的两个特性的两个特性: 所有单元状态 所有单元状态: 通过概率分布获得通过概率分布获得 网络的权 网络的权: 通过训练(对比散度:通过训练(对比散度: Contrastive Divergence )获得)获得 RBM的目标就是估计输入数据的分布。 的目标就是估计输入数据的分布。 已知输入,此目标完全
30、由权确定。已知输入,此目标完全由权确定。 为 为RBM定义的能量定义的能量: iji ij jj j ji i i vwhhbvahvE , ),( RBM的可见层分布 的可见层分布(Boltzmann 分布分布): h hvE e Z vP ),( 1 )( Z是是 partition function,对所有可能的,对所有可能的v,h的配置定义为的配置定义为 ( , ) z E v h e 处于状态处于状态1的的单元单元i的概率为(的概率为( (.) logistic/sigmoid函数函数 ) )()| 1( 1 , m i ijijj vwbvhP RBMRBM 受限受限Boltzma
31、nn机机网络结构网络结构 6 6. .3 3 受限受限Boltzmann机机 两层结构两层结构 可见层(可见层(Visible layer):描述观测数据描述观测数据 隐藏层隐藏层 (hidden layer):获取可见层单:获取可见层单 元对应变量之间依赖关系(特征提取层)元对应变量之间依赖关系(特征提取层) 二分图二分图层内无连接,层间全互连层内无连接,层间全互连 所有神经元都是二值的所有神经元都是二值的 当给定可见层神经元状态时,各隐藏层神经元的激活条件独立;反当给定可见层神经元状态时,各隐藏层神经元的激活条件独立;反 之,当给定隐藏层神经元状态时,可见层神经元的激活也条件独立之,当给定
32、隐藏层神经元状态时,可见层神经元的激活也条件独立 受限受限Boltzmann机机网络结构网络结构 6 6. .3 3 受限受限Boltzmann机机 RBM中参数中参数 6.3.2 能量函数与概率分布能量函数与概率分布 6 6. .3 3 受限受限Boltzmann机机 RBM模型中,给定状态(模型中,给定状态(V,h)能量函数能量函数 状态(状态(V,h)的联合概率分布的联合概率分布 归一化因子归一化因子 观测数据观测数据V、隐藏变量、隐藏变量h分别对应的概率分布分别对应的概率分布 边缘分布边缘分布 能量函数与概率分布能量函数与概率分布 6 6. .3 3 受限受限Boltzmann机机 给
33、定可见层状态给定可见层状态v,可以推导隐藏层上某个神经元被激活的概率,可以推导隐藏层上某个神经元被激活的概率 同样可推导可见层上某个神经元被激活的概率同样可推导可见层上某个神经元被激活的概率 6.3.3 RBM参数训练方法参数训练方法-对数似然函数对数似然函数 6 6. .3 3 受限受限Boltzmann机机 是RBM的参数W, a, b, 其中,W为可见单元和隐藏单元之间权重,b和a分别为可见单元和隐藏单元的 偏置 其中Z()是归一化因子 给定训练样本,训练给定训练样本,训练RBM参数,拟合给定的训练样本,使得在该参数参数,拟合给定的训练样本,使得在该参数 下由下由RBM表示的概率分布尽可
34、能符合训练数据表示的概率分布尽可能符合训练数据 可见变量v和隐藏变量h的联合配置的能量为 联合配置的能量为 v v和 和h h的联合概率的联合概率 6.3.3 RBM参数训练方法参数训练方法-对数似然函数对数似然函数 6 6. .3 3 受限受限Boltzmann机机 已知独立同分布( 已知独立同分布( i.i.d.)训练样本)训练样本, 训练训练RBM就是最大化如下对数似然函数就是最大化如下对数似然函数: () (1)() () W L WW W 权( 权(W)的更新计算)的更新计算: () 1 ()() N n n LPv () 1 1 ()log()log() N n n LLPv N
35、最大化观测数据的似然函数P(v)可以由P(v,h)对h的边缘分布得到 6.3.4 RBM参数训练方法参数训练方法-梯度计算梯度计算 6 6. .3 3 受限受限Boltzmann机机 给定训练样本,训练给定训练样本,训练RBM参数,拟合给定的训练样本,使得在该参数,拟合给定的训练样本,使得在该 参数下由参数下由RBM表示的概率分布尽可能符合训练数据表示的概率分布尽可能符合训练数据 上面计算复杂度较高,常采用上面计算复杂度较高,常采用Gibbs采样方法采样,再用采样样本估计采样方法采样,再用采样样本估计 采用采用Gibbs采样,问题:采样,问题: (1)需要足够次数的状态转移才能保证采样样本符合
36、目标分布)需要足够次数的状态转移才能保证采样样本符合目标分布 (2)需要大量样本)需要大量样本 6.3.5 RBM参数训练方法参数训练方法-对比散度对比散度 6 6. .3 3 受限受限Boltzmann机机 RBM目标就是要拟合训练样本分布,要目标就是要拟合训练样本分布,要MCMC的状态以训练样本为起点的状态以训练样本为起点 ,减少状态转移次数,这就是,减少状态转移次数,这就是2002年年Hinton提出的对比散度(提出的对比散度(CD)方)方 法,这是训练法,这是训练RBM的标准方法。的标准方法。 问题:问题: 的计算可采样的计算可采样MCMCMCMC,但是很慢,并且要受到估计梯度巨大差异
37、,但是很慢,并且要受到估计梯度巨大差异 最大化数据的log概率与最小化KLKL散度散度相同 x Wxp xp xpppKL );( )( log)()|( 0 00 因此,定义CD )|()|( 0n ppKLppKLCD n 其中,n是小数 用CDn乘以学习率作为权值更新,更新方向不再是梯度方向(梯度近似) 6.3.5 RBM参数训练方法参数训练方法-对比散度对比散度 6 6. .3 3 受限受限Boltzmann机机 通过随机梯度下降 通过随机梯度下降(stichastic gradient descent)来最大化来最大化L(),先,先L()对对W的导数的导数 经过简化可以得到: ()
38、data PijPij ij L Ev hEv h W 其中() data Pijij Ev hv h p v,h v, h 只需要求vihj在全部数据集上的平均 值即可 在 在RBM,在两个单元之间特别的权值计算变为,在两个单元之间特别的权值计算变为 () data ijPijPij WEv hEv h 后一项与模型有关 6.3.5 RBM参数训练方法参数训练方法-对比散度对比散度 6 6. .3 3 受限受限Boltzmann机机 关于计算问题 关于计算问题 Pij Ev h 涉及到v,h的全部2|v|+|h|种组合,计算量非常大(基本不可解)。Hinton等人提出了一种高效的学习算法-C
39、D, 其基本思想如下图所示: 先由数据v得到h的状态,再通过h来重构可见向量v1,然后,再由v1生成新的隐藏向量h1。 因RBM的特殊结构(层内无连接,层间有连接), 因此,在给定v时,各个隐藏单元hj的激活状态之间是相互独 立的,反之,在给定h时,各个可见单元的激活状态vi也是相互独立的。 6.3.5 RBM参数训练方法参数训练方法-对比散度对比散度 6 6. .3 3 受限受限Boltzmann机机 关于计算问题 关于计算问题 Pij Ev h 重构的可见向量v1和隐藏向量h1就是对P(v,h)的一次抽样,多次抽样得到的样本 集合可以看做是对P(v,h)的一种近似,易于计算 Pij Ev
40、h 6.3.6 RBM的权学习算法的权学习算法 6 6. .3 3 受限受限Boltzmann机机 (1)取一个样本数据,把可见变量的状态设置为这个样本数据。随机初始化W。 (2)根据P(h|V)更新隐藏变量的状态,亦即hj以P(hj=1|v)的概率设置为状态1,否则为0。再对每个边 vihj,计算Pdata(vihj) = vi * hj (注意,vi和hj的状态都是取0,1)。-“正梯度” (3)根据h的状态和式P(V|h)来重构v1,并根据v1和P(h|V)来求得h1,计算Pmodel(v1ih1j)=v1i*h1j。 -“负梯度” (4)更新边vihj的权重Wij为 Wij = *(P
41、data(vihj)- Pmodel(v1ih1j) 取下一个数据样本,重复1-4的步骤。 以上过程迭代K次。 对比散度的不足对比散度的不足 6 6. .3 3 受限受限Boltzmann机机 近似的概率分布差异度量近似的概率分布差异度量CD取代原始取代原始RBM训练算法中的概率分布训练算法中的概率分布 差异度量差异度量KL散度散度 对对CD算法的收敛性问题算法的收敛性问题-缺乏完整的理论证明(有偏性分析)缺乏完整的理论证明(有偏性分析) 6 6. .4 4 模糊神经网络的基本概念和原理模糊神经网络的基本概念和原理 6 6. .4 4.1 .1 神经网络与模糊系统的区别神经网络与模糊系统的区别 6 6. .4 4.2 .2 模糊神经网络的概念和结构模糊神经网络的概念和结构 6 6. .4 4.3 .3 模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人力资源管理部员工培训
- 影像技术在心血管疾病中的应用
- 撕纸游戏的教育意义及在家长会中的应用
- 幼师全员培训心得
- 山东省济南市2024-2025学年高三上学期1月期末考试 英语 含解析
- 心肌梗塞的治疗及护理
- 公文处理培训课件
- 急黄的护理课件
- 大酒店服务知识培训课件
- 少儿插画美术课件
- 2022版义务教育(道德与法治)课程标准(附课标解读)
- 仪容仪表礼节礼貌培训(定)
- 2023年衢州市属事业单位选调考试真题及答案
- 新生儿口腔行为运动干预
- 拓展天然气在中国的利用
- 2024年黄冈职业技术学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 如何处理压力和焦虑
- 依法治企知识讲座课件
- 《我和书的故事》作文指导课件
- 《蚁群算法》课件
- 2024年中铁十二局集团有限公司招聘笔试参考题库含答案解析
评论
0/150
提交评论