理解玻尔兹曼机和深度学习课件_第1页
理解玻尔兹曼机和深度学习课件_第2页
理解玻尔兹曼机和深度学习课件_第3页
理解玻尔兹曼机和深度学习课件_第4页
理解玻尔兹曼机和深度学习课件_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

理解玻尔兹曼机和深度学习侯越先天津大学网络智能信息技术研究所2014-11-03理解玻尔兹曼机和深度学习侯越先1动机解释玻尔兹曼机(BM)和深度学习(DL)模型的经验成功启发面向维数约简、信息抽象和去噪应用的新颖方法和模型动机解释玻尔兹曼机(BM)和深度学习(DL)模型的经验成功2存在的解释神经生理解释通用近似解释(可近似性和近似复杂性)规则化解释存在的解释神经生理解释3我们的观点现有解释中包含了有益的启发现有解释远不完备,玻尔兹曼机和深度学习的有效性需要基于“第一原则”的形式化澄清信息几何为形式化解释提供了理论工具我们的观点现有解释中包含了有益的启发4维数约简、信息抽象和去噪的“第一原则”第一原则:维数约简、信息抽象和去噪应该尽可能地保留数据中的主要信息,同时滤除噪声或次要信息“第一原则”能否被一般地实现?维数约简、信息抽象和去噪的“第一原则”第一原则:维数约简、信5存在的方法常用维数约简、信息抽象和去噪算法实现了“第一原则”吗?例子:PCA例子:低通滤波存在的方法常用维数约简、信息抽象和去噪算法实现了“第一原则”6反思基于特征空间的模型似乎都建议在特定先验假设之上为了更一般地实现维数约简、信息抽象和去噪目的,有必要考虑替换的数据表示空间反思基于特征空间的模型似乎都建议在特定先验假设之上7我们的基本思路考虑数据的参数空间!一般地定义生成模型的参数的相对重要性根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪我们的基本思路考虑数据的参数空间!8例子:log-linear分布族与高斯分布满足

参数约减!例子:log-linear分布族与高斯分布满足

9关键技术问题如何一般地定义参数的相对重要性?解决方案:1定义概率分布或密度之间的距离度量2由参数相对于距离度量的重要性给出参数之间的相对重要性关键技术问题如何一般地定义参数的相对重要性?10度量概率分布(或密度)之间距离的“公理”

1满足基本的度量三公理2似然一致性:可有效反映统计推断的似然性度量概率分布(或密度)之间距离的“公理”

1满足基本的度量11度量概率分布(或密度)之间距离的“公理”(续1)3重参数化不变性对于概率分布(或密度)和的任两种参数化和,均有这里是距离度量

度量概率分布(或密度)之间距离的“公理”(续1)3重参数化12度量概率分布(或密度)之间距离的“公理”(续2)4相对于变量集上的随机映像的单调性:(1)如果随机映像对应于充分统计量,则距离度量不变(2)否则,距离度量减小度量概率分布(或密度)之间距离的“公理”(续2)4相对于变13是否存在同时满足上述所有公理的距离度量?存在且唯一!里程碑:1Fisher(Early1930)2Rao(1945)3Cencov(1982)是否存在同时满足上述所有公理的距离度量?存在且唯一!14Fisher-Rao度量单参数定义多参数定义

Fisher-Rao度量

15Fisher-Rao距离(信息距离)局域定义:

全局定义:

Fisher-Rao距离(信息距离)局域定义:

16Cramer-Rao下界与Fisher-Rao度量的似然一致性Fisher信息决定了参数无偏估计的方差下界单参数情形多参数情形由参数估计的渐进正态性及渐进有效性,可直接说明Fisher-Rao度量对应于参数被“误估计”的可能性(似然一致性)

Cramer-Rao下界与Fisher-Rao度量的似然一致17参数约简基本思路(Refined)1特征空间--->参数空间2利用参数的Fisher信息,定义参数的相对重要性3根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪可信信息优先原则(ConfidentInformationFirst)!参数约简基本思路(Refined)1特征空间--->参18实例:n布尔变量分布个布尔型随机变量个布尔型随机变量的参数化中的任意项,这里表示,其余类似如何对上述分布应用CIF原则?

实例:n布尔变量分布个布尔型随机变量

19实例:n布尔变量分布(续1)技术困难:各个p参数具有相等的Fisher信息解决办法:寻找替换的参数表示(利用信息几何)实例:n布尔变量分布(续1)技术困难:各个p参数具有相等的F20实例:n布尔变量分布(续2)布尔变量分布的坐标表示(即参数化)坐标:-1个归一化的正数坐标:坐标:

实例:n布尔变量分布(续2)布尔变量分布的坐标表示(即参数化21实例:n布尔变量分布(续3)混合坐标:

(l-分割混合坐标)在混合坐标系下,参数谱系的信息含量(Fisher信息)可建立显著的层次结构,且低Fisher信息含量的参数可自然地确定中立值!

实例:n布尔变量分布(续3)混合坐标:

22玻尔兹曼机与n布尔变量分布随机神经网络,网络的整体能量函数:玻尔兹曼-吉布斯分布:

BM模型参数

玻尔兹曼机与n布尔变量分布随机神经网络,

BM模型参23玻尔兹曼机与CIF原则(1)结论1(Amariet.al.,1992):给定目标概率分布:

单层波尔兹曼机(SBM)实现了2-分割混合坐标上的参数剪切,即:

l-分割混合坐标

24

24玻尔兹曼机与CIF原则(1)结论1(Amariet.al玻尔兹曼机与CIF原则(2)结论2(Zhao,Houandet.al.,2013):SBM实现的参数剪切符合CIF原则:保留具有大Fisher信息的参数,同时对小Fisher信息的参数采用中立估计。

可信参数非可信参数

玻尔兹曼机与CIF原则(2)结论2(Zhao,Houan25玻尔兹曼机与CIF原则(3)结论3(Zhao,Houandet.al.,2013):在所有同维度子流行M中,SBM所实现的映像在期望意义上最大程度地保持概率分布间的Fisher信息距离

为以为中心的KL等距球面

和分别为在上的投影

玻尔兹曼机与CIF原则(3)结论3(Zhao,Houan26玻尔兹曼机与CIF原则(4)结论4(Zhao,Houandet.al.,2013):给定联合概率分布的分数2-分割混合坐标:RBM实现了分数2-分割混合坐标下参数剪切

玻尔兹曼机与CIF原则(4)结论4(Zhao,Houan27玻尔兹曼机与CIF原则(5)结论5(Zhao,Houandet.al.,2013):RBM实现的参数剪切符合CIF原则:保留具有大Fisher信息的参数,同时对小Fisher信息的参数采用中立估计

可信参数非可信参数

玻尔兹曼机与CIF原则(5)结论5(Zhao,Houa28玻尔兹曼机与CIF原则(6)结论6(贝叶斯分析):假设背景分布中的绝大多数p项趋近于0,则可证明:由任意被BM剪切掉的参数所导致的信息距离损失典型地趋近于0;而任意被BM保留的参数所对应的信息距离典型地大于0。

,为小常数,为任意小常数,为的阶数

玻尔兹曼机与CIF原则(6)结论6(贝叶斯分析):假设背景分29深度结构多层CIF原则的应用逐层保持可信信息、并实现信息抽象在最高层同时达到“最可信”和“最抽象”的目标深度结构多层CIF原则的应用30训练波尔兹曼机:

-MaximumLikelihoodandContrastiveDivergenceML目标:最大化log似然函数随机梯度方法

分别表示在样本分布稳态分布和迭代次的近似稳态分布上的期望值

正Gibbs采样:

负Gibbs采样:

CD-m:使用近似梯度

训练波尔兹曼机:

-MaximumLikelihooda31受限波尔兹曼机(RBM)

-迭代映像算法(IP)为所有RBM稳态分布的集合为正Gibbs采样的样本分布的集合

最小化KL距离:背景分布边际稳态分布

受限波尔兹曼机(RBM)

-迭代映像算法(IP)为所有RBM32任务:5个显式变量概率密度估计受限波尔兹曼机

-迭代映像算法(IP)任务:5个显式变量概率密度估计受限波尔兹曼机

-迭代映像算法33基于CIF的模型选择最小化模型误差最大保持Fisher信息距离如何区分可信参数及非可信参数?对Fisher信息距离的贡献程度大小结论:对于布尔分布,BM为同等参数规模下的最优模型。基于CIF的模型选择最小化模型误差最大保持Fisher信息34对BM的模型选择---无隐含节点参数过多模型复杂过度拟合样本权衡:模型复杂度vs保留的样本信息保留可信参数,约减非可信参数abcdabcd对BM的模型选择---无隐含节点参数过多模型复杂过度拟合35BM模型选择---无隐含节点评价:10变量的概率密度估计;对比模型:随机选边横轴:参数保留比率纵轴:与样本分布(第一行)和真实分布(第二行)的KL距离BM模型选择---无隐含节点评价:10变量的概率密度估计;对36BM模型选择---有隐含节点权衡:模型复杂度vs保留的样本信息RBM+可视结点边BM模型选择---有隐含节点权衡:模型复杂度vs保留的样37BM模型选择---有隐含节点评价:10变量的概率密度估计(隐变量10个);对比模型:随机选边横轴:参数保留比率;纵轴:与样本分布(第一行)和真实分布(第二行)的KL距离BM模型选择---有隐含节点评价:10变量的概率密度估计(隐38问题和回答X.Zhao,Y.Houetal:UnderstandingDeepLearningbyRevisitingBoltzmannMachines:AnInformationGeometryApproach.CoRRabs/1302.3931(2013).XiaozhaoZhao,YuexianHouetal:ExtendingtheExtremePhysicalInformationtoUniversalCognitiveModelsviaaConfidentInformationFirstPrinciple.Entropy16(7):3670-3688(2014).问题和回答39理解玻尔兹曼机和深度学习侯越先天津大学网络智能信息技术研究所2014-11-03理解玻尔兹曼机和深度学习侯越先40动机解释玻尔兹曼机(BM)和深度学习(DL)模型的经验成功启发面向维数约简、信息抽象和去噪应用的新颖方法和模型动机解释玻尔兹曼机(BM)和深度学习(DL)模型的经验成功41存在的解释神经生理解释通用近似解释(可近似性和近似复杂性)规则化解释存在的解释神经生理解释42我们的观点现有解释中包含了有益的启发现有解释远不完备,玻尔兹曼机和深度学习的有效性需要基于“第一原则”的形式化澄清信息几何为形式化解释提供了理论工具我们的观点现有解释中包含了有益的启发43维数约简、信息抽象和去噪的“第一原则”第一原则:维数约简、信息抽象和去噪应该尽可能地保留数据中的主要信息,同时滤除噪声或次要信息“第一原则”能否被一般地实现?维数约简、信息抽象和去噪的“第一原则”第一原则:维数约简、信44存在的方法常用维数约简、信息抽象和去噪算法实现了“第一原则”吗?例子:PCA例子:低通滤波存在的方法常用维数约简、信息抽象和去噪算法实现了“第一原则”45反思基于特征空间的模型似乎都建议在特定先验假设之上为了更一般地实现维数约简、信息抽象和去噪目的,有必要考虑替换的数据表示空间反思基于特征空间的模型似乎都建议在特定先验假设之上46我们的基本思路考虑数据的参数空间!一般地定义生成模型的参数的相对重要性根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪我们的基本思路考虑数据的参数空间!47例子:log-linear分布族与高斯分布满足

参数约减!例子:log-linear分布族与高斯分布满足

48关键技术问题如何一般地定义参数的相对重要性?解决方案:1定义概率分布或密度之间的距离度量2由参数相对于距离度量的重要性给出参数之间的相对重要性关键技术问题如何一般地定义参数的相对重要性?49度量概率分布(或密度)之间距离的“公理”

1满足基本的度量三公理2似然一致性:可有效反映统计推断的似然性度量概率分布(或密度)之间距离的“公理”

1满足基本的度量50度量概率分布(或密度)之间距离的“公理”(续1)3重参数化不变性对于概率分布(或密度)和的任两种参数化和,均有这里是距离度量

度量概率分布(或密度)之间距离的“公理”(续1)3重参数化51度量概率分布(或密度)之间距离的“公理”(续2)4相对于变量集上的随机映像的单调性:(1)如果随机映像对应于充分统计量,则距离度量不变(2)否则,距离度量减小度量概率分布(或密度)之间距离的“公理”(续2)4相对于变52是否存在同时满足上述所有公理的距离度量?存在且唯一!里程碑:1Fisher(Early1930)2Rao(1945)3Cencov(1982)是否存在同时满足上述所有公理的距离度量?存在且唯一!53Fisher-Rao度量单参数定义多参数定义

Fisher-Rao度量

54Fisher-Rao距离(信息距离)局域定义:

全局定义:

Fisher-Rao距离(信息距离)局域定义:

55Cramer-Rao下界与Fisher-Rao度量的似然一致性Fisher信息决定了参数无偏估计的方差下界单参数情形多参数情形由参数估计的渐进正态性及渐进有效性,可直接说明Fisher-Rao度量对应于参数被“误估计”的可能性(似然一致性)

Cramer-Rao下界与Fisher-Rao度量的似然一致56参数约简基本思路(Refined)1特征空间--->参数空间2利用参数的Fisher信息,定义参数的相对重要性3根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪可信信息优先原则(ConfidentInformationFirst)!参数约简基本思路(Refined)1特征空间--->参57实例:n布尔变量分布个布尔型随机变量个布尔型随机变量的参数化中的任意项,这里表示,其余类似如何对上述分布应用CIF原则?

实例:n布尔变量分布个布尔型随机变量

58实例:n布尔变量分布(续1)技术困难:各个p参数具有相等的Fisher信息解决办法:寻找替换的参数表示(利用信息几何)实例:n布尔变量分布(续1)技术困难:各个p参数具有相等的F59实例:n布尔变量分布(续2)布尔变量分布的坐标表示(即参数化)坐标:-1个归一化的正数坐标:坐标:

实例:n布尔变量分布(续2)布尔变量分布的坐标表示(即参数化60实例:n布尔变量分布(续3)混合坐标:

(l-分割混合坐标)在混合坐标系下,参数谱系的信息含量(Fisher信息)可建立显著的层次结构,且低Fisher信息含量的参数可自然地确定中立值!

实例:n布尔变量分布(续3)混合坐标:

61玻尔兹曼机与n布尔变量分布随机神经网络,网络的整体能量函数:玻尔兹曼-吉布斯分布:

BM模型参数

玻尔兹曼机与n布尔变量分布随机神经网络,

BM模型参62玻尔兹曼机与CIF原则(1)结论1(Amariet.al.,1992):给定目标概率分布:

单层波尔兹曼机(SBM)实现了2-分割混合坐标上的参数剪切,即:

l-分割混合坐标

63

63玻尔兹曼机与CIF原则(1)结论1(Amariet.al玻尔兹曼机与CIF原则(2)结论2(Zhao,Houandet.al.,2013):SBM实现的参数剪切符合CIF原则:保留具有大Fisher信息的参数,同时对小Fisher信息的参数采用中立估计。

可信参数非可信参数

玻尔兹曼机与CIF原则(2)结论2(Zhao,Houan64玻尔兹曼机与CIF原则(3)结论3(Zhao,Houandet.al.,2013):在所有同维度子流行M中,SBM所实现的映像在期望意义上最大程度地保持概率分布间的Fisher信息距离

为以为中心的KL等距球面

和分别为在上的投影

玻尔兹曼机与CIF原则(3)结论3(Zhao,Houan65玻尔兹曼机与CIF原则(4)结论4(Zhao,Houandet.al.,2013):给定联合概率分布的分数2-分割混合坐标:RBM实现了分数2-分割混合坐标下参数剪切

玻尔兹曼机与CIF原则(4)结论4(Zhao,Houan66玻尔兹曼机与CIF原则(5)结论5(Zhao,Houandet.al.,2013):RBM实现的参数剪切符合CIF原则:保留具有大Fisher信息的参数,同时对小Fisher信息的参数采用中立估计

可信参数非可信参数

玻尔兹曼机与CIF原则(5)结论5(Zhao,Houa67玻尔兹曼机与CIF原则(6)结论6(贝叶斯分析):假设背景分布中的绝大多数p项趋近于0,则可证明:由任意被BM剪切掉的参数所导致的信息距离损失典型地趋近于0;而任意被BM保留的参数所对应的信息距离典型地大于0。

,为小常数,为任意小常数,为的阶数

玻尔兹曼机与CIF原则(6)结论6(贝叶斯分析):假设背景分68深度结构多层CIF原则的应用逐层保持可信信息、并实现信息抽象在最高层同时达到“最可信”和“最抽象”的目标深度结构多层CIF原则的应用69训练波尔兹曼机:

-MaximumLikelihoodandContrastiveDivergenceML目标:最大化log似然函数随机梯度方法

分别表示在样本分布稳态分布和迭代次的近似稳态分布上的期望值

正Gibbs采样:

负Gibbs采样:

CD-m:使用近似梯度

训练波尔兹曼机:

-MaximumLikelihooda70受限波尔兹曼机(RBM)

-迭代映像算法(IP)为所有RBM稳态分布的集合为正Gibbs采样的样本分布的集合

最小化KL距离:背景分布边际稳态分布

受限波尔兹曼机(RBM)

-迭代映像算法(IP)为所有RBM71任务:5个显式变量概率密度估计受限波尔兹曼机

-迭代

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论