深度学习的相关算法研究_第1页
深度学习的相关算法研究_第2页
深度学习的相关算法研究_第3页
深度学习的相关算法研究_第4页
深度学习的相关算法研究_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

深度学习方法的一些研究2021/5/91主要内容研究背景与意义基于率失真理论的深度信念网32利用稀疏响应增强反向传播算法的性能用等能量跳转的并行回火算法训练RBM415总结与展望2021/5/921.1深度学习的背景及意义最多含单个将原始信号转换到特定问题空间特征的简单结构,只学习数据的单层表示。浅层学习的局限性在有限的样本和计算单元的情况下对复杂函数的表示能力有限缺乏发现数据中复杂结构的能力针对复杂分类问题其泛化能力受到一定限制Google的语音识别实验证明,面对大数据,浅层结构算法经常处于严重的欠拟合状态。传统的机器学习方法浅层结构算法机器学习是使计算机具有人工智能的根本途径2021/5/93人类大脑的信息处理系统是一多层并行系统,它利用逐层的方式对数据进行特征提取,从低层到高层的特征表示越来越抽象。抽象层面越高,越能表现语义或者意图。人类的认知过程是以深度的方式呈现的,层次化地组织思想和概念:首先学习简单的概念,然后使用学习到的简单概念表示抽象层面更高的概念。生物依据面对复杂的感知数据,人类总能做出合理的判断

人类大脑的结构和信息处理机制

人类的认知过程面对浅层结构算法的局限性,并受大脑分层次处理信息和人类层次化完成认知过程的启发,学者们一直致力于深度架构的研究1.1深度学习的背景及意义2021/5/94提取抽象水平较低的特征提取抽象水平较高的特征……1.1深度学习的背景及意义2021/5/95深度学习的概念起源于人工神经网络的研究基于数据处理群方法训练的网络模型1965年1979年卷积神经网络模型多层前向网最早的类多层感知器深度学习系统1986年多层前向网深度信念网2006年…………突破性的进展1.2深度学习的发展

复兴完全依赖带标签数据实际问题中大部分数据是无标签的

学习效率不高,特别对于大数据当网络中层数较多时,学习时间过长对初值敏感,经常陷入局部极值随着层数的增多,坏的局部极小点出现的概率增大BP方法的局限性**考虑预训练模型,通过预训练模型选择权重的初始值用生成模型优化多层神经网络通过最大化模型似然来学习模型参数学习p(数据)而不是p(标签|数据)深度结构的新发展2021/5/968深度学习成熟条件1——数据集的增大图6数据集与年份2021/5/979深度学习成熟条件2——神经元之间的连接数增大(本质原因是计算机硬件技术的飞速发展)图7神经元连接与年份2021/5/9810深度学习成熟条件3——神经元个数的增加(本质原因是计算机硬件技术的飞速发展)图8神经元个数与年份2021/5/9911好算法的出现:2006年,GeoffreyHinton在Science上发表了一篇名为《ReducingwithDimensionalityofDatawithNeuralNetworks》的文章,从此,神经网络(主要是深度学习)便有焕发了新的青春。图9GeoffreyHinton与他的学生在Science上发表文章2021/5/9101.2深度学习的发展

在学术界的研究现状及应用模型架构及训练方法应用子模型的选取与建立深度结构的整体训练语音和音频信号处理图像识别和检索自然语言处理和信息检索…………………………2021/5/9112010年,美国国防部DARPA计划首次资助斯坦福大学、纽约大学和NEC美国研究院开展深度学习研究2012年6月,GoogleBrain项目用16000个CPU搭建深度学习平台,在语音、图像识别领域获得重要进展2012年12月,微软亚洲研究院在天津的一次活动中利用深度学习技术进行全自动同声传译,效果良好2013年1月,李彦宏宣布成立百度的第一个研究院InstituteofDeepLearning2013年4月,《麻省理工学院技术评论》将深度学习列为2013年十大突破性技术之首2013年6月微软对WindowsPhone平台的必应语音搜索进行了更新。语音识别和反馈的速度提高一倍,精确度提升15%2014年3月Facebook的

Deepface项目使得人脸识别技术的识别率达到97.25%,准确率几乎可媲美人类1.2深度学习的发展

在工业界的发展2021/5/912互联网界巨头进入深度学习领域图15机器学习界的执牛耳者与互联网的大鳄的联姻182021/5/913贪婪算法DBN预训练

(Hintonetal.[2006],Bengioetal.[2007])1.3深度信念网2021/5/914

DBN预训练

RBM(Hintonetal.[2006],Bengioetal.[2007])1.4深度信念网2021/5/915

DBN预训练

RBM(Hintonetal.[2006],Bengioetal.[2007])1.4深度信念网2021/5/916

DBN预训练

RBM(Hintonetal.[2006],Bengioetal.[2007])1.4深度信念网2021/5/917

DBN

预训练后进行微调1.4深度信念网2021/5/918提出了一种用于训练多层前向网的新算法建立了基于率失真理论的深度学习模型提出了对图像变换稳定的分类RBM模型提出了用于训练RBM的等能量并行回火算法研究成果以生物神经系统中神经元响应机制为启发,以信息论中的编码理论为指导,建立有效的深度学习模型及其训练方法主要工作2021/5/9192利用稀疏响应增强反向传播算法的性能22021/5/920稀疏连接稀疏响应神经元群刺激(Morrisetal.[2003]Barlow,[1972]Olshausenetal.[2004])稀疏连接:大脑皮层中单个神经元只与其余神经元中的大约极少数相连

稀疏响应:对于给定的某个刺激,神经系统中仅有少量的神经元响应(连接稀疏)(响应稀疏)2021/5/921

训练方法稀疏响应BP网的结构输入向量隐层输出向量

后向传播误差信号前向传播信息,计算网络的实际输出

稀疏响应BP网(SRBP)

2021/5/922输入层

隐层网络结构两类数据(红色,蓝色)样本数:384双螺旋数据2021/5/923训练误差线隐层神经元(第二个隐层)在所有样本上响应的直方图BP(Hintonetal.[1986])RoBP(Hirasawa[2009])GaBP(Girosietal.[1995])LaBP(Williams[1995])EnBP2(Chauvin[1995])EnBP3(Chauvin[1995])EnBP1(Chauvin[1995])SaBP非线性稀疏表示2021/5/924第二个隐层在整个数据区域上的响应情况SRBPBP感受野的局部化2021/5/925泛化能力

(10,000个测试样本)2021/5/926IrisdatasetHepatitisdatasetGlassdatasetWinedatasetDiabetes训练误差线UCI数据集2021/5/927Iris隐层神经元在四个训练样本上的响应柱状图Hepatitis稀疏表示ClassWineDiabetes非线性稀疏表示2021/5/928IrisHepatitisGlassWineDiabetes隐层神经元在所有训练样本上的响应直方图非线性稀疏表示2021/5/929数据集BPGaBPLaBpRoBPEnBP1EnBP2EnBP3SRBPIris96.93%96.67%95.60%96.53%96.93%97.07%97.07%97.33%(4.90)(4.71)(7.08)(5.59)(0.24)(0.24)(0.24)(0.22)Hepatitis72.25%75.25%78.00%78.00%81.50%79.75%80.25%84.25%(22.77)(21.35)(15.48)(17.05)(1.61)(1.59)(1.22)(1.33)Glass93.75%93.37%93.85%93.65%92.88%93.26%93.55%94.01%(5.67)(5.90)(5.88)(5.78)(0.28)(0.24)(0.24)(0.26)Wine97.52%97.63%97.86%98.08%98.08%97.97%98.19%98.19%(3.43)(3.03)(3.18)(2.70)(0.00)(0.10)(0.14)(0.14)Diabetes74.93%75.97%74.43%75.40%76.49%77.17%77.17%77.40%(6.14)(5.32)(7.47)(5.71)(0.26)(0.17)(0.18)(0.17)测试集分类精度,50次实验的平均结果泛化能力2021/5/930泛化能力2021/5/931泛化能力2021/5/932大脑中每个神经元在响应时都会比不响应时消耗更多的能量。我们用新模型中所有隐层神经元的响应值与BP网隐层神经元的响应值的比值来判断在BP网中引入稀疏响应限制是否节省网络处理数据所需要的能量。

数据集Two-spiralIrisHepatitisGlassWineDiabetesGaBP/BP1.00051.00730.83840.97370.99980.9981RoBP/BP1.97821.26672.57480.97530.99310.0999LaBP/BP1.22790.99740.94590.97690.99600.9994EnBP1/BP0.28900.19030.02900.11060.35670.0544EnBP2/BP0.37660.19190.03330.25800.45860.0603EnBP3/BP0.28080.19220.03040.13650.40470.0565SRBP/BP0.22020.14580.02110.06790.24210.0206

网络所消耗的能量2021/5/933基于人类神经系统中对于某一个刺激只有少量神经元同时响应的机制,提出用于训练多层前向网的新算法实验结果表明提高了网络的泛化能力大幅度降低了网络的能耗训练过程更稳定、收敛速度更快可在一定程度上简化网络的结构2021/5/934基于率失真理论的深度信念网332021/5/935主要研究在限定失真条件下能够恢复信源符号所需的最小信息率,它给出了在一定失真度情况下信源编码能达到的极限码率,对编码的长度进行了约束。等价问题编码率编码机制为确定型时在RBM中,隐层神经元的响应概率(数据的表示)是确定的

失真水平RBM是概率模型,因此使用输入数据分布与模型分布之间的Kullback-Leibler散度作为失真函数

在RBM中,2021/5/936用输入数据的分布和深度信念网的堆积模型限制波尔兹曼机(RBM)的平稳分布之间的Kullback-Leibler散度作为失真函数,并采用神经系统中神经元的稀疏响应来实现小的编码率。

RD-DBN

模型(RD-RBM)

2021/5/93710000张图,每张像素为12X12网络共有两个隐层,第一个隐层有144个神经元,第二个隐层有50个神经元自然图像非线性稀疏表示2021/5/93810000张图,每张像素为12X12网络共有两个隐层,第一个隐层有144个神经元,第二个隐层有50个神经元DBN学到的W1RD-DBN学到的W1自然图像特征2021/5/93910000张图,每张像素为12X12网络共有两个隐层,第一个隐层有144个神经元,第二个隐层有50个神经元自然图像特征RD-DBN学到的W22021/5/940第一个样本所引起的隐层(第一个隐层)神经元响应概率的柱状图DBNRD-DBN非线性稀疏表示手写体数据,10类,每类取2000个数据作为实验数据网络共有两个隐层,第一个隐层有196个神经元,第二个隐层有50个神经元手写体数据2021/5/941

特征2021/5/942

特征2021/5/943分类误判率(从每类数据中随机抽取100,500,1000个样本作为训练数据,50次实验平均结果)泛化能力2021/5/944部分响应次数较多的隐层神经元的判别能力MNIST数据集:水平轴为所选取的神经元个数(在训练数据上响应次数较多),垂直轴为具有部分隐层神经元的网络在训练集(每类分别取100,500和1000个样本作为训练集)和测试集上的分类误差率(%)。2021/5/9455类,每类取2000个数据作为训练数据10类,每类取2000个数据作为训练数据CIFAR数据NORB数据2021/5/946

特征2021/5/947

特征2021/5/948泛化能力NORB分类误判率(从每类数据中随机抽取200,500个样本作为训练数据,50次实验平均结果)分类误判率(从每类数据中随机抽取1000个样本作为训练数据,50次实验平均结果)CIFAR-102021/5/949基于率失真理论的思想提出了新的深度信念网模型实验结果表明学习到的数据表示更加稀疏能够提取不同抽象水平的特征学习到的数据表示更具判别能力2021/5/950用等能量跳转的并行回火算法训练RBM542021/5/951极大似然

…Gibbs抽样极大似然的困境基于模型的期望难以计算!无数次交替Gibbs采样的时间开销大!

2021/5/952采用单个马尔科夫链近似模型分布经典的马尔科夫链蒙特卡洛(MCMC)方法以训练数据作为马尔科夫链的初始状态,且只进行k步Gibbs采样马尔科夫链的初始状态为上一步更新参数时的最终状态在CD的负项中添加“fastweights”集2021/5/953从理论上讲,人们总能通过MCMC采集到符合目标分布的样本实际应用中,人们通常不了解多少次转移是足够的。这个问题很大程度上受到目标分布陡峭程度的影响。低概率区域

采用单个马尔科夫链抽样的局限性典型的双峰分布以及MCMC可能面临的问题采集的样本很容易陷入模型分布的局部区域,相当于仅在某个单峰附近采样2021/5/954借助多个辅助的Gibbs链,将低温分布下的状态转移到高温分布中,实现目标分布中不同峰值状态的转移,达到对整个分布采样的目的。高温低温

温度越高,分布越均匀

…Gibbs抽样

……

……Gibbs抽样

………局部转移全局跳转并行回火(ParallelTempering,PT)2021/5/955相邻Gibbs链间的状态交换概率依赖于Gibbs链的温度和状态的能量

并行回火算法训练RBM的局限性在PT中,使用过少的辅助分布或者使用不合适的辅助分布都会导致相邻Gibbs链的状态拥有较大差异的能量,从而产生极低的交换概率,不利于RBM的训练0容易困难2021/5/956Kou于2006年提出等能量抽样利用温度和能量截尾的方法构造多个辅助分布

等能量抽样直接用于RBM训练的难点在RBM中,基于以上辅助分布,可以推导出模型的条件分布为

在此分段函数中,我们需要在并不完全知晓状态的情况下计算状态的能量2021/5/957

为了得到较高的状态交换概率,我们采用等能量跳转直接在具有相似能量的状态间进行跳转,跳过低概率区域基于等能量跳转的并行回火算法(PTwithequi-energymoves,PTEE)2021/5/958…………

…Gibbs

sampling…

划分第一个能量集…第d个能量集状态交换状态交换每个链的状态转移过程不受其它链的影响状态被划分到多个能量集中,并在能量集内部进行状态交换基于等能量跳转的并行回火算法(PTwithequi-energymoves,PTEE)2021/5/959

小数据集基于四个基本模型(模型之间的差异性比较大)而产生的数据集。对于每一个基本模型,以0.001的概率转换模型中的像素(0变成1,1变成0),从而生成2500张与该基本模型相似的图片。

MNIST手写体数据集

数据2021/5/960在PT算法中,相邻马尔科夫链的状态拥有差异较大的能量,这会引起低的状态交换概率,不利于RBM的训练;而在PTEE算法中,同一个能量集内的状态拥有近似的能量,保证了较高的状态交换概率。某步参数更新时,有可能进行全局跳转的马尔科夫链状态的能量:(左)PT;(右)PTEEPT和PTEE中全局跳转的比较2021/5/961PT和PTEE中全局跳转的比较整个训练过程中,每个马尔科夫链与其它链交换状态的平均交换概率。对于PTEE算法,几乎所有的马尔科夫链的平均交换概率都比PT算法的高2021/5/962PT和PTEE中全局跳转的比较在PT中,相邻的马尔科夫链才交换状态;在PTEE中,任意两个马尔科夫链都有可能交换状态2021/5/9635次实验的平均结果,小数据集似然得分PTEE算法比PT算法能够更快地得到较好的结果,且最终结果也比PT算法好。随着迭代步骤的增加,使用单个马尔科夫链的CD算法和PCD算法的学习效果突然变差并且持续恶化,最终得到很低的似然值。2021/5/9645次实验的平均结果,MNIST数据集似然得分5次实验的平均结果,小数据集2021/5/965结合等能量抽样和并行回火抽样方法提出了用于训练RBM的新算法实验结果表明

新算法能够提高抽样过程中的混合率

以更快的速度获得更高的似然值

算法受马尔科夫链个数的影响较小2021/5/966结果与问题552021/5/967以率失真理论为指导,建立了一种新的深度信念网模

型,该模型由多个基于率失真理论的RBM堆积而成;基于人类神经系统中对于某个刺激仅有少量神经元同

时响应的机制,提出了用于训练多层前向网的新算法;结合等能量抽样和并行回火抽样两种抽样方法,提出

了一种用于训练RBM的新算法。2021/5/968深化基于率失真理论的深度学习模型研究;隐层神经元个数的确定;提取与任务相关的多层本质特征。2021/5/969NannanJi,JiangsheZhang,ChunxiaZhang.Asparse-responsedeepbeliefnetworkbasedonratedistortiontheory,PatternRecognition,2014,47(9):3179-3191.N

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论