




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、浅谈深度学习DBN和CNN算法报告人:龚再文 院系:自动化学院时间:2015.7.4 2006年,加拿大多伦多大学教授、机器学习领域的泰斗G. E. Hinton和他的学生R. R. Salakhutdinov在science上发表了一篇文章(用神经网络实现数据降维),开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要观点:l多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;l深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wise pre-training)来有效克服,在这篇文章中,逐层初始化是通过无监督学习实现的。
2、 深度学习的浪潮u深度学习(Deep Learning)是机器学习研究中的一个新的领域,深度学习是当下最热门的方向之一。其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。u深度学习热潮爆发以来,诸多研究者都在不懈地努力着,希望能够把它应用于解决计算机视觉的各种任务上,从高层次(high-level)的识别(recognition),分类(classification)到低层次(low-level)的去噪(denoise)。让人不禁联想起当年的稀疏表达(sparse representation)的热潮,而深度学习如今的风靡程度看上去是有过之而无不
3、及。深度学习也有横扫high-level问题的趋势,high-level的很多方向都在被其不断刷新着数据。u作为强大的特征(feature)学习工具,在给定足够多的训练集的情况下,它可以帮助用户学习到这个任务下的具有很强分辨能力的特征。深度学习的浪潮u深度学习可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。多层的好处在于可以用较少的参数表示复杂的函数。 u 深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。因此,“深度模型”是手段,“特征学习
4、”是目的。区别于传统的浅层学习,深度学习的不同在于:l强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点;l明确突出了特征学习的重要性,也就是说,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。深度学习的实质u深度学习在近期赢得了很多关注, 特别是 百度也开始发力深度学习后(Institute of Deep Learning), 更是在国内引起了很多关注。在计算能力变得日益廉价的今天,深度学习试图建立大得多也复杂得多的神经网络。u很多深度学习的算法是无监督或
5、半监督式学习算法,用来处理存在少量未标识数据的大数据集。常见的深度学习算法包括:l受限波尔兹曼机(Restricted Boltzmann Machine)l深度信念网络( Deep Belief Networks)l卷积神经网络(Convolutional Neural Networks)l堆栈式自动编码器(Stacked Auto-encoders)深度学习算法深度学习算法Convolutional Neural Networks卷积神经网络Deep Belief Networks深度信念网络 DBNs由多个限制玻尔兹曼机(RBM)层组成。RBM被“限制”为一个可视层和一个隐层,层间存在连
6、接,但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。Deep Belief Networks典型的神经网络类型深度信念网络的框架Deep Belief Networksl分别单独无监督地训练每一层 RBM 网络,确保特征向量映射到不同特征空间时,都尽可能多地保留特征信息;l在 DBN 的最后一层设置 BP 网络,接收 RBM 的输出特征向量作为它的输入特征向量,有监督地训练实体关系分类器。而且每一层 RBM 网络只能确保自身层内的 权值对该层特征向量映射达到最优,并不是对整个 DBN 的特征向量映射达到最优,所以反向传播网络还将错误信息自顶向下传播至每一层 R
7、BM,微调整个 DBN 网络。RBM 网络训练模型的过程可以看作对一个深层 BP 网络权值参数的初始化,使DBN 克服了 BP 网络因随机初始化权值参数而容易陷入局部最优和训练时间长的缺点。 上述训练模型中第一步在深度学习的术语叫做预训练,第二步叫做微调。最上面有监督学习的那一层,根据具体的应用领域可以换成任何分类器模型,而不必是BP网络。DBN 训练模型的过程Deep Belief NetworksCD Pseudo,对比散度算法伪代码伪代码中涉及到的后验概率可以由能量模型和极大似然估计求出Deep Belief NetworksNotes On CD Pseudo,对比散度算法伪代码注释T
8、his is the RBM update procedure for binomial units. It can easily adapted to other types of units. is a sample from the training distribution for the RBM is a learning rate for the stochastic gradient descent in Contrastive DivergenceW is the RBM weight matrix, of dimension (number of hidden units,
9、number of inputs)b is the RBM offset vector for input unitsc is the RBM offset vector for hidden unitsNotation: Q(h2 = 1|x2) is the vector with elements Q(h2i = 1|x2)1XResults权重矩阵可视化结果0501001502002503005010015020025005010015020025030050100150200250迭代1次迭代10次Results重构平均错误率l迭代1次:Average reconstruction
10、error is: 66.2661;Mini-batch mean squared error on training set is 0.13954; Full-batch train err = 0.068880;l迭代10次:epoch 10/10. Average reconstruction error is: 42.2354;Mini-batch mean squared error on training set is 0.026504; Full-batch train err = 0.025100。随着迭代次数的增加,无论是特征的提取还是重构错误率都有很好的改善;当然,也不是迭
11、代次数越多越好,迭代次数的增加会消耗大量的时间和储存空间,训练数据集较大时尤其明显。Convolutional Neural Networksu卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。uconvolution和和pooling的优势为使网络结构中所需学习到的参数个的优势为使网络结构中所需学习到的参数个数变得更少,并且学习到的特征具有一些不变性,比
12、如说平移,旋转数变得更少,并且学习到的特征具有一些不变性,比如说平移,旋转不变性。不变性。以2维图像提取为例,学习的参数个数变少是因为不需要用整张图片的像素来输入到网络,而只需学习其中一部分patch。而不变的特性则是由于采用了mean-pooling或者max-pooling等方法。uCNN是第一个真正成功训练多层网络结构的学习算法。它利用空间关系减少需要学习的参数数目以提高一般前向BP算法的训练性能。CNN作为一个深度学习架构提出是为了最小化数据的预处理要求。在CNN中,图像的一小部分(局部感受区域)作为层级结构的最低层的输入,信息再依次传输到不同的层,每层通过一个数字滤波器去获得观测数据
13、的最显著的特征。CNN简介Convolutional Neural NetworksCNN的网络结构输入图像通过和三个可训练的滤波器和可加偏置进行卷积,卷积后在C1层产生三个特征映射图,然后特征映射图中每组的四个像素再进行求和,加权值,加偏置,通过一个Sigmoid函数得到三个S2层的特征映射图。这些映射图再进过滤波得到C3层。这个层级结构再和S2一样产生S4。最终,这些像素值被光栅化,并连接成一个向量输入到传统的神经网络,得到输出。C:ConvolutionsS:SubsamplingConvolutional Neural Networks经典的例子(LeNet5结构图)可以看出对于这个网
14、络,每输入一张32*32大小的图片,就输出一个84维的向量,这个向量即我们提取出的特征向量。Convolutional Neural NetworksCNN训练过程训练算法与传统的BP算法差不多。主要包括4步,这4步被分为两个阶段:第一阶段,向前传播阶段:第一阶段,向前传播阶段:a)从样本集中取一个样本(X,Yp),将X输入网络;b)计算相应的实际输出Op。 在此阶段,信息从输入层经过逐级的变换,传送到输出层。这个过程也是网络在完成训练后正常运行时执行的过程。在此过程中,网络执行的是计算(实际上就是输入与每层的权值矩阵相点乘,得到最后的输出结果): Op=Fn(F2(F1(XpW(1)W(2)
15、W(n)第二阶段,向后传播阶段第二阶段,向后传播阶段a)算实际输出Op与相应的理想输出Yp的差;b)按极小化误差的方法反向传播调整权矩阵。在开始训练前,所有的权值都应该用一些不同的小随机数进行初始化。“小随机数”用来保证网络不会因权值过大而进入饱和状态,从而导致训练失败;“不同”用来保证网络可以正常地学习。实际上,如果用相同的数去初始化权矩阵,则网络无能力学习。Results均方误差020040060080010001200140000.511.50100020003000400050006000700000.511.5迭代1次迭代5次Mean squared errorNum of patch深度学习未来的工作uTheoretical studies on Deep LearninguNew optimization and training algorithmsuPa
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 1-2数制-三要素电子课件教学版
- 稀土金属提炼过程中的环境保护与产业转型升级路径探索研究考核试卷
- 目视化管理与危机管理考核试卷
- 海洋能资源勘查技术考核试卷
- 以错过为话题的高考语文800字作文赏析
- 厦门高三市质检语文作文
- 橡胶制品行业市场营销推广案例考核试卷
- 炼油厂能源管理与节能措施考核试卷
- 电声器件在智能家居系统中的应用考核试卷
- 糕点制作工艺与模具应用考核试卷
- GB 7718-2025食品安全国家标准预包装食品标签通则
- 2025年高考历史总复习世界近代史专题复习提纲
- 对患者入院评估的系统化方法试题及答案
- 教育与社会发展的关系试题及答案
- 内蒙古汇能集团笔试题库
- 七年级英语下学期期中押题预测卷(深圳专用)(原卷版)
- 2024年贵州贵州路桥集团有限公司招聘真题
- DB11-T 2397-2025 取水供水用水排水数据库表结构
- 多式联运模式在跨境电商中的应用-全面剖析
- 2025年应急管理普法知识竞赛题(附答案)
- 《工程勘察设计收费标准》(2002年修订本)
评论
0/150
提交评论