人工神经网络-深度学习课件_第1页
人工神经网络-深度学习课件_第2页
人工神经网络-深度学习课件_第3页
人工神经网络-深度学习课件_第4页
人工神经网络-深度学习课件_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、人工神经网络及其应用第七讲 深度学习主讲人:方涛第七讲深度学习主讲内容7.1 研究背景7.2 从BP网络看深度学习7.3 几种典型的深度学习模型7.4 开源深度学习框架7.5 深度学习的未来7.1 研究背景约翰麦卡锡(1927-2011)LISP之父不走寻常路的常识逻辑学家1956年,约翰.麦卡锡召集了一次会议来讨论人工智能未来的发展方向,开启了AI的发展2016年-人工智能(AI)奠基60周年21世纪初,“深度学习”的出现,AI研究获得了长足的进步没有大数据,没有“大计算”,就没有人工智能的今天!Marvin Minsky人工智能之父和框架理论的创立者1927-2016MIT AI Lab

2、创始人之一1970年获得图灵奖美国工程院和美国科学院院士在近60年的人工智能历史中,马文-明斯基一直是一位闪耀着耀眼光彩的杰出的人工智能权威,是当之无愧的人工智能之父。(李德毅院士)明斯基在1950年进入普林斯顿大学攻读数学系的博士研究生学位,比我晚一年。我们很快意识到,我们两人都对人工智能很感兴趣。事实上,当时明斯基已经对如何实现人工智能颇有想法了,这一点在之后他设计和建造的世界上第一个神经网络模拟器Snare上得到了证实。 ( John McCarthy 人工智能先驱,LISP语言之父,图灵奖获得者)1969:Perceptron(感知器)-神经网络的局限性(深度学习的前身)7.1 研究背

3、景2016年,阿尔法狗(AlphaGo)4 :1大胜围棋9 段李世石高手, AI重大历史时刻“监督学习的策略网络(Policy Network)” 通过13层全连接网络,反复训练围棋棋盘布局,调整参数,以最佳概率预测落子选择(Move Picker),如何下棋子“价值网络(Value Network)” 给定棋子位置,预测每一个棋手赢棋的可能,就是计算局面7.1 研究背景主要设计者-位于伦敦Google旗下DeepMind公司大卫席尔瓦 (David Silver)-剑桥大学计算机科学学士,硕士,加拿大阿尔伯塔大学计算机科学博士黄士杰(Aja Huang),台湾交通大学计算机科学学士,台湾师范

4、大学计算机科学硕士和博士,加拿大阿尔伯塔大学计算机科学博士后Andrew Ng斯坦福大学教授2012年6月,纽约时报披露了Google Brain项目大规模计算机系统方面的世界顶尖专家JeffDean用16000个CPU Core的并行计算平台训练一种称为“深度神经网络”(DNN,Deep Neural Networks)的机器学习模型(内部共有10亿个节点)在语音识别和图像识别等领域获得了巨大的成功7.1 研究背景2012年11月,微软公开演示全自动同声传译系统深度学习,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成,效果非常流畅7.1 研究背景机器学习解

5、决目标识别与分类问题的思路三个主要组成部分中间的特征提取部分将很大程度上决定最终的效果,如何提取特征?“巧妇难为无米之炊”7.1 研究背景SIFTHOGDoG+Gabor7.1 研究背景Sift被认为是局部图像特征描述子研究领域一项里程碑式的工作,对尺度、旋转以及一定视角和光照变化等图像变化都具有不变性,还SIFT具有很强的可区分性特征抽取非常费力,需要领域知识启发式提取最大的问题?-人工设计BOW7.1 研究背景待检测图像行人模型图像金字塔适应目标尺度变化局部滤波器变形动态规划求解可变形部件模型行人检测关键在于抽象和迭代,从原始信号开始进行低级抽象,逐渐向高级抽象迭代从低层到高层的特征表示越

6、来越抽象,生物视觉特征分层抽象的过程,就是一个计算机建模过程7.1 研究背景人脑视觉系统如何提取特征?7.1 研究背景7.1 研究背景从层次增加看深度学习发展简史2020年又是冰河期?7.1 研究背景浅层机器学习模型(第二次浪潮)-1-2层隐层的BP网络(20世纪80年代末期)-SVM 、Boosting 等,模型的结构可视为带一层隐层节点或没有隐层节点(20世纪90年代)Neural Network问题-比较容易过拟合,参数比较难tune,而且需要不少技巧-训练速度比较慢,-有限样本和计算单元情况下对复杂函数的表示能力有限-梯度越来越稀疏:从输出层越往输入层,误差校正信号越来越小-收敛到局部

7、极小值近20多年,主要SVM和boosting算法7.1 研究背景深度机器学习模型(第三次浪潮)Geoffrey Hinton(加拿大多伦多大学教授、机器学习领域的泰斗)及其学生2006年在科学杂志发表”Deep Learning”文章,开启了深度学习在学术界和工业界的浪潮。 -多隐层的人工神经网络具有优异的特征学习能力-通过无监督学习的“逐层初始化”(layer-wise pre-training)来有效克服深度神经网络在训练上的难度-深度学习可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。-强调了模型结构的深

8、度,通常有5层、6层,甚至10多层的隐层节点-深度学习就是特征学习,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易“深度学习”通过多层次抽象来实现特征的表达7.1 研究背景Deep Learning以多层次神经网络为基础发展起来的一种新的机器学习方法,被认为是AI的新的前沿Theoretical:“well-known depth-breadth tradeoff in circuitsdesign Hastad 1987. This suggests manyfunctions can be much more efficientlyrepresen

9、ted with deeper architectures” Bengio& LeCun 2007Biological:Visual cortex is hierarchical (Hubel and Wiesel).7.1 研究背景7.2 从BP网络看深度学习7.2.1 BP网络仅适合浅层网络梯度下降算法梯度逐层反向计算,直到梯度接近零为止7.2 从BP网络看深度学习7.2.2 深度学习的基本思想 加拿大多伦多大学的Geoffery Hinton教授2006年首次提出了“深度信念网络”的概念。与传统的训练方式不同,为大幅度减少了训练多层神经网络的时间,采用两个技术“预训练”(pre-trai

10、ning):无监督学习参数初始值 逐层贪婪训练,就是先训练网络第1个隐含层,再训练第2个,最后 将训练好的网络参数作为整个网络参数的初值(预训练,找到神经网 络中一个接近最优解的权值)“微调”(fine-tuning):监督学习 进一步优化训练整个网络,对神经网络参数(权值)改变很小7.2 从BP网络看深度学习7.2.2 深度学习的基本思想层数保持不变,神经网络的参数数量增加,从而带来了更好的表示(represention)能力增加更多层次,更深入的特征表示,以及更强的函数模拟能力随着网络的层数增加,每一层对于前一层次的抽象表示更深入。即每一层神经元学习到的是前一层神经元值的更抽象的表示第1隐

11、含层学习到的特征 -“边缘”第2隐含层学习到的特征 -由“边缘”组成的“形状”第3隐含层学习到的特征 -由“形状”组成的“图案”。最后隐含层学习到的特征-由“图案”组成的“目标”神经网络本质-模拟特征与目标之间函数映射关系。层数多,参数多,模拟映射函数更复杂、更多容量7.2.3深度学习流行的激励函数7.2 从BP网络看深度学习传统激励函数- Sigmoid系非线性的Sigmoid函数对中央区域的信号增益较大,对两侧区域的信号增益小,特征空间映射效果好从神经科学看,中央区域类似神经元兴奋态,两侧区域类似神经元抑制态问题:(1)sigmoid函数在实际梯度下降中,容易饱和和终止梯度传递(2)同时近

12、乎有一半的神经元被激活7.2 从BP网络看深度学习类似生物神经元激励函数与Sigmoid系的不同:(1)单侧抑制(红框里前端全没激活) (2)相对宽阔的兴奋边界(3)稀疏激活性神经科学家Dayan、Abott 2001年模拟脑神经元接受信号更精确的激励模型Softplus(x)=log(1+ex)具有(1)与(2)特性 ReLU(修正线性单元:Rectified Linear Unit):f(x)=max(0,x)具有三个特性可极大提升随机梯度下降的收敛速度梯度计算非常简单应用很多神经元的生物特性具有生物特性的激励函数假定神经网络的输出O等于输入I,即输入I经过这个系统变化之后没有任何的信息损

13、失,保持了不变,这意味着输入I经过每一层都没有任何的信息损失,训练调整网络参数(连接权) 每层的输出就是输入的另外一种表示-特征system输出O输入Ii=o7.3.1自动编码器(AutoEncoder)7.3 几种典型的深度学习模型7.4 几种典型的深度学习模型有标签数据的特征学习无标签数据的无监督特征学习编码器产生特征标签/无标签编码无标签数据的无监督特征学习编码器产生特征增加分类器7.3 几种典型的深度学习模型稀疏自动编码器7.3 几种典型的深度学习模型7.4 几种典型的深度学习模型自动编码器(AutoEncoder)7.3.2深度信任网络DBN受限可视层各节点间无连接隐含层各节点间无连

14、接可视层作为向量输入隐含层作为特征检测器可为二值节点(可取0或1)或实数节点(01)可视层、隐含层的节点数量不定7.3 几种典型的深度学习模型Restricted Boltzman Machine (RBM)RBM的能量对特定的(v, h),其能量函数定义为对每种可能的p(v, h)分布满足 Boltzmann 分布 7.3 几种典型的深度学习模型RBM的状态更新/重采样给定可视层每个节点v,隐含层的每个节点hj依下式确定的概率取1(条件独立)同样,给定隐含层每个节点h,可依下式确定的概率获得可视层各结点的的无偏估计样本(条件独立)7.3 几种典型的深度学习模型7.3 几种典型的深度学习模型将

15、多个RBM层叠在一起前一层RBM的隐含层作为后一层RBM可视层的输入深度信任网络DBN的构成概率生成模型多个受限玻尔兹曼机RBM层组成7.3 几种典型的深度学习模型深度信任网络DBN的训练对比散度CD算法Contrastive Divergence (Hinton, 2002) 预训练获得生成模型的连接权(训练RBM-可视层节点和隐节点间的权值 )利用Gibbs Sampling已知v重采样h已知h重采样v定义上述操作为一轮,可多轮依据下式修正连接权wijDBN每层RBM内-隐含层对可见层进行特征提取层与层之间每层对前一层提取出的特征进行再提取第3层第2层第1层7.4 几种典型的深度学习模型Y

16、ann LeCunIn 1995, Yann LeCun and Yoshua Bengio introduced the concept of convolutional neural networks.Yoshua Bengio7.3.3深度卷积网络7.3 几种典型的深度学习模型在贝尔实验室的研究-提高手写识别滤波池化7.3 几种典型的深度学习模型输入图像通过多个可训练的滤波器组进行非线性卷积,卷积后在每一层产生特征映射图,再特征映射图中每组池化(亚采样),最终得到输出值7.3 几种典型的深度学习模型层间局部连接稀疏连接方式深度卷积网络-多层感知器(MLP)的变种卷积神经网络中,层间的神经

17、元不是全连接,利用层间局部空间相关性,通过局部连接方式,上层的神经元只与和它相近的下层神经元相连,以大大降低神经网络的参数规模7.3 几种典型的深度学习模型每个卷积滤波器共享相同的参数。卷积神经网络中,卷积层的每个卷积滤波器重复作用于整个感受野中,对输入图像进行卷积,卷积结果构成输入图像的特征图,提取出图像的局部特征神经元共享权值-一个特征映射面上的神经元共享权值,大大降低学习的卷积神经网络模型参数数量特征映射结构采用sigmoid函数作为卷积网络的激活函数共享权值7.3 几种典型的深度学习模型最大池化采样非线性降采样方法最大池采样方法对卷积特征进行降维,具有平移不变性Softmax回归有监督

18、学习算法,解决多分类问题训练样本集由m个带标签样本构成:最小化代价函数7.3 几种典型的深度学习模型深度卷积网络训练与BP网络的向前传播和反向调整权矩阵类似的 一种多层的监督学习神经网络,隐含层的卷积层和池化采样层是实现卷积神经网络特征提取功能的核心 卷积神经网络的低隐含层是由卷积层和最大池化采样层交替组成,高层是全连接层对应传统多层感知器的隐含层和逻辑回归分类器7.3 几种典型的深度学习模型7.4 开源深度学习框架Caffe源自加州伯克利分校的Caffe被广泛应用,包括Pinterest这样的web大户。与TensorFlow一样,Caffe也是由C+开发,Caffe也是Google今年早些

19、时候发布的DeepDream项目(可以识别喵星人的人工智能神经网络)的基础。 Theano2008年诞生于蒙特利尔理工学院,Theano派生出了大量深度学习Python软件包,最著名的包括Blocks和Keras。7.4 开源深度学习框架TorchTorch诞生已经有十年之久,但是真正起势得益于去年Facebook开源了大量Torch的深度学习模块和扩展。Torch另外一个特殊之处是采用了不怎么流行的编程语言Lua(该语言曾被用来开发视频游戏)。 Brainstorm来自瑞士人工智能实验室IDSIA的一个非常发展前景很不错的深度学习软件包,Brainstorm能够处理上百层的超级深度神经网络所

20、谓的公路网络Highway Networks。7.4 开源深度学习框架DeepLearning4j创业公司Skymind于2014年6月发布的一个面向生产环境和商业应用的高成熟度深度学习开源库,是”for Java”的深度学习框架,可与Hadoop 和 Spark集成,即插即用,方便开发者在APP中快速集成深度学习功能,可用于:人脸/图像识别;语音搜索;语音转文字(Speech to text);垃圾信息过滤(异常侦测);电商欺诈侦测。埃森哲、雪弗兰、博斯咨询和IBM等明星企业都在使用。 Marvin是普林斯顿大学视觉工作组新推出的C+框架。该团队还提供了一个文件用于将Caffe模型转化成语M

21、arvin兼容的模式。 。7.4 开源深度学习框架ConvNetJS斯坦福大学博士生Andrej Karpathy开发浏览器插件,基于JavaScript可以在游览器中训练神经网络。 。20世纪90年代人类脑计划(Human Brain Project, HBP) 继人类基因计划后,又一国际性科研大计划2013年1月欧盟启动“人类大脑计划”(Human Brain Project) 巨型计算机模拟整个人类大脑( 10亿欧元)2013年4月美国“大脑活动图谱计划”(Brain Activity Map Project,或称Brain Initiative) 研究大脑活动中的所有神经元,探索神经元

22、、神经回路与大脑功能间的关系( 38亿美元 )2014年科技部脑科学信息化重大专项“类人脑工程”2014年诺贝尔奖生理学医学奖 大脑的定位系统-“位置细胞”与“网格细胞”发现7.5 深度学习的未来随着神经网络研究的不断变迁,其连接及其计算与生物神经元的连接模型其实渐行渐远?!开启计算机“高智商”新时代IBM成功构建模拟人脑功能的认知计算机芯片(2011-8-18) 通过模拟大脑结构,首次成功构建出两个具有感知认知能力的硅芯片原型,可以像大脑一样具有学习和处理信息的能力。 两个计算机芯片结合了神经元的计算能力、突触(或神经节)的记忆能力和轴突的通信能力开发新一代计算机模仿大脑构建智能计算机的曲折挑战 以冯诺依曼架构为基础,内存和处理器分开,以总线作为数据通道。利用软件实现人工智能一个更大的局限,就是受限于计算机的结构,被计算机科学家称为“冯诺依曼瓶颈”。类脑芯片-目前最接近复杂的认知计算机 新的计算机芯片的核心是其构造与大脑类似,有“神经元”,有“突触”,还有“轴突”。“神经元”是计算机的数字信息处理器;“突触”是学习和记忆的基础;“轴突”则是数据通道 新芯片采用45纳米工艺,晶体管构造,设计模仿大脑神经元和突触组织。两个芯片均有256个数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论