人工神经网络深学习_第1页
人工神经网络深学习_第2页
人工神经网络深学习_第3页
人工神经网络深学习_第4页
人工神经网络深学习_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工神经网络深度学习目前一页\总数五十三页\编于十二点第七讲深度学习主讲内容§7.1研究背景§7.2从BP网络看深度学习§7.3

几种典型的深度学习模型§7.4开源深度学习框架§7.5深度学习的未来目前二页\总数五十三页\编于十二点§7.1研究背景约翰·麦卡锡(1927-2011)LISP之父—不走寻常路的常识逻辑学家1956年,约翰.麦卡锡召集了一次会议来讨论人工智能未来的发展方向,开启了AI的发展2016年人工智能(AI)奠基60周年21世纪初,“深度学习”的出现,AI研究获得了长足的进步没有大数据,没有“大计算”,就没有人工智能的今天!目前三页\总数五十三页\编于十二点MarvinMinsky—人工智能之父和框架理论的创立者1927-2016MITAILab创始人之一1970年获得图灵奖美国工程院和美国科学院院士在近60年的人工智能历史中,马文-明斯基一直是一位闪耀着耀眼光彩的杰出的人工智能权威,是当之无愧的人工智能之父。(李德毅院士)明斯基在1950年进入普林斯顿大学攻读数学系的博士研究生学位,比我晚一年。我们很快意识到,我们两人都对人工智能很感兴趣。事实上,当时明斯基已经对如何实现人工智能颇有想法了,这一点在之后他设计和建造的世界上第一个神经网络模拟器Snare上得到了证实。

(JohnMcCarthy人工智能先驱,LISP语言之父,图灵奖获得者)1969:Perceptron(感知器)神经网络的局限性(深度学习的前身)§7.1研究背景目前四页\总数五十三页\编于十二点2016年,阿尔法狗(AlphaGo)4:1大胜围棋9段李世石高手,AI重大历史时刻“监督学习的策略网络(PolicyNetwork)”

通过13层全连接网络,反复训练围棋棋盘布局,调整参数,以最佳概率预测落子选择(MovePicker),如何下棋子“价值网络(ValueNetwork)”给定棋子位置,预测每一个棋手赢棋的可能,就是计算局面§7.1研究背景主要设计者位于伦敦Google旗下DeepMind公司大卫·席尔瓦(DavidSilver)剑桥大学计算机科学学士,硕士,加拿大阿尔伯塔大学计算机科学博士黄士杰(AjaHuang),台湾交通大学计算机科学学士,台湾师范大学计算机科学硕士和博士,加拿大阿尔伯塔大学计算机科学博士后目前五页\总数五十三页\编于十二点§7.1研究背景GeoffreyE.Hinton加拿大多伦多大学教授专注于神经网络几十年,1985年,提出Boltzmann机1986年,提出受限Boltzmann机、BP算法2006年,提出神经网络进行降维开启了深度学习时代,并在随后的ImageNet图片识别的比赛,取得了非常有说服力的结果(74%->85%),震撼了学术界◆Hinton,G.andSalakhutdinov,R.(2006).Reducingthedimensionalityofdatawithneuralnetworks.Science,313(5786):504–507.◆Hinton,G.E.(2002).Trainingproductsofexpertsbyminimizingcontrastivedivergence.NeuralComp.,14(8):1771–1800◆Hinton,G.E.,Dayan,P.,Frey,B.J.,andNeal,R.M.(1995).Thewake-sleepalgorithmforunsupervisedneuralnetworks.Science,268:1158–1160◆Hinton,G.E.andSejnowski,T.E.(1986).LearningandrelearninginBoltzmannmachines.InParallelDistributedProcessing,volume1,pages282–317.MITPress◆Rumelhart,Hinton,Williams,LearningRepresentationsbyBack-propagatingerrors,Nature,1986,323(6088):533-536目前六页\总数五十三页\编于十二点AndrewNg斯坦福大学教授2012年6月,《纽约时报》披露了GoogleBrain项目大规模计算机系统方面的世界顶尖专家JeffDean用16000个CPUCore的并行计算平台训练一种称为“深度神经网络”(DNN,DeepNeuralNetworks)的机器学习模型(内部共有10亿个节点)在语音识别和图像识别等领域获得了巨大的成功§7.1研究背景目前七页\总数五十三页\编于十二点2012年11月,微软公开演示全自动同声传译系统深度学习,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成,效果非常流畅§7.1研究背景目前八页\总数五十三页\编于十二点2013年1月,百度创始人兼CEO李彦宏高调宣布成立“深度学习研究所”(IDL,InstitueofDeepLearning§7.1研究背景目前九页\总数五十三页\编于十二点机器学习解决目标识别与分类问题的思路三个主要组成部分中间的特征提取部分将很大程度上决定最终的效果,如何提取特征?“巧妇难为无米之炊”§7.1研究背景目前十页\总数五十三页\编于十二点SIFTHOGDoG+Gabor§7.1研究背景Sift被认为是局部图像特征描述子研究领域一项里程碑式的工作,对尺度、旋转以及一定视角和光照变化等图像变化都具有不变性,还SIFT具有很强的可区分性特征抽取非常费力,需要领域知识启发式提取最大的问题?--人工设计BOW……目前十一页\总数五十三页\编于十二点§7.1研究背景待检测图像行人模型图像金字塔适应目标尺度变化局部滤波器变形动态规划求解可变形部件模型行人检测目前十二页\总数五十三页\编于十二点

1981年的诺贝尔医学奖,颁发给了DavidHubel和TorstenWiesel(JohnHopkinsUniversity),以及RogerSperry。前两位的主要贡献,是“发现了视觉系统的信息处理”:可视皮层是分级的:这个发现激发了人们对于神经系统的进一步思考→神经-中枢-大脑的工作过程,”或许”是一个不断迭代、不断抽象的过程§7.1研究背景人脑视觉系统如何提取特征?目前十三页\总数五十三页\编于十二点关键在于抽象和迭代,从原始信号开始进行低级抽象,逐渐向高级抽象迭代从低层到高层的特征表示越来越抽象,生物视觉特征分层抽象的过程,就是一个计算机建模过程§7.1研究背景人脑视觉系统如何提取特征?目前十四页\总数五十三页\编于十二点§7.1研究背景目前十五页\总数五十三页\编于十二点§7.1研究背景HMAXNeocognitronVisNet目前十六页\总数五十三页\编于十二点§7.1研究背景从层次增加看深度学习发展简史2020年又是冰河期?目前十七页\总数五十三页\编于十二点§7.1研究背景目前十八页\总数五十三页\编于十二点♦浅层机器学习模型(第二次浪潮)--1-2层隐层的BP网络(20世纪80年代末期)--SVM、Boosting等,模型的结构可视为带一层隐层节点或没有隐层节点(20世纪90年代)NeuralNetwork问题--比较容易过拟合,参数比较难tune,而且需要不少技巧--训练速度比较慢,--有限样本和计算单元情况下对复杂函数的表示能力有限--梯度越来越稀疏:从输出层越往输入层,误差校正信号越来越小--收敛到局部极小值近20多年,主要SVM和boosting算法§7.1研究背景目前十九页\总数五十三页\编于十二点♦深度机器学习模型(第三次浪潮)

GeoffreyHinton(加拿大多伦多大学教授、机器学习领域的泰斗)及其学生2006年在科学杂志发表”DeepLearning”文章,开启了深度学习在学术界和工业界的浪潮。

--多隐层的人工神经网络具有优异的特征学习能力--通过无监督学习的“逐层初始化”(layer-wisepre-training)来有效克服深度神经网络在训练上的难度--深度学习可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。--强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点--深度学习就是特征学习,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易“深度学习”通过多层次抽象来实现特征的表达§7.1研究背景目前二十页\总数五十三页\编于十二点DeepLearning—以多层次神经网络为基础发展起来的一种新的机器学习方法,被认为是AI的新的前沿Theoretical:“…well-knowndepth-breadthtradeoffincircuitsdesign[Hastad1987].Thissuggestsmanyfunctionscanbemuchmoreefficientlyrepresentedwithdeeperarchitectures…”[Bengio&LeCun2007]Biological:Visualcortexishierarchical(HubelandWiesel).§7.1研究背景目前二十一页\总数五十三页\编于十二点§7.2从BP网络看深度学习7.2.1BP网络——仅适合浅层网络梯度下降算法——梯度逐层反向计算,直到梯度接近零为止目前二十二页\总数五十三页\编于十二点§7.2从BP网络看深度学习为什么BP网络只适合浅层网络?训练速度慢问题易于过拟合问题

在学习训练中,网络对学习样本达到非常高的逼近精度,但对测试样本逼近误差随网络训练次数而呈现先下降,后反而上升的奇异现象全局优化问题

BP网络深度较深时,会涉及到求解一个高阶非凸优化问题,容易陷入很坏的局部极小梯度弥散问题

BP网络深度较深时,梯度随着深度向前而显著下降,误差反传到更前面的隐含层时已非常小,使得前几层不能有效进行调节,训练速度很慢目前二十三页\总数五十三页\编于十二点§7.2从BP网络看深度学习7.2.2深度学习的基本思想

加拿大多伦多大学的GeofferyHinton教授2006年首次提出了“深度信念网络”的概念。与传统的训练方式不同,为大幅度减少了训练多层神经网络的时间,采用两个技术█“

预训练”(pre-training):无监督学习→参数初始值逐层贪婪训练,就是先训练网络第1个隐含层,再训练第2个…,最后

将训练好的网络参数作为整个网络参数的初值(预训练,找到神经网

络中一个接近最优解的权值)█“

微调

”(fine-tuning):监督学习

进一步优化训练整个网络,对神经网络参数(权值)改变很小目前二十四页\总数五十三页\编于十二点§7.2从BP网络看深度学习7.2.2深度学习的基本思想█层数保持不变,神经网络的参数数量增加,从而带来了更好的表示(represention)能力█增加更多层次,更深入的特征表示,以及更强的函数模拟能力随着网络的层数增加,每一层对于前一层次的抽象表示更深入。即每一层神经元学习到的是前一层神经元值的更抽象的表示第1隐含层学习到的特征--“边缘”第2隐含层学习到的特征--由“边缘”组成的“形状”第3隐含层学习到的特征--由“形状”组成的“图案”。。。。。最后隐含层学习到的特征--由“图案”组成的“目标”神经网络本质模拟特征与目标之间函数映射关系。层数多,参数多,模拟映射函数更复杂、更多容量目前二十五页\总数五十三页\编于十二点Deeplearning与NeuralNetwork深度学习是模拟人脑进行分析学习,称UnsupervisedFeatureLearning--源于人工神经网络,含多隐层的多层感知器就是一种深度学习结构--用深度网络结构来抽象和迭代组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度网络训练的主要思想是用非标签数据进行逐层贪婪训练和用有

标记数据来进行整个网络的微调相同之处--采用分层结构:输入层、隐层(多层)、输出层--连接方式:相邻层节点之间有连接,同一层以及跨层节点之间相互无连接不同之处--训练机制不同:ANN采用后向传播机制,DLlayer-wise的训练机制--层数多,BP残差传播到最前面的层已经变得太小(梯度扩散)§7.2从BP网络看深度学习目前二十六页\总数五十三页\编于十二点深度学习流行的激励函数§7.2从BP网络看深度学习传统激励函数

Sigmoid系非线性的Sigmoid函数对中央区域的信号增益较大,对两侧区域的信号增益小,特征空间映射效果好从神经科学看,中央区域类似神经元兴奋态,两侧区域类似神经元抑制态问题:(1)sigmoid函数在实际梯度下降中,容易饱和和终止梯度传递(2)同时近乎有一半的神经元被激活目前二十七页\总数五十三页\编于十二点§7.2从BP网络看深度学习类似生物神经元激励函数与Sigmoid系的不同:(1)单侧抑制(红框里前端全没激活)(2)相对宽阔的兴奋边界(3)稀疏激活性神经科学家Dayan、Abott2001年模拟脑神经元接受信号更精确的激励模型█Softplus(x)=log(1+ex)具有(1)与(2)特性█ReLU(修正线性单元:RectifiedLinearUnit):f(x)=max(0,x)具有三个特性可极大提升随机梯度下降的收敛速度梯度计算非常简单应用很多神经元的生物特性具有生物特性的激励函数目前二十八页\总数五十三页\编于十二点假定神经网络的输出O等于输入I,即输入I经过这个系统变化之后没有任何的信息损失,保持了不变,这意味着输入I经过每一层都没有任何的信息损失,训练调整网络参数(连接权)

每层的输出就是输入的另外一种表示特征system输出O输入Ii=o自动编码器(AutoEncoder)§7.3

几种典型的深度学习模型目前二十九页\总数五十三页\编于十二点§7.4

几种典型的深度学习模型有标签数据的特征学习无标签数据的无监督特征学习编码器产生特征标签/无标签编码目前三十页\总数五十三页\编于十二点无标签数据的无监督特征学习编码器产生特征增加分类器§7.3

几种典型的深度学习模型目前三十一页\总数五十三页\编于十二点稀疏自动编码器§7.3

几种典型的深度学习模型目前三十二页\总数五十三页\编于十二点§7.4

几种典型的深度学习模型自动编码器(AutoEncoder)目前三十三页\总数五十三页\编于十二点深度信任网络DBN受限可视层各节点间无连接隐含层各节点间无连接可视层作为向量输入隐含层作为特征检测器可为二值节点(可取0或1)或实数节点(0~1)可视层、隐含层的节点数量不定§7.3

几种典型的深度学习模型RestrictedBoltzmanMachine(RBM)目前三十四页\总数五十三页\编于十二点RBM的能量对特定的(v,h),其能量函数定义为对每种可能的p(v,h)分布满足Boltzmann分布§7.3

几种典型的深度学习模型目前三十五页\总数五十三页\编于十二点RBM的状态更新/重采样给定可视层每个节点v,隐含层的每个节点hj依下式确定的概率取1(条件独立)同样,给定隐含层每个节点h,可依下式确定的概率获得可视层各结点的的无偏估计样本(条件独立)§7.3

几种典型的深度学习模型目前三十六页\总数五十三页\编于十二点§7.3

几种典型的深度学习模型将多个RBM层叠在一起前一层RBM的隐含层作为后一层RBM可视层的输入深度信任网络DBN的构成概率生成模型多个受限玻尔兹曼机RBM层组成目前三十七页\总数五十三页\编于十二点§7.3几种典型的深度学习模型深度信任网络DBN的训练对比散度CD算法ContrastiveDivergence(Hinton,2002)预训练获得生成模型的连接权(训练RBM可视层节点和隐节点间的权值)利用GibbsSampling已知v重采样h已知h重采样v定义上述操作为一轮,可多轮依据下式修正连接权wij目前三十八页\总数五十三页\编于十二点DBN每层RBM内--隐含层对可见层进行特征提取层与层之间每层对前一层提取出的特征进行再提取第3层第2层第1层§7.4

几种典型的深度学习模型目前三十九页\总数五十三页\编于十二点YannLeCunIn1995,YannLeCunandYoshuaBengiointroducedtheconceptofconvolutionalneuralnetworks.YoshuaBengio深度卷积网络§7.3

几种典型的深度学习模型在贝尔实验室的研究--提高手写识别滤波——池化目前四十页\总数五十三页\编于十二点§7.3

几种典型的深度学习模型输入图像通过多个可训练的滤波器组进行非线性卷积,卷积后在每一层产生特征映射图,再特征映射图中每组池化(亚采样),最终得到输出值目前四十一页\总数五十三页\编于十二点§7.3

几种典型的深度学习模型层间局部连接—稀疏连接方式深度卷积网络多层感知器(MLP)的变种卷积神经网络中,层间的神经元不是全连接,利用层间局部空间相关性,通过局部连接方式,上层的神经元只与和它相近的下层神经元相连,以大大降低神经网络的参数规模目前四十二页\总数五十三页\编于十二点§7.3

几种典型的深度学习模型每个卷积滤波器共享相同的参数。卷积神经网络中,卷积层的每个卷积滤波器重复作用于整个感受野中,对输入图像进行卷积,卷积结果构成输入图像的特征图,提取出图像的局部特征神经元共享权值一个特征映射面上的神经元共享权值,大大降低学习的卷积神经网络模型参数数量特征映射结构采用sigmoid函数作为卷积网络的激活函数共享权值目前四十三页\总数五十三页\编于十二点§7.3

几种典型的深度学习模型最大池化采样—非线性降采样方法最大池采样方法对卷积特征进行降维,具有平移不变性Softmax回归—有监督学习算法,解决多分类问题训练样本集由m个带标签样本构成:最小化代价函数目前四十四页\总数五十三页\编于十二点§7.3

几种典型的深度学习模型深度卷积网络训练与BP网络的向前传播和反向调整权矩阵类似的一种多层的监督学习神经网络,隐含层的卷积层和池化采样层是实现卷积神经网络特征提取功能的核心卷积神经网络的低隐含层是由卷积层和最大池化采样层交替组成,高层是全连接层对应传统多层感知器的隐含层和逻辑回归分类器目前四十五页\总数五十三页\编于十二点§7.3

几种典型的深度学习模型目前四十六页\总数五十三页\编于十二点§7.4开源深度学习框架

◆Caffe源自加州伯克利分校的Caffe被广泛应用,包括Pinterest这样的web大户。与TensorFlow一样,Caffe也是由C++开发,Caffe也是Google今年早些时候发布的DeepDream项目(可以识别喵星人的人工智能神经网络)的基础。

◆Theano2008年诞生于蒙特利尔理工学院,Theano派生出了大量深度学习Python软件包,最著名的包括Blocks和Keras。目前四十七页\总数五十三页\编于十二点§7.4开源深度学习框架

◆TorchTorch诞生已经有十年之久,但是真正起势得益于去年Facebook开源了大量Torch的深度学习模块和扩展。Torch另外一个特殊之处是采用了不怎么流行的编程语言Lua(该语言曾被用来开发视频游戏)。

◆Brainstorm来自瑞士人工智能实验室IDSIA的一个非常发展前景很不错的深度学习软件包,Brainstorm能够处理上百层的超级深度神经网络——所谓的公路网络HighwayNetworks。目前四十八页\总数五十三页\编于十二点§7.4开源深度学习框架

◆DeepLearning4j创业公司Skymind于2014年6月发布的一个面向生产环境和商业应用的高成熟度深度学习开源库,是”forJava”的深度学习框架,可与Hadoop和Spark集成,即插即用,方便开发者在APP中快速集成深度学习功能,可用于:人脸/图像识别;语音搜索;语音转文字(Speechtotext);垃圾信息过滤(异常侦测);电商欺诈侦测。埃森哲、雪弗兰、博斯咨询和IBM等明星企业都在使用。

◆Marvin是普林斯顿大学视觉工作组新推出的C++框架。该团队还提供了一个文件用于将Caffe模型转化成语Marvin兼容的模式。。目前四十九页\总数五十三页\编于十二点§7.4开源深度学习框架

◆ConvNetJS斯坦福大学博士生AndrejKarpathy开发浏览器插件,基于JavaScript可以在游览器中训练神经网络。

◆。。。目前五十页\总数五十三页\编于十二点20世纪90年代人类脑计划(HumanBrainProject,

HBP)继人类基因计划后,又一国际性科研大计划2013年1月欧盟启动“人类大脑计划”(HumanBrainProject)巨型计算机模拟整个人类大脑(10亿欧元)2013年4月美国“大脑活动图谱计划”(BrainActivityMapProject,或称BrainInitiative)研究大脑活动中的所有神经元,探索神经元、神经回路与大脑功能间的关系(38亿美元)2014年科技部脑科学信息化重大专项“类人脑工程”2014年诺贝尔奖生理学医学奖大脑的定位系统--“位置细胞”与“网格细胞”发现§7.5

深度学习的未来随着神经网络研究的不断变迁,其连接及其计算与生物神经元的连接模型其实渐行渐远?!!目前五十一页\总数五十三页\编于十二点开启计算机“高智商”新时代

IBM成功构建模拟人脑功能的认知计算机芯片

(2011-8-18)

通过模拟大脑结构,首次成功构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论