深度学习方法在图像处理中的应用及研究报告总结_第1页
深度学习方法在图像处理中的应用及研究报告总结_第2页
深度学习方法在图像处理中的应用及研究报告总结_第3页
深度学习方法在图像处理中的应用及研究报告总结_第4页
深度学习方法在图像处理中的应用及研究报告总结_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、-. z.深度学习方法在图像处理中的应用与研究TOC o 1-3 h u HYPERLINK l _Toc3051 1. 概述和背景 PAGEREF _Toc3051 1 HYPERLINK l _Toc6811 2.人脑视觉机理 PAGEREF _Toc6811 3 HYPERLINK l _Toc12311 3.深度学习的根本思想 PAGEREF _Toc12311 6 HYPERLINK l _Toc25966 4.深度学习的常用方法 PAGEREF _Toc25966 7 HYPERLINK l _Toc29875 5. 总结与展望 PAGEREF _Toc29875 9-. z.深度

2、学习方法在图像处理中的应用与研究1. 概述和背景 Artificial Intelligence,也就是人工智能,就像长生不老和星际漫游一样,是人类最美好的梦想之一。虽然计算机技术已经取得了长足的进步,但是到目前为止,还没有一台电脑能产生自我的意识。是的,在人类和大量现成数据的帮助下,电脑可以表现的十分强大,但是离开了这两者,它甚至都不能分辨一个喵星人和一个汪星人。 图灵图灵,大家都知道吧。计算机和人工智能的鼻祖,分别对应于其著名的图灵机和图灵测试在 1950 年的论文里,提出图灵试验的设想,即,隔墙对话,你将不知道与你谈话的,是人还是电脑。这无疑给计算机,尤其是人工智能,预设了一个很高的期望

3、值。但是半个世纪过去了,人工智能的进展,远远没有到达图灵试验的标准。这不仅让多年翘首以待的人们,心灰意冷,认为人工智能是忽悠,相关领域是伪科学。 但是自 2006 年以来,机器学习领域,取得了突破性的进展。图灵试验,至少不是则可望而不可及了。至于技术手段,不仅仅依赖于云计算对大数据的并行处理能力,而且依赖于算法。这个算法就是,Deep Learning。借助于 Deep Learning 算法,人类终于找到了如何处理抽象概念这个亘古难题的方法。 在实际应用中,例如对象分类问题如对象的分类(对象可是文档、图像、音频等),我们不得不面对的一个是问题是如何用数据来表示这个对象,当然这里的数据并非初始

4、的像素或者文字,也就是这些数据是比初始数据具有更为高层的含义,这里的数据往往指的就是对象的特征。例如人们常常将文档、网页等数据用词的集合来表示,根据文档的词集合表示到一个词组短语的向量空间 (vector space model, VSM模型)中,然后才能根抓不同的学习方法设计出适用的分类器来对目标对象进展分类;又如在图像处理中,像素强度的集合的表示方法可以最初浅的表示一幅图像,这也是我们视觉意义上的图像,一可是由于各种原因人们提出了更高层的语义的特征,如SIFT为经典的几何特征、以LBP为经典的纹理特征、以特征脸为经典的统计特征等,像SIFT,特征在很多图像处理的应用中突显出其优越性,因此特

5、征选取得好坏对于实际应用的影响是很深刻的。因此,选取什么特征或者用什么特征来表示*一对象对于解决一个实际问题非常的重要。然而,人为地选取特征的时间代价是非常昂贵,另外劳动本钱也高,而所谓的启发式的算法得到的结果往往不稳定,结果好坏经常是依靠经历和运气。既然如此,人们自然考虑到自动学习来完成特征抽取这一任务。Deep Learning的产生就是缘于此任务,它又被称为无监视的特征学习(Unsupervised Feature Learning ),一显然从这个名称就可以知道这是一个没有人为参与的特征选取方法。 深度学习(Deep Learning)的概念是2006年左右由 Geoffrey Hin

6、ton等人在science上发表的一篇文章(Reducing the dimensionality of data with neural networks提出来的,主要通过神经网络(Neural Network NN)来模拟人的大脑的学习过程,希望借鉴人脑的多层抽象机制来实现对现实对象或数抓(图像、语音及文木等)的抽象表达,整合特征抽取和分类器到一个学习框架下,特征的抽取过程中应该尽量少地减少人为的干预。 深度学习是通过大量的简单神经元组成,每层的神经元接收更低层的神经元的输入,通过输入与输出之间的非线性关系,将低层特征组合成更高层的抽象表示,并发现观测数据的分布式特征。通过自下而上的学习形

7、成多层的抽象表示,并多层次的特征学习是*理卜大学硕十学位论文一个自动地无人工干预的过程。根据学习到的网络构造,系统将输入的样本数据映射到各种层次的特征,并利用分类器或者匹配算法对顶层的输出单元进展分类识别等。2.人脑视觉机理研究说明,哺乳动物的大脑皮层,处理输入信息时是采用了一种分层机制,信息从感知器官输入后,经过多层的神经元,在经过每一层神经元时,神经元会将能够表达对象本质的特征抽取出来,然后将这些特征继续传递到下一层神经元上,同样地,后继的各层神经元都是以类似的方式处理和传递信息,最后传至大脑。深层的人工神经网络的诞生很大程度上受这一发现的启示,即构建一种包含多层结点,并且使得信息、得以逐

8、层处理抽象的神经网络。换言之,哺乳动物的大脑是以深度方式组织的,这一类深层的构造组织里的每一层会对于输入进展不同层次的信息处理或者抽象表示,因此,实际生活中,层次化的方法经常被用于表示一些抽象的语义概念。与哺乳动物一样,人类的大脑处理信矛息时也是采用逐层传输和表达的方式,人脑的初级视觉系统,首先利用*些神经元探测物体边界、元形状,然后又利用其他的神经元组织,逐步向上处理形成更复杂的视觉形状。人脑识别物体的原理是:外部世界中的物体先在视网膜上进展投影,然后大脑的视皮层对于聚集在视网膜上的投影进展分解处理,最后利用这些分解处理后的信息进展物体识别。因此视皮层的功能不是仅限于简单的重现视网膜图像,而

9、是提取和计算感知信号。视觉系统的输入数据量在人类感知系统的层次构造进展了维数减约,并剔除了与物体个性无关的信息;例如对于处理潜在构造是复杂的丰富数据(如图像、视频、主意等),深度学习应该与人类视觉系统一样可以精准地获取对象的本质特征。深度学习的设想是借鉴大脑的分层组织方式,通过由下向上、由简单到高级的逐层抽象的特征学习,研究者们期望深度网络构造能通过模拟大脑来解决复杂的模式识别难题。因此,深层的人工神经网络是一种人工定义用于模拟人脑组织形式的多层神经网络。从文本来说,一个doc表示什么意思?我们描述一件事情,用什么来表示比拟适宜?用一个一个字嘛,我看不是,字就是像素级别了,起码应该是term,

10、换句话说每个doc都由term构成,但这样表示概念的能力就够了嘛,可能也不够,需要再上一步,到达topic级,有了topic,再到doc就合理。但每个层次的数量差距很大,比方doc表示的概念-topic千-万量级-term10万量级-word百万量级。 一个人在看一个doc的时候,眼睛看到的是word,由这些word在大脑里自动切词形成term,在按照概念组织的方式,先验的学习,得到topic,然后再进展高层次的learning。那我们需要有多少个特征呢?我们知道需要层次的特征构建,由浅入深,但每一层该有多少个特征呢?任何一种方法,特征越多,给出的参考信息就越多,准确性会得到提升。但特征多意味

11、着计算复杂,探索的空间大,可以用来训练的数据在每个特征上就会稀疏,都会带来各种问题,并不一定特征越多越好。一些浅层的算法(指仅含一个隐层的神经网络、核回归、支撑向量机等),当给定有限数量的样本和计算单元时,浅层构造难以有效地表示复杂函数,并且对于复杂分类问题表现性能及泛化能力针均有明显的缺乏,尤其当目标对象具有丰富的含义。深度学习通过大量的简单神经元组成的网络,利用输入与输出之间的非线性关系,对复杂函数进展近似,对观测样本进展拟合,并在学习输入样本本质特征的抽取上表达了强大的能力。有文献中就列举出一系列无法使用浅层网络表示的函数,这些研究成果提醒了浅层网络的局限性,从而也激发了人们探寻深度网络

12、在一些复杂函数表示和复杂分类的应用前景。指出深度学习构造在对于复杂函数的表示问题上具有非常高的效率及效果,而一个不适用的构造模型否(如浅层网络)对数据建模时可能需要数目非常大的计算单元。3.深度学习的根本思想假设一个系统S,它是一个n层(S1,Sn)的构造,I是系统的输入,O是系统输出,形象地表示为:I =S1=S2=.=Sn=O,如果输出O等于输入I,物理意义也就是说明在经过系统变化之后,输入I的信息量没有任何损失,和原始的输入保持了不变,这说明了输入I经过每一层S;均没有丧失任何信息,,即在任何一层S;,它都是输入I也就是原始信息的另外一种表示。简单说,深度学习的精华也就是,在一个n层的神

13、经网络中,任何一层的输入I和输出O是相等.的。学习过程中,我们希望它是不需要人为干预的,它能够自动地学习对象的特征。在给定一组原始的输入I(可以理解为是一堆图像或者文本、一段语音之类),经过一个包含n层的系统S时,我们通过调整系统中参数,使得输出与输出相等,即输出O仍然是输入I,这样,我们就获取了输入I(原始数据)的一系列的层次特征,记为S, .Sn。另外,前面是假设输出严格地等于输入,即这个地方相等有两个含义在里面:第一个是说O和I不是在绝对形式上的相等,而是在抽象意义上的相等;另外一点指的是限制的约束的程度,比方说是不会造成歧义的完全相等还是有适当宽松条件的相等。而绝对意义上的相等这个限制

14、太严格,我们可以略微地放松这个限制,例如我们只要使得输入与输出的差异尽可能地小即可,这个放松会形成另外一类不同的深度学习的方法。举个不太恰当的例子,比方说对交通工具这个概念上,I是可以驾驶的四个轮子,O是车,这样虽然对两者的描述不一致,但是我们都一可以理解为交通工具了。上述就是深度学习的根本思想,而上述中的两个思想也对应了深度学习中的两个经典的方法AutoEncoder和Sparse Coding,还有一个很常用的方法就是受限玻尔兹曼机(Restrict Boltzmann Machine, RBM )。深度学习的常用方法4.1AutoEncoder自动编码器最简单的一种方法是利用人工神经网络

15、的特点,人工神经网络(ANN)本身就是具有层次构造的系统,如果给定一个神经网络,我们假设其输出与输入是一样的,然后训练调整其参数,得到每一层中的权重,自然地,我们就得到了输入I的儿种不同表示(每一层是输入的一种表示),这些表示就是特征,在研究中可以发现,如果在原有的特征中参加这些自动学习得到的特t正可以大大提高准确度,甚至在分类问题中比前址好的分类算法效果还要好,这种方法称为自动编码(AutoEncoder )。4.2、Sparse Coding稀疏编码如果我们把输出必须和输入相等的限制放松,同时利用线性代数中基的概念,即O=W* B, +砚* B, +.+W,* B, , B是基,W;是系数

16、,我们可以得到这样一个优化问题:Min 11一Olo通过求解这个最优化式子,我们可以求得系数W和基B;,这些系数和根底就是输入的另外一种近似表达,因此,它们可以被当成特征来表达输入I,这个过程也是自动学习得到的。如果我们在上述式子上加上L1的Regularity限制,得到: MinI一O+u*(IW卜砚I+W,)。(2. 1)种方法被称为Sparse Coding,它是一种对对象的简洁表征的方法,这种方法可以自动地学习到隐藏在对象数据潜在的基函数。4.3、Restricted Boltzmann Machine(RBM)限制波尔兹曼机假设有一个二部图,每一个一样层的节点之间没有,一层是可视层,

17、即输入数据层(v),一层是隐层(h),如果假设所有的节点都是二值变量节点(只能取0或者1值),同时假设联合概率分布p(v, h)满足Boltzmann分布,我们称这个模型是受限玻尔兹曼机(RBM)。下面我们来看看为什么它是Deep Learning方法。首先,这个模型因为是二部图,所以在己知v的情况下,所有的隐藏节点之间是条件独立的,即p(hIv卜p(h, I 1,) . p(h I v)。同理,在己知隐藏层h的情况下,所有的可视节点都是条件独立的,同时又由于所有的v和h满足Boltzmann分布,因此,当输入v的时候,通过p(hlv)可以得到隐藏层h,而得到隐藏层h之后,通过p(vlh)又能

18、重构可视层,通过调整参数,我们就是要使得从隐藏层得到的可视层VI与原来的可视层v如果一样,则得到的隐藏层就是可视层的另外一种表达,因此隐藏层可以作为可视层输入数据的特征,所以它就是一种Dcep Learning方法。文献*32从理论一上证明,当隐层节点足够多时,深度网络就可以表示任意离散分布;文献33指出受限玻尔兹曼机中的隐层节点与可视节点可以为任意的指数族单元(即给定隐单元(可见单元),可见单元(隐单元)的分布的形式一可以为任意的指数族分布),如高斯单元、softma*单元、泊松单元等等。4.4、Deep BeliefNetworks深信度网络 DBNs是一个概率生成模型,与传统的判别模型的

19、神经网络相对,生成模型是建立一个观察数据和标签之间的联合分布,对P(Observation|Label)和 P(Label|Observation)都做了评估,而判别模型仅仅而已评估了后者,也就是P(Label|Observation)。对于在深度神经网络应用传统的BP算法的时候,DBNs遇到了以下问题:1需要为训练提供一个有标签的样本集;2学习过程较慢;不适当的参数选择会导致学习收敛于局部最优解。目前,和DBNs有关的研究包括堆叠自动编码器,它是通过用堆叠自动编码器来替换传统DBNs里面的RBMs。这就使得可以通过同样的规则来训练产生深度多层神经网络架构,但它缺少层的参数化的严格要求。与DB

20、Ns不同,自动编码器使用判别模型,这样这个构造就很难采样输入采样空间,这就使得网络更难捕捉它的内部表达。但是,降噪自动编码器却能很好的防止这个问题,并且比传统的DBNs更优。它通过在训练过程添加随机的污染并堆叠产生场泛化性能。训练单一的降噪自动编码器的过程和RBMs训练生成模型的过程一样。4.5 Networks卷积神经网络 卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络构造使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,防止了传统识别算法中复杂的特征

21、提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络构造对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。 Ns是受早期的延时神经网络TDNN的影响。延时神经网络通过在时间维度上共享权值降低学习复杂度,适用于语音和时间序列信号的处理。 Ns是第一个真正成功训练多层网络构造的学习算法。它利用空间关系减少需要学习的参数数目以提高一般前向BP算法的训练性能。Ns作为一个深度学习架构提出是为了最小化数据的预处理要求。在N中,图像的一小局部局部感受区域作为层级构造的最低层的输入,信息再依次传输到不同的层,每层通过一个数字滤波器去获得观测数据的最显著的特征。这个方法能够获

22、取对平移、缩放和旋转不变的观测数据的显著特征,因为图像的局部感受区域允许神经元或者处理单元可以访问到最根底的特征,例如定向边缘或者角点。总结与展望1Deep learning总结 深度学习是关于自动学习要建模的数据的潜在隐含分布的多层复杂表达的算法。换句话来说,深度学习算法自动的提取分类需要的低层次或者高层次特征。高层次特征,一是指该特征可以分级层次地依赖其他特征,例如:对于机器视觉,深度学习算法从原始图像去学习得到它的一个低层次表达,例如边缘检测器,小波滤波器等,然后在这些低层次表达的根底上再建立表达,例如这些低层次表达的线性或者非线性组合,然后重复这个过程,最后得到一个高层次的表达。 Deep learning能够得到更好地表示数据的feature,同时由于模型的层次、参数很多,capacity足够,因此,模型有能力表示大规模数据,所以对于图像、语音这种特征不明显需要手工设计且很多没有直观物理含义的问题,能够在大规模训练数据上取得更好的效果。此外,从模式识别特征和分类器的角度,deep learning框架将feature和分类器结合到一个框架中,用数据去学习feature,在使用中减少了手工设计feature的巨大工作量这是目前工业界工程师付出努力最多的方面,因此,不仅仅效果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论