基于SIFT算子的双目视觉立体匹配算法研究_图文

上传人：7*** IP属地：湖北上传时间：2022-02-13 格式：DOC 页数：68 大小：3.61MB 积分：28 举报 版权申诉

已阅读5页，还剩63页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、西安电子科技大学硕士学位论文基于SIFT算子的双目视觉立体匹配算法研究姓名:李岩琪申请学位级别:硕士专业:计算机系统结构指导教师:曹伯燕20100101摘要双目立体视觉技术是根据两幅不同角度拍摄的图像,获取图像中物体三维几何信息的技术。该技术近年来发展迅速,在军事和民事的各个领域都得到了广泛的应用。图像匹配技术又是双目视觉领域中最为关键的技术,一个好的匹配方法,要同时达到速度快、精度高的要求,从而满足实时性和实用性。但是图像匹配强依赖于图像本身,因此,图像匹配技术也是双目视觉发展中最难彻底解决的问题,该技术一直在不断发展与完善之中。本文阐述了双目立体视觉技术的原理和具体内容,对立体匹配技术作

2、了深入的研究。重点分析了基于SIFT(Scale Invariant Feature Transform尺度不变特征变换算子的立体匹配算法,该算法基于尺度空间的图像特征进行匹配。SIFT算子对特征点进行检测和描述,对图像变换和噪声具有很好的鲁棒性。为提高该算法匹配的精度,本文针对其算子设计进行了改进,提出了改进算法并编程实现。通过对不同类型图像的匹配验证实验,证明改进算法的结果可以定性的反映出图像中物体真实的三维形状和相对位置关系,视差效果好,匹配率较高且稳定。关键词:双目视觉立体匹配视差SIFT特征值AbstractBinocular stereo vision is a techniq

3、ue on how to possible understand and perceive the objective world by computer rather than human beings. It can require the three-dimensional (3D geometry information of objects form two images that shooting from two different angles. This technique has a rapidly development these years, it has been

4、successfully used in many fields of civil and martial.Image stereo matching is the most significant part in binocular stereo vision technique. A perfect matching algorithm is fast and accurately, it should have good practicability. But image matching algorithm strongly depends on image itself, that

5、is, every stereo image stereo matching algorithm is proposed aiming at matching certain type of images, there is no such a stereo matching algorithm can process any type of images nowadays, so it is difficult to solve this problem completely. Sometimes, the matching algorithm even can not reach the

6、requirement of applications, so this issue has always been developed and improved.This paper introduces and analyzes theory of binocular stereo vision technique detailedly, then makes a deep research on image matching algorithm. The focus on this paper is an image feature matching algorithm based on

7、 scale invariant features transform (SIFT operator. The principle of SIFT matching algorithm is researched. In this algorithm, SIFT operator is used to detect the feature points, and each feature point is assigned a feature descriptor. It is accurate and robust towards image distortion and noise. In

8、 order to improve the matching rate of SIFT algorithm, an improved SIFT matching algorithm is proposed and implemented. Taking many different types of images as experiment images, with the improved algorithm, the shape character and relative position of objects in the image can be shown well, the me

9、thod is stable and fast, the matching rate is improved.Keyword:Binocular stereo vision Image matching SIFT Feature point西安电子科技大学学位论文创新性声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已

10、在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切的法律责任。本人签名:日期西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。(保密的论文在解密后遵守此规定本学位论文属于保密,在年解密后适用本授权书。本人签名:日期导师签名:日期第一章绪

11、论1第一章绪论1.1 引言视觉是人类与生俱来的一种观察世界、认知世界的重要功能手段。人类从外界获得的信息约有75%来自视觉系统1 2。人类的视觉系统是迄今为止,人们所知道的生物界中功能最为强大和完善的视觉系统。人类通过眼睛获取图像,运用大脑处理和理解从眼睛得到的视觉信息,对两眼看到的图像自动分辨它们的差别并加以融合,最终展示在我们眼前的是一个具有深度感的立体的三维的世界。人类大脑复杂且功能强大,若机器能够很好的模拟眼睛和大脑的合作,完成这一信息处理过程,那么很多的工作将会大大地简化。因此,计算机视觉成为各个应用领域,如制造业、检验、文档分析、医疗诊断和军事等领域的各种系统中不可分割的一部分,是

12、工程领域,也是科学领域中的一个富有挑战性的重要研究内容3。计算机视觉的挑战就是要为计算机和机器人开发具有与人类水平相当的视觉能力。1.2 课题背景作为一门学科,计算机视觉开始于二十世纪60年代初,但计算机视觉研究中的许多重要进展和成果是在二十世纪80年代取得的。从20世纪70年代中期开始,以Marr等人为代表的研究学者提出了一整套视觉计算的理论来描述视觉过程,理论核心就是从图像中恢复物体的三维形状4,其中,Marr的理论影响最为深远。二十世纪80年代中后期,机器人研究使得视觉研究中大量运用了空间几何的方法。到二十世纪90年代初到二十一世纪,关于立体视觉的研究在许多方面开始趋于成熟。最近十多年来

13、,计算机立体视觉在多个领域内取得了重要进展,包括区域匹配和特征匹配的新的算法技术、多摄像机立体视觉等。目前,随着计算机科学、人工智能以及相关学科的进一步发展,计算机视觉的研究也相应的得到了更深入的发展,它正广泛的应用于各个领域中,在很多特殊环境的应用中,已经可以逐步代替人类视觉起到关键的作用5。包括在航空、航天、卫星拍摄等应用中,计算机视觉已经成为不可替代的关键技术。我国的计算机视觉发展快速,无论军事领域还是民用工业、农业,计算机视觉都有着广阔的应用领域和非常好的发展前景。双目立体视觉技术是用并排的两部或多部图像采集装置对同一物体或场景进2 基于SIFT算子的双目视觉立体匹配算法研究行拍摄,或

14、者用一部采集装置在对应的不同的角度拍摄同一物体,生成至少左、右两幅图像。这一过程模拟人眼成像,同一物体在不同角度图像中的位置不同称为视差。利用视差及拍摄的角度,就可以计算得到该物体在真实世界中的位置相关信息。计算机要完成模拟人类视觉的过程,首先要有类似人类眼睛的对外界信息采集的工具,当前这方面的硬件的发展已经相当进步,各种的图像或视频采集设备层出不穷,如光学摄像机或红外、超声、激光等对周围场景或物体进行探测成像,可以得到关于场景或物体的二维或三维数字化图像。接下来是更为困难的一部分,就是计算机得到采集到的图像之后,模拟人类大脑处理图像信息的过程,这一部分是实现计算机视觉的关键。首先,可以对图像

15、进行初步的预先处理,涉及到的技术有图像滤波、图像增强、边缘检测等;其次,可对图像的明暗特征、纹理特征等特征进行描述和提取,这之中也涉及到标定、匹配等等的工作,这对于恢复物体的深度信息非常关键;最后,可根据原始图像、图像基本特征、深度特征等,利用重建技术对物体或场景进行三维描述和三维重建,从而更好的识别物体的位置和方向。立体匹配技术在以上过程中起到的关键作用就在于,将两幅图像进行匹配,在右图像上,利用匹配算法找出与左图像中相应点相匹配的点,利用每对点之间的位置差异,进行视差的计算,从而得到所需要的数据信息。这一过程也可以归结为图像特征之间的相似性评价问题。目前,立体匹配采用的方法有很多,常见的有

16、基于图像区域的匹配方法和基于图像特征的匹配方法等。立体匹配问题是立体视觉中最复杂和困难的问题,匹配技术的提升,对整个计算机视觉的发展会具有巨大的推动作用。1.3 研究意义及课题内容立体视觉研究中的图像匹配要求高速性和准确性。正如前文所述,立体匹配问题之所以是一个研究难点,就在于很难非常好的同时兼顾速度和精度这两个要素。在实际的应用中,两个成像装置位置的变化、焦距的变化等,都有可能造成得到的两幅左、右图像存在平移、遮挡、缩放、旋转等状况。同时,摄像机镜头本身也存在光学畸变,各种图像噪声和外部条件,如光强、大气条件等,都会影响图像匹配的效果。而且,计算机完成匹配工作,目前还难以完全脱离人工帮助,想

17、要实现计算机完全自动匹配,还有待时日。另外,当图像的尺寸和精度有所增大,在保证配准精度不下降的同时,图像匹配的速度和实时性还要有所提高,这也是很难解决的问题。这些都是目前立体视觉图像匹配技术在研究发展中所遇到的几大难题。第一章绪论3所以,一个好的匹配方法,应该有很强的抗噪声、抗畸变的特性;有很好的适应各种图像的能力;要具有旋转的不变性;算法的时间、空间复杂度都要满足实用要求,要有很好的实时性、实用性等。解决瓶颈问题,得到更完善的匹配方法,已经成为计算机立体视觉领域研究人员的研究目标。David Lowe在1999年发表,在2004年完善总结了一种基于尺度空间的、对图像缩放、旋转、甚至仿射变换都

18、保持不变性的图像局部特征描述算子,即SIFT(Scale Invariant Feature Transform尺度不变特征变换算子。SIFT算子在尺度空间下进行特征检测,计算关键点的邻域梯度的主方向作为该点的方向特征向量,这样就可以实现算子对尺度和方向的无关性。对于每一个关键特征点,SIFT算子都提供了位置、尺度、方向三方面的信息,具有很强的特征点描述能力,这样就可以大大的提高匹配的准确率。正是因为SIFT算子的诸多优势,在图像匹配领域,该算子已经成为国内外研究的重点。本文的主要内容即为双目视觉中的立体匹配算法研究,在详细介绍双目视觉和匹配技术的理论基础上,分析对比基于图像区域匹配的几个传统

19、算子(SSD、SAD、NCC和基于图像特征匹配的几个常用算子(Moravec、SUSAN、Harris,然后重点深入介绍研究基于SIFT算子的特征匹配算法,对该算法的实现过程进行逐步的分析,并对算法进行改进和优化,以提高匹配率。最后在PC机上使用VC6.0工具结合OpenCV库函数6将其编程实现,用改进算法实现的软件对实验图像进行匹配,得到视差图,期望根据视差图反映物体位置形状关系,记录其匹配结果数据及分析优缺点。1.4 本文结构安排按照论述的内容,本文共分为六章,各章主要内容安排如下:第一章是绪论。主要介绍论文的研究背景、研究意义、研究内容及论文结构,总结国内外该课题的研究现状。第二章是双目

20、立体视觉原理。详细介绍人类视觉的过程和计算机视觉的基本原理,阐述立体视觉的研究内容和应用。第三章是图像匹配技术研究。主要内容有介绍图像匹配的定义和分类,分别对比分析基于区域灰度匹配的SSD、SAD等算子和基于特征匹配的Moravec、SUSAN、Harris等算子,给出各种算子结构的优缺点及其适用性。第四章是基于SIFT算子的立体匹配方法。介绍SIFT算子的主要思想和特点,分析SIFT匹配方法的原理和实现步骤,对原算法进行算子结构上的优化设计,提出优化方案流程。第五章是实验结果及分析。实现改进SIFT算法,利用大量图像进行结果验4 基于SIFT算子的双目视觉立体匹配算法研究证,得到视差图并分析

21、结果数据,证明该算法的实用性和优缺点。第六章是结论与展望。总结本文所做的工作,指出研究中的不足和今后重点研究方向。最后为致谢、参考文献等。第二章双目立体视觉原理 5第二章双目立体视觉原理双目立体视觉技术是机器视觉研究中的主要组成部分,作为信息化的重要技术之一,双目立体视觉技术在当今社会已经有了广泛的应用。该技术让计算机模拟人眼捕获外部世界信息,得到信息后进行相当于人脑甚至高于人脑速度的高速精确处理,使信息能够为人们方便的做定性判断和其它应用。2.1 人类立体视觉过程分析对生物视觉系统来说,具有视觉系统的动物都具有至少两只眼睛,用两只眼睛观察物体时,会有深度和远近的感知,这样呈现在眼前的世界

22、就是一个三维世界。人类是通过眼睛和大脑来获取、处理和理解视觉信息的。正常情况下,物体在自然光源或人工光源照射下,会在人眼的视网膜上形成图像。人眼有自动焦距的适应性调节,可以达到最好的视觉效果,人类的感光细胞将看到的图像转换成神经脉冲信号传输给大脑进行识别、处理和理解。大脑会根据两眼得到的图像,给人类深度和远度的感受,或者将人们感兴趣的目的信息给予快速反馈。这一过程,包含了生物学、心理学等的相关知识,是一个极其复杂的过程7。 P(X, Y , Z征。图2.1 人类视觉基本原理当然,人类单眼也可感知深度,但这依赖的是人类的生活经验和生理特计算机是不容易做到的,所以此处讨论的是双目成像的过程。如图2

23、.1所示,12,X X 分别代表人类的左眼和右眼,两眼之间的距离为B ,两眼同时对物体P 进行观察时,在左、右两个眼睛的视网膜上都产生了P 的像,这两个像在视网膜上的位置6 基于SIFT 算子的双目视觉立体匹配算法研究不同,称它为视差,正是由于视差的存在,视差图像在人脑的融合,让这两个二维的功能,让计算机视觉方面的研究人员们非常的期盼用计算机也可以将其实现。2.2 计算机视觉原理型,然后认知现实世世界。目前应用中的一般性目标只是让计算机能够完成一定程度的智能要求。更加成熟,匹配、立体视觉等方面越来越受到重视,应用的方面也越来越广。2.2.1 Marr 的视觉理论框架,他提出的视觉理论框架(图2

24、.2,图像合成得到三维的物体原型,这也是计算机视觉的原理基础。正是这个可谓“神奇”的人类与生俱来的计算机视觉系统的首要目标是用图像创建或恢复现实世界模界,建立与人的视觉系统相类似的通用计算机视觉系统。信号处理理论与计算机出现后,人们试图以摄像机代替人的眼睛获取图像,然后由计算机代替人的大脑进行数据的处理与理解,计算机视觉就是这样一门新的学科。它用各种成像系统代替视觉器官作为输入手段,由计算机来代替大脑完成处理和解释。计算机视觉的终极目标就是使计算机能像人类那样通过视觉观察和理解计算机视觉是在20世纪50年代从统计模式识别开始的,识别一些光学字符,工件表面、显微图片和航空图片8。60年代有学者开

25、始从数字图像中,利用计算机程序,提取一些简单的形体比如正方体、棱柱等多面体的三维结构,希望得到物体的形状和空间位置关系的信息。接着,有更多的研究人员开始研究图像的特征提取例如边缘、角点,分析图像灰度、纹理、运动等,建立形成了很多各方面的研究标准和统一规则。到了80、90年代,关于计算机视觉的研究David Marr ,1945年1月出生于英国。数学硕士,后攻读神经生理学的博士,期间受到神经解剖学、神经生理学、生物化学和分子生物学的训练。1973年作为访问学者到麻省理工学院的人工智能实验室工作,从此开始研究视觉,他的理论受到人工智能和神经科学两方面的影响,是视觉理论的创始人。他1980年去世,完

26、成著作Vision ,这本书是计算神经科学的前驱也是影响后世最为深远的视觉理论之一9。Marr 认为,视觉实际上是一种信息处理过程,一种分层次的、在各个阶段有不同信息表达方式的、模块化的和单项的处理过程,是一个由低到高的过程,其最终目标,则是建立一个外部世界的描述10。视觉信息处理的三个层次大概可以描述为:(1原始图像转换为基本要素图,要素图也可称为基元图,由二维图像中的边缘点、直线段、定点、纹理等基本几何或特征组成;(2对物体的可视表面、深度与轮廓的描述,Marr 称之为2.5维的描述,也就是部分的、不完整的三维形状与位置关系,是观察者坐标系下的部分三维物体形状,包括立体视觉、运动分析、由灰

27、度恢复表面形状等处理单元;(3以物体为中心的三维物体的形状与空间位置的描述,是物体完整的三维描述。这三个层次都要从计算理论、算法描述和硬件实现三个方面去研究。计算理论方面回答系统各个部分的计算目的与计算策略,也就是输入为二维图像,输出为三位物体的位置与形状参数,还有确定输入输出间有无什么变换或者什么约束条件的关系;算法描述方面给出各个部分的输入、输出和内部的信息表达,以及实现计算理论所规定的目标的算法;最后硬件方面内容即为用硬件去实现算法。图2.2 Marr 视觉理论框架2.2.2 与计算机视觉密切相关的学科技术别、景物分析、图像理解等。这些学科有差别但又有某种程度上的相互光亮度变化,信噪比

28、变化等,还可利用图像处理技和指纹识别等。在计算机定。这个技术还需要图像处理以外一些相关知识,比如景物成像物理规律等。计算机视觉中需要用到的,但计算机视觉研究的内容比这些学科要更广一些。有不少学科的研究目标与计算机视觉相近或与此有关。这些学科中包括图像处理、模式识重叠。图像处理技术是把输入图像转换成具有所希望特性的另一幅图像。可以通过处理对图像进行初步的操作,比如术进行预处理和特征抽取。模式识别,或者称图像识别,该技术是根据从图像中抽取的统计特性或者结构信息,把图像分成一些类别。现在常用的应用有文字识别视觉中,模式识别技术经常用于图像中的局部处理。图像理解,或者称景物分析,在人工智能视觉研究的初

29、期经常使用景物分析这个术语,可强调出二维图像与三维景物之间的区别。图像理解程序不仅仅要描述图像本身,而且要描述和解释图像所代表的景物,以便对图像代表的内容做出相关决以上的学科和相关技术,都是要素图2.5维图2.3 双目立体视觉的研究内容双目立体视觉,顾名思义,双目就是两个成像设备同时对物体进行拍摄,由于两个设备所处的位置不同,所以形成的图像,是不完全重叠的场景。和人眼相似,采用三角测量的方法,从视差中恢复出物体的深度或远近甚至凹凸的感觉。这是最简单的立体技术,也是近期国内外研究最多的技术。 2.3.1 双目立体视觉概述立体视觉是由多幅图像(一般是由两幅图像获取物体三维几何信息的方法。对视觉的研

30、究,心理学是先驱,很久之前心理学里就有关于错视现象、视觉的相对性等等的研究11。不过这些研究是片面的不系统的。在立体视觉方面,双目三角测距最早被从事绘画的人所了解,现在双目视觉的基础理论也是以三角测距为基础的。人类许多的能力都通过双目立体视觉的技术被计算机所模拟,比如识别和定位物体、回避障碍物和搜索物体等。好的立体视觉系统,对外界的干扰如光照条件、几何畸变等要有很好的鲁棒性,对两幅图像的质量也应有很好的适应性,对深度信息检测的分辨率高。图2.3 立体视觉过程示例是对场景的三维重建。本文的主要内容就是其中的第三步图像立体匹配技术。一个完整的立体视觉过程大概可分为四步(图2.3:一是通过图像采集

31、设备获取图像;二是对摄像机进行标定以便确定成像模型中的几何参数;三是图像特征提取、图像匹配;最后2.3.2 深度信息的计算过程计算机视觉系统获取的图像一般是灰度图像,即三维场景在二维平面上的投影。根据两个对应方向上得到的图像获取物体的三维深度信息12。双目立体视觉中,深度信息的获得是分下面两步进行的:第一,在双目立体图像之间建立点点对应,也就是匹配问题;第二根据对应点的视差计算出深度,这是视差问题。在最简单的双目立体视觉中,左、右摄像机彼此参数一致,只有水平方向的视差,简化了对应的过程。图2.4 双目投影示意图如图2.3所示,对于空间物体表面上的任一点P ,用和两个摄像机观察,分别成像和,如

32、果只用一个摄像机观察,那么无法由来确定P 的三维位置,因为任何在连线上的点的像都是。若同时用和两个摄像机拍摄,和有唯一交点P ,这样就确定了它的三维位置。如果能得到物体表面所有的点的三维坐标,或者物体表面关键点的三维坐标,那么该物体的形状和位置就是唯一确定的。用立体视觉的方法获取三维坐标是最基本的方法,下面具体分析计算过程。1C 2C 1N P 2N P 1C 1N P 1O P 1N P 1C 2C 1O P 2O P 假设和是已标定的摄像机,投影矩阵分别为1C 2C 1M 与2M ,得到两幅左、右视图,和分别是P 在左、右图像中的像点,要进行坐标投影变换,将图像坐标转换为摄像机坐标,再通过

33、投影矩阵转换为世界坐标有:1N P 2N P 11111111213141111112122232411113132333411c X u m m m m Y Z v m m m m Z m mmm =式(2-122222111213142222222122232422223132333411c X u m m m m YZ v m m m m Z m mmm = 式(2-2其中,与分别是和在左、右图像中的图像齐次坐标,11(,1u v 22(,1u v 1N P 2N P 111(,C C C X Y Z 和222(,C C C X Y Z 是空间点P 在摄像机坐标系下的坐标。,C C X

34、Y 可以由u ,v 表示,于是(,与,1u v C Z 相乘就将图像坐标转换为了摄像机坐标。(,1X Y Z 是P 点在世界坐标系中的齐次坐标,为(1,2;1,2,3;1,2,3,4kij m k i j =k M 的第行、第i j 列元素。做矩阵展开运算,将1C Z 和2C Z 可消去,得:式(2-3111111113111132121331314134111111113121132221332324134(u m m X u m m Y u m m Z m u m v m m X v m m Y v m m Z m v m +=+=11222 式(2-4 22222222311123212

35、2331314234222222223121232222332324234(u m m X u m m Y u m m Z m u m v m m X v m m Y v m m Z m v m +=+=公式(2-3和(2-4均为三维空间的平面方程联立,代表了两平面的交线和,P 点是这两条线的交点,必然满足这两个方程。于是可以再联立这两个方程组四个方程求出三个未知数11N O P 2N O P ,X Y Z ,必定有解且解唯一,这样就由图像上两像点坐标,求出了P 的真实三维坐标。2.4 双目立体视觉技术的应用如前文所述,双目立体视觉技术已经成为现代研究的热点,也取得了很大的发展,在科学研究、军

36、事、民事领域等都不断地在应用该技术。该技术的应用主要分为以下几个方面:首先,图像分析,即利用双目立体视觉软件对已经得到的图像进行分析处理。这方面的典型应用有医学中的医学影像检测和医学三维重建,根据拍摄的医学影像图片分析和恢复病灶的实际情况,医务人员可更容易的得到疾病的真实情况,做出准确诊断。另外,军事上,我国航空、航天领域大量的应用了双目视觉技术来处理分析图像,我国探月卫星嫦娥一号拍得的月球表面图像,随后经技术手段恢复出月球表面立体形状,这个过程中就包含了双目立体视觉的技术的应用,计算机视觉在国防科技领域中处于非常重要的位置。其次,数据分析,即利用双目视觉软件对拍摄的信息进行定位识别和监控。典

37、型应用有场景信息的识别、自然资源监控等。这方面的应用是设定好识别对象和监控对象后,需要实时的或者定期的回馈识别和监控的结果,对实时性的要求比较高。民事上的应用有交通路况检测、军事上有特殊区域监控等。第三,模式识别,即对特定的目标进行检测、识别是否相符合的过程。这方面的应用有目标跟踪定位,指纹、角膜检测,条码分析等,可以说是双目视觉技术应用最为广泛的方面。民事上可应用于安保系统、工业生产线质量检测等,军事上模式识别可应用在检测军事目标、制导领域等方面。双目立体视觉的应用还有很多,比如计算机虚拟现实技术已经应用在电影拍摄中,使得电影特效更为逼真绚丽;立体影像技术应用在三维场景恢复中,如动态车载导航

38、系统等,所有的应用都有巨大的发展空间,也需要立体视觉技术的更进一步发展,克服很多技术难关和瓶颈,才能更理想的实现,该技术具有长期的研究价值和实用价值。2.5本章小结本章主要研究了双目立体视觉的相关原理。首先结合人类视觉原理介绍了计算机立体视觉的基本过程。概括的论述了Marr的视觉理论框架,介绍了与计算机视觉相关的学科内容。其次,本章指出了立体视觉研究的步骤,给出了框架和原理示意图,在数学方面证明了如何根据双目图像来计算得到物体在真实世界的三维坐标。最后,本章从技术分类的角度分析了双目视觉在各个领域的应用和未来的发展,总结得到了该技术的研究的长期性和重要性。第三章图像立体匹配技术研究与对比分析图

39、像匹配是指通过一定的匹配算法在两幅或多幅图像之间识别同名点的过程,其实是运用匹配准则的最佳搜索问题。图像匹配目前研究主要是根据匹配基元的不同可分为以区域灰度为基础的匹配、以特征为基础的匹配等13。图像立体匹配技术是双目视觉研究中的关键,如果该技术停滞不前,计算机视觉方面的应用研究就会受到很大的影响,所以对匹配技术的钻研和改进从未停止过。目前虽然目前国内外对图像立体匹配算法的研究非常重视,各种各样的图像立体匹配算法都相继被提出并得到实际应用。但由于匹配算法是强依赖于图像本身的,也就是说不同的图像立体匹配算法往往针对的是不同类型图像的匹配,因此迄今为止,尚不存在一种通用的得到大家公认的立体匹配算法

40、可以处理所有类型图像的匹配问题。正如本文第一章研究意义中所述,匹配技术要达到理想的效果,即运算高速且效果好,甚至要达到全自动毫无人工参与的要求,还有许多要改进和发展的空间。本章内容是对立体匹配技术的原理和应用进行详细说明,对比分析几种立体匹配算法中的常用算子。3.1 图像立体匹配概述图像立体匹配是双目立体视觉中最为关键复杂的过程,即在两幅图像中尽量精确的寻找现实世界中同一点的像对。以其中一幅为基准(一般是左图像,确定某点的位置后在右图像中找到与该点最为匹配的点,这之间的搜索规则,就是各种各样的匹配算法14。3.1.1 视差分析只根据一幅图像,要判断其中物体的形状、远近或者相对位置关系,排除人类

41、的经验、感觉和心理因素,这样直接判断是比较困难的。比如图 3.1(a中有两个并排的不同大小的圆球,排除光照等其他因素,只根据这一幅图像来判断,拍摄的有可能是并排的一大一小圆球,但也可能小圆球只是因为距离远而成像小,很难确定两个圆球在真实世界中的位置和大小。但如果用两个角度去拍摄,得到另外一个角度的图像 3.1(b,找到圆球上同一点的像,根据它的偏移情况,就可以判断两圆球真实的远近和相对位置,根据之后介绍的数学理论能够计算它们的具体位置关系。机焦距f ,物体上的点在左、右相机图像面上的投影点分别为。令图3.1 双目视觉中的视差从不同视角得到的相同场景的两幅图像中,同一个点在两幅图像中成像的位

42、置是不尽相同的,这之间的差值就称之为视觉偏差,即视差。C lPA图3.2 双目视觉中的视差计算原理如图3.1,l C r C 是两个图像采集设备的光心,l C 和r C 距离为b ,相为P l P r P l l a A P l =,r r b A P l =,r P B ,由相似三角形知识可得:a =bd f a d a l =+ 式(3-1a b b b l l a d f d b l a +=+ 式(3-2 由式(3-1和式(3-2有:a b a bbl a l l l = 式(3-3 b b a b a l bf d fl l l += 式(3-4 由式(3-4可以看出,距离d 的大小

43、与b 、f 和a b l l 有关。a b l l 就是点P 在左、右两个图像上形成的视差,它表示P 点在左、右两幅图像中成像点的位置差异。由于f 是已知的,因此,要得到物体上点的真实距离,关键就是要从图像中求得a b l l 的值。要得到这个值,就要实现空间中同一点P 在左、右两幅图像上成像点的对应。图像匹配就是找到这样像对的过程,找到两幅图像中同一原像的点,并求得视差d ,从而可以得到图像中物体在真实场景中位置关系,匹配的b 、精度越高,得到的空间坐标点越多,就能更好的真实反应出物体的三维情况。3.1.2 图像匹配相关的变换基础分析在图像匹配技术中,因为是两幅或多幅图像的匹配,所以要建立坐

44、标变换模型,采用一定的数学方法将一种坐标系的坐标变换为另一种坐标系的坐标。这样就可以建立一幅图像坐标(,x y 与另一幅图像坐标(','x y 间的对应关系。下面介绍常用在二维空间中,设的几种变换:刚体变换、仿射变换、投影变换、非线性变换。第一,刚体变换(Rigid Transformation。刚体变换适用于图像平移、旋转和反转的情况。图像中两点间的距离在经过刚体变换后,在另一幅图像中距离不变。是旋转角,是平移向量,(,T x y t t (,x y 到(','x y 的变换过程为:'cos sin 'sin cos x y t x x t y

45、 m y ±=+式(3-5 后,图像上的直线经过变换后在另一幅图像中仍为直线且和原直线保持平行。在二维空间,设是平移向量,是一个实矩阵。变换过程为:第二,仿射变换(Affine Transformation。仿射变换由一个线性变换和一个平移变换结合而成,适用于图像平移、旋转、反转和缩放的情况。在经过仿射变换(,T x y t t 11122122a a a a 11122122''x y t a a x x t a a y y =+式(3-6 。在经过投影变换后,图像上的直线仍是直线,但不保证平行于变换前直线。第三,投影变换(Projective Transforma

46、tion。正如第二章介绍深度信息计算时描述的,投影变换,是使用投影矩阵来实现的。投影变换适用于除了扭曲之外的所有图像变形在二维空间,设投影矩阵为a a a a a a ,投影变换可如式(2-1表示为齐次坐标的形式,也可表示为如下非齐次坐标的方程:111213a a a 212223313233111213212223'''313233x a a a x y a a a z a a a z =y 式(3-7 r Transformatio 线变换后不一定是直线也可能是曲线。非线性变换可以适用于任何的图像变形,可表示为:第四,非线性变换(Nonlinea n。经过非线性变换

47、,图像上的直 (','(,x y F x y = 式(3-8其中,F 表示(,x y 到(','x y 的某种函数形式。不同的匹配方法或者图像条件下,所用到的坐标变换不同,要根据具体情况适当选择。本文研究的SIFT 匹配算法中的特征点描述部分就需要用到刚体坐标变换,是因为考虑到本文实现算法使用的图像扭曲和变形较少,刚体变换的计算也最为简便和快速。3.2 图像立体匹配算法的分类可以应用像的作用范围,分为局部匹配和全局匹配。局部匹配时配结果。经过多年的发展,形成了很多成熟的立体匹配算法15,根据不同的分类方法,可作如下总结:第一,根据匹配的稠密程度分为稀疏视差匹配和

48、密集视差匹配。顾名思义,稀疏视差匹配以图像的边缘轮廓、线段等明显的特征作为匹配的内容,对两幅图像的这些区域进行匹配即可,得到的视差也是近似的结果,这样的匹配方法到对具体数值不关心的定性分析上。相反,密集视差匹配则不只以图像的明显特征进行匹配,还包括图像灰度和细节特征,候选点邻域间的相关程度也作为判断依据之一,并且之后还要采取一系列的优化使匹配速度快、效果好。第二,根据匹配算法对图,只根据局部的相似性来判断对应点的匹配程度,每个匹配相对的匹配过程是独立的。而全局匹配算法在局部匹配的基础上,加入了全局性的一些约束条件,试图寻找最优的匹第三,根据匹配基元的不同分为基于区域灰度的匹配算法、基于特征的匹

49、配算法和基于相位的匹配算法,这也是被人们最广泛认同的分类方法。下面对各类别作简要介绍:(1 基于区域灰度的匹配16以左图像的待匹配点为中心创建一个邻域窗口,分析首先要对图像进行预处理,在预处理的过程中提取图像度,所以具有抗干。常用的相位匹配方法为频率法,信号在空间域上的平移产生频率域上成比例的相位平移,通常是利用傅里叶变换进行相位匹配。相位本身反映了结构信息,对图像的噪声和畸变有抵抗能力,但当某个局部对初始假设不成立时就失去了有效性,实用性不高其灰度分布。然后在右图像中创建同样的邻域窗口,将这个窗口遍历右图像,计算二者的相似性,寻找相似性最大时的邻域位置,认为那个元素就是待匹配点的相应匹配点

50、。该类算法适用于光源理想、畸变小的图像间匹配,对纹理丰富且平坦的图像可以得到比较好的匹配效果,但这类算法对图像噪声和畸变都缺乏鲁棒性,图像匹配窗口的大小比较难确定,需要多次试验才能确定最优值。图3.3 立体匹配算法的分类(2 基于特征的匹配算法的特征,用欧氏距离等方法计算特征间的差别,寻找到最相近的特征点对来确定匹配关系17 18。不同的特征匹配算法采用的特征描述方法不同,主要有点特征、边缘特征、区域特征等。视差较大处往往就是图像边缘处,这样就更容易识别图像中物体的相对位置。这些特征描述了图像中景物自身的性质,不强依赖于图像的灰扰性,减少了噪声的影响。另外,图像特征只是图像的一部分,因此计算

51、量小,速度较快。但是,特征提取方法的计算代价大,并且需要选出合适的阈值,这不便于实时应用。在纹理较少的图像中,局部特征提取困难,不如像素灰度匹配精度高。因此在很多应用中,都将两种匹配算法相结合应用。(3 基于相位的匹配算法假定图像中对应点的局部相位是相等的,因此该方法的应用不如前两者广泛,本文不作更多的介绍。3.3 匹配问题中涉及到的基本约束在Marr 的视觉理论中,视觉信息处理三个阶段建立要素图、提取特征等都是想要将图像客观物理因素加以利用19,作为匹配时的一些约束条件。总结如下:区域中灰度的变化情况是相似的,但不适用于遮挡比较多的情况;几何相,一个待匹配点第三,连续性约束。与物体表面到摄像

52、机的距离相比,物体表面凹凸引起的变化很小,这样,匹配得到的视差值变化在图像中是连续平滑的。这三个约束条件是大多数匹配搜索策略的基础,在立体视觉匹配技术中,添加了约束条件后,能够很好的提高匹配的正确性和匹配的速度。比分析基于图像区域的匹配算子分布。这是最直接也最方便的图像匹配方法。下面对几种常见灰度匹配算法作介的搜索窗口之间像素灰度值的差,来度量二者的相关SAD 和NCC 。根据不同实现方便,但是,这样的搜的情况,或待匹配图是基准图像中一部分的情况。下面将详细的介绍这三个常用算子的原理和计算方法,分析各优缺点和适用范围。第一,相似性约束。在图像立体匹配中,判断两个像对是否匹配时要根据匹配基元的相

53、似性。匹配的像对,是由同一点投影产生的。光学相似性方面,左、右图像对应似性方面,匹配像对的几何结构也是相似的。第二,唯一性约束。真实世界中物体表面上的点在左、右成像后在另一幅图像中只有唯一的点与其匹配,也就是说每个匹配点对只存在一个视差值。3.4 对基于区域的匹配以左图像的待匹配点为中心创建一个邻域窗口,分析其灰度绍和对比分析优缺点。3.4.1 ABS 算法ABS (Absolute Balance Search 完全对比搜索,这种算法的思想很简单也很直接,用基准图像和待匹配图像上性。每一个可能的匹配点都对应着一个搜索窗口,匹配的过程类似将搜索窗口在待匹配图像上按照某一顺序移动,每移动一次就进

54、行一次基准图像和搜索窗口间的相关运算,以此来判断是否匹配,如果差别小于一定的阈值,就可以认为匹配成功,否则就认为失败。一般来说,ABS 值的测量主要有三种算子,SSD 、的情况可以选择最合适的算子。ABS 算法思路简单、索算法有着明显的局限性。这种算法比较适用于两图像灰度值没有发生剧烈变换3.4.2 传统匹配算子解析(SSD SAD NCCD 、SA 下面分别简在基于区域匹配的ABS 计算方法中,传统的匹配算子有:SS D 、NCC 。要介绍分析。假定有待匹配的左、右图像1I 和2I ,d 表示两幅图像的视差,1(,I x y 和2(,I x y 是两幅图像中的像素点。匹配的方法是在图像2I

55、中寻找与点1(,I x y 匹配的点2(,I x y d +,设定邻域大小为(2n+1+1。of Square Differences 差值的平方和,图像序列中,对应像素灰度值之差的平方和,如式域大小的选择要斟酌,计算量也比较大, of Absolute Value Difference 差值绝对值之和,图像序列中对应像素灰度值之差的绝对值,如式(2m 下面使用不同的算子做图像匹配:SSD (Sum (3-9。212(,(,(,n mi n j m SSD x y d I x i y j I x i y j d =+ 式(3-9在相应邻域内,寻找该值最小的点为匹配点。该算子的优点是根据两幅图像

56、可直接进行计算,简单实用,但缺点是邻遍历一次邻域上所有的点才能找到一对匹配像对,效率不高,不具有实时性。SAD (Sum (3-10。12(,(,(,n mi n j m SAD x y d I x i y j I x i y j d =+ 式(3-10选取条件和SSD 相同,在相应邻域内寻找该值最小的点为匹配点。该算子同样简单实用,但同样有缺点:运算量大、效率不高、实时性差且邻域大小在匹配前要反复测验才能确定最佳取值。NCC (Normalized Cross Correlation 图像的归一化互相关性,计算公式为:1122(,(,(,(,n m (,I x i y j I x y I x

57、 i y j d I x y d +×+NCC x y d = 式(3-11 (,(,(21(21n m k i n j m k I x i y j I x y n m =+=+ 式 (3-12 (k I 式(3-13 =其中,(,k I x y 是图像k I 中像素(,x y 的(2n+1(2m+1邻域像素的平均灰度大小,(k I 是图像k I 中像素(,x y 的(2n+1(2m+1邻域像素灰度的标准差。在相应邻域基于图像像素灰度的匹配算法原理简单,实现容易,ABS 算法的这三个算子对于图像的要求都比较高,要求图像质量好且灰度无线性变化。计算量都较大,其中匹配的运算的速度都有待提高。有旋转不变性且对光照条件不敏感23,利用点特征对图像进行处理既可以减少计算量,也不会损失重要的灰度信息,匹配的速度也会提高。征匹配算子进行介绍,分析其提取特征的过程、对比其优缺点和适用范围。取点特征的算子,该算子是著名的点特来出的基础内

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于SIFT算子的双目视觉立体匹配算法研究_图文

文档简介

温馨提示

最新文档

评论

基于SIFT算子的双目视觉立体匹配算法研究_图文

文档简介

温馨提示

最新文档

评论

相关文档