(信号与信息处理专业论文)立体视频中视差估计研究.pdf_第1页
(信号与信息处理专业论文)立体视频中视差估计研究.pdf_第2页
(信号与信息处理专业论文)立体视频中视差估计研究.pdf_第3页
(信号与信息处理专业论文)立体视频中视差估计研究.pdf_第4页
(信号与信息处理专业论文)立体视频中视差估计研究.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

立体视频中的视差估计研究 摘要 伴随着计算机技术的快速发展,视频编解码技术得到了很大程度的提高。 然而,随着人们对视频信息的渴求,单视点视频信息已经不再能够满足人们的 要求。近年来,具有3 d 视觉功能的立体视频技术及多视点视频技术得到了普 遍的重视,并且成为一个研究的热点。 据统计,人类从外部获取的信息中约有6 0 7 5 来自视觉系统。因此,为 了满足人们日益增长的对视觉系统的需求,必然要大力发展与视频信息密切相 关的加工、处理等一系列先进技术,其中对视频信息加工处理、传输的首要问 题就是如何对巨大的数据量进行有效压缩编码。众所周知,立体视频中蕴含了 景物的深度信息,因此在自然景物的表征上更具有真实感。然而,在立体视频 中,数据量要远大于单通道视频,所以对立体视频的高效压缩显得尤为重要。 同时,随着计算机技术的发展,立体视觉理论将被广泛应用于自动导航、工业 测量、虚拟现实、生物医学以及军事侦察等领域。在立体视频中,视差估计是 一个研究的重点,对整个系统有着非常重要的作用。 本文针对立体视频中的视差估计做了相关的研究,由于传统的动态规划算 法是仅在扫描线内进行全局能量最优,在得到的视差图中具有明显的“条纹 现象,文中通过对全局能量函数进行改进,加强了扫描线间的约束,使得“条 纹”现象得到改善;对置信度传播的视差估计算法进行了相关的研究,通过对 能量函数进行消减,并且对最终视差图进行处理,使得精度有所提高。 关键词:立体视频;视差估计;动态规划;置信度传播 s t u d yo nt h ed i s p a r i t ye s t i m a t i o no ft h e s t e r e ov i s i o n a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e rt e c h n o l o g y , v i d e oc o d e ct e c h n o l o g yh a sg r e a t l y i m p r o v e dt o s o m ee x t e n t h o w e v e r ,s i n g l e - v i e wv i d e oi n f o r m a t i o nc a nn o tm e e tt h e d e m a n do fp e o p l e sd e s i r ei nt h ev i d e oi n f o r m a t i o n i nr e c e n ty e a r s ,s t e r e ov i d e ot e c h n o l o g y w i t h3 dv i s u a lf u n c t i o na n dm u l t i d i m e n s i o n a lv i e w p o i n tv i d e ot e c h n o l o g yh a sb e e np a i d g r e a ta t t e n t i o nt o ,a n db e c o m ea r e s e a r c hh o t s p o t a c c o r d i n gt ot h es t a t i s t i c s ,a b o u t6 0 7 5 o f t h ei n f o r m a t i o nt h a th u m a no b t a i n e d f r o mo u t s i d ei sf r o mv i s u a ls y s t e m t h e r e f o r e ,i no r d e rt om e e tt h ei n c r e a s i n gd e m a n do n t h ev i s u a ls y s t e m ,i ti sb o u n dt od e v e l o pas e r i e so fa d v a n c e dt e c h n o l o g i e ss u c ha s i n f o r m a t i o np r o c e s s i n ga n dh a n d l i n gw h i c hi si nc l o s er e l a t i o n s h i p w i t ht h ev i d e o i n f o r m a t i o n f o rt h ev i d e oi n f o r m a t i o np r o c e s s i n ga n dt r a n s m i s s i o n ,t h ep r i m a r yp r o b l e mi s h o wt oc o m p r e s st h ev i d e oe f f e c t i v e l y a sw ea l lk n o w , t h es t e r e ov i d e oc o n t a i n s t h r e e d i m e n s i o n a ld e p t hi n f o r m a t i o no ft h es c e n e t h e r e f o r e ,t h ec h a r a c t e r i z a t i o no ft h e n a t u r a lf e a t u r e si sm u c hm o r er e a l h o w e v e r i nt h es t e r e ov i d e o ,t h ea m o u n to fd a t ai s m u c hl a r g e rt h a ns i n g l e c h a n n e lv i d e o t h e r e f o r e ,a ne f f i c i e n ts t e r e ov i d e oc o m p r e s s i o ni s p a r t i c u l a r l yi m p o r t a n t m e a n w h i l e ,w i t ht h ed e v e l o p m e n to fc o m p u t e rt e c h n o l o g y , s t e r e o v i s i o nt h e o r yw i l lb ew i d e l yu s e di na u t o m a t i cn a v i g a t i o n , i n d u s t r i a lm e a s u r e m e n t ,v i r t u a l r e a l i t y , b i o m e d i c a l ,m i l i t a r yr e c o n n a i s s a n c ea n do t h e rf i e l d s i nt h es t e r e ov i d e o ,d i s p a r i t y e s t i m a t i o ni sak e yp o i n to ft h es t u d y , w h i c hh a sav e r yi m p o r t a n tr o l ei nt h ew h o l es y s t e m i nt h i sd i s s e r t a t i o n ,w ed os o m er e s e a r c ho nt h ed i s p a r i t ye s t i m a t i o ni nt h es t e r e ov i d e o a st h et r a d i t i o n a ld y n a m i cp r o g r a m m i n ga l g o r i t h mi m p l e m e n t st h eg l o b a le n e r g ym i n i m u m o n l yi nt h es c a nl i n e ,t h eo b t a i n e dd i s p a r i t ym a ph a st h eo b v i o u s f r i n g e ”p h e n o m e n o n w e i m p r o v et h eg l o b a le n e r g yf u n c t i o na n ds t r e n g t h e nt h er e s t r i c t i o nb e t w e e nt h es c a n n i n g l i n e s ,s ot h e f r i n g e ”p h e n o m e n o nh a sb e e ni m p r o v e d w ea l s os t u d yt h ed i s p a r i t y e s t i m a t i o na l g o r i t h mi nt h eb e l i e fp r o p a g a t i o n b yr e d u c i n gt h ee n e r g yf u n c t i o na n d p r o c e s s i n go f t h ef i n a ld i s p a r i t ym a p ,t h ea c c u r a c yh a sb e e ni m p r o v e d k e y w o r d s :s t e r e ov i d e o ;d i s p a r i t ye s t i m a t i o n ;d y n a m i cp r o g r a m m i n g ;b e l i e f p r o p a g a t i o n 插图清单 图2 1 人眼视觉3 d 成像原理。7 图2 2 平行双目立体成像系统8 图2 3 二维多工式三维显示技术的显示器1 1 图2 4 外极限约束。1 2 图2 5 顺序约束1 3 图2 6 马尔科夫网络中的信息传递1 6 图2 7t s u k u b a 图的d s i ( 视差值分别取5 ,1 0 ,1 5 ) 。1 8 图2 8m i d d l e b u r y 图片库中的部分左右视图及标准视差图2 0 图2 - 9 视频压缩标准制定时间关系2 1 图2 1 0 三种典型的基于h 2 6 4 标准的立体视频编码方案2 3 图3 1 动态规划算法的阶段及状态示意图2 7 图3 2 动态规划算法的状态转移示意图2 7 图3 3 动态规划算法得到的实验结果2 8 图3 4d p 算法实验结果对比图3 0 图4 1 网格状图模型3 3 图4 2 消息和置信度传播模型3 5 图4 3 消息传递示意图3 7 图4 4b p 算法实验结果对比图3 8 表格清单 表3 1d p 算法视差估计精度比较3 0 表4 1b p 算法视差估计精度比较。3 9 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所 知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得金筵王些态堂或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签字: 勿弘虱 i 签字日期:沙,戽郇月侈日 学位论文版权使用授权书 本学位论文作者完全了解金月墨工些太堂有关保留、使用学位论文的规定,有权保留并向 国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人授权金胆工业太 兰l 可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者毕业后去向: 工作单位: 通讯地址: 聊躲私蟛 签字日期:2 0fp 年乒月2 扩日 电话: 邮编: 日 一 。 u r 仪 月 孙秽l 、 斗拓年 名 产 签 沙 糙 协 文 期 论 日 位 字 学 签 致谢 转眼之间,研究生三年美好的时光即将结束,在这三年的学习生活中我所 获得的不仅仅是专业知识,还深深的为师长严谨的治学态度所折服;为同学身 上奋发向上,只争朝夕的精神所感染。 十分有幸能够成为齐美彬教授的一名研究生,首先要感谢齐老师三年来对 我学习、科研和生活的指引与关怀! 齐老师严谨的治学态度、渊博的专业知识、 敏锐的学术洞察力和宽阔的胸怀对我以后的工作、学习和生活产生深远的影响。 同时要感谢蒋建国教授,在这三年里不断的教育我们,做科研要“顶天立地 , “顶天 是要在理论上有所深入,“立地”是要扎扎实实做事,二者缺一不可, 这将使我受用终生。在即将毕业之际,谨向恩师致以诚挚的谢意! 感谢实验室的夏娜老师、吴从中老师、李小红老师、尤小泉老师、张国富 老师、苏兆品老师,感谢他们三年来给与我的关心和帮助;感谢数字视频安全 编码小组的所有成员,我们在一起相互帮助,共同成长,留下了许多美好的回 忆;感谢唐媚、张文菊、林芬华、吕荣、邢世义,杨爱丽、徐普军、钱浩伟、 李敦、鲜柯、曹二喜、胡有刚、刘亮、岳雷飞、张腾飞、杨立宾、宣浩、李本 斋、高传莹等实验室同学,我们在一起共同学习,共同进步,度过了美好的研 究生三年;感谢实验室的师弟师妹,是他们在一起营造了良好的实验室氛围; 同时要特别感谢郭艳蓉博士、郝世杰博士,他们在我的学习中给与我无私的帮 助。 最后,要特别感谢我的家人及女友,他们一直给我精神上、物质上的支持。 他们的关怀和支持,是我不断前进的动力。在论文得以顺利完成之际,感谢所 有亲人们对我的殷切希望和无私帮助! 作者:张程风 2 0 10 年4 月1 0 日 第一章绪论 近年来,随着计算机技术、计算机网络、通信及图像处理的飞速发展,数 字视频技术得到了广泛的应用,许许多多的数字视频产品已经走进了普通大众 的工作、生活和学习等各个方面,因此给人们带来了极大的方便。然而,随着 数字视频质量的不断提高,人们对其要求也在不断提升,同时对高质量视频信 号的要求表现的非常强烈。于此同时,人们还迫切希望看到表征自然景物的数 字视频更加清晰、真实。因此,许多学者开展了对立体视频及多视点视频技术 的研究,并且成为当今的一个研究热点。本章首先介绍了课题研究的背景及意 义,然后介绍了立体视频编码中的视差估计研究现状,最后列出了本文的结构 安排。 1 1 课题背景及意义 随着社会的不断发展和人类文明的进步,科学和技术得到了迅猛的发展, 人们已经进入了信息化时代,在信息化社会各个方面都离不开对信息的获取及 利用,因此人们对信息的需求和利用表现出了前所未有的渴望。在众多的信息 承载体中,图形图像等视觉信息因具有生动、直观、通用性强、易于理解和接 受等诸多特点,一直受到人们的普遍关注与重视。事实上,在人类获得的信息 量中,绝大部分是通过视觉感受获得的。据统计,约有6 0 7 5 h 来自视觉系统。 因此,为了更好的获取和利用自然界信息,满足人们日益增长的对视觉信息的 需求,与视频信息密切相关的加工处理、传输等一系列先进的技术必然会受到 人们的青睐。如何对视频信号进行高效率的压缩编码是一个非常重要的问题, 并且是视频信号处理领域里的一个研究热点。视频编解码技术的不断提高,不 仅会带动多媒体信息处理的巨大变化,而且丰富多彩的视频信息将会给人们带 来极大的便利条件,所以人们迫切渴求一种高效的视频编码技术。 近年来,伴随着多媒体技术的快速发展,视频编码技术得到了广泛的应用, 如:可视电话、电视会议和远程监控等领域。由于视频信号先天数据量大,因 此有限的带宽和存储容量的限制使得多媒体的各项应用都需要对其进行高效压 缩编码。同时,许多新的需求将会给视频压缩技术带来机遇与挑战,如高质量 的视频广播和交互的个人视频通讯等。以往的视频编码技术因不能够适应网络 环境的改变或需求而不能够满足要求,这就迫切的需要一种新的视频编码标准 来满足其要求,因此,新型的数字视频编码标准h 2 6 4 t 2 j 应运而生,它是最新 的视频编码国际标准,其包含了许多先进的技术,并且具有很好的网络友好性。 然而大的压缩效率使得视频编解码器复杂度有了很大的提高。据国外的报道, h 2 6 4 编解码器的复杂度比m p e g 4 的复杂度均有很大的提高,其编码器的复 杂度大约是m p e g 4 编码器复杂度的5 1 0 倍,相比编码器而言,解码器复杂度 稍微低一些,大约为m p e g 4 的2 4 倍【3 】;国内的科研人员通过对其测试,证 实h 2 6 4 的编解码时间比h 2 6 3 的编解码时间都有很大的提高,其编码时间为 h 2 6 3 的1 4 倍,相比编码器而言,解码时间相比略低,大约为h 2 6 3 的1 1 倍 4 1 。 因此,算法复杂度的提高使得编解码时间较长,限制了该技术在实时通讯领域 的应用,为了使h 2 6 4 编码技术在实时应用领域中得到推广,必须寻求快速算 法并对其实现。近年来,通过许多学者的努力,h 2 6 4 实时性问题得到了很大 程度的提高,且被逐渐应用于实时监控和通讯等领域。 随着数字视频产品进入普通大众家庭,在带来极大方便的同时,人们又对 其提出新的要求,因此简单的单通道视频已经不再能够满足人们的需求。立体 视频( 甚至多视点视频) ,因为具有较强的立体感,成为下一代多媒体应用的发 展方向,已经吸引了越来越多的国内外学者,并在各个领域开展了相关的研究, 如自由视点电视、虚拟视频会议和立体电视等【5 ,6 】。立体视频和单通道视频相比, 数据量成倍增加,所以为了减少数据量,必须采取更高效率的压缩编码算法, 才能对其进行有效的存储和传输,同时随着人们对高质量视频信息的需求,今 后视频信息发展的趋势必然是高分辨率、高清晰度、立体感和交互性,这些方 面的发展,都会带来数据量的急剧增加,因此必须采取高效的压缩编码技术来 解决这个问题。由于立体视频两个通道间具有很强的空间相关性,因此立体视 频通道间必然具有很大的相似性,如何消除这种空间冗余成为人们研究的热点。 本文的重点就是对立体视频编码中的视差估计算法进行研究。 1 2 立体视频编码中视差估计研究现状 人类对自然界三维信息的获取是依赖于同一空间场景在不同视点图像中 成像的细微差异,这个在图像中的差异就是通常所说的视差,而视差估计的主 要任务就是在两个成像平面中寻找同一物理元素在不同通道之间的对应关系 口1 ,寻找对应点的过程则是视差求取的过程。视差估计是立体视频编码中最为 关键的一步,受到了人们的普遍重视,并在计算机视觉等领域得到了应用,成 为一个非常活跃的研究课题1 。由于求取视差的过程是一个病态问题1 ,它是 立体视频编码中最为困难的一步。近年来,许多视差图求取算法不断出现,有 些算法的精度已经比较高,然而这些算法并没有能够得到广泛的应用。因为在 众多的方法中并没有一个有效而通用的算法,在提出的算法中,要么是以增加 计算量来获得精确的视差图,要么是针对特定的应用领域而提出的。 上个世纪7 0 年代,m a r r 系统的概括了临床神经病理学、神经生理学以及 心理物理学等方面取得的重要成果,提出立体视觉的重要计算理论u0 1 ,为后续 研究奠定了坚实的理论基础。随着m a r r 视觉理论的提出,许多学者对视差估计 的研究便拉开了序幕,并且在整个8 0 年代,视差估计成为计算机视觉的研究热 点之一。d h o n d 和a g g a r w a l t l l 】对整个8 0 年代视差估计的进步进行了总结,其 中包括许多新颖的方法,如利用三目约束来降低视差估计的模糊性,以及层次 2 处理观念的引进。随着工作的不断开展,到了9 0 年代后期,视差估计的研究逐 渐成熟起来,此时许多学者开始对通用算法继续进行研究,但是更多的研究者 开始在特定应用中对视差估计研究,并且取得了一定的成果,如虚拟现实、三 维重建和摄影测量等。k o s c h a n 7 】总结了1 9 8 9 年到1 9 9 3 年视差估计的新算法, 其中包括算法的实时性问题,主动和动态求取算法,以及对遮挡的早期研究等 工作。m y r o nz b r o w n 等【l2 j 对1 9 9 3 年至2 0 0 3 年期间视差估计技术的发展进行 了总结,并对某些问题进行了重点的研究,如实时性问题和对遮挡的处理。到 了2 0 0 2 年,s c h a r s t e i n 和s z e l i s k i 驯对以前视差估计算法进行了总结,并且将视 差估计的整个过程分为四个模块:代价函数计算、代价函数累加、视差计算和 优化、视差后处理( 精化) ,并搭建了一个有效的评估模型,人们可以把自己的 算法在此模型中进行对比,从此视差估计的发展进入了一个系统、快速的发展 阶段。 根据匹配基元的不同,可以把视差估计简单的分为基于区域的和基于特征 的两大类1 9 , 1 2 j 。基于区域的视差估计是把一幅图像中的某一点的灰度作为匹配 基元,在另一幅图像中的一个固定区域内搜索具有相同( 或相似) 灰度值分布的 对应点邻域,从而实现两幅图像的匹配并得到各个点的视差。在搜索的过程中, 一般都采用相关函数作为两个搜索邻域的相似性测度。基于区域的匹配算法在 平坦而纹理丰富的区域可以获得比较高的精度,因为是对图像像素点进行匹配, 因此匹配的结果不受特征检测精度和密度的影响,而且可以获得稠密的视差场。 近年来,人们对基于区域的视差估计进行了大量的研究并提出了很多有效的改 进措施,但是目前仍存在许多不足之处,主要表现在以下几个方面:( 1 ) 视差 的精度过分依赖于图像灰度统计特征。由于直接利用图像的像素灰度值进行匹 配,使得匹配效果对于景物表面结构、成像以及光强和对比度的变化等比较敏 感。如果景物表面缺乏足够的纹理细节,由于信息量小,容易出现误匹配现象; ( 2 ) 当左、右两幅图像中存在重复结构的纹理特征或相关像素邻域内存在深度 间断、遮挡现象时,常常会引起匹配的混淆;( 3 ) 由于基于区域的匹配法需要 对搜索区域内的每一位置进行穷举匹配,而且在每一位置上要进行逐点的运算, 因此该方法的运算量较大。虽然采用外极线约束条件以及由粗到细的匹配层次 结构等可以在一定程度上减少匹配的运算量,但是复杂度仍然很高。 与基于灰度的视差估计算法不同,基于特征的视差估计不是直接利用图像 灰度特征,而是通过能表示景物自身特性的特征来实现匹配。这些特征主要包 括特征点和一些特定的几何结构或形状等。比较常用的特征点如角点【”】、s i f t 【1 4 】关键点和边缘点等;几何结构如直线、多边形等。由于特征的求取很大程度 上依赖与自然景物的结构信息,因此基于特征的匹配算法可以很好的解决歧义 性问题,且对因光线、对比度变化而发生的变化不是很敏感。基于特征的匹配 算法通常包括两个步骤:特征点提取和特征匹配。因为特征点的提取具有先天 的不足之处,导致了基于特征点的视差估计算法也存在不足:( 1 ) 特征在图像 中的稀疏性决定基于特征的匹配算法只能得到稀疏的视差场,同时,视差场的 疏密程度和图像中特征量的多少有必然关系。如果想要得到稠密的视差场,必 须要通过插值来实现,而插值本身又是一个比较复杂的病态过程;( 2 ) 特征的 提取和定位结果直接影响到匹配的效果,如果特征提取效果不好会很大程度上 制约匹配精度的提高。然而,与基于灰度的视差估计相比较,基于特征点的视 差估计又具有很多优点:( 1 ) 由于图像特征相对于图像灰度而言,属于较高级 的图像结构信息,包含信息量多、鲁棒性强,受噪声及光线、对比度变化等影 响较小,具有较好的匹配准确度;( 2 ) 由于边缘特征往往出现在视差间断区域, 因此基于特征的匹配法能较好地处理视差估计中的视差不连续问题;( 3 ) 计算 量小,速度快,这是因为它只对特征进行搜索匹配,而不是图像中的所有像素 点,因此在匹配过程中算法的空间复杂度和时间复杂度都相对较小。 在基于区域的视差估计中,是对参考图像中的像素点在匹配图像中寻找对 应点形成致密视差图的过程,因此又可以把基于区域的视差估计叫做稠密视差 估计。根据匹配策略的不同,基于区域的视差估计又可以分为局部法( w t a ) 和 全局法两种。由于全局法的精度比局部法的精度高,因此得到了许多学者的关 注,而事实上局部视差估计可以看作是全局视差估计的特例。全局视差估计算 法首先要定义一个匹配能量模型,进而将匹配问题描述为求取能量最小化问题, 然后采用一些优化策略寻找匹配问题的能量最小化解,这些优化算法主要包括: 模拟退火法 1 5 , 1 6 1 ( s i m u l a t e da n n e a l i n g ) 、动态规划法【l7 。( d y n a m i cp r o g r a m m i n g ) 、 图割法【1 8 ,1 9 l ( g r a p hc u t ) 和置信度传播法【2 0 ,2 1 1 ( b e l i e f p r o p a g a t i o n ) 等。本文主要对 基于全局的稠密视差估计算法进行了研究,因此本文后续章节中出现的视差估 计算法,主要是指基于区域的稠密视差估计算法。 1 3 论文主要内容及结构安排 1 3 1 本文的主要内容 在过去若干年,许多学者对立体视频展开了广泛的研究,并且取得了丰硕 成果。同时,视图几何关系的研究已经取得了突破性的成就,理论和方法逐步 趋于完善,与此同时,视差估计方面的研究也取得了很大进展。本文针对立体 视频中的视差估计主要做了以下研究:对传统的动态规划算法在视差估计中的 应用进行了研究,由于传统的动态规划仅对扫描线内的像素进行全局能量最小, 在最终得到的视差图中,出现了明显的“条纹现象,文中通过对全局能量函 数进行改进,加强了扫描线间的约束关系,使得视差图精度有所提高;同时, 对基于置信度传播的视差估计进行研究,改善了全局能量函数,并且引入双边 图模型,实验结果表明,该方法具有很高的精确度。 4 1 3 2 本文的结构安排 本论文主要分为5 章,各章的内容安排如下: 第一章绪论,介绍了课题研究的背景及意义,然后分析了视差估计的研究 现状,并对本文的结构作了阐述。 第二章详细介绍了视差估计的相关知识,主要包括立体视觉的原理,视差 估计的约束条件及常用的视差估计算法。 第三章研究了动态规划在视差估计中的应用,首先对动态规划算法进行了 阐述,然后介绍了动态规划与视差估计的关系,最后对基于动态规划算法产生 “条纹”现象进行了改进。 第四章对置信度传播算法进行了研究,首先对图模型及马尔科夫随机场进 行了介绍,其次介绍了基于最大积置信度传播算法,最后介绍了改进的置信度 传播算法。 第五章对本论文进行了总结并做了工作展望。 第二章立体视频及视差估计理论概述 立体视频技术作为当今研究的热点,是未来视频处理方面的一个重要发展 方向。通过过去若干年的研究,二维彩色活动图像处理已经基本成熟,并且应 用到人们生活的各个方面。但是随着人们生活水平的不断提高,二维平面视觉 效果已经不再能够满足人们的需要,人们对视频图像的立体感要求要来越高, 因此具有立体感的图像和视频受到人们的普遍欢迎【2 2 1 。立体视频因具有广阔的 市场前景,吸引了国内外许多学者对此进行深入研究,主要包括以下几个方向: 立体视频的获取、显示以及压缩编码技术等等。本章主要介绍了立体视频的简 介,视差估计的基本约束条件及常用视差估计算法,介绍了视差估计的一般步 骤及评价准则,最后介绍了数字视频压缩技术及基于h 2 6 4 技术的立体视频编 码框架。 2 1 立体视频简介 通常情况下在没有足够先验知识的前提下,仅利用人的一只眼睛获得的自 然物体的景象,是不能够准确得到物体的三维信息的。因此单通道视频仅能够 得到二维平面视觉效果,因得不到物体的三维信息而不能够满足人们强烈的立 体感需求。立体视频是模仿人的双眼,左眼看偏左的图像,右眼看偏右的图像, 空间中的一点在两通道内形成具有微小差异的图像,观察者对两图像进行有机 组合,便可以得到图像的深度信息,因此观察者能够欣赏到具有深度感和逼真 感1 2 3 j 的图像。 2 1 1 人眼的3 d 成像原理简介 人眼可以观察到三维( 3 d ) 世界两幅图像之间的微小差别,并通过大脑对其 进行准确处理,这种能力就叫做立体视觉。物体在这两图像中的相对位置差就 称为视差( d i s p a r i t y ) ,人们的大脑能准确测量这种视差,并能通过大脑视神经进 行有效的融合,如图2 1 所示,从而可以获得深度感觉。 通过获得两个不同视点的投影图像的过程叫做立体成像,它能够准确获得 3 d 场景里的深度信息。它是模仿人类的视觉系统,被称作立体图像对的两个投 影图像是通过把3 d 场景成像到两个适当放置的成像传感器来获得的。两个成 像镜头通常间隔一定距离摆放,它们之间的距离称为相机的基准线,一般情况 下取6 5 m m 左右。立体成像被广泛应用于计算机视觉系统中,可以通过成像几 何结构的知识,以及视差原理来获得场景的深度信息。 6 幽2 - 1 人l r 视觉3 d 成像原理 2 123 d 视觉的拨展 早在公元前3 0 0 年,e u c l i d 就发现了利用人的双眼对相似的两幅图像进行 观察时,可以明显感觉到场景的3 d 深度信息。1 7 世纪3 0 年代早期,w h e a t s t o n e 对3 d 深度信息第一次进行描述,该描述是通过一组手绘图形让人感觉到3 d 深 度信息的。伴随着相机的出现,后来又出现了立体照片。到了1 9 世纪中期, b r e w s t e r 和h o l m e s 发明了w h e a t s t o n e 观察器,直到此时,普通大众才可以享 受立体照片带来的“真实感”,也进一步促进了立体照片的普及。进入2 0 世纪, 单一场景的立体图像描述已经不再能够满足人们的要求。1 9 15 年,人类历史上 第一部立体电影在纽约放映,揭开了立体视频研究的序幕。由于当时科学和技 术水平较低,使得不够完善的投影设备和观看仪器限制了立体电影的发展。因 此在相继的著千年里,立体图像和立体电影并没有能够得到广泛的应用。然而 到了2 0 世纪3 0 4 0 年代,立体图像又一次得到了复苏。1 9 3 9 年,c h r y s l e r m o t o r s 利用偏振材料制成了一个屏幕用来投影全彩色的3 d 立体电影,人们通过佩戴 一种价格便宜的立体眼镜就可以享受这种“身临其境”的感觉。随着1 9 3 9 年电 视机的诞生,人们自然而然的对立体电视技术开始了研究。但是,由于受到当 时半导体技术和显示器材的限制,无论使用何种投影技术和投影屏幕,为了观 看立体电影,人们还是必须佩戴特殊的眼镜。正是因为这种不方便,立体电影 和立体电视在其后的几十年里并没有能够在全球范围内得到很好的推广。 上个世纪9 0 年代,伴随着半导体器件和电子元器件器材的快速发展人们 制造出许多实用的立体系统和立体自动显示设备,该设备使得人们不再需要佩 戴特殊的眼镜就可以感知3 d 深度的信息。从此,立体电视和立体电影又一次 引起了科研人员的重视。3 d 影视具有非常广阔的发展前景,各个国家为了在将 来能够很好的对其利用,分别组建了专门的科研梯队对其研究,如欧洲率先资 助了c o s t 2 3 0 计划和d i s t i m a z 计划他们的目标就是建立一个实时立体系 统,该系统能够对视频进行采集、编码、传输以及显示。后来他们又启动了 p a n o r a m a 计划,该计划是为了进一步增强立体电视给人们带来的视觉质量。 与此同时,日本的n h k 机构也在3 d 高清晰度电视( h d t v ) 的研究方面起到了 积极的推动作用。另外,一些工业上的研究组织,如d e r a 、h h i 、s a n y o 、p h i l i p s 、 r e a l i t yv i s i o n 、x e n o t e c h 、n uv i s i o n 和d t i 等,以及学校的研究机构,如 c a m b r i d g e 、m i t 、c u r t i n 、t s u k u b a 和d em o n t f o r t 等大学也在致力于开发未来 的立体图像显示技术。 2 1 3 立体相机系统的几何原理和立体视频的获取 双目立体视觉是基于视差原理,根据三角法原理进行三维信息的获取,即 由两个摄像机的图像平面和被测物体之间构成一个三角形,通常情况下,已知 两摄像机之间的位置关系,便可以准确获取两摄像机公共视场内物体的三维尺 寸及空间物体特征点的三维坐标。双目立体视觉系统一般由两个完全相同的摄 像机构成。根据两摄像机摆放的位置不同,可以分为平行式和汇聚式,本文主 要是研究平行式摄像机下获得的图像。 双目立体视觉三维测量是基于视差原理,平行双目立体成像系统如2 2 图 所示,两摄像机的投影中心连线的距离为召。两摄像机在同一时刻观看空间物 体的同一特征点尸,分别在“左眼和“右眼 上获取了点p 的图像,它们的 图像坐标分别为= ( ,) 和p 哪= ( ,k ) 。 基线距离b 光轴 图2 2 平行双目立体成像系统 在平行摄像机系统中,物体的成像平面在同一平面上,则特征点尸在图像 中的纵坐标y 相同,即= = 】,则由三角几何关系得: 8 2 , = f 警 y :f 竖 则视差为:d i s p a r i t y = 一,。由此可计算出特征点p 在摄像机坐标系下的 三维坐标为: 壮呈:当 d i s p a r i t y 儿:旦( 1 - 2 ) 儿2 d i s p a r i t y b f z = 二一 。d i s p a r i t y 因此,如果想得到空间物体点的三维坐标,只要求出两摄像机像面上得到 的对应点即可。这种方法是完全的点对点运算,像面上所有点只要存在相应的 匹配点,就可以参与上述运算,从而获取其对应的三维坐标。 2 1 4 立体视频的显示技术 可以通过两个相同的摄像机模仿人的眼睛对物体进行观察,“左眼”看偏左 的物体,“右眼”看偏右的物体。如何把两摄像机观测到的结果很好的呈现出来, 成为当今的另一个研究热点。随着技术的发展,又诞生了许多新生的领域,如 科学可视化、虚拟现实等,这些领域的兴起又一次给立体显示的研究提出了挑 战,同时为其能够更快更好的发展注入了新的动力。如何把得到的图像很好的 呈现出来,是立体显示所要研究的问题。通过过去若干年的研究,许多学者提 出了不同的方法,但是常用的有以下几种: ( 1 ) 时间并行立体显示 时间并行系统可以通过分离的c r t 屏幕或在一个单独的c r t 屏幕上对左、 右眼视图分别呈现,由于需要正确的传输不同的透视图给每一只眼睛,因此需 要一个特殊的光学仪器对其进行处理。根据显示的不同,可以把时间并行系统 分为观察器显示、立体图片显示和某种类型的偏振显示等。这些显示技术,由 于技术原因,或多或少存在某些不足之处。有的使得显示图像不够明亮,有的 因技术问题而歪曲了图像的颜色,众多的不足限制了该技术的应用。 ( 2 ) 分时显示技术 该技术是对两套画面在不同的时间进行间隔播放,显示器在第一次刷新时 播放左眼画面,同时用专用的眼镜遮挡住观看者的右眼,相反在下一次刷新的 时候播放右眼的画面,并遮挡住观看者的左眼,如此往复。按照上述方法将两 9 套画面以极快的速度进行切换,由于人眼视觉具有暂留特性,只要保证上述切 换时间在人眼暂留时间内,则可以合成为连续的画面。由上面的分析可知,该 系统对左、右眼视图进行间隔播放,同一时间点不能同时显示左右视图,所以 实际观看的刷新率仅是原c r t 刷新率的一半【2 4 1 。除了上述不足之外,分时显 示还存在别的缺点,如仅能供有限多个观察者同时观看、c r t 显示屏幕较小等。 由于有许多不足之处,该技术会因人们要求的不断提高而被逐渐淘汰。 ( 3 ) 线性偏振立体显示 线性偏振立体显示采用了偏振光技术,通常系统由一块金属幕、两台投影 仪、两个线性偏振镜头、两个线性偏振眼镜以及一块双头显卡或者一个立体信 号发生器所组成。双头显卡或立体信号发生器输出左右两个通道的图像至两台 投影机,分别使两台投影机发出的光线通过两个放在特定位置的线性偏振镜头, 当光线通过镜头后,由原来任意方向振动变成了单一方向的振动,而且两束光 的振动方向是互相垂直的。假设左视点的光束是水平振动,那么右视点的光束 是垂直振动。金属屏幕的作用是只改变光的传播方向,而不改变光的振动方向。 而线性偏振眼镜的作用是只让特定方向的光束通过,而其余方向的光束则不能 通过,这样通过的光束经过限制后,使得观看者的左、右眼可以分别观看到左、 右视点的图像,从而获得图像的立体感。线性偏振立体显示系统的优点是:线 性偏振眼镜比较轻便且无需用线和其它设备连接,金属幕通常比较大从而使立 体效果比较好,同时可供任意多个观看者同时观看。但是,线性偏振立体显示 系统也有以下缺陷:首先,必须佩带特殊的眼镜才能对其进行观看,从而带来 了诸多的不便;其次,当光强较强的时候可能会存在逆视,从而影响观看者的 立体感受。 ( 4 ) 裸眼立体显示技术 裸眼可视立体显示是立体显示的最高境界【2 4 1 ,同时是立体显示领域一直研 究的热点。早期提出的裸眼可视立体显示技术有:尾正交凸透镜立体显示,视 差挡板立体显示和双板法立体显示技术。该技术都对观看者的位置和观看角度 做了严格限制,并且实际得到的显示效果并不理想。最新的裸眼可视立体显示 技术,使用了波长分解过滤器( w a v e l e n g t hs e l e c t i v ef i l t e ra r r a y ) 的先进技术, 该技术能获得由以前的透镜方式或障碍( b a r r i e r ) 方式都无法得到的高景深的立 体效果。由于显示画面是由8 个视点的立体图像合成的,所以不易形成逆视, 而且对观看着的位置和观看角度都没有做严格的限制。图1 1 描绘了人眼产生 三维视觉感受的机制。通常人类获得的影像是物体经过反光进入人的双眼,然 后把获得的影像传输到人类的大脑视觉区,大脑根据影像之间的差异融合成具 有深度信息的三维影像。裸眼立体显示技术其最终目的就是在不需要佩戴立体 眼镜的前提下,提供给任意多个观看者同时观看,并且对观看者的位置和角度 不做任何限制,使其充分享受三维的视觉感受2 5 , 2 6 , 2 7 】。目前许多显示技术仍存 l o 在不足之处,但是有许多基于三维显示技术的显示器产品已经进入了市场。如 图2 - 3 所示 2 8 2 9 3 0 , 3 ”,在现实生活中,不管是家用电视、电脑荧幕还是笔记本 电脑均可以看到立体荧幕的应用,所以三维显示器市场是比较广阔的。但是, 在目前的研究中发现仍然有许多的问题都有待解决,如三维视角合成的问题和 对频宽的要求等,而在众多的要解决问题中,立体编解码技术仍将在立体显示 应用中扮演非常重要的角色。 晷譬 i 曼,一t 。 图2 - 3 二维多工式三维显示技术的显示器 2 2 视差估计基础 22 1 视差估计过程中的基本约束 受到噪声、光照条件变化、遮挡和纹理重复等因素影响,可能会带来许多 问题的出现,如重复匹配和误匹配等,而且不能够保证具有稳定的、唯一的解, 甚至可能出现找不到对应的匹配点或不只一个对应匹配点的问题。以上诸问题 的存在使得求取过程相当复杂,通过遵循一定的约束条件,可以减少匹配搜 索范围,同时使得匹配结果更加准确,最终能够得到更加精确的视差图。 下面简单介绍几种常用约束条件: n 1 外极限约束 如图2 - 4 所示,p 为空间中的一点,连接左摄像机光心口与空间点p ,该 连线与左图像相交于点目,则由连线q ,及右摄像机的光心研一起组成个 平面,称为外极平面。该平面与右图像平面相交于一条直线l ,则该直线称为 点n 在右图像中的外极线。 如图2 - 4 所示,例如p 1 点为q 尸上的点,该点在左图像上的投影点为a , 连接p 与右摄像机光心q ,则该直线与右图像的交点所一定位于易在右图像 中的外极线l 上。也就是说,对于左图像中的任一点,我们只要在它的外极线 上搜索其同名点,从而可以减少搜索的数据量,这就是外极线约束,该约束条 件是立体视频中最基本的约束条件【32 1 。 图2 4 外极限约束 视差估计就是在一定的区域内寻找同名点的问题,通常情况下,二维搜索 比较复杂,而且数据量较大。然而,采用外极线约束可将二维搜索简化为一维 搜索,使得数据明显减少,显著提高了视差估计的效率。在通常使用的摄像机 中,都是经过校正,且是平行摄像机系统。因此,寻找同名点的时候,仅需在 相应的外极线上搜索即可。在理想的情况下,外极线与图像的扫描线重合。本 文所研究的视差估计方法,都是经过校正的平行摄像机获取的,且经过校正后 的立体图像对,从而使得研究相对简单。 ( 2 ) 相似性约束 相似性是指在图像对中,一幅图像中的像素点及其邻域在另一幅图像中具 有相似的特征属性。通常情况下,根据所选用的特征及其属性不同而略有不同。 ( 3 ) 唯一性约束 在一般情况下,空间中的一点与摄像机光心连线交于一点,则该空间点与 两光心的连线分别交于图像中的一点。由此两点之间的差异可以得出唯一视差 值。根据此原理,使得匹配成为一一对应,而非其它对应关系。 ( 4 ) 平滑行约束 通常情况下,由于物体表面一般都是平滑的,从理论上讲,除物体的边界 外,它们的视差一般也是平滑的。 ( 5 ) 顺序约束 在立体图像对中,除遮挡区域外,对应像素点或图像特征在图像中的相对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论