(信号与信息处理专业论文)基于二维视频序列的伪立体视频重建方法研究.pdf_第1页
(信号与信息处理专业论文)基于二维视频序列的伪立体视频重建方法研究.pdf_第2页
(信号与信息处理专业论文)基于二维视频序列的伪立体视频重建方法研究.pdf_第3页
(信号与信息处理专业论文)基于二维视频序列的伪立体视频重建方法研究.pdf_第4页
(信号与信息处理专业论文)基于二维视频序列的伪立体视频重建方法研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重庆大学硕士学位论文 中文摘要 摘要 计算机视觉就是用计算机模拟人眼的视觉功能,从图像或图像序列中提取信 息,对客观世界的三维景物和物体进行形态和运动识别。计算机视觉是计算机科 学研究领域的重要分支,其研究的核心问题是从景物图像或序列图像求出景物的 精确的三维几何描述,并定量的确定景物中物体的空间性质,其过程是成像过程 的逆过程。从二维视频序列中重建三维视频序列是诸多学术领域,包括计算机科 学,计算机视觉,人工智能,医学等广泛关注的一个课题。 本文主要是根据双目立体视觉原理讨论了如何将二维视频序列转换成伪3 d 视频序列的方法。 视频运动的分割是计算机视觉的基础,本文主要根据时域和空域信息,采用 了根据运动信息结合边缘检测的方法进行分割。 要得到三维视频,就必须要有立体视差,立体视差是计算机视觉的重要内容, 也是三维重建中的关键技术,本文通过对现在的视差算法研究,提出了采用基于 三角形网格的浓密视差提取方法。但是对二维视频序列来说,其本身并不包含有 视差信息,但我们可以根据二维视频序列中的运动信息,纹理信息,遮挡信息等 信息来估算视差,本文主要采用的方法是根据运动信息来估算视差。 根据双目立体视觉原理和立体显示技术,我们将二维视频帧经过变换,得到 伪三维立体视频帧,并合成视频序列。根据分色式立体显示技术,最终获得了具 有立体感的伪立体视频图像。 关键词:双目立体视觉,运动估计,视频分割,视差 重庆大学硕士学位论文英文摘要 a b s t r a c t c o m p u t e rv i s i o nr e f e r st oi m i t a t i n gt h ef u n c t i o no fh u m a n sv i s i o nt h r o u g ha c o m p u t e r , e x t r a c t i n gi n f o r m a t i o nf r o mi m a g e so ri m a g es e q u e n c e s ,a n dt h e ni d e n t i f y i n g t h es h a p ea n dm o v e m e n to f t h r e e - d i m e n s i o n a ls c e n e sa n do b j e c t si nt h eo b j e c t i v ew o r l d t h er e s e a r c ho nc o m p u t e rv i s i o ni so n eo ft h ei m p o r t a n tb r a n c h e si nt h ec o m p u t e r s c i e n c ef i e l d n ec o r eo ft h i sr e s e a r c hi sh o wt ow o r ko u t a c c u r a t e l y t h e t h r e e - d i m e n s i o n a la n dg e o m e t r i cd e s c r i p t i o n sf r o mt h ep i c t u r e so f 翻肌圆a n di m a g e s e q u e n c e s ,a n dq u a n t i f i c a t i o n a l l yd c t e n n i n et h es p e c i a lf e a t u r e so f o b j e c t si nt h es c e n e s r e c o n s t r u c t i n gt h r e e - d i m e n s i o n a ls e q u e n c eb a s eo nt w o d i m e n s i o n a lo n ei sar e s e a r c h t o p i cw h i c hi sw i d e l yc o n c e r n e db ym a n ys c i e n t i f i ct o p i c , i n c l u d i n gc o m p u t e rs c i e n c e , c o m p u t e rv i s i o n , v i s i o na r t i f i c i a li n t e l l i g e n c ea n dm e d i c i n e t h i 8t h e s i sm a i n l yd i s c u s s e st h em e t h o do fh o wt oc h a n g et h et w o - d i m e n s i o n a l v i d e os e q u e n c ei n t ot h ep s e u d ot h r c e - d i m e n s i o n a ls e q u e n c ea c c o r d i n gt ot h et h e o r yo f b i n o c u l a rs t e r e o v i s i o n ,1 1 s e g m e n t a t i o no fv i d e om o v e m e n ti st h eb a s i so fe n m p u t e rv i s i o n 1 1 坞t h e s i s c h i e f l ya d o p t st h em e t h o d so fe d g ed e t e c t i o na sw e l la sm o v i n gi n f o r m a t i o nt os e g m e n t t h em o v e m e n to f t h ev i d e oa c c o r d i n gt oi n f o r m a t i o ni nt i m ed o m a i na n ds p a c ed o m a i n i na d d i t i o n , t h e r em u s tb es t e r e o v i s u a ld i s p 耐t yi no r d e rt og e tt h r e e - d i m e n s i o n a l v i d e o s t e r e o - v i s u a ld i 印a r i t yi st h ei m p o r t a n tc o n t e n ti nt h et o p i co fc o m p u t e rv i s i o n a n dt h ek e yt e c h n i q u ei nt h r e :e - d i m e n s i o nr e c o 删o r li nt h et h e s i s ,a c c o r d i n gt ot h e r e s e a r c ho nd i s p a r i t yc a l e n l a t a f i o n , t h em c t h o do fe x t r a c t i n gd e l 鸠ed i s p a r i t yb a s e do n t h et r i a n g l el a t t i c ei sa d o p t e d a l t h o u g ht w o - d i m e n s i o n a lv i d e os e q u e n c ed o e sn o t c o n t a i nt h ed i s p 撕t yi n f o r m a t i o n , t h ed i s p a r i t yc a nb ee s t i m a t e db a s e do nt h e i n f o r m a t i o no f m o v i n g , t e x t u r ea n do c c l u s i o ni nt h ev i d e os e q u e n c e 1 1 h em e t h o db a s e d o nt h em o v i n gi n f o r m a t i o ni sa d o p t e di nt h et h e s i s a c c o r d i n gt ot h et h e o r yo fb i n o c u l a rs t e r e ov i s i o na n ds t e r e od i s p l a yt e c h n o l o g y , t w o - d i m e n s i o n a lv i d e of i _ a = n l e s 眦c h a n g e di n t ot h ep s e u d ot h r e e - d i m e n s i o n a lv i d e o f r d r n e s ,a n dt h e ya r er e c o n s t r u c t e dv i d e os e q u e n c e b yu s i n gt e c h n o l o g yo fc o l o r s e p a r a t i o ns t e r e od i s p l a y f i n a l l y , t h ep s e u d os t e r e ov i d e ow i t hs t e r e o s e n p i ce f f e c ti s o b t a i n e d k e yw o r d s : b i n o c u l a rs t e r c o v i s i o n ,m o v e m e n t e s t i m a t i o n ,v i d e os e g m e n t a t i o n , d i s p a r i t y 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取 得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重庆太堂 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本 研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:苏建嗲 签字日期: 护7 年月日 学位论文版权使用授权书 本学位论文作者完全了解重庆太堂有关保留、使用学位论文的 觇定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许 念文被查阅和借阅。本人授权重庆太堂可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段 呆存、汇编学位论文。 保密( ) ,在年解密后适用本授权书。 本学位论文属于 不保密( ) 。 ( 请只在上述一个括号内打“”) 学位论文作者签名:导师签名: 舌矿匆 签字日期:年月日 签字日期:勿刁年月1 日 重庆大学硕士学位论文 1 绪论 1 绪论 1 1 三维重建概述 自然晃的物体都是三维的,三维数据中蕴藏着丰富细腻的物体结构,人类通 过双眼获得物体的三维立体信息。但一般的摄影系统只能把三维的物体以二维的 形式保存、记录下来,同时丢掉大量的三维信息。三维重建就是要从二维信息, 如图像中恢复出三维结构,从而为应用服务。本文就是研究二维视频序列的伪三 维重建技术,其主要是基于计算机视觉发展起来的重要研究内容。 视频序列是由按时间顺序排列的一系列图像构成,而图像是二维数据,但是在 关于某一场景或物体的一幅或者多幅图像中可以找到许多线索,从中人们能够推 知图像所记录的场景或物体的三维几何信息。这些线索包括物体边与边之间的几 何关系、两幅图像的视差关系、两幅图像中特征点的对应关系以及物体轮廓信息 等等。这些线索是场景中物体所具有的,称为“被动线索”。有时候根据需要还可以 创造线索,如在物体表面上用光线打上条纹或者制造阴影。这样的人造线索称为 “主动线索”。基于主动线索的三维重建方法可以分为两类:一类利用场景中己知形 状的物体或者某些简单几何元素之间的关系进行建模。其中某些方法利用了场景 中的一些结构信息,例如物体边与边的平行或垂直关系,这样的方法只用一幅图 像就可以构造出物体模型。用单幅图像建模有一个突出的好处,要么无需相机标 定,要么标定时可以避免用立体像对标定时可能出现的关键运动序列问题。这对 于以建筑物为主的场景而言是非常有用的。 第二类使用物体的轮廓信息。物体在图像上的轮廓是理解物体几何形状的一 个重要线索。假设从不同的角度拍摄一个三维物体得到一系列图像,每张图像中 都可以抽取出物体的轮廓,从投影中心发出经过轮廓点的射线构成了一个锥壳, 锥壳和锥壳内的部分占有空间中一块体积。不同角度拍摄的图像各自具有这样的 锥体。所有这些锥体的交集称为物体的视觉包络。对于凸的物体而言,这种方法 简单可靠。但是实际生活中大部分物体要么有起伏,要么有孔洞,对于这样的非 凸物体使用基于轮廓的方法重建会丢失凹进部分的细节。利用物体轮廓建模一般 需要较多的图像。 基于被动线索的方法是在自然光条件下获得三维信息的方法,其中包括:阴 影恢复形状法、纹理恢复形状法以及基于多幅图像的三维重建方法( 包括:立体视 觉法,运动图像序列法、计算机视觉方法等) 。 阴影恢复形状法 由阴影恢复形状是计算机视觉中三维形状恢复问题的关键技术之一,其任务 重庆大学硕士学位论文 1 绪论 是利用单幅图像中物体表面的明暗变化来恢复表面各点的相对高度或表面法向量 等参数值。对实际图像而言,其表面点的亮度受到许多因素的影响,如光源参数、 物体表面材料性质、物体表面形状和摄像机( 或观察者) 位置等。 纹理恢复形状法 由于纹理可以帮助确定表面的取向进而恢复表面的形状,所以由纹理恢复形 状也是一种重建三维表面的方法。但是利用物体表面的纹理确定其朝向要满足一 定的条件,在获取图像的透视投影过程中,原始的纹理结构有可能发生变化,这 种变化随纹理所在表面朝向的不同而不同,因而带有物体表面朝向的信息。常用 的基于纹理的重建方法根据纹理的变化可以分为三类:基于纹理元尺寸的变化、 基于纹理元形状的变化和纹理元之间关系的变化。另外,将纹理方法和立体视觉 方法结合,称为纹理立体技术,它通过同时获得场景的两幅图像来估计景物表面 的方向,避免了复杂的对应点匹配问题。 运动图像序列法 运动可以用运动场来描述,运动场由图像中每个点的运动( 速度) 矢量构成。当 目标在相机前运动或相机在一个固定的环境中运动时我们都能获得对应的图像变 化,这些变化可用来获取相机和目标间的相对运动以及场景中多个目标间的相互 关系。 当相机和场景目标间有相对运动时,所观察到的亮度模式运动称为光流。光 流可以表达图像中的变化,它既包含了被观察物体运动的信息,也包含了与其有 关的结构信息。通过对光流的分析可以达到确定场景三维结构和观察者与运动物 体之间的相对运动的目的。所以通过求解光流方程,可以求出景物表面方向,从 而重建景物三维表面。这种方法的缺点是运算量比较大。 根据双目立体视觉 人类是通过眼睛和大脑来获取、处理和理解视觉信息的。周围环境中的物体 在可见光的照射下,在视网膜上形成图像,由感光细胞将图像转换成神经脉冲信 号传给大脑进行处理与理解。视觉是人类获取信息强有力而又最有效的手段,它 不仅是指对光信号的感受,而是包括对视觉信息的获取、传输、处理、存储与理 解的全过程。信号处理理论与计算机出现后,人们试图以摄像机代替人的眼睛获 取图像,然后由计算机代替人的大脑进行数据的处理与理解,这样形成了一门新 的学科一计算机视觉。 计算机视觉就是用计算机模拟人眼的视觉功能,从图像或图像序列中提取信 息,对客观世界的三维景物和物体进行形态和运动识别。计算机视觉是计算机科 学研究领域的重要分支,其研究的核心问题是从景物图像或序列图像求出景物的 精确的三维几何描述,并定量的确定景物中物体的空间性质,其过程是成像过程 2 重庆大学硕士学位论文1 绪论 的逆过程。计算机视觉的研究目的:提供人类视觉的计算模型:设计与发展某种 真实的适度的视觉系统,并提供具有良好性能价格比的专用系统。与计算机视觉 相关的主要学科有:数学、数字图像处理、计算机图形学、模式识别、人工智能、 人工神经网络等技术。 计算机视觉的主要理论是m a n 的视觉计算理论【3 7 1 。2 0 世纪7 0 年代中期以 m a r r 为代表的一些研究者提出了一整套视觉计算的理论来描述视觉过程,其核心 是从图像恢复物体的三维形状。m a t t 的理论的主要内容为:视觉可分为三个阶段, 一是初级视觉,初级视觉是对输入的原始图像进行处理,抽取图像中诸如点、边 缘、纹理、线条和边界等基本几何元素或特征,这些特征的集合称为基元图或要 素图;二是中级视觉,中级视觉是指在以观测者为中心的坐标系中,由输入图像 和基元图恢复场景可见部分的深度、法线方向、轮廓等,这些信息包含了部分深 度信息,但不是真正物体的三维表示,称为二维半图;三是高级视觉,高级视觉 是在以物体为中心的坐标系中,由输入图像、基元图和二维半图来恢复、表示和 识别三维物体的过程。 二维视频序列的三维重建技术广泛应用于交通,逆向工程,三维医学图像重 建、虚拟现实、计算机动画等方面。 其主要应用的方面如下: 交通事故现场重建:由于交通事故调查的局限性,事故报告中不会包含再 现现场所需的所有信息,而所有的信息大都存在于事故现场和车辆的照片中,因 此,利用计算机视觉有关的三维重建技术,可以方便的再现交通事故现场。 逆向工程:快速获取物理模型数据是逆向工程的基础,与传统的激光扫描、 坐标测量方法相比较,利用物体的二维图像来获取其表面三维数据的方法,既方 便又快捷,符合人们追求高效率、高质量的要求,如汽车制造、文物艺术品的重 建等。 三维医学图像重建:医生通过观察病人的一组二维断层图像,可以达到一般 的诊断目的,但实践证明制定手术计划等需要理解复杂甚至变形的三维结构临床 任务,仅通过在脑中重建断层图像是难以完成的,因此,实现三维重建与三维显 示非常有必要。 虚拟现实在娱乐、视听艺术、教育及军事等方面都有广泛的应用。虚拟现实 的核心内容是虚拟环境的建立,也就是动态的环境三维建模,建模的目的是根据 应用的需要,利用获取的三维数据建立相应的虚拟环境模型。三维数据的获取主 要是利用非接触式的视觉建模技术,只有对规则的环境,才可以采用c a d 技术。 除此之外,电影特技、人脸识别等领域的发展越来越多的依赖于计算机视觉 中三维重建技术的研究与应用。尽管三维重建技术还有诸多不尽人意之处,仅能 3 重庆大学硕士学位论文1 绪论 在某些特定的场合使用,但随着它的研究与发展,三维重建技术将越来越完善, 越来越具有通用性,应用到越来越广的领域中。 在应用领域大部分成果还没有转化为生产力,但已具备了开展视觉研究的研 究人才和技术条件,如清华大学智能技术与系统【lo 】国家重点实验室,在计算机视 觉研究领域处于领先地位。同时各大院校如上海交通大学等也正加大计算机视觉 研究的力度。可以预计,我国飞速发展的经济势力将为计算机视觉的发展提供更 加广阔的应用需求,同时计算机视觉技术的发展将更加有利于我国经济的发展和 人民生活水平的提高。 1 2 国内外研究现状 通过二维图像恢复物体的三维形状多年以来一直是计算机视觉领域研究的一 个热点问题。该技术根据透视成像原理通过对图像信息的解析处理,得到所需的 摄影参数,从而能够根据二维图像重建对象物体的三维空间信息,即可以确定物 体上各特征点的相对位置,进而重建物体的空间形状,并实现对物体三维形状的 修改。经过科学工作者多年的努力,这一领域的研究己经取得了显著的成果,特 别是八十年代末,九十年代初对极几何关系的提出与发展使得这一技术获得了一 个飞跃。对极几何关系的含义是障】:在一个物体的两幅图像中,匹配点( 不同图像 中来自同一个空间点的投影称为匹配点) 的相对位置受到两个图像平面空间几何关 系的约束,这种约束关系在计算机视觉中就称为对极几何关系,它可以用基础矩 阵来准确的表达。应用了对极几何限制的三维物体重建和传统的重建方法的区别 主要有两点:其一,它不是直接求物体的欧氏重建( 指在欧氏框架下的重建) ,而是 将重建过程分为两步先求出物体的射影重建( 指在射影框架下的重建) ,再求欧氏重 建;其二,在求射影重建时它不是直接将校准点的坐标代入射影公式来计算,而 是利用两图像间投影点的匹配关系来推导。因此这种重建方法比起传统的重建方 法有诸多优点,首先,当完成射影重建就可以满足要求时免除了引入校准点或进 行自定标的工作量,其次,使求出的射影矩阵更符合双目视觉机理,更准确。 在计算机视觉研究的开始阶段,三维重建的主要目的在于视觉识别和机器人 导航。但是,随着其它领域包括计算机图形学,虚拟现实等对三维建模技术的需 求越来越多,这一技术的主要应用目的已经发生了转移,通过图像来建立物体的 三维模型技术引起了越来越多的注意。三维建模系统的易用性以及精确性已经成 为研究的重点。 九十年代初一些学者提出了利用图像序列进行三维重建的方法,获得了广泛 的关注。n a r a y a n a n , r 加d c 和k a n a d e 研究了多摄像机立体重建【9 】方法,该方法通 过多个同步的摄像机获取物体的图像,并对每一时刻的瞬间图像利用多基线立体 4 重庆大学硕士学位论文 i 绪论 算法进行密集的深度映射,然后对深度数据进行三角划分,生成物体的表面网格 最后将从图像中提取的表面纹理图映射到网格表面,生成有真实感的三维物体图 形。这种方法在利用多个任意位置的摄像机进行重建方面是比较有效的,其关键 问题是进行图像间的精确对应。为了提高这种方法的重建质量,v e d u l a ,r a n d e r , s a i t 和k a n a d e 提出了一种改进的方法,称为增强的立体建模【1 0 1 。这种方法通过限 制对应点的搜索区域,消除了很多错误的匹配,提高了重建的质量。另外一些学 者对利用一个任意移动的摄像机获取静态物体不同角度的图像来进行三维重建的 方法进行了研究。t o m a s i 和k a n a d e 研究了利用因数分解从序列图像中获取三维模 型的方法l l ”,该方法利用射影几何原理建立三维空间点与图像中对应点的联系, 只要有足够的图像及图像与空间的对应点,就可以通过因数分解的方法进行射影 重建,然后利用自定标技术求解摄像机的内部参数,进行欧氏重建。这种方法的 最大缺点是假设投影为垂直投影。d e b e v e c x 翘l 提出了从一个近似的三维模型和摄 像机位置开始,逐步进行改进的方法【1 2 1 ,这种方法的优点是仅需要少量的图像, 其缺点是需要物体的原始模型,当物体比较复杂时,这种方法便变得不适用。 m p o l l e f e y s ,r k o c h 和l v a n g o o l 开发了一个利用图像序列自动生成场景三维模 型的系统f l ”,在该系统中,作者利用图像对之间的几何关系,首先求解图像序列 中的两幅图像之间的基础矩阵,然后逐一地对其它图像进行计算,进行物体的射 影重建。该系统能够通过对序列图像进行自定标,在图像间进行自动匹配并生成 场景在欧氏空间的三维模型,该系统的优点是对图像知识以及摄像机的参数和位 置要求较少,其缺点是假设摄像机在拍摄过程中只有焦距是变化的,而其它参数 都是常量。 1 3 本文的研究内容 三维视频就是在普通二维视频图像信息的基础上增加深度信息,以更逼真地 描述现实世界。本文主要根据双目立体视觉原理,研究如何将现在的二维视频序 列转换为伪立体视频,以求达到三维视频的立体效果。 我们可以看出本文主要的研究内容为: 1 、二维视频序列中运动物体的提取。现阶段提取运动物体的方法由很多,有 基于时间的运动提取,基于频域的运动提取,也有基于时空结合的方法,在本文 主要根据时域和空域相结合的方法,从视频序列中提取运动物体。 2 、对立体图像对视差计算的方法进行了研究,视差计算的方法有很多,比如 基于块的视差估计,基于特征的视差估计,基于网格的视差估计,基于纹理的视 差估计等多种方法,本文主要采用基于网格的视差估计方法。 3 、探索用运动信息估算二维视频序列中的视差信息的方法,以及将二维视频 5 重庆大学硕士学位论文 l 绪论 序列转化成伪3 d 视频序列的方法。 6 重庆大学硕士学位论文2 双目立体视觉 2 双目立体视觉 2 1 双目立体视觉原理 当入眼观察一个物体时,双眼从左右两边稍有差别的角度进行观察,被观察 物体在人的左右视网膜上所形成的光学映像也略有差异,这种左右观察的差异就 是人们通常所说的双目视差。双目立体视觉的基本原理是从两个视点观察同一景 物,以获取在不同视角下的感知图像,通过成像几何原理计算图像像素间的位置 偏差( 视差) ,来获取景物的三维信息。立体视频原理就是根据这种原理,具体实现 是用两台参数性能相同、位置固定的摄像机,获得同一景物的两幅图像,计算同 一空间点在两幅图像中的视差,从而确定三维空间点的深度信息。单个空间点的 三维信息获取可用下图来说明。 图2 1 双目立体视觉原理 f i g2 1b i n o c u l a rs t e r e o p s i ss y 蚰b - m 图2 1 是一个最简单的双目视觉系统,两台参数性能相同的摄像机,按光轴互 相平行、x 轴互相重合、沿x 轴相距b 的位置放置就构成上述系统。摄像机的光轴 7 重庆大学硕士学位论文 2 双目立体视觉 平行于z 轴,图像平面与( x ,y ) 平面平行。图中o l ,0 2 为左右两摄像机的焦点, i l ,1 2 为左右摄像机的像平面,p l 、p ,分别是空间点p 在左右像平面上的成像点,f 是摄像机的焦距。则视差定义为: z : ( 2 1 ) z = :一 z 1j p i p r b 一刃i 由相似三角形关系可导出,由上式可知,由视差计算深度是非常容易 的,但视差本身的计算是立体视觉中最困难的部分,它要求特征匹配,即找出左、 右两幅图像中的对应点。另外,在实际应用中,有时摄像机的某些参数是未知的, 而且摄像机在排列位置上不一定能够像上述系统一样,这就需要进行摄像机定标。 2 2 三维重建的主要内容 从二维视频序列转换为伪3 d 视频,其主要经过有视频帧的读取、视频分割、 视差估计、合成伪立体视频帧等几个步骤。 图2 2 算法流程图 f i g2 2a l g o r i t h mf l o wc h a t 2 2 1 视频分割 视频分割是立体匹配的基础,它是将视频对象分割是把视频序列中人们感兴 趣的或者具有某种重要性的一个和多个物体( 为视频对象) 从视频场景中提取出来。 视频分割的好坏直接影响立体匹配的效果,也影响三维视频的效果。 2 2 2 视差估算 视差是三维重建中必不可少的因素,一般视差的提取是通过立体匹配来完成, 立体匹配是指根据对所选特征的计算,建立特征之间的对应关系,将同一个空间 物理点在不同图像中的映像点对应起来。立体匹配是立体视觉中最重要也是最困 难的问题。当空间三维场景被投影为二维图像时,同一景物在不同视点下的图像 重庆大学硕士学位论文 2 双目立体视觉 会有很大不同,而且场景中的诸多因素,如光照条件,景物几何形状和物理特性、 噪声干扰和畸变以及摄像机特性等,都被综合成单一的图像中的灰度值。因此, 要准确地对包含了如此之多不利因素的图像进行无歧义的匹配,显然是十分困难 的,至今这个问题还没有得到很好的解决。立体匹配的有效性有赖于三个问题的 解决,即:选择正确的匹配特征,寻找特征问的本质属性及建立能正确匹配所选 择特征的稳定算法。 2 2 3 合成伪立体视频帧 当通过立体匹配得到视差图像之后,便可以确定深度图像,并恢复场景3 d 信 息。就可以进行三维重建了,我们主要根据光学三维显示技术1 5 9 1 中的分色式立体 显示技术来确定三维重建的方法。 分色式立体显示的基本方法是使用加装不同滤光镜的两个普通黑白摄像机同 时拍摄同一场景,显示端把两个摄像机的图像同时投影到显示屏上,观众佩戴分 光眼镜观看视频图像,分光眼镜左右眼滤光镜分别与摄像机滤光镜对应,由于滤 光特性,左眼滤光镜仅允许左摄像机所摄图像通过,右眼滤光镜仅允许右摄像机 所摄图像通过。所以每只眼睛只能看到相应色的图片而看不到另外一个,从而实 现了双像的分离;双像在意识中的叠合则形成了立体感。 9 重庆大学硕士学位论文 3 视频分割 3 视频分割 对象,是指在一个场景中能够访问和操纵的实体,对象的划分可根据其独特 的纹理、运动、形状、模型和高层语义为依据。丽视频对象是指一个具有一定生 存周期的、在时间轴上连续的对象,属于包含时间在内的三维空间上的概念。一 个视频对象就对应于视频场景中的一个特定的物体,比如,最简单的情况下就是 矩形框,或者它也表示为对应于场景中的背景或者某个任意形状的物体。在m p e g 一中,视频序列的每一帧图像都被分解成若干个任意形状的有意义的对象,视频 对象在某一时刻( 某一帧中) 的表象称为视频对象平面( v i d e oo b j e c tp l a n e ,v o p ) 。 视频对象分割是把视频序列中人们感兴趣的或者具有某种重要性的一个和多 个物体( 称为视频对象,v i d e oo b j e o t ,v o ) 从视频场景中提取出来。这些对象往往 在某些方面具有一致属性,比如亮度、色彩、形状及运动等。视频场景中可访问 和操纵的实体就是视频对象,也就是说,视频对象是具有一定高层语义”的区域, 是更符合现实生活中人们视觉上对事物认知的抽象表达。 3 1 视频分割的框图 我们将视频帧读取后,先经过中值滤波,减少噪声对视频分割的影响。视频 图像序列的分割框图如图3 1 所示。 图3 1 时域估计 f i g3 1e s t i m a t i o ni nt e m p o r a l 3 2 运动估计 运动分析与估计是数字视频处理的基本内容,也是视频处理研究的难点和热 点。通常来说,图像序列中的运动分成两种:一是由于摄像机的运动而引起的, l o 重庆大学硕士学位论文 3 视频分割 薹 = r 薹 + r = i 3 毫塞 茎 + 蒌 c s - , 重庆大学硕士学位论文 3 视频分割 i l _ a 缈li 五j 其中, r = l 卸1 a 毋i ,t = 乏l 。a 0 ,矿和妒分别表示关于坐标轴 【一a f ,a 0 l jl 划 五,z :,石,的较小的逆时针位移。t ,疋,l 分别表示关于坐标轴彳。,x :,石,的 平移量。 当物体深度变换范围不大时,我们将这个三维刚体运动投影二维成像平面上, 可以得到二维视频运动的模型函数: 甜! x ,y ? = 口- 石+ 口2 y ? 4 3 ( 3 2 ) ,( x ,y ) = 44 善+ 4 ,y + a6 、 其中,雄以y ) = x :一x 。,“五y ) = x :一x 2 分别表示点x 在间隔时间内在x 轴和y 轴上的偏移量,即运动分速度。q ,a :,a s ,a 5 ,a 6 为自由度参数,共六个,故式( 3 2 ) 被称作为六参数仿射运动模型方程组,用来描述成像平面上的二维视频的全局运 动。本文的后续实验同时也说明此全局运动模型能达到较理想的效果。 3 2 2 基于块的运动估计 运动估计有很多种方法,比如基于网格的运动估计,基于光流方程的运动估 计,基于特征的运动估计和基于块的运动估计等多种算法,其中块的运动估算和 补偿可算是最通用的算法。它广泛用于视频标准变换的运动补偿滤波和采用基于 块的运动补偿进行数字视频压缩等。 块匹配的基本思想是将图像划分为许多互不重叠的予图像块,并且认为子块 内所有像素的位移幅度都相同,这意味着每个子块都被视为运动对象。依据一定 的匹配法则,通过在两个帧之间的像素域搜索程序找到最佳的运动矢量估算。如 图3 2 所示,其中帧k ( 当前帧) 中的像素( 吩,恐) 的位移通过考虑一个中心定位在 ( 均,1 2 ) 的m 2 块,同时搜索帧k + 1 ( 搜索帧) 来找出同样大小的最佳匹配块的 位置来确定。从计算因素考虑,搜索通常限制在l + 2 m 1 l + 2 m 2 范围内( 称为 搜索窗口) 。 重庆大学硕士学位论文3 视频分割 图3 2 块匹配原理 f i g3 2 b l o c k - m a t c h i n ga p p r o a c h 块匹配由于它较少的硬件复杂度,易在超大规模集成电路( v l s i ) 中实现, 因此被认为是最通用的方法。几乎所有的h 2 6 1 和m p e g i - 2 的编码和解码电路的 物理组合都正在使块匹配用于运动估计。 匹配准则 块匹配准则包括最小均方误差函数( m s e ) ,最小平均绝对差值函数( m a d ) , 最大匹配像素统计( m p c ) 。最大互相关函数等准则。在本文中我们采用了最小均 方误差准则。 在最小m s e 准则中,定义成: 蚓而喀) 2 赢专( 。 脚i s ( ,的一s “+ 靠吃+ 盔活+ d 丁2 ( 3 3 ) 其中b 代表川2 块,作为可选择的运动矢量( 吐,如) 的集合。运动矢量的估 算被引到求( 4 ,d 2 ) 的m s e 的最小值。即: l 吐d 2 j 5 a r g m ,d 2 i n j m s e ( d , ,d 2 ) ( 3 4 ) 求m s e 准则的最小值可被看成强加于块的所有像素上的光流约束条件。 运动估计中的搜索算法 根据块匹配的准则,运动估计中需要不断搜索与待匹配块最为相近的匹配块, 1 3 重庆大学硕士学位论文3 视频分割 需要进行大量的像素遍历和重复运算,这个搜索过程往往是十分耗时的。因此, 从最早的全搜索算法出现之后,很多学者提出了各种改进的快速算法。比如三步 搜索法,新三步搜索法,二维对数法,菱形搜索法等,在这些搜索法中,菱形搜 索法的性能是比较优异的,所以我们采用了菱形搜索法。 搜索模板的形状和大小式影响算法性能的主要因素。菱形搜索算法 d s ( d i a m o n ds e a r c h ) 采用的大菱形搜索模板( l d s p ) 和小菱形搜索模板( s d s p ) ,如图 3 3 所示。大菱形搜索模板有9 个搜索像素点( 中心点和周围按菱形分布的8 个像素 点) ,小菱形搜索模板有5 个搜索点( 中心点和垂直、水平方向相邻的4 个点) 。菱 形搜索算法是性能最优异的算法之一,已用于m p e g - 4 标准。 i - ,1 ( a ) 大菱形( b ) 小菱形 ( a ) b i gd i a m o n d ( b ) s m a l ld i a m o n d 图3 3 菱形搜索模板 f i g3 3 d i a m o n ds e a r c hm o d e l 在开始搜索时使用大模板,当最佳点位于中心点时,再使用小模板。具体的搜索 过程如下图所示: l o 驴n d l d s p l i i l d s p 2 l d s p 3 l d s p 4s d s p iil 。;i ll i ill j!l 【。 r i l 图3 , 4 菱形搜索算法 f i g3 ad i a m o n ds e a r c ha l g o r i t h m 1 4 重庆大学硕士学位论文 3 视频分割 3 3 帧差图像 帧差图用来反映两帧图像之间的变化,从上面中我们知道在我们采用的是静 止背景,所以这里的变化是由于对象的运动产生的,而正是对象的运动引起运动 区域内部像素点的灰度值变化。帧差图经过二值化处理,就得到一个尺寸与帧差 图相同的用于标记运动区域和静止区域的分割掩模,其中的0 表示对应位置的像 素点属于静止区域,l 表示对应位置的像素点属于运动区域。如图3 5 所示,若 以带斜线的圆代表每一帧的运动区域,则两圆的并集就表征了两帧图像的帧差图。 图3 5 二次帧差原理 f i g3 5t w i e f i a m ed i f f e r e n c t h e o r y 由于简单的差值算法存在许多问题,比如图像中因运动产生的遮挡和显露问题 使得不能将所有变化的像素都定义为属于运动对象的像素。本文采用二次帧差求 交集方法来改善。 二次帧差是一种利用相邻的两幅帧差图像的交集检测中间帧的运动信息的方 法。如图3 5 ( a ) ,假定第k - m ,k 和k + m 帧的运动区域分别表示为椭圆区域i ,i i 和 ;则f d o 【- m ,k ) 检测到的运动区域为i 和i i 的并集( 表示为左斜线区域) ;f d 化“姐) 检测到的运动区域为和的并集( 表示为右斜线区域) ;将这两个并集相交得到区 域i i ,即为第k 帧中的运动区域( 表示为交叉阴影部) 。用这种方法检测运动区域, 可以较好地避免由于遮挡与显露关系而将背景区域错判为运动对象区域,或者将 运动对象区域错判为背景区域,同时有助于抑制随机噪声的影响。但实际上,连 续图像帧中的运动区域一般都存在重叠现象,如图3 5 ( b ) 所示,并不单纯如图3 5 ( a ) 中所示只是简单的连续两帧重叠有交集。仅使用一幅二次帧差图是难以得到准确 的某帧的运动区域的,因为针对图3 5 c o ) ,实际得到的还有i 和的交集部分,因 此必须去除该部分才能得到理想的结果。我们尝试在得到多个二次帧差图之后求 “与”以消去不必要的重叠部分。由多次实验证明,使用三幅二次帧差图能得到满意 结果。 为消去由于图像中的内在噪声产生的帧差图像的非零差值,需要进行阈值化 处理: 1 5 攀 重庆大学硕士学位论文 3 视频分割 z ,= 骺? 弘。卜r ( 3 5 ) 其中z 化k - 1 ) 为标记场,即帧差掩模( f i :a m ed i f f e r e n c e m a s k ) 像;t 是二值化 所需的阈值。 3 4 阈值的选取 首先计算帧差数据 田的绝对值,表示为弦) i 。接着将数据i 叫按升序排列得 到 孑) ,假设 0 中序列的中间值为m ,我们利用如下方法计算序列的权值: w = 口互一 接下来,计算位置估计参和方差毋: 台:骅 喇铲= 紫 ( 3 6 ) ( 3 7 ) 阈值选取为:t = 2 5 彦,其中2 5 的取值,虽是任意的,但却是十分合理的。 因为在高斯( g a u s s i a n ) 条件下几乎不存在大于2 5 子的情况。 3 5 形态学处理 在经过阈值化后,基本上噪声都去除了,但是还有部分噪声和空洞区域,所 以我们用形态学的方法进行处理。 形态学为大量的图像处理问题提供了一种一致的有力的方法。在数学形态学 中,膨胀和腐蚀两种操作是形态学处理的基础。实际上,许多形态学算法都是以 这两种原始运算为基础的。 膨胀定义为; g u ,j j ) = f u ,k ) o h u ,七)( 3 8 ) 腐蚀定义为: g u ,= f u ,k ) o 归u ,( 3 9 ) 其中f ( j ,k ) 表示二进制图像,h ( j ,k ) 是一个l l ( l 为奇数) 的二进制数组称 作结构单元。 膨胀可使图像扩张,而腐蚀可使图像收缩。 数学形态学开操作与闭操作是另外两个重要的形态学操作,它们是在膨胀和 腐蚀的基础上进行的。开操作一般使对象的轮廓变得光滑,断开狭窄的间断和消 除细的突出物。闭操作同样使轮廓更为光滑,但与开操作相反的是,它通常消除 此之外狭窄的间断和长细的鸿沟,消除小的孔洞,并填补轮廓中的断裂。 1 6 重庆大学硕士学位论文3 视频分割 使用结构元素h 对图像f 进行开操作,表示为f o i l ,定义为: g u ,惫) = f u ,k ) o h u ,七) - 【f u ,k ) o h ( j ,动】o 日u ,| i ) ( 3 1o ) 其中疗u ,幼是结构单元日u ,j i ) 的反射矩阵 因此,用h 对f 进行开操作就是用h 对a 腐蚀,然后用h 的反射矩阵对结 果进行膨胀。 同样,使用结构元素h 对集合f 的闭操作,表示为f o h ,定义如下: g u ,d = f ( j ,k ) - h ( j ,| ) = 【f ( j ,| ) o h ( y ,k ) o h ( y ,| )( 3 1 1 ) 3 6 边缘检测 在本文中我们采用了基于u s u a n 的边缘检测算法。 首先,我们来了解下u s a n 准则的原理( 图3 6 ) 【4 9 】【5 0 1 ,用一个圆形模 图3 6 u s u a n 原理 f i g3 6u s u a nt h r y 板遍历图像,若模板内其他任意象素的灰度值与模板中心象素( 核) 的灰度值的 差小于一定阈值,就认为该点与核具有相同( 或相近) 的灰度值,满足这样条件 的象素组成的区域称为核值相似区( u n i v a l u es e g m e n ta s s i m i l a t i n gn u c l e u s , u s a n ) 。把图像中的每个象素与具有相近灰度值的局部区域相联系是u s a n 准 则的基础。 具体检测时,是用圆形模板扫描整个图像,比较模板内每一象素与中心象素 的灰度值,并给定阈值来判别该象素是否属于u s a n 区域,如下式: 1 7 重庆大学硕士学位论文3 视频分割 响= 信卅神e s e 面铅 ( 3 1 2 ) 式中,c ( r r o ) 为模板内属于u s a n 区域的象素的判别函数,i ( r o ) 是模板中心象素( 核) 的灰度值,i ( r ) 为模板内其他任意象素的灰度值,t 是灰度差门限。它影响检测到角 点的个数。t 减小,获得图像中更多精细的变化,从而给出相对较多的检测数量。 门限t 必须根据图像的对比度和噪声 等因素确定。图像中某一点的u s a n 区域大小可由下式表示: 弹( r o ) = c ( ,o ) ( 3 1 3 ) r e f ( r o ) 其中c ( r o ) 是以为圆心的模板。 u s a n 区域包含了图像局部许多重要的结构信息,它的大小反映了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论