(通信与信息系统专业论文)基于压缩域的视频配准.pdf_第1页
(通信与信息系统专业论文)基于压缩域的视频配准.pdf_第2页
(通信与信息系统专业论文)基于压缩域的视频配准.pdf_第3页
(通信与信息系统专业论文)基于压缩域的视频配准.pdf_第4页
(通信与信息系统专业论文)基于压缩域的视频配准.pdf_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:,赵毖 日期:丞叟q 鱼堕矽 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:赵澎2 导师签名: 山东大学硕士学位论文 摘要 与静止图像相比,视频为活动图像( 或运动图像) 。实际上我们看到的视频信息是 由许多单一的图像所组成的,每一幅图像称为一帧。视频的产生是每秒大于2 4 帧 的图像连续播放,根据人眼的生理特点而形成的效果。视频配准是指找出场景中 同一物体表面的结构点在不同图像上的投影像素点之间的对应关系。视频拼接是 指将若干个摄像头所获得的视频图像重叠部分进行拼接,形成一个视野范围更广 的视频。目前视频配准和拼接广泛应用于虚拟现实、视频压缩、图像复原、图像 数据库检索等技术中。 视频拼接的算法可借助于图像拼接的算法来研究,即可将数字图像的拼接方法 应用到视频图像当中。但是,由于视频的一些其它特点,又不能完全的把视频拼 接看为图像拼接。首先视频序列图像它提供了大量的内容和时间信息,这些信息 有利于动态场景监控和运动分析。其次视频序列图像帧的数目要远远多于静态序 列图像,并且相邻帧之间有很大的冗余性,这就需要一个有效的存储、搜索算法, 需要一个实时性的处理算法。再次,由于视频序列图像中有可能存在运动物体, 这些运动物体有可能对配准算法产生致命性的错误。因此,将图像拼接的算法应 用到视频拼接必须考虑这些问题。 图像配准总体可以分为三类方法:基于像素亮度差优化的方法、基于特征匹配 的方法和基于变换域求解的方法。图像配准算法研究的核心问题是提高配准的速 度、精度和算法的稳健度。 本文针对同一场景拍摄的重叠视频图像配准及拼接问题进行了研究,研究了基 于频域信息的配准技术和基于s i 兀特征匹配的配准技术;研究了图像配准与拼接 技术中的一系列相关问题,包括摄像机运动模型、透视变换矩阵参数的鲁棒估计 和求解方法、插值技术、图像变形技术、流形的概念等。 为了提高配准的速度、精度和算法的稳健度,本文提出了一种基于压缩域的双 摄像机视频拼接算法。首先利用相位相关法估算输入视频的对应第一帧重叠区域, 并在重叠区域进行s i f t 角点检测和匹配,加快角点匹配速度、提高匹配稳健性, 使用鼬s a c 算法去除外点,采用奇异值分解最小二乘法估算变换模型参数,并 山东大学硕士学位论文 使用l m 非线性优化方法进一步降低配准误差,得到首帧的对应投影矩阵;对于 非首帧的配准,利用压缩视频中的当前帧与前帧的运动矢量,获得全局运动矢量, 然后结合对应前帧的投影矩阵,获得相应的当前帧的投影矩阵;最后使用多频带融 合算法进行图像混合以改善线性加权融合算法带来的高频细节模糊。与传统算法 相比,由于省去了特征提取和匹配方法,从而减少了大量的计算步骤和时间,提 高了速度,增加了实用性。实验结果表明该算法具有较好的实用价值。与现有算 法相比,对于图像重叠区域较小、图像中含有运动物体、重复性纹理等较难自动 匹配情况下,使用本文算法可以有效提高成功率。 2 关键词:视频配准:相位相关法;全局运动矢量;图像拼接;s i f r 特征匹配; 山东大学硕士学位论文 a b s t r a c t d e oi m a g e s 盯em o t i o ni m a g e sc o m p a r e dw i t hs t i l l i m a g e s i ti sc o m p o s e do f m u l t i p l ei m a g e sa i l de v e 巧i m a g ei sc a l l e da 觑1 1 1 1 e w h e l lt h e s e 血眦骼( s t i l li m a g c s ) c o n t i n u o u sp l a y 锄dt h ea v e r a g es p e e di sm o r et h 趾2 4p e rs e c o n d ,w ec a i lf i n dt l l e s e s i m a g e sb e c o m eam o t i o nv i d e o av i d e 0m o s a i cm e t h o di sp r o p o s e di n t h i sp 印既t h ee x p 嘶m c i l t ss h o wt h a tt h e p r o p o s e da l g o r i t h me x c e e d se x i s t i n go n e sa tm a t c h i n gs p e e d ,s t a b i l i 够 d e oi sc o r n p o s e do fi m a g es e q u e n c e s d c or e 百s 仃a t i o ni sat e c l l i l i q u et h a tr e l a t 髓0 r a l i g n sd i 蚴i i i l a g e st a k e i l 舶md i t 讥唧o i n t s d c 0m o s a i ct e c h n o l o g yu s 馏 t h er e s u l to fv i d e 0r e 酉s 仃a t i o nt ob u i l dl 鹕ev i e wp 锄o r a m a - l i k ei m a g e 五f o ms m a l l a d j a c 朗ti m a g es 商e s ,删c hc o u l d 即】a 略et h eu s e r sv i e ws c o p e 锄di n c r e a s ei m a g e r c s o l u t i o na sw e l l t i un o w 讥d e 0r e 舀s t r a t i o na n dm o s a i ct e c h n o l o 科i sw i d e l yu s c di n t h e6 e l do fv i r t u a lr e a l i t y ( v r ) ,v i d e 0c o m p r e s s i o n ,i m a g es u p e r r e s o l u t i o i l ,i n t e l l i g e n t s u r v e i l l a n c es y s t 锄,e t c ,w h i c hc 锄et 0b ea l la c t i v er e s e 删la r e ai nc o m p u t e r s i o n d u r i n gr e c e n ty e a r s w bc 觚r e g a r d 啊d e or e 百s 仃鲥o n 勰m u l t i p l ei m a g e sr e 舀s 仃撕o n b u tw ec 姐n o td 0 i t c o m p l e t e l y :d e 0i i i l a g e 巧h 鹪m 觚ya d v 觚t a g 懿o v e rs t i n 觑吼ei m a g e f 0 r e x 锄p l e ,i tp r o v i d 鹤c o n t e x ta l l dt i m i n gr d a t i o n s h i p s ,w l l i c ha s u i t a b l e 如rd y n a i i l i c s c e i l em o l l i 蜘n ga n da c t i v 丽6 训o n h o w e v m 撕p u l a l i o no fv i d 根i r e s a u t o m a t i cp r o c e s s i n g 缸d 锄a l y s i s ,v a s t 锄o l m t so fs t o r a g e ,e 街c i e n ts e a r c hm c t h o d s , l l i 曲b 锄d w i d mc o 珊m l l i l i c a t i o n 锄dr e a l t i m ei m p l e m e i l t a t i o l l s d s c q u e i l c 懿a l h a v eal o to f r e d u n d a n c yb e c a u s eo f m e l a 曙eo v 刚印b 曲7 i ,e e l lc o 璐e c u t i v e 觑吼懿 f e a t u r e - b a s e d ,d i r e c tp i x e ld i f i f e 砌1 c e0 p t i l i l i z a t i o nb 嬲e d ,锄df o 诚c rb a s e dm e t l l o d a r et i l r t y p i c a lw a y so fi m a g er e 百s 眦i o n ,w 1 1 i c hh a v ei t so w na p p r o p f i a t e 印p l i c a t i a r s 印a r a t e 够t h ek e yp r o b l 啪s 南c 吣o nh o w t 0i n c r e 嬲et l l e 酊鲥t l l ms p c e d ,t 0 i n c r e 弱et h er e 百s 缸t i o np 劂s i o n 雒dt 0 髓l l l a l l c et h er o b u s 缸l 懿so ft h c s er e 百s 仃a t i o n m 甜l o d s t i l i sp 印l c rd i d 溺e 剐油0 n 讥d r e 百s 仃a t i o n 锄dm o s a i c i n gt 耐1 i l i q u e 锄d p r c s 既t e ds o m en e w e f f e c t i v ea l g o r i m m sb 私c do np o i i l t - m a t 出n 吕 c o n s i d e rm a tm o s to ft l l e 仔锄髂i nc 0 i n p r c s s e d d e 0 蚰沱锄 i so ft y p i c a lv i d 山东大学硕士学位论文 c o d i n gs t a l l ( 1 a r d ss u c ha sm p e g 一2a n dh 2 6 4 a v ca r eu s u a l l ym o t i o n c o m p e n s a t e d t l l e i rm o t i o ni n f 0 肌a t i o nc a i lb ea p p l i e dt og l o b a lm o t i o nt r a c k i n gi nt h ev i d e os t r e 锄s s ow ep r o p o s eaf 瓠tv i d e os t i t c h i n gm e m o du s i n gc o m p r e s s e d - d o m a i ni n f o m l a t i o ni n v i d e 0s t r e 锄s f i r s t l y ,p h a s ec o r r e l a t i o ni su s e dt or o u g h l yc o m p u t em e 仃a n s l a t i o no f f s e tb e t w e e n m ef i r s tc o 玎e s p o n d i n gf 锄e so f 饥ov i d e os t r e 锄s ,w h i c hs p e e d su pc o m e rm a t c h p r o c e d u r e 锄di m p r 0 v e sm a t c h i n gs t a b i l i t ya sw e l l s e c o n d l y ,i nt h eo v e r l a p p e dr e 百o ns i f tm e t h o di su s e dt od e t e c tc o m e r s 锄d r e 百s t e rt l l e m t h e n ,r a n s a ca l g o r i t h mi su s e d t oe l i m i n a t eo u t l i e 璐t oe n 鲫 e 日e c t i v e n e s so ft h em a t c h e dc o m e rp a i r s s i n g u l a r 、,a l u ed e c o m p o s i t i o n l c a s t s q u 州s v d l s ) m e m o da i l dl e v e n b e r g - m a r q u 融o p t i m i z a t i o na r eu s e dt or o b 戚l y d e t e n i l i n em e8p a r a m 酏e r s 咖l s f o mm o d e l f o rt h eo m e r 仔啪e s ,w ec a l c u l a t e 西o b a lm o t i o nv e c t o rb e t w e e nc o n s e c u t i v e 1 6 r 锄e sf 硒mm o t i o nv e c t o r si n c l u d e di nc o m p r e s s e dv i d c od a t aa n do b t a i np r o j e c t i o n m a t r i xb e 咐e e n 铆oe 锄e s 舶mt h e 刚e c t i o nm a t r i xo ft h ep r e 、,i o l l s 觑i i i l e 锄d 酉o b a l m o t i o no f e a c hi n p u tv i d e os e q u e l l c e a tt h el a s to fm ea l g o r i t h m ,am u l t i - b a n db l e n d i n gt e c i l i l i q u ei su s e dt 0g e n e r a t et h e f i n a lp a i l o r 锄a i i l v a l i dp a r a m e t e r sa r ev e r i f i e db yt l l et r a i l s l a t i o no 伍;e tt om a k e l e v e n b e r g - m a r q u 莉to p t i m i z a t i o nm o r e 如c c e s s 如1 t h ea l g o r i t h m si i lm i sp a p e ra r et e s t i f i e dt ob ee f f e c t i v eb yl o t so fi n t e r e s t i n 吕 p r o m i s i n ge x p 谢m e l l t a l 陀s u l t st o o k e y w o r d s :d e or e 酉s 蹴i o n ;p h 弱ec o 玎e l a t i o n ;g l o b a lm o t i o nv e c t o r ;d e 0 m o s a i c ;s i f tf e a t l l r em a t c l l i n g 4 山东大学硕士学位论文 第一章绪论 本章首先阐述了视频图像配准的概念和视频图像配准的几类方法,然后分析 了视频图像配准技术的应用领域及国内外研究现状,最后对本文的研究内容、研 究重点和全文章节安排予以介绍。 1 1 课题背景介绍 近年来,视频序列图像的配准技术一直是计算机视觉领域的研究热点。当前, 虚拟现实、视频监控等视频处理应用变得越来越普遍和重要。而视频全景图( d c 0 m o s a i c ) 技术在这些领域都有广泛应用。比如在监控领域,视频拼接的全景图像比 基于图像拼接的虚拟全景技术有了进一步的提高,它与带云台的全方位的视频监 控相比,不需要云台,但可以全方位地浏览实时的视频画面,相比基于云台的摄像头 在观看时只能同时由一个人控制摄像头,全方位的视频拼接监控可以同时让许多 观察者独立观看自己感兴趣的部分。 1 1 1 视频图像配准技术简介 视频图像配准( d r 9 西s 缸眦i o n ) 是图像处理的一个基本问题,它源自于多个 领域的很多实际问题,比如一个摄像头的视野范围是有限的,为了能够获得范围 更广的视野,采用一台摄像机往往是不够的,许多场合需要若干台摄像机。由于 多台摄象机获得的视野不能够连接在一起,就需要有多名观察人员守护各个摄像 机,一个人要想看到更多的范围,就需要切换不同的摄像机进行观察。如果采用 带云台的摄像头,可以全方位的观察各个方向的场景,但是在某一时刻所看到的 图像却只能是一个方向上的,如果需要同时了解四周的情况,就必须有多台摄像 机。为了克服单个摄像头视野范围小的缺点,同时满足某一个观察者能方便地观 察各个方向的图像需要,可以采用视频拼接。 视频拼接,是指将一个或若干个摄像头所获得的视频图像输入计算机,在计 算机中对各个摄像头获得的视频图像重叠部分进行拼接,形成一个视野范围更广 5 山东大学硕士学位论文 的视频,就相当于一个全方位的摄像头摄取的视频图像一样。 简单来说,视频图像配准是将同一场景拍摄的不同图像进行对齐的技术,即 找到图像之间的点对点映射关系,或者对某种感兴趣的特征建立关联。视频图像 实质上是每秒若干帧( 大于2 4 帧) 的静念图像,由于图像的拼接技术己经发展的相 当成熟。所以,视频的拼接就是利用静态图像的拼接算法,将它应用到视频图像 的拼接当中所完成的拼接工作。 但是当自订大部分的研究主要集中在静念的序列图像上f 卜3 1 。视频序列图像相对 与静态序列图像有很多不同的特点。首先视频序列图像它提供了大量的内容和时 间信息,这些信息有利于动态场景监控和运动分析。其次视频序列图像帧的数目 要远远多于静态序列图像,并且相邻帧之间有很大的冗余性,这就需要一个有效 的存储、搜索算法,需要一个实时性的处理算法。再次,由于视频序列图像中有 可能存在运动物体,这些运动物体有可能对配准算法产生致命性的错误。 以同一场景拍摄而成的两幅图像为例。假如实际的三维世界点p 在两幅图像 中分别对应着p l 和p 2 两个二维图像点。图像配准要做的就是找到p l 和p 2 的映 射关系,或者p 1 、p 2 跟p 的关系。p l 和p 2 被称为对应点( c o n e s p o n d e i l c ep o i n t s ) 、 匹配点( m a t c l l i n gp o i n t s ) 或控制点( c o i l 仃o lp o i n t s ) 。 1 1 2 图像配准技术分类 6 b a r b a r az i t o v a 【4 1 从应用的角度将图像配准问题概括为下面四类情况: ( 一) 同一场景从不同角度拍摄形成的不同图像的配准问题。其研究目的是 获得更宽阔视野的图片,获得立体信息、进行三维模型等。 ( 二) 不同时间拍摄的不同图像的配准问题。其研究目的是检测并定位场景 中的变化部分,比如在遥感图像处理技术中检测地理环境是否发生变 化,在医学图像处理技术中检测患者的局部部位是否发生病变,在自 动视频监控系统中智能化的检测是否有入侵等。 ( 三) 不同传感器所拍摄图像的配准与融合问题,比如在c t 、s p e c t 、m r s 等医学图像系统中的应用。 ( 四) 二维场景的图像跟三维模型的配准问题,比如在g i s 系统、目标辨识、 图像数据库检索系统中的应用。 山东大学硕士学位论文 当前,图像配准技术基本分为三类,第一类是基于特征的图像配准方法,首先 从两幅图像中提取特征点,再根据一定度量标准对特征点进行匹配,得出一组对 应点集。然后采用优化算法从对应点集合计算空间变换,该变换是两幅图像对应 特征点之间的映射。特征点可以是角点,闭轮廓的质心点和区分性良好的纹理点 等。进行特征点匹配时,首先在第一幅图上确定一个特征点,以其为中心取一小 窗口;然后以同样尺寸的小窗口滑过第二幅图上的特征点,计算窗口相似度,即 所谓模板匹配。特征相似性的度量可以是亮度分佰,傅立叶频谱,小波系数,直 方图,还可以是基于所提取物体的结构信息等。这类图像配准方法可适用于象素 偏移及亮度差异较大的情况,其关键是特征匹配方法的稳健性和效率。第二类包 括那些最小化图像灰度差异的方法( 光流场) ,这类方法依赖于待配准图片间象素 亮度的一致连续性。其优点是不需要进行特征提取和特征匹配,且可利用所有象 素信息。但由于灰度法( 光流场法) 的局部性,无法适用于图片间亮度差异较大 以及象素发生较大偏移的情况。第三类是基于频域的方法,是将图像变换到频域 进行配准。 无论所处理的图像是发生何种形式的变化、是用何种传感器去拍摄,我们总 是力求使用不变的部分、共性的信息去完成配准,然后再根据需要去处理变化的 部分。这就是图像配准技术的核心思想 1 1 3 图像配准系统的组成 一个典型的图像配准系统包括四个部分【4 】: 1 ) 特征检测( f e a n 鹏d e t e c t i o n ) 这里的特征指的是广义的特征,包括图像灰度、色度特征;角点、边缘、 轮廓等结构性特征;频域信息、小波系数等【5 1 。 2 ) 特征匹配( f e 狐鹏m a t 矗l i i l g ) 即使用特征描述算子( 即特征向量) 和相似性策略对特征进行匹配。 3 ) 变换模型参数估算( t r 姐s f o 姗m o d e le s t i m a t i o n ) 变换模型又称映射模型( m 印p i n gm o d e l ) ,即将输入图像向参考图像映射 的坐标变换函数【4 1 。 7 山东大学硕士学位论文 4 ) 图像重采样与变换( i m a g er e s 锄p l i n ga i l dt r a n s f 0 肌a t i o n s ) 这一步就是我们由输入图像经变换模型向参考图像进行对齐的过程。变 换后图像的坐标将不再是整数,这就涉及到重采样与插值的技术。 1 2 视频拼接应用领域 视频拼接的思路是将数字图像的拼接技术应用到视频图像的拼接当中,克服单 个摄像头视频范围过小的特点,形成视野范围更大的视频图像。数字图像的研究 一直是热门课题,关于图像的拼接算法在国内及国外的刊物上都有论述,同时在 游戏和虚拟全景技术中得到应用,也应用到其它领域。然而,对于视频拼接问题 和它的应用却很少引起人们的注意和研究。 视频与图像是密切联系的,简单的来说,视频就是每秒若干帧( 一般2 4 帧图 像) 图像显示的效果。由于眼睛的生理局限,当每帧的图像占用的时间小于0 0 4 秒,就使人感觉如同看电影一样。视频拼接的算法可借助于图像拼接的算法来研 究,即可将数字图像的拼接方法应用到视频图像当中。但是,由于视频的一些其 它特点,又不能完全的把视频拼接看为图像拼接。首先视频序列图像它提供了大 量的内容和时间信息,这些信息有利于动态场景监控和运动分析。其次视频序列 图像帧的数目要远远多于静态序列图像,并且相邻帧之间有很大的冗余性,这就 需要一个有效的存储、搜索算法,需要一个实时性的处理算法。再次,由于视频 序列图像中有可能存在运动物体,这些运动物体有可能对配准算法产生致命性的 错误。因此,将图像拼接的算法应用到视频拼接必须考虑这些问题。 视频拼接的主要目的就是为了扩大视频的视野范围,改变一个摄像头视野狭 小的局限,即通过将若干个摄像头所采集视频图像拼接起来就能够形成视野范围 广、视频效果好的视频图像。若干个摄像头提供的信息常常具有互补性,为了综 合使用多种成像模式以提供更全面的信息,常常需要将有效信息进行整合。整合 的第一步就是使多幅图像在空间域中达到几何位置的完全对应,这一步骤称为“配 准。整合的第二步就是将配准后图像进行信息的整合显示,这一步骤称为“融合 。 多镜头图像配准是指依据一些相似性度量决定图像间的变换参数,使从不同视角、 不同时间获取的同一场景的多幅图像,变换到同一坐标系下,在像素层上得到最 山东大学硕士学位论文 佳匹配的过程。当配准多幅图像时,选取其中某一幅图像作为参考图像,其余图 像分别相对参考图像进行配准。因此,视频拼接与多摄像机系统是密不可分的。 1 2 1 多摄像机系统在虚拟现实的应用 一些学者已经提出一些方法利用更多的同一场景的多幅图像来增加图像的 性能,比如利用单个相机设定不同曝光时间拍摄同一静态场景,然后混合所拍图 像来增加图像的动态范围,以及拼接图像组成更高分辨率的全景图,还有利用不 同视角的相机进行视角插值组成一个虚拟的新视角。多摄像机系统的应用提高了 图像处理系统的性能以及运用视角插值算法可以提供虚拟的视角,但是同时他也 带来了一些问题,比如,多镜头系统需要实时捕获和处理非常大量的数据,镜头 数越多,处理的数据量越大。而且为了混合这些不同镜头捕获的大量图像,必须 对这些图像进行一些调整,而且当镜头数量很多时,这些调整必须是实时的。但 是多摄像机系统的发展仍然是一个比单一摄像机系统有更大的优越形。 多摄像机系统是视频拼接在实际中的应用,当前主要的应用有: a ) 比如在实际空间中,在不同位置拍照得到不同的图像,将这些图像组合起 来,就可以让用户更清楚地了解空间。不同位置相当于不同视点,在视点 间的切换,加上必要的图像插值方法,就可以模拟人在实际空间中的行走。 用户自己决定移动的位置,近看或远看,这一切都能通过操纵三维鼠标来 完成。还有随着多媒体技术的不断发展,交互性将成为未来多媒体技术的 一个主要特征,具有交互性的多媒体技术将使我们能够在某些方面由被动 观赏转化为主动欣赏。例如我们可以在一个场景中改变我们的视角和视 点,选择我们感兴趣的区域进行观赏。由于r 双目视差的原理,用户可以获 得具有深度感的立体图像 b ) 交互式全方位视频( i m e r a c t i v eo i t l i l i d i 舸凭i o n a l 讥d e 0 ) 也称为沉浸式视频 ( i l t 皿e r s i v ev i d e 0 ) 。观察者视点不能随意变,改变观察方向能够观察到 周围的全部场景。普通的二维视频只反应了全方位视频的某个局部,难以 使人产生身临其境的沉浸感,利用全方位视频可以建立起供用户观察的虚 拟环境。用户通过在其中的漫游,能够交互地从不同观察点和方向了解环 9 山东大学硕士学位论文 境。全方位视频摄像机的示意图如图卜l 所示,由多个摄像机对同一视点 周围的场景进行采集处理。 c ) 交互式立体视频利用人眼的双目视差原理,双目各自独立地接收来自同一 场景、特定摄像点的左右图像,从而获得具有深度感的立体图像。立体视 频由于能获得景物的深度信息而具有强烈的真实感和逼真度。立体视频的 采集设备如图卜2 所示,摄像头并行排列在一条直线上,模拟在水平位置 上分丌的人眼。为了能够使观察者体验到视角的变化,有时需要多个摄像 机同时采集多个不同位置的图像。 d ) 交互式多视角视频也被称为任意视角视频( 眠v i e v i ,p o i n tv i d e o ) ,用户可 以从不同的视点以任意的视角进行观察。中问视角的视频图像可以根据左 右两个视角的原始视频图像来插值生成。视频数据的采集设备如图卜3 所 示,除了采集视频信号之外,还可能需要摄像机的校正参数( 包括一些内 置参数和外置参数) 、场景的几何信息等。当然这些参数和几何信息也可 以用合适的算法从采集的图像中估计出来 广白、 司d 甲 llill 图1 1 全方位视频摄像机图1 2 立体视频摄像机 图1 3 多视角视频摄像机 下面本文作者将综述介绍一下当前图像配准技术在虚拟现实、视频压缩、图 像复原等领域的应用,并着重介绍图像配准及静态图像镶嵌技术的国内外研究近 况。 l o 山东大学硕士学位论文 1 2 2 虚拟现实系统 虚拟现实( v i r n l a lr e a l i 锣) 技术是用计算机来生成一个逼真的三维世界以给观 众如同真实世界的体验。近年来随着计算机技术的发展,虚拟现实技术已经深入 到游戏设计、建筑设计、医学仿真、军事仿真等诸多应用领域【6 1 。虚拟现实的实 现方法分为传统的基于三维建模的方法和基于图像绘制的方法。基于三维建模的 方法首先要对场景中的所有物体建立三维几何模型和光照模型,然后利用透视投 影原理将三维几何模型映射到二维成像空间。基于三维建模的方法的缺点是:对 硬件要求较高,设备复杂;渲染速度受场景复杂度的限制;生成的模拟世界真实 感不佳等。 基于图像的虚拟现实技术( h a g e b a s e d m “r e a l i t y 简称i b v r ) 的出现较 好的解决了传统虚拟现实技术的这些不足。首先利用图像处理技术得到场景的全 景图【7 1 ,然后采用几何变换和插值的方法就可以生成新的任意角度的视图。 虚拟现实系统( v i r t u a l i z c dr e a l i t y t m 【8 】) 是最早的运用多个摄像机的系统。 首先,他们运用同步的多个摄像机捕获大量的视频信息,然后利用视角插值算法 描绘出不同视角的物体结构从而构造出3 维场景结构。这个系统叫3 维圆屋顶( 3 d d o m e ) ,它利用录像机录下从5 1 个单色的c c d 相机产生的同步视频【9 】。这些相 机连在一个外部同步信号产生器产生的同步信号。为了能够分辨不同相机的时域 对应的帧,在送入录像机录制前,它利用一个码产生器在每个相机产生的视频的 场消隐空隙中加入时间编码。每一个相机连接一个录像机。我们就可以录制所有 相机产生的任意长的视频,但是这个系统显得很笨重和昂贵。录像机录制的质量 很低而且磁带也不能被数字化。于是出现了改进的系统叫3 维房间( 3 d r o o m 【i o 】) , 它运用4 9 个同步的彩色s v i d 摄像机捕获高质量的视频信息( 6 4 0 x 4 8 0p i x 吐 3 0 邱sp r o 骅s s i v es c 趾y c 疋b ) 。它继承了第一代的外部同步信号和插入时间码这 两个模块,同时运用了每三个相机连接一个p c 机这种体系结构来存储数据。很 显然镜头越多所需p c 机越多,系统的价格也就依赖于p c 机的价格了。 当前,获取全景图的方法有两种,一种方法是基于硬件实现的系统,比如使 用鱼眼镜头、扫帚式摄像机等设备直接获取全景图。这种方法造价昂贵,获取的 全景图含有较大的变形失真,而且图像分辨率也受到限制。另一种思路就是使用 山东大学硕士学位论文 图像镶嵌的方法。图像镶嵌是指将多幅图像进行组合、拼接的技术:首先对周边 场景进行拍摄以得到一系列的重叠图像,然后利用重叠区域的信息计算出图像问 的变换模型关系,并将其镶嵌起来以形成全景刚7 ,1 1 】。 图像镶嵌要考虑三个最基本的问题,即首先要确定图像坐标变换的数学表示 模型,或者说摄像机运动模型;其次要根据某种方法来估算、求解该模型的参数; 最后将多幅图像统一投影、变形到一个新的坐标系,并使用某种图像融合算法进 行拼合。 1 - 2 3 可控视野的全方位电视转播与监控系统 视频拼接和电视转播技术相结合,可以改善电视转播当中视频范围过小的特 点。电视转播中,由于摄像头的视野范围限制,观众看到的画面经常是经过摄像 头摄取的局部场景。这样电视中出现的部分就不能满足各个层次观众的口味。例 如在电视转播体育比赛当中,有人通过电视镜头扫描发现了前排某一坐位上的观 众很象自己好久没有联系的同事,希望电视镜头能够再次扫描确认。可是,电视 台照顾不了他。如果用户能够通过遥控器按钮,移动转播的电视画面,就如同自 己在左右环视一样。这样个性化的电视转播技术必定能够吸引电视观众的兴趣, 从而推动电视转播技术更好的发展。将视频拼接技术应用于电视转播当中,克服 电视转播中视野范围过小,用户被动的接受电视画面的局限性,为电视观众提供 更好的服务。 视频拼接技术也适合应用到视频监控场合,取代带有云台的摄像头,形成全 方位的视频网络监控,工作人员就不必为各个摄像头所形成的多个监视画面分散 精力,只需要观察一个画面就可以了,从而能够更好的完成视频监控的要求。 1 3 视频拼接研究现状 视频就是每秒若干帧( 一般2 4 帧图像) 图像显示的效果。视频拼接的算法可借助 于图像拼接的算法来研究,即可将数字图像的拼接方法应用到视频图像当中。 当前面向图像镶嵌的图像配准算法主要可以分为三类【1 5 】:直接图象灰度优化 的方法;基于特征匹配的方法;在变换域求解的方法。 1 2 山东大学硕士学位论文 基于图像灰度的配准方法,通常直接利用整幅图像的灰度信息,建立两幅图 像之间的相似性度量,然后采用某种搜索方法,寻找使相似性度量值最大或最小 的变换模型的参数值。常用的相似性度量有:( 1 ) 两幅图像灰度的平方差之和;( 2 ) 序贯相似度检测( s s d a ) ;( 3 ) 互相关;( 4 ) 位相相关。基于图像灰度的配准方法 不需要对图像做特征提取,而是直接利用全部可用的图像灰度信息,因此能提高 估计的精度和鲁棒性。但由于在基于图像灰度的算法( 如互相关算法) 中,把匹配 点周围区域的点的灰度都考虑进来进行计算,因此其计算量很大,速度较慢。但 是由于多镜头获取各类图像灰度特征往往不一致,因此很难运用基于图像灰度的 方法。图像配准是图像镶嵌技术的核心问题。微软研究院的r i c h a r ds z e l i s b 在1 9 9 6 年s i g g r a p h 上提出了基于运动模型的全景图拼接算法【7 1 。s z e l i s k j 采用了非线 性优化的方法来最小化像素两幅图像的亮度差以确定变换参数。该方法使用了全 部像素进行优化处理,所以配准精度较高,但是计算速度较慢,且稳健性不佳。 基于图像特征的配准方法是目前采用最多的。基于图像特征方法提取各类图 像中保持不变特征,如边缘点、闭区域的中心等,作为两幅图像配准的参考信息。 这类方法的主要优点是它提取了图像的显著特征,大大压缩了图像的信息量,使 得计算量小,速度较快,而且它对图像灰度的变化具有鲁棒性。但另一方面,正 是由于只有一小部分的图像灰度信息被使用了所以这种方法对特征提取和特征匹 配的错误更敏感,需要可靠的特征提取和鲁棒的特征一致性。基于图像特征的配 准方法包括特征提取、特征匹配、选取变换模型及求取参数、坐标变换与插值四 个主要组成部分。特征提取是指分别提取两幅图像中共有的图像特征。点特征是 最常采用的一种图像特征,包括物体边缘点、角点、线交叉点等,常用的点特征 提取方法有基于小波变换的边缘点提取法、角点检测法、兴趣算子法;线特征是 图像中明显的线段特征,如道路、河流的边缘,目标的轮廓线等;面特征是指利 用图像中明显的区域信息作为特征;还有基于其它的一些特征描述算子,比如 s i f t 算子。接下来的工作是特征匹配。两幅图像a 和b 中分别有m 和n 个特 征点( m 和n 常常是不相等的) ,其中有k 对点是两幅图像中共同拥有的,则如何 确定两幅图像中k 对相对应的点对即为特征匹配要解决的问题。常用的特征匹配 方法有:互相关系数法、互信息法、聚类法、点间距离法、松弛法等。 1 3 山东大学硕士学位论文 国内的赵向阳,杜立民在2 0 0 4 年提出了一种基于特征点匹配的图像自动拼接 算法【1 3 】,其中使用了h a 耐s 算法【1 6 】提取角点并进行匹配。赵的算法采用了鲁棒变 换估计技术,在一定程度上提高配准算法的稳健性,但是计算速度依然较慢,且 无法配准重叠区域较小、运动物体较多的图像。m b r 0 、釉在2 0 0 3 年i c c v 大会上 发表了一篇名为r e c o 咖s i n gp a n o r 锄a s 的文章【4 1 ,文中使用了基于不变量技术【1 7 】 的s i f t 算法【1 8 】进行图像配准,算法完全自动完成且效果较好。 d a e h y u nk i m 【1 9 】提出了一种改进的块匹配算法并将其用于全景图拼接技术 中。块匹配算法中,每帧图像被分成二维的m n 像素的予块,假定每个子块内 的像素都作平移运动。当前帧的m n 子块在上一帧对应的子块邻域窗口内搜索 到与之最匹配的子块,当前子块与匹配块在二维平面上的位移即为运动估计得到 的运动矢量。 无特征的在变换域求解图象拼接方法以基于傅立叶变换的相位相关法为代 表,首先对要拼接的图象进行傅立叶变换,通过频域内的相位差峰值找到图象 的重叠位置,从而进行图象拼接。小波变换也常常被用于图象拼接技术。 b r e d d y 和b c h a t t 喇i 【2 0 】中提出了一种基于f f t 的图像配准方法,可以处理包含 平移、缩放和尺度变化在内的图像配准问题;李忠新等在2 0 0 4 年提出了一种基于 频域相关的柱面全景图拼接技术【2 1 1 。这些方法都是在变换域进行图像配准的例 子。 对于单个摄像头的视频拼接,i 洲m 【冽中提出的算法只能处理序列中存在小 运动物体的情况。b a n o l ia 【2 3 】提出了特征匹配和图像直接匹配相结合的方法,可 以处理有较大运动物体的情况但从给出的实验结果来看,其算法拼接得到的背景 全景图不理想,全景图中存在没有恢复信息的空白区域,而且运动物体在背景上 留下痕迹,图像较模糊。国内的朱云芳,叶秀清等【2 4 】对b a n o l ia 的方法进行了一 些改进,可以获得较为干净的背景图像。 对于多摄像头的视频拼接,雷中锋等【2 5 】提出了将一个摄像头视频当中的每一 帧图像与另一个摄像头视频当中相对应的一帧图像根据全景图像的拼接方法无缝 拼接,通过若干个摄像头拼接成全景的视频图像( 所需要的摄像头数目取决于每个 摄像头的视野角度) ,然后将拼接后的图像以2 5 帧秒的速率显示。也就是说,视 1 4 山东大学硕士学位论文 频显示的是拼接后的图像,这样能够全方位地展示所观看的场景。 n r w a n i g 弱c k 锄【2 6 】对上述方法进行改进,运用了基于多分辨率特征的方法,提 高了配准精度。 s h 锄a 等人的方法【2 7 1 是首先配准来在两个视频序列的第一帧,然后,采用图像 序列帧与帧之问的图像配准方法完成单个序列图像帧与帧之间的图像配准。对于 不同序列的对应图像之间的配准问题,可利用与当前序列帧的对应第一帧的关系 来解决。 s t e i n 的方法【2 8 】是对每个视频序列,采用自适应跟踪的方法提取运动目标质 心,并给每个质心加时间标志,从而完成两个视频序列的时间配准和空间配准。 c 印s p i 等人【2 9 】提出基于区域的方法。该方法不能处理两个图像序列之间存在 较大的未对准的情况,特别是在时间域上有较大偏差( 例如几百帧) 的情况。 当前对于两个摄像机视频序列的配准,主要是在时间配准和空间配准上进行 研究即不但需要求解两个图像序列之间的空间变换关系,而且还要求解不同序列 的两帧图像在时间上的对应关系。 1 4 本文的研究重点和章节安排 本文主要研究压缩域( 视频压缩的概念将在第二章介绍) 下基于s i f t 特征的 视频配准问题。本文的研究重点着眼于提高当前配准算法的速度、配准精度和稳 健性。另外本文也对视频拼接中的融合也作了一定研究。 本文研究内容概括如下: 1 ) 介绍了运动图像压缩编码标准m p e g 2 以及d c 图像的提取问题; 2 ) 研究了基于角点匹配和基于相位相关法的图像配准; 3 ) 研究了鲁棒的变换估计技术; 4 ) 介绍了图像插值算法、图像变形和流形技术;研究了图像镶嵌中的融合 技术; 5 ) 研究了基于s i 订算子的特征匹配。 6 ) 研究了压缩域视频配准的方法。 本论文的正文: 山东大学硕士学位论文 第一章为绪论,阐述了视频拼接技术的背景,介绍了视频拼接技术的定义及 分类,并概述了视频拼接技术的应用领域及国内外研究进展。 第二章介绍了运动图像压缩编码标准m p e 争2 ,运动矢量的基本概念以及d c 图像的提取。 第三章研究视频拼接技术。概述介绍了图像配准,图像插值、重投影和图像 融合技术然后介绍了影响图像合成清晰度的几个因素。 第四章介绍了s i f t 算子,并用实验仿真结果进行分析讨论。 第五章研究了基于压缩域的配准技术,包括首帧配准和非首帧配准,给出了 实验结果。 第六章总结了本文所作的工作,提出了仍然存在的问题,并对下一步的研究 工作做了展望。 1 6 山东大学硕士学位论文 第二章运动图象压缩编码标准 视频序列是由相机对场景进行连续拍摄形成的,它由一系列图象帧组成。这 些相邻的图象帧之间都有很大部分的重叠,如果把视频流中的每一幅图象都抓取 出来进行拼接会在很大程度上浪费系统资源和计算时间。因此,本文利用了压缩 码流中的信息进行拼接。我们采用最常用的m p e g 格式的视频文件来进行视频拼 接。本章主要介绍一下m p e g 2 压缩标准以及d c 图像的提取。 2 1 肝e g 视频标准 数字电视技术在8 0 年代取得了迅速的发展,促进了对视频标准工作的开展。 人们充分认识到只有制定视频压缩技术的标准,才能减少视频编码和解码器的成 本;才能解决各个厂家产品的兼容问题( 通用性) :才能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论