




已阅读5页,还剩54页未读, 继续免费阅读
(通信与信息系统专业论文)多视点编码快速搜索策略研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着计算机、通信及网络技术的发展,实时的2 d 视频可视通信己经走向成熟, 基于各种国际标准的视频产品已经进入了人们的生活、学习、工作等各个方面。 然而,人们对于数字视频的要求日益提高,人们希望看到表征自然景物的数字视 频能够更加地清晰、更加地真实,而2 d 视频在真实性上存在很大的局限,为满足 视频场景自然和真实再现需求,具有3 d 视觉功能的多视点视频技术正越来越受到 学术界和工业界的重视,并成为近年来视频研究的热点之一。多视点视频蕴涵了 景物的深度信息,在自然场景的表征上更具真实感,下一代多媒体应用将朝着网 络化、交互性和真实感的方向发展,多视点视频编码( m u l t i v i e wv i d e oc o d i n g ) 作 为f t v f f r e e v i e w p o i n tt e l e v i s i o n ) 、3 d t v ( t h r e e d i m e n s i o n a t e l e v i s o n ) 等三维视频 应用中的核心技术之一,是针对即将出现的交互式多媒体应用提出的,它将解决 3 d 交互视频的压缩、传输和存储等问题。 然而多视点视频具有巨大的数据量,存贮和传输十分困难,必须对其进行高 效的压缩。在多视点视频中,除了各个视频流内具有很强的空间和时间相关性, 各视点之间也具有一定的交叉相关性,如何有效地利用这些相关性是提高多视点 视频编码效率的关键。为提高多视点视频的压缩效率,本文在多视点视频编码的 运动估计、视差估计与多参考帧选择等方面进行了研究。 本文首先分析了多视点视频编码相关的原理和技术;研究利用h 2 6 4 a v c 进 行多视点视频编码的方法;在t ( 联合图像专家组) 的多视点视频编码的参考模型 j m v c 平台下完成了两种多视点视频编码算法,第一种算法将两路相对固定相机拍 摄的视频,通过求出相机内外参数,实现两路视频图像的基于对极线的校正,将 视差估计的二维搜索变为一维,再通过建立原始图像和校正图像的索引表来加快 视差估计的搜索速度。该方法将编码速度在原模型基础上提高了3 0 4 0 。 第二种算法针对目前多视点视频编码( m v c ) 求最佳参考帧都是采用从7 种 模式中遍历找出最佳参考帧这一特点。提出了基于多参考帧选择的提前终止算法。 利用最小率失真代价是否小于阈值进行终止搜索判断,在很大程度上降低多参考 帧运动搜索的计算量。该算法在保证图像质量和码率几乎不变前提下,进一步减 少9 0 8 0 左右的搜索点数。通过对多种视频序列的测试,该算法具有良好的鲁 棒性,适用于需要实时多视点视频编码的应用环境。 关键词:多视点视频编码( m v c ) h 2 6 4 a v c 对极线校正提前终止多参考帧 a b s t r a c t a b s t r a c t a st h ed e v e l o p m e n to fc o m p u t e r , c o m m u n i c a t i o na n dn e t w o r kt e c h n o l o g y , r e a l - t i m e 2 dv i d e ov i s u a lc o m m u n i c a t i o nh a sb ec o m em a t u r e ,a n da l lv i d e op r o d u c t sh a v e a l r e a d ye n t e r e di n t oo u rl i f t ,s t u d ya n dw o r k ,a n ds o o l l h o w e v e r , w i t ht h er e q u i r e m e n t so f l l i g l ld e f i n i t i o na n dr e a l i s t i cv i d e oq u a l i t y , t r a d i1i o n a l2 dv i d e oi sn ol o n g e re n t i r e l y s a t i s f y i n gt h er e q u i r e m e n t s m u l t i - v i e wv i d e o ,w h i c h c a l lp r o v i d ev i e w e r s 谢t 1 1t h e b e n e f i t so f a d d e d r e a l i s m ,s e l e c t i v e v i e w i n g ,a n di m p r o v e d s c e n e u n d e r s t a n d i n g ,m u l t i v i e wv i d e oc o d i n g ( m v c ) h a sb e e np r o p o s e df o rt h en e w g e n e r a t i o no ft h ei n t e r a c t i v em u l t i m e d i a , a n di th a sb e e nr e c o g n i z e dt h a tm v c i sak e y t e c h n o l o g yt h a ts e r v e sa 谢d ev a r i e t yo fa p p l i c a t i o n s ,i n c l u d i n gf r e e - v i e w p o i n tt e l e v i s i o n , t h r e e d i m e n s i o n a lt e l e v i s i o na n ds u r v e i l l a n c e e t c ,a n dw i l lb et h es o l u t i o nt ot h e c o m p r e s s i o n , s t o r a g ea n dt r a n s m i s s i o n e t cf o r3 di n t e r a c t i v ev i d e o h o w e v e ral a r g ea m o u n to fd a t ai so n em a j o ro b s t a c l ef o ru s i n gm u l t i - v i e wv i d e o i st h el a r g ea m o u n to fd a t a am u l t i f o l di n c r e a s ei nb a n d w i d t ho v e rt h ee x i s t i n g s i n g l e - v i e wm a k e si te x t r e m e l yt o u g ht ot r a n s m i ta n ds t o r em u l t i - v i e wv i d e od a t a t l l i s t h e s i s m a i n l yc o n c e r n st h ep r o b l e m so fh i g h l y e f f i c i e n tm v c t oa c h i e v eh i 曲 c o m p r e s s i o ne f f i c i e n c y , c o - r e l a t i o nb e t w e e nt h e d i f f e r e n tv i e w sm u s tb ee x p l o i t e di n m v cs c h e m e w ew i l lp r i m a r ys t u d yt h o s ea s p e c t so fm u l t i - v i e wv i d e oc o d i n g ,s u c h 勰 m o t i o ne s t i m a t i o n , d i s p a r i t ye s t i m a t i o na n dm u l t i f r a m e f i r s t l y , w ed i s c u s s e ds o m et h e o r ya n dt e c h n o l o g yc o r r e l a t i v et om v c ,s e c o n d l y , w e s t u d ym u l t i - v i e wv i d e oc o d i n gm e t h o d su s i n gt h eh 2 6 4 a v cf r a m e w o r k t h i r d l y , w e a c c o m p l i s ht h et w oc o d i n ga l g o r i t h mo fm v c o nj m v cp l a t f o r m t h ef i r s ta l g o r i t h m w a sp r o p o s e dan o v e ld i s p a r i t ye s t i m a t i o nm e t h o do fm u l t i v i e wv i d e oc o d i n gb a s e do n r e c t i f i e de p i p o l a rl i n e s w ee m p l o yt h et h e o r yo fe p i p o l a rg e o m e t r yt or e c t i f yt h e e p i p o l a rl i n e so ft w ov i e w s ,s ot h a tt h es e a r c hr a n g ec a nb ec o n f i n e dt oah o r i z o n t a ll i n e 、杌t l lt h es a m eyc o o r d i n a t ef o ra n yr e f e r r e dp o i n t at a b l ei sc o n s t r u c t e di no u rp a p e rt o s t o r et h er e l a t i o n s h i pb e t w e e nt h eo r i g i n a li m a g ea n dt h er e c t i f i e do n e w ed ot h e d i s p a r i t ye s t i m a t i o nb ys i m p l yc h e c k i n gt h et a b l e i tc a ne f f i c i e n t l yc o n f i n et h es e a r c h r a n g ei nt h ep r o c e s so fd i s p a r i t ye s t i m a t i o na n dr e d u c et h et o t 2 l le n c o d i n gt i m eb y 3 0 , - 4 0 w i t l ll i a l er e d u c eo fp s n r t h em e t h o di s i m p l e m e n t e do nj m v c ( j o i n t m u l t i - v i e wv i d e oc o d i n g ) i ti st h er e f e r e n c em o d e lo fm u l t i - v i e wv i d e oc o d i n go f t ( j o i n tv i d e ot e a m ) a tp r e s e n t ,f o rf i n d i n gt h eb e s tr e f e r e n c ef r a m ei nm v c ,i tn e e dt os e a r c hf o ra l l 多视点编码快速搜索策略研究 m o d e t h u s ,ms e c o n da l g o r i t h mp r o p o s e dan o v e lm u l t i f r a m ee l e c t i o na l g o r i t h mf o r e a r l yt e r m i n a t i o nb a s e do nh 2 6 4 a c c o r d i n gt op r o b a b i l i t yt h e o r y , i tc a l ls t o ps e a r c hi n t h ea v e r a g eo fr d c o s tn e a r b y , t h ep r o p o s e da l g o r i t h mc a l lr e d u c et h ec o m p u t a t i o n a l c o m p l e x i t yb ye a r l yt e r m i n a t i o nm u l t i p l ef e r e n c ef r a m e se l e c t i o n e x p e r i m e n t a lr e s u l t s s h o wt h a tt h ea l g o r i t h mc a l ld e c r e a s et h ee n c o d i n gt i m eb y9 0 8 0 w h i l em a i n t a i n i n g n e a r l yu n c h a n g e dp s n ro fp i c t u r e sa n db i tr a t ec o m p a r e dt ot h ef s ( f u l l - s e a r c h ) a l g o r i t h ma n dt z s e a r c h ( t z f a s t - s e a r c h ) a l g o r i t h mi nh 2 6 4r e f e r e n c es 0 1 a r e 盯江c 4 0 k e y w o r d s :m u l t i - v i e wv i d e oc o d i n g h 2 6 4 1 a v c e p i p o l a rr e c t i f i c a t i o ne a r l y t e r m i n a t i o nm u l t i f r a m e 西安电子科技大学 学位论文独创性( 或创新性) 声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名: 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本人签名: 导师签名:日期鲨! 竺! ! :型 纽_ 一 笠 第一章绪论 第一章绪论帚一早殖y 匕 1 1 论文研究背景 2 l 世纪是一个信息化时代,数字化的信息,涉及到人们生活的各个方面,深 刻改变着人类的生活方式。人们使用声音、图形和图像作为新的信息载体,随着 计算机技术的不断发展,于是产生了多媒体技术,尤其是视频技术的广泛应用。 在过去的时间里,视频压缩和通信技术得到了飞速发展,尤其是各种视频编码标 准,如:m p e g 1 2 4 ,h 2 6 1 3 4 等的制定,使得高清晰数字电视、视频会议、可 视电话,网上的视频点播和视频广播等应用成为现实并且得到普及。 在日常生活中,约8 0 的人类感知信息是从视觉中获得的,视频具有直观、 形象、准确、高效和应用广泛等特点,因此,在多媒体技术中,图形图像信息有 着其他信息无法替代的作用。但未经压缩的数字视频的数据量是非常巨大的,这 是对通信系统中有限的带宽和存储空间一种挑战,例如一幅数字电视图像的每帧 数据量为2 5 3 k b ,每秒的数据量( 3 0 帧秒) 2 5 3x3 0 = 7 6 m b ,那么一片 c d r o m ( 6 5 0 m b ) 仅能存储长度为6 5 0 7 6 6 0 = 1 4 2 分钟的视频。可见,未压缩的 视频很难应用于实际。 视频压缩技术已成为多媒体视频技术研究的一个重要方向,引起了人们的广 泛关注,在视频技术领域中,主要的发展趋势是追求对自然景物更加真实、清晰 的表征。模拟电视经过数十年的发展和应用,如今将被数字电视取代,高清晰数 字电视( m ) t v ) 通过增加图像显示的分辨率,进一步提高了视觉的真实性。目前 的二维平面视频在表征自然场景深度信息方面的局限性已使其不能满足人们对场 景真实和自然再现的需求n 1 。现实生活中人们是用两只眼睛来看东西的,这里的两 只眼睛实际上相当于两个摄像机,大脑通过对双目信息的合成处理来获得景物的 立体感。近年来,各种可用的多媒体服务和现实中多媒体系统的需求日益增长, 许多的3 d 视频技术,比如:自由视点视频( f v v ) 、三维电视( 3 d t v ) 、自由视点电 视( f t v ) 、沉寝式远程视频会议、3 d 远程通信、远程医学诊疗、自动导航及虚拟 现实等。在这些技术中,多视点视频是各种应用的关键,为满足人们的这种需求, 能够提供3 d 视觉的立体多视点视频技术越来越受到学术界和工业界的重视,并 且成为当前视频研究领域的热点之一。多视点视频系统增加了图像中景物的深度 信息,在自然场景的表征上更具真实感,具有广泛的应用前景,这些应用都是模 拟人眼用两个平行摄像机来进行对图像的采集,然后在终端对双眼分别显示来产 生立体的效果。这些都是传统二维图像视频无法提供的视觉效果。传统的2 d 视 频仅仅为观众提供了一种获取场景信息。而多视点视频能提供任意的动态场景, 2 多视点编码快速搜索策略研究 因此对用户来说有更大的现实实用性。 在多视点视频的发展过程中,有两项关键技术起着重要的作用并决定它能否 被进一步应用。第一项关键技术是3 d 显示。3 d 显示技术的原理较简单,只需要 将立体图像对的左右图像分别呈现给人的左右眼。早期人们发明了借助辅助设备 的色分法、光分法、时分法等立体显示技术,其中使用最多且效果较好的是基于 偏振光原理的立体显示技术,但这些显示方法都有同一个缺点就是观察者都必须 佩戴特制眼镜或者别的特殊装置,这种不便很大程度上影响了立体视频的普及。 为此,后来的研究者发明了自动立体显示系统,使用户不需要使用任何辅助设备 就可以观察到生动的立体显示效果。目前基于视差光栅或凸透镜阵列的立体显示 设备已进入了商业使用阶段,表明立体显示技术已发展到成熟阶段,较好地满足 了人们的需求。为进一步提高3 d 显示效果,使观察者能够得到“运动视差和“环 视 的效果,多视点3 d 显示技术成为近年来在显示技术方面的研究重点。目前已 有方案中,大部分方案需要在图像分辨率与视点数目之间作折中,不能得到人们 期望的效果。新近提出的多投影机与凸透镜阵列结合使用的方案能够同时提供高 分辨率的图像与大量的视点数目,受到众多研究者的青睐,并被认为能在不久的 将来实现商业价值。 多视点视频发展的另一项关键技术是多视点视频内容的存储与传输。多视点 视频会带来视频数据的急剧增加,使得视频数据的存贮和传输变得十分困难,必 须对多视点视频进行高效的压缩。在过去的十几年中,全世界很多学者致力于该 领域的研究。为得到高效的编码效率,他们提出的方案除了利用视频通道内的空 间与时间相关性外,还利用了不同视频通道之间的相关性。早些时期,大部分的 研究者提出的是针对立体视频的编码方案,然后将这些方案做简单的延伸应用于 多视点视频;近几年间,由于多视点视频应用前景的逐渐明朗,针对多视点视频的 编码研究成为该领域内学者们的研究重点。在这种情况下,国际视频标准组织 m e p g 在近年期间成立了3 d 音视频的特别研究小组,定期开会讨论多视点视频的 编码要求及技术实现方案,以期在若干年后建立统一的多视点视频的压缩标准。 正是在这种背景下,本文将多视点视频编码算法的研究作为主要方向,提出了高 效的多视点视频编码算法。 1 2 国内外多视点视频编码的研究现状 多视点视频信号是由多个视点相机采集获得,它们之间因为相机位置的不同 而存在差异,但拍摄的视频内容有着一定的相关性,因此各视点间存在着冗余, 其冗余度的大小与相机陈列的形式、相机与拍摄对象的距离以及相机间距有着很 大的关联。在进行多视点视频信号处理时,除了采用传统视频编码标准中的运动 第一章绪论 3 估计来消除时间上的冗余外,同时采用视差估计消除空间冗余进一步提高压缩效 率。 1 9 9 6 年提出的m u l t i v i e wp r o f i l e ( m v p ) 乜3 主要针对立体视频编码应用,扩展 了消除视点间冗余的混合编码。m v p 利用m p e g 2 本身的分层编码特性将立体视 频的左右通道视频放入基本层与增强层进行编码,增强层通过基本层的预测方式 由运动补偿预测转变成了视点问的视差补偿预测。然而,m v p 采用1 6 1 6 的补 偿块模导致补偿效果不佳,没有针对性地从多视点视频编码结构入手,缺乏对随 机访问、部分解码与绘制的深入研究。 自2 0 0 2 年3 月开始的欧洲a t t e s t ( a d v a n c e dt h r e e d i m e n s i o n a lt e l e v i s i o n s y s t e mt e c h n o l o g i e s ) 计划口1 是欧洲委员会主办的社会信息技术( i s t ) 项目的一部分。 a t t e s t 的目标是提出一个3 d t v 广播链的新理念,与现存的2 d 广播向下兼容, 广泛支持不同的2 d 和3 d 显示。a t t e s t 在传统2 d 传输的基础上,增加深度图 ( d e p t hm a p ) 作为增强层信息,通过2 d 加深度图的方式在显示终端解码重建3 d 视 频。2 d 加深度图方法中深度图压缩效率极高,其码率一般不超过传统2 d 视频的 1 2 0 ,业界部分多视点显示终端也已支持2 d 加深度的显示模式,然而深度图构 建精度不高和重建视频质量低的问题是该工程尚需进一步解决的难题。 m p e g 早在2 0 0 1 年就开始对3 d t v 术开展探索性研究,当时主要研究方向有 1 ) 交互式多视点视频编码技术( i n t e r a c t i v em u l t i p l ev i e wv i d e o ) ; 2 ) 交互式立体视频( i n t e r a c t i v es t e r e o s c o p i cv i d e o ) ; 3 ) 全景视频( o m n i d i r e c t i o n a lv i d e o p a n o r a m i cv i d e o ) ; 钔3 d 音频技术( 3 da u d i o ) 。 m v c 是支持自由视点电视f t v 、三维电视( 3 d t v ) 等应用的核心技术。m p e g 组织对于三维音视频应用提出了多方面的系统支持和压缩相关需求 ( r e q u i r e m e n t s ) ,多视点视频压缩算法除了需要有较高编码效率,还必须支持视点 或时间的随机访问,低延时地编解码,视可分级等性能。然而现阶段对多视点视 频编码算法研究的评价手段主要集中于率失真性能和计算复杂度比较。合理有效 的编码结构( p r e d i c t i o ns t r u c t u r e ) ,不但可以有效提高压缩效率、随机访问和部分解 码性能,而且能降低计算复杂,另外直接影响编解码延时、内存消耗等性能。多 年来,m p e g 组织广泛征集m v c 编码方法,其中来自n r r ,k d d i ,f u j i t s u , s t m i c r o e l e c t r o n i c s ,s e j o n g 大学,n a g o y a 大学和三菱电子研究实验室( m i t s u b i s h i e l e c t r i cr e s e a r c hl a b s ) 等公司和研究机构的m v c 方法性能表现较好。 s i m u l c a s t 是普通单通道视频编码的简单扩展,作为多视点视频编码性能的评 价参考“】。由于没有考虑视点间的相关性,所以编码效率低;然而该方法由于其低 计算复杂度、低延时的随机访问等性能,常被用于现行的实际多视点应用系统。顺 序预澳l j ( s e q u e n t i a lv i e wp r e d i c t i o n ) 编码结构是一种结合了视差估计和运动估计的 4多视点编码快速搜索策略研究 顺序视点预测方法,第一个视点序列采用m c p 预测编码,其余第n 视点各帧d c p 和m c p 联合预测,参考第n 1 视点的对应帧和参考当前视点已编码帧。连续预测 方法缓解遮挡和暴露问题,通过多参考帧预测有效地减少相邻视点和时间域关联, 但由于其依赖路径长、依赖关系多,导致随机访问不佳,计算复杂度大,也容易 导致错误传递等问题。 n t t 公司提出的g o g o p ( g r o u po f g o p ) 预测编码方案,所有的g o p 被分成2 种类型:b a s e g o p 和i n t e r g o p 。其中基层g o p 中的帧只能参考当前g o p 中的解 码帧。i n t e r g o p 的帧可以参考其他g o p 和当前g o p 的解码帧。g o g o p 方案针对 多视点视频编码的随机访问性能而提出,通过使用多个i 帧提高随机访问性能,但 却较大地降低了编码效率。而且,g o g o p 中的i n t e rg o p 采用了多参考帧策略, 增加了计算复杂度。 l i m 等人的多视点编码方案针对视点可分级性( v i e ws c a l a b i l i t y ) 而提出,同时 具有较低解码复杂度。但是,对于编码端,主要采用时间和空间联合预测的多参 考的方式,辅视点参考主视点作d c p 预测的同时,也参考当前视点最邻近的时间 帧作m c p 编码,具有良好的压缩性能。由于相互依赖性少,依赖路径短的特点, 该方案还具有良好的随机访问和部分解码性能。 f u j i i 等人提出的m - p i c t m e 方法,共支持2 1 种帧模式,包括5 类帧类型啼】 m 帧具有较高的编码效率,但是多种帧模式的r d o 选择以极大的计算复杂度为 代价;另外,该编码结构视点间预测跨度较大,比较适合于小相机间距多视点视 频编码。 单视点的分层b 帧( h i e r a r c h i c a lbp i c t u r e s ) 方案通过合理码率分配策略和预测 结构显著提高了率失真性能,支持多层次的时间可分级。2 0 0 6 年由德国h h i 研 究所提出的基于分层b 帧( m v cu s i n gh i e r a r c h i c a lbp i c t u r e s ) 的多视点编码结构, 延续了单视点分层b 帧的编码优势。该算法基于对u l i 和b r e a k d a n c e r s 等多视点 视频序列的时、空域相关性分布主要集中于时间域的最邻近帧且小部分在空域最 邻近帧的特点,采用时间域运动补偿预测为主,视差补偿预测为次的策略;另外 还在运动视差估计中加入递归式搜索提高了估计精度。该结构除压缩性能优异外, 重要的是分层b 帧方法还支持多层次时间可分级。 同时l e e 等其他学者也提出了一些应用多视点视频的编码方法,如2 dd i r e c t m o d e 嘲,v i e wi n t e r p o l a t i o np r e d i c t i o n 等。这些方法无一例外的采用了多参考视点 视差估计的方法,以提高多视点视频数据的压缩能力。但是,这是以成倍提高视 差估计和运动估计计算量为代价的,对于交互式多视点视频的应用而言极为不利。 同时,对于多视点视频编码系统所至关重要的时间空间的随机访问、低延时、并 行性、资源消耗等性能由于多参考帧的应用而受限。 国内学术界对于多视点立体视频技术的研究始于2 0 世纪9 0 年代后期,到目 第一章绪论 5 前为止,已在多视点立体视频的编码、压缩以及虚拟视点合成等方面取得了一定 的研究成果。其中,上海大学对于立体视频视差估计的研究开展得非常地深入, 提出了基于立体摄像几何特性的视差匹配快速搜索算法、基于视差场分割的立体 视频编码和应用分层马尔可夫随机场( m r f ) 模型的视差估计方法h 1 。另外,天津大 学也较早地开展了对于立体视频技术的研究,其研究成果包括:基于三维小波的 立体视频编码方法、基于四叉树结构的区域视差估计技术,立体视频虚拟视点的 合成。 在多视点编码的编码框架研究上,鉴于s i m u l c a s t 率失真性能的不足,谢剑等 人提出了基于视点间预测的多视点编码方案,通过补偿预测消除第一时刻的视点 间相关性,提高了编码效率同时又支持低延时的随机访问嘲。另外他们还提出了时 间域跳跃预测、i 帧置于g o p 中间的算法和非i 帧视点切换的改进思想提高随机访 问性能。宁波大学朱仲杰等人也较早地开展了多视点立体视频编码的研究,在光 线空间数据特征分析及其在光线空间插值与压缩,面向网络传输的立体视频流技 术等研究上取得较大进展。基于f u j i i 等人的m 帧预测结构,蒋刚毅等人结合将i 帧置于g o p 中间的改进思想,较大地提高了随机访问性能。国内多视点视频编码 研究虽然已取得很多很好成果,但由于起步相对较晚,需要我们不断开拓进取、 勇于创新,以期在多视点研究领域世界领先。 大部分的立体视频编码方法经过延伸都可以直接成为多视点视频编码方案, 所以在这小节中包含了立体视频编码研究现状的讨论。l u k a c s 是立体编码领域早 期的研究者,并提出了在相邻视点之间使用视差补偿的方法提高立体视频的压缩 效率。随着更多学者对该领域的关注,大量卓有成效的算法和方案相继产生。 1 3 多视点视频编码分类 在多视点视频的编码方案中,一般的做法是使用运动补偿预测技术消除视频 序列时间方向的冗余,同时利用视差补偿预测技术进一步去除各个视点之间的冗 余,根据这个原理,近年来许多研究者提出了多种编码方法。根据视差和运动估 计方法不同,这些方法可以归纳为基于“块 的编码方法和基于“对象 的编码 方法两大类。 ( 1 ) 基于“块的编码方法 基于“块 的编码方法是对各种单序列图像编码方法的直接扩展,在有左右 两序列的立体视频中,编码器首先把左序列的每幅图像分割成大小相等的方块, 采用单序列图像编码方法进行编码,对右图像采用两种预测编码方法,一是利用 左图像进行视差预测( d i s p a r i t yp r e d i c t i o n ) ,二是利用右图像的前一帧图像进行运动 补偿预澳j ( m o t i o np r e d i c t i o n ) ,在两种预测中选用误差较小的进行补偿预测编码。这 6 多视点编码快速搜索策略研究 种方法是m p e g - 2 多视点配置( m v p ) 的主要思想。在m p e g 2 多视角配置中,将 时间上的分级编码的思想运用于多路视频编解码中,在基本层编码第一路视频, 而其他路的视频在加强层进行编码,加强层既可以从基本层来进行视差预测,也 可以从加强层内部已编码的帧进行运动预测。 上述固定块尺寸预测编码方法的原理简单,技术成熟,然而由于运动矢量和 视差矢量估计的准确度不高,因此编码效率不高。为提高视差预测的精度, s e t h u r a m a n 呻1 首先将可变块尺度预测方法引入到视差估计中,提出了基于视差分割 的编码方法。该方法自适应地按图像的内容分割图像,在视差平滑区采用较大尺 寸块,在视差突变区采用较小尺寸块,并用四叉树结构表示分割信息,在相对较 低视差编码开销下,获得较小的预测误差。在可变块尺寸的视差估计中使用了基 于马尔可夫随机场模型( m r f ) 的平滑约束,提高了视差场的一致性,并且使用了率 失真优化的方法来选择最佳的视差预测块尺寸。 根据人眼视觉系统的隐藏特性,研究者发现降低立体视频中的一路视频的分 辨率和图像质量并不会影响整体的立体视觉效果,因此提出了混合分辨率的编码 方法,只对其中的主视频流进行高质量编码。为进一步降低立体视频中辅助码流 的码率,h a y e s 提出了一种不需要编码传输右图序列中的b 帧,而在解码端直接经 帧估计和内插得到重建的方法。该方法在帧估计和内插中第一次利用了立体视频 序列的特点,使在可接受的视觉效果下获得了高效的压缩性能。在此基础上,l u o n 们 提出了基于不规则四叉树的运动估计和分割的立体视频帧估计和内插方法,提高 了重建的b 帧质量。 近年来,为提高编码效率,一些研究者提出了基于最新视频压缩标准h 2 6 4 的多视点视频编码方案;利用h 2 6 4 的多参考帧技术非常简便地实现了多视点视 频编码,通过参考帧的选择同时实现了运动预测和视差预测。在提出的编码方案 中,使用全局视差模型得到当前编码宏块在相邻视点图像中的对应块,然后使用 该对应块的运动矢量来预测当前编码宏块的运动矢量,减少了编码运动矢量所需 的比特数。 ( 2 ) 基于“对象 的编码方法 基于“对象的视频压缩首先要将图像中的物体或物体的不同部分进行区分。 单路视频实现这一目标比较困难,通常利用物体的运动参数、物体间亮度和纹理 的差异等,但效果不佳。而立体图像序列除了可利用单路运动图像的分割方法外, 还可利用立体图像中的深度信息进行图像的物体分割。对图像进行分割后,较为 简单的做法就是将不同物体以不同压缩比进行压缩,如将视频电话中的人像和背 景分别以较低和较高的压缩比进行压缩。而较为复杂的做法是建立分割后各个对 象的三维模型。以一系列参数来描述对象的形状、亮度和运动,来实现场景的结 构化描述。基于对象的编码方法主要优点是图像的主观质量好,而且对场景进行 第一章绪论 7 结构性描述,能适应新的应用领域。但是这种方法需要复杂的图像分析过程,其 中诸多环节,如:对象自动分割、对象描述方法等还不成熟,目前只能适用于_ 些运动简单、背景单一的图像,它的广泛应用取决于图像自动分析问题的解决。 1 4 本文的主要研究内容和成果 h 2 6 4 优异的压缩性能和良好的网络亲和性,使它在数字电视广播、实时视频 通信、网络视频流媒体以及多媒体短信等各个方面发挥着重要作用。 多视点视频作为一种交互式多媒体应用,体现了下一代多媒体应用网络化、 交互性和真实感的发展方向。主要应用于虚拟视频会议、自由视点电视、立体电 视等领域。由于多视点视频数据量大,而h 2 6 4 具有很高的压缩效率,因此,研 究多视点视频编码算法有着广阔的应用前景。 本文共分五章,各章主要内容安排如下: 第一章:绪论 首先介绍了视频压缩编码的研究背景及其发展历史,接着介绍了国内外多视 点视频编码的研究现状,最后介绍了本文的主要内容和研究成果。 第二章:视频编码技术研究 本章首先介绍国内外视频编码标准的发展,接着重点介绍了h 2 6 4 视频编码 标准,然后分析了h 2 6 4 编解码器的主要结构,最后详细分析了h 2 6 4 编码标准 的主要技术。 第三章:多视点视频压缩编码 本章首先论述了人眼3 d 视觉成像和双目立体图像形成原理,接着分析了多视 点视频系统与编码方案,接着重点论述了基于h 2 6 4 标准的多视点视频编码算法, 介绍了多视点视频编码的原理以及评价视频压缩性能的各项指标,为下一章提出 新的多视点视频编码算法奠定基础。 第四章:基于校正的多视点视频编码算法 本章首先介绍了视觉几何的基础知识,接着分析了两视点间基础矩阵及其求 法,并利用基础矩阵,求出图像上的点所对应的对极线,然后,提出了一种利用 视觉几何原理,对视点间视差估计进行改进的多视点视频编码算法,最后,给出 了实验结果与分析,该算法在p s n r 几乎不变的前提下而编码时间减少约为4 0 , 实验平台为j m v c 4 0 。 第五章:基于提前终止多参考帧选择的多视点视频编码算法 本章首先介绍了h 2 6 4 多参考帧运动估计的基本原理,接着分析了传统的提 前终止算法,然后提出了基于多参考帧选择的提前终止算法,最后,给出了实验 8 多视点编码快速搜索策略研究 结果与分析,该算法在p s n r 变化很小的前提下而编码时间减少约为9 0 ,实验 平台为j m v c 4 0 。 第六章:总结与展望 本章为全文的总结,并指出了本文提出的多视点视频编码算法以后的研究和 改进方向。 本文的研究工作受国家自然科学基金( i s n 0 3 0 8 0 0 0 4 ) 的资助。 第二章视频编码技术研究 9 第二章视频编码技术研究 2 1 视频编码标准概述 二十世纪九十年代以来,i t u t 和i s o i e c 制定了一系列视频压缩编码的标准 和建议,这些标准和建议的制定极大地推动了视频通信技术的实用化和产业化。 2 0 0 1 年开始组建了联合视频工作组( t ,j 0 缸v i d e ot e a m ,i s o i e cm p e g 和 i t u tv c e g 联合视频工作组) ,制定了一套新的视频编码标准h 2 6 4 a v c 。 测试表明,相对于m p e g - 4 、h 2 6 3 和m p e g 2 ,在获得相同视频质量的前提 下,h 2 6 4 的平均编码比特比m p e g - 4a s p 要少4 1 ,比h 2 6 3h l p 要少5 2 , 比m p e g - 2 要少6 7 。由于无线带宽资源和传输能力是有限的,因此,提高压缩 编码效率成为无线视频和多媒体应用的主要研究目标,h 2 6 4 在此性能十分优越, 使其具有广阔的应用前景。h 2 6 4 应用于视频通信领域,如实时视频会议系统、 h d t v 、网络广播、视频流媒体服务、移动多媒体及远程视频监控等等,其编码技 术先进实用,网络适应性强,使其必将成为最具影响的视频编码标准之一。 数字电视的优越性已是公认的,但它的广泛应用还有赖于高效的压缩技术。 例如利用m p e g 2 压缩的一路高清晰度电视( h d t v ) ,约需2 0 m b s 的带宽,有人 作过初步试验,如利用h 2 6 4 进行一路h d t v 的压缩,大概只需5 m b s 的带宽。 众所周知,美国已公布在2 0 1 0 年( 我国约在2 0 1 5 年) 停止模拟电视广播,全部采用 数字电视广播,如果那时h d t v 要获得迅猛发展,必须要降低成本。以传输费用 而言,采用h 2 6 4 ,可使传输费用降为约原来的1 4 ,这是一个十分诱人的前景。 2 1 1 国际视频编码标准 过去几十年中,图像和视频编码一直是一个广泛研究的课题。现在它的应用 遍及各行各业,已经从纯学术研究转变为高度的产业化行为。视频应用产业化成 功的重要条件是视频压缩标准化,目前从事视频压缩标准制定的国际组织主要有 国际电信联盟i t u t 的视频编码专家组v c e g ( v i d e oc o d i n ge x p e r tg r o u p ) 和国际 标准化组织i s o i e c 的运动图像专家组m p e g ( m o t i o np i c t u r ee x p e r tg r o u p ) 。两 个标准化组织基于不同的应用需求,采用近似的压缩编码技术,分别制定了h 2 6 x 和m p e g 一系列视频压缩标准。其中i t u t 制定了h 2 6 1 、h 2 6 2 、h 2 6 3 、h 2 6 3 + 、 h 2 6 3 + + ;i s o i e c 相继制定了m p e g - 1 、m p e g 2 、m p e g 4 。i t u t 的h 2 6 x 系 列标准主要面向低码率的实时视频通信如视频会议和视频电话:i s o i e c 的 m p e g o x 系列标准主要是面向视频存储、视频广播和流媒体( s t r e a m i n gm e d i a ) 等应 用。以上国际压缩标准尽管应用领域不同,但是均采用了预测结合变换量化的混 多视点编码快速搜索策略研究 合编码模式。其中两大视频标准化组织联合提出的m p e g 2 h 2 6 2 是现有最成功 的国际视频压缩标准,目前又再次联手提出了h 2 6 4 a v c ,即m p e g 4 第1 0 部分。 其发展历程如图2 1 所示。 盼、,。 。7 。 脯能g s 蛔雏幽晒 酗p e g 1 嬲 g 1 i i己 一一i t 1 9 8 41 9 8 6 9 雒 9 1 9 9 21 9 9 41 9 9 61 9 9 盆加2 0 0 22 0 0 4 图2 i 国际视频编码标准发展历程 1 ) h 2 6 1 c c i t t s gx v 于1 9 8 4 年底开始筹划h 2 6 1 视频压缩标准1 ,直到1 9 9 1 年, h 2 6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公租房承建合同样本
- fisic合同标准文本交钥匙
- 企业加工合同样本
- 个人业务合同样本
- 粪污治理合同范本
- 婚礼策划服务合同(2篇)
- 2025至2030年中国十二生肖纪念章数据监测研究报告
- 2025至2030年中国化玻仪器市场调查研究报告
- 2025至2030年中国刷握盒行业发展研究报告
- 餐饮会所转让合同范本
- GB/T 1972-2005碟形弹簧
- GB/T 13452.2-2008色漆和清漆漆膜厚度的测定
- 2023年中国工商银行天津分行校园招聘考试录用公告
- 送达地址确认书(诉讼类范本)
- 班组工程量结算书
- 生产件批准申请书
- 环境监测考试知识点总结
- 爵士音乐 完整版课件
- 冀教版七年级下册数学课件 第8章 8.2.1 幂的乘方
- XX公司“十四五”战略发展规划及年度评价报告(模板)
- 计算机辅助设计(Protel平台)绘图员级试卷1
评论
0/150
提交评论