（通信与信息系统专业论文）多视点编码快速搜索策略研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-11 格式：PDF 页数：59 大小：3.85MB 积分：0 举报 版权申诉

已阅读5页，还剩54页未读，继续免费阅读

（通信与信息系统专业论文）多视点编码快速搜索策略研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要随着计算机、通信及网络技术的发展，实时的2 d 视频可视通信己经走向成熟，基于各种国际标准的视频产品已经进入了人们的生活、学习、工作等各个方面。然而，人们对于数字视频的要求日益提高，人们希望看到表征自然景物的数字视频能够更加地清晰、更加地真实，而2 d 视频在真实性上存在很大的局限，为满足视频场景自然和真实再现需求，具有3 d 视觉功能的多视点视频技术正越来越受到学术界和工业界的重视，并成为近年来视频研究的热点之一。多视点视频蕴涵了景物的深度信息，在自然场景的表征上更具真实感，下一代多媒体应用将朝着网络化、交互性和真实感的方向发展，多视点视频编码( m u l t i v i e wv i d e oc o d i n g ) 作为f t v f f r e e v i e w p o i n tt e l e v i s i o n ) 、3 d t v ( t h r e e d i m e n s i o n a t e l e v i s o n ) 等三维视频应用中的核心技术之一，是针对即将出现的交互式多媒体应用提出的，它将解决 3 d 交互视频的压缩、传输和存储等问题。然而多视点视频具有巨大的数据量，存贮和传输十分困难，必须对其进行高效的压缩。在多视点视频中，除了各个视频流内具有很强的空间和时间相关性，各视点之间也具有一定的交叉相关性，如何有效地利用这些相关性是提高多视点视频编码效率的关键。为提高多视点视频的压缩效率，本文在多视点视频编码的运动估计、视差估计与多参考帧选择等方面进行了研究。本文首先分析了多视点视频编码相关的原理和技术；研究利用h 2 6 4 a v c 进行多视点视频编码的方法；在t ( 联合图像专家组) 的多视点视频编码的参考模型 j m v c 平台下完成了两种多视点视频编码算法，第一种算法将两路相对固定相机拍摄的视频，通过求出相机内外参数，实现两路视频图像的基于对极线的校正，将视差估计的二维搜索变为一维，再通过建立原始图像和校正图像的索引表来加快视差估计的搜索速度。该方法将编码速度在原模型基础上提高了3 0 4 0 。第二种算法针对目前多视点视频编码( m v c ) 求最佳参考帧都是采用从7 种模式中遍历找出最佳参考帧这一特点。提出了基于多参考帧选择的提前终止算法。利用最小率失真代价是否小于阈值进行终止搜索判断，在很大程度上降低多参考帧运动搜索的计算量。该算法在保证图像质量和码率几乎不变前提下，进一步减少9 0 8 0 左右的搜索点数。通过对多种视频序列的测试，该算法具有良好的鲁棒性，适用于需要实时多视点视频编码的应用环境。关键词：多视点视频编码( m v c ) h 2 6 4 a v c 对极线校正提前终止多参考帧 a b s t r a c t a b s t r a c t a st h ed e v e l o p m e n to fc o m p u t e r , c o m m u n i c a t i o na n dn e t w o r kt e c h n o l o g y , r e a l - t i m e 2 dv i d e ov i s u a lc o m m u n i c a t i o nh a sb ec o m em a t u r e ，a n da l lv i d e op r o d u c t sh a v e a l r e a d ye n t e r e di n t oo u rl i f t ，s t u d ya n dw o r k ，a n ds o o l l h o w e v e r , w i t ht h er e q u i r e m e n t so f l l i g l ld e f i n i t i o na n dr e a l i s t i cv i d e oq u a l i t y , t r a d i1i o n a l2 dv i d e oi sn ol o n g e re n t i r e l y s a t i s f y i n gt h er e q u i r e m e n t s m u l t i - v i e wv i d e o ，w h i c h c a l lp r o v i d ev i e w e r s 谢t 1 1t h e b e n e f i t so f a d d e d r e a l i s m ，s e l e c t i v e v i e w i n g ，a n di m p r o v e d s c e n e u n d e r s t a n d i n g ，m u l t i v i e wv i d e oc o d i n g ( m v c ) h a sb e e np r o p o s e df o rt h en e w g e n e r a t i o no ft h ei n t e r a c t i v em u l t i m e d i a , a n di th a sb e e nr e c o g n i z e dt h a tm v c i sak e y t e c h n o l o g yt h a ts e r v e sa 谢d ev a r i e t yo fa p p l i c a t i o n s ，i n c l u d i n gf r e e - v i e w p o i n tt e l e v i s i o n , t h r e e d i m e n s i o n a lt e l e v i s i o na n ds u r v e i l l a n c e e t c ，a n dw i l lb et h es o l u t i o nt ot h e c o m p r e s s i o n , s t o r a g ea n dt r a n s m i s s i o n e t cf o r3 di n t e r a c t i v ev i d e o h o w e v e ral a r g ea m o u n to fd a t ai so n em a j o ro b s t a c l ef o ru s i n gm u l t i - v i e wv i d e o i st h el a r g ea m o u n to fd a t a am u l t i f o l di n c r e a s ei nb a n d w i d t ho v e rt h ee x i s t i n g s i n g l e - v i e wm a k e si te x t r e m e l yt o u g ht ot r a n s m i ta n ds t o r em u l t i - v i e wv i d e od a t a t l l i s t h e s i s m a i n l yc o n c e r n st h ep r o b l e m so fh i g h l y e f f i c i e n tm v c t oa c h i e v eh i 曲 c o m p r e s s i o ne f f i c i e n c y , c o - r e l a t i o nb e t w e e nt h e d i f f e r e n tv i e w sm u s tb ee x p l o i t e di n m v cs c h e m e w ew i l lp r i m a r ys t u d yt h o s ea s p e c t so fm u l t i - v i e wv i d e oc o d i n g ，s u c h 勰 m o t i o ne s t i m a t i o n , d i s p a r i t ye s t i m a t i o na n dm u l t i f r a m e f i r s t l y , w ed i s c u s s e ds o m et h e o r ya n dt e c h n o l o g yc o r r e l a t i v et om v c ，s e c o n d l y , w e s t u d ym u l t i - v i e wv i d e oc o d i n gm e t h o d su s i n gt h eh 2 6 4 a v cf r a m e w o r k t h i r d l y , w e a c c o m p l i s ht h et w oc o d i n ga l g o r i t h mo fm v c o nj m v cp l a t f o r m t h ef i r s ta l g o r i t h m w a sp r o p o s e dan o v e ld i s p a r i t ye s t i m a t i o nm e t h o do fm u l t i v i e wv i d e oc o d i n gb a s e do n r e c t i f i e de p i p o l a rl i n e s w ee m p l o yt h et h e o r yo fe p i p o l a rg e o m e t r yt or e c t i f yt h e e p i p o l a rl i n e so ft w ov i e w s ，s ot h a tt h es e a r c hr a n g ec a nb ec o n f i n e dt oah o r i z o n t a ll i n e 、杌t l lt h es a m eyc o o r d i n a t ef o ra n yr e f e r r e dp o i n t at a b l ei sc o n s t r u c t e di no u rp a p e rt o s t o r et h er e l a t i o n s h i pb e t w e e nt h eo r i g i n a li m a g ea n dt h er e c t i f i e do n e w ed ot h e d i s p a r i t ye s t i m a t i o nb ys i m p l yc h e c k i n gt h et a b l e i tc a ne f f i c i e n t l yc o n f i n et h es e a r c h r a n g ei nt h ep r o c e s so fd i s p a r i t ye s t i m a t i o na n dr e d u c et h et o t 2 l le n c o d i n gt i m eb y 3 0 , - 4 0 w i t l ll i a l er e d u c eo fp s n r t h em e t h o di s i m p l e m e n t e do nj m v c ( j o i n t m u l t i - v i e wv i d e oc o d i n g ) i ti st h er e f e r e n c em o d e lo fm u l t i - v i e wv i d e oc o d i n go f t ( j o i n tv i d e ot e a m ) a tp r e s e n t ，f o rf i n d i n gt h eb e s tr e f e r e n c ef r a m ei nm v c ，i tn e e dt os e a r c hf o ra l l 多视点编码快速搜索策略研究 m o d e t h u s ，ms e c o n da l g o r i t h mp r o p o s e dan o v e lm u l t i f r a m ee l e c t i o na l g o r i t h mf o r e a r l yt e r m i n a t i o nb a s e do nh 2 6 4 a c c o r d i n gt op r o b a b i l i t yt h e o r y , i tc a l ls t o ps e a r c hi n t h ea v e r a g eo fr d c o s tn e a r b y , t h ep r o p o s e da l g o r i t h mc a l lr e d u c et h ec o m p u t a t i o n a l c o m p l e x i t yb ye a r l yt e r m i n a t i o nm u l t i p l ef e r e n c ef r a m e se l e c t i o n e x p e r i m e n t a lr e s u l t s s h o wt h a tt h ea l g o r i t h mc a l ld e c r e a s et h ee n c o d i n gt i m eb y9 0 8 0 w h i l em a i n t a i n i n g n e a r l yu n c h a n g e dp s n ro fp i c t u r e sa n db i tr a t ec o m p a r e dt ot h ef s ( f u l l - s e a r c h ) a l g o r i t h ma n dt z s e a r c h ( t z f a s t - s e a r c h ) a l g o r i t h mi nh 2 6 4r e f e r e n c es 0 1 a r e 盯江c 4 0 k e y w o r d s ：m u l t i - v i e wv i d e oc o d i n g h 2 6 4 1 a v c e p i p o l a rr e c t i f i c a t i o ne a r l y t e r m i n a t i o nm u l t i f r a m e 西安电子科技大学学位论文独创性( 或创新性) 声明秉承学校严谨的学风和优良的科学道德，本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切的法律责任。本人签名：西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证，毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本人签名：导师签名：日期鲨! 竺! ! ：型纽_ 一笠第一章绪论第一章绪论帚一早殖y 匕 1 1 论文研究背景 2 l 世纪是一个信息化时代，数字化的信息，涉及到人们生活的各个方面，深刻改变着人类的生活方式。人们使用声音、图形和图像作为新的信息载体，随着计算机技术的不断发展，于是产生了多媒体技术，尤其是视频技术的广泛应用。在过去的时间里，视频压缩和通信技术得到了飞速发展，尤其是各种视频编码标准，如：m p e g 1 2 4 ，h 2 6 1 3 4 等的制定，使得高清晰数字电视、视频会议、可视电话，网上的视频点播和视频广播等应用成为现实并且得到普及。在日常生活中，约8 0 的人类感知信息是从视觉中获得的，视频具有直观、形象、准确、高效和应用广泛等特点，因此，在多媒体技术中，图形图像信息有着其他信息无法替代的作用。但未经压缩的数字视频的数据量是非常巨大的，这是对通信系统中有限的带宽和存储空间一种挑战，例如一幅数字电视图像的每帧数据量为2 5 3 k b ，每秒的数据量( 3 0 帧秒) 2 5 3x3 0 = 7 6 m b ，那么一片 c d r o m ( 6 5 0 m b ) 仅能存储长度为6 5 0 7 6 6 0 = 1 4 2 分钟的视频。可见，未压缩的视频很难应用于实际。视频压缩技术已成为多媒体视频技术研究的一个重要方向，引起了人们的广泛关注，在视频技术领域中，主要的发展趋势是追求对自然景物更加真实、清晰的表征。模拟电视经过数十年的发展和应用，如今将被数字电视取代，高清晰数字电视( m ) t v ) 通过增加图像显示的分辨率，进一步提高了视觉的真实性。目前的二维平面视频在表征自然场景深度信息方面的局限性已使其不能满足人们对场景真实和自然再现的需求n 1 。现实生活中人们是用两只眼睛来看东西的，这里的两只眼睛实际上相当于两个摄像机，大脑通过对双目信息的合成处理来获得景物的立体感。近年来，各种可用的多媒体服务和现实中多媒体系统的需求日益增长，许多的3 d 视频技术，比如：自由视点视频( f v v ) 、三维电视( 3 d t v ) 、自由视点电视( f t v ) 、沉寝式远程视频会议、3 d 远程通信、远程医学诊疗、自动导航及虚拟现实等。在这些技术中，多视点视频是各种应用的关键，为满足人们的这种需求，能够提供3 d 视觉的立体多视点视频技术越来越受到学术界和工业界的重视，并且成为当前视频研究领域的热点之一。多视点视频系统增加了图像中景物的深度信息，在自然场景的表征上更具真实感，具有广泛的应用前景，这些应用都是模拟人眼用两个平行摄像机来进行对图像的采集，然后在终端对双眼分别显示来产生立体的效果。这些都是传统二维图像视频无法提供的视觉效果。传统的2 d 视频仅仅为观众提供了一种获取场景信息。而多视点视频能提供任意的动态场景， 2 多视点编码快速搜索策略研究因此对用户来说有更大的现实实用性。在多视点视频的发展过程中，有两项关键技术起着重要的作用并决定它能否被进一步应用。第一项关键技术是3 d 显示。3 d 显示技术的原理较简单，只需要将立体图像对的左右图像分别呈现给人的左右眼。早期人们发明了借助辅助设备的色分法、光分法、时分法等立体显示技术，其中使用最多且效果较好的是基于偏振光原理的立体显示技术，但这些显示方法都有同一个缺点就是观察者都必须佩戴特制眼镜或者别的特殊装置，这种不便很大程度上影响了立体视频的普及。为此，后来的研究者发明了自动立体显示系统，使用户不需要使用任何辅助设备就可以观察到生动的立体显示效果。目前基于视差光栅或凸透镜阵列的立体显示设备已进入了商业使用阶段，表明立体显示技术已发展到成熟阶段，较好地满足了人们的需求。为进一步提高3 d 显示效果，使观察者能够得到“运动视差和“环视的效果，多视点3 d 显示技术成为近年来在显示技术方面的研究重点。目前已有方案中，大部分方案需要在图像分辨率与视点数目之间作折中，不能得到人们期望的效果。新近提出的多投影机与凸透镜阵列结合使用的方案能够同时提供高分辨率的图像与大量的视点数目，受到众多研究者的青睐，并被认为能在不久的将来实现商业价值。多视点视频发展的另一项关键技术是多视点视频内容的存储与传输。多视点视频会带来视频数据的急剧增加，使得视频数据的存贮和传输变得十分困难，必须对多视点视频进行高效的压缩。在过去的十几年中，全世界很多学者致力于该领域的研究。为得到高效的编码效率，他们提出的方案除了利用视频通道内的空间与时间相关性外，还利用了不同视频通道之间的相关性。早些时期，大部分的研究者提出的是针对立体视频的编码方案，然后将这些方案做简单的延伸应用于多视点视频；近几年间，由于多视点视频应用前景的逐渐明朗，针对多视点视频的编码研究成为该领域内学者们的研究重点。在这种情况下，国际视频标准组织 m e p g 在近年期间成立了3 d 音视频的特别研究小组，定期开会讨论多视点视频的编码要求及技术实现方案，以期在若干年后建立统一的多视点视频的压缩标准。正是在这种背景下，本文将多视点视频编码算法的研究作为主要方向，提出了高效的多视点视频编码算法。 1 2 国内外多视点视频编码的研究现状多视点视频信号是由多个视点相机采集获得，它们之间因为相机位置的不同而存在差异，但拍摄的视频内容有着一定的相关性，因此各视点间存在着冗余，其冗余度的大小与相机陈列的形式、相机与拍摄对象的距离以及相机间距有着很大的关联。在进行多视点视频信号处理时，除了采用传统视频编码标准中的运动第一章绪论 3 估计来消除时间上的冗余外，同时采用视差估计消除空间冗余进一步提高压缩效率。 1 9 9 6 年提出的m u l t i v i e wp r o f i l e ( m v p ) 乜3 主要针对立体视频编码应用，扩展了消除视点间冗余的混合编码。m v p 利用m p e g 2 本身的分层编码特性将立体视频的左右通道视频放入基本层与增强层进行编码，增强层通过基本层的预测方式由运动补偿预测转变成了视点问的视差补偿预测。然而，m v p 采用1 6 1 6 的补偿块模导致补偿效果不佳，没有针对性地从多视点视频编码结构入手，缺乏对随机访问、部分解码与绘制的深入研究。自2 0 0 2 年3 月开始的欧洲a t t e s t ( a d v a n c e dt h r e e d i m e n s i o n a lt e l e v i s i o n s y s t e mt e c h n o l o g i e s ) 计划口1 是欧洲委员会主办的社会信息技术( i s t ) 项目的一部分。 a t t e s t 的目标是提出一个3 d t v 广播链的新理念，与现存的2 d 广播向下兼容，广泛支持不同的2 d 和3 d 显示。a t t e s t 在传统2 d 传输的基础上，增加深度图 ( d e p t hm a p ) 作为增强层信息，通过2 d 加深度图的方式在显示终端解码重建3 d 视频。2 d 加深度图方法中深度图压缩效率极高，其码率一般不超过传统2 d 视频的 1 2 0 ，业界部分多视点显示终端也已支持2 d 加深度的显示模式，然而深度图构建精度不高和重建视频质量低的问题是该工程尚需进一步解决的难题。 m p e g 早在2 0 0 1 年就开始对3 d t v 术开展探索性研究，当时主要研究方向有 1 ) 交互式多视点视频编码技术( i n t e r a c t i v em u l t i p l ev i e wv i d e o ) ； 2 ) 交互式立体视频( i n t e r a c t i v es t e r e o s c o p i cv i d e o ) ； 3 ) 全景视频( o m n i d i r e c t i o n a lv i d e o p a n o r a m i cv i d e o ) ；钔3 d 音频技术( 3 da u d i o ) 。 m v c 是支持自由视点电视f t v 、三维电视( 3 d t v ) 等应用的核心技术。m p e g 组织对于三维音视频应用提出了多方面的系统支持和压缩相关需求 ( r e q u i r e m e n t s ) ，多视点视频压缩算法除了需要有较高编码效率，还必须支持视点或时间的随机访问，低延时地编解码，视可分级等性能。然而现阶段对多视点视频编码算法研究的评价手段主要集中于率失真性能和计算复杂度比较。合理有效的编码结构( p r e d i c t i o ns t r u c t u r e ) ，不但可以有效提高压缩效率、随机访问和部分解码性能，而且能降低计算复杂，另外直接影响编解码延时、内存消耗等性能。多年来，m p e g 组织广泛征集m v c 编码方法，其中来自n r r ，k d d i ，f u j i t s u ， s t m i c r o e l e c t r o n i c s ，s e j o n g 大学，n a g o y a 大学和三菱电子研究实验室( m i t s u b i s h i e l e c t r i cr e s e a r c hl a b s ) 等公司和研究机构的m v c 方法性能表现较好。 s i m u l c a s t 是普通单通道视频编码的简单扩展，作为多视点视频编码性能的评价参考“】。由于没有考虑视点间的相关性，所以编码效率低；然而该方法由于其低计算复杂度、低延时的随机访问等性能，常被用于现行的实际多视点应用系统。顺序预澳l j ( s e q u e n t i a lv i e wp r e d i c t i o n ) 编码结构是一种结合了视差估计和运动估计的 4多视点编码快速搜索策略研究顺序视点预测方法，第一个视点序列采用m c p 预测编码，其余第n 视点各帧d c p 和m c p 联合预测，参考第n 1 视点的对应帧和参考当前视点已编码帧。连续预测方法缓解遮挡和暴露问题，通过多参考帧预测有效地减少相邻视点和时间域关联，但由于其依赖路径长、依赖关系多，导致随机访问不佳，计算复杂度大，也容易导致错误传递等问题。 n t t 公司提出的g o g o p ( g r o u po f g o p ) 预测编码方案，所有的g o p 被分成2 种类型：b a s e g o p 和i n t e r g o p 。其中基层g o p 中的帧只能参考当前g o p 中的解码帧。i n t e r g o p 的帧可以参考其他g o p 和当前g o p 的解码帧。g o g o p 方案针对多视点视频编码的随机访问性能而提出，通过使用多个i 帧提高随机访问性能，但却较大地降低了编码效率。而且，g o g o p 中的i n t e rg o p 采用了多参考帧策略，增加了计算复杂度。 l i m 等人的多视点编码方案针对视点可分级性( v i e ws c a l a b i l i t y ) 而提出，同时具有较低解码复杂度。但是，对于编码端，主要采用时间和空间联合预测的多参考的方式，辅视点参考主视点作d c p 预测的同时，也参考当前视点最邻近的时间帧作m c p 编码，具有良好的压缩性能。由于相互依赖性少，依赖路径短的特点，该方案还具有良好的随机访问和部分解码性能。 f u j i i 等人提出的m - p i c t m e 方法，共支持2 1 种帧模式，包括5 类帧类型啼】 m 帧具有较高的编码效率，但是多种帧模式的r d o 选择以极大的计算复杂度为代价；另外，该编码结构视点间预测跨度较大，比较适合于小相机间距多视点视频编码。单视点的分层b 帧( h i e r a r c h i c a lbp i c t u r e s ) 方案通过合理码率分配策略和预测结构显著提高了率失真性能，支持多层次的时间可分级。2 0 0 6 年由德国h h i 研究所提出的基于分层b 帧( m v cu s i n gh i e r a r c h i c a lbp i c t u r e s ) 的多视点编码结构，延续了单视点分层b 帧的编码优势。该算法基于对u l i 和b r e a k d a n c e r s 等多视点视频序列的时、空域相关性分布主要集中于时间域的最邻近帧且小部分在空域最邻近帧的特点，采用时间域运动补偿预测为主，视差补偿预测为次的策略；另外还在运动视差估计中加入递归式搜索提高了估计精度。该结构除压缩性能优异外，重要的是分层b 帧方法还支持多层次时间可分级。同时l e e 等其他学者也提出了一些应用多视点视频的编码方法，如2 dd i r e c t m o d e 嘲，v i e wi n t e r p o l a t i o np r e d i c t i o n 等。这些方法无一例外的采用了多参考视点视差估计的方法，以提高多视点视频数据的压缩能力。但是，这是以成倍提高视差估计和运动估计计算量为代价的，对于交互式多视点视频的应用而言极为不利。同时，对于多视点视频编码系统所至关重要的时间空间的随机访问、低延时、并行性、资源消耗等性能由于多参考帧的应用而受限。国内学术界对于多视点立体视频技术的研究始于2 0 世纪9 0 年代后期，到目第一章绪论 5 前为止，已在多视点立体视频的编码、压缩以及虚拟视点合成等方面取得了一定的研究成果。其中，上海大学对于立体视频视差估计的研究开展得非常地深入，提出了基于立体摄像几何特性的视差匹配快速搜索算法、基于视差场分割的立体视频编码和应用分层马尔可夫随机场( m r f ) 模型的视差估计方法h 1 。另外，天津大学也较早地开展了对于立体视频技术的研究，其研究成果包括：基于三维小波的立体视频编码方法、基于四叉树结构的区域视差估计技术，立体视频虚拟视点的合成。在多视点编码的编码框架研究上，鉴于s i m u l c a s t 率失真性能的不足，谢剑等人提出了基于视点间预测的多视点编码方案，通过补偿预测消除第一时刻的视点间相关性，提高了编码效率同时又支持低延时的随机访问嘲。另外他们还提出了时间域跳跃预测、i 帧置于g o p 中间的算法和非i 帧视点切换的改进思想提高随机访问性能。宁波大学朱仲杰等人也较早地开展了多视点立体视频编码的研究，在光线空间数据特征分析及其在光线空间插值与压缩，面向网络传输的立体视频流技术等研究上取得较大进展。基于f u j i i 等人的m 帧预测结构，蒋刚毅等人结合将i 帧置于g o p 中间的改进思想，较大地提高了随机访问性能。国内多视点视频编码研究虽然已取得很多很好成果，但由于起步相对较晚，需要我们不断开拓进取、勇于创新，以期在多视点研究领域世界领先。大部分的立体视频编码方法经过延伸都可以直接成为多视点视频编码方案，所以在这小节中包含了立体视频编码研究现状的讨论。l u k a c s 是立体编码领域早期的研究者，并提出了在相邻视点之间使用视差补偿的方法提高立体视频的压缩效率。随着更多学者对该领域的关注，大量卓有成效的算法和方案相继产生。 1 3 多视点视频编码分类在多视点视频的编码方案中，一般的做法是使用运动补偿预测技术消除视频序列时间方向的冗余，同时利用视差补偿预测技术进一步去除各个视点之间的冗余，根据这个原理，近年来许多研究者提出了多种编码方法。根据视差和运动估计方法不同，这些方法可以归纳为基于“块的编码方法和基于“对象的编码方法两大类。 ( 1 ) 基于“块的编码方法基于“块的编码方法是对各种单序列图像编码方法的直接扩展，在有左右两序列的立体视频中，编码器首先把左序列的每幅图像分割成大小相等的方块，采用单序列图像编码方法进行编码，对右图像采用两种预测编码方法，一是利用左图像进行视差预测( d i s p a r i t yp r e d i c t i o n ) ，二是利用右图像的前一帧图像进行运动补偿预澳j ( m o t i o np r e d i c t i o n ) ，在两种预测中选用误差较小的进行补偿预测编码。这 6 多视点编码快速搜索策略研究种方法是m p e g - 2 多视点配置( m v p ) 的主要思想。在m p e g 2 多视角配置中，将时间上的分级编码的思想运用于多路视频编解码中，在基本层编码第一路视频，而其他路的视频在加强层进行编码，加强层既可以从基本层来进行视差预测，也可以从加强层内部已编码的帧进行运动预测。上述固定块尺寸预测编码方法的原理简单，技术成熟，然而由于运动矢量和视差矢量估计的准确度不高，因此编码效率不高。为提高视差预测的精度， s e t h u r a m a n 呻1 首先将可变块尺度预测方法引入到视差估计中，提出了基于视差分割的编码方法。该方法自适应地按图像的内容分割图像，在视差平滑区采用较大尺寸块，在视差突变区采用较小尺寸块，并用四叉树结构表示分割信息，在相对较低视差编码开销下，获得较小的预测误差。在可变块尺寸的视差估计中使用了基于马尔可夫随机场模型( m r f ) 的平滑约束，提高了视差场的一致性，并且使用了率失真优化的方法来选择最佳的视差预测块尺寸。根据人眼视觉系统的隐藏特性，研究者发现降低立体视频中的一路视频的分辨率和图像质量并不会影响整体的立体视觉效果，因此提出了混合分辨率的编码方法，只对其中的主视频流进行高质量编码。为进一步降低立体视频中辅助码流的码率，h a y e s 提出了一种不需要编码传输右图序列中的b 帧，而在解码端直接经帧估计和内插得到重建的方法。该方法在帧估计和内插中第一次利用了立体视频序列的特点，使在可接受的视觉效果下获得了高效的压缩性能。在此基础上，l u o n 们提出了基于不规则四叉树的运动估计和分割的立体视频帧估计和内插方法，提高了重建的b 帧质量。近年来，为提高编码效率，一些研究者提出了基于最新视频压缩标准h 2 6 4 的多视点视频编码方案；利用h 2 6 4 的多参考帧技术非常简便地实现了多视点视频编码，通过参考帧的选择同时实现了运动预测和视差预测。在提出的编码方案中，使用全局视差模型得到当前编码宏块在相邻视点图像中的对应块，然后使用该对应块的运动矢量来预测当前编码宏块的运动矢量，减少了编码运动矢量所需的比特数。 ( 2 ) 基于“对象的编码方法基于“对象的视频压缩首先要将图像中的物体或物体的不同部分进行区分。单路视频实现这一目标比较困难，通常利用物体的运动参数、物体间亮度和纹理的差异等，但效果不佳。而立体图像序列除了可利用单路运动图像的分割方法外，还可利用立体图像中的深度信息进行图像的物体分割。对图像进行分割后，较为简单的做法就是将不同物体以不同压缩比进行压缩，如将视频电话中的人像和背景分别以较低和较高的压缩比进行压缩。而较为复杂的做法是建立分割后各个对象的三维模型。以一系列参数来描述对象的形状、亮度和运动，来实现场景的结构化描述。基于对象的编码方法主要优点是图像的主观质量好，而且对场景进行第一章绪论 7 结构性描述，能适应新的应用领域。但是这种方法需要复杂的图像分析过程，其中诸多环节，如：对象自动分割、对象描述方法等还不成熟，目前只能适用于_ 些运动简单、背景单一的图像，它的广泛应用取决于图像自动分析问题的解决。 1 4 本文的主要研究内容和成果 h 2 6 4 优异的压缩性能和良好的网络亲和性，使它在数字电视广播、实时视频通信、网络视频流媒体以及多媒体短信等各个方面发挥着重要作用。多视点视频作为一种交互式多媒体应用，体现了下一代多媒体应用网络化、交互性和真实感的发展方向。主要应用于虚拟视频会议、自由视点电视、立体电视等领域。由于多视点视频数据量大，而h 2 6 4 具有很高的压缩效率，因此，研究多视点视频编码算法有着广阔的应用前景。本文共分五章，各章主要内容安排如下：第一章：绪论首先介绍了视频压缩编码的研究背景及其发展历史，接着介绍了国内外多视点视频编码的研究现状，最后介绍了本文的主要内容和研究成果。第二章：视频编码技术研究本章首先介绍国内外视频编码标准的发展，接着重点介绍了h 2 6 4 视频编码标准，然后分析了h 2 6 4 编解码器的主要结构，最后详细分析了h 2 6 4 编码标准的主要技术。第三章：多视点视频压缩编码本章首先论述了人眼3 d 视觉成像和双目立体图像形成原理，接着分析了多视点视频系统与编码方案，接着重点论述了基于h 2 6 4 标准的多视点视频编码算法，介绍了多视点视频编码的原理以及评价视频压缩性能的各项指标，为下一章提出新的多视点视频编码算法奠定基础。第四章：基于校正的多视点视频编码算法本章首先介绍了视觉几何的基础知识，接着分析了两视点间基础矩阵及其求法，并利用基础矩阵，求出图像上的点所对应的对极线，然后，提出了一种利用视觉几何原理，对视点间视差估计进行改进的多视点视频编码算法，最后，给出了实验结果与分析，该算法在p s n r 几乎不变的前提下而编码时间减少约为4 0 ，实验平台为j m v c 4 0 。第五章：基于提前终止多参考帧选择的多视点视频编码算法本章首先介绍了h 2 6 4 多参考帧运动估计的基本原理，接着分析了传统的提前终止算法，然后提出了基于多参考帧选择的提前终止算法，最后，给出了实验 8 多视点编码快速搜索策略研究结果与分析，该算法在p s n r 变化很小的前提下而编码时间减少约为9 0 ，实验平台为j m v c 4 0 。第六章：总结与展望本章为全文的总结，并指出了本文提出的多视点视频编码算法以后的研究和改进方向。本文的研究工作受国家自然科学基金( i s n 0 3 0 8 0 0 0 4 ) 的资助。第二章视频编码技术研究 9 第二章视频编码技术研究 2 1 视频编码标准概述二十世纪九十年代以来，i t u t 和i s o i e c 制定了一系列视频压缩编码的标准和建议，这些标准和建议的制定极大地推动了视频通信技术的实用化和产业化。 2 0 0 1 年开始组建了联合视频工作组( t ，j 0 缸v i d e ot e a m ，i s o i e cm p e g 和 i t u tv c e g 联合视频工作组) ，制定了一套新的视频编码标准h 2 6 4 a v c 。测试表明，相对于m p e g - 4 、h 2 6 3 和m p e g 2 ，在获得相同视频质量的前提下，h 2 6 4 的平均编码比特比m p e g - 4a s p 要少4 1 ，比h 2 6 3h l p 要少5 2 ，比m p e g - 2 要少6 7 。由于无线带宽资源和传输能力是有限的，因此，提高压缩编码效率成为无线视频和多媒体应用的主要研究目标，h 2 6 4 在此性能十分优越，使其具有广阔的应用前景。h 2 6 4 应用于视频通信领域，如实时视频会议系统、 h d t v 、网络广播、视频流媒体服务、移动多媒体及远程视频监控等等，其编码技术先进实用，网络适应性强，使其必将成为最具影响的视频编码标准之一。数字电视的优越性已是公认的，但它的广泛应用还有赖于高效的压缩技术。例如利用m p e g 2 压缩的一路高清晰度电视( h d t v ) ，约需2 0 m b s 的带宽，有人作过初步试验，如利用h 2 6 4 进行一路h d t v 的压缩，大概只需5 m b s 的带宽。众所周知，美国已公布在2 0 1 0 年( 我国约在2 0 1 5 年) 停止模拟电视广播，全部采用数字电视广播，如果那时h d t v 要获得迅猛发展，必须要降低成本。以传输费用而言，采用h 2 6 4 ，可使传输费用降为约原来的1 4 ，这是一个十分诱人的前景。 2 1 1 国际视频编码标准过去几十年中，图像和视频编码一直是一个广泛研究的课题。现在它的应用遍及各行各业，已经从纯学术研究转变为高度的产业化行为。视频应用产业化成功的重要条件是视频压缩标准化，目前从事视频压缩标准制定的国际组织主要有国际电信联盟i t u t 的视频编码专家组v c e g ( v i d e oc o d i n ge x p e r tg r o u p ) 和国际标准化组织i s o i e c 的运动图像专家组m p e g ( m o t i o np i c t u r ee x p e r tg r o u p ) 。两个标准化组织基于不同的应用需求，采用近似的压缩编码技术，分别制定了h 2 6 x 和m p e g 一系列视频压缩标准。其中i t u t 制定了h 2 6 1 、h 2 6 2 、h 2 6 3 、h 2 6 3 + 、 h 2 6 3 + + ；i s o i e c 相继制定了m p e g - 1 、m p e g 2 、m p e g 4 。i t u t 的h 2 6 x 系列标准主要面向低码率的实时视频通信如视频会议和视频电话：i s o i e c 的 m p e g o x 系列标准主要是面向视频存储、视频广播和流媒体( s t r e a m i n gm e d i a ) 等应用。以上国际压缩标准尽管应用领域不同，但是均采用了预测结合变换量化的混多视点编码快速搜索策略研究合编码模式。其中两大视频标准化组织联合提出的m p e g 2 h 2 6 2 是现有最成功的国际视频压缩标准，目前又再次联手提出了h 2 6 4 a v c ，即m p e g 4 第1 0 部分。其发展历程如图2 1 所示。盼、，。。7 。脯能g s 蛔雏幽晒酗p e g 1 嬲 g 1 i i己一一i t 1 9 8 41 9 8 6 9 雒 9 1 9 9 21 9 9 41 9 9 61 9 9 盆加2 0 0 22 0 0 4 图2 i 国际视频编码标准发展历程 1 ) h 2 6 1 c c i t t s gx v 于1 9 8 4 年底开始筹划h 2 6 1 视频压缩标准1 ，直到1 9 9 1 年， h 2 6

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）多视点编码快速搜索策略研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）多视点编码快速搜索策略研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档