(通信与信息系统专业论文)基于h264的多视角视频及全局视差估计算法的研究.pdf_第1页
(通信与信息系统专业论文)基于h264的多视角视频及全局视差估计算法的研究.pdf_第2页
(通信与信息系统专业论文)基于h264的多视角视频及全局视差估计算法的研究.pdf_第3页
(通信与信息系统专业论文)基于h264的多视角视频及全局视差估计算法的研究.pdf_第4页
(通信与信息系统专业论文)基于h264的多视角视频及全局视差估计算法的研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(通信与信息系统专业论文)基于h264的多视角视频及全局视差估计算法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于h 2 6 4 的多视角视频及全局视差估计算法的研究 专业:通信与信息系统 姓名:熊文娟 导师:梁凡副教授 摘要 随着信息技术的飞速发展,有关3 d 视觉的研究逐渐升温,3 d 视频信号成为 未来多媒体通信的主要内容。多视角视频是使用多个摄像机在空间的不同位置从 不同角度拍摄同一场景而得到的一组视频信号,是现阶段表征3 d 视频信号的重 要方式。目前,它已被认为具有广泛的应用前景,可以应用于3 d 远程通信、自 由视点电视,远程医疗,立体电影和虚拟现实等。 然而,多视角视频会带来视频数据的急剧增加,使得视频数据的存贮和传输 变得十分困难,严重影响了它的应用,数据压缩成了该应用领域的重点研究课题。 在多视角视频中,除了各个视频流内具有很强的空间和时间相关性,各视角之间 也具有一定的相关性,因此,如何有效地利用这些相关性是提高多视角视频编码 效率的关键。 论文首先介绍了多视角视频技术的应用及编码的基本方法,然后对基于 h 2 6 4 的多视角视频编码进行了分析,并对j m v m 进行了阐述和介绍。论文基于 对多视角视频编码的研究,统计分析了多视角视频中视差预测特性和各种相关性 的相对大小,对多视角视频预测结构进行了研究和相关的测试,在j m v m 预测结 构的基础上提出了基于分层结构的视差预测框架,使码流获得了随机访问某一视 角和部分视角解码的功能,从实验结果可以看出,这种预测结构也保持了较高的 编码效率。最后根据多视角视频的特点,本文将全局运动估计引入到视差预测中, 对多视角视频全局视差估计算法进行了相关的分析与研究,并与基于块的视差估 计算法进行了比较,实验结果表明该算法能有效地改善视差预测效果,提高多视 角视频的压缩性能。 关键词:多视角视频,h 2 6 4 ,预测结构,全局视差估计 s t u d yo n h 2 6 4b a s e dm u l t i v i e wv i d e oc o d i n ga n d g l o b a ld i s p a r i t ye s t i m a t i o n 趟g o r i t h m m a j o r : n a m e : c o m m u n i c a t i o na n di n f o m a t i o ns y s t e m x i o n gw e n j u a i l s u p e i s o r :a s s o c i a t ep r o f l i a n gf a n a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n f o 珊a t i o nt e c h n o l o g v ,s t u d i e so n3 dv i s i o na r e r e c e n t l yb e c o m i n gi n c r e a s j n 百yp o p u l a li ns o o nf u t u r e ,3 dv i d e os i g n a lw i l lb e i m p o n a n tc o n t e n t so fm u l t i m e d i ac o m m u n i c a t i o n m u l t i v i e wv i d e 0i sc a p t u f e db y m o r et h a nt w oc a i i l e r a s ,w h i c ha r el o c a t e do nd i f ! t b r e n tp o i n t s a tp r e s e n t ,i ti st h o u g i l t t h a tm u l t i - v i e wv i d e 0h a sw i d ea p p l i c a t i o np r o s p e c t i t sa p p l i c a t i o ni n c l u d e s3 d r e m o t ec o m m u n i c a t i o n ,f r e e v i e w p o i n tt v ,r e m o t em e d i c a ls e r v i c e ,s t e r e o s c o p i cf i l m , v i n u a lr e a l i t y 锄ds oo n h o w e v e r ,i t sh u g ed a t am a k e si te x t r e m e l yt o u g l lt ot r a n s m i ta n ds t o r e m u l t i v i e wv i d e o i ti so n em a i o ro b s t a c l ef o rt h ea p p l i c a t i o no fm u l t i v i e wv i d e o s o t h es t u d yo f h i g l l l ye f ! f i c i e n tm u l t i - v i e wv i d e oc o d i n g ( m v c ) h a s 伊e a ts i 印i f i c a n c e t h e r ea r en o to n l vs p a t i a la n dt e m p o r a lc o r r e l a t i o n s ,b u ta l s oi n t e r - v i e wc o r r e l a t i o ni n m u l t i - v i e w t 0a c h i e v eh i g hc o m p r e s s i o ne f f i c i e n c y ,i ti sv e r yi m p o r t a n tt oe x p l o i t t h e s ec o r r e l a t i o n se f f i c i e n t l vi nm u l t i v i e wv i d e oc o d i n gs c h e m e i nt h i sp a p e r ,w e 舀v eab r i e fi n t r o d u c t i o no ft h ea p p l i c a t i o no fm u l t i - v i e wv i d e o t e c h n o l o g va n db a s i cm e t h o d s0 nm v c t h e n ,t h et h e s i sa n a l y z e s 觚h 2 6 4 - b a s e d m u l t i v i e wv i d e 0c 0 d i n gs c h e m ea n di n t r o d u c e sj m v m w ea n a l y z es t a t i s t i c a l l yt h e c h a r a c t e r i s t i c0 fd i s p a r i t vp r e d i c t i o na n dc o m p a r ev a r i o u sc 0 r r e l a t i o n si nm u l t i v i e w v i d e o w er e s e a r c h 粕dd 0s o m et e s t so nt h ep r e d i c t i o ns t r u c t u r e o nt h eb a s i so f j m v mp r e d i c t i o ns t n l c t l l r e t h et h e s i sp r e s e n t sad i s p a r i t yp r e d i c t i o n 仃a m eb a s e do n h i e r a r c h i c a ls t n l c t u r e ,w h i c hc a nr e a l i z et h ef u n c t i o n so fr a n d o ma c c e s sa n dp a n i a l v i e wd e c o d i n g a ss h o w nf m me x p e r i m e n tr e s u l t s ,t h i sp r e d i c t i o ns t m c t u r ea l s ok e e p s a 譬p o dc o d i n ge f f i c i e n c y i l lt h ee n d ,a c c o r d i n gt ot h ec h a r a c t e r i s t i c0 fm u l t i v i e w v i d e o ,舀o b a lm o t i o nc o d i n gm e t h o di se m p l o y e dt od i s p a r i t yp r e d i c t i o n w 色s t u d yo n t h eg l o b a ld i s p a f i t ye s t i m a t i o na n dt e s ti t t h e nw ec o m p a r ei tw i t ht h er e s u l tw h i c hi s d o n eo nt h eb l o c kb a s e dd i s p a r i t ye s t i m a t i o n e x p e r i m e n tr e s u l t sh a v es h o w nt h i s m e t h o di m p r o v et h ep e 面姗a n c eo fd i s p a r i t yp r e d i c t i o na n dt h ec o d i n ge f f i c i e n c yo f m v c k e yw o r d s :m u l t i - v i e wv i d e oc o d i n g ( m v c ) ,h 2 6 4 ,p r e d i c t i o ns t l l l c t u r e ,g l o b a l d i s p a r i t ye s t i m a t i o n l 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人 或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人和集 体,均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:餐文硝 日期:剐年夕月占日 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学 位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查 阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、缩印或其 他方法保存学位论文。 学位论文作者签名:熟疋兹 日期:瑚年,月召日 导师签 r 期:2 ,对年r 月p 日 绪论 1 1 引言 第1 章绪论 在信息技术飞速发展的今天,多媒体信息技术应用日趋广泛,涉及到社会生 活的各个领域。其中,图像、视频信息由于其直观性强、内容丰富的特点,日益 成为人们传输获取信息的重要媒质。据不完全统计,人类感觉器官所接受的各类 信息中,约有7 0 来自视觉。数字视频技术成为计算机信息领域技术开发和研究 的热点。 多年的研究也使视频技术取得了重要的进展,从过去的黑白到彩色,再到今 天的高清晰度数字视频,现代视频技术正在向“数字化 、“高清晰度化”和“立 体化”方向发展。虽然现在许多应用中二维彩色活动图像已经具有很好的视觉效 果,但随着生活水平的提高,以平面图象描述的2 d 可视化技术已不能满足人们 日益增长的对场景再现更真实、自然描述的需求。例如立体电视和立体电影体现 出来的3 d 显示效果;在进行可视电话或者远程可视会议时,用户的临场感;远 程诊疗时,医生需要病人全方位的视频信息;网上购物时,人们也希望能够看到 物品在多个视角的描述,这些都是传统二维图像视频无法提供的视觉效果。作 为公认的重要而基本的3 d 视觉,立体多视角视频技术越来越受到国内外学术界 和工业界的重视,并且成为当前视频研究中的一个活跃领域。 然而,多视角视频会带来视频数据的急剧增加,使得视频数据的存贮和传输 变得十分困难,严重影响了它的应用,因此,提高多视角视频编码效率是首当其 冲的问题。在多视角视频中,除了存在视频通道内的空间与时间相关性,还存在 不同视频通道之间的相关性,如何有效地利用这些相关性是提高多视角视频编码 效率的关键。 h 2 6 4 是i t u 和i s o 联合制定的新一代视频编码国际标准。与原有的视频编码 标准相比,h 2 6 4 有更高的压缩比,更好的信道适应性,应用前景更为广泛,它 的制定标志着有限失真数字视频编码技术开始走向成熟。这为多视角视频编码提 供了良好的平台,也促进着多视角视频编码研究的进一步发展。为了进一步利用 h 2 6 4 标准的高压缩性能,本文首先探讨基于h 2 6 4 视频压缩标准的多视角视频 中山人学硕i :学位论文 编码方法,使用h 2 6 4 中的编码技术有效解除多视角视频的空间相关性、时问相 关性和视角间相关性,并对多视角视频预测结构进行了研究和相关的测试。同时 根据多视角视频的特点,本文将全局运动估计算法运用在视角问的视差预测编码 中,对全局视差估计算法进行了相关的分析与研究。 1 2 国内外多视角视频研究现状 国外对于多视角视频的研究从2 0 世纪9 0 年代丌始展开,其研究范围包括多视 角视频各个领域,如多视角视频的捕获、编码、传输以及显示等等。其中德国、 法国、美国、日本和韩国等对多视角视频的研究比较深入,比如美国的 m j c r o s o f t 、m o t o r o l a ,法国的t h o m s o n ,德国的f r a u n h o f e rh h i ,同本的n t t 、 k d d i 、m i t s u b i s h i ,韩国的s a m s u n g 、l g 等。图1 1 是德国的h h i 研究所致力于研 究的沉浸式立体视频会议系统【引,该系统能将实际的会议桌与远程参会者的虚拟 会议桌无逢的拼接起来,再配备上逼真的立体显示效果,使与会者感觉到就是在 面对面的交流;还有微软研究院研究丌发的实时多视角视频系统,用户可以选择 自己感兴趣的不同视角进行观看,如图1 2 所示。 图1 1 沉浸式立体视频会议系统 绪论 图1 2 微软研究院研究开发的实时多视角视频系统 国内学术界对多视角视频的研究开始于9 0 年代后期,目前为止,主要在多 视角视频压缩编码以及虚拟视点合成等领域取得了一定的研究成果。 1 3 论文主要工作 论文首先介绍了多视角视频技术的应用及编码的基本方法,然后对基于 h 2 6 4 的多视角视频编码进行了分析,并对j m v m 进行了阐述和介绍。论文基于 对多视角视频编码的研究,完成的主要工作如下: 1 统计分析了多视角视频视差预测的特性,同时分析了多视角视频的时间 相关性和视角间的相关性的相对大小,通过这些统计对多视角视频的相关特性获 得了量的认知; 2 对多视角视频预测结构进行了研究和相关的测试,在j m v m 预测结构的 基础上提出了基于分层结构的视差预测框架,使码流获得了随机访问和部分视角 解码的功能,从实验结果可以看出,这种预测结构也保持了较高的编码效率。 3 根据多视角视频的特点,本文将全局运动估计引入到视差预测中,对多 视角视频全局视差估计算法进行了相关的分析与研究。 实验表明,与基于块的视差估计算法相比,全局视差估计算法不仅能提高编 码效益,节省编码传输的比特数,降低编码复杂度,而且还能避免基于块的视差 3 中山大学硕士学位论文 估计带来的方块效应,提高图像的主观视觉效果。 1 4 论文安排 论文的内容安排如下: 第1 章绪论。介绍论文的研究意义,以及国内外多视角视频编码的研究现 状和论文研究内容; 第2 章多视角视频及其编码基础。首先对多视角视频进行了简单介绍:然 后介绍了基本的多视角视频编码方法;最后对多视角视频压缩性能评价准则进行 了相关的说明; 第3 章基于h 2 6 4 的多视角视频编码方法。在这章中,首先简要介绍了新 一代的视频标准,然后对基于h 2 6 4 的多视角视频编码方法进行了分析,并对 j m v m 编码框图及各个主要模块进行了详细的阐述,最后介绍了基于h 2 6 4 的多 视角视频编码过程及j m v m 的编码流程; 第4 章多视角视频预测结构的研究。首先统计分析了多视角视频视差预测 的特性,同时分析了多视角视频的时间相关性和视角间的相关性的相对大小;然 后对多视角视频预测结构进行了分析和研究,提出了基于分层结构的视差预测框 架,最后通过实验对各种不同的预测结构进行了分析比较; 第5 章全局视差估计算法。该章将全局视差估计引入到视差预测中,详细 分析了全局视差估计算法的可行性,阐述了全局视差估计算法的编码过程,最后 通过实验比较分析了该算法与传统的基于块的视差估计算法; 第6 章总结与展望。回顾总结了论文的全部工作,并展望提出了今后工作 的研究方向; 最后是参考文献,致谢。 4 多视角视频及其编码基础 第2 章多视角视频及其编码基础 多视角视频是一种新型的具有立体感知和交互操作功能的视频。传统的视频 都是由一个摄像机拍摄,对观看者来说在任意时刻只能看到所拍摄景物的某一个 角度的图像,称为单通道视频。多视角视频是使用多个摄像机在空间的不同位置 从不同角度拍摄同一场景而得到的一组视频信号,它有多个通道,不同的摄像机 拍摄的角度不同,在播放时这些不同角度的景物被送到用户终端,如电视显示屏 上,用户在观看时可以选择不同的角度观看景物。 多视角视频与单通道视频最大的区别是可以提供多个观看视角,目前,它 已被认为具有广泛的应用前景,可以应用于3 d 远程通信、自由视点电视,远程 医疗,交互式h d t v 和立体电影,虚拟空间漫游等。图2 1 是一个典型的多视角视 频的应用系统,首先多视角视频各个通道的视频流被送到编码端,由编码端一起 编码输出一路码流,然后经传输通道送往用户终端,解码端对不同视角的视频帧 进行解码,最后根据不同的应用需求对解码图像进行相应的处理后显示在终端设 备上【3 1 。 o z i t * ,w l铴齑凝 l ; t vj h d t v - 2- 一 j。 一 k i t i v j e w 立壶 v i d e o 盯行: 霉 v i ( 把o 冬l l i l i v i e w f 幸嘲“ e i l c o d e r( i e ( 础r !l i臻 | : 蓦| - _ ( - 呻籀磊 ;i im u k h 电v 直1 :i !l 。 j 图2 1 多视角视频应用系统 t v 中山大学硕上学位论文 2 1 多视角视频的获取 传统的单通道视频都是由一个摄像机拍摄,如图2 2 即是一个单通道视频摄 像系统,图2 3 是常见的多视角视频摄像系统,是典型的获取多视角视频的方法, 根据摄像机之间的位置可以将其分为平行摄像系统和会聚摄像系统,分别如图 2 2 ( a ) 和2 2 ( b ) 所示【5 1 。 图2 2 单视角视频摄像系统 ( a ) 平行摄像系统( b ) 会聚摄像系统 图2 3 多视角视频摄像系统 2 2 多视角视频处理中的关键技术 多视角视频应用系统的关键处理技术主要有以下三个方面:多视角视频编 码、虚拟视点视图合成和立体显示。 6 2 2 1 多视角视频编码 与传统视频比较,多视角视频的数据量急剧增加,多视角视频的数据量随 多视角视频及其编码基础 着摄像机的数目增加线性增加,巨大的数据量使得它的存贮和传输变得十分困 难,为此需要对其进行高效的压缩。 视频是由一幅幅静止的图像构成,利用人眼视觉的短暂停留性,只要两帧图 像之间播放间隔的时间足够短,在人眼看来就是连续的活动画面。视频数据中存 在着大量的冗余,即图像的各像素数据之间存在极强的相关性。利用这些相关性, 一部分像素的数据可以由另一部分像素的数据推导出来,视频数据量就能极大地 压缩,有利于传输和存储。视频数据主要存在空间冗余、时间冗余。视频图像在 水平方向相邻像素之间、垂直方向相邻像素之间的变化一般都很小,存在着极强 的空间相关性,特别是同一景物各点的灰度和颜色之间往往存在着空间连贯性, 从而产生了空间冗余,常称为帧内相关性。在相邻场或相邻帧的对应像素之间, 亮度和色度信息也存在着极强的相关性。当前帧图像往往具有与前、后两帧图像 相同的背景和移动物体,只不过移动物体所在的空间位置略有不同,对大多数像 素来说,亮度和色度信息是基本相同的,称为帧问相关性或时间相关性。 多视角视频是多通道视频,需要在编码端同时对多路视频流编码。多视角视 频是对同一场景的不同角度的描述,各个视角视频中的场景只是角度不同少部分 覆盖区不同,有的物体仅仅是光线的差异,各视角间存在着很强的相关性,尤其 是在拍摄角度相差不是很大时,这种相关性更强,称为视角间的相关性。对多视 角视频进行高效压缩编码,就是最大程度地去除多视角视频的帧内相关性、帧间 相关性以及通道间相关性【5 1 。 2 0 0 1 年,国际标准化组织的m p e g ( i s 伽e cj t c l s c 2 9 厂w g l lm 0 v i n g p i c t u r ee n c o d i n gg r o u p ) 工作组成立了3 d 音视频( 3 w ) 特别研究小组,其首 要任务就是定义3 d 音视频领域的范围和应用场景,并为其中的关键技术制定标 准。多视角视频编码技术是3 d 视频及其应用的关键技术,是在3 d 音视频框架 下,近年来迅速崛起和快速发展的研究领域。3 d 音视频工作组目前正在制订有 关多视角视频编码的标准,对多视角视频编码的性能提出了以下一些要求【6 胴: 1 编码压缩效率要高于各视角视频单独编码: 2 支持视角可分级; 3 可扩展自由视角,即允许访问部分数据以产生新的视角; 4 边解码低时延; 7 中山大学硕i :学位论义 5 支持不同分辨率,q c i f 、c i f 到h d 格式,支持y u v 4 :2 :0 格式; 6 支持时间轴上的随机访问; 7 可随机访问某一视角; 8 可对解码端己解码帧有效管理,控制各帧有序输出; 9 支持对不同视角的并行处理。 2 。2 2 图像合成技术 在多视角视频的应用系统中,观看者可以在一定范围内选择任意的观察地 点和角度观看视频内容。在多视角视频采集端,可以根据需要放置一系列摄像机: 如果让观众在3 6 0 。任何一个角度都可以选择观看场景,则需要将摄像机围绕场 景摆放成一个圆圈;如果观众只需要较小角度的选择范围,则可将摄像机在场景 前摆放成一个半圆或者弧形甚至是直线。由于受存储和传输条件限制,不可能在 所有位置都放上一个摄像机,只能在一些采样点上放置摄像机进行拍摄,然后利 用两个或者多个采样点上摄像机的视频和摄像机参数信息合成中间视点的图像。 如图2 4 ( a ) 所示,场景周围放置了1 2 个摄像机进行拍摄。在接收端,如果不采 用任何技术,观看者只能从1 2 个不同的地点和视角进行选择。如图2 - 4 ( b ) 所示, 通过图像合成技术合成1 2 个虚拟视点的图像后,观看者就可以从2 4 个不同的地 点和视角中进行选择【8 】 17 1 。 8 视图合成 黝黝燃燃参 麓虚拟合成视点 一真箕泊撬视点 ( a ) 1 2 个摄像机对场景进行拍摄( b ) 接收端合成1 2 个虚拟摄像机的视图 图2 4 视图合成技术的应用简介 2 2 3 立体3 d 显示技术 :辽体显示技术的原理较简单,只需要将立体图像对的左右图像分别呈现给 多视角视频及其编码基础 人的左右眼。根据两眼得到相应图像采用的技术不同,可以将立体显示技术分为: 辅助立体显示技术和自动立体显示技术【9 1 。在辅助立体显示技术中,需要在双眼 之前使用特制装备来分开左右图像的光线,然后呈现给双眼。在自动立体显示技 术中,通过控制光线方向使左右图像的光线分别到达左右双眼。 在辅助立体显示系统中,主要的光线分离办法有颜色滤波分光法、偏振光 分光法、分时显示法等,其中偏振光分光法是戴眼镜观看方式中图像质量最好的 一种方法,也是最常用的方法。在偏振光立体显示系统中,将用于供左、右两眼 观看的图像分别用偏振方向正交的两个偏振光投射到人眼,观看时戴上一副过滤 偏振光的眼镜,使两眼分别看到各自所需的图像。显示器可用两个显像管组成, 在每个荧光屏前加一块只能透过一个方向偏振光的极化板,两个荧光屏的夹角为 9 0 0 ,它们发出的偏振光通过与两个荧光屏都成4 5 。角的半反射镜投射到观看者的 眼镜上,或者在两组电视投影管前分别加一块极化板,用互相垂直的偏振光向同 一个屏幕上投射出左右两眼的图像。 在自动立体显示系统中,左右视点图像在空间上进行复合,观察者不用佩 戴特制眼睛以及其它任何辅助设备,直接用肉眼观看显示屏。目前常用的自动立 体系统有视差光栅立体显示系统和凸透镜阵列立体显示系统。视差光栅立体显示 系统的原理【1 0 】如图2 5 所示,立体图像对分别占用显示屏的奇列或偶列,每只眼 睛通过适当的光栅条纹观看对应的图像,从而感觉到3 d 效果。凸透镜阵列立体 显示系统的原型1 1 】如图2 6 所示,这时光线方向通过透镜折射来控制。 髟一l 。 多“ 5 : 图2 5 视差光栅立体显示系统的原理 。 l c d 9 中山大学硕上学位论文 f i a 卜 d l s p i 图2 6 凸透镜阵列立体显示系统的原理 2 3 多视角视频技术的应用 多视角视频已被认为具有广泛的应用前景,这里介绍一下最有可能推广的两 种应用【1 2 1 :自由视点电视( f r e e v i e w p o i n tt e l e v i s i o n ) 和3 d 电视( 3 dt e l e v i s i o n ) 。 2 3 1 基于多视角视频的自由视点电视 在自由视点电视应用中,用户可以在摄像机阵列的拍摄范围内自由改变观看 电视的角度。图2 7 为日本n 丌公司c y b e fs p a c e 实验室提出的自由视点电视的 解决方案【1 3 l ,从图中可以看出,自由视点电视系统主要模块有:多视角视频采集、 多视角视频编码、码流传输、多视角视频解码和视点合成等模块。为降低多视角 视频的数据量,自由视点电视系统中通常使用较为稀疏的摄像机阵列,因此在解 码器端得到稀疏视点图像后,需要根据用户需要的视角合成新的图像。在自由视 点电视中,用户只需要部分的视点图像来合成当前虚拟视点的图像,因此,解码 器只需要解码该部分视角图像,这就需要多视角视频的码流具有一定“部分视角 解码的功能。 1 0 多视角视频及其编码基础 图2 7 自由视点电视方案 2 。3 2 基于多视角视频的3 d 电视 3 d 电视可以认为是目前已有立体电影的扩展。在立体电影中,所有观众看 到的是同样的立体画面;而在3 d 电视中,不同位置的观看者看到的画面内容是 不一样的,每个观众看到的都是对应于其位置的立体画面。图2 8 是三菱实验室 ( m i t s u b i s h ie l e c t r i cr e s e a r c hl a b o r a t o r y ,m e r l ) 提出的针对多路立体视频的解 决方案【1 4 】。该方案在视频采集端由硬件同步的1 6 台摄像机组成,1 6 台摄像机近 似排列在一条直线上,它们的光轴几乎垂直于一个图像平面;然后对1 6 路视频 信号进行编码传输,编码方法为各路视频采用m p e g 2 分别进行独立实时编码; 接收端的服务器将接收到的视频流解码后送入自动3 d 显示系统,用户不需要通 过眼镜或者头部跟踪进行观看,当解码得到的视频数目或者位置和3 d 显示系统 的配置不一致,需要采用虚拟视点合成的方法来产生合适位置的视图。 中山人学顾l :学位论文 搓像机处理i 压缩砖输( 电褫信道、互联网等)解礓搏韦l最云能d 或者3 d ) - 飘巨 酬导茸巷、口 , : 、, i 二 罐目震 贰e 巷。 j n - l 寸f t 一 - 1 h 1h i 一l r 。 、,一 视! 螺曼视蝴鸦降输 图2 8m e r l 的3 d 电视系统 2 4 多视角视频编码的基本方法与分类 2 4 1 多视角视频编码的基本方法 捩最小矛 丝韦j 芎 一匠; k v 显示 通过一定的编码方法减少表示某一图像序列的数据量,这些编码方法我们称 为视频( 图像) 压缩编码。压缩编码的理论基础是信息论,从信息论的角度看, 压缩就是去掉信息中的冗余,即保留不确定的信息,去掉确定信息。 对于多视角视频编码来说,并不是对各通道分别采用高效的单通道视频编 码,就可以达到很好的压缩效果。因为多视角视频编码除了要考虑每个通道帧内 图像的空间冗余度和帧间图像之间的时间冗余度外,还要考虑通道间图像之间的 空间、时问冗余度。 现有的方法中基本有以下几类1 15 j : 1 基于各种标准的多视角视频编码方法 如基于m p e g 2 、m p e g 一4 、h 2 6 4 等标准的多视角视频编码方法。此类方 法基本利用各标准的编码技术,可以对多视角视频进行编码。编码方案常采用运 动估计与视差估计相结合的方法。主通道作基于各标准的简单编码,对其余通道 中的每个图像块通过运动估计和视差估计两种方式进行预测,从r 。f l 选择误差较小 的一种作为预测结果。本文采用基于h 2 6 4 标准的多视角视频门i 缩编码,内容 1 2 多视角视频及其编码基础 详见第三章。 2 基于小波的多视角编码方法 随着j p g e 2 0 0 0 标准的问世,许多学者开始把小波变换用于图像编码。此 种方法提出了小波变换结合正交投影的静止图像编码方案,它先对图像进行一级 正交可分离小波分解,然后在小波域内用亮度差平方和进行立体匹配。最后,对 其他通道图像用质量可分级的子空间正交投影法压缩。这种利用小波变换的压缩 方法与j p e g 2 0 0 0 兼容,压缩比较高。 3 各种基于视差补偿技术的多视角视频编码 此类方法的着重点是视差补偿预测技术。大多采用先进的视差分割和快速视 差匹配算法。充分利用视差信息实现对目标图像帧的有效分割与匹配,并采用相 适应的视差向量编码方案。 4 基于三角形网格的多视角视频编码方法 此方法首先对参考图像进行自适应的三角形网格剖分,然后对三角形顶点在 目标图像中进行视差矢量估计。最后利用三角形模型和参数仿射变换计算三角形 内部各点的视差矢量,并产生残差图像。 2 4 2 多视角视频编码的分类 与单通道视频编码方法相类似,多视角视频的编码也可以分为基于块的方 法和基于对象的方法【1 5 】。 1 基于块的多视角视频编码 基于块的多视角视频编码主要使用基于块匹配的视差估计算法,它把主通道 的图像当作参考图像,对它进行单独编码;对于其余通道的图像,先分块,块的 大小可以是固定尺寸的,也可以是可变尺寸的。然后每个块以某种准则在主通道 图像中找到其最佳的匹配块,两者之间的位置差异就是视差矢量。基于块的多视 角视频编码最重要的环节是视差的匹配估计算法,视差估计的准确程度直接影响 整个编码的精度和效率。 基于块的编码方法的优点是算法简单、稳健性高,易于硬件实现,但会出 现块效应,在低比特率下重建图像的主观视觉效果很差。 1 3 中山入学硕二 :学位论文 2 基于对象的多视角视频编码 作为m p e g 4 独有特色的基于视频对象的编码,其核心思想是:将用户感兴 趣的视频对象( v o ) 从场景中分割、提取出来进行单独编码、分配给较多的码 流,对其余不重要的部分给予较少的码流,以显著提高编码效率。主观测试表明, 人眼对立体图像中的视觉干扰比单通道图像更敏感。和基于块的多视角视频编码 相比较,基于对象的算法利用了多视角图像对中隐含的3 d 深度( d e p t h ) 信息, 通过建立和编码物体的三维模型来有效提高编码效率,减轻了方块效应的影响, 提供了一种更自然的场景表述,尤其是在低码率下有较好的重建图像质量。 基于对象技术首先在单通道视频编码中得到深入的研究,在多视角视频编码 中的研究还很有限。因为这种方法需要复杂的图像分析过程,其中的许多环节, 如:物体分割、物体建模等还不成熟,目前只能适用于一些运动简单、背景单一 的图像。视频对象的分割和提取是基于对象法的关键问题,但这在单通道基于对 象编码中就是一个未得到很好解决的问题,对于多视角视频编码来说更是新兴的 研究课题。 2 5 多视角视频压缩性能评价标准 多视角视频与单通道视频编码评价标准相似,只是需要进行各个通道视频间 各种性能指标的进一步比较。 评价视频压缩算法性能的主要依据利8 】:编码率( 即压缩率) 、客观质量和主 观视觉质量。 ( 1 ) 编码率压缩率 编码率可以简单定义如下:在一定的帧率下,为表示压缩后的视频信号,所 需的每秒平均比特数( b p s ) 。此外,还可以使用每像素的平均比特数( b p p ) 和每帧 的平均比特数( b p f ) 作为编码率的测度。本文采用平均比特率( b p s ) 表示码流速率。 ( 2 ) 客观质量 视频压缩和视频处理的开发人员主要依靠的是客观标准,峰值信噪比p s n r ( p e a ks i g n a ln o i s er a t i o ) 是最常用的方法,见公式( 2 1 ) ,它是原图像与处理 图像之间均方误差相对于的对数值,n 是每个采样值的比特数,是信号最大值的 平方。它是原图像与处理图像之间均方误差相对于( 2 ”一1 ) 2 的对数值( 信号最大 1 4 多视角视频及其编码基础 值的平方,n 是每个采样值的比特数) 觋1 1 0 1 0 9 。譬 ( 2 1 ) 峰值信噪比的计算简单而快速,因而它在视频压缩和解压缩的质量评估方面 广受欢迎。 ( 3 ) 主观视觉质量 主观视觉质量表示测试者对图像的主观评价,很难由公式或数字表示。有的 压缩算法可能造成较大的客观失真而主观视觉质量却较好,发生这种情况主要是 由于此算法产生的失真主要集中在人眼不敏感的区域或频率范围内;而有的算法 产生的如平坦区域块状效应、轮廓效应等表现为较小的客观失真,然而人眼却能 很容易察觉。因此实际中常常会出现客观失真与主观测试质量不相符的情况,所 以需要两者互为补充,进行综合评价。 除了以上主要的评价指标,对一个压缩算法的性能还可以从以下几方面评 价:计算复杂度、延迟、所需内存大小、可分级能力和抗误码能力等。 2 6 本章小结 本章首先对多视角视频的获取、多视角视频处理中的关键技术及多视角视频 的应用进行了简单的介绍,然后介绍了几种基本的多视角视频编码方法,最后对 多视角视频编码中相关的评价准则进行说明。 1 5 基于h 2 6 4 的多视角视频编码方法 第3 章基于h 2 6 4 的多视角视频编码方法 h 2 6 4 标准是i t u t 的v c e g ( 视频编码专家组) 和i s 伽e c ( 国际标准化 组织国际电工委员会) 的m p e g ( 活动图像专家组) 联合开发的一种高效的视 频编码压缩标准,它既是n u - t 的h 2 6 4 ,又是l s o l e c 的m p e g 4 的第1 0 部 分。h 2 6 4 是目前最新和编码效率最高的视频压缩标准,h 2 6 4 编码效率的提高 不只是其中某一项新的编码技术所产生的决定性的结果,而是多种新技术所产生 的细微的效果积累所致。h 2 6 4 集中了以往标准的优点,并吸收了标准制定中积 累的各种经验。它即能很好地工作在没有延时限制的应用( 如视频存储和以服务 器为基础的视频流式应用) ,又能适应于低延时的实时通信的应用( 如视频会议 等) 。与h 2 6 3 + 或m p e g 4 相比,h 2 “在大多数码率下能持续提供较高的视频 质量并且最多可节省5 0 的码率【1 5 】1 1 6 】。 和普通的单通道视频相比,多视角视频是由多个摄像机从不同角度拍摄得到 的视频信号,多视角视频一般有多个视频通道,是多通道视频,数据量要远远大 于单通道视频,n 个视角的多视角视频其数据量是单通道视频的n 倍。多视角视 频几倍于目前普通视频的数据量,如果不采用有效的压缩编码技术,其有效的传 输和存储将是不可能的,所以必须充分利用空间、时间和视角间的信息冗余,采 用运动补偿预测、视差补偿预测技术,对多视角视频数据进行高效的压缩编码。 同以往视频编码标准如m p e g 2 、m p e g 4 、h 2 6 3 等相比,h 2 6 4 在编码效率 上有了很大的提高,所以在h 2 6 4 上实现多视角视频编码,更有可能突破多视角 视频在存储和传输上的难关。 3 1 新一代视频编码标准一h 2 6 4 简介 和已往的视频标准一样,h 2 6 4 仍然采用了预测结合变换的基于块的混合编 码方案,通过帧内帧间预测和运动补偿来消除视频序列中的时空域冗余,经过 变换编码消除频域冗余,基本的功能模块,如预测,变化,量化,熵编码都没有 发生根本的变化,但由于在各个模块上采用了许多新的编码技术和工具,因此比 以往标准明显提高了编码效率。在h 2 6 4 标准中,引入了“可变尺寸块运动估 1 7 中山大学硕卜学位论丈 计”、“1 4 象素精度的运动矢量”和“多参考帧选择 的方法,更好地消除了 图像序列的时间冗余;使用了基于方向的空域预测技术消除了图像的空间冗余; 使用基于内容的变长编码c a v l c ( c 0 n t e x t - a d a p t i v ev a r i a b l el e n 舀hc o d j n g ) 或 基于内容自适应的二进制算术编码c a b a c ( c o n t e x t - b a s e da d a p t i v eb i n a r y 心i t h m e t i cc o d i n 曲,进一步地提高了熵编码的效率。其编码框图如图3 1 所示【1 6 1 。 图3 1h 2 6 4 标准的编码框图 由图3 1 中可知,编码器包括两条数据流程路径,一条从左至右的预测编码 路径,另一条从右至左的重建路径。编码器的预测编码路径:编码器首先将每帧 输入图像划分成1 6 1 6 大小的宏块单位进行处理,按帧间预测i n t e r 或帧内预测 i n t r a 模式进行编码,产生一个预测宏块p 。若是i n t e r 模式,p 由一个或多个参 考帧中的像素值通过运动估计和补偿得到,参考帧在图中用f _ j 表示。若是i n t r a 模式,p 由当前帧内相邻宏块的己经经过编码、解码和重建的像素值预测得到, 在图中用心_ 表示。需要注意的是心_ 没有经过滤波,而参考帧中的数据,乞j 是滤波之后的值。当前宏块减去预测宏块p ,得到一个残差数据宏块仇。既通 过块变换和量化产生一系列量化系数x ,将这些量化系数重新排序后进行熵编码 得到编码系数,这些编码系数与解码所需要的其它信息如宏块的分块和预测模 式、量化步长、运动矢量的值等一起组成了压缩后的编码码流。码流按网络抽象 层n a u n e t w o r ka b s t r a c t i o nl a y e r ) 单元的格式打包以便存储或传输。 编码器的重建路径:量化系数x 除了要重新排序进行熵编码,还有另一路 基于h 2 6 4 的多视角视频编码方法 进行重建,经过反量化和反变换,产生一个重建的残差宏块d _ 。预测宏块p 与 d _ 相加,得到当前宏块的重建值l 俨_ 。由于量化造成信息损失。d _ 并不完全 等于仇,而有一定量的失真,因此相应的心_ 与一相比也有一定的失真。由于 划分成宏块的块匹配预测方式会造成最终的图像有块效应,因此重建值虹乞要 用一个滤波器处理,以去除块失真效应,得到解码图像,_ ,作为下一帧i n t e r 预 测的参考帧数据。 3 2 基于h 2 6 4 的多视角视频编码 与传统单通道视频相比,在多视角视频中,除了各个视频流内具有很强的空 间和时间相关性,各视角之间也具有一定的相关性,这些相关性是对多视角视频 进行高比率压缩的主要依据。在单通道视频编码标准中采用运动估计和运动补偿 技术去除时间相关性,与之对应,在多视角视频中也可以通过估计及其补偿的方 法去除视角间的冗余,由于是在不同视角间的估计和补偿,称为视差估计和预测, 因此结合视差和运动预测的编码方法是多视角视频编码的基本方法。从压缩效率 和编解码过程的复杂度方面考虑,视频压缩标准h 2 6 4 是目前编码效率最高的单 视角视频编码方法。根据这两点,视频联合专家组( j v t ) 提出了基于h 2 6 4 的 多视角视频编码方法,制定了联合多视角视频编码模型( j o i n tm u l t i v i e wv i d e o m o d e l ,j m v m ) ,使用h 2 6 4 的帧内方向预测和帧问多模式预测有效解除多视角 视频的空间相关性、时间相关性和视角间的相关性,其编码方框图如图3 2 所示。 在如图3 2 的编码方案中,帧内空间方向预测,运动补偿,整数变换,量 化,熵编码等重要模块都采用了与h 2 6 4 的技术。在h 2 “中采用了可变块尺 寸的运动估计大大提高了运动预测的效率,因此视差预测也采用了与运动估计一 样的多模式预测方法。从图中可以看出,基于h 2 6 4 多视角视频编码方法具有与 h 2 6 4 基本相同的编码结构,所不同的是增加了视差预测编码模式,在图中表示 为虚线的模块【8 1 【2 7 1 。 1 9 中山人学硕。 :学位论文 图3 2 基于h

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论