(通信与信息系统专业论文)基于mpeg4的视频分割和运动估计算法研究与设计.pdf_第1页
(通信与信息系统专业论文)基于mpeg4的视频分割和运动估计算法研究与设计.pdf_第2页
(通信与信息系统专业论文)基于mpeg4的视频分割和运动估计算法研究与设计.pdf_第3页
(通信与信息系统专业论文)基于mpeg4的视频分割和运动估计算法研究与设计.pdf_第4页
(通信与信息系统专业论文)基于mpeg4的视频分割和运动估计算法研究与设计.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(通信与信息系统专业论文)基于mpeg4的视频分割和运动估计算法研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

江苏大学硕七学位论文 摘要 摘要 随着人们对视频信息需求的日益增长,h 2 6 x 、m p e g 系列视频国际标准不断 被推出,我国也积极推动自己的音视频编解码标准( a v s ) 的制定,a v s 的视频 部分已于2 0 0 6 年3 月1 日开始实施。其中,由m p e g 组织制定的m p e g 4 标准是 一种基于“内容”的可交互性的第二代视频压缩标准,该标准在视频检索、视频 监控和口t v 等方面都具有良好的发展前景。本论文对m p e g - 4 的高级应用前提 视频分割和运动估计算法进行了分析和改进。 尽管m p e g _ 4 定义了视频对象的概念,但是却没有定义视频分割算法,因此本论 文对视频分割算法进行了研究和设计。首先,介绍了现有的几种视频分割算法,并对 其进行了分析。其中的对称差分法能准确快速地检测到运动物体,在实时性要求较高 的视频压缩中具有一定的优越性;但是该方法存在有时会提取不全或提取不出物体的 缺陷。然后,本论文在对称差分法的基础上提出了一种视频分割算法,加入运动估计, 还在对称差分法的中间处理过程二值图像的预处理中加入了双阂值法作去噪去 空洞处理。实验表明,本论文的算法解决了对称差分的缺陷,在运动信息不够明显的 情况下依然能够提取出整个物体,从而增强了对称差分法的健壮性。 运动估计算法不仅对本论文的视频分割有着很重要的意义,在整个的视频压缩算 法中也具有举足轻重的作用,是视频压缩中占用计算量最大的一部分。本论文接下来 介绍了运动估计算法原理,随后对几种经典的运动估计算法进行了描述和分析。 本论文在对标准视频序列进行深入分析之后,发现运动矢量的分布除具有中 心偏移性这一特点外,还具有另一重要特点,即在中心点水平和垂直方向上的分 布较其他方向的分布更为密集,据此本论文提出了一种符合该特点的运动估计算 法新十字形搜索算法( n c s ) ,将搜索模板改进为大小十字形。实验表明该算 法较之前的钻石搜索算法在图像质量和搜索点数方面均具优越性。 运动估计中除了运动搜索算法,起点的预测也是不可或缺的,本论文设计了一种 与n c s 相匹配的运动预测算法,首先将预测器的数量减少为n - c ,并采用比较精确 的比较法,然后根据自适应的阈值法来决定预测后采取的动作:是直接中止还是进入 不同的十字模板进行搜索。这一系列的改进进一步加强了n c s 算法的优势。 关键词:m p e g 一4 ,视频分割,运动估计,起点预测,新十字形搜索算法( n c s ) 江苏大学硕上学位论文 目录 a b s t r a c t w i t ht h eu s e r si n c r e a s i n gd e m a n do nv i d e oi n f o r m a t i o n , h 2 6 xm p e gs e r i e s v i d e os t a n d a r d sh a v eb e e ne s t a b l i s h e d o u rc o u n t r yh a sb e e nw o r k i n gi no i l l o w nv i d e o s t a n d a r dw h i c hi sc a l l e da v sa n di nw h i c ht h ev i d e op a r th a sb e e np u b l i s h e di nm a r c h 2 0 0 6 m p e g 一4i sav i d e oc o m p r e s s i o ns t a n d a r dw h i c hh a sc o n t e n t - b a s e df u n c t i o n a l i t i e s a n dp l a y sa ni m p o r t a n tr o l ei nt h ev i d e om o n i t o r , v i d e or e t r i e v a l i p t ve t c b a s e do n t h em p e g - 4s t a n d a r d ,t h i sp a p e rd o e sad e 印r e s e a r c ho nv i d e oc o m p r e s s i o na n dd e s i g n t w op a r t so f m p e g 4 - 1 ,i d e os e g m e n t a t i o na n dm o t i o ne s t i m a t i o n a l t h o u g hm p e g 4d e f i n e s “v i d e oo b j e c t o ) ”,t h ec o n c r e t em e t h o do fv o s e g m e n t a t i o nh a s n tb e e ne x p l a i n e d ,w h i c hb e c o m e st h et o p i ci n v e s t i g a t e d f i r s t ,t h i s p a p e ri n t r o d u c e sa n da n a l y s e ss o m ev i d e os e g m e n t a t i o nm e t h o d s a m o n gt h e s em e t h o d s , t h es y m m e t r i c a ld i f f e r e n c i n gc a ne x t r a c t e do b j e c t sq u i c k l ya n dv e r a c i o u s l y b u tt h i s m e t h o dh a sap r o b l e mt h a ti tc a n td e t e c to b j e c t si n t e g r a l l ya n de v e nc a n td e t e c to b j e c t s s o m e t i m e s s o ,t h i sp a p e rp r e s e n t sav i d e os e g m e n t a t i o nm e t h o db a s e do ns y m m e t r i c a l d i f f e r e n c i n g c o m b i n e d w i t h m o t i o ne s t i m a t i o n m e a n w h i l e ,t h e a d a p t i v e d o u b l e t h r e s h o l dm e t h o di su s e dt of i l lt h eh o l e sd u et on o i s ea n do b j e c t sm o v i n g t h e r e s u l to ft h ee x p e r i m e n td e m o n s t r a t e st h a tt h ep r e s e n t e da l g o r i t h m sc a nr e s o l v et h e p r o b l e mi ns y m m e t r i c a ld i f f e r e n c i n g m o t i o ne s t i m a t i o n ( m e ) i sa ni m p o r t a n tp a r tn o to n l yi nt h ev i d e os e g m e n t a t i o n p r e s e n t e di n t h i sp a p e rb u ta l s oi nm o s tv i d e oe n c o d i n gs y s t e m s ,s i n c ei tc a l l s i g n i f i c a n t l ya f f e c tt h es p e e da n do u t p u tq u a l i t yo fa ne n c o d e ds e q u e n c e f i r s t l yt h i s p a p e rs u m m a r i z e st h ep r i n c i p l eo fm o t i o ne s t i m a t i o nb r i e f l y t h e nd e s c r i b e sa n d a n a l y s e ss o m ec l a s s i cm o t i o ne s t i m a t i o na l g o r i t h m s b a s e do nt h es t u d yo ft h ev i d e os e q u e n c e s ,w ef i n dt h a tt h em o t i o nv e c t o r d i s t r i b n t i o nn o to n l yh a sac h a r a c t e r i s t i eo fz e r ob i a s e db u ta l s o h a sa n o t h e r c h a r a c t e r i s t i ct h a tt h ed i s t r i b u t i o ni sm o r ed e n s ei nt h ec r o s ss h a p ew i t h ( o ,o ) p o s i t i o n a st h ec e n t e r a c c o r d i n gt ot h ec h a r a c t e r i s t i c ,t h i sp a p e rp r e s e n t san e wc r o s ss e a r c h a l g o r i t h m ( n c s ) u s i n gb i ga n ds m a l lc r o s sp a t t e mi n s t e a do fd i a m o n dp a t t e r n s t h e r e s u l to ft h e e x p e r i m e n t d e m o n s t r a t e st h a tt h en c sm a n a g e sas i g n i f i c a n t l y i m p r o v e m e n t v e r s u sd si nb o t ht e r m so f q u a l i t yo f v i d e oa n ds p e e d b e s i d e st h es e a r c ha l g o r i t h m ,t h ei n i t i a ls e a r c hp o i n tp r e d i c t i o ni sv e r yi m p o r t a n ti n 塾塑塑墼一 旦垂 m o t l o ne s t l l l l a t i o n t h e r e f o r ea p r e d i c t i o na l g o r i t h mi sd e s i g n e df o rn c st h a tp r e s e m e d mt h i sp a p e ra b o v e , f i r s t ,t h i s p a p e rr e d u c e st h ep r e d i c t o r st ot w o ,a n dt h e ni td e c j d e s w h a tt od on e x ts t e pi na c c o r d a n c ew i t h t h ep r e d i c t i o nr e s u l t :w h e t h e re m e r t h ed i 髓r e n t p a t t e mo f m o t i o ne s t i m a t i o no rf i n i s ht h em o t i o ne s t i m a 石o n k e yw 。r d s : m p e g - 4 ,y i d e 。s e g m e n t a t i 。i l ,m o t i 。ne s t i m a t i o n ,i n i t i a ls e a r c h p 。i n t p r e d i c t i o n ,n c s ( n e wc r o s ss e a r c h ) 一1 1 1 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部 内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 本学位论文属于 保密口,在年解密后适用本授权书。 不保密 学位论文作者签名:谚灸恳 指导教师签名: 跏5 年, 月f 口日工却否年l 月1 f 日 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:修亥嫠 日期:h 年iz 月屑日 江苏大学硕士学位论文第1 章绪论 第一章绪论 1 1图像压缩编码的基本原理及其发展概况 人类通过视觉获取的信息量约占总信息的7 0 ,而且视频信息具有直观性、 可信性等一系列优点,使得人们对视频信息的需求与日俱增。但是未经处理的视 频数据量很大,因此在视频的存储和传输等方面都要求对其进行压缩处理。同时 视频信号存在很多的数据冗余、有很大的压缩余地,经压缩处理后视频质量的高 低也就成为决定多媒体服务质量的关键因素。因此,数字视频压缩技术是多媒体 计算机、多媒体数据库、多媒体通信、数字电视和交互式系统等多媒体应用的核 心技术,对视频编码的研究己成为信息技术领域的热门话题。 由于视频数据中存在很多冗余信息( 时间冗余、空间冗余) ,对视频数据进行 压缩来去除冗余便成为视频压缩技术的目的。例如,在多帧连续图像中,前一帧 图像与后一帧图像有很多重复的内容,而且每帧图像中的背景基本不变( 这被称 作时间冗余度) ;在一帧图像中,水平方向前一像素与后一像素,垂直方向上一像 素与下一像素的信号电平、色彩基本相似( 这被称作空间冗余度) 1 1 。因此没有必 要把每帧图像的全部数据进行传输,只需要把它们的变化部分进行传输,就可以 大大减少传输量,图1 1 为图像压缩模型。 编码器解码器 l 圈圈圈;l 匝固圈i 图1 1 图像压缩模型 伴随着视频编码相关学科以及一些新兴学科的迅速发展,新一代数据压缩技 术日益成熟,其编码思想由基于像素和像素块转变为基于内容( c o n t e n t b a s e d ) 。 它突破了仙农信息论框架的束缚,并充分考虑了人眼的视觉特性及信源特性,通 江苏大学颐t 学位论文 第1 章绪论 过去除内容冗余来实现数据压缩。这种压缩技术可分为基于对象( o b j e c t b a s e d ) 和基于语义( s e m a n t i c s b a s e d ) 两种,前者属于中层压缩编码,后者属于高层压缩 编码。 与此同时,国际上视频编码相关标准的制定也日臻完善。视频编码标准主要 由i t u t 和i s o i e c 开发:i t u t 发布的视频标准有h 2 6 1 、h 2 6 2 、h 2 6 3 、h 2 6 3 + 和h 2 6 3 + + ;i s o i e c 发布的m p e g 系列标准有m p e g 1 、m p e g 2 、m p e g 4 、 m p e g 7 和m p e g 2 1 ;以及i t u t 和i s o i e c 共同发布的标准m p e g 4 a v c ( 简 称a v c ,或h 2 6 4 ) 。 我国长期以来没有自主知识产权的数字音视频技术标准,数字音视频产业的 发展受到国外巨额专利费的困扰,因此国家信息产业部科学技术司于2 0 0 2 年6 月 批准成立了数字音视频编解码技术标准工作组( 简称a v s 工作组) ,目标是开发二一 套自主的音视频编码标准,定义为a v s 。a v s 标准是“信息技术先进音视频编码” ( a u d i oa n dv i d e oc o d i n gs t a n d a r dw o r k g r o u po f c h i n a ) 系列标准的简称,包括系 统、视频、音频三个主要标准和一致性测试等支撑标准,这是基于我国创新技术 和公开技术制定的开放标准。目前,该标准的第二部分视频【2 】已于2 0 0 6 年3 月1 日开始实施,其余标准还在制定或修正中。 1 2m p e g 国际标准 i s o ( i n t e r n a t i o n a ls t a n d a r d i z a t i o no r g a n i z a t i o n ) 是国际标准化组织的简称,它 成立于1 9 4 7 年2 月,最初目标是致力于“促进国际组织的对等和工业标准的统一”。 另一个成立于1 9 0 6 年的i e c ( i m e r n a t i o n a le l e c t r o t e c h n i c a lc o m m i s s i o n ) 是国际电工 委员会的简称,是国际上最早的标准化机构,目标是制定与电工、电子相关技术 的国际标准。另外,由i s o 和i e c 联合成立的i s o ,i e c 技术委员会j t c l ( j o i n t t e c h n i c a lc o m m i s s i o n ) 负责在信息技术中与计算机相关的各种标准化活动。 j t c l 下属的子委员会s c 2 4 负责有关计算机图形和图像处理的活动,子委员会 s c 2 9 负责有关音频、图像、多媒体和超媒体编码的相关任务,这两个子委员会都 与多媒体通信有关。s c 2 9 子委员会下设许多工作组,如w g l ( w o r kg r o u p1 ) 、 w g l l 、w g l 2 等。 m p e g 标准化组织【3 1 成立于1 9 8 8 年,实际上,m p e g 就是i s o 和i e c 所组成的 江苏大学硕上学位论文 第1 章绪论 j t c l 下的子委员会s c 2 9 的一个工作组w g l l ( 在正式文件上称为i s o i e c j t c l s c 2 9 w g l l ) ,其任务是研究低速率下的视频和音频编码标准方案。m p e g 是一系列标准,它是在市场需求的推动下,由i s o i e c 共同倡导完成或正致力于完 成的,包括m p e g 1 、m p e g 2 、m p e g - 4 、m p e g - 7 和m p e g 2 1 。其中每一项都是 一个独立的标准,侧重于不同的应用,前三者侧重于压缩,而m p e g 一7 和m p e g 一2 1 严格说来甚至已不能称之为压缩标准。 m p e g 一1 1 4 1 和m p e g 2 【5 】【6 1 是m p e g 组织制定的第一代视音频压缩标准,为 v c d 、d v d 及数字电视和高清晰度电视等产业的飞速发展打下了牢固的基础,曾 获得了著名的e m m y 奖;m p e g - 4 6 】【7 】是基于第二代视音频编码技术制定的压缩标 准,以视听媒体对象为基本单元,实现数字视音频和图形合成应用、交互式多媒 体的集成,目前已经在流式媒体服务等领域开始得到应用;m p e g - 7 注重于多媒体 数据基于内容的描述,是多媒体内容描述标准,支持对多媒体资源的组织管理、 搜索、过滤、检索,用于帮助运营者管理日益丰富的多媒体信息;而m p e g 2 1 n 更多侧重于与多媒体信息内容使用相关的诸多方面,重点是建立统一的多媒体框 架,为从多媒体内容发布到消费所涉及的所有标准提供基础体系,支持连接全球 网络的各种设备,透明地访问各种多媒体资源。 m p e g 图像编码包含三个成分:i 帧、p 帧和b 帧。在m p e g 编码过程中,一 些图像压缩成i 帧,一些压缩成p 帧,另一些压缩成b 帧。i 帧压缩可以得到6 :1 的压缩比而不产生任何可觉察的模糊现象。i 帧压缩的同时使用了p 帧压缩,可以 达到更高的压缩比而无可觉察的模糊现象。b 帧压缩可以达到2 0 0 :l 的压缩比, 其文件一般为i 帧压缩尺寸的1 5 ,不到p 帧压缩尺寸的一半,i 帧压缩去掉图像 的空间冗余度,p 帧和b 帧去掉时间冗余度。 i 帧压缩采用基准帧模式,只提供帧内压缩,即把帧图像压缩到i 帧时,仅仅 考虑了帧内的图像,压缩时没有除去帧间冗余度。帧内压缩采用了基于余弦变换 的压缩方法,类似于j p e g 中使用的静态图像压缩技术。 p 帧采用预测编码,利用相邻帧的一般统计信息进行预测。也就是说,它考虑 运动特性,提供帧间编码。p 帧预测当前帧与前面最近的i 帧或p 帧的差别。 b 帧为双向帧间编码,它从前面和后面的i 帧或p 帧中提取数据。b 帧基于当 前帧与前一帧和后一帧图像之间的差别进行压缩。 江苏大学硕b 学位论文 第1 章绪论 目前,m p e g 系列国际标准已经成为影响最大的多媒体技术标准,对数字电 视、视听消费电子产品和多媒体通信等信息产业的重要产品产生了深远影响。 1 3m p e g - 4 标准的主要内容 m p e g 4 的第l 版完成于1 9 9 8 年,第2 版完成于1 9 9 9 年。初始的名称是甚低比特 率音频视频编码,之后定义为音视频目标编码。码率限制的消失意味着更宽广的 适用码率范围,而把音视频编码转变为对音视频对象的编码则是工作目标质的飞 跃。m p e g 4 标准支持7 个新的功能,可粗略划分为3 类:基于内容的交互性、高压 缩率和灵活多样的存取模式。凭借着出色的性能,m p e g 4 技术目前在多媒体传输、 多媒体存储、低比特率下的多媒体通信、实时多媒体监控以及基于内容存储和检 索的多媒体系统方面都具有良好的应用前景。 m p e g 一4 不同于过去的m p e g 0 2 或h 2 6 x 系列标准,其压缩方法不再局限于 某种算法,可以根据不同的应用进行系统剪裁和选择。为此,m p e g 4 提供了一个 包含各种工具和算法的工具箱,给出各种形状可视对象的高效表达式。可用于各 种图片和视频的高效压缩;各种纹理( 映射在各种2 d 和3 d 网格上) 的高效压缩: 各种隐含的2 d 网格的高效压缩;各种网格动画时变几何流的高效压缩;所有类型 可视对象的高效随机访问;各种图片和视频序列的扩充操作功能;纹理、图片和 视频的基于内容的可伸缩性;空域、时域和质量的可伸缩性;误码环境下的坚韧 性和恢复能力。 在选择算法工具时,专家们对m p e g 4 进行了大量的核心试验:对于运动估 计,试验了全局运动补偿、2 d 三角网格预测和亚像素预测;对于帧纹理编码,对 比了小波变换、3 d d c t 、重叠变换、高级的帧内编码和可变块尺寸分割;对于任 意形状区域纹理编码,研究了贴补d c t 、形状自适应d c t 、延拓了内插d c t 、 小波子带编码和中值替换d c t ;对于误差的坚韧性,尝试了重新同步、分层结构 和误差掩盖,以求进一步改进甚低码率视频编码的质量。 m p e g - 4 与m p e g 1 2 不同之处还在于,m p e g 一1 2 中输入、进行编码的图像 区域是标准矩形区域,而m p e g 4 引入了视频对象面( v i d e oo b j e c tp l a n e v o p ) 的概念,因此可以是任意形状区域。如果m p e g 4 中输入的图像序列没有分解成 一系列不同形状的视频对象平面,而是传统的矩形区域,m p e g 4 就不必对v o p 江苏大学硕 学位论文 第1 章绪论 的形状信息进行编码,那么该编码过程就和m p e g 一1 2 一样了,图1 2 就说明了这 一点。 ,勰僵 m p e o 4 甚低比特率视频核编码嚣 外形编码运动编码 i 图1 2m p e g 一4 甚低码率编码与通用编码 比特流 由此可以看出m p e g - 4 的“基于内容”的编码方法可以看作是m p e g 1 2 编 码的扩展。 为了高效地降低图像信号的时间冗余度,m p e g - - 4 使用了基于块的运动估计和 补偿技术。它主要采用3 种图像类型: ( 1 ) i - v o p ( i n t r av o p ) ,它是不采用基准图像的编码而产生的图像。 ( 2 ) p v o p ( p r e d i c t e dv o p ) ,它采用上一个i - v o p 或上一个p v o p 来进行 补偿预测。 ( 3 ) b v o p ( b i d i r e c t i o n a l l y p r e d i c t e dv o p ) ,它采用前面和后面的i - v o p 或 p v o p 作基准,进行运动补偿预测编码。 为了提高传输效率,m p e g 一4 采用了“子图像”预测和编码技术,它把静止的 背景作为“子图形”,首先发往收端,作为第一帧同时存储于编码器与解码器内, 再利用摄像机的移动、旋转和缩放,摄取背景前出现的视频对象,最后将其分开 进行编码,形成视频序列进行传送,进而实现重建原来的图像。这种技术对实现 多媒体数据十分有利,可以改善图像质量。 总之,m p e g - 4 标准的提出,特别是它的“基于内容”的思想,将极大的推动 多媒体交互业务的发展,为更多的更新的交互业务开拓了广阔的空间。 1 3 1 形状编码 作为第二代视频压缩标准,为了编码各种形状的对象,m p e g - 4 引入了形状信 江苏大学硕t 学位论文 第1 章绪论 息编码,视频对象( v i d e oo b j e c t ,v o ) 的形状信息有两类:二值形状信息和灰度 形状信息。二值形状信息用0 、1 来表示v o p 的形状,0 表示非v o p 区域,1 表 示v o p 区域。二值形状信息编码采用基于运动补偿块技术,可以是无损或有损编 码。灰度形状信息用0 - - 2 5 5 之间的数值来表示v o p 的透明度,其中0 表示完全透 明( 相当于二值形状信息中的o ) ,2 5 5 表示完全不透明( 相当于二值形状信息中 的1 ) ,灰度形状信息的编码采用基于块的运动补偿d c t 方法( 同纹理编码相似) , 属于有损编码。目前标准中采用矩形形式来表示二值或灰度形状信息,称之为位 图( 或阿尔法平面) 。 而传统的矩形图在m p e g - 4 中被看作是v o 的一种特例,这正体现了传统编 码与基于内容编码在m p e g 4 中的统一。v o 概念的引入,更加符合人脑对视觉信 息的处理方式,并使视频信号的处理方式从数字化进展到智能化,从而提高了视 频信号的交互性和灵活性,使得更广泛的视频应用及更多的内容交互成为可能。 因此,v o p 视频编码技术被誉为视频信号处理技术从数字化进入智能化的初步探 索。 1 3 2 运动编码 类似于现有视频编码标准,m p e g 4 采用运动预测和运动补偿技术去除图像信 息中的时间冗余度,而这些运动信息的编码技术可视为现有标准向任意形状的 v o p 延伸。v o p 编码有3 种模式,即帧内( i n t r a f r a m e ) 编码模式( i v o p ) ,帧 间( i n t e r f r a m e ) 预测编码模式( p - v o p ) 和帧间双向预测( b i d i r e c t i o n a l ) 编码模 式( b v o p ) ,其帧结构关系如图1 3 所示。 图1 3 帧结构关系 在m p e g 4 中运动预测和运动补偿可以是基于1 6 x 1 6 像素宏块( m a c r o b l o c k ) , 江苏大学硕上学位论文 第1 章绪论 或8 x 8 像素块。为了能适应任意形状的v o p ,m p e g - 4 引入了图像填充( i m a g e p a d d i n g ) 技术和多边形匹配( p o l y g o nm a t c h i n g ) 技术。图像填充技术利用v o p 内部的像素值来外推v o p 外的像素值,以此获得运动预测的参考值;多边形匹配 技术则将v o p 轮廓宏块的活跃部分包含在多边形之内,以此来增加运动估计的有 效性。 在运动估计方面,m p e g 4 的校验模型( v m ) 中采用了全局运动补偿、块补 偿、重叠运动补偿、2 d = 角形网络预测、半像素预测、重叠填充和多边形匹配等 运动预测与补偿技术,它对预测误差和宏块运动矢量同时进行编码。对于v o p 内 部宏块,作半像素预测等类似于h 2 6 3 标准的运动预测与补偿;对于v o p 边界宏块, 利用v o p 内部的像素值推算出其外部的像素值,把v o p 填充为多边形,然后进行 多边形匹配运动预测与补偿,运动矢量的搜索范围可覆盖到v o p # f 部区域。 此外,m p e g - 4 采用6 参数仿射运动变换来进行全局运动补偿,支持静态或动 态的s p r i t e 全局运动预测。对于连续图像序列,可i 由v o p 全景存储器预测得到描 述摄像机运动的6 个全局运动参数,利用这些参数来重建视频序列。 1 3 3 纹理编码 m p e g _ 4 视频的纹理信息可以表示为亮度成分y 和两个色度成分c ,、g 。帧内 编码情况下,纹理信息包含有亮度和色度成分;运动补偿情况下,纹理信息表示 经过运动补偿后的参差。 编码方法基本上仍采用基于8 x 8 像素块的d c t 方法。在帧内编码模式中,对 于完全位于v o p 内的像素块,采用经典的d c t 方法;对于完全位于v o p 之外的 像素块则不进行编码;对部分在v o p 内,部分在v o p 外的像素块,则首先采用 图像填充技术来获取v o p 之外的像素值,之后再进行d c t 编码。帧内编码模式 中还将对d c t 变换的d c ( 直流分量) 及a c ( 交流分量) 系数进行有效的预测, 在帧间编码模式中,为了对b v o p 和p v o p 运动补偿后的预测误差进行编码,可 将那些位于v o p 活跃区域之外的像素值设为1 2 8 。此外,还可以采用s a d c t ( s h a p e a d a p t i v ed c t ) 方法对v o p 内的像素进行编码,该方法可在相同码率下 获得较高的编码质量,但运算的复杂度稍高。变换之后的d c t 系数还需经过量化 ( 采用单一量化因子或量化矩阵) 、扫描及变字长编码,这与现有标准基本相同。 m p e g 4 视频标准中的静态纹理编码技术采用j p e g 2 0 0 0 中的离散小波变换技 江苏丈学硕 学位论文 第1 章绪论 术,将矩阵分为一个d c 子带和三个a c 子带,然后再对d c 子带进行离散小波变换。 与基于d c t 变换的纹理编码相比可以提供更好的可分级性,其中的d c 频段系数和 a c 频段系数单独编码。小波系数的量化、编码过程采用零树编码方法和算术编码 方法。 1 3 4 视频编码可分级性技术 视频编码的可分级性( s c a l a b i l i t y ) 是指码率的可调整性,即视频数据只压缩 一次,却能以多个帧率、空间分辨率或视频质量进行解码,从而可支持多种类型 用户的各种不同应用要求。 m p e g 一4 通过视频对象层( v o l ,v i d e oo b j e c tl a y e r ) 数据结构来实现分级编 码。m p e g 4 提供了两种基本分级工具,即时域分级( t e m p o r a ls c a l a b i l i t y ) 和空 域分级( s p a t i a ls c a l a b i l i t y ) ,此外还支持时域和空域的混合分级。每一种分级编码 都至少有两层v o l ,低层称为基本层,高层称为增强层。基本层提供了视频序列 的基本信息,增强层提供了视频序列更高的分辨率和细节。 在随后增补的视频流应用框架中,m p e g - 4 提出了f g s ( f i n eg r a n u l a r i t y s c a l a b l e ,精细可伸缩性) 视频编码算法以及p f g s ( p r o g r e s s i v ef i n eg r a n u l a r i t y s c a l a b l e ,渐进精细可伸缩性) 视频编码算法。 f g s 编码实现简单,可在编码速率、显示分辨率、内容、解码复杂度等方面 提供灵活的自适应和可扩展性,且具有很强的带宽自适应能力和抗误码性能。但 还存在编码效率低于非可扩展编码及接收端视频质量非最优两个不足。 p f g s 则是为改善f g s 编码效率而提出的视频编码算法,其基本思想是在增 强层图像编码时使用前一帧重建的某个增强层图像为参考进行运动补偿,以使运 动补偿更加有效,从而提高编码效率。 1 4 基于内容的视频压缩技术研究现状 传统的图像编码方法根据信源编码理论的框架,将图像作为随机信号,利用 其随机特性来达到压缩目的。这种方法本身未能考虑信息获取者的主观意识和主 观特性,未能考虑事件本身的特性,如具体含义、重要性以及后果等等。但正是 由于信源编码理论的限定使得传统的图像编码具有较高的概括性和综合性,基于 矩形帧编码的传统视频编码标准( h 2 6 1 i - 1 2 6 3 、m p e g 一1 m p e g 一2 ) 在实际应用中 - 8 江苏大学硕七学位论文第1 章绪论 获得了巨大成功。然而m p e g - 4 并不满足于此,它的目标在于采用现代图像编码 方法,利用人眼视觉特性,抓住图像信息传输的本质,从轮廓、纹理的思路出发, 支持基于视觉内容的交互功能。而实现基于内容交互功能的关键在于基于视频对 象的编码,为此m p e g - 4 引入了视频对象面( v o p ) 的概念。在这一概念中,根 据人眼感兴趣的一些特征,如形状、运动、纹理等,将图像序列中每一帧中的场 景,看成是由不同v o p 所组成,同一对象连续的v o p 称为视频对象( v o ) 。v o 可以是视频序列中的人物或具体的景物,例如电视新闻中的播音员,或是电视剧 中一辆奔驰的汽车,也可以是计算机图形技术生成的二维或三维图形,图1 4 为 m p e g - 4 基于内容图像编码方法的简化原理图。 图1 4 基于内容的图像编码方法 为了支持基于内容的功能,编码器可对图像序列中具有任意形状的v o p 进行 编码。尽管如此,编码器内的机制都是基于1 6 x 1 6 像素宏块来设计的,这不仅是考 虑现有标准的兼容问题,而且是为了便于对编码器进行更好的扩展。v o p 被限定 在一个矩形窗口内,称之为v o p 窗口( v o pw i n d o w ) ,窗口的长、宽均为1 6 的 整数倍,同时保证v o p 窗口中非v o p 的宏块数目最少。标准的矩形帧可认为是 v o p 的特例,在编码过程中其形状编码模块可以被屏蔽。 从矩形帧到v o p ,m p e g 4 顺应了现代图像压缩编码的发展潮流,即从基于 像素的传统编码向基于对象的现代编码的转变。从这个意义上讲,m p e g - 4 视频编 江苏大学硕士学位论文第1 章绪论 码技术翻开了图像编码史上崭新的一页。 1 4 1 视频分割技术 随着m p e g 一4 基于内容的提出以及m p e g 7 标准的不断推广和应用,视频对 象分割技术已成为视频处理领域中的研究热点。 与m p e g 1 2 相比,m p e g 一4 在视频的表示形式上有着根本的不同。m p e g 一4 所 涉及的视频码流不再是那种从一个传感器来的信号码流,而是“视频对象( v 0 ) ”。 这意味着一幅人的画面不再是人和背景在相机焦平面上的投影,而是由人和背景 两个分离的视频对象组成,每个对象都有自己的时间和空间信息。m p e g 4 还引入 了v o p 的概念,主要用于视频对象的分割和合成。视频对象和视频对象平面都是 码流中用户可以存取和操作的实体。 在m p e g - 4 中,视频分割的目的就是将视频序列的每一帧分割成任意形状的、 在语义上有意义的区域,用区域的纹理、轮廓、运动信息来描述分割出的视频对 象面,使之成为独立的码流进入m p e g 4 编码器,从而提高视频压缩编码率并能实 现基于视频内容的交互操作。虽然m p e g 4 标准引入了视频对象的概念,但m p e g 组织并没有制定如何将现有的数字视频序列分割成视频对象,因此对视频分割的 研究是m p e g 4 及m p e g 7 能被应用的基础。由于现有的各种视频对象分割算法的 局限性,导致m p e g 一4 标准中可交互性操作的要求并没有完全实现。 1 4 2 运动估计技术 和之前的视频压缩标准类似,m p e g 一4 采用运动预测和运动补偿技术来减少时 间冗余度,有所不同的是由于v o p 的引入,使得m p e g 一4 标准把这种运动信息延 伸到了任意形状v o p ,引入了图像填充技术和多边形匹配技术。 1 ) 多边形匹配 多边形匹配用在运动估计的块匹配时候,主要利用形状信息,对一个宏块内 而且是v o 内部的点才计算在内,对于外部的点就不计算。也就是说对于v o p 边 缘块就采用多边形匹配。匹配公式如下: s a d u ( x ,j ,) = i o r i g i n a l - p r e v i o u s + ( ! ( a l p h a o , , s , , , a t o ) ) t = l ,j = l 2 ) 重复填充技术 江苏大学硕士学位论文第1 章绪论 由于在运动估计时是以矩形块为单位的,因此在对任意形状的v o p 进行运动 估计前要先对v o p 进行处理,将任意形状的v o p 扩展为矩形,那么这个扩展的 过程就叫做重复填充技术。在重复填充之前要先对参考v o p 加一个1 6 x 1 6 大小的 边框,边框的大小要可把对象全部包含在内的最小的框。 l2 3 厂 、y 。飞 图1 5 参考v o p 和当前v o p 由图1 5 可以看出,当前v o p 形状内部点未必是参考v o p 形状内部点,如第 4 位置宏块,当前块中不透明区域大于参考帧中不透明部分,在运动估计时就要用 到参考帧中的透明部分像素,而这些透明像素是没有定义的,这时就需要对透明 像素进行处理,处理的办法就是重复填充技术。重复填充要先对v o p 以外而矩形 框以内的点进行填充。 在m p e g - 4 简单框架编码中,边界扩展技术如下:边界处的点可以直接用相 邻的水平或垂直边缘块来填充,但是如果一个外部宏块和多于一个的内部宏块相 邻,那么采用最大优先数的宏块进行填充,一个外部宏块的四周宏块的优先顺序 为下、右、上、左。剩余的不和任何内部宏块相邻的宏块用1 2 8 来填充。 在运动估计算法方面,m p e g 4 标准对于其描述更加开放,它允许使用各种高 效运动估计算法,推荐使用m v f a s t l 9 1 ,p m v f a s t 1 0 1 ( 见4 5 节) 。 1 5 本文的主要工作与成果及章节安排 在攻读硕士的期间,作者阅读了大量的关于视频压缩算法的资料,并参加了 一个视频压缩开发项目,对视频压缩技术及其算法有了较深的理解和研究,为本 文的撰写打下了基础。 本文基于国际标准m p e g 一4 对运动估计算法和视频分割算法进行了改进,其 江苏大学硕t 学位论文第1 章绪论 具体工作和成果主要为: 1 、将运动估计加入到视频分割中,提出了一种基于对称差分法的视频分割算 法,该算法更具有普遍适应性。 2 、在对视频序列进行进一步分析后,提出一种效果更好的搜索算法一新十 字形搜索( n c s ) 算法。 3 、设计了一套和n c s 相匹配的运动预测算法,允许运动估计在预测阶段就 中止,加强了n c s 的优越性。 本论文的结构安排如下所示: 第一章,作者对视频标准的发展及其特点进行了介绍,尤其是m p e g 一4 算法, 并引出了本文的研究背景及其意义,最后介绍了本论文的结构安排。 第二章,作者对视频分割算法对m p e g - 4 标准的意义以及研究现状进行了介 绍,并对几种现有的视频分割算法进行了分析,为下一章算法的提出打下了基础。 第三章,作者针对原有的对称差分法中存在的局限性进行了改进,将运动估 计算法加入到其中,从而解决了对称差分法在一些运动不明显的情况下提取不全 或提取不出对象的问题,并通过实验证明改进后的算法有更好的鲁棒性。此外, 在对二值图像额度处理上,作者对已有的算法迸行了改进,采用双阂值法进行滤 波,既能有效的去除噪声点又能填补二值图像中的空洞。 第四章,作者对运动估计算法在整个视频压缩算法中的重要性进行了说明, 介绍了几种经典的运动估计算法,并进行了比较分析。 第五章,作者首先对视频序列的分布特点作了较深入的分析;然后根据分布 特点,提出了一种新的搜索算法;最后通过实验证明,该算法能在保持图像质量 的前提下更有效的减少搜索次数。除此之外,作者还对视频序列中块与块之间的 相关性进行了分析,在此基础上对原有的预测算法进行了改进,选用更少的预测 候选器,采用比较法和预测时即终止的方法,再一次提高了搜索精度并减少了搜 索时间。 1 6 本章小节 本章首先介绍了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论