(通信与信息系统专业论文)基于dsp的mpeg4视频压缩算法研究及实现.pdf_第1页
(通信与信息系统专业论文)基于dsp的mpeg4视频压缩算法研究及实现.pdf_第2页
(通信与信息系统专业论文)基于dsp的mpeg4视频压缩算法研究及实现.pdf_第3页
(通信与信息系统专业论文)基于dsp的mpeg4视频压缩算法研究及实现.pdf_第4页
(通信与信息系统专业论文)基于dsp的mpeg4视频压缩算法研究及实现.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西北工业人学硕一f :学位论文摘要 摘要 现今数字时代,已经逐步成熟的m p e g 一4 视频压缩标准以其低比特率、高 压缩性很好地满足了数字化多媒体信息的传输,在数字电视、可视电话、实 时多媒体监控、移动多媒体通信,网络视频服务器等交互多媒体系统中得到 了广泛应用。 m p e g 一4 是基于对象的多媒体视频压缩编码标准,采用第二代编码技术, 近年来,在视频压缩领域得到了极大关注。目前利用嵌入式系统实现m p e g 一4 视频编码成为研究的热点和难点,其主要原因是嵌入式系统具有集成度高, 价格低廉,性能稳定,使用方便等优点,同时m p e g 一4 具有压缩算法复杂,视 频数据处理量大,实时性要求高等特点。数字信号处理芯片以其高精度、快 速度、小功耗、高并行性,易于集成等优点被越来越广泛地用作各类嵌入式 系统的核心处理器。本文的研究服务于应急救援多媒体通信系统,以t id s p t m s 3 2 0 c 6 2 11 构建硬件平台核心,实现基于m p e g - 4 标准的视频采集压缩。 论文首先对m p e g 一4 视频压缩标准和核心技术进行简单介绍,对标准中提 出的关键算法,包括d c t 变换、量化、运动估计、运动补偿、游程编码、算 术编码等进行深入研究,实现一个基于p c 的m p e g 一4 编码器。 其次对此编码器进行d s p 平台移植优化。在成功移植的基础上,进行算 法优化,包括结合c 6 2 1 1 的指令结构和硬件特点,进行算法结构调整,对部 分算法进行改进,例如运动估计中的钻石搜索算法,量化中的m p e g 量化算法 等;利用统计分析工具,对算法中比较耗时的部分进行线性汇编改写。最终 在d s p 平台下,实现一个满足一定需求的m p e g 一4s i m p l ep r o f i l e 级别编码 器,对此编码器进行测试,给出统计结果。 最后对视频采集压缩硬件平台、系统控制逻辑以及此编码器应用领域进 行简单介绍。 关键词: m p e g 一4 ,v o p ,t m s 3 2 0 c 6 2l l ,线性汇编,c p l d 两北工业大学硕,l :学位论文 a b s t r a c t a b s t r a c t i nt h ec u r r e n td i g i t a ld a y s ,t h eu n r e m i t t i n g l yd e v e l o p i n gm p e g - 4s t a n d a r d w e l lm e e t st h et r a n s i m i s s i o no fd i g i t a lm u l t i m e d i ai n f o r m a t i o no w i n gt oi t st o wb i t r a t ea n dh i g hc o m p e n s a t i o n i tg a i n sa ne x t e n s i v eu s ei nt h ei n t e r a c t i v em u l t i m e d i a f i e l d ,s u c ha sd i g i t a l t e l e v i s i o n ,v i d e ot e l e p h o n e ,r e a l t i m em u l t i m e d i ai n s p e c t i n g , m o b i l em u l t i m e d i ac o m m u n i c a t i o na n dn e t w o r kv i d e os e r v e r m p e g - 4i sav i d e oc o m p r e s s i o ns t a n d a r db a s e do no b j e c t ,w h i c hu s e st h e s e c o n dg e n e r a t i o nc o d i n gt e c h n o l o g ya n dh a s b e e np u tm o r ea n dm o r ea t t e n t i o ni n t h ev i d e oc o m p r e s s i o nf i e l d 。n o w a d a y s ,t h er e a l i z a t i o no fm p e g 一4v i d e o e n c o d i n gb a s e do ne m b e d d e ds y s t e mb e c a m e st h eh o t s p o ta n dn o d u so fc o r r e l a t i o n s t u d y ,s i n c e t h ee m b e d d e dv i d e o e n c o d i n gs y s t e m n o t o n l y c o n t a i n st h e c h a r a c t e r i s t i co f h i g h i n t e g r a t i o nd e n s i t y , l o w c o s t ,h i g hp e r f o r m a n c e a n d c o n v e n i e n c eu s e ,b u ta l s ot h em p e g 一4c o m p r e s s i o na l g o r i t h mh a st h ed e f i c i e n c y o fc o m p l e x i t ya n dt h eh i g hr e a lt i m er e q u i r e m e n t d i g i t a ls i g n a lp r o c e s s o ri su s e d a sm a i nc p ui nk i n d so fe m b e d d e ds y s t e m si n c r e a s i n g l yo na c c o u n to fi t sh i g h a c c u r a c y ,h i g hs p e e d ,l o wp o w e rd i s s i p a t i o n ,p a r a l l e l i s ma n dh i g h i n t e g r a t i o n d e n s i t y t h er e s e a r c hw o r ko ft h i sp a p e ri s i nt h es e r v i c eo fm u l t i m e d i ar e s c u e c o m m u n i c a t i o ns y s t e m ,w h i c hb r i n g sf o r w a r da ne n c o d e rb a s e do nt h ec 6 0 0 0 s e r i e sd s po ft i ( t m s 3 2 0 c 6 2 1 1 ) a n dr e a l i z e st h em p e g 4v i d e oc o m p r e s s i o n 。 f i r s t l y , t h ep a p e rg i v e sa no u t l i n eo ft h ev i d e oc o m p r e s s i o n a n db a s i l i c t e c h n o l o g i e so fm p e g 一4s t a n d a r d 。i ti n t r o d u c e st h es i g n i f i c a n ta l g o r i t h m s o f m p e g 一4 ,i n c l u d i n gd c t , q u a n t i z a t i o n ,m o t i o ne s t i m a t i o n ,m o t i o nc o m p e n s a t i o n , r u n l e n g t he n c o d i n ga n da r i t h m e t i cc o d i n g s e c o n d l y ,i tb r i n g s t o s u c c 。e s s a m p e g 一4e n c o d e rb a s e do np cp l a t f o r m ,t h e nt h ee n c o d e ri st r a n s p l a n t e da n d o p t i m i z e do nd s pp l a t f o r m 。t h i r d l y ,a c c o r d i n gt ot h er e s u l t so fs t a t i s t i c a lt o o l s , t h ea l g o r i t h m so ft h ee n c o d e rw h i c hc o s tn u m e r o u sc p uc y c l e sa r er e p l a c e dw i t h a s s e m b l ec o d e s 。t h ea l g o r i t h ms t r u c t u r ei sa d j u s t e da c c o r d i n gt ot h eh a r d w a r e c h a r a c t e r i s t i c so fc 6 211a n dac e r t a i nn u m b e ro ft h em p e g 一4a l g o r i t h ma r e i m p r o v e d ,f o ri n s t a n c e ,t h ed i a m o n ds e a r c ha l g o r i t h mi nm o t i o ne s t i m a t i o np a r t a n dt h em p e g q u a n t i z a t i o na l g o r i t h mi nq u a n t i z a t i o np a r ta r ei m p r o v e d m o r e o v e r , t h ep a p e ra c c o m p l i s h sam p e g * 4s i m p l ep r o f i l ee n c o d e ro nd s pp l a t f o r m ,w h e r e t h ec o m p r e s s i v ep e r f o r m a n c eo ft h ee n c o d e ri st e s t e da n da n a l y s e d f i n a l l y ,i t t a k e sas i m p l eo v e r v i e wo ft h eh a r d w a r ed e s i g n ,m a i n l yi n c l u d i n gt h el o g i cc o n t r o l p a r ta sw e l la st h ea p p l i c a t i o na r e ao ft h ee n c o d e r 。 k e y w o r d s :m p e g 一4 ,v o pt m $ 3 2 0 c 6 2 11 ,l i n e a ra s s e m b l e ,c p l d 两北工业火学硕i j 学位论文笫一章绪论 第一章绪论 1 1 研究背景 当今世界已跨入信息时代,信息的形式也从单纯的语音发展到包括数据、文 字,视频图像的多媒体信息。其中多媒体信息和互联网已成为人类获取信息的最 主要载体,多媒体信息经数字化处理后具有易于存取、播放、抗干扰能力强、可 再生中继等优点,但同时也伴随海量数据的产生,这对信息存储设备及通信网络 均提出了很高要求n 1 。视频信号高数据量问题是多媒体通信技术发展中的一个瓶颈 问题,依靠单纯扩大存储器容量、增加通信线路传输率的办法来解决是不现实的。 但是在允许图像有少量失真的情况下进行数据压缩,除去图像中的冗余信息量, 不会对图像信息的完整性产生破坏作用,这样会使存储量减少,传输速度加快, 因此图像视频信号的压缩具有重大的研究意义。 本论文服务于国家可视化应急救援通信系统研发任务。此系统克服了传统的 救援通信设备存在信息量有限,不包括视频信息,不能全面准确反映现场各种实 际情况,导致救援指挥不畅;不具有记录、回放功能;不能为以后进行事故原因 分析、总结抢险过程的经验和教训提供基础资料等不足之处。基于m p e g - 4 和d s p 的视音频处理模块用来完成对救援现场视音频信号的实时采集和压缩,并为信号 上传做准备,是应急救援多媒体通信系统中的重要组成部分。 1 2 视频压缩技术的发展 视频压缩技术的研究已有几十年的历史,从基本原理看可以分为两大类:第 一类方法是基于速率一失真理论的。此类方法中,视频图像序列利用在空间上和 时间上取样得到一组象素( 灰度、彩色) 值来表示;而压缩的方法则是采用一般信号 分析的方法来消除数据中的冗余,最终使得用来表示图像的一组数据是互不相关 的。对于这些方法,重要的是了解信源的统计特性,而不关心图像的具体内容, 也不考虑或很少考虑人眼的视觉特性。因此,此类方法被称为基于象素的压缩方 法,也称为第代图像压缩编码方法i 2 ji _ 3 j o 第二代图像压缩编码方法是在8 0 年代中期正式出现的。这类方法充分利用人 眼的视觉特性和图像信息源的各利,特征来进行编码。根据人眼对物体轮廓比对物 体内部细节敏感的特点,利用内容( 对象) 来表示图像,而不再是单纯的象素。 并且对象是按轮廓信息将某一特定图像分割成的若干区域,每区域可以看成一 个整体,其内部细节具有相同的特性( 狄度信息、纹理信息、运动速度、运动矢 量等) ,然后对这些分割的小区域再分别进行编码。这类编码技术比第一代编码技 术要有效的多,目日订i f 处于研究,发展中 4 1 、 西北工业人学硕l 二学位论文第一章绪论 近年来,由于视频市场的大力牵引和电子技术的飞速发展,各种各样视频压缩 和数据压缩的算法应运而生。国际运动图像编码专家组( m p e g ) 是i s o i e c 下负责 开发运动图像,音频及其组合的压缩,解压缩,处理和编码的国际标准的一个工 作组,开发了m p e g 1 ( 视频及其伴音存储标准i s o i e c l l l 7 2 ,其码率约1 5 m b s ) , m p e g 2 ( 数字电视标准i s o i e c l 3 8 1 8 ,其码率可达1 0 m b s ) 及m p e g 4 视频压缩标 准。另一个国际化组织i t u ( 前国际电报电话咨询委员会c c i t t ) 也制定了面向通信 的h 2 6 1 ,h 2 6 3 ,h 2 6 4 等视频压缩标准。 在m p e g 4 制定之前,m p e g 1 ,m p e g 2 ,h 2 6 1 ,h 2 6 3 都是采用第一代压 缩编码技术,着眼于图像信号的统计特性来设计编码器,属于波形编码的范畴。 这些编码标准把视频序列按时间先后分为一系列帧,每一帧图像又分成宏块以进 行运动补偿和编码,这种编码方案存在以下缺陷:将图像固定地分成相同大小的 块,在高压缩比的情况下会出现严重的块效应,即马赛克效应;不能对图像内容 进行访问,编辑和回放等操作;未充分利用人类视觉系统( h v s :h u m a n v i s u a ls y s t e m ) 的特性【5 1 。 m p e g 4 则属于基于模型对象的第二代压缩编码技术【lj ,它充分利用了人眼 视觉特性,抓住了图像信息传输的本质,从轮廓,纹理思路出发,支持基于视觉 内容的交互功能,这适应了多媒体信息的应用由播放型转向基于内容的访问,检 索及操作的发展趋势。它采用面向对象的压缩方式,根据图像内容,将其中的对 象( 物体、人物、背景) 分离出来分别进行帧内、帧问编码压缩,并允许在不同 的对象之间灵活分配码率,对重要的对象分配较多的字节,对次要的对象分配较 少的字节,从而大大提高了压缩比,使其在较低的码率下获得较好的效果。m p e g 4 是一种崭新的低码率、高压缩比的视频编码标准,传输速率为4 8 6 4 k b i t s 1 j 【5 j 。 1 3 数字信号处理器( d s p ) 的发展 数字信号处理器( d s p ) 发展历程大致分为7 0 年代的理论先行、8 0 年代的产 品普及、9 0 年代的突飞猛进三个阶段。1 9 8 2 年世界上诞生了首枚d s p 芯片。这种 d s p 器件采用微米工艺n m o s 技术制作,虽然功耗和尺寸稍大,但运算速度却比 m p u 快了几十倍,尤其在语音合成和编码解码器中得到了广泛应用。8 0 年代中期, 随着c m o s 技术的进步与发展,第二代基于c m o s 工艺的d s p 芯片应运而生,其存 储容量和运算速度都得到成倍提高,成为语音处理、图像硬件处理技术的基础。 现今的d s p 属于第五代产品,它与第四代相比,系统集成度更高,将d s p 芯核及外 围元件综合集成在单一芯片上。这种集成度极高的d s p 芯片不仅在通信、计算机领 域大显身手,而且逐渐渗透到人们日常消费领域【6 1 。 t i 作为d s p 行业丌发领军人物,生产的t m s 3 2 0 c 6 0 0 0 系歹i j d s p 与m o t o r o l a 公司 的m c 9 6 0 0 2 系歹t j d s p ,a d i 公司推出了b l a c k f i n 系歹i j d s p ,e q u a t o r 公司的b s p 1 5 系 列d s p ,都是丽向实时图像视频处理领域 七有运算速度很高的核心部件。例如 西北工业大学硕二i j 学位论文第一章绪论 t l 公司的2 0 0 0 年3 月发布的c 6 4 x x 系y l j d s p i 内核,主频达到1 1 g h z ,处理速度接近 9 0 0 0 m i p s ,总体性能l l c 6 2 x x 提高了1 0 - - - 1 5 倍。其中,c 6 4 1 6 在6 0 0 m h z 的主频下, 只利用5 0 的运算能力就可以同时进行单通道m p e g 4 视频编码、单通道m p e g 一4 视频解码的处理,获得2 0 0 2 年3 月美国e d n 杂志的“2 0 0 1 年度创新大奖”。当前d s p 器件大都采用0 5 m - 0 3 5艺,按照 的发展趋势,的运算速, u m c m o s ic m o s d s p 度再提高1 0 0 倍( 达到1 6 0 0 g i p s ) 是完全有可能的。 目前,m p e g 4 压缩算法的实现已经成为世界范围内研究热点,国内外基于 m p e g 4 的产品已成功开发,但是用于实现m p e g 4 编码算法的集成芯片还存在种 类少,价格昂贵,性能有待检测等等不足,同时数字信号处理芯片以其高精度、 快速度、小功耗、高并行性,易于集成等优点被越来越广泛地用作视频监控系统, 数字电视,p d a 等各类嵌入式或便携式系统的核心处理器。所以基于高级d s p 的 m p e g 4 实现研究非常广泛且具有实际应用价值。 1 4 研究工作及论文内容 本文的主要研究目的是:理解m p e g 4 标准视频压缩部分,包括m p e g 4 压 缩中离散余弦变换( d c t ) 、量化、熵编码、预测编码、运动估计、运动补偿等关 键算法。基于p c 和v c 平台实现一个m p e g 4 实时视频编码器;针对t i t m s 3 2 0 c 6 2 1 1 处理器硬件结构,存贮空间,指令集等特点,对m p e g 4 编码器在 c c s 上进行移植,采用各种优化方法进行优化,包括结构调整,算法改进,线性 汇编,多字节存取等,最终实现一个基于t m s 3 2 0 c 6 2 1 1 的视频编码器;对此视频 编码器硬件平台进行熟悉,完成视频采集a d 配置和系统c p l d 控制程序,最后 对应用领域进行介绍。 第一章:介绍论文研究背景,视频压缩标准和d s p 技术的现状及发展过程。 第二章:对m p e g 4 标准整体框架,m p e g 4 视频压缩特点等进行介绍。 第三章:对m p e g 4 标准中视频压缩部分进行深入分析,重点介绍视频压缩 中核心算法和核心内容。 第四章:t m s 3 2 0 c 6 2 1 1 平台下,对m p e g 4 视频编码器进行优化,包括所 用到的优化方法,优化步骤以及对m p e g 4 视频压缩中关键算法的改进与优化。 第五章:实现基于p c 和基于t m s 3 2 0 c 6 2 1 1 平台下的m p e g 4 编码器,对编 码器进行测试,给出压缩效果,并对硬件平台进行介绍,对系统控制代码进行介 绍分析。 西北工业火学硕j :学位论文 第二隶低比特率j 矗缩标准m p e g 4 第二章低比特率压缩标准m p e g - 4 传统的视频压缩标准都是基于象素的,以香农信息论为理论基础,将图像作 为随机信号输入,按时间将视频序列分成单独的帧,根据图像数据的统计特性, 以象素为基本单位进行压缩。随着视频技术在计算机中的不断发展,通信、计算 机和广播业的迅速融合,人们对于视频序列又提出了更高的要求,要求能够进行 交互,能够根据内容进行处理。在这种需求之下提出了利用人类视觉系统的特性, 根据视频图像的内容进行压缩的方法。m p e g 4 标准就是一个面向对象的视频压缩 标准。 2 1m p e g 4 标准概述 2 1 1m p e g 。4 标准组成 m p e g 4 视频压缩编码国际标准是m p e g 组织于1 9 9 9 年制定的新一代面向对 象的视频压缩标准【6 】。它制定的初衷是针对视频会议、可视电话等超低比特率压缩 编码的需求。但在整个m p e g 4 标准的制定过程中,m p e g 组织感受到了人们对 多媒体信息,特别是视频信息的需求由播放型转向基于内容的访问、检索和操作, 所以及时地调整了m p e g 4 的研究方向,从单一的追求高压缩率转为更多的强调 多媒体通信的交互性,灵活性以及多产业领域的融合。1 9 9 9 年2 月m p e g 4 第一 版正式面世,1 9 9 9 年底m p e g 4 第二版宣告完成,于2 0 0 0 年初成为国际正式标准。 m p e g 4 标准由以下几个部分组成8 j1 9 j 。 1 d m i f ( t h e d e l i v e r ym u l t i m e d i ai n t e g r a t i o nf r a m e w o r k ) 。即多媒体传送 整体框架,它主要解决交互网络中、广播环境下多媒体应用的操作问题。通过传 输多路合成比特信息来建立客户端和服务器端的交互和传输。 2 数据平面。m p e g 4 中的数据平面分为两部分:传输关系部分和媒体关系 部分。为了使基本流和a v ( a u d i o v i s u a l ) 对象在同一场景中出现,m p e g 4 7 i 用了 对象描述( o d ) 和流图表( s m t ) 的概念。o d 传输与特殊a v 对象相关基本流的 信息流图;s m t 负责连接每个流和其实际传送信道的联系标签,实现流的顺利传 输。 3 缓冲区管理和实时识别。m p e g 一4 定义了一个系统解码模式( s d m ) 。该 解码模式通过有效地管理,可以更好地利用有限的缓冲区空间。 4 音频编码。m p e g 4 不仅支持自然声音,而且支持合成声音。 5 视频编码。与音频编码类似,m p e g 一4 电支持对自然和合成的视觉对象的 编码,合成的视觉对象包括2 d ,3 d 动面和人面部表情动画等。 6 场景描述。主要用于描述筹a v 对象在一具体a v 场景坐标下,如何组织与 西北工业火学硕小学位论文 第二二章低比特率压缩标准m p e g 4 同步等问题。 2 1 2m p e g 4 标准主要功能 m p e g 4 不再是一个单纯的视频音频编解码标准,它将内容与交互性作为核 心,从而为多媒体数据压缩提供了一个更为广阔的平台。它提供了一系列技术来 满足视听内容的提供者,网络服务商和最终用户的要求。它的主要目标在于【1 】: 提供用于6 4 k b i t s 以下甚低比特率的音视频编码。不仅适用于移动通信和 个人通信,也适用于固定公用通信网和电视电话。 适用于窄带多媒体通信等广泛的应用。 实现基于内容的压缩编码,具有良好的兼容性、伸缩性和可靠性。 总体来讲,m p e g 一4 采取以功能为基础的策略,即并不针对任何特殊的应用, 而是力图尽可能地支持对多种应用均有帮助的功能组。m p e g 4 支持的功能可分为 三类: 1 基于内容的交互性 基于内容的操作和码流编辑:使用者可在图像或比特流中选择一具体的对象 ( 例如:图像中的某个人、建筑物等等) ,随后改变它的某些特性。 自然与合成数据的混合编码:提供将自然视频图像与合成数据有效结合的方 式( 如文本、图形等) ,同时支持交互性操作。 随机存取:提供有效的随机存取方式,在有限的时间间隔内,可按帧或任意 形状的对象,对音频、视频序列进行随机存取。例如以一序列中的某个音、视频 对象为目标进行“快进”搜索。 2 高压缩率 高编码效率:m p e g 4 提供的主观视频质量要优于已有的或是其它在制定中 的标准。一般的说,m p e g 4 的压缩倍数高达1 0 0 倍。这一功能可望在迅速发展的 移动通信网中获得应用。 对多个并发数据流编码:m p e g 4 将提供对一景物的有效多视角编码,加上多 伴音声道编码及有效的视听同步。 3 通用存取 错误易发环境中的抗错性:m p e g 4 将提高抗误码能力,尤其是在易发生严重 错误的低比特应用环境下( 移动通信链路) 。 基于内容的尺度可变性:给图像中的各个对象分配优先级,比较重要的对象 用较高的时间或空间分辨率表示。基于内容的尺度可变性是m p e g 4 的核心,因 为图像中所含对象的f | 录及相应的优先级确定后,其他的基于内容的功能就比较 容易实现了。对甚低比特率应用来说,尺度可变性是一个关键的因素,它提供了 自适应使用可用资源的能力,可以最有效的利用有限资源。 西北工业大学硕: :学位论文第二章低比特率压缩标准m p e g 4 2 2m p e g - 4 标准的特点 m p e g 4 代表了基于模型对象的第二代压缩编码技术,它充分利用了人眼视 觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,支持基于视觉内 容的交互功能。a v 对象( a v o ,a u d i ov i s u a lo b j e c t ) 是m p e g 4 为支持基于内 容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵的实体,对象 的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。因此m p e g 4 标准的基本内容就是对a v 对象进行高效编码、组织、存储与传输。a v 对象的提 出,使多媒体通信具有高度交互及高效编码的能力,a v 对象编码就是m p e g 4 的 核心编码技术【剐。 m p e g 4 标准与m p e g 1 、m p e g 2 、h 2 6 x 相比具有以下的创新点: 1 m p e g 4 标准的编码是基于对象的,这样就便于操作和控制对象,而传统 的压缩方法是基于象素的,无法操作对象。当传输带宽受限时,必须对压缩比进 行控制,这个因素会直接影响图像的压缩质量。过去在比特率低时,整帧图像的 质量都要受到影响,没有灵活性可言,而m p e g 4 可以控制比特率,在低带宽时, 利用码率控制算法,为用户感兴趣的对象多分配一些比特率,对用户不太感兴趣 或者不太敏感的区域分配少一些比特率,这样可以保证在视觉接受的范围内图像 的主观质量不受太大影响。 2 m p e g 4 的面向对象的操作,可以使用户在用户端对各种不同对象进行合 成,不同于传统方法中的只能对自然图像进行操作。 3 m p e g 。4 可以灵活地进行时域和空域的扩展。可以根据传输带宽客观条件 和误码率的要求,在时域和空域上进行扩展。时域扩展是指在带宽允许时可以在 图像基本层之上的增强层中再增加帧率,加强主要对象的编码效果,在带宽较窄 时在基本层中减少帧率。空域扩展是指对基本层中的图像进行采样插值,根据带 宽的大小进行图像空间分辨率的增加或减少。通过扩展,可以充分利用带宽,使 图像质量达到更好。 2 3m p e g 4 视频流的描述 2 3 1m p e g 4 视频流分层描述的语法结构 m p e g ,4 引入了视频对象v o ( v i d e oo b j e c t ) 的概念,v o 是视频场景中的任 意的一块区域,它的存在时间可以任意长,视频对象平面( v o p - v i d e oo b j e c tp l a n e ) 是每一具体时刻的视频对象。这样就可以将图像每一帧中的场景,看成是由不同 视频对象的v o p 组成的,同一对象连续的v o p 称为v o 。视频对象可以是视频序 列中的人或具体的景物,如讲台上的老师,或者河水中运动的小船,也可以是计 算机技术合成的二维或者三维图形。m p e g 一4 的观频码流提供了对视频场景的分层 西北工业火学倾士学位论文第二章低比特率压缩标准m p e g 4 描述。层次结构中的每一层都可以通过定义的特殊码字( 标示码) 从视频流中识 别出来,m e p g 4 码流分层结构如图2 1 所示。 图中各层语法结构描述如下。 1 视觉对象序列( v i s u a lo b j e c ts e q u e n c e ) :是m p e g 4 视频流的最高语法结 构,标准中规定由v i s u a lo b j e c t十六进制比特串“1sequence s t a r tc o d e ( 0 0 0 0 0 1 8 0 开始,他描述一个完整的m p e g 4 场景,可以包括任何二维和三维自然或合成对 象以及它们的增强层。 v s l v o l 掣一竺竺二兰:丹舞二1 l l 图2 1m e p g - - 4 码流层迩结构图 2 视频对象( v i d e oo b j e c t ,v o ) :一个视频对象对应场景中的一个任意形状 的特定对象。视频对象由视频对象起始码标注开始,后跟一个或多个视频对象层, 是用户可以访问和处理的实体。 3 视频对象层( v i d e oo b j e cl a y e r ) :根据应用的具体要求,每一个视频对象 都可以用分级或不分级的方式进行编码,用视频对象层来表征。视频层提供了对 分级编码的支持,一个视频对象可利用空间或时间可伸缩性进行编码使分辨率从 粗糙到精确。 4 视频对象平面( v o p ) :某一帧的v o 就是v o p , 编码就是针对该时刻的v o p 形状、运动、纹理信息进行的。 2 3 2m p e g 一4 的编码内容 m p e g 4 的编码、解码过程是基于v o p 进行的,编解码原理见框图2 2 。输入 视频序列通过分析可将其分割为多个视频对象,对同一v o 编码后形成v o p 。接 收端对编码后各个v o p 进行解码,解码后通过视频对象合成,恢复出所传输的图 西北工业火学顾j :学位论文第二章低比特率压缩标准m p e g 。4 像序列。其核心部分v o p 的编码不仅采用了和以前的m p e g 标准类似的纹理编码 方法( d c t ,量化等) ,而且由于v o p 可具有任意的形状,所以要求编码系统可 处理形状( s h a p e ) 信息,这和只能处理矩形帧序列的传统视频编码标准相比有很 多不同之处。因此,在m p e g 4v o p 编码中,还提出了形状信息编码和运动编码 等,对这些编码方式简单介绍如下。 压缩解压 图2 2 基于v o p 的m p e g 一4 视频编码框图 形状编码 在m p e g 4 中,引入形状信息编码,并且是首次将其纳入完整的视频编码标 准内。编码的形状信息分为两类:二值形状信息和灰度级形状信息。二值形状信 息就是用0 、1 的方式表示编码的v o p 的形状。1 表示v o p 形状区域,0 表示非 v o p 区域。灰度级形状信息用0 - - - 2 5 5 来表示,其中0 表示非v o p 区域( 即透明 区域) ,1 2 5 5 表示透明程度不同的v o p 区域,2 5 5 表示完全不透明。正是由于 m p e g 4 采用了二值形状编码和灰度级编码的方法,使得各种基于视频对象的功能 应用成为可能。 运动编码 类似于现有的视频编码标准,m p e g 4 采用运动预测补偿技术去除图像信息中 的时间冗余度,同m p e g 1 、m p e g 2 标准中定义的三种帧格式i 帧、p 帧、b 帧 一样,m p e g 4 中也定义了三种相应帧格式:i - v o p 、p v o p 、b v o p ,分别表 示不用预测帧、进行前向运动补偿、进行双向运动补偿获得的v o p 。图2 3 表明 了v o p 帧的分类及预测方式。 两北工业大学硕j :学位论文第二章低比特率压缩标准m p e g 4 图2 3 i , b ,p 帧结构 此外,m p e g 4 还提出了s - v o p ( 全景v o p ) 用来编码s p r i t e 对象,s p r i t e 对象 是m p e g 4 中一种重要的对象类型,它是针对背景对象的特点提出的。s p r i t e 是指 在一段视频序列中所有可见的、属于某一视频对象的象素所组成的图像。通常情 况下,背景对象自身没有任何运动,图像序列中的背景变化是由摄像机的运动和 前景物体的运动造成的,通过图像的镶嵌技术把整个序列的背景图像拼接成一个 大的完全的背景图像,这个图像就叫做s p r i t e 图像。 s p r i t e 编码能够显著地提高编码效率,尤其是在视频会议、视频电话及视频监 控等场景固定或背景变化很少的应用中更加有效。s p r i t e 图像只需要编码传输一次 并存储在解码端,随后的图像只需要传输摄像机相对于背景的运动参数,就可以 从s p r i t e 上恢复所有的图像的背景。 纹理编码 纹理编码是为了消除图像空间信息的冗余性,对于帧内编码的v o p ( i v o p ) 或帧间编码的v o p ( b v o p p v o p ) 进行运动补偿后的残差信息再次采用8 8 的 d c t 来进行编码。帧内编码是针对独立的v o p 进行,对完全属于v o p 内的区域 采用经典d c t 来编码;对属于v o p 边缘的宏块区域首先使用填充技术进行填充, 再进行d c t 编码;对于帧间编码模式,对经过运动补偿后的残差进行编码,可将 v o p 形状之外的块用1 2 8 填充。经过填充、变换后的d c t 系数还要对其进行量化、 扫描、熵编码等。 2 4m p e g 4 的框架和级 m p e g 一4 提供了大量的工具对视频对象编码,能够满足各种各样的应用需要。 为了有效地实现这个标准,m p e g 4 针对不同的应用需求,定义了一些m p e g 一4 系统、视频、音频的子集。这些子集被称为框架( p r o f i l e s ) ,在每一个框架中又定 义r 多个级( l e v e l ) ,用来限制计算的复杂性。锤f 对象的编码方法具有很大的灵 西北- t 业大学硕。i :学位论文第:二章低比特率压缩标准m p e g 4 活性,但在实际中m p e g 4 视频标准应用最多的是对完整的矩形视频帧的编码。 编码矩形v o p 所用到的工具主要集合在三类简单的框架中,分别为:简单框架( s p : s i m p l ep r o f i l e ) 、高级简单框架( a s p - a d v a n c e ds i m p l ep r o f i l e ) 、高级实时简单框 架( a r t s p :a d v a n c e dr e a l - t i m es i m p l ep r o f i l e ) 。 作为课题研究和实际的应用,本文实现了包括纹理编码,运动补偿编码等部 分构成的具有基本功能的视频编码器,也就是m p e g 4 的s i m p l ep r o f i l e 所支持的 视频编码器。 视频框架定义的5 个级别及应用领域介绍如下: ( 1 ) s i m p l ev i s u a lp r o f i l e :提供矩形视频对象高效有容错能力的编码功能, 适合应用于移动网络。 ( 2 ) s i m p l es c a l a b l ev i s u a lp r o f i l e :在s i m p l ep r o f i l e 基础上增加了对象时域 和空域扩展编码功能,应用于提供多级服务质量的应用,如i n t e r n e t 和软件解码。 ( 3 )c o r ev i s u a lp r o f i l e :在s i m p l ep r o f i l e 基础上增加了任意形状对象编码和 时域扩展编码功能,适用于相对简单的内容交互应用,如i n t e r n e t 多媒体应用。 ( 4 )m a i nv i s u a lp r o f i l e :在c o r ep r o f i l e 基础上增加了s p r i t e 对象编码功能, 适用于交互和娱乐质量广播和d v d 应用等。 ( 5 ) n b i tv i s u a lp r o f i l e :在c o r ep r o f i l e 基础上增加了具有不同象素深度 ( 4 1 2 b i t s ) 视频对象编码功能,适用于监控应用。 1 0 西北工业人学硕士学位论文 第三章m p e g 一4 视频编码器核心算法及其实现、 第三章m p e g 。4 视频编码器核心算法及其实现 m p e g 4 标准是基于对象的视频压缩标准,实现一个m p e g 4 视频编码器, 需要明确以下几个问题。首先是要压缩视频内容,视频可以是以任务为主题,也 可以是书写的或打印的文本,计算机生成的景象等。其次确定输入至编码器以及 从解码器输出的视频参数,包括时间分辨率( 每秒帧数) ,象素宽高比,视频格式( 可 以是y u ,v 或者r ,g b 表示) 等。其次针对不同的编码内容,选取合适的压缩算 法,可以综合考虑待编码对象类型,运动剧烈程度,接收端对视频的要求等。更 高级的编码器需要考虑更多的要求,诸如视音频同步,数据复接,通信保密,视 频纠错,试验控制,高级码率控制等。 3 1m p e g 4 视频编码器概述 m p e g 4 基于对象的视频编码流程如图3 1 所示。 图3 1m p e g 一4 编码框图 由上图可知,m p e g 4 的基于对象的视频编码主要包括视频对象分割,v o p 编码( 运动估计、运动补偿,纹理编码,熵编码) 和视频复合三大部分,首先对 m p e g 4 视频编码器用到的一些基础背景知识进行介绍,然后重点叙述m p e g 4 编码器各个核心编码技术及其实现过程【1 | o 3 1 1m p e g 一4 编码视频格式 图像视频可以用2 种颜色空间r g b 和y c b c r ( 或y u v ) 描述。r g b 窄间是指 每个采样点的颜色用3 个数值表示:r e d ,g r e e n ,b l u e 。y c b c r 空问是指 订亮度、 西北工业火学硕士学位论文 第三章m p e g 4 视频编码器核心算法及实现 色度分开来表示图像信息,y 表示亮度,c r 矛h c b 表示色差空间,c b 和c r 是构成彩 色的两个彩色分量,y 和i c b 、c r 是相互独立的。h v s ( 人类视觉系统) 对亮度( l u m a , l u m i n a n c e ) 的敏感度远远大于对色度( c h r o m a ,c h r o m i n a n c e ) 的敏感度,而在 r g b 空间中,亮度和色度都被同等重要地表现出来,没有考虑人类视觉系统, m p e g 4 编码器采用y c b c r 空间对视频进行描述。对于r g b 描述的图像视频,可以 通过式3 1 方便地转化至i j y u v 空间2 0 1 。 y = 心r + k g g + k b b c b = b y c r = r y ( 3 1 ) 其中r ,g ,b 是r g b 空间的3 个值,k r ,k g ,k b 是对应的加权值,并且 心+ k g + k b = 1 。根据h v s ,i t u r 推荐k b = 0 1 1 4 , k r = 0 2 9 9 。 本文中实现的m p e g 4 视频编码器接收的视频格式为y c b c r 描述,采样格式 为4 :2 :0 ,即指在图像水平和垂直方向上每2 个连续的采样点上取2 个y 样本, 1 个红色色差c r 样本,1 个蓝色色差c b 样本,相当于每个象素用1 5 个样本表示, 可用图3 2 描述如下,其中“”表示亮度y 采样,“0 ”表示色差。 , 图3 24 :2 :0 图像采样格式 此外,在m p e g 4 中定义了5 种标准图像格式:s u b q c i f , q c i f ( 1 7 6 1 4 4 ) ,c i f ( 3 5 2 8 8 ) ,4 c i f , 1 6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论