基于MPEG-4的视频图像编解码技术研究_第1页
基于MPEG-4的视频图像编解码技术研究_第2页
基于MPEG-4的视频图像编解码技术研究_第3页
基于MPEG-4的视频图像编解码技术研究_第4页
基于MPEG-4的视频图像编解码技术研究_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、目录摘 要.1关键词.11 绪论.21.1 课题背景.21.2 课题研究现状.31.3 课题研究内容.52 数字视频压缩编解码技术.52.1 视频信号的表示.52.2 数字视频压缩编码原理.52.2.1 MPEG 支持的特性.62.2.2 MPEG 视频压缩模型.62.3 数字视频解压缩原理.72.4 视频序列编码的数据结构.72.5 数字视频编码技术的具体应用.102.5.1 数字电视方面的应用.102.5.2 在计算机通信网络方面的应用.102.6 本章小结.113 基于 MPEG-4 的数字视频压编/解压编原理.113.1 概述.113.1.1 MPEG-4 标准.113.1.2 MPE

2、G-4 视频编码中的数据结构类.123.1.3 MPEG-4 视频编码和解码框架.133.1.4 MPEG-4 的框架和级别.143.1.5 MPEG-4 与其它标准的关系.143.1.6 MPEG-4 中的面向对象特性.143.2 基于 MPEG-4 的数字视频编码方法.153.2.1 MPEG-4 视频编码技术.153.2.2 MPEG-4 视频编码原理.173.3 基于 MPEG-4 的数字视频解码方法.193.3.1 视频对象平面(VOP)的重建.193.3.2 纹理解码.203.4 基于 MPEG-4 数字视频标准的实现模型.213.5 本章小结.234 MPEG-4 视频编码器用于

3、远程视频监控.234.1 远程视频监控系统的特点.234.2 基于 MPEG-4 视频传输框架.234.3 基于 MPEG-4 的视频监控程序.244.4 目前存在的问题与不足.255 论文工作的总结及展望.265.1 总结.265.2 展望.26参考文献.27致 谢.281基于基于 MPEG-4 的视频图像编解码技术研究的视频图像编解码技术研究学生:XXX指导老师:XXX(XXX)摘 要: MPEG-4 是最重要的多媒体数据压缩编/解码国际标准之一,在工业控制、国防建设和家庭娱乐等领域有广阔的应用前景。本文首先对 MPEG-4 数字视频标准的基本原理和实现算法进行了粗略的研究;然后分析了传统

4、的运动估计算法,实现了一个基于 MPEG-4 视频压缩标准的监控实验模型;最后,结合远程数字视频传输的应用背景,对基于 MPEG-4 的视频监控系统进行了研究。关键词:MPEG-4,数字视频,视频编/解码,远程监控RESEARCH ON THE TECHNOLOGY OF CODING AND DECODING FOR VIDEO BASED ON MPEG-4Student:XXXTutor: XXX(XXX)Abstract: MPEG-4 is one of the most significant multi-medium compressions of data coding and

5、 decoding international standard. There is the wide application foreground in the territorys such as the industry control and building up of national defense and household entertainment and so on. First of all, this article has researched the base theory and the realization algorithm for digital vid

6、eo based on the MPEG-4. Afterwards the motion estimation algorithm has analyseed and the experimental pattern based on MPEG-4 has been achieved, the software emulation and the test interpretation of result has been implemented. Finally, combining the application backdrop that the remote monitoring d

7、igital video transmits, the system of video remote Monitoring of MPEG-4 has been researched.Key Words: MPEG-4, Digital Video, Video Coding and Decoding, Remote Monitoring 21 绪论1.1 课题背景随着计算机技术、网络通信和多媒体技术,特别是数字视频压缩技术的发展,数字视频传输将成为通信网络的主要业务之一。视频通信以其直观性、确切性、生动性的特点在多媒体通信中占有重要的地位,实现数字视频的实时传输是目前研究的主要方向之一。但是

8、,由于视频图像的数据量十分庞大以及人们对视频通信业务的要求不断增长,特别是近几年来视频通信与通信信道带宽之间的矛盾十分突出,随着人们对多媒体业务的需求增多,例如:多媒体会议、可视电话、视频点播(VOD)、多媒体信息业务等,更加剧了这对矛盾的发展。所以,针对多媒体通信业务中的视频数据的有效压缩一直是非常重要的课题。庞大的视频数据给数据的存储、传输以及计算机的处理等都带来了极大的压力,这样就阻碍了计算机及多媒体技术的发展,如何消除这样的障碍成为我们急待解决的问题。单纯用扩大存储器容量、增加通信线路的传输速率的办法是不现实的。经过研究发现,这些视频数据在空域和时域有很大的冗余性;多媒体数据压缩也是可

9、能的。因为,多媒体文、声、静图像、视频图像等信源数据也有大量的冗余信息。数据压缩就是将庞大数据中的冗余信息去掉,保留相互独立的信息分量。以静止图像画面为例,数字图像的灰度信号和色差信号在空域(x, y 坐标系)虽然属于一个随机场分布,但是它可以看成为一个平稳的马尔可夫场。即图像像素点在空域中的灰度值和色差信号值,除了边界轮廓外,都是缓慢变化,譬如一幅人的头肩像图,背景、人脸、头发等处的灰度、颜色都是平缓改变。相邻像素的灰度和色差值比较接近,信息有较多的冗余,但是如何先排除冗余信息,再进行编码,使表示每像素的平均比特数下降,这就是通常所说的视频图像的帧内编码,用来减少空域冗余信息进行数据压缩。视

10、频图像由于相邻帧之间相隔时间很短,其帧间图像的相关性也是很强的,通常采用帧间预测和运动补偿的方法以减少时域的冗余信息,达到数据压缩的目的。视频压缩技术无论在民用方面还是在军事方面都有重要的应用价值。民用方面,若视频信号能以高压缩比在低比特率下传输,则人们在 PSTN 通信网、移动通信网上即可实现视频通信,使通信网的频率利用率大大的提高。可以满足人们日益增长的多媒体业务的需求。在军事方面的应用更为广泛,如侦察卫星数据实时传输、前沿侦察、战场的可视电话和军事会议电视等。尤其在战争环境非常恶劣的条件下,信道容量很小,要实3现实时数字视频通信,则需要更高压缩比和更低码率的视频编码信号。综上所述,视频编

11、码技术研究有其重大的理论意义和实用价值,它对促进多媒体通信的发展具有非常重要的意义。近年来,多媒体技术飞速发展,在社会生活的许多领域得到了广泛的应用。为适应技术发展和应用的要求,各种多媒体数据压缩编码标准也在不断发展。从 H261, MPEG-1到 MPEG-2,到现在的 H263, H264, MEPG4 和 MPEG-7,标准越来越成熟,覆盖的应用领域越来越广,目前发展最迅速、影响最大的多媒体数据压缩编码国际标准是 MPEG-4。 MPEG-4 标准是伴随着互联网的产生而发展起来的。MPEG-4 定义了多媒体编码和解码、网络传输以及人与媒体交互的一整套框架,涵盖了多媒体的绝大部分应用领域。

12、MPEG-4 基于对象的编码思想使其具有高压缩比、可扩展性、可交互性等许多优点。基于 MPEG-4 的技术正在蓬勃发展,代表着未来多媒体数据压缩编码的发展趋势,及时跟踪和了解 MPEG-4 的发展动态,掌握其核心技术,并结合实际应用在某些关键方向上有所创新和发展,是一项很有意义的工作。本课题研究了数字视频压缩编/解码的基本原理和实现算法,改进和实现了一个基于MPEG-4 视频标准的编码器和解码器的模型,建立了继续研究的测试实验平台,奠定了实际应用和开发的基础。1.2 课题研究现状为了适应数字视频技术的发展,ITU-T 和 ISO/IEC 组织制定了一系列的数字视频编码标准。H261 标准是针对

13、会议电视而发展的,以 DCT 算法和具有运动补偿的帧间预测技术为基础,对预测误差作 DCT、量化和霍夫曼编码。H261 使用对称压缩技术,只采用前向预测,使编码延迟小,把数字视频速率压缩到 64Kb/s-2.048Mb/s。标准的数字视频信号在进入 H261 编码器之前,需要转换成统一的中间格式(CIF 格式),其分辨率为 352 * 288。H263 是 ITU-T 为低比特率应用而制定的数字视频压缩标准,该标准采用的图像格式为 QCIF (176* 144)。为降低码率,H263 在 H261 的压缩算法的基础上作了一些改进,如预测模式不仅有前向预测,还有双向预测;运动矢量的估计和运动补偿

14、都精确到半个像素等。MPEG-1 和 MPEG-2 是 ISO/IEC 制定的应用于数字存储介质的数字视频压缩标准,压缩算法主要采用 DCT 算法来降低空间冗余度,采用预测编码和运动补偿技术来减少时4间冗余度。MPEG-1 最大分辨率为 352 * 288,数据速率为 1.5Mb/s, VCD 就是采用MPEG-1 标准的典型应用;与 MPEG-1 相比,MPEG-2 在运动补偿中增加场间预测,以改进对运动较快的物体预测的准确性和提高压缩比;支持分层次的视频编码,适用于需要同时提供多种质量的视频服务。数据速率为 2-20Mb/s,适用于包括宽屏幕和 HDTV 在内的高质量电视广播。按照 MPE

15、G-2 标准 CCIR601 格式(720 * 576 * 25 帧)的信号可压缩至 4Mbit/s-6Mbit/s 而 HDTV 格式(l280 * 720 * 60 帧)的信号可压缩至 20Mbit / s 左右。MPEG-4 被称为面向对象的编码技术,在网络视频通信中具有广阔的应用前景。其传输速率要求较低,可用于传输速率低于 64kb/s 的实时图像,最高分辨率为 768 * 576. MPEG-4 利用很窄的带宽,通过帧重建技术压缩和传输数据,以最少的数据获得最佳的图像质量。MPEG-4 采用了包括小波变换等多种变换,可以获得更小的硬盘空间占用,更高的清晰度。MPEG-4 把支持基于内

16、容的检索作为其目标之一,但这种支持有限。为克服 MPEG-4 的不足,MPEG-7 的目标是建立一种多媒体内容描述接口,支持多媒体信息基于内容的高效快速检索。MPEG-7 建立在 MPEG-4 的基础上,期望用很少的特征就能对信息内容进行检索。对视频编码的基本要求是算法复杂度要尽可能小、算法处理的时间尽可能短,现有的数字视频编码主要采用的是基于块的离散余弦变换消除空间冗余;通过块运动估计补偿技术消除时间冗余;最后经过变长编码进行统计冗余的消除。随着研究和应用的不断深入,基于分块余弦变换编码的缺点逐渐暴露出来,尤其在压缩比较高、低比特环境下,图像不可避免地出现方块效应,因此人们一直在努力寻找更有

17、效的数字视频编码方法。目前数字视频压缩技术的研究方向主要包括高压缩比、高压缩效率、高解码质量、压缩编码智能化、压缩方法标准化等,以适应各种通信网络的要求。变换编码方式也将更多地考虑对上述要求的支持,如采用基于小波(Wavelet)变换的标准。基于小波变换的语音波形压缩、静止和运动图像压缩已取得初步应用,MPEG-4 已将小波列入其中。基于小波分析的图像压缩方法利用小波的多分辨率特性,并充分考虑到人眼的视觉特性,将原始图像分解为低频子图和不同分辨率下的高频子图,对各个子图像采取合适的编码方法,从而获得更高的压缩效率。和传统的块编码技术不同,小波变换编码不会出现方块效应,这是因为小波变换对图像的变

18、换是全局的,各种失真会随机的分布在整幅图像中,人眼不易察觉。此外,经小波变换的图像可以实现分层传输,从而适应不同的网络带宽和终端用户。5虽然基于小波变换的视频编码方法已经提出很多,但这些方法在获得较好压缩比和重建质量的同时却无法提高编码速度,因此阻碍了小波技术在数字视频上的应用。为加快基于小波压缩的编/解码速度,提高压缩比和改善效果,必须进行新算法、改进算法和混合算法的研究。1.3 课题研究内容 首先对 MPEG-4 数字视频标准的基本原理和实现算法进行了深入的研究;然后改进和实现了一个基于 MPEG-4 视频标准的视频监控模型,并了解熟悉了编解码算法;最后,结合视频传输的应用背景,对基于 M

19、PEG-4 的编/解码技术进行了探索。2 数字视频压缩编解码技术2.1 视频信号的表示 视频被描述为一组连续的图像,而每幅图像看作是二维的像素阵列,每一像素的彩色表示包括三个分量:红(R)、绿(G)、蓝(B),这称为图像的 RGB 空间表示。用于三种电视系统的彩色坐标是不同的,为了视频摄取和显示,所有三个系统都采用 RGB 基色,但是对各基色光谱的定义稍微有所不同。对于视频信号的传输,为了减少所需的带宽并与单色电视系统兼容,采用了亮度/色度坐标系。在 NTSC, PAL 和 SECAM 系统中所用的彩色坐标都是从用于 PAL 的 YUV 坐标导出的,而 YUV 来源于 XYZ 坐标。根据 RG

20、B 基色与 YUV 基色之间的关系,可以由 RGB 的值确定亮度分量 Y 的值。两个色度值 U 和V 分别正比于色差 B-Y 和 R-Y,被调整到所希望的范围。进行两个彩色空间的转换是基于人类视觉系统的特性:在 RGB 空间中,R,G,B三个信号有一个发生了变化,则总的图像的颜色就会发生变化,人眼是很容易察觉这种变化的;然而人眼对 Y, U, V 三个信号的变化是有不同反应的,其中对亮度信号的变化比较敏感,而对色度信号的变化不是很敏感,这样就可以更多地考虑亮度信号,而对色度信号采用一些处理方法以提高压缩比。比如可以经过亚采样或直接丢弃一部分数据等处理,但人眼对恢复以后转换到 RGB 空间后的图

21、像的变化仍然是不易察觉的。所以 JPEG标准、H26X 标准和 MPEG 系列标准都要将视频源图像从 RGB 空间变换到 YUV 空间中去,对亮度分量和色差分量采用不同的处理方法,以进行更进一步的压缩处理。2.2 数字视频压缩编码原理MPEG(Moving Picture Expert Group)是由国际标准化组织 ISO (Organization for 6Standardization)和国际电工委员会 IEC(International Electrotechnical Commission)联合成立的专家组,其工作是开发满足各种应用的活动图像及其伴音的压缩、解压缩以及编码描述的国际

22、标准。2.2.1 MPEG 支持的特性基于 MPEG 的目标所制定的 MPEG 标准很好地支持了许多特性。MPEG 算法允许用许多方法去观看数字存储媒体上的视频图像。对 MPEG 视频图像,可以正向顺序播放,也可以反向顺序播放。MPEG 算法支持的主要特性有。(1) 随机存取这是算法支持的最基本的特性。随机存取需要对数字存储媒体上任何一幅图像都能在有限的时间里进行解压缩,这是实现交互特性必不可少的特性。(2) 快速搜索快速搜索的速度取决于使用的存储媒体的特性。使用目录或其它一些方法,可以快速搜索到压缩图像数据位流中的任一存储点,以获取正向或反向运行的功能。这个功能也是随机存取特性所要求的。(3

23、) 逆向播放交互应用需要电视图像信号逆向播放。(4) 编辑功能MPEG 算法支持有限的编辑功能。MPEG 标准定义的图像不都是一幅幅独立的静态图像,这与模拟电视和电影不同,所以 MPEG 的编辑功能有限。要有强大的编辑功能就要有更多的独立的编码图像,但是独立的编码图像多了后,压缩率就降低,它们是一对矛盾。(5) 编码与译码的延时MPEG 标准考虑到了在可视电话等方面的应用。这类应用需要使整个系统的延迟不大于 150ms,对于像多媒体 CD-ROM 一类产品,允许的延迟时间可以长达,这是交互应用中允许的时间。MPEG 采用的算法考虑了 CD-ROM 应用中需要的延迟时间,因此在图像的质量和延迟时

24、间范围内作了折中。2.2.2 MPEG 视频压缩模型MPEG 视频压缩算法基于广受欢迎并且很有效的压缩算法运动补偿预测和离散余弦变换算法。采用基本块(Block)结构,适用于许多不同信号,它主要包括以下内容:7 (1) 时域预测:减少视频图像间的时间冗余; (2) 频域分解:用 DCT 分解图像的空间块,来充分利用静态和逻辑上的空间冗余; (3) 量化:在保证质量损失最小的条件下确定选择传送哪些信息,以减少比特率; (4) 可变长编码:利用量化和各种类型附属信息构成的序列的静态冗余。 MPEG 视频压缩技术是针对运动图像的数据压缩技术。为了提高压缩比,帧内图像数据压缩和帧间数据压缩技术必须同时

25、使用。数据的压缩充分利用了时间和空间上的冗余信息。由此可以看出,视频图像本身在时间和空间上都有很多冗余信息,图像自身的构造也有冗余性。对视频图像的压缩,MPEG 主要采用了以下的一些算法:(1) 帧内压缩算法:采用基于块的 DCT 变换编码技术,用以减少空间冗余信息。(2) 帧间压缩算法:采用预测法、差补法和运动补偿算法,预测法有因果预测器和非因果预测。预测误差可以再通过 DCT 变换编码处理,进一步压缩。帧间编码技术可以减少时间轴方向的冗余信息。通过运动补偿预测和编码去掉了那些即使减少了它们也不会显著破坏人脑或人眼对图像感知的冗余信息。2.3 数字视频解压缩原理经过压缩的视频流在接收端必须要

26、经过解码重现出原始的视频图像。解码是编码的逆操作,由于无需运动估计,因此比编码要简单,只要根据接收到的码流的语义进行相应的处理。当一幅图像的所有宏块都处理完毕,则整个图像被重建。图 1 给出一个简化的视频解码过程框图。图 1 简化的视频解码模型Figure 1 Simply model of video decode2.4 视频序列编码的数据结构在编码方案里视频序列经过多层划分、多路复用,建立了这样一个数据结构可变长编码反向扫描反量化运动补偿反向DCT帧存8序列(Sequence):视频序列以序列头开始,包括若干个图像组(GOP),以一个序列结束码作为结束。图像组(GOP) : GOP 是一个

27、头后跟一系列图像,允许快速随机访问序列、快速搜索和编辑,是序列中可独立解码的最小编码单位。GOP 中的第一个图像是帧内编码图像(I 图像),它的后面是前向预测编码图像(P 图像)和双向预测图像(B 图像)。每个图像组只有一个 I 帧,并且以这个 I 帧作为开始编码的第一帧。P 帧用相对于前面的 I 帧或 P 帧的运动补偿预测来进行编码,P 帧可以用来作为其它 P 帧或 B 帧编码的参考帧。B 帧则是利用了两个帧的运动补偿预测来进行编码,一个是过去的一帧,另一个是未来的一帧。利用过去的一帧进行预测,称为前向预测;利用未来的一帧进行预测,称为反向预测。P 帧就只利用了前向预测,所以有时也称它为前向

28、预测编码帧。双向预测可以获得更高的压缩比,在获得同样的图像质量下,利用双向预测的帧可以用更少的比特数进行编码。因为 B 帧是采用的双向预测,为了避免混淆,不能作为任何帧编码的参考引用帧。使用B 帧具有如下优点:B 帧能有效地处理有关遮挡/显露背景的问题。若一个物体在下一帧图像中将被遮挡,那么它仍然可以从前一帧图像中预测出来,反之亦然。与仅利用一帧图像预测相比,用两帧图像的平均值进行运动补偿可以提供更好的信噪比。因为 B 帧不会用作预测的基准,因此,编码位数可以很少而不会引起误差传播。使用 B 帧预测时需要兼顾以下问题:需要在编码器和解码器中存储两帧图像,因为至少有两帧参考图像(P 帧和 I 帧

29、)必须先解码。如果使用太多的 B 帧,那么会产生下述影响:两帧参考图像间距离的增加,导致参考图像间的时间相关性下降,因此,不能有很准确的运动预测,编码需要更多的位数;产生较长的编码延迟。图 2 是一组 GOP 图像的帧排列的示意图。9图 2 GOP 图像的帧排列示意图Figure 2 Frames sequence of GOP photo标准中没有规定一个图像组中有多少 P, B 帧,也没有规定它们的具体排列顺序,除了第一帧且只有一帧是 I 帧。这样设计者可以用任何的排列顺序及任何的帧数来设计自己的编码方案。每次 P, B 帧的预测是建立在前一个参考预测帧的基础上,组层中的帧数太多的话,则会

30、造成误差积累,影响以后的预测效果,使得预测越来越不准确,影响了编码的质量和压缩比。尤其是 B 帧,它是建立在前后两个预测帧的基础上的,预测误差对它有很大的影响。所以一般每一个组层中选取 10-15 帧,两个 P 帧之间间隔 2-3 个 B帧。在编码中必须注意到这样一个问题,即由于 B 帧的编码依赖于其后的(按显示顺序)I或 P 帧,所以 B 帧编码所依赖的 I 或 P 帧必须先编码进位流中去。这样实际的编码位流中的帧序与实际的显示顺序是不同的。图像:图像是视频序列的基本编码单元。图像由表示亮度(Y)和两个色度(Cr 和 Cb)值的三个矩形矩阵组成。图像头指明图像类型(I, P, B)、图像结构

31、(场/帧)以及可能的其它参数(例如运动矢量范围)。每个视频标准都把图像分成宏块组,H.261 和 H.263 用固定的宏块结构,而 MPEG-1/2 允许灵活的结构,MPEG-4 把可变数量的宏块安排成一组。宏块组(GOB) : H.261 和 H.263 把图像分成 GOB,每个 GOB 包括三个宏块行,每个 GOB 行中有 11 个宏块,GOB 头定义 GOB 在图像内的位置。可以为每个 GOB 定义一个新的量化器步长。在处理差错中 GOB 是很重要的,如果比特流含有一个差错,解码器可以跳到下一个 GOB 的开始,从而把比特差错的扩散限制在当前帧的一个 GOB 内。片(Slice):片把几

32、个相继的宏块组成一个单元,片的尺寸可以变化,片层提供对数据错误的抗干扰能力。因为标准规定,每片开始时,用于预测 DCT 变换的 DC 直流系数的预测值和运动矢量的预测值均需要被复位为一个固定的数;并且片中的第一个宏块的位置可以从片头得到,因此它在画面内的位置可以不参照前面的任何一片或任何一个宏块而独立确定下来。所有这些措施使得,在一幅画面内的任何一片可以单独解码,而不需要其它片的信息。因此,一旦在一个片层中的预测值发生误差或某些比特流无法读出,使得解码不正确,但解码器可以通过等待下一片,到了下一片,重新开始解码过程,这些预测值被重新置位,重新开始新的预测。这样就可以从错误中恢复出来,不至于丢弃

33、整个一幅画面,提高总的编码效果。每一片内包含有以光栅扫描顺序排列的若干宏块,10一幅画面之内片与片的大小可不相同,这可以在编码时自行设计。宏块:每个片层由若干个宏块(MB)组成。宏块是图像中的一个 16*16 像素的块,是运动补偿和量化器标尺变化的基本单位。标准中规定了三种 YCr,Cb的格式,分别为4:4:4, 4:2:2 和 4:2:0。因为人类视觉系统对图像的亮度分量分辨率最敏感,所以Y 空间的像素以满分辨率编码。而对于 Cr和 Cb空间则通过亚采样减少象素的数量,可以减少被压缩的信息量。块:块在标准化的视频编码算法中是最小的编码单元。它由 8*8 像素组成,且可以是三种类型中的一种:Y

34、, Cr 或 Cb。块的像素可以由它们的 DCT 系数表示,通过Huffman 编码记录在下一个非零系数前零的个数和这个系数的幅值。2.5 数字视频编码技术的具体应用 视频和图像编码标准的提出,标志着视频压缩编码技术已经成熟,开始由学术研究走向产业化,前景十分诱人。它的发展可以促使现有的信息产业结构发生巨变,使通信、广播、网络和计算机等产业结合到了一起,积极地开拓了新的产品和应用领域。数字视频压缩编码的应用大致可以分为以下几类:2.5.1 数字电视方面的应用 以分辨率为基础,数字电视可分为四个等级:可视电话、会议电视、数字标准清晰度电视和高清晰度电视。当然其中也包括以 MPEG-1 为基础的

35、VCD 和以 MPEG-2 为基础的 DVD 系列、以 MPEG-4 为基础的视频点播电视(VOD)和准点播电视(NVOD)等。2.5.2 在计算机通信网络方面的应用这方面的应用主要包括 Internet/Intranet 上的多媒体流服务、视频点播、可视游戏、低码率的移动多媒体通信(视频手机等)、交互式多媒体应用、远程医疗、远程教学、虚拟会议等等。分离的音、视频物体(包括自然的和合成的)的编码在 MPEG-4 中被标准化。目标应用系统是因特网视频、交互式视频、内容管理、专业视频、二维和三维计算机图形以及移动视频通信。(1) 数字电视方面的应用:以分辨率为基础,数字电视可分为四个等级:可视电话

36、、会议电视、数字标准清晰度电视和高清晰度电视。当然其中也包括以 MPEG-1 为基础的VCD 和以 MPEG-2 为基础的 DVD 系列、以 MPEG-4 为基础的视频点播电视(VOD)和准点播电视(NVOD)等。(2) 在计算机通信网络方面的应用:这方面的应用主要包括 Internet/Intranet 上的多媒11体流服务、视频点播、可视游戏、低码率的移动多媒体通信(视频手机等)、交互式多媒体应用、远程医疗、远程教学、虚拟会议等等。分离的音、视频物体(包括自然的和合成的)的编码在 MPEG-4 中被标准化。目标应用系统是因特网视频、交互式视频、内容管理、专业视频、二维和三维计算机图形以及移

37、动视频通信。(3) 多媒体监控应用:例如各种多媒体数据库系统、实时多媒体监控系统等。(4) 军事方面的应用:在军事方面的应用更为广泛,如侦察卫星图像数据实时传输、战时前沿侦察、战场的可视电话和军事会议电视等。尤其在战争环境非常恶劣的条件下,信道容量很小,要实现实时数字视频通信,则需要更高压缩比和更低码率的视频编码信号。特别是一些机载设备的应用时,对于实时获取的图像数据信息,要及时完整地进行存储或者直接发送到地面,为了节约存储空间和传输带宽,必须要对原始的图像数据进行高效可靠的编码。2.6 本章小结 本章首先简单介绍了数字视频处理及视频压缩方面的基础知识;然后详细阐述了视频序列压缩编码的一些常用

38、方法;最后简要叙述了 MPEG 数字视频编/解码基本原理以及数字视频编/解码技术在数字电视、计算机通信、多媒体监控和军事等方面的应用。3 基于 MPEG-4 的数字视频压编/解压编原理3.1 概述 MPEG-4 标准是为了在支持传统应用的同时,满足新一代高度交互性多媒体应用系统的需求而制定的。这些多媒体应用系统除了高效编码外,还要求很多先进的功能,例如各个对象的交互性、内容的可分级性和高度的差错复原性。MPEG-4 提供自然的和合成的音频、视频以及图形的基于对象的编码工具。3.1.1 MPEG-4 标准 ISO 的 MPEG-4 标准于 1999 年初正式成为国际标准,较之 MPEG 前两个视

39、频压缩标准而言,MPEG-4 为多媒体数据压缩提供了一个更为广阔的平台,它更多定义的是一个格式和框架,而不是具体的算法。MPEG-4 的出发点就是希望建立一个更自由的通信与研发环境,人们可以在系统中加入许多新的算法,为计算机软件做编码、解码提供了更大的方便。它可以将各种各样的多媒体技术充分用于编码中,除包括压缩本身的一些工具、算法,还包括图像分析和合成、计算机视觉、计算机图形、虚拟现实和语音合成12技术。MPEG-4 设计之初是为了在电话线上传输视频和音频数据,是一个超低比特率运动图像和语音的压缩标准,但是随着研究工作的深入,它所包括的内容和将要起的作用已经远远超出了作用最初的设计思想。 采用

40、了基于对象(Object-Based)的编码、基于模型(Model-Based)的编码等第二代编码技术是 MPEG-4 标准的主要特征,所谓的对象是在一个场景中能够访问和操纵的实体,对象的划分可以根据其独特的纹理、运动、形状、模型和高层语义为依据。这种编码是一种基于内容的数据压缩方式,以前的压缩算法只是去掉帧内和帧间的冗余,MPEG-4则要求对图像的和视频做更多的分析,甚至是理解,如将图像分割为运动物体对象和静止不动的背景对象平面,并对这两个对象进行分别处理。背景对象采用压缩比较高、损失比较大的办法进行编码,运动物体对象采用压缩比较低、损失较小的办法,这样就在压缩效率和解码图像质量间得到较好的

41、平衡。MPEG-4 编码和解码的基本单元是对象,这些对象可以是单声道、立体声和多声道音频,2D 和 3D 视频、计算机图形、动画、文字等。基于对象的编码除了能提高数据的压缩比,还能实现许多基于内容的交互性功能。 基于对象的分级功能是 MPEG-4 提供的又一个新的功能,分级工具主要用于互联网和无线网等窄带的视频通信、多质量视频服务和多媒体数据库预览等服务。MPEG-4 提供了两种基本的分级工具:时域分级和空域分级,时域分级是降低原视频序列的帧率,空域分级是降低原视频序列的分辨率。在每类分级工具中,视频序列都可以分为两层:基层和增强层,基层提供了视频序列的基本信息,增强层提供了视频序列更高的分辨

42、率和细节,基层可以单独传输和解码,而增强层则必须与基层一起传输和解码,MPEG-4也支持时域和空域的混合分级。 由于移动通信的迅速发展,通过无线网传输音频和视频信息变得越来越重要了,这需要提供在易错环境下实现安全的低码率编码和传输。MPEG-4 的编码具有鲁棒性和纠错功能,它采用三个策略来达到此目的:再同步(Resynchronization)、数据恢复(Data Recovery) ,错误隐藏(Error Concealment)。再同步工具在检测到误码发生时重新在解码器和码流间建立同步点,前一个同步点和新建立的同步点间的码流就是发生误码的数据;数据恢复是通过标准中提供的一种可逆变长编码技术

43、来恢复两个同步点之间的数据;错误隐藏通过空间的纹理相关性和视频前后帧的相关性对错误的图像区域进行隐藏。133.1.2 MPEG-4 视频编码中的数据结构类MPEG-4 中有以下四个层次的数据结构,它们都以类的形式定义VS(Video Session):视频场景,它位于数据结构层次的最高层,一个完整的视频序列可以由几个 VS 组成。 VO(Video Object):视频对象,它是场景中的某个物体,最简单的情况下就是矩形框,它是有生命期的,由时间上连续的许多帧构成。 VOL(Video Object Layer):视频对象层,VO 的三种属性信息编码于这个类中,这个类的引入主要用来扩展 VO 的

44、时域或空域分辨率,实现分层编码。 VOP(Video Object Plane):视频对象平面,它可以看作是 VO 在某一时刻的采样,即某一帧 VO。3.1.3 MPEG-4 视频编码和解码框架MPEG-4 编码和解码是针对 VOP 进行的,编码时首先由输入的视频序列定义出 VOP,针对每一个 VOP 分别进行编码,将所有的 VOP 编码的结果合成在一起,形成压缩视频数据流,解码时首先将压缩视频数据流分解,得到每一个 VOP 的编码数据流,针对它们分别进行 VOP 解码,解码结果组合在一起形成输出视频。图 3 基于 MPEG-4 视频标准的简化编码实现模型Figure 3 The simply

45、 encoding realization model of video standard Base on MPEG-4读取一帧数据取一个宏块DCT量化AC/DCVLC反量化反DCT运动补偿运动估计VOP存储VLC编码视频流14VOP 定义与生成模块的作用就是通过图像分析与理解,根据应用场合的要求得到场景中具有实际意义、可以进行交互和操作的对象,该模块是 MPEG-4 不同于其它标准的一个重要特点。编码模块是对 VOP 的各种参数进行压缩编码。编码控制包括对不同对象进行码流控制、码率分配、甚至根据对象性质指示编码算法的选择等。码流复合/分解模块是对 VOP 的码流按传输或存储的要求进行组织和恢

46、复。最后的组织模块用于按场景组织的语义用 VOP 重建场景。在这里通过引入交互处理,还可以使接收者能根据需要组织对象,得到希望的显示形式和内容。3.1.4 MPEG-4 的框架和级别MPEG-4 提供了大量的、丰富的音视频对象的编码工具,能够满足各种各样的应用需要。对于某一特定的应用,只有一部分系统。视频和音频的编码工具被采用,框架(Profile)就是针对特定的应用确定要采用的编码工具,它是 MPEG-4 提供的工具集的一个子集。每一个框架又有一个或多个级别(Leve)来限制计算的复杂度。MPEG-4 共有 4 类框架:视频框架、音频框架、图形框架和场景描述框架。其中视频框架又包括 5 个级

47、别,如下:(1) Simple Visual Profile:提供矩形视频对象高效有容错能力的编码功能,适合用于移动网络。(2) Simple Scalable Visual Profile:在 Simple Visual Profile 基础上增加了对象时域和空域扩展编码功能,应用于提供多级服务质量的应用,如 Internet 和软件解码。(3) Core Visual Profile:在 Simple Visual Profile 基础上增加了任意形状对象编码和时域扩展编码功能,适用于相对简单的内容交互应用,如 Internet 多媒体应用。(4) Main Visual Profile:

48、在 Core Profile 基础上增加了 Sprite 对象编码功能,适用于交互和娱乐质量广播和 DVD 应用等。(5) N-Bit Visual Profile:在 Core Profile 基础上增加了具有不同像素深度视频对象编码功能,适于监控应用。3.1.5 MPEG-4 与其它标准的关系(1) MPEG-4 与 MPEG-1/2 的主要区别:MPEG-1 /MPEG-2 的最重要的目标是提高数字 AV 材料存储和传输的效率,方法是对数据进行压缩。因此,它们处理的是基于帧的视频和音频,与内容的交互也仅限于帧的水平。MPEG-4 规定了数字 AV 场景用具有时空关系的“AV 对象”加以描

49、述。从这一结构出发,MPEG-4 将能够提供一种新的交互性,在编码、解码和物体合成阶段均可与每一 AV 物体交互,同时也能够集成不同性质的物体,例如自然视频、图形和文本等。另外,由于充分考虑了各种网络的特殊性,所以MPEG-4 将支持对多媒体信息的通用存取。(2) MPEG-4 与 ITU-T 的 H.263 的关系:虽然 MPEG-4 与 ITU-T 制定编码标准的日程不尽相同,但在要求上有许多共同之处。例如,在低码率条件下二者均试图在码率1524Kbps 到 64Kbps 范围内来定义标准,能对自然视频进行有效的编码。3.1.6 MPEG-4 中的面向对象特性MPEG-4 旨在为视音频数据

50、的通信、存取和管理提供一个灵活的框架与一套开放的编码工具。这些工具将支持大量的应用功能。尤为引人注目的是,MPEG-4 提供的多种视音频的编码模式使图像或视音频中对象的存取大为便利。实际上,数字化电视、交互式图形应用及 WWW 这三个领域的成功促进了 MPEG-4的诞生。MPEG-4 将提供多个标准化技术元素,以促进这三个领域中各种形式的内容制作、分布与存取的集成。MPEG-4 的目标是提供一套能同时满足创作人员、网络服务商与终端用户要求的技术。对创作人员而言,相对于现有的任何单项技术,MPEG-4 将使内容的制作有更好的重用性、更大的灵活性,并受到更有力的保护。对网络服务供应商而言,MPEG

51、-4 将提供能与各单一媒体的要求相匹配的内容传输机制。对终端用户而言,MPEG-4 将允许其与内容进行高层次的交互。交互范围由内容创作人员设定。为了达到上述目标,MPEG-4 对如下几方面功能进行了标准化:表示视频、音频或视听内容的单元。这些单元称为“视听对象” 。最基本的内容单元称为视/听对象。组合这些对象,生成复合视/听对象。复合并同步与“视听对象”有关的所有数据,以便这些数据能以与该“视听对象”性质相适应的服务质量在网络上传输。与接收端生成的视听场景交互。3.2 基于 MPEG-4 的数字视频编码方法3.2.1 MPEG-4 视频编码技术MPEG-4 是一个通用标准,这种通用性集中体现在

52、它所支持的应用、比特率、分辨率、质量和服务上。然而从标准的进展状况来看,MPEG-4 把基于内容的应用的支持放在了非常重要的地位,这种支持是多层面的。(1) MPEG-4 视频标准的目标和功能:在 MPEG-4 图像与视频标准中,视频表示工具的目标是为多媒体环境下的纹理、图像和视频数据的有效存储、传输及管理提供标准化的核心技术,尤其强调这些工具对图像和视频内容中视频对象的编解码能力,要能对任意形状的视频对象进行有效的表示,以支持所谓基于内容的功能集。MPEG-4 还支持MPEG-1 和 MPEG-2 中已有的大多数功能,包括对标准的矩形图形序列的有效压缩(支持16多种数据格式、帧率、比特率和多

53、层次的时间、空间及服务的伸缩度)。传统的矩形图在MPEG-4 中被看作是 VO 的一种特例.为达到这样一个目标,MPEG-4 把各种应用中相似的功能分门别类集中起来,以工具和算法的形式解决这些问题,包括:图像和视频的有效压缩;纹理的有效压缩;隐含的二维网格的有效压缩;控制网格运动的时变几何参数的有效压缩;对各种可视对象的有效随机存储;对图像和视频序列的扩展操纵管理功能;图像和视频基于内容的编码;纹理、图像和视频基于内容的可伸缩性;空间、时间和质量的可伸缩下;在易错环境下的鲁棒性。上述大部分功能很容易使人联想到内容的制作、分布与存取。事实上,MPEG-4 设定的很多特有的功能目标是由基于内容的应

54、用抽取、提炼出来的。(2) MPEG-4 视频标准的技术结构:图 4 是 MPEG-4 图像与视频标准目前所提供的比特率和功能的初步分类。下面对比特率与功能集之间的关系进行讨论,以便对各种技术及相应功能在标准中所处的位置有更清晰的认识。图 4 MPEG-4 中图像和视频编码算法与工具分类Figure 4 The classify of graph and video encoding arithmetic底部的 VLBV(Very Low Bit rate Video)内核为在超低比特率(5-64Kbps)环境下运作的17应用提供算法和工具,支持低分辨率(低于 CIF 格式)和低帧速(低于 1

55、5Hz)的图像序列。VLBV 支持的面向对象的应用的基本功能包括:为实时多媒体通信应用提供传统矩形图像系列的 VLBV 编码方法,这些方法以高压缩比、高容错度、低延迟和低复杂度为显著特征。为 VLBV 多媒体数据库存取应用中的“随机存取” 、 “快进” 、 “快退”提供支持。上述功能在较高比特率时同样受到支持。这时,输入信号的时空分辨率增高,但仍采用与 VLBV 内核相同或类似的技术和工具。高比特率的动态范围为 64Kbps-4Mbps。这一范围内的典型应用是具有数字电视质量信号的广播及交互式检索。为支持这些较高比特率的应用,MPEG-4 中规定了编码隔行信号工具。 基于内容的功能集支持内容(

56、即场景中的物理 VO 对象)的单独的编码和解码。MPEG-4 的这一特性为交互性提供了有力的底层机制支持,也为在压缩域对图像或视频的 VO 内容进行灵活的表示和管理提供了有利条件。这种支持使接收端无需做进一步的图像分割或变换,为实时应用提供了便利。 另外,对于自然与合成视频数据的混合编码(如虚拟环境的展示),基于内容的编码功能允许把若干不同来源的 VO 与合成的对象(如虚拟背景)和在一起。(3) 传统编码与基于内容编码的统一: MPEG-4 视频标准支持传统矩形和任意形状图像与视频的编解码。 传统的图像和视频编码采用类似于 MPEG-1/2 的技术,包括运动预测/补偿及随后的纹理编码。对于基于

57、内容的应用,输入的图像序列可能是具有任意形状和位置。这时,传统的途径可以通过附加编码形状和透明信息来扩展,形状可以用 8 位透明分量表示(一个 VO 由多个其它对象构成时)。另外,通过对场景中每个物体采用适当的和精细的基于对象的运动预测工具,可以大大提高某些视频序列的压缩比,这是基于内容编码的一个重要优点。 总的来说,对于 MPEG-4,扩展的基于内容的编码可视为传统的 VLBV 内核由矩形输入向任意形状输入的逻辑延伸。3.2.2 MPEG-4 视频编码原理MPEG-4 视频部分是 MPEG-4 标准的核心内容之一。既提供传统的基于帧的编码方法又提供基于视频对象(VO)的编码方法。在某一时刻,

58、视频对象以视频对象平面(VOP )的形式出现,编码也主要针对该时刻视频对象的形状、运动和纹理这三类信息来进行(1) 形状编码:MPEG-4 引入了形状信息的编码。VO 的形状信息有两类:二值形状18信息和灰度形状信息。二值形状信息用 0, 1 来表示 VOP 的形状。二值信息的编码采用基于块的运动补偿技术,可以无损或有损编码。灰度形状信息用 0-255 之间的数值来表示 VOP 的透明程度。对灰度形状信息的编码是分别对二值形状及像素亮度值进行编码。目前对灰度形状信息的编码主要采用基于块的运动补偿与 DCT 方法,在不需要形状信息的应用中(譬如基于规则矩形框帧的视频编码),形状编码会被屏蔽掉。这

59、部分编码是以宏块为单位进行的。(2) 运动信息编码:类似于现有的编码标准,MPEG-4 采用运动预测和运动补偿技术来去除图像信息中的时间冗余成分,这些运动信息的编码技术可视为由现有标准向任意形状的 VOP 的延伸。VOP 的编码有三种模式,即帧内编码模式(I-VOP)、帧间预测编码模式(P-VOP )和双向预测编码模式(B-VOP)。在 MPEG-4 中运动预测和运动补偿可以是基于 16*16 宏块的,也可以是基于 8*8 子块的。为了能适应任意形状的 VOP, MPEG-4 引入了图像填充技术和多边形匹配技术。图像填充技术利用 VOP 内部的像素值来外推 VOP 外的像素值,以此获得运动预测

60、的参考值。对于标准宏块,采用传统的基于块的运动估计和补偿技术。(3) 纹理编码: VOP 视频的纹理信息可以表示为亮度成分 Y 和两个色度成分 Cr, Cb。帧内编码情况下,纹理信息包含有亮度和色度成分;运动补偿情况下,纹理信息表示经过运动补偿后的残差。纹理编码的对象可以是帧内编码模式的 I-VOP,也可以是帧间预测编码模式 B-VOP或 P-VOP 运动补偿后的预测误差。在帧内编码模式中,对于完全在 VOP 内的像素块,采用经典 DCT 方法。对于完全位于 VOP 之外的像素块则不进行编码;对于部分在 VOP内,部分在 VOP 外的像素块首先采用图像填充技术来获得 VOP 之外的像素值,之后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论