多媒体数据压缩技术_第1页
多媒体数据压缩技术_第2页
多媒体数据压缩技术_第3页
多媒体数据压缩技术_第4页
多媒体数据压缩技术_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章第四章 多媒体数据压缩编码技术多媒体数据压缩编码技术本章内容4.1 多媒体数据压缩编码技术的发展多媒体数据压缩编码技术的发展4.2 信息与数据信息与数据4.3 数据冗余及其类型数据冗余及其类型4.4 常用数据压缩技术常用数据压缩技术4.5 多媒体数据压缩国际标准介绍多媒体数据压缩国际标准介绍4.6 声音压缩编码技术声音压缩编码技术习题习题本章内容4.1 多媒体数据压缩编码技术的发展多媒体数据压缩编码技术的发展4.2 信息与数据信息与数据4.3 数据冗余及其类型数据冗余及其类型4.4 常用数据压缩技术常用数据压缩技术4.5 多媒体数据压缩国际标准介绍多媒体数据压缩国际标准介绍4.6 声音压

2、缩编码技术声音压缩编码技术习题习题4.1多媒体数据压缩编码技术多媒体数据压缩编码技术 数字化是今后通信产品和消费电子产品的基础技术。在对图像和数字化是今后通信产品和消费电子产品的基础技术。在对图像和语音等媒体上的信息进行数字化的过程中,由于数据中存在着很多冗语音等媒体上的信息进行数字化的过程中,由于数据中存在着很多冗余,所以,必须压缩后再进行存储和传输。经验表明,实用的压缩方余,所以,必须压缩后再进行存储和传输。经验表明,实用的压缩方法可以将运动图像数据压缩法可以将运动图像数据压缩30倍而不失真。倍而不失真。 1977年两位以色列教授发明了年两位以色列教授发明了Lempel-Ziv数据压缩技术

3、,使用了数据压缩技术,使用了查找冗余字符串和将此字符串用较短的符号标记替代的技术,并对原查找冗余字符串和将此字符串用较短的符号标记替代的技术,并对原先设想的字符串为基础的压缩技术作了实验工作。哈夫曼提出将固定先设想的字符串为基础的压缩技术作了实验工作。哈夫曼提出将固定量的字符转换为可变量的压缩输出字符的方法。量的字符转换为可变量的压缩输出字符的方法。 1980年以来,国际标准化组织(年以来,国际标准化组织(ISO)、国际电工委员会()、国际电工委员会(IEC)和国际电信联盟(和国际电信联盟(ITU)下属的国际电报电话咨询委员会()下属的国际电报电话咨询委员会(CCITT)陆续完成了各种数据压缩

4、与通信的标准和建议,如面向静止图像压缩陆续完成了各种数据压缩与通信的标准和建议,如面向静止图像压缩的的CCITT T.81及及ISO 10918(JPEG)标准,在运动图像方面用于视频会)标准,在运动图像方面用于视频会议的议的CCITT H.261(Px64)标准、用于可视电话的)标准、用于可视电话的CCITT H.263标准、标准、用于用于VCD的的ISO 11172(MPEG-1)及用于广播电视和)及用于广播电视和DVD的的ISO/IEC 13818(MPEG-2)标准和适用于低传输速率的)标准和适用于低传输速率的MPEG-4方案。方案。 我国的信息科学工作者在上述领域进行了很有成效的研究

5、我国的信息科学工作者在上述领域进行了很有成效的研究与开发工作。在国家与开发工作。在国家863计划和其它研究计划、部门计划的支持计划和其它研究计划、部门计划的支持下,无论是在理论还是实践方面都取得了很多研究成果与产品。下,无论是在理论还是实践方面都取得了很多研究成果与产品。例如,例如,VCD首先在中国被设计出来,并得到最为普及的应用。首先在中国被设计出来,并得到最为普及的应用。中科院声学所在中科院声学所在MPEG-1解码设备的设计与产业化方面做出了突解码设备的设计与产业化方面做出了突出的贡献。由哈工大和中科院计算所国家智能计算机研究开发出的贡献。由哈工大和中科院计算所国家智能计算机研究开发中心联

6、合完成的中心联合完成的MPEG-2解码设备已经成功地应用到了解码设备已经成功地应用到了DVD和和数字卫星电视接收机等产品中,并已进入产业化阶段。四川鼎数字卫星电视接收机等产品中,并已进入产业化阶段。四川鼎天公司设计的具有实时天公司设计的具有实时MPEG-1和和MPEG-2解码功能的多媒体计解码功能的多媒体计算机于算机于1996年就已经研制成功,并在当年美国秋季计算机展览年就已经研制成功,并在当年美国秋季计算机展览会上公开亮相进行了发布。会上公开亮相进行了发布。 本章内容4.1 多媒体数据压缩编码技术的发展多媒体数据压缩编码技术的发展4.2 信息与数据信息与数据4.3 数据冗余及其类型数据冗余及

7、其类型4.4 常用数据压缩技术常用数据压缩技术4.5 多媒体数据压缩国际标准介绍多媒体数据压缩国际标准介绍4.6 声音压缩编码技术声音压缩编码技术习题习题4.2.1信息与数据的概念信息与数据的概念 一个消息的可能性越小一个消息的可能性越小 , 其信息越多其信息越多; 消息的可能性越大消息的可能性越大 , 则信息越少。在数学上则信息越少。在数学上 , 所传输的消息是其出现概率的单调下所传输的消息是其出现概率的单调下降函数。信息量是指从降函数。信息量是指从 N 个相等可能事件中选出一个事件所需个相等可能事件中选出一个事件所需要的信息度量或含量要的信息度量或含量 , 也就是在辨识也就是在辨识 N 个

8、事件中特定的一个事个事件中特定的一个事件的过程中所需要提问件的过程中所需要提问 是或否是或否 的最少次数。的最少次数。 例如例如, 要从要从 256 个数中选定某一个数个数中选定某一个数 , 可以先提问可以先提问 是否大于是否大于 128? 不论回答是或否都消去了半数的可能事件不论回答是或否都消去了半数的可能事件, 这样继续问下去这样继续问下去 , 只要提问只要提问 8 次这类问题次这类问题 , 就能从就能从 256 个个 数中选定某一个数数中选定某一个数 , 这是因为每提问一这是因为每提问一次都会得到次都会得到 1bit 的信息量。因此的信息量。因此 , 在在 256 个数中选定某一个数所需

9、要个数中选定某一个数所需要的信息量是的信息量是:log2256=8bit数据:用来记录和传送信息,或者说数据是信息的载体。数据:用来记录和传送信息,或者说数据是信息的载体。信息:真正有用的不是数据本身,而是数据所携带的信息。信息:真正有用的不是数据本身,而是数据所携带的信息。 设从设从N 个数中选定任一个数个数中选定任一个数x的概率为的概率为 p(x)。 假定选定任意一个假定选定任意一个 数的概率都相等数的概率都相等 , 即即 p(x)=1/N, 定义信息量为定义信息量为 : I(x)=log2N=log2(1/N)=log2p(x) =Ip(x) 如果将信源、所有可能事件的信息量进行平均如果

10、将信源、所有可能事件的信息量进行平均, 就得到了信息的就得到了信息的 熵熵 (entropy) 。熵就是平均信息量。信源。熵就是平均信息量。信源 X 的符号集为的符号集为xi(i=1、2 N), 设设xi出现的概率为出现的概率为 p( xi ), 则信息源则信息源 X 的熵为的熵为 : H(X)=p(xi)I p(xi) =p(xi)log2p(xi)4.2.2 信息的数据量和压缩的必要性信息的数据量和压缩的必要性对多媒体数据必须进行压缩编码,因为:对多媒体数据必须进行压缩编码,因为:(1)多媒体数据数字化后的海量性)多媒体数据数字化后的海量性多媒体数据包括文本、声音、动画、图形、图像以及视频

11、等,信息从多媒体数据包括文本、声音、动画、图形、图像以及视频等,信息从单一媒体被转换成多种媒体,要表示、传输和处理大量的声音、图像单一媒体被转换成多种媒体,要表示、传输和处理大量的声音、图像甚至影视信息,其数据量是非常可观的。甚至影视信息,其数据量是非常可观的。现分别以文本、图形、图像、现分别以文本、图形、图像、音频和视频等信息为例计算其各自的信息量。音频和视频等信息为例计算其各自的信息量。(2)多媒体信号源及其表示方式呈多元化)多媒体信号源及其表示方式呈多元化多媒体信息源包括数字、文本、图形、图像、音频和视频等媒体,它多媒体信息源包括数字、文本、图形、图像、音频和视频等媒体,它们的获取方法也

12、不尽相同。这些媒体的表示方式分为模拟和数字两种。们的获取方法也不尽相同。这些媒体的表示方式分为模拟和数字两种。模拟信号指时间和幅度均是连续的信号,而数字信号则是时间和幅度模拟信号指时间和幅度均是连续的信号,而数字信号则是时间和幅度都为离散的信号。都为离散的信号。(3)多媒体信号在多种信号传输中同步控制实时性的要求高)多媒体信号在多种信号传输中同步控制实时性的要求高多媒体信号在多种信号传输中对同步控制地实时性要求很高,多媒体信号在多种信号传输中对同步控制地实时性要求很高,这给数据的存储、传输以及加工处理带来了巨大的压力,也决这给数据的存储、传输以及加工处理带来了巨大的压力,也决定了多媒体计算机必

13、需具有高速信号处理、大容量内存、足够定了多媒体计算机必需具有高速信号处理、大容量内存、足够的传输频带宽度等功能。的传输频带宽度等功能。本章内容4.1 多媒体数据压缩编码技术的发展多媒体数据压缩编码技术的发展4.2 信息与数据信息与数据4.3 数据冗余及其类型数据冗余及其类型4.4 常用数据压缩技术常用数据压缩技术4.5 多媒体数据压缩国际标准介绍多媒体数据压缩国际标准介绍4.6 声音压缩编码技术声音压缩编码技术习题习题4.3.1 冗余的基本概念冗余的基本概念媒体数据,尤其是图像、音频和视频,其数据量非常大,但这么大的媒体数据,尤其是图像、音频和视频,其数据量非常大,但这么大的数据量并不完全等于

14、其所携带的信息量,其实,表达它们所携带的信数据量并不完全等于其所携带的信息量,其实,表达它们所携带的信息量并不需要这么大的数据量。能够对数据进行压缩并大大减小其数息量并不需要这么大的数据量。能够对数据进行压缩并大大减小其数据量是因为数据存在大量的数据冗余。所谓数据冗余,就是数据量据量是因为数据存在大量的数据冗余。所谓数据冗余,就是数据量(D)与其表达的信息量()与其表达的信息量(I)不相等的现象。设冗余量为)不相等的现象。设冗余量为 ,它们的关,它们的关系可表示为:系可表示为: 如果如果du=0 , 表示数据不存在冗余,不需也不能对数据进行压缩。需表示数据不存在冗余,不需也不能对数据进行压缩。

15、需要并能够对数据进行有效压缩的条件是要并能够对数据进行有效压缩的条件是 du0。0duduDI(4-1)4.3.2 数据压缩可行性数据压缩可行性 因为视频图像或音频信号等原始信号源存在着很大的冗余因为视频图像或音频信号等原始信号源存在着很大的冗余度。由于人的视觉对亮度信息很敏感,而对边缘的急剧变化不度。由于人的视觉对亮度信息很敏感,而对边缘的急剧变化不敏感(视觉遮盖效应),同时听觉也队部分频率的音频信号不敏感(视觉遮盖效应),同时听觉也队部分频率的音频信号不敏感。因此视频或音频的数据压缩后,再做解压处理,人对恢敏感。因此视频或音频的数据压缩后,再做解压处理,人对恢复后的图像或音频信号仍有满意的

16、主观感觉,也就是说,人的复后的图像或音频信号仍有满意的主观感觉,也就是说,人的感觉能接受这种数据压缩。感觉能接受这种数据压缩。4.3.3数据冗余类型数据冗余类型多媒体数据在数字化后存在各种形式的数据冗余,常见的有以下几种多媒体数据在数字化后存在各种形式的数据冗余,常见的有以下几种类型:类型: (1)空间冗余。)空间冗余。规则物体和规则背景的表面物理特性都具有相关性,规则物体和规则背景的表面物理特性都具有相关性,数字化后表现为数字冗余。例如数字化后表现为数字冗余。例如: 当拍摄桂林风景的时候,就会发现,当拍摄桂林风景的时候,就会发现,风景画面的不少面积的颜色是完全相同的,也就是说,存在许多完全风

17、景画面的不少面积的颜色是完全相同的,也就是说,存在许多完全一样的相邻信息,完全一样的数据当然可以压缩,而十分接近的数据一样的相邻信息,完全一样的数据当然可以压缩,而十分接近的数据也可以压缩,因为恢复后人亦分辨不出它与原图有什么区别,这种压也可以压缩,因为恢复后人亦分辨不出它与原图有什么区别,这种压缩就是对空间冗余的压缩。压缩前后的对比如图缩就是对空间冗余的压缩。压缩前后的对比如图4-1所示。所示。压缩前:压缩前:3.2MB压缩后:压缩后:91.8KB图图 4-1 压缩前后对比图压缩前后对比图 (2)时间冗余。)时间冗余。序列图像(如电视图像和运动图像)和语音数据的前序列图像(如电视图像和运动图

18、像)和语音数据的前后有着很强的相关性,经常包含着冗余。在播出该序列图像时,时间后有着很强的相关性,经常包含着冗余。在播出该序列图像时,时间发生了推移,但若干幅画面的同一部位没有变化,变化的只是其中的发生了推移,但若干幅画面的同一部位没有变化,变化的只是其中的某些地方,这就形成了时间冗余。例如,有一个飞鸟在海上飞翔的动某些地方,这就形成了时间冗余。例如,有一个飞鸟在海上飞翔的动画,播出时间为每秒钟画,播出时间为每秒钟25帧,在第帧,在第1帧,第帧,第5帧,第帧,第10帧,第帧,第20帧,第帧,第30帧的画面上,大海,山石等背景毫无变化,可见前后帧有很大的相帧的画面上,大海,山石等背景毫无变化,可

19、见前后帧有很大的相关性,如图关性,如图4-2所示。所示。第第1帧帧第第5帧帧第第10帧帧第第20帧帧第第30帧帧图图4-2 相邻帧图像之间的相关性相邻帧图像之间的相关性 (3)统计冗余。)统计冗余。空间冗余和时间冗余是把图像信号看作概率信号时所空间冗余和时间冗余是把图像信号看作概率信号时所反应出的统计特性,因此,这两种冗余也被称为统计冗余。反应出的统计特性,因此,这两种冗余也被称为统计冗余。 (4)信息熵冗余。)信息熵冗余。信息熵冗余也叫信息熵冗余也叫“编码冗余编码冗余”。所谓信息熵,是指。所谓信息熵,是指对一团数据所携带的信息量,信息熵冗余则在一团数据的内部产生。对一团数据所携带的信息量,信

20、息熵冗余则在一团数据的内部产生。信息量是指从信息量是指从 个相等的可能事件中选出一个事件所需要的信息度量和个相等的可能事件中选出一个事件所需要的信息度量和含量,即在含量,即在 个事件中辨识特定的一个事件的过程中需要提问个事件中辨识特定的一个事件的过程中需要提问“是或否是或否”的次数。将信源所有可能事件的信息量进行平均,即为信息的的次数。将信源所有可能事件的信息量进行平均,即为信息的“熵熵”(entropy),熵是平均信息量。信息熵可表示为:),熵是平均信息量。信息熵可表示为:)(log)(210ikiixpxpE(4-2) 式中,式中, 为信息熵,为信息熵, 为数据组中数据的种类或码元数,为数

21、据组中数据的种类或码元数, 为码元为码元 发生的发生的概率。概率。 一组数据的数据量显然等于各记录码的二进制位(一组数据的数据量显然等于各记录码的二进制位(bit)数(即编)数(即编码长度)与该码元出现的概率的乘积之和,即码长度)与该码元出现的概率的乘积之和,即式中,式中, 为数据量,为数据量, 和和 同上,同上, 为分配给码元为分配给码元 的比特数。的比特数。 若要求不存在数据冗余,即冗余量若要求不存在数据冗余,即冗余量 , 则需有则需有)()(10ikiixbxpD(4-3))(log)(2iixpxb(4-4) 由于实际中很难预估出由于实际中很难预估出 ,因此,为处理上简单,一般把所有码

22、元,因此,为处理上简单,一般把所有码元记录成相同的二进制位数记录成相同的二进制位数 。这样所得的。这样所得的 必然大于必然大于 ,即,即 。这种因码元。这种因码元编码长度的不经济而引起的数据冗余称做熵冗余,又叫编码长度的不经济而引起的数据冗余称做熵冗余,又叫编码冗余编码冗余。 (5)结构冗余。)结构冗余。数字化图像中物体表面纹理等结构往往存在着数字化图像中物体表面纹理等结构往往存在着数据冗余,这种冗余叫结构冗余。当一幅图像中有很强的结构数据冗余,这种冗余叫结构冗余。当一幅图像中有很强的结构特性,如布纹和草席图像等,其纹理很规范清晰,于是它们在特性,如布纹和草席图像等,其纹理很规范清晰,于是它们

23、在结构上存在着极大的相似性,也就存在着较强的结构冗余。结构上存在着极大的相似性,也就存在着较强的结构冗余。 (6)知识冗余。)知识冗余。由图像的记录方式与人对图像的知识差异而产由图像的记录方式与人对图像的知识差异而产生的冗余。人对许多图像的理解与某些基础知识有很大的相关生的冗余。人对许多图像的理解与某些基础知识有很大的相关性。许多规律性的结构人可以由先验知识和背景知识得到。而性。许多规律性的结构人可以由先验知识和背景知识得到。而计算机存储图像时还得把一个个像素信息存入,这就形成冗余。计算机存储图像时还得把一个个像素信息存入,这就形成冗余。 (7)视觉冗余。)视觉冗余。人类的视觉系统对于图像场的

24、注意是非均匀和人类的视觉系统对于图像场的注意是非均匀和非线性的,并不是对图像中的任何变化都能感知,而在实际图非线性的,并不是对图像中的任何变化都能感知,而在实际图像中存在大量的用于描述人类的视觉系统不能察觉的细节变化像中存在大量的用于描述人类的视觉系统不能察觉的细节变化的数据。事实上,人类的视觉系统的一般分辨能力为的数据。事实上,人类的视觉系统的一般分辨能力为106灰度级,灰度级,而一般图像的量化采用的是而一般图像的量化采用的是108灰度级。这种从人类视觉系统的灰度级。这种从人类视觉系统的分辨能力上看,图像数据中存在的数据冗余,叫做视觉冗余。分辨能力上看,图像数据中存在的数据冗余,叫做视觉冗余

25、。 (8)其它冗余。)其它冗余。除了前面所述的几种数据冗余以外,由于图像除了前面所述的几种数据冗余以外,由于图像空间的非定常特性而产生的冗余,以及其它种类的冗余,均属空间的非定常特性而产生的冗余,以及其它种类的冗余,均属于其它冗余之列。于其它冗余之列。本章内容4.1 多媒体数据压缩编码技术的发展多媒体数据压缩编码技术的发展4.2 信息与数据信息与数据4.3 数据冗余及其类型数据冗余及其类型4.4 常用数据压缩技术常用数据压缩技术4.5 多媒体数据压缩国际标准介绍多媒体数据压缩国际标准介绍4.6 声音压缩编码技术声音压缩编码技术习题习题4.4 常用数据压缩技术常用数据压缩技术 数据压缩包括两个相

26、反的过程数据压缩包括两个相反的过程,其一其一是数据编码,即对原是数据编码,即对原始数据进行编码,形成压缩编码,以减小其数据量后进行传送始数据进行编码,形成压缩编码,以减小其数据量后进行传送和存储;和存储;另一个另一个是数据解码,即将解码数据还原成原始的表示是数据解码,即将解码数据还原成原始的表示形式。上述两个过程是互逆的。形式。上述两个过程是互逆的。4.4.1 根据解码后数据与原始数据是根据解码后数据与原始数据是否完全一致进行分类否完全一致进行分类(1)无损(失真)压缩编码:)无损(失真)压缩编码:无损压缩是可逆的编码方法,编码数据无损压缩是可逆的编码方法,编码数据解码后的数据与编码前的原始数

27、据完全相同,没有任何偏差和失真。解码后的数据与编码前的原始数据完全相同,没有任何偏差和失真。此类压缩编码的压缩比大约在此类压缩编码的压缩比大约在2:15:1之间。如之间。如Huffman编码、算术编码、算术编码、行程长度编码和词典编码等。编码、行程长度编码和词典编码等。(2)有损(失真)压缩编码:)有损(失真)压缩编码:有失真压缩是不可逆编码方法,编码有失真压缩是不可逆编码方法,编码数据解码后的数据与编码前的原始数据有一定偏差和失真,但视觉效数据解码后的数据与编码前的原始数据有一定偏差和失真,但视觉效果一般可被接受。压缩比可以从几倍到上百倍。如果一般可被接受。压缩比可以从几倍到上百倍。如PCM

28、(脉冲编码调(脉冲编码调制)、预测编码、变换编码(主要是离散余弦变换方法)、插值和外制)、预测编码、变换编码(主要是离散余弦变换方法)、插值和外推法(空域亚采样、时域亚采样、自适应)等等。推法(空域亚采样、时域亚采样、自适应)等等。图图4-3展示了这种数据压缩方法的分类。展示了这种数据压缩方法的分类。矢量量化矢量量化标量量化标量量化滤波滤波子采样子采样比特分配比特分配量化量化变换编码变换编码子带编码子带编码子波变换子波变换混合编码混合编码数据压缩技术数据压缩技术无损压缩无损压缩哈夫曼编码哈夫曼编码行程编码行程编码预测编码预测编码算术编码算术编码词典编码词典编码运动补偿运动补偿面向频域面向频域面

29、向重要性面向重要性有损压缩有损压缩H.261MPEGJPEG图图 4-3 压缩方法分类压缩方法分类4.4.2 根据数据压缩的原理进行划分根据数据压缩的原理进行划分 1、预测编码、预测编码 它是利用空间中相邻数据的相关性它是利用空间中相邻数据的相关性 , 利用过去和现在出现过的点的数利用过去和现在出现过的点的数据情况来预测未来点的数据。通常用的方法是差分脉冲编码调制据情况来预测未来点的数据。通常用的方法是差分脉冲编码调制 (DPCM) 和自适应差分脉冲编码调制和自适应差分脉冲编码调制 (ADPCM) 。 2、变换编码、变换编码该方法将图像光强矩阵该方法将图像光强矩阵 ( 时域信号时域信号 ) 变

30、换到频域空间上进行处理。变换到频域空间上进行处理。 在在时域空间上具有强相关的信号时域空间上具有强相关的信号 , 反映在频域上是某些特定的区域内能反映在频域上是某些特定的区域内能量常常被集中在一起量常常被集中在一起 , 我们只需将主要注意力放在相对小的区域上我们只需将主要注意力放在相对小的区域上 , 从而实现压缩。一般采用正交变换从而实现压缩。一般采用正交变换 , 如离散余弦变换如离散余弦变换 (DCT) 、离散傅、离散傅立叶变换立叶变换 (DFT) 、Walsh-Hadamard 变换变换 (WHT)和小波变换和小波变换 (WT), 来实现压缩算法。来实现压缩算法。 3、量化与向量量化编码、

31、量化与向量量化编码对模拟信号进行数字化时对模拟信号进行数字化时 , 要经历一个量化的过程。要经历一个量化的过程。 为了使整体量化为了使整体量化失真最小失真最小 , 就必须依照统计的概率分布设计最优的量化器。最优量化就必须依照统计的概率分布设计最优的量化器。最优量化器一般是非线性的器一般是非线性的 , 已知最优量化器是已知最优量化器是 Max 量化器。我们对像元点进量化器。我们对像元点进行量化时行量化时 , 除了每次仅量化一个点的做法外除了每次仅量化一个点的做法外 , 也可以考虑一次量化多也可以考虑一次量化多个点的做法个点的做法 , 这种方法称为向量量化。例如我们每次量化相邻的两个这种方法称为向

32、量量化。例如我们每次量化相邻的两个点点 , 将两个点用一个量化码字表示。向量量化的数据压缩能力实际上将两个点用一个量化码字表示。向量量化的数据压缩能力实际上与预测方法相近。与预测方法相近。 4、统计编码、统计编码(信息熵编码信息熵编码)这是根据信息熵原理这是根据信息熵原理 , 让出现概率大的符号用短的码字表达让出现概率大的符号用短的码字表达 , 反之用反之用长的码字表示。最常见的方法如长的码字表示。最常见的方法如 Huffman 编码、编码、Shannon 编码以及编码以及算术编码。算术编码。 5、子带、子带 (subband) 编码编码将图像数据变换到频域后将图像数据变换到频域后 , 按频域

33、分带按频域分带 , 然后用不同的量化器进行量然后用不同的量化器进行量化化 , 从而达到最优的组从而达到最优的组合。或者分步渐近编吗合。或者分步渐近编吗 , 在初始时在初始时 , 对某一频带的对某一频带的 信号进行解码信号进行解码 , 然然后逐渐扩展到所有频带。随着解码数据的增加后逐渐扩展到所有频带。随着解码数据的增加 , 解码图像也逐渐变得解码图像也逐渐变得清晰。清晰。 6、模型编码、模型编码编码时首先将图像中的边界、轮廓、纹理等结构特征找出来编码时首先将图像中的边界、轮廓、纹理等结构特征找出来 , 然后保然后保存这些参数信息。解码时根据结存这些参数信息。解码时根据结构和参数信息进行合成构和参

34、数信息进行合成 , 恢复原图像。具体方法有轮廓编码、域分割恢复原图像。具体方法有轮廓编码、域分割编码、分析合成编码、识别合成编码编码、分析合成编码、识别合成编码基于知识的编码和分形编码等。基于知识的编码和分形编码等。本章内容4.1 多媒体数据压缩编码技术的发展多媒体数据压缩编码技术的发展4.2 信息与数据信息与数据4.3 数据冗余及其类型数据冗余及其类型4.4 常用数据压缩技术常用数据压缩技术4.5 多媒体数据压缩国际标准介绍多媒体数据压缩国际标准介绍4.6 声音压缩编码技术声音压缩编码技术习题习题 4.5多媒体数据压缩国际标准介绍多媒体数据压缩国际标准介绍 多媒体计算机的关键问题是计算机实时

35、综合处理声、文、多媒体计算机的关键问题是计算机实时综合处理声、文、图等信息。图等信息。数字化的图像(静态图像、视频图像)和声音信号数字化的图像(静态图像、视频图像)和声音信号数据量是非常大的,要使实时处理和传送这些数据成为可能,数据量是非常大的,要使实时处理和传送这些数据成为可能,必须对这些多媒体数据进行编码或压缩。从必须对这些多媒体数据进行编码或压缩。从80年代开始,一些年代开始,一些国际标准组织协同工作,已建立起三个压缩编码标准架,即联国际标准组织协同工作,已建立起三个压缩编码标准架,即联合图片专家组(合图片专家组(Joint Photographic Experts Group)制定的)

36、制定的JPEG标准,动态图像专家组(标准,动态图像专家组(Moving Picture Experts Group)制定的制定的MPEG标准以及国际标准化组织标准以及国际标准化组织ISO和国际电话电报咨询和国际电话电报咨询委员会委员会CCITT制定的制定的ISO H.261或或CCITT P64标准。标准。4.5.1 静态图像压缩编码标准静态图像压缩编码标准JPEG 静态图像压缩编码标准静态图像压缩编码标准JPEG也叫多灰度连续色调静态图像也叫多灰度连续色调静态图像压缩编码是由压缩编码是由ISO联合图片专家组为单帧彩色图像的压缩编码联合图片专家组为单帧彩色图像的压缩编码而制定的标准,是适用于彩

37、色和单色多灰度或连续色彩静止数而制定的标准,是适用于彩色和单色多灰度或连续色彩静止数字图像的压缩标注。它包括无损压缩和基于离散余弦变换和字图像的压缩标注。它包括无损压缩和基于离散余弦变换和Huffman编码的有损压缩两个部分。图像尺寸可在编码的有损压缩两个部分。图像尺寸可在165535行行帧,帧,165535像素行的范围内。像素行的范围内。JPEG标准是一个适用范围标准是一个适用范围广泛的通用标准,它不仅适于静图像的压缩,电视图像序列的广泛的通用标准,它不仅适于静图像的压缩,电视图像序列的帧内图像的压缩编码,也常采用帧内图像的压缩编码,也常采用JPEG压缩标准。压缩标准。(1)JPEG算法压缩

38、过程:算法压缩过程:88块原始数据FDCT正变换量化器熵编码器表说明表说明编码器(2)JPEG算法解压缩过程:算法解压缩过程:熵解码器逆量化器IDCT逆变换恢复数据压缩数据88块表说明表说明解码器(3)JEPG算法主要计算步骤算法主要计算步骤 DCT变换变换(离散余弦变换离散余弦变换): 在编码过程中,源图像在输入到编码器前,被分割成一系列在编码过程中,源图像在输入到编码器前,被分割成一系列顺序排列的由顺序排列的由88像点构成的数据块,同时把作为原始采样数据的像点构成的数据块,同时把作为原始采样数据的无符号整数要经过电平移位转换为有符号整数。无符号整数要经过电平移位转换为有符号整数。 对每一个

39、子块,对每一个子块,进行进行DCT变换,得到变换,得到DCT系数矩阵。系数矩阵。DCT变换,即离散余弦变化。变换,即离散余弦变化。DCT(x,y)= f(像素(像素(x,y)。)。 经过经过DCT变换后就得到频域的变换后就得到频域的64个离散余弦变换系数,然后,要对这个离散余弦变换系数,然后,要对这64个系数进行量化,量化个系数进行量化,量化是根据是根据“表说明表说明”也就是量化表进行的。也就是量化表进行的。 量化处理量化处理 量化实际上是试图确定什么信息可以安全地消去,而没有任量化实际上是试图确定什么信息可以安全地消去,而没有任何明显的视觉保真度损失,是一种降低整数精度的过程,因此就减何明显

40、的视觉保真度损失,是一种降低整数精度的过程,因此就减少了存储整数所需的位数。少了存储整数所需的位数。 量化处理是多到一的映射,是造成量化处理是多到一的映射,是造成DCT编解码信息损失的主编解码信息损失的主要原因。要原因。JPEG在在JPEG标准中采用线性均匀量化器。标准中采用线性均匀量化器。 系数的编码和系数的编码和 系数的行程编码系数的行程编码 量化后得到的仍是量化后得到的仍是64个系数,量个系数,量化并没有改变系数的性质。化并没有改变系数的性质。DCT变换变换是将数据域从时域变换到频域,在频是将数据域从时域变换到频域,在频域平面上变换系数是二维频域变量域平面上变换系数是二维频域变量 和和

41、的函数。对应于的函数。对应于 =0, =0的系数称做的系数称做直流分量,即直流分量,即 系数(位于系数(位于88块的左块的左上角),上角),88图像块经过图像块经过DCT变换之变换之后得到的后得到的DC直流系数有两个特点:一直流系数有两个特点:一是系数的数值比较大,二是相邻是系数的数值比较大,二是相邻88图像块的图像块的DC系数值变化不大,如图系数值变化不大,如图4-11所示。所示。 根据这个特点,根据这个特点,JPEG算法使用了差算法使用了差分脉冲编码(分脉冲编码(DPCM)技术,对相邻)技术,对相邻图像块之间量化图像块之间量化DC系数的差值系数的差值Delta进行编码。进行编码。 Delt

42、a DC(0,0)DC(0,0)k-1Blocki-1DCi-1Blocki-1DCiDIFF=DCi-1-DCi图图4-6 系数差分编码系数差分编码 其余其余63个系数称做交流分量,即个系数称做交流分量,即 系数。量化系数。量化AC系数的特点是系数的特点是164矢量中包含许多矢量中包含许多0系数,并且许多系数,并且许多0是连续的,因此使用非常简单是连续的,因此使用非常简单和直观的游程长度编码(和直观的游程长度编码(RLE)对它们进行编码。)对它们进行编码。JEPG使用了使用了1个字个字节的高节的高4位来表示连续位来表示连续0的个数,而使用它的低的个数,而使用它的低4位来表示编码下一个位来表示

43、编码下一个非非0系数所需要的位数,跟在它后面的是量化系数所需要的位数,跟在它后面的是量化AC系数的数值,如图系数的数值,如图4-12所示。所示。DCAC01AC07AC70AC77图图4-7 “Z”字形排列字形排列 熵编码熵编码 为了进一步达到压缩数据的目的,需对量化后的为了进一步达到压缩数据的目的,需对量化后的 系数和行系数和行程编码后的程编码后的 系数进行基于统计特性的熵编码。系数进行基于统计特性的熵编码。JPEG建议使用两建议使用两种熵编码方法:哈夫曼(种熵编码方法:哈夫曼(Huffman)编码和自适应二进制算术)编码和自适应二进制算术编码(编码(Adaptive Binary Arit

44、hmetic Coding)。)。 在基本系统中,熵编码采用可变长代码(在基本系统中,熵编码采用可变长代码(VLC)和可变长)和可变长整数(整数(VCI)进行。常见的变长代码是哈夫曼代码,用短代码表)进行。常见的变长代码是哈夫曼代码,用短代码表示频率出现的符号,用较长代码表示偶然出现的符号。示频率出现的符号,用较长代码表示偶然出现的符号。组号系数哈夫曼码哈夫曼表分组附加位图图4-8 DC系数编码过程系数编码过程 DC测生成的差分测生成的差分DC 系数因其高度的相关性而在数值上很系数因其高度的相关性而在数值上很小。每个小。每个D C 系数被编码为一个系数被编码为一个VLC和和VCI,VLC表示表

45、示DC 项有项有意义位的数量,意义位的数量,VCI表示其值本身。编码表示其值本身。编码VLC时,首先根据时,首先根据 DC差分分组表确定差分分组表确定 有意义位的位长或组号有意义位的位长或组号 ,然后按位长或组号选,然后按位长或组号选择择 的的VLC表编码,在该表编码,在该VLC之后加一个表示差分之后加一个表示差分 系数的值系数的值(VCI)。哈夫曼编码需要有一个哈夫曼表,用来记录事件与其)。哈夫曼编码需要有一个哈夫曼表,用来记录事件与其编码的对应关系,有了哈夫曼表才能根据该表对事件进行编码编码的对应关系,有了哈夫曼表才能根据该表对事件进行编码或解码。或解码。JPEG事先作大量统计形成哈夫曼表

46、,将该表固定在发事先作大量统计形成哈夫曼表,将该表固定在发送端和接收端,用查表法作编码。送端和接收端,用查表法作编码。DC 系数编码过程如图系数编码过程如图4-13所所示。示。01 2 3 4 13 14 150EOB(块结束符)连续数0的个数1222131415ZRL(零游程)游程组号值图图4-9 游程编码示意图游程编码示意图 “Z”形扫描后的每一个非零形扫描后的每一个非零AC 系数都用系数都用 (二进制)形式的一个(二进制)形式的一个组合的组合的8位值表示,其中低位值表示,其中低4位位 表示表示“Z”形序列中非零形序列中非零 系数的大小所系数的大小所属的分组号;高属的分组号;高4位位AC表

47、示该系数相对前一个非零表示该系数相对前一个非零AC系数的零的个数,系数的零的个数,即零值游程,如图即零值游程,如图4-14所示。它们各占四位二进制数,两者合为一个所示。它们各占四位二进制数,两者合为一个字节。对字节。对0的游程采用变长方式,限制在四位二进制数内,最大值为的游程采用变长方式,限制在四位二进制数内,最大值为15,组号占用位和编码前的分组一致。组号占用位和编码前的分组一致。0游程采用游程采用4bits,这一方面是因为,这一方面是因为4bits的游程加组号正好合成一个字节,便于哈夫曼编码;另一方面是的游程加组号正好合成一个字节,便于哈夫曼编码;另一方面是因为因为“Z”形扫描后相临的形扫

48、描后相临的“Z”形扫描序列是相临的,最大固定长度形扫描序列是相临的,最大固定长度不会超过不会超过63,且每一个,且每一个“Z”形块内的连续形块内的连续0的个数一般不超过的个数一般不超过32。基。基于此,即主要是从用较少的比特位表示连续值的个数和便于哈夫曼编于此,即主要是从用较少的比特位表示连续值的个数和便于哈夫曼编码的角度出发,选择这一作法。码的角度出发,选择这一作法。AC 系数编码过程如图系数编码过程如图4-15所示。所示。附加位组号系数哈夫曼码哈夫曼表分组“Z”形扫描游程编码图图4-10 AC 系数编码过程系数编码过程4.5.2 运动图像压缩标准运动图像压缩标准MPEG 国际标准化组织国际

49、标准化组织ISO建立了一个制定有关动态图像编码压缩标准建立了一个制定有关动态图像编码压缩标准的组织的组织MPEG(Moving Picture Expert Group),),MPEG下设四个小下设四个小组:视频组(组:视频组(MPEG-Video),音频组(),音频组(MPEG-Audio),系统组),系统组(MPEG-System)和一致性测试组。视频组主要研究压缩传输速度)和一致性测试组。视频组主要研究压缩传输速度上限为上限为1.5Mbits/s的视频信号,音频组主要研究压缩每信道的视频信号,音频组主要研究压缩每信道64、128和和192Kbits/s的数字音频信号,系统组则解决多道压缩

50、视频、音频位流的数字音频信号,系统组则解决多道压缩视频、音频位流的同步和合成问题。该专家组开发的标准称为的同步和合成问题。该专家组开发的标准称为MPEG标准,目前,已标准,目前,已开发和正在开发的开发和正在开发的MPEG标准有标准有MPEG-1,MPEG-2,MPEG-4,MPEG-7,MPEG-21等,如表等,如表4-5所示所示。标准简称标准简称标准全称标准全称制定专家组制定专家组批准时间批准时间MPEG-1最高约最高约1.5Mbps数字存储媒体的运动图像及数字存储媒体的运动图像及伴音编码(伴音编码(Coding of Moving Picture and Associated Audio

51、for Digital Storage Media at up to about 1.5Mbps)标准)标准运动图像专家运动图像专家组组(第(第1阶段)阶段)1988年开始制定,年开始制定,1992年年11月通过,作为月通过,作为ISO/IEC 11172号文件号文件MPEG-2运动图像及伴音编码(运动图像及伴音编码(Coding of Moving Pictures and Assodiated Audio)标准(视)标准(视频码率:频码率:410Mbps)运动图像专家运动图像专家组组(第(第2阶段)阶段)1990年年7月开始制定,月开始制定,1994年年11月通过,作月通过,作为为ISO/

52、IEC 13818号文件或号文件或ITU-TH.262建议建议MPEG-4视音频对象的编码(视音频对象的编码(Coding of Audio-Visual Object)标准(视频码率:)标准(视频码率:5kbps5Mbps)运动图像专家运动图像专家组组1993年年7月开始制定,月开始制定,1999年年5月通过,作为月通过,作为ISO/IEC 14496号文件号文件MPEG-7多媒体多媒体内容描述接口(多媒体多媒体内容描述接口(Multimedia Content Description Interface)标准)标准运动图像专家运动图像专家组组1997年年7月开始制定,月开始制定,2001年

53、年12月产生标准月产生标准草案,作为草案,作为ISO/IEC 15938号文件号文件MPEG-21多媒体框架(多媒体框架(Multimedia Framework)标)标准准运动图像专家运动图像专家组组1991年年10月形成多媒体框架理念,月形成多媒体框架理念,2000年年5月开始制定,原计划月开始制定,原计划2002年年2月完成月完成表表4-5 MPEG标准标准1MPEG-1标准标准 在设计动态图像的编码压缩算法时,主要矛盾是:一方面仅靠帧在设计动态图像的编码压缩算法时,主要矛盾是:一方面仅靠帧内编码的方法无法保证在良好的画面质量前提下而达到很高的压缩比;内编码的方法无法保证在良好的画面质量

54、前提下而达到很高的压缩比;另一方面用单一静止的帧内编码方法又能最好地满足随机存取的要求。另一方面用单一静止的帧内编码方法又能最好地满足随机存取的要求。为了同时满足高压缩比和随机存取这两方面的要求,为了同时满足高压缩比和随机存取这两方面的要求,MPEG推荐的标推荐的标准化算法,必须使用帧间和帧内编码技术。准化算法,必须使用帧间和帧内编码技术。MPEG标准统筹平衡帧内标准统筹平衡帧内编码和帧间编码、空间和时间冗余度、递归和非递归之间的关系。编码和帧间编码、空间和时间冗余度、递归和非递归之间的关系。MPEG标准采用的技术就是预测和内插技术,也就是用块的补偿技术标准采用的技术就是预测和内插技术,也就是

55、用块的补偿技术来减少时间上的冗余信息,用基于来减少时间上的冗余信息,用基于DCT变换的变换的ADCT技术来减少空间技术来减少空间上的冗余信息。运动补偿技术采用因果预测和非因果预测(内插编码)上的冗余信息。运动补偿技术采用因果预测和非因果预测(内插编码)技术。采用运动补偿技术对提高编码压缩比很有好处,尤其对于运动技术。采用运动补偿技术对提高编码压缩比很有好处,尤其对于运动部分只占整个画面较小的会议电视和可视电话,可达到很高的压缩比。部分只占整个画面较小的会议电视和可视电话,可达到很高的压缩比。运动补偿方法是跟踪画面内的运动情况对其加以补偿之后再进行帧间运动补偿方法是跟踪画面内的运动情况对其加以补

56、偿之后再进行帧间预测的一种方法。预测的一种方法。(1)MPEG-1视频数据流视频数据流MPEG将运动图像数据流定义成运动图像序列,运动图像序列将运动图像数据流定义成运动图像序列,运动图像序列是随机访问的单元,是随机访问的单元,MPEG动态图像的数据流结构包含表头、动态图像的数据流结构包含表头、一组或多组图像和序列结束标志码。一组或多组图像和序列结束标志码。MPEG还定义了块、宏块还定义了块、宏块图像切片等,数据码流结构如图图像切片等,数据码流结构如图4-11所示。所示。图像组头结束标志运动图像序列图像 图像切片宏块8像素块8像素图图4-11 MPEG-1视频数据流结构视频数据流结构 运动序列运

57、动序列运动序列包括一个表头,一组或多组图像和序列结束标志码。运动序列包括一个表头,一组或多组图像和序列结束标志码。在图像序列头中包含了诸如图像尺寸、图像分辨率、帧速率、在图像序列头中包含了诸如图像尺寸、图像分辨率、帧速率、位速率、缓冲区大小等参数,使得位速率、缓冲区大小等参数,使得MPEG具有很大的灵活性。具有很大的灵活性。 图像组(图像组(GOP:Group Of Pictures)图像组由一系列图像和数据头组成,可以从运动序列中随机存图像组由一系列图像和数据头组成,可以从运动序列中随机存取。图像组中每个图像可以是取。图像组中每个图像可以是I-图像、图像、P-图像或图像或B-图像,但是图像,

58、但是其第一个图像总为其第一个图像总为I-图像,它包含了一幅图像的最基本内容,图像,它包含了一幅图像的最基本内容,其目的是给编辑提供接入点。其目的是给编辑提供接入点。 图像图像图像是动态图像序列中最原始的编码图像是动态图像序列中最原始的编码单位,对应于视频序列中的单个帧。单位,对应于视频序列中的单个帧。图像信号由图像信号由3部分组成:一个亮度信部分组成:一个亮度信号号 和两个色度信号和两个色度信号 , 。亮度信号。亮度信号 由由偶数个行和偶数个列组成,色度信偶数个行和偶数个列组成,色度信号号 ,分别取分别取 信号在水平和垂直方向的信号在水平和垂直方向的1/2。如图如图4-12所示,黑点代表色度所

59、示,黑点代表色度 , 的的位置,亮度位置,亮度 位置用白圈表示。位置用白圈表示。 块块块是块是MPEG编码方案中最小的编码单编码方案中最小的编码单元,一个块由一个元,一个块由一个88像素的亮度信像素的亮度信息或一个息或一个88像素的色度信息组成。像素的色度信息组成。一个色度只是相应亮度块显示图像大一个色度只是相应亮度块显示图像大小的小的1/4,一个块是一个,一个块是一个DCT变换单变换单元。元。图图4-12 Y与与U 、V 的位置关系的位置关系 宏块。宏块。宏块是宏块是MPEG编码方案中的基本编码编码方案中的基本编码单元,即进行运动补偿的基本单元。它由图像单元,即进行运动补偿的基本单元。它由图

60、像帧内的帧内的1616像素的亮度信息和两个像素的亮度信息和两个88像素的像素的色度信息(色度信息( 、 各一块)及附加数据组成。如图各一块)及附加数据组成。如图4-13所示,图中数字标明其中数据流的次序。所示,图中数字标明其中数据流的次序。附加数据包括宏块的编号、宏块的编码类型、附加数据包括宏块的编号、宏块的编码类型、量化参数、运动矢量等信息。量化参数、运动矢量等信息。 图像切片。图像切片。由一个或多个连续的宏块构成,由一个或多个连续的宏块构成,是是MPEG编码方案中的基本处理单元。只有当编码方案中的基本处理单元。只有当切片中的所有像素都有效时,块和宏块的编码切片中的所有像素都有效时,块和宏块

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论