多媒体技术教程V4-ch3_第1页
多媒体技术教程V4-ch3_第2页
多媒体技术教程V4-ch3_第3页
多媒体技术教程V4-ch3_第4页
多媒体技术教程V4-ch3_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、普通高等教育“十一五”国家级规划教材多媒体技术教程人民邮电出版社国防科学技术大学版权所有第三章 多媒体数据压缩普通高等教育“十一五”国家级规划教材多媒体技术教程人民邮电出版社国防科学技术大学版权所有 3.1 多媒体数据压缩 技术概述普通高等教育“十一五”国家级规划教材多媒体技术教程3.1 3.1 多媒体数据压缩技术概述多媒体数据压缩技术概述 压缩的必要性压缩的必要性 音频、视频的数据量很大,如果不进行处理,音频、视频的数据量很大,如果不进行处理,计算机系统几乎无法对它进行存取和交换。计算机系统几乎无法对它进行存取和交换。 例如,一幅具有中等分辨率(例如,一幅具有中等分辨率(640480)的)的

2、真彩色图像(真彩色图像(24b/像素),它的数据量约为像素),它的数据量约为7.37Mb/帧,一个帧,一个 100MB(Byte)的硬盘只能存的硬盘只能存放约放约100帧图像。若要达到每秒帧图像。若要达到每秒25帧的全动态显示帧的全动态显示要求,每秒所需的数据量为要求,每秒所需的数据量为184Mb,而且要求系而且要求系统的数据传输率必须达到统的数据传输率必须达到184Mb/s。对于声音也对于声音也是如此,若采用是如此,若采用16b样值的样值的PCM编码,采样速率编码,采样速率选为选为44.1kHZ,则双声道立体声声音每秒将有则双声道立体声声音每秒将有176KB的数据量。的数据量。普通高等教育“

3、十一五”国家级规划教材多媒体技术教程3.1 3.1 多媒体数据压缩技术概述多媒体数据压缩技术概述视频、视频、图像、声音有很大的压缩潜力图像、声音有很大的压缩潜力 信息论认为:若信源编码的熵大于信信息论认为:若信源编码的熵大于信源的实际熵,该信源中一定存在冗余度。源的实际熵,该信源中一定存在冗余度。 原始信源的数据存在着很多冗余度:空原始信源的数据存在着很多冗余度:空间冗余、时间冗余、视觉冗余、听觉冗余间冗余、时间冗余、视觉冗余、听觉冗余等。等。普通高等教育“十一五”国家级规划教材多媒体技术教程数据冗余的类型数据冗余的类型 一幅图象中同一种颜色不止一个象素点,若一幅图象中同一种颜色不止一个象素点

4、,若相邻的象素点的值相同,象素点间(水平、垂直)相邻的象素点的值相同,象素点间(水平、垂直)有冗余。有冗余。 (空间冗余)(空间冗余) 当图象的一部分包含占主要地位的垂直的源对当图象的一部分包含占主要地位的垂直的源对象时,相邻线间存在冗余。象时,相邻线间存在冗余。 (空间冗余)(空间冗余) 若图象稳定或只有轻微的改变,运动序列帧间若图象稳定或只有轻微的改变,运动序列帧间存在冗余。存在冗余。 (时间冗余)(时间冗余)普通高等教育“十一五”国家级规划教材多媒体技术教程数据冗余的类型数据冗余的类型l空间冗余:在同一幅图像中,规则物体和规则背景空间冗余:在同一幅图像中,规则物体和规则背景的表面物理特性

5、具有相关性,这些相关性的光成像的表面物理特性具有相关性,这些相关性的光成像结果在数字化图像中就表现为数据冗余。结果在数字化图像中就表现为数据冗余。l时间冗余:时间冗余反映在图像序列中就是相邻帧时间冗余:时间冗余反映在图像序列中就是相邻帧图像之间有较大的相关性,一帧图像中的某物体或图像之间有较大的相关性,一帧图像中的某物体或场景可以由其它帧图像中的物体或场景重构出来。场景可以由其它帧图像中的物体或场景重构出来。音频的前后样值之间也同样有时间冗余。音频的前后样值之间也同样有时间冗余。普通高等教育“十一五”国家级规划教材多媒体技术教程数据冗余的类型数据冗余的类型l信息熵冗余:信源编码时,当分配给第信

6、息熵冗余:信源编码时,当分配给第i个码元类的比特数个码元类的比特数b(yi)=-logpi,才能使编码后单位数据量等于其信源熵,才能使编码后单位数据量等于其信源熵,即达到其压缩极限。但实际中各码元类的先验概率很难预即达到其压缩极限。但实际中各码元类的先验概率很难预知,比特分配不能达到最佳。实际单位数据量知,比特分配不能达到最佳。实际单位数据量dH(S),),即存在信息冗余熵。即存在信息冗余熵。l视觉冗余:人眼对于图像场的注意是非均匀的,人眼并不视觉冗余:人眼对于图像场的注意是非均匀的,人眼并不能察觉图像场的所有变化。事实上人类视觉的一般分辨能能察觉图像场的所有变化。事实上人类视觉的一般分辨能力

7、为力为26灰度等级,而一般图像的量化采用的是灰度等级,而一般图像的量化采用的是28灰度等级,灰度等级,即存在着视觉冗余。即存在着视觉冗余。普通高等教育“十一五”国家级规划教材多媒体技术教程数据冗余的类型数据冗余的类型l听觉冗余:人耳对不同频率的声音的敏感性听觉冗余:人耳对不同频率的声音的敏感性是不同的,并不能察觉所有频率的变化,对是不同的,并不能察觉所有频率的变化,对某些频率不必特别关注,因此存在听觉冗余。某些频率不必特别关注,因此存在听觉冗余。l其它冗余:包括结构冗余、知识冗余等。其它冗余:包括结构冗余、知识冗余等。普通高等教育“十一五”国家级规划教材多媒体技术教程数据压缩方法的分类数据压缩

8、方法的分类 根据解码后数据与原始数据是否完全一致可以根据解码后数据与原始数据是否完全一致可以分为两大类:一类是熵编码、冗余压缩法,也称无分为两大类:一类是熵编码、冗余压缩法,也称无损压缩法、无失真压缩法;二是熵压缩法,也称有损压缩法、无失真压缩法;二是熵压缩法,也称有损压缩法、有失真压缩法。损压缩法、有失真压缩法。 从从“熵熵”损失角度分为无损压缩和有损压缩两损失角度分为无损压缩和有损压缩两种:种: 无失真压缩,又称熵编码。由于不会失真,多无失真压缩,又称熵编码。由于不会失真,多用于文本、数据的压缩,但也有例外,非线性编辑用于文本、数据的压缩,但也有例外,非线性编辑系统为了保证视频质量,有些高

9、档系统采用的是无系统为了保证视频质量,有些高档系统采用的是无失真压缩方法。失真压缩方法。 有失真压缩,又称熵压缩法。大多数图像、声有失真压缩,又称熵压缩法。大多数图像、声音、动态视频等数据的压缩是采用有失真压缩。音、动态视频等数据的压缩是采用有失真压缩。普通高等教育“十一五”国家级规划教材多媒体技术教程数据压缩方法的分类数据压缩方法的分类 从信息语义角度分为从信息语义角度分为“熵熵(平均信息量平均信息量)编码编码”和和“源编码源编码”两种:两种: 熵熵 (平均信息量平均信息量)编码编码(Entropy Coding) 熵编码是一种泛指那些不考虑被压缩信息的性熵编码是一种泛指那些不考虑被压缩信息

10、的性质的编码和压缩技术。它是基于平均信息量的技术质的编码和压缩技术。它是基于平均信息量的技术把所有的数据当作比特序列,而不根据压缩信息的把所有的数据当作比特序列,而不根据压缩信息的类型优化压缩。也就是说,平均信息量编码忽略被类型优化压缩。也就是说,平均信息量编码忽略被压缩信息的语义内容。压缩信息的语义内容。 熵编码分为:重复序列消除编码熵编码分为:重复序列消除编码 (含:消零、含:消零、行程编码行程编码)、统计编码等。、统计编码等。普通高等教育“十一五”国家级规划教材多媒体技术教程数据压缩方法的分类数据压缩方法的分类 源编码源编码(Source Coding) 源编码的冗余压缩取决于初始信号的

11、类型、源编码的冗余压缩取决于初始信号的类型、前后的相关性、信号的语义内容等。源编码比严格前后的相关性、信号的语义内容等。源编码比严格的平均信息量编码的压缩率更高。当然压缩的程度的平均信息量编码的压缩率更高。当然压缩的程度主要取决于数据的语义内容,比起平均信息量编码主要取决于数据的语义内容,比起平均信息量编码,它的压缩比更大。,它的压缩比更大。 源编码主要分为源编码主要分为:预测编码、变换编码、向量:预测编码、变换编码、向量量化等。量化等。数据压缩方法的分类数据压缩方法的分类Source CodingPrediction : DPCM and DMTransformation : FFT、DCT

12、Layered : Sub-band、Sub-sampling and Bit PositionVector QuantizationHybrid CodingJPEG、MPEG、H.261 、DVI、Intel-IndeoEntropy CodingRun Length CodingStatistical CodingHuffmanArithmetic普通高等教育“十一五”国家级规划教材多媒体技术教程 节省图象或视频的存储容量,增加访问节省图象或视频的存储容量,增加访问速度,使数字视频能在速度,使数字视频能在PC机上实现,需要机上实现,需要进行视频和图象的压缩。进行视频和图象的压缩。 有三个

13、关键参数评价一个压缩系统有三个关键参数评价一个压缩系统l压缩比压缩比l图象质量图象质量l压缩和解压的速度压缩和解压的速度 另外也必须考虑每个压缩算法所需的硬另外也必须考虑每个压缩算法所需的硬件和软件。件和软件。普通高等教育“十一五”国家级规划教材多媒体技术教程 1压缩比压缩比 压缩性能常常用压缩比定义(输入数据和压缩性能常常用压缩比定义(输入数据和输出数据比)输出数据比)例:例:512480, 24bit/pixel(bpp) 输出输出15000byte 输入输入737280byte 压缩比压缩比737280/1500049普通高等教育“十一五”国家级规划教材多媒体技术教程2图象质量图象质量压

14、缩方法:压缩方法: 无损压缩无损压缩 (图象质量不变)(图象质量不变) 有损压缩有损压缩有损压缩:失真情况很难量化,只能对测试的图象有损压缩:失真情况很难量化,只能对测试的图象进行估计。进行估计。模拟图象质量的指标:信噪比、分辨率、颜色错,模拟图象质量的指标:信噪比、分辨率、颜色错,但必须在观察了实际图象以后。但必须在观察了实际图象以后。普通高等教育“十一五”国家级规划教材多媒体技术教程3压缩解压速度压缩解压速度 在许多应用中,压缩和解压可能不同时用,在许多应用中,压缩和解压可能不同时用,在不同的位置不同的系统中。所以,压缩、解压在不同的位置不同的系统中。所以,压缩、解压速度分别估计。速度分别

15、估计。 静态图象中,压缩速度没有解压速度严格;静态图象中,压缩速度没有解压速度严格;动态图象中,压缩、解压速度都有要求,因为需动态图象中,压缩、解压速度都有要求,因为需实时地从摄像机或实时地从摄像机或VCR中抓取动态视频。中抓取动态视频。普通高等教育“十一五”国家级规划教材多媒体技术教程4硬软件系统硬软件系统 有些压缩解压工作可用软件实现。设计系统有些压缩解压工作可用软件实现。设计系统时必须充分考虑:时必须充分考虑: 算法复杂算法复杂 压缩解压过程长压缩解压过程长 算法简单算法简单 压缩效果差压缩效果差 目前有些特殊硬件可用于加速压缩目前有些特殊硬件可用于加速压缩/解压。解压。 硬硬接线系统速

16、度快,但各种选择在初始设计时已确接线系统速度快,但各种选择在初始设计时已确定,一般不能更改。因此在设计硬接线压缩定,一般不能更改。因此在设计硬接线压缩/解压解压系统时必须先将算法标准化。系统时必须先将算法标准化。普通高等教育“十一五”国家级规划教材多媒体技术教程常用的数据压缩编码方法常用的数据压缩编码方法 3.2.1 DPCM和和ADPCM 编码编码 预测编码是根据原始的离散信号之间存在着一预测编码是根据原始的离散信号之间存在着一定关联性的特点,利用前面的一个或多个信号对下定关联性的特点,利用前面的一个或多个信号对下一个信号进行预测,然后对实际值和预测值的差进一个信号进行预测,然后对实际值和预

17、测值的差进行编码。如果预测比较准确,那么误差信号就会很行编码。如果预测比较准确,那么误差信号就会很小小 ,就可以用比较少的数码进行编码,达到压缩数据的目的。 DPCM与与ADPCM是两种典型的预测编码。是两种典型的预测编码。普通高等教育“十一五”国家级规划教材多媒体技术教程3.2.1 3.2.1 DPCM和和ADPCM 编码编码 1. 差分脉码调制差分脉码调制(DPCM) PCM(Pulse Code Modulation),原始的模拟信原始的模拟信号经过时间采样,然后对每一样值进行量化,作为号经过时间采样,然后对每一样值进行量化,作为数字信号传输。数字信号传输。 DPCM不对每一样值都进行量

18、化,而是预测下不对每一样值都进行量化,而是预测下一样值,并量化实际值和预测值之间的差。一样值,并量化实际值和预测值之间的差。 DPCM是基本的编码方法之一,在大量的压缩是基本的编码方法之一,在大量的压缩算法中被采用,比如算法中被采用,比如JPEG的的DC分量就是采用分量就是采用DPCM编码的。编码的。普通高等教育“十一五”国家级规划教材多媒体技术教程3.2.1 3.2.1 DPCM和和ADPCM 编码编码 举例说明举例说明DPCM编码原理:编码原理: 设设DPCM系统预测器的预测值为前一个样值,系统预测器的预测值为前一个样值,假设输入信号已经量化,差值不再进行量化。若假设输入信号已经量化,差值

19、不再进行量化。若系系统的输入为统的输入为0 1 2 1 1 2 3 3 4 4 ,则预测值为,则预测值为0 0 1 2 1 1 2 3 3 4 ,差值为,差值为0 1 1 1 0 1 1 0 1 0 ,差值的范围比输入样值的范围有所减小,可以用,差值的范围比输入样值的范围有所减小,可以用较少的位数进行编码。较少的位数进行编码。普通高等教育“十一五”国家级规划教材多媒体技术教程3.2.1 3.2.1 DPCM和和ADPCM 编码编码 2.自适应差分脉码调制自适应差分脉码调制(ADPCM) 为了进一步改善量化性能或压缩数据率,可采为了进一步改善量化性能或压缩数据率,可采用自适应量化或自适应预测的方

20、法。只要采用了其用自适应量化或自适应预测的方法。只要采用了其中的任一种自适应方法,均称为中的任一种自适应方法,均称为ADPCM。 自适应预测自适应预测 预测参数的最佳化依赖于信源的统计特性,要预测参数的最佳化依赖于信源的统计特性,要得到最佳的预测参数是一件繁琐的工作。得到最佳的预测参数是一件繁琐的工作。 而采用固定的预测参数往往又得不到好的性能。而采用固定的预测参数往往又得不到好的性能。为了既能使性能较佳,又不致于有太大的工作量,为了既能使性能较佳,又不致于有太大的工作量,可以将上述两种方法折衷考虑,采用自适应预测。可以将上述两种方法折衷考虑,采用自适应预测。普通高等教育“十一五”国家级规划教

21、材多媒体技术教程3.2.1 3.2.1 DPCM和和ADPCM 编码编码 具体方法是:预测参数仍采用固定的;但此时具体方法是:预测参数仍采用固定的;但此时有多组预测参数可供选择。这些预测参数根据常见有多组预测参数可供选择。这些预测参数根据常见的信源特征求得。编码时具体采用哪组预测参数根的信源特征求得。编码时具体采用哪组预测参数根据信源的特征来自适应的确定。据信源的特征来自适应的确定。 为了自适应的选择最佳参数,通常将信源数据为了自适应的选择最佳参数,通常将信源数据分区间编码,编码时自动地选择一组预测参数,使分区间编码,编码时自动地选择一组预测参数,使该区间实际值与预测值的均方误差最小。随着编码

22、该区间实际值与预测值的均方误差最小。随着编码区间的不同,预测参数自适应的变化,以达到准最区间的不同,预测参数自适应的变化,以达到准最佳预测。佳预测。普通高等教育“十一五”国家级规划教材多媒体技术教程3.2.1 3.2.1 DPCM和和ADPCM 编码编码 例如,例如,Microsoft 的的ADPCM采用二预测采用二预测参数,提供参数,提供7组预测系组预测系数,如右表所示。编数,如右表所示。编码时,根据选定的准码时,根据选定的准则则(如最小均方误差准如最小均方误差准则则),每个编码区间自,每个编码区间自动地选取一组最佳的动地选取一组最佳的参数。参数。系数集系数集 系数系数1 1 系数系数2 2

23、0 256 01 512 -2562 0 03 192 644 240 05 460 -2086 392 -232 普通高等教育“十一五”国家级规划教材多媒体技术教程 自适应量化自适应量化 根据信号分布不均匀的特点,系统具有根据信号分布不均匀的特点,系统具有随输入信号的变化而改变量化区间大小随输入信号的变化而改变量化区间大小, , 以保以保持输入持输入给给量化器的信号基本均匀的能力,这量化器的信号基本均匀的能力,这种能力称为自适应量化。种能力称为自适应量化。3.2.1 3.2.1 DPCM和和ADPCM 编码编码普通高等教育“十一五”国家级规划教材多媒体技术教程离散余弦变换离散余弦变换(DCT

24、)编码编码 在变换编码时,初始数据要从初始空间在变换编码时,初始数据要从初始空间或时间域进行数学变换,变换为一个更适于或时间域进行数学变换,变换为一个更适于压缩的抽象域。该过程是可逆的;即使用反压缩的抽象域。该过程是可逆的;即使用反变换可恢复原始数据。如将时域信号变换到变换可恢复原始数据。如将时域信号变换到频域,因为声音、图像大部分信号都是低频频域,因为声音、图像大部分信号都是低频信号,在频域中信号的能量较集中,再进行信号,在频域中信号的能量较集中,再进行采样、编码就可以压缩数据。采样、编码就可以压缩数据。普通高等教育“十一五”国家级规划教材多媒体技术教程离散余弦变换离散余弦变换(DCT)编码

25、编码 变换本身是可逆的,因而其也是一种无损技变换本身是可逆的,因而其也是一种无损技术。然而,为了取得更满意的结果,某些重要系数术。然而,为了取得更满意的结果,某些重要系数的编码位数比其他的要多,某些系数干脆就被忽略的编码位数比其他的要多,某些系数干脆就被忽略了。这样,该过程就成为有损的了。了。这样,该过程就成为有损的了。 数学家们已经构造了多种数学变换。除了傅里数学家们已经构造了多种数学变换。除了傅里叶变换外,还有余弦、叶变换外,还有余弦、 Hadamard、 Haar、Karhunen Loeve变换。最实用最常用的数学变换变换。最实用最常用的数学变换是离散余弦变换是离散余弦变换(DCT)。

26、普通高等教育“十一五”国家级规划教材多媒体技术教程离散余弦变换离散余弦变换(DCT)编码编码典型的变换编码系统框图:典型的变换编码系统框图:信源信源序列序列变换变换变 换 域变 换 域采采 样样量化量化编码编码存 储 或存 储 或传传 输输译码译码填零填零反反 变变换换再现再现序列序列变换编码系统压缩数据的三个步骤变换编码系统压缩数据的三个步骤普通高等教育“十一五”国家级规划教材多媒体技术教程离散余弦变换离散余弦变换(DCT)编码编码 数据压缩主要是去除信源的相关性。若考虑到信数据压缩主要是去除信源的相关性。若考虑到信号存在于无限区间上,而变换区域又是有限的,那么号存在于无限区间上,而变换区域

27、又是有限的,那么表征相关性的统计特性就是协方差矩阵。表征相关性的统计特性就是协方差矩阵。 当协方差矩阵中除对角线上元素之外的各元素都当协方差矩阵中除对角线上元素之外的各元素都为零时,就等效于相关性为零。所以,为了有效地进为零时,就等效于相关性为零。所以,为了有效地进行数据压缩,常常希望变换后的协方差矩阵为一对角行数据压缩,常常希望变换后的协方差矩阵为一对角矩阵,同时也希望主对角线上各元素随,的增加矩阵,同时也希望主对角线上各元素随,的增加很快衰减。因此,变换编码的关键在于:在已知的很快衰减。因此,变换编码的关键在于:在已知的条件下,根据它的协方差矩阵去寻找一种正交变换条件下,根据它的协方差矩阵

28、去寻找一种正交变换,使变换后的协方差矩阵满足或接近为一对角矩阵。,使变换后的协方差矩阵满足或接近为一对角矩阵。普通高等教育“十一五”国家级规划教材多媒体技术教程离散余弦变换离散余弦变换(DCT)编码编码 当经过正交变换后的协方差矩阵为一对当经过正交变换后的协方差矩阵为一对角矩阵,且具有最小均方误差时,该变换称角矩阵,且具有最小均方误差时,该变换称最佳变换,也称最佳变换,也称Karhunen-Loeve变换。可以变换。可以证明,以矢量信号的协方差矩阵的归一化正证明,以矢量信号的协方差矩阵的归一化正交特征向量所构成的正交矩阵,对该矢量信交特征向量所构成的正交矩阵,对该矢量信号所作的正交变换能使变换

29、后的协方差矩阵号所作的正交变换能使变换后的协方差矩阵达到对角矩阵。达到对角矩阵。普通高等教育“十一五”国家级规划教材多媒体技术教程离散余弦变换离散余弦变换(DCT)编码编码 如果变换后的协方差矩阵接近对角矩阵如果变换后的协方差矩阵接近对角矩阵,该类变换称准最佳变换,典型的有,该类变换称准最佳变换,典型的有DCT、DFT、WHT、HrT等。其中,最常用的变等。其中,最常用的变换是离散余弦变换换是离散余弦变换DCT。 DCT是从是从DFT引出的。引出的。DFT可以得到近可以得到近似于最佳变换的性能,但似于最佳变换的性能,但DFT的运算次数太的运算次数太多,且需要复数运算。多,且需要复数运算。DCT

30、从从DFT中取实部中取实部,并可用快速余弦变换算法,因此大大加快,并可用快速余弦变换算法,因此大大加快了运算。同时其压缩性能十分逼近最佳变换了运算。同时其压缩性能十分逼近最佳变换的压缩性能。所以,的压缩性能。所以,DCT在图像压缩中得到在图像压缩中得到了广泛的应用。了广泛的应用。普通高等教育“十一五”国家级规划教材多媒体技术教程行程编码和行程编码和Huffman编码编码 行程编码和行程编码和Huffman编码方法属于统计编码方法属于统计编码,它的方法是:识别一个给定的流中出编码,它的方法是:识别一个给定的流中出现频率最高的比特或字节模式,并用比原始现频率最高的比特或字节模式,并用比原始比特更少

31、的比特数来对其编码。即就是,频比特更少的比特数来对其编码。即就是,频率越低的模式,其编码的位数越多,频率越率越低的模式,其编码的位数越多,频率越高的模式编码位数越少。若码流中所有模式高的模式编码位数越少。若码流中所有模式出现的概率相等,则平均信息量最大,出现的概率相等,则平均信息量最大, 信源信源就没有冗余。就没有冗余。普通高等教育“十一五”国家级规划教材多媒体技术教程行程编码和行程编码和Huffman编码编码 1. 行程编码行程编码(Run Length Coding) 是最简单、最古老的压缩技术之一,主是最简单、最古老的压缩技术之一,主要技术是检测重复的比特或字符序列,并用要技术是检测重复

32、的比特或字符序列,并用它们的出现次数取而代之。它们的出现次数取而代之。 行程编码有多种编码方式,对于行程编码有多种编码方式,对于0出现较出现较多,多,1较少出现(或反之)的信源数据,可较少出现(或反之)的信源数据,可以对以对0的持续长度(或的持续长度(或1的持续长度)进行编的持续长度)进行编码,码,1(或(或0)保持不变。而对于)保持不变。而对于0、1交替出交替出现的数据,可以分别对现的数据,可以分别对0的持续长度和的持续长度和1的持的持续长度编码。续长度编码。 普通高等教育“十一五”国家级规划教材多媒体技术教程行程编码和行程编码和Huffman编码编码 代码字有两种类型:结束代码字和组成代码

33、字有两种类型:结束代码字和组成代码字。每个行程由代码字。每个行程由0个或更多的组成代码个或更多的组成代码字和一个确定的结束代码字来表示。在字和一个确定的结束代码字来表示。在063范围内的行程由相应的结束代码字编码。范围内的行程由相应的结束代码字编码。642623(2560+63)范围内的行程首先由)范围内的行程首先由组成代码字编码,它表示最接近、但不大于组成代码字编码,它表示最接近、但不大于所要求的行程,后再跟结束代码字。所要求的行程,后再跟结束代码字。 普通高等教育“十一五”国家级规划教材多媒体技术教程行程编码和行程编码和Huffman编码编码 行程大于或等于2624时,首先由组成代码256

34、0编码。如果行程的剩余部分仍大于2560,则产生附加的组成代码2560,直到行程的剩余部分少于2560,再按前述方法编码。 普通高等教育“十一五”国家级规划教材多媒体技术教程行程编码和行程编码和Huffman编码编码 2. 哈夫曼编码哈夫曼编码 1952年年Huffman提出了对统计独立信源能达提出了对统计独立信源能达到最小平均码长的编码方法,也即最佳码。最佳性到最小平均码长的编码方法,也即最佳码。最佳性可从理论上证明。这种码具有即时性和唯一可译性。可从理论上证明。这种码具有即时性和唯一可译性。 该编码是常见的一种统计编码。对给定的数据该编码是常见的一种统计编码。对给定的数据流,计算其每个字节

35、的出现频率。根据频率表,运流,计算其每个字节的出现频率。根据频率表,运用哈夫曼算法可确定分配各字符的最小位数,然后用哈夫曼算法可确定分配各字符的最小位数,然后给出一个最优的编码。代码字存入代码表中。给出一个最优的编码。代码字存入代码表中。普通高等教育“十一五”国家级规划教材多媒体技术教程行程编码和行程编码和Huffman编码编码 编码时,首先将信源符号按概率递减顺序排列,把两个最小的概率加起来,作为新符号的概率,重复此过程,直到概率和达到1为止。然后在每次合并消息时,将被合并的消息赋以1和0或0和1,寻找从每一信源符号到概率为1处的路径,记录下路径上的1和0,对每一符号写出“1”、“0”序列(

36、从码树的右边到左边)。 普通高等教育“十一五”国家级规划教材多媒体技术教程行程编码和行程编码和Huffman编码编码 Huffman编码的优缺点编码的优缺点 优点:优点:当信源符号概率是当信源符号概率是2的负幂次方的负幂次方时,时, Huffman 编码法编码效率达到编码法编码效率达到100%。一般情况下,它的编码效率要比其它编码方一般情况下,它的编码效率要比其它编码方法的效率高,是最佳变长码。法的效率高,是最佳变长码。 缺点:缺点:Huffman 码依赖于信源的统计特码依赖于信源的统计特性,必须先统计得到信源的概率特性才能编性,必须先统计得到信源的概率特性才能编码,这就限制了实际的应用。通常

37、可在经验码,这就限制了实际的应用。通常可在经验基础上预先提供基础上预先提供Huffman码表,此时性能有码表,此时性能有所下降。所下降。普通高等教育“十一五”国家级规划教材多媒体技术教程小波变换编码小波变换编码 小波变换是一个线性变换,能够将一个信号分小波变换是一个线性变换,能够将一个信号分解成对空间和时间、频率的独立贡献,同时又不失解成对空间和时间、频率的独立贡献,同时又不失原信号所包含的信息。经过小波变换后的图像能量原信号所包含的信息。经过小波变换后的图像能量很集中,便于对不同的分量作不同的处理,达到较很集中,便于对不同的分量作不同的处理,达到较高的压缩比。高的压缩比。 普通高等教育“十一

38、五”国家级规划教材多媒体技术教程小波变换编码小波变换编码 小波变换是空间小波变换是空间(时间时间)和频率的局部变和频率的局部变换,因而能有效地从信号中提取信息。通过换,因而能有效地从信号中提取信息。通过伸缩和平移等运算功能可对函数或信号进行伸缩和平移等运算功能可对函数或信号进行多尺度的细化分析,最终达到高频处时间细多尺度的细化分析,最终达到高频处时间细分,低频处频率细分,能自动适应时频信号分,低频处频率细分,能自动适应时频信号分析的要求,从而可聚焦到信号的任意细节分析的要求,从而可聚焦到信号的任意细节,解决了,解决了Fourier变换不能解决的许多困难问变换不能解决的许多困难问题题 。 普通高

39、等教育“十一五”国家级规划教材多媒体技术教程小波变换编码小波变换编码 图像的小波变换可以理解为图像信号经图像的小波变换可以理解为图像信号经过一系列带通滤波器的结果,这组滤波器在过一系列带通滤波器的结果,这组滤波器在对数意义下具有相同的带宽,从小波变换后对数意义下具有相同的带宽,从小波变换后不同分层定位中,提取出图像的特征,低频不同分层定位中,提取出图像的特征,低频部分平滑,表示背景;高频部分不平稳,表部分平滑,表示背景;高频部分不平稳,表示细节。利用不同层次对恢复图像的贡献大示细节。利用不同层次对恢复图像的贡献大小和对人眼视觉系统影响的大小,采用不同小和对人眼视觉系统影响的大小,采用不同的编码

40、方法,可以达到图像压缩的目的。的编码方法,可以达到图像压缩的目的。普通高等教育“十一五”国家级规划教材多媒体技术教程小波变换编码小波变换编码 基于小波分析的压缩方法很多,比较成基于小波分析的压缩方法很多,比较成功的有小波包最好基方法,小波域纹理模型功的有小波包最好基方法,小波域纹理模型方法,小波变换零树压缩,小波变换向量压方法,小波变换零树压缩,小波变换向量压缩等。缩等。 普通高等教育“十一五”国家级规划教材多媒体技术教程人民邮电出版社国防科学技术大学版权所有 3.3 音频压缩标准普通高等教育“十一五”国家级规划教材多媒体技术教程3.3 音频的压缩音频频率范围音频频率范围 低频声音低频声音(I

41、nfra-sound): 0Hz20Hz 人类听觉频率范围的声音:人类听觉频率范围的声音: 20Hz20kHz 高频高频(Ultrasound): 20kHz1GHz 超声波超声波(Hypersound): 1GHz10THz不同音频的带宽不同音频的带宽 电话语音:电话语音: 200Hz3.4kHz 调幅广播:调幅广播: 50Hz7kHz 调频广播:调频广播: 20Hz15kHz 宽带音响宽带音响: 20Hz20kHz普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.1 音频压缩编码的基本方法无失真压缩音频压缩方法有失真压缩Huffman编码行程编码波形编码参数编码混合编码全频带编码P

42、CMDPCMADPCM子带编码 自适应变换编码ATC 心理学模型矢量量化线性预测LPC矢量和激励线性预测VSELP多脉冲线性预测MP-LPC码本激励线性预测CELP普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.2 电话质量的语音压缩标准 ITUTS建议的语音压缩的标准建议的语音压缩的标准 G.711:采用采用PCM编码,采样速率为编码,采样速率为8kHz,量化位量化位数为数为8bit,对应的比特流速率为对应的比特流速率为64kbit/s。 G.721: ITU建议的建议的 G.721将将64Kbps的比特流转换的比特流转换为为32Kbps的流,它是基于的流,它是基于 ADPCM技术

43、。每个数技术。每个数值差分用值差分用4位编码,其采样率为位编码,其采样率为8kHz。普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.2 电话质量的语音压缩标准 G.723: G.723是一种以是一种以24Kbps运行的基于运行的基于 ADPCM 的有损耗压缩标准。其音质不如非压缩的有损耗压缩标准。其音质不如非压缩的的 G.711PCM 标准以及基于标准以及基于 SBADPCM 的的 G.722标准。标准。G.723.1和和G.723.2用于用于H.324标准。标准。 G.728:它的它的 比特率为比特率为16Kbps,带宽限于带宽限于3.4kHz。其音质比其音质比 G.711或或 G

44、.722差得多。它基于一种称为差得多。它基于一种称为低延迟代码激励线性预测低延迟代码激励线性预测(LDCELP)的向量量化的向量量化技术。技术。 普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.2 电话质量的语音压缩标准 CELP是一种常用的语音压缩技术。它用于是一种常用的语音压缩技术。它用于美国联邦标准美国联邦标准1016,可将语音压缩至,可将语音压缩至4.8Kbps。美美国联邦标准国联邦标准1015使用使用 CELP的一个简本,称为线性的一个简本,称为线性预测编码预测编码(LPC)。 LPC一一10E标准可以运行于标准可以运行于2.4Kbps。采用了一种向量量化方法。声音听起来采

45、用了一种向量量化方法。声音听起来有点象机器在说话,有点象机器在说话, 但但4.8Kbps与电话差不多。与电话差不多。普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.3 调幅广播质量的音频压缩标准 调幅广播质量:调幅广播质量:50Hz7kHz,称称“7kHz音频信号音频信号”。 G.722:G.722基于子带基于子带 ADPCM技术技术 (SBADPCM) ,它是将现有的带宽分成两个独立的子带信道分别采用它是将现有的带宽分成两个独立的子带信道分别采用差分脉码调制算法。差分脉码调制算法。 G.722压缩信号的带宽范围为压缩信号的带宽范围为50Hz到到7kHz,而而 G.711 仅限于仅限

46、于3.4kHz。其比特率为其比特率为48、56、64Kbps,在标准模式下,采样速率是在标准模式下,采样速率是16KHz,幅度深度为幅度深度为14比特。比特。普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.4 高保真立体声音频压缩标准 高质量的声音信号频率范围:高质量的声音信号频率范围: 50Hz20kHz 目前国际上比较成熟的高质量声音压缩标准为目前国际上比较成熟的高质量声音压缩标准为MPEG音频。音频。MPEGl的音频信号在的音频信号在ISO 111723文档中的描述。文档中的描述。MPEG音频不是单个一种压缩算音频不是单个一种压缩算法,而是法,而是3种音频编码和压缩方案的一个系

47、列。种音频编码和压缩方案的一个系列。 MPEG 声音编码分为:层声音编码分为:层l、层层2、层、层3。随。随着层数的增加算法的复杂度也增大。着层数的增加算法的复杂度也增大。普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.4 高保真立体声音频压缩标准 所有所有3层都分级兼容。最复杂的译码器层都分级兼容。最复杂的译码器(即在层即在层3工作的译码器工作的译码器)也可对层也可对层2或层或层l的码流进行的码流进行译码。译码。 所有所有3层都运用同一原理:变换编码和子带编码。层都运用同一原理:变换编码和子带编码。v 频谱被分为频谱被分为32个子带。个子带。v 应用快速博里叶变换来表示高频域中的信

48、号。应用快速博里叶变换来表示高频域中的信号。v 应用心理声学模式来变换信号以估计刚能引起应用心理声学模式来变换信号以估计刚能引起注意的噪音级。注意的噪音级。 层层 l、2 和和 3主要在最后一个阶段主要在最后一个阶段-即量化阶段即量化阶段的方式上有所区别,但不是唯一的差别。的方式上有所区别,但不是唯一的差别。普通高等教育“十一五”国家级规划教材多媒体技术教程人民邮电出版社国防科学技术大学版权所有3.4 图像和视频压缩标准普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.4.1 4.1 图像和视频压缩编码的基本方法图像和视频压缩编码的基本方法图像和视频压缩方法无失真压缩有失真压缩Huff

49、man编码行程编码算术编码LZW编码预测编码运动补偿变换编码DCT变换小波变换子带编码模型编码分形编码基于重要性滤波子采样矢量量化混合编码JPEGMPEGH.261普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.4.1 4.1 图像和视频压缩编码的基本方法图像和视频压缩编码的基本方法 原始的彩色图像,一般由红、绿、蓝三种基色的原始的彩色图像,一般由红、绿、蓝三种基色的图像组成(图像组成(R、G、B)。)。然而人的视觉系统对彩色色然而人的视觉系统对彩色色度的感觉和亮度的敏感性是不同的,因此产生了不同度的感觉和亮度的敏感性是不同的,因此产生了不同的彩色空间表示。的彩色空间表示。 H、S、

50、I彩色空间:彩色空间:H为色调、为色调、S为饱和度、为饱和度、I表表示光的强度或亮度。示光的强度或亮度。 Y、I、Q方式和方式和Y、U、V方式:这两种表示方式方式:这两种表示方式的一个共同点是用其中一个分量的一个共同点是用其中一个分量Y表示象素的亮度,表示象素的亮度,用其余两个分量表示象素的色度。用其余两个分量表示象素的色度。普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.4.2 4.2 静止图像压缩标准静止图像压缩标准 静止图像压缩,已有多个国际标准,如静止图像压缩,已有多个国际标准,如ISO制订的制订的JPEG标准(标准(Joint Photographic Experts Gr

51、oup)、)、JBIG标准(标准(Joint Bilevel Image Group)、)、ITUT的的G3、G4标准等。标准等。特别是特别是JPEG标准,适用黑白及彩色照片、彩标准,适用黑白及彩色照片、彩色传真和印刷图片,可以支持很高的图像分色传真和印刷图片,可以支持很高的图像分辨率和量化精度。辨率和量化精度。 普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.4.2 4.2 静止图像压缩标准静止图像压缩标准1. JPEG压缩标准压缩标准l 压缩比高,图像质量保真程度好;压缩比高,图像质量保真程度好;l 算法能适应不同的数字图像参数、大小、图算法能适应不同的数字图像参数、大小、图像内

52、容、彩色空间、统计特性等,但不包括像内容、彩色空间、统计特性等,但不包括二值图像;二值图像;l 用户可以对压缩比、质量效果进行选择;用户可以对压缩比、质量效果进行选择;l 应该满足硬软件实现的计算需求;应该满足硬软件实现的计算需求;l 支持多种操作方式。支持多种操作方式。普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.4.2 4.2 静止图像压缩标准静止图像压缩标准(1) JPEG的无损预测编码算法的无损预测编码算法 无损压缩不使用无损压缩不使用DCTDCT方法,而是采用一个简单方法,而是采用一个简单的预测器。预测器可以采用不同的预测方法,不同的预测器。预测器可以采用不同的预测方法,

53、不同的预测方法将决定有哪些相邻的象素将被用于预测的预测方法将决定有哪些相邻的象素将被用于预测下一个象素。常用的预测方法如三领域预测法。下一个象素。常用的预测方法如三领域预测法。源图像数据预测器熵编码器压缩的图像数据表说明普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.4.2 4.2 静止图像压缩标准静止图像压缩标准(2) JPEG的基于的基于DCT的有损编码算法的有损编码算法8*8DCT正变换量化器熵编码器压 缩 后的 图 像数据JPEG 编码器表说明表说明块准备源图像数据普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.4.2 4.2 静止图像压缩标准静止图像压缩标准块准备

54、块准备 块准备将一帧帧图像分成块准备将一帧帧图像分成88的数据块。的数据块。 DCT变换变换 原始的图像数据块经过原始的图像数据块经过DCT变换后,将每个数变换后,将每个数据块的数据从空间域变换到频率域,输出据块的数据从空间域变换到频率域,输出64个个DCT变换系数。变换系数。 量化量化 JPEG的量化采用线性均匀量化器的量化采用线性均匀量化器。DCT系数的编码系数的编码 JPEG中对中对DC系数采用系数采用DPCM编码,编码, 63个个AC系数在系数在JPEG算法中采用行程编码。算法中采用行程编码。普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.4.2 4.2 静止图像压缩标准静止

55、图像压缩标准熵编码熵编码 经过经过DPCM编码的直流项和经过行程编码的交编码的直流项和经过行程编码的交流项再进行霍夫曼编码或自适应二进制算术编码。流项再进行霍夫曼编码或自适应二进制算术编码。压缩比和图像质量压缩比和图像质量 基于基于DCT的的JPEG标准的压缩是有失真的,标准的压缩是有失真的,DCT变换后系数的量化是引起失真的主要原因。压变换后系数的量化是引起失真的主要原因。压缩效果与图像内容本身有较大的关系,对于中等复缩效果与图像内容本身有较大的关系,对于中等复杂程度的彩色图像,其压缩比与恢复图像的质量大杂程度的彩色图像,其压缩比与恢复图像的质量大致如下表所示。致如下表所示。 普通高等教育“

56、十一五”国家级规划教材多媒体技术教程3.3.4.2 4.2 静止图像压缩标准静止图像压缩标准压缩效果(比特/象素)质量0.250.50中好,满足某些应用0.500.75好很好,满足多数应用0.751.5极好,满足大多数应用1.52.0与原始图像几乎分不出普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.4.2 4.2 静止图像压缩标准静止图像压缩标准2. JPEG2000简介简介内容:内容: l JPEG2000图像编码系统(核心部分)图像编码系统(核心部分)l 应用扩展(在核心上扩展更多特性)应用扩展(在核心上扩展更多特性)l 运动运动JPEG2000l 兼容性(即包容性与继承性)兼

57、容性(即包容性与继承性)l 参考软件(目前主要为参考软件(目前主要为JAVA与与C程序)程序)l 复合图像文件格式(如传真式的服务等)复合图像文件格式(如传真式的服务等)普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.4.2 4.2 静止图像压缩标准静止图像压缩标准核心:核心: 离散小波变换算法离散小波变换算法 特点:特点: l 高压缩率高压缩率l 无损压缩无损压缩 l 渐进传输渐进传输 l 感兴趣区域压缩感兴趣区域压缩 l 色彩模式色彩模式 l 图像处理简单图像处理简单普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.4.3 4.3 视频压缩标准视频压缩标准 视频压缩的一个

58、重要标准是视频压缩的一个重要标准是MPEG(Motion Picture Experts Group),),已推出已推出了了MPEG(或或MPEG-)、)、MPEG-、MPEG-等系列标准。另一个重要标准是等系列标准。另一个重要标准是H系列,包括系列,包括H.261、H.263等标准,此外还有等标准,此外还有运动运动JPEG等压缩标准。等压缩标准。 普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.4.3 4.3 视频压缩标准视频压缩标准1. MPEG压缩标准压缩标准(1) MPEG 1压缩标准压缩标准 能够传输用户可以接受的视频;能够传输用户可以接受的视频; 能够支持对称或者非对称的

59、压缩解压应用;能够支持对称或者非对称的压缩解压应用; 根据需要可以支持随机存取;根据需要可以支持随机存取; 除了正常播放之外,根据需要支持快进、快倒、除了正常播放之外,根据需要支持快进、快倒、快放等多种工作方式;快放等多种工作方式; 能够支持视频和音频的同步工作;能够支持视频和音频的同步工作; 能够避免出现大的障碍;能够避免出现大的障碍; 当需要时,可以控制压缩解压的延迟;当需要时,可以控制压缩解压的延迟; 如果需要,可以具有编辑能力;如果需要,可以具有编辑能力; 能够以灵活的格式支持窗口视频演示;能够以灵活的格式支持窗口视频演示; 不排斥使用价格低廉又能够实时编码的芯片。不排斥使用价格低廉又

60、能够实时编码的芯片。普通高等教育“十一五”国家级规划教材多媒体技术教程3.3.4.3 4.3 视频压缩标准视频压缩标准 MPEG - -标准(标准(ISO/IEC11172-)的目标是的目标是以约以约1.5Mbps的速率传输电视质量的视频信号,亮度的速率传输电视质量的视频信号,亮度信号的分辨率为信号的分辨率为360240,色度信号的分辨率为,色度信号的分辨率为180120,每秒,每秒30帧。帧。MPEG-标准包括:标准包括: MPEG系统(系统(ISO/IEC11172-1) MPEG视频(视频(ISO/IEC11172-2) MPEG音频(音频(ISO/IEC11172-3) 测试验证(测试

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论