多媒体数据压缩技术课件_第1页
多媒体数据压缩技术课件_第2页
多媒体数据压缩技术课件_第3页
多媒体数据压缩技术课件_第4页
多媒体数据压缩技术课件_第5页
已阅读5页,还剩181页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多媒体数据压缩技术概述常用的数据压缩技术数据压缩新技术多媒体数据压缩标准多媒体数据压缩技术概述多媒体数据压缩技术概述数据压缩的必要性和可能性数据压缩的必要性尺寸:640×480类型:24位真彩色图像大小:900KB/帧制式:NTSC类型:视频大小:

26.4MB/秒音质:CD音质类型:音频大小:10.09MB/分多媒体数据压缩技术概述数据压缩的必要性和可能性尺寸:640×多媒体数据压缩技术概述数据压缩的必要性和可能性数据压缩的必要性数据压缩的可能性标准:JPEG格式:.JPG压缩比:几倍到几十倍

数据压缩可以有效地解决多媒体信息的存储与实时传输问题

多媒体数据压缩技术概述数据压缩的必要性和可能性数据压缩的可能多媒体数据压缩技术概述

数据冗余的类型1.空间冗余这是静态图像数据存在的最主要的一种冗余。在同一幅图像中,规则物体和规则背景的表面物理特性具有相关性,这些相关性的光成像结果在数字化图像中就表现为数据冗余。例如,某图片画面中有一个规则物体,其表面颜色均匀,各部分的亮度、饱和度相近,将该图片进行数字化处理,生成位图图像。其中的规则物体区域内,各像素点的数据是完全一样的或十分接近的。这将使得数据有很大的空间冗余。多媒体数据压缩技术概述数据冗余的类型数据冗余的类型2、时间冗余由于序列图像(电视图像与运动图像)和语音数据的前后存在着很强的相关性,因而包含着大量的冗余。在播放序列图像时,随着时间的推移,若干帧画面的同一部位没有变化,而只是其中的某些地方发生了变化,这就形成了时间冗余。同理,由于语音信号是连续的、渐变的,相邻样值是相近甚至相同的,因而也存在时间冗余。数据冗余的类型2、时间冗余数据冗余的类型3、信息熵冗余信息熵冗余是指数据所携带的信息量少于数据本身,而反映出来的数据冗余。在实际信源编码中,由于信源的先验概率很难预知,一般实际的单位数据量总是大于信源熵,这就造成了信息熵冗余。数据冗余的类型3、信息熵冗余数据冗余的类型4、视觉冗余实验表明,人类的视觉系统对于图像场的注意是非均匀和非线性的,并不能对图像的任何变化都感知。然而,在记录原始图像数据时,通常对视觉敏感与不敏感的部分都同样对待,从而产生了数据冗余,这就是视觉冗余。例如,视觉系统对亮度的敏感度远远高于对色彩度的敏感度;分辨黑白图像细节的能力远远高于分辨彩色图像的能力;分辨红、黄之间颜色变化的能力最强,分辨蓝、紫之间颜色变化的能力最弱。数据冗余的类型4、视觉冗余数据冗余的类型5、听觉冗余实验表明,人耳对不同频率的声音的敏感程度是不同的,通常对低频端较之对高频端更敏感。即使是对同样声压级的声音,人耳实际感受到的音量也随频率而变化人耳对语音信号的相位变化不敏感人的听觉具有掩蔽效应。当几个强弱不同的声音同时存在时,强声使弱声难以听见的现象称为同时掩蔽,它受掩蔽声音和被掩蔽声音之间的相对频率关系影响很大;声音在不同时间先后发生时,强声使其周围的弱声难以听见的现象称为异时掩蔽。这些人耳听不到或感知极不灵敏的声音分量都可以视为冗余,因而存在听觉冗余。

数据冗余的类型5、听觉冗余数据冗余的类型6、结构冗余有些图像中的物体表面区域存在着很强的纹理结构,如木质纹理、布纹纹理等,这些结构往往存在着冗余,称为结构冗余。数据冗余的类型6、结构冗余数据冗余的类型7、知识冗余人对有些图像的理解与某些基础知识有很大的相关性。例如,人脸的图像有固定的结构。比如嘴的上方是鼻子,鼻子的上面有眼睛,鼻子位于脸的中线上等等。这些规律性的结构可由先验知识和背景知识得到。人具有这样的知识,但计算机没有。计算机存储图像时仍需要一个像素一个像素地保存,这就形成了冗余。数据冗余的类型7、知识冗余数据压缩的基本原理所谓数据压缩就是以尽可能少的数码来表示信源所发出的信号,减少容纳给定的消息集合或数据采样集合的信号空间。这里的信号空间就是被压缩的对象,是指某信号集合所占的时域、空域和频域。信号空间的这几种形式是相互关联的:存储空间的减少就意味着信号传输效率的提高,节省所占用的带宽。因此,只要采取某种方法减少了某个信号空间,就实现了数据压缩。数据压缩的基本原理所谓数据压缩就是以尽可能少的数码来表示信源数据压缩的基本原理数据压缩技术的理论基础是信息论。信息论认为,信源中或多或少含有自然冗余度,这些冗余度来自于信源本身的相关性和信源概率分布的不均匀性中。只要找到去除相关性或改变概率分布不均匀性的方法和手段,就找到了数据压缩的方法。数据压缩的基本原理数据压缩技术的理论基础是信息论。数据压缩的基本原理根据信息论的原理,可以找到最佳数据压缩编码方法,数据压缩的理论极限是信息熵。即低于此极限的无失真编码方法是找不到的,而只要不低于此极限,就一定能找到某种适宜的编码方法任意地逼近熵。数据压缩的基本原理根据信息论的原理,可以找到最佳数据压缩编码数据压缩的基本原理熵的概念熵是信息量的度量方法,而信息量则表示消息所包含的不确定性有多少。根据信息论原理,信息函数(即某个事件的信息量)定义为:其中,表示信源发出的先验概率表示信源X发出这个消息(随机事件)后,接收端收到的信息量的量度。很显然,一个消息的可能性愈小,其信息量愈多;反之,消息的可能性愈大,则其信息量愈少。

数据压缩的基本原理熵的概念其中,表示信源数据压缩的基本原理信息熵根据信息论原理,信源X的熵定义为:信息熵用来度量信源中每一种消息所包含的平均信息量,是信息函数的统计平均值,其单位为比特。数据压缩的基本原理信息熵信息熵用来度量信源中每一种消息所包含数据压缩的基本原理对于信息量,应该这样理解:一个消息所表示的内容对于接收者来说,应该是事先不知道的,这样的消息才是信息,否则毫无意义;这个信息要有正确的表达方式,否则接收者无法理解,当然也就无法接收;该信息对于使用者来说是有意义的,即要有使用价值。数据压缩的基本原理对于信息量,应该这样理解:数据压缩的基本原理信源的冗余度根据信息论原理,信源X的冗余度定义为:其中,为信源X的熵,d为信源编码的熵,表示信源编码后输出码字的平均码长,即单位数据量。在信源编码中,熵值是数据压缩的理论极限,是平均码长的下限。即,如果平均码长大于信源熵,则一定存在冗余,是可以进行压缩的。只有当平均码长等于或接近信源熵时,冗余度才等于0,才达到压缩极限,此时的编码方法才是最佳编码数据压缩的基本原理信源的冗余度其中,为信源举例例,有一幅64个像素组成的灰度图像,灰度共有5级,分别用符号A、B、C、D、E表示。64个像素中出现灰度A的像素数有27个,出现灰度B的像素数有15个,出现灰度C的像素数有12个,出现灰度D的像素数有6个,出现灰度D的像素数有4个。如果采用等长编码,则5个等级的灰度值至少需要3个二进制位表示,即每个像素用3位二进制表示,则编码这幅图像总共需要64×3=192位。按照信息论,这幅图像的熵为:举例例,有一幅64个像素组成的灰度图像,灰度共有5级,分别用举例这就是说,每个符号平均用2.03883位表示,64个像素用130.485位即可。根据信息论原理,只要找到某种编码方法能使得其平均码长等于或接近信源熵2.03883,则这种编码方法就是最佳编码。很显然,等长编码不是最佳编码。因为采用等长编码的平均码长为3,大于信源熵2.03883,存在冗余,其冗余度为0.96117,冗余量为61.515位。举例这就是说,每个符号平均用2.03883位表示,64个像素数据压缩方法的分类1.按压缩方法是否产生失真分类无损压缩:又称为无失真压缩,是指压缩后的数据经解压缩还原后,得到的数据与原始数据完全相同。这类压缩方法只是去掉或减少了数据中的冗余,并没有损失熵,而这些冗余数据是可以重新插入到数据中的,因此无损压缩是可逆的,数据是可以原样恢复的。无损压缩方法适用于要求还原的信号与原始信号完全一致的场合。例如,文本、数据、计算机程序的压缩就需要采用无损压缩。典型的无损压缩算法有算术编码、Huffman编码和LZW编码等统计编码方法。数据压缩方法的分类1.按压缩方法是否产生失真分类数据压缩方法的分类1.按压缩方法是否产生失真分类有损压缩:又称为熵压缩或有失真压缩,是指压缩后的数据经解压缩还原后,得到的数据与原始数据有所不同。这类压缩方法压缩了熵,减少了信息量,数据不能完全恢复,不过在允许的范围内损失一定的熵,数据是可以近似恢复的。有损压缩方法适用于还原信号不一定非要和原始信号完全相同的场合。例,图像和声音的压缩就可以采用有损压缩。由于人的视觉和听觉对某些信号(如颜色)不很敏感,丢掉一些数据而不至于对声音或者图像所表达的意思产生误解,但可大大提高压缩比。常用的有损压缩算法有预测编码、变换编码、混合编码等。数据压缩方法的分类1.按压缩方法是否产生失真分类数据压缩方法的分类2.按压缩方法的原理分类预测编码变换编码统计编码分析-合成编码混合编码数据压缩方法的分类2.按压缩方法的原理分类数据压缩技术的性能指标1、压缩比压缩比:一般定义为压缩前后所需的信息存储量或数据传输率之比。这个比值越大,压缩比越高。此外,还有一种较实用的方法,就是看压缩后的比特流中每个像素所需的比特数。例如,一幅640×480的图像,压缩后的存储量为614400字节,则压缩比为:(614400×8)/(640×480)=2位/像素数据压缩技术的性能指标1、压缩比数据压缩技术的性能指标2、压缩质量压缩质量是衡量还原后的数据与原始数据之间是否有差别的指标,这与压缩类型有关。无损压缩只去掉了冗余,没有减少信息量,可以保证完全恢复原始数据,所以不必担心质量问题,但压缩比较低。一般为2:1~4:1。有损压缩除了去掉原始信源数据本身所包含的冗余信息外,还利用了人的生理特性,进一步压缩数据。因此有损压缩减少了熵,压缩前后的数据不完全相同,但人难以察觉。由于允许一定程度的失真,所以有损压缩可获得较大的压缩比。例,JPEG标准的压缩比可以从几倍到几十倍,甚至上百倍。MPEG标准的压缩比50:1~100:1数据压缩技术的性能指标2、压缩质量数据压缩技术的性能指标3、压缩和解压缩的速度人们希望实现压缩的算法要简单,压缩和解压缩的速度要快,尽可能适应实时压缩和解压缩在实际应用中,由于压缩和解压缩使用的地点、场合、时间和系统不同,所以要求也不同例,视频会议系统,则要求视频的压缩与解压缩都必须是实时的,速度必须满足人眼的需求.而多媒体CD-ROM节目,制作时可以采用非实时压缩,但播放时解压缩必须是实时的。此外,还应考虑压缩算法所需的软件和硬件。压缩和解压缩过程中的硬件和软件开销与算法的复杂性有关。数据压缩技术的性能指标3、压缩和解压缩的速度统计编码1.问题的提出数据压缩的必要性和可能性数据压缩的必要性:数据量巨大数据压缩的可能性:存在大量的冗余信源的冗余度:其中:H(X)为信源X的熵,d为信源X编码的熵,表示信源编码后输出码字的平均码长,即单位数据量。

信息论认为:信源的冗余度来自于信源本身的相关性和信源概率分布的不均匀性中。

统计编码1.问题的提出其中:H(X)为信源X的熵,d为信源统计编码1.问题的提出无记忆信源能否压缩?信源分类记忆信源:有记忆的、存在相关性的消息序列无记忆信源:无记忆的、相对独立的的消息序列

无记忆信源的冗余度来自于信源中各个元素出现的概率不相等中。

统计编码正是针对无记忆信源提出的统计编码1.问题的提出无记忆信源的冗余度来自于信源中2.统计编码的基本思想统计编码的原理根据消息出现概率的分布特性进行压缩编码消息码字准确恢复

平均码长最小一一对应属于无失真压缩:只去掉或减少了数据中的冗余,可以完全恢复。

2.统计编码的基本思想统计编码的原理消息码字准确恢复平均码2.统计编码的基本思想变长码——统计编码中最常用的方法在Morse码中,e最常出现,编码为“·”

q最少出现,编码为“··——”

Morse电报的报文最短

字母与码字一一对应,翻译时可以准确无误。2.统计编码的基本思想变长码——统计编码中最常用的方法在Mo3.Huffman编码(1)最佳编码定理在变长编码中,对于出现概率大的信源符号赋予短码字,而对于出现概率小的信源符号赋予长码字。如果码字长度严格按照所对应符号出现概率大小的逆序排列,则编码结果平均码字长度一定小于任何其他排列方式。

大概率用短码,小概率用长码;按概率递减排列,则平均码长最小。

3.Huffman编码(1)最佳编码定理在变长编码中,对于出(2)Huffman编码的具体步骤

①将信源符号按概率递减顺序排列;

②把两个最小概率相加作为新符号的概率,并按⑴重排;

③重复步骤①、②,直到概率为1;

④在每次合并信源时,将被合并的信源分别赋1和0;

⑤寻找从每一信源符号到概率为1处的路径,记录路径上的1和0;

⑥写出每一符号的“1”、“0”序列(从树根到信源符号节点)。

合并赋值(2)Huffman编码的具体步骤①将信源符号例,对信源进行Huffman编码的过程如下:

111000011511000113110例,对信源111000011(3)Huffman编码的特点对信源X进行Huffman编码的平均码字长度为:信源X的熵为:(3)Huffman编码的特点对信源X进行Huffman编最佳编码信源的冗余度根据信息论原理,信源X的冗余度定义为:其中,为信源X的熵,d为信源编码的熵,表示信源编码后输出码字的平均码长,即单位数据量。在无失真压缩编码中,熵值是数据压缩的理论极限,是平均码长的下限。只有当平均码长等于或接近信源本身的熵时,冗余度才等于0,才达到压缩极限,此时的编码方法才是最佳编码。最佳编码信源的冗余度其中,为信源X的熵,d(3)Huffman编码的特点保证解码的唯一性,短码字不构成长码字的前缀③①平均码长,是最佳编码②平均码长(等长编码需要的比特数)

等长编码符号编码X1:000X2:001X3:010X4:011X5:100X6:101X7:110X8:111比特数3(23=8)(3)Huffman编码的特点保证解码的唯一性,短码4.算术编码(1)算术编码的基本定理算术编码将一个信源集合表示为实数0和1之间的一个区间。这个集合中的每个元素都要用来缩短这个区间。信源集合的元素越多,所得到的区间就越小,表示这一区间所需的二进制位就越多。

4.算术编码(1)算术编码的基本定理(1)算术编码的基本原理

基本原理——采用区间作为代码

每一符号对应[0,1)上的一子区间,区间长度为该符号出现的概率;设编码的初始区间为[0,1);每个元素都用来缩短这个区间;信源的元素越多,所得区间就越小;在最终子区间中,选取一个码字较短的作为信源编码。(1)算术编码的基本原理基本原理——采用区间作为代码(2)算术编码的具体步骤

①根据每个信源符号的概率,分配字符范围[Clow,Chigh);

②设编码区间为

[low,high),编码区间的长度为range

③令编码的初始区间为

[0,1);

④随着被编码字符的输入,子区间逐渐缩小。

按如下公式递推计算新子区间的low和high值:

low=low+range×Clowhigh=low+range×Chigh⑤将最终子区间转换为二进制数,取子区间内码字较短的数作为编码。

(2)算术编码的具体步骤①根据每个信源符号的概率,分配字(3)算术编码的实例解:根据信源符号的概率,分配给每个符号的编码范围为:例,已知信源,对1011进行算术编码的具体过程如下:信源符号概率编码范围01/4=0.25[0,0.25)13/4=0.75[0.25,1)(3)算术编码的实例解:根据信源符号的概率,分配给每个符号的设:编码区间为[low,high),区间长度为range令:初始编码区间为[0,1),则当输入第一个字符“1”时,“1”的范围为[0.25,1)

即Clow=0.25,Chigh=1,所以low=0+1×0.25=0.25high=0+1×1=1range=1-0.25=0.75此时的编码子区间为[0.25,1)

①算术编码过程设:编码区间为[low,high),区间长度为range①算当输入第二个字符“0”时,“0”的范围为[0,0.25)

即Clow=0,Chigh=0.25,所以low=0.25+0.75×0=0.25high=0.25+0.75×0.25=0.4375range=0.4375-0.25=0.1875此时的编码子区间变为[0.25,0.4375),是区间[0.25,1)的第1个1/4。

……依此类推,编码子区间将逐渐缩小,最后的编码区间为[0.3320312,0.4375),将其转换为二进制数[0.01010101,0.0111)。当输入第二个字符“0”时,“0”的范围为[0,0.2分配范围递推计算[0,1/4)[1/4,1)11/41[1/4,1)01/47/16[1/4,7/16)119/647/16[19/64,7/16)185/2567/16[85/256,7/16)码字[0.01010101,0.0111)011头<0.011<尾

算术编码过程分配范围递推计算[0,1/4)[编码过程的图示法算术编码的过程就是随着被编码字符流的输入,编码子区间逐渐缩小的过程。算术编码的过程还可以用另一种方式表示——图示编码过程的图示法算术编码的过程就是随着被编码字符流的输入,编②算术解码过程算术解码的过程是编码的逆过程首先,根据符号概率,将区间[0,1)分成了M个子区间。然后,判断被解码的码字值落在哪个区间,赋予对应的符号。本例的译码过程如下表所示:②算术解码过程算术解码的过程是编码的逆过程算术解码过程步骤区间译码符号译码判决1[0.25,1)10.375在区间[0.25,1)2[0.25,0.4375)00.375在区间[0.25,1)的第1个1/43[0.296875,0.4375)10.375在区间[0.25,0.4375)的第2个1/44[0.3320312,0.4375)10.375在区间[0.296875,0.4375)的第2个1/4译码的消息为:1011算术解码过程步骤区间译码符号译码判决1[0.25,1)1(3)算术编码的特点

①算术编码可以是静态的或者自适应的。在静态算术编码中,信源符号的概率是固定的。在自适应算术编码中,信源符号的概率根据编码时符号出现的频繁程度动态地进行修改。②当信源符号概率比较接近时,算术编码效率高于Huffman编码。③算术编码的实现方法比较复杂,尤其是硬件实现。但JPEG成员对多幅图像的测试结果表明,算术编码比Huffman编码能提高了5%左右的效率。因此,在JPEG的扩展系统中,用算术编码取代了Huffman编码。

(3)算术编码的特点①算术编码可以是静态的或者自适应的。在在使用算术编码时有两个问题需要注意:输入信息流越长,输出数值的位数就越多。而实际计算机的精度不可能无限长,运算中出现溢出是一个明显问题。但多数计算机都有16位、32位或64位的精度,因此这个问题可使用比例缩放方法来解决。算术编码方法也是一种对错误非常敏感的编码方法,如果有一位发生错误,就会导致整个消息译错。在使用算术编码时有两个问题需要注意:4.行程编码行程编码RLE的基本思想是:将一个相同值的连续串用一个代表值和串长来代替。以图像编码为例,在一幅图像中往往具有许多颜色相同的图块。在这些图块中,许多行上都具有相同的颜色,或在一行上有许多连续的像素点都具有相同的颜色值。对此,不需要存储每一个像素的颜色值,而只需存储一个像素点的颜色值和具有相同颜色的像素数目即可。具体来说,可以定义在特定方向上具有相同颜色值的相邻像素为一轮,其延续长度称为行程。行程终点位置由到前一行终点的相对距离确定,这样就可以由“像素的值和同值像素的个数”来表示图像数据。4.行程编码行程编码RLE的基本思想是:将一个相同值的连续串例如,若沿水平方向有一串(M个)像素具有相同的颜色N,则行程编码后,只传递两个值(N,M)就可以代替M个像素的M个颜色值N。假定有一幅灰度图像,其中第n行的像素值如下:行程编码后得到的代码为:08163507451808。代码中的黑体粗体数字表示行程长度,黑体粗体字前面的数字表示像素的颜色值。例如,若沿水平方向有一串(M个)像素具有相同的颜色N,则行程思考练习题进行Huffman编码。1.

对于信源,对11011111进行算术编码。2.

已知信源3.编程序实现Huffman编码4.编程序实现算术编码思考练习题进行Huffman编码。1.对于信源,对1101预测编码基本原理预测编码的基本原理是:根据原始的离散信号之间存在着一定的相关性,利用前面一个或多个信号对下一个信号进行预测,然后对实际值与预测值之间的差(即预测误差)进行编码。如果预测比较准确,那么预测误差就比较小,这样对预测误差进行编码的数码位数就比直接对预测值或实际值进行编码的数码位数小,从而达到压缩数据的目的。典型的预测编码方法有DPCM、ADPCM等,它们比较适合于声音、图像数据的压缩。因为这些数据是模拟信号经过采样后得到的多媒体数据,相邻样值之间的差不会相差很大,可以用较少的位来表示差值,实现数据压缩。预测编码基本原理DPCM编码1.PCM编码PCM(PulseCodeModulation)脉冲编码调制:对原始的模拟信号经过采样、量化,直接进行二进制编码码的过程,即模拟信号数字化过程。PCM编码简单、直观,但数据量最大。2.DPCM编码DPCM(DifferentionPulseCodeModulation)差分脉冲编码调制:是利用样本与样本之间存在的信息冗余来进行编码的一种数据压缩技术。DPCM与PCM编码不同的是:PCM是直接对采样信号进行量化编码,而DPCM是对实际值与预测值之差进行量化编码,存储或传送的是差值而不是幅度绝对值,这就降低了传送或存储的数据量,达到压缩数据的目的。DPCM编码1.PCM编码DPCM编码DPCM编码的工作原理

DPCM系统如图所示,由压缩和解压缩两部分组成,其工作原理是:在压缩时,先对原始的模拟信号进行采样得到实际的采样值,然后将采样值与预测器产生的预测值进行比较得到预测误差,最后将误差进行量化编码。在解压缩时,使用同样的预测器,将这一预测值与解码得到的已经量化的差值相加,产生出近似的原始信号,基本恢复原始数据。

DPCM编码DPCM编码的工作原理预测误差

接收端的输出

DPCM系统预测误差接收端的输出DPCM系统DPCM系统中的误差来源是发送端的量化器,而与接收端无关。也就是说,如果去掉量化器,直接对预测误差进行编码、传送,则接收端可以无误差地恢复出原始信号,这种不带量化器的DPCM编码属于无失真编码,是信息保持编码。但是,如果是对预测误差量化后再进行编码,则由于量化器会导致不可逆的信息损失,接收端恢复出的信号与原始信号有一定误差,这种带有量化器的DPCM编码属于有失真编码。DPCM系统中的误差来源是发送端的量化器,而与接收端无关。0122233234454567…0012223323445456…0110010-11101-1111…无量化器的DPCM系统比较与可知:DPCM系统的输出的幅度变小了,可以用较少的二进制位进行编码,因此压缩了数据。例,假设有一个不带量化器的DPCM系统,其中的预测器为单位延迟器,即预测器的预测值为前一个样值:0122233234454567…0012223323445在DPCM系统中,预测器和量化器的设计是关键,直接影响系统的性能。理论上讲,应该采用线性或非线性技术使预测器与量化器同时达到最佳。但实际应用时却不容易做到,而是采用准最佳设计。即在设计预测器时,不考虑量化器的影响,而在设计量化器时,也不考虑预测器的影响。DPCM系统的关键——预测器和量化器在DPCM系统中,预测器和量化器的设计是关键,直接影响系统的在DPCM系统中,预测器的性能对系统性能影响极大。因为预测愈精确,预测值愈接近实际值,误差值就越小,对误差值量化位就越少,则所需的编码位数也就越少,所以数据压缩比就越高。为了简便起见,下面仅讨论在不考虑量化器情况下的线性预测方法。假设有一线性预测器,用前面的样值来预测样值,则(1)预测器预测值为:预测误差为:在DPCM系统中,预测器的性能对系统性能影响极大。因为预测愈通常,应用最小二乘法求出预测系数,这种估计方法所采用的最佳准则是均方误差最小准则,即希望估计值与实际值之间的误差平方达到最小。由此可知,预测器的复杂程度与线性预测中所使用的样值数目有关,与原始数据的统计特性有关。在实际应用中,为了使DPCM系统能做到实时压缩,常用固定的预测参数来代替最佳系数。例如,在JPEG图像压缩标准中,可以选择前一个样值作为下一个样值的预测值,虽然性能上稍有差别,但效率提高了。通常,应用最小二乘法求出预测系数,这种估计方法所采用的最佳准(2)量化器量化器的设计与量化特性的选择,是DPCM系统的一个关键问题。因为量化是一个多对一的映射,是有信息丢失的不可逆过程,量化器的好坏,不仅直接影响数据压缩率,而且量化误差对解压缩后的恢复信号质量有很大影响。根据量化器的输出信号与输入信号之间的关系,可分为线性量化与非线性量化两大类。线性量化:对于采样后的信号采用相等的量化间隔进行量化,这种量化称为线性量化或均匀量化。(2)量化器量化器的设计与量化特性的选择,是DPCM系统的一非线性量化的基本思想:在对输入信号进行量化之前,先将小信号予以放大,大信号予以压缩,然后再进行均匀量化。结果是,大的输入信号用大的量化间隔,小的输入信号用小的量化间隔。这样使得量化误差最小,且在满足精度的要求下用较少的位数来表示。非线性量化的基本思想:在对输入信号进行量化之前,先将小信号予在非线性量化中,定义了两种算法:一是μ律压扩算法,主要用在北美和日本等地区的数字电话通信中;二是A律压扩算法,主要用在欧洲和中国大陆等地区的数字电话通信中。假设输入信号经归一化处理后的幅度为x,满足-1≤x≤1,则量化输入与输出之间的关系如下:A律μ律其中在非线性量化中,定义了两种算法:一是μ律压扩算法,主要用在北μ值、A值表示最大量化间隔与最小量化间隔之比,是确定压缩量的参数。由于μ律压缩的输入与输出之间的关系是对数关系,所以这种编码又称为对数PCM。根据μ律压缩函数的公式可知:当x=0时,y=0;当x=1时,y=1;满足压缩特性的要求。通常取100≤μ≤500。具体计算时,常选取μ=255。μ值、A值表示最大量化间隔与最小量化间隔之比,是确定压缩量的A律压缩则对小信号是线性关系,对大信号是对数关系(与μ律压缩相同)。A值越大,1/A的值越小,则线性范围越小,非线性范围越大。根据A律压缩函数的公式可知:当A=1时,1/A=1,y=x,为线性关系,没有压缩特性,属于均匀量化。当A>1时,随着A值的增大,其压缩特性愈显著,线性范围愈小。因此A值应取大一些,但A值究竟取多大,应根据量化的精度与实现的难易程度来确定。具体计算时,常选取A=87.56,μ=255。A律压缩则对小信号是线性关系,对大信号是对数关系(与μ律压缩3.ADPCM编码在DPCM系统中,预测器和量化器设计好后,不管输入信号如何变化,其预测参数和量化参数都是固定不变的。而自适应差分脉冲编码调制ADPCM则综合了自适应的特性与DPCM系统的差分特性,在DPCM系统中采用自适应预测器或自适应量化器。所谓自适应,其最本质的特点就是具有自学习、自调整和自适应的能力,即自适应预测器/自适应量化器能够依据某种预先确定的最优准则,在迭代过程中自动调整自身的参数或/和结构,去适应变化的环境,以实现在这种最优准则下的最优预测/最优量化。实践证明,ADPCM系统与DPCM系统相比,不仅能改善压缩质量,而且能提高压缩比。3.ADPCM编码在DPCM系统中,预测器和量化器设计好后实现自适应预测的方法比较复杂,通常是先根据信源特性求得多组预测参数,编码时将信源数据分区间编码,自动选择一组预测参数,使该区间实际值与预测值的均方误差最小。随着编码区间的不同,预测参数自适应地变化,以达到准最佳预测。实现自适应量化最常用的方法是,根据信号分布不均匀的特点,自适应地修改和调整量化器的参数,包括量化器输出的动态范围、量化间隔(量化器的步长)等。例如,在量化器的分层级数确定之后,当预测误差值小时,将量化器的输出动态范围减小,量化间隔减小;当预测误差值大时,将量化器的输出动态范围扩大,量化间隔扩大。实现自适应预测的方法比较复杂,通常是先根据信源特性求得多组预变换编码1.变换编码的基本原理变换编码不是直接对时域或空域信号进行编码,而是先对信号进行某种变换,从一种信号空间(时域或空域)变换到另一种信号空间(变换域或频域),然后再对变换后的信号进行编码处理。因此,变换编码主要有三个步骤:变换、变换域采样和量化编码。变换编码1.变换编码的基本原理为什么经过变换就能够压缩数据或更易于实现压缩呢?一个看起来很复杂的问题,通过变换到另一个域中,就可以很容易地分析和求解。在变换编码系统中,变换是关键,通过变换将信号从一个域映射到另一个域中,可以方便地实现数据压缩,或使得变换域中的信号容易进行压缩。以傅立叶变换为例进行简单说明傅立叶变换是信号在时域和频域之间进行等效转换的一种最常用的信号处理方法。为什么经过变换就能够压缩数据或更易于实现压缩呢?一个看起来很多媒体数据压缩技术课件由此可见,时域信号转换到频域后,数据之间的相关性下降,数据冗余度减少,能量集中在少数变换系数上,从而达到了压缩数据的目的。为了进一步提高压缩效果,可以根据需要只保留变换系数中幅度大的元素,而将大量的幅度小的变换系数全部当作零,不予编码,再使用非线性量化,还可以进一步压缩数据。在变换编码中,变换是可逆的,使用逆变换可以恢复出原始信号。但由于量化器会导致不可逆的信息损失,变换编码属于有损压缩。这种编码在技术上比较成熟,理论上也比较完备,被广泛地应用于各种图像数据压缩,以及视频信号的帧内图像压缩和帧间图像压缩。由此可见,时域信号转换到频域后,数据之间的相关性下降,数据冗2.正交变换数据压缩方法主要是通过去除信源信号的相关性或改变其概率分布的不均匀性来达到压缩数据的目的。预测编码和变换编码都是根据去除相关性原理实现数据压缩的。对于随机信号X,表征相关性的统计特性就是协方差矩阵,其定义如下:2.正交变换数据压缩方法主要是通过去除信源信号的相关性或改变显然,协方差矩阵主对角线上的各元素就是变量的方差,其余元素就是变量的协方差,且为一对称矩阵。当协方差矩阵中除对角线上元素以外的各元素均为零时,就等效为信号的相关性为零,即相互独立。因此,为了有效地进行数据压缩,常常希望变换后的协方差矩阵为一对角矩阵,同时,也希望主对角线上各元素随i、j的增加能很快衰减。显然,协方差矩阵主对角线上的各元素就是变量的方差,其余元素就实现上述目标的关键是:在已知X的条件下,根据它的协方差矩阵去寻找一种正交变换T,使得变换后的协方差矩阵矩阵满足或接近为一对角矩阵。如果经过正交变换后,协方差矩阵为一对角矩阵,且对角线上的各元素最小,即具有最小均方误差,则该变换称为最佳变换,也称为Karhunen—Loeve变换。如果变换后的协方差矩阵接近对角矩阵,则该变换称为准最佳变换,典型的准最佳变换有DCT、DFT、WHT、HrT等。实现上述目标的关键是:在已知X的条件下,根据它的协方差矩阵去最佳变换(K-L变换)K-L变换是一种最佳变换,在数据压缩技术中占有重要的地位。K-L变换的变换矩阵不是固定不变的,而是随着所处理信源的改变而改变。针对不同的信源,首先求出其协方差矩阵,然后再分别算出它的特征根和对应的特征向量,最后才能算出变换矩阵。正是由于K-L变换的变换矩阵是针对输入信源而产生,所以K-L变换在变换域中能量最集中,几乎集中到少数变换系数上,只要较少个数的系数就能恢复出质量不错的信号。最佳变换(K-L变换)K-L变换是一种最佳变换,在数据压缩技实践表明,采用K-L变换进行数据压缩时,对于语音信号,变换后13.5kbps的语音质量,可与56kbps的PCM相比拟;对于图像信号,变换后2b/样值的图像质量,大致与7b/样值的PCM相比拟K-L变换的数据压缩效率最高,效果最佳,误差最小,通常作为各种变换编码压缩效果的比较基准。对不同的输入信源,K-L变换需要求出相应的变换矩阵,这既给它带来了压缩效率高、误差小的优点,但同时也限制了它的实用性。因为K-L变换的计算比较复杂,特别是由协方差矩阵求其特征根和特征向量的解方程工作很困难,计算量非常大,而一般情况下K-L变换又没有快速算法,所以限制了K-L变换的实际应用。实践表明,采用K-L变换进行数据压缩时,对于语音信号,变换后离散傅立叶变换(DFT)在实际使用变换编码时,考虑到实用性与编/解码的效率,并不是完全采用最佳变换,而是大量采用准最佳变换,即经过变换后的协方差矩阵接近对角矩阵。尽管准最佳变换不是最佳的,其数据压缩效率不是最高的,但它可以用固定的正交变换矩阵来对不同的输入信源进行数据压缩。因此,从实用的角度来说,准最佳变换简便、易于实现。离散傅立叶变换(DFT)在实际使用变换编码时,考虑到实用性离散傅立叶变换(DFT)离散傅立叶变换DFT是一种准最佳变换。若是N个样值序列,其中则DFT的定义如下:其中:离散傅立叶变换(DFT)离散傅立叶变换DFT是一种准最佳变换矩阵形式的DFT为:其中:DFT可以得到近似于最佳变换的性能,是用于数据压缩的一种常用而有效的方法。但DFT的运算次数太多,尽管有快速傅立叶变换FFT可以大大减少运算次数,但由于它需要复数运算,使用起来仍不方便,运算速度也达不到人们的期望。矩阵形式的DFT为:其中:DFT可以得到近似于最佳变换的性能离散余弦变换(DCT)离散余弦变换DCT是一种常用的准最佳变换,是离散傅立叶变换的一种特殊情况。根据DCT的定义,其矩阵形式如下:其中:离散余弦变换(DCT)离散余弦变换DCT是一种常用的准最佳变离散余弦变换(DCT)从定义可知,DCT是DFT取实部。对于数字图像数据,离散余弦变换DCT的压缩性能和误差十分逼近K-L变换,而DCT变换的计算复杂度适中,又具有快速算法、可分离性等特点,所以DCT广泛地应用于图像压缩。例如,在JPEG、MPEG、H.261等压缩标准中,都使用了DCT进行数据压缩。离散余弦变换(DCT)从定义可知,DCT是DFT取实部。对于数据压缩新技术前面介绍的常用数据压缩方法基本上都是根据信号理论,利用信息论和信息理论作为工具来对信息进行编码。预测编码是从信号波形的统计预测方法引出的;变换编码是根据信号信息在不同的表达空间具有不同的分布规律提出的;熵编码则是基于信号的统计分布特性进行编码的。

这类基于信号理论的编码方法统称为波形编码或经典数据压缩编码。数据压缩新技术前面介绍的常用数据压缩方法基本上都是根据信号理数据压缩新技术近年来,数据压缩技术突破了经典数据压缩编码理论的框架,形成了以基于内容的压缩编码方法为代表的现代数据压缩技术。所谓基于内容的压缩编码,是指在进行数据压缩编码时,不是根据数据内容本身按照信号理论进行压缩编码,而是先对数据本身的内容进行分析,根据内容的特征,提取其中的具有代表性的特征参数或模型参数,然后再对这些特征参数或模型参数进行压缩编码,这样的压缩编码往往会取得很高的压缩比。数据压缩新技术近年来,数据压缩技术突破了经典数据压缩编码理论数据压缩新技术例如,假设有一张图片,图片上除了猫、老鼠、房子外,还有其他一些背景,那么人在看这张图片时,首先映入眼帘的是猫、老鼠、房子这些具有典型特征的图像。为什么呢?因为人的视觉过程包括识别和认知两个基本过程。通过学习,人已经认识了猫、老鼠和房子,对这些物体的形状、结构等都具有相当的知识。因此,当人们一看到这些猫、老鼠和房子,便立即识别出来。事实上,猫、老鼠和房子就是这幅图片的特征。如果将这些特征提取出来再进行压缩编码,其数据量肯定远远小于将整个图片的数据内容进行压缩编码的数据量。这就是基于内容的压缩编码的根本思想。数据压缩新技术例如,假设有一张图片,图片上除了猫、老鼠、房子3.5数据压缩新技术典型的基于内容的压缩编码方法有子带编码、分形编码和小波变换编码等。3.5.1子带编码1.子带编码的基本原理所谓子带编码(SubbandCoding,SBC),就是利用带通滤波器组,将信号频带分割成若干子频带(即子带),然后对不同的子带用合适的方法进行编码,以实现信号数据的压缩。3.5数据压缩新技术典型的基于内容的压缩编码方法有子带3.5.1子带编码2.编码过程在音频数据编码中,子带编码的主要过程是:①分解音频信号。方法是,使用一组带通滤波器将输入音频信号的频带分割成若干连续的频段,每个频段称为子带,得到一组子带信号。②对每个子带中的音频信号采用单独的编码方案进行编码。方法是,通过等效于单边带调幅的调制过程,将各个子带搬移到零频率附近得到低通表示后,再以奈奎斯特频率对各个子带输出进行采样,并对采样值进行量化编码。3.5.1子带编码2.编码过程2.编码过程③在信道上传送时,将每个子带的代码复合起来。④恢复原始信号。在接收端译码时,先将各个子带信号单独解码,并重新调制回其原始位置,然后将所有子带输出相加,还原成原来的音频信号。2.编码过程③在信道上传送时,将每个子带的代码复合起来。5.子带编码的特点①对每个子带信号分别进行自适应控制,则可以根据每个子带的能量电平分别调节各个子带的量化间隔(即量化步长)。②可根据每个子带信号在感觉上的重要性,对每个子带分配不同的比特数,用来表示每个样本值。③可将量化噪声(量化误差)限制在各自的子带内,防止了子带间噪声的相互干扰,避免了能量较小频带内的输入信号被其他频段的量化噪声所淹没。5.子带编码的特点①对每个子带信号分别进行自适应控制,则可以4.子带编码的应用在中等速率的编码系统中,子带编码具有动态范围宽、音质高、成本低、计算复杂度中等的优点。因此,子带编码在语音信号处理,尤其是在宽带音频信号压缩编码中得到广泛的应用。例如,宽带音频编码标准G.722中,就采用了子带-自适应差分脉冲编码调制SB-ADPCM技术。在这个系统中,将频带分割成两个等宽的子带:高频子带和低频子带。其中低频子带的带宽略大于常规的电话语音带宽,给低频子带分配6比特数表示样本值,而给高频子带分配2比特数。在保持数据率为64kb/s的条件下,G.722标准的音频质量明显高于G.711标准的音频质量。4.子带编码的应用在中等速率的编码系统中,子带编码具有动态范4.子带编码的应用由于子带编码是一种高压缩比、高信噪比的编码方法,具有客观质量高、主观效果好等特点,因此子带编码在图像、视频压缩编码中也得到广泛的应用。在图像信号处理中,子带编码的基本原理是:将一维语音信号编码推广到二维图像信号编码,根据分离形式的二维图像信号子带滤波器的实现方案,首先采用正交镜像滤波器组QMF对图像子带进行分解,低频子带包括图像的背景和活动性较小部分,高频子带包含图像的边缘细节和活动性较大部分;然后对不同的子带选取不同的压缩编码方法,如DPCM、DCT等。这样就可以大大提高系统性能,实现低比特率的高效图像数据压缩。4.子带编码的应用由于子带编码是一种高压缩比、高信噪比的编码3.5.2分形编码分形是一个崭新的概念,1973年由数学家曼德布劳提出,它解决了经典几何学很难处理的不规则曲线、不规则图形问题。而这些不规则的形状在自然界和社会活动中却广泛存在。所谓分形(Fractal),就是某种形状、结构的一个局部或片断,它有多种尺寸,但形状都是相似的。以一棵树为例,树干分为枝,枝又分枝……,直到最细的枝杈。这些分枝的方式、样子都是类似的,只有大小、规模的不同。形象地说,分形图形是指一类无规则、混乱而复杂,但其局部与整体具有相似性的体系,即自相似体系。3.5.2分形编码分形是一个崭新的概念,1973年由数学3.5.2分形编码分形的应用十分广泛,与多媒体领域相关的应用有不规则几何造型、图像压缩等。基于分形的图像压缩主要是利用自相似的特点,通过迭代函数系统(IteratedFunctionSystem,IFS)来实现。迭代函数系统IFS的基本思想是:首先认定几何对象的全貌与局部,在仿射变换的意义下,具有自相似结构。因此,当几何对象的整体被定义之后,选择若干仿射变换将整体形态变换到局部,然后反复迭代这一过程,直到得到满意的造型为止。利用这种方法可以生成看起来非常自然的图像,如山脉、植物等。3.5.2分形编码分形的应用十分广泛,与多媒体领域相关的1.分形编码的基本原理分形图像编码的基本原理是:对于一幅数字图像,根据图像的内容,通过图像处理技术,如颜色分割、边缘检测、频谱分析、纹理变化分析等等,将原始图像分成一些子图像。子图像既可以是简单的物体(如一棵树、一片树叶、一片云彩等),也可以是复杂的景物。然后在分形集中查找这样的子图像。分形集实际上并不是存储所有可能的子图像,而是存储许多迭代函数,通过迭代函数的反复迭代,恢复出原来的子图像。也就是说,子图像所对应的只是迭代函数,而表示这样的迭代函数一般只需要几个数据即可,这样就可以达到很高的压缩比。1.分形编码的基本原理分形图像编码的基本原理是:对于一幅数分形图像编码主要有两个难点:如何更好地分割图像;如何更好地构造迭代函数系统。由于每幅图像都要在迭代函数系统中寻找最合适的迭代函数,使得通过该函数的反复迭代,尽可能精确地恢复原来的子图像,因而迭代函数系统的构造显得尤为重要。

1.分形编码的基本原理分形图像编码主要有两个难点:1.分形编码的基本原理2.分形编码过程1992年,A.Jacquin提出了分块迭代函数系统,使分形压缩编码的全过程可以由计算机自动完成。分形图像压缩编码过程的关键技术如下:①在图像分割上,采用矩形图像块,如8×8或16×16等,这样就可以完全由计算机完成图像的分割。②在迭代函数系统的构造上,为了保证迭代函数变换迭代的收敛性,首先将原始图像的尺寸缩小为原来的二分之一,然后再作子图像的匹配。2.分形编码过程1992年,A.Jacquin提出了分块迭代2.分形编码过程③在缩小的图像中,寻找与子图像尺寸相同(8×8或16×16)的最佳匹配块的位置。假设原始图像中的子图像为fd,缩小后图像中的子图像为fr,则最佳匹配是指通过如下变换:其中灰度比例因子;为灰度平移量;W表示旋转、镜像等简单图像变换。2.分形编码过程③在缩小的图像中,寻找与子图像尺寸相同(8×2.分形编码过程W包含有几种变换,即W={W1,W2,…,WN},子图像fr与子图像fd具有最小均方误差。对于所有的子图像fr,找出匹配误差最小的块,记下α、△g和N的值以及匹配块坐标x、y,也就找到了相应的迭代函数。以上三个关键技术由计算机来完成都非常容易。这样,每个图像最终只需要α、△g、N、x、y这些数据就可以表示了,从而使数据得到压缩。

2.分形编码过程W包含有几种变换,即W={W1,W2,…,W3.分形编码的特点分形编码充分利用人的视觉特性和自然景物的特点,对图像不是以纯数据的形式看待,而是结合图像内容自身所固有的特点,采用模型编码的方法处理图像。

分形压缩后的分形图像格式文件FIF(FractalImageFormat)的大小不会随着图像分辨率的提高而变大,即压缩后的文件大小与分辨率无关分形编码本身是非对称的,压缩时计算量大,所需时间长,而解压缩的速度却很快

3.分形编码的特点分形编码充分利用人的视觉特性和自然景物的3.5.3小波变换编码小波变换(WaveletTransform,WT),又称子波变换,由法国科学家JeanMorlet于1980年提出的,主要算法则是由法国科学家StephaneMallat在1988年提出的。目前,小波变换理论已成为应用数学的一个新领域、信号处理的强有力工具。它的出现引起了许多数学家和工程技术人员的极大关注,是国际科技界和众多学术团体高度关注的前沿领域,被广泛地应用于图像处理、语音分析、计算机视觉、信号奇异性检测与谱估计等众多领域。3.5.3小波变换编码小波变换(WaveletTran1.小波变换的定义傅立叶分析是把一个信号分解成各种不同频率的正弦波和余弦波,因此正弦波和余弦波是傅立叶变换的基函数。小波分析是把一个信号分解成将原始小波经过平移和缩放之后的一系列小波,因此小波同样可以用作表示一些函数的基函数。所谓小波,就是定义在有限区间内,且其平均值为零的一种函数。如图给出了许多使用比较广泛的小波中的三种一维小波。其中,Moret小波函数是Grossmann和Morlet在1984年开发的,Meyer小波函数是Meyer开发的,db6小波函数是Duabechies开发的几种小波之一。1.小波变换的定义傅立叶分析是把一个信号分解成各种不同频率小波函数小波具有有限的持续时间和突变的频率和振幅,波形可以是不规则的,也可以是不对称的,在整个时间范围里的幅度平均值为零。在进行小波分析时,如何从众多的小波中选取适当的小波来对信号进行分析是一个至关重要的问题。因为使用的小波不同,分析得到的数据也不同,这一点关系到利用小波分析能否达到目的。小波函数小波具有有限的持续时间和突变的频率和振幅,波形可以是1.小波变换的定义假设基本小波(原始小波或母小波)为,缩放和平移因子分别为a和b,则小波变换的基函数定义为:连续小波变换定义为:

含义:小波变换是信号f(t)与经过缩放和平移的小波函数之积在信号的整个期间内求和。小波变换得到小波系数,这些系数是缩放因子a和平移因子b的函数。1.小波变换的定义假设基本小波(原始小波或母小波)为小波变换定义小波的缩放因子与信号频率之间的关系可以这样理解:缩放因子小,表示小波比较窄,度量的是信号细节,表示的频率比较高;相反,缩放因子大,表示小波比较宽,度量的是信号的粗糙程度,表示的频率比较低。

对于缩放因子可以这样来理解。例,对于正弦函数,它的缩放因子a=1,它的缩放因子a=1/2,它的缩放因子a=1/4小波变换定义小波的缩放因子与信号频率之间的关系可以这样理解:信号的时间特性与频率特性小波变换得到的系数是在不同的缩放因子下由信号的不同部分产生的,代表了小波和局部信号之间的相互关系。因此,小波变换通过平移基本小波可以获得信号的时间信息,通过缩放小波的宽度可以获得信号的频率特性。信号的时间特性与频率特性小波变换得到的系数是在不同的缩放因子2.小波变换的应用小波变换是一种具有高度局域化的时频域分析工具,它是一个线性变换,能够将一个信号分解成对空间(或时间)、频率的独立贡献,同时又不失原信号所包含的信息。小波变换不一定要求是正交的,小波基不惟一。小波系数的时宽-带宽积很小,且在时间和频率轴上都很集中。经过小波变换后的图像能量很集中,便于针对不同的分量作不同的处理,达到较高的压缩比。2.小波变换的应用小波变换是一种具有高度局域化的时频域分析工1988年科学家InridDaubenchies最先揭示了小波变换与滤波器组之间的内在关系之后,离散小波分析才变成现实。她指出:离散时间滤波器或者正交镜像滤波器可以被叠代,并在某一种匀称条件下可获得连续小波。这是一个非常实际和极其有用的发现,意味着可以使用有限冲击响应的离散时间滤波器来执行小波分解,使用相同的滤波器可以重构小波分解之后的信号。图像的小波变换可以理解为图像信号经过一系列带通滤波器的结果,这组滤波器在对数意义下具有相同的带宽,从小波变换后不同分层定位中,提取出图像的特征,低频部分平滑,表示背景;高频部分不平稳,表示细节。利用不同层次对恢复图像的贡献大小和对人眼视觉系统影响的大小,采用不同的编码方法,可以达到图像压缩的目的。由此可见,子带编码实际上是一种小波变换。

1988年科学家InridDaubenchies最先揭示了小波图像编码的一般结构小波图像编码的一般由小波变换、量化和熵编码等3个模块组成。小波编码属于一种变换编码。小波图像编码的一般结构小波图像编码的一般由小波变换、量化和熵小波变换是一种频率上伸缩自由的变换,当信号带宽较窄时,它可以通过缩小的方法对窄带信号的刻画较为精细。当信号带宽较宽时,它可以通过放大的方式使描述能满足精度的需要。因此,小波变换是一种具有时频分析优越性、不受带宽约束的编码技术,且在克服DCT变换时产生的方块效应方面具有良好的性能。小波变换在静态图像压缩方面得到了较好应用例如,在制定JPEG2000标准中,JPEG专家组放弃了传统的以离散余弦变换算法为主的区块编码方法,而改用以离散小波变换算法为主的多解析编码方式。小波变换是一种频率上伸缩自由的变换,当信号带宽较窄时,它可以前面介绍的常用数据压缩方法基本上都是根据信号理论,利用信息论和信息理论作为工具来对信息进行编码。预测编码是从信号波形的统计预测方法引出的;变换编码是根据信号信息在不同的表达空间具有不同的分布规律提出的;熵编码则是基于信号的统计分布特性进行编码的。

这类基于信号理论的编码方法统称为波形编码或经典数据压缩编码。3.6多媒体数据压缩标准前面介绍的常用数据压缩方法基本上都是根据信号理论,利用信息论3.6多媒体数据压缩标准3.6.1静态图像压缩标准JPEGJPEG标准是一个适用范围很广的通用国际标准,适用于黑白及彩色照片、传真和印刷图片。

JPEG压缩标准满足以下要求:①达到或接近当前压缩比与图像保真度的技术水平,能覆盖一个较宽的图像质量等级范围,能达到“很好”到“极好”的评估,与原始图像相比,人的视觉难以区分。②能适用于任何种类的连续色调的图像,且长宽比都不受限制,同时也不受限于景物内容、图像的复杂程度和统计特性等。3.6多媒体数据压缩标准3.6.1静态图像压缩标③计算的复杂性是可以控制的,其软件可在各种CPU上完成,算法也可用硬件实现。④为了满足各种需要,JPEG有4种工作模式:顺序编码。每一个图像分量按从左到右、从上到下扫描,一次扫描完成编码。累进编码。图像编码在多次扫描中完成。累进编码传输时间长,接收端收到的图像是多次扫描由粗糙到清晰的累进过程。无失真编码。无失真编码方法保证解码后能完全精确地恢复出原始图像,其压缩比低于有失真压缩编码方法。分层编码。图像在多个空间分辨率进行编码。当信道传送速率慢、接收端显示器分辨率也不高的情况下,只需做低分辨率图像解码,不必进行高分辨率解码。③计算的复杂性是可以控制的,其软件可在各种CPU上完成,算法3.6.1静态图像压缩标准JPEGJPEG压缩标准JPEG标准采用混合编码方法,它定义了两种基本压缩算法:基于DPCM的无失真压缩算法基于DCT的有失真压缩算法3.6.1静态图像压缩标准JPEGJPEG压缩标准(1)基于DPCM的无失真压缩算法基于DPCM的无失真压缩算法包括三个步骤:源图像数据输入,无失真编码器和压缩图像数据流的输出。(1)基于DPCM的无失真压缩算法基于DPCM的无失真压缩算无失真编码器由预测器和熵编码器组成预测器通常采用三邻域预测法,即X点的预测值由3个邻域采样值A、B、C预测得到,所采用的预测公式可以从表中的8个公式中选择其一熵编码器采用Huffman编码或算术编码,直接对预测误差(实际值减去预测值)进行编码。无失真编码器由预测器和熵编码器组成(2)基于DCT的有失真压缩算法基于DCT的有失真压缩算法是JPEG标准的核心内容,它利用了人的视觉特性,使用有失真压缩算法与无失真压缩算法相结合的方法,去掉了视觉的冗余信息和数据本身的冗余信息,大大提高了压缩比(10:1~100:1)。当压缩比小于25时,压缩后还原得到的图像与原始图像相比,非图像专家难于找出它们之间的区别,因此得到广泛应用。基于DCT的压缩编码过程大致为:先进行DCT正变换,再对DCT系数进行量化,并对量化后的直流系数和交流系数分别进行差分编码或行程编码,最后进行熵编码。(2)基于DCT的有失真压缩算法基于DCT的有失真压缩算法是基于DCT的编码过程基于DCT的解码过程

基于DCT的编码过程基于DCT的解码过程基于DCT的具体编码过程将源图像分成8×8大小的数据块作为输入对每个数据块进行正向离散余弦变换FDCT正变换反正变换其中基于DCT的具体编码过程将源图像分成8×8大小的数据块作为输由于在一幅图像中像素之间的灰度或色差信号变化缓慢,在8×8数据块中像素之间相关性很强,所以通过DCT正变换后,把能量集中在少数几个频率系数上。下图给出了DCT变换的示意图。图中的DC系数是经过DCT变换后的直流系数,代表直流分量,位于频率图像块的左上角,它是64个样本的平均值;AC系数是经过DCT变换后的交流系数,代表交流分量,共有63个,离直流分量越远,系数所代表的图像的交流成分的频率就越高。由于在一幅图像中像素之间的灰度或色差信号变化缓慢,在8×8数DCT变换的示意图

DCT变换的示意图多媒体数据压缩技术课件下面以一个8×8图像块的具体计算结果为例进行说明。下图是某人像头顶部分的一个8×8图像块,经过逐点的数码采样,得到图1(a)所示的亮度值。将这64个亮度值通过DCT正变换,得到图1(b)所示的64个DCT系数。

图1一个8×8图像块的亮度值及其DCT变换系数下面以一个8×8图像块的具体计算结果为例进行说明。下图是某人基于DCT的具体编码过程3.对经过DCT正变换后的频率系数进行量化

采用均匀量化器进行量化,量化公式:其中是量化间隔,它根据DCT系数所在的位置和每种颜色分量的色调值来确定。由于人眼对低频分量的图像比对高频分量的图像更敏感,因此对低频成分采用较小的量化间隔。由于人眼对亮度信号比对色差信号更敏感,因此使用两种量化表:亮度量化表和色差量化表。

基于DCT的具体编码过程3.对经过DCT正变换后的频率系数进亮度量化表色差量化1611101624405161

17182447999999991212141926586055

18212666999999991413162440576956

24265699999999991417222951878062

4766999999999999182237566810910377

9999999999999999243555648110411392

999999999999999949647887103121120101

99999999999999997292959811210010399

9999999999999999亮度量化表对应于图1(b)所示的64个DCT系数的量化表与量化结果

161110162440516115440000012121419265860550000000014131624405769560-10000001417222951878062量化0000000018223756681091037700000000243555648110411392000000004964788710312112010100000000729295981121001039900000000(a)亮度量化表(b)64个DCT系数的量化结果对应于图1(b)所示的64个DCT系数的量化表与量化结果14.对量化后的DCT系数进行Z字形编排从量化结果可以看到,DCT系数经过量化后出现许多0值。因此,为了进一步压缩数据,可以采用简单的行程编码。为了增加连续的“0”系数的个数,即“0”的行程,需要对量化后的DCT系数进行重新编排。方法是按照Z字形的式样编排,如图2。5.对直流系数进行DPCM编码由于直流系数DC的数值较大,且相邻8×8图像块的DC系数值变化不大,所以JPEG算法采用DPCM技术对相邻图像块之间的DC系数的差值进行编码,如图3。4.对量化后的DCT系数进行Z字形编排

图2Z字形编排图3DC系数差分编码

图2Z字形编排图6.对交流系数进行RLE编码由于量化后的交流系数AC中包含了许多“0”系数,并且“0”系数是连续的,所以采用非常简单的行程编码方法进行编码。

7.熵编码

为了进一步压缩数据,对DPCM编码后的直流系数DC和RLE编码后的交流系数AC进行熵编码(Huffman编码或自适应二进制算术编码)。8.组成位数据流将各种标记代码和编码后的图像数据组成一帧一帧的数据,目的是为了便于传输、存储和译码器进行译码。这样组织的数据称为JPEG位数据流。6.对交流系数进行RLE编码解码过程正好与编码过程相反,最后解码输出的数据,需要按照编码时的分块顺序,作重构处理,恢复出数字图像。这种基于DCT的JPEG标准是有失真的,其中量化是引起失真的主要原因。对中等复杂程度的彩色图像,在原始图像每像素采用8位二进制编码的条件下,其压缩比与恢复图像质量之间的关系,如表所示。压缩比与恢复图像质量之间的关系压缩效果恢复图像质量比特/像素压缩倍数0.25~0.501

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论