《数字图像处理》课件1第6章_第1页
《数字图像处理》课件1第6章_第2页
《数字图像处理》课件1第6章_第3页
《数字图像处理》课件1第6章_第4页
《数字图像处理》课件1第6章_第5页
已阅读5页,还剩159页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章图像编码与压缩6.1概述

6.2图像保真度准则

6.3统计编码方法

6.4预测编码

6.5正交变换编码

6.6图像编码的国际标准

6.7上机实验习题

用数字形式表示图像可使可视化信息以高效、新颖的方式加以控制,其应用已经非常广泛,如卫星遥感、医学影像分析、脸谱识别、精确制导等。然而,这种表示方法需要大量的数据(比特数)。

编码是用符号数码元素表示信号、消息或事件的过程。图像编码是研究图像数据的编码方法,期望用最少的数码表示信源发出的图像信号,使数据得到压缩,减少图像数据占用的信号空间和能量,降低信号处理的复杂程度。

6.1.1图像数据压缩的必要性与可能性

数据压缩最初是信息论研究中的一个重要课题,在信息论中数据压缩被称为信源编码。但近年来,数据压缩已不局限于编码方法的研究与探讨,而逐步形成较为独立的体系。它主要研究数据表示、传输、变换和编码的方法,目的是减少存储数据所需的空间和传输所用的时间。6.1概述

近年来,随着计算机与数字通信技术的迅速发展,特别是网络和多媒体技术的兴起,图像编码与压缩作为数据压缩的一个分支,已受到越来越多的关注。

图像数据的特点之一是数据量大。大数据量的图像信息会给存储器的存储容量、通信干线信道的带宽以及计算机的处理速度增加极大的压力。单纯靠增加存储器容量,提高信道带宽以及计算机的处理速度等方法来解决这个问题是不现实的。例如512×512×8bit×3色的电视图像,用9600波特在电话线上传输,单幅图像传输需要11分钟左右,这通常是不能接受的。很显然,在信道带宽、通信链路容量一定的前提下,采用编码压缩技术,减少传输数据量,是提高通信速度的重要手段。从本质上来说,图像编码与压缩就是对图像数据按一定的规则进行变换和组合,从而达到以尽可能少的代码(符号)来表示尽可能多的信息的目的。

没有图像编码压缩技术的发展,大容量图像信息的存储与传输是难以实现的,多媒体、信息高速公路等新技术在实际中的应用也会碰到很大困难。

图像数据压缩是必要的,同时,图像数据压缩也是可能的,主要有以下两方面的原因。

其一,数字图像本身的特征带来的数据压缩的可能性。

(1)图像中像素灰度出现的不均匀性,造成图像信息熵冗余,即用同样长度比特表示每一个灰度,则必然存在冗余。而将出现概率大的灰度级用长度较短的码表示,将出现概率小的灰度级用长度较长的码表示,有可能使编码总长度下降。

(2)图像能量在变换域内分布不均匀,比如大部分能量集中在低频部分,而小部分能量集中在高和较高的频率部分,此时,对变换域信号采用与(1)相同的方法,则可提高编码效率。

(3)图像像素灰度在时间和空间上的相关性造成信息冗余。例如空间冗余:邻近像素灰度分布的相关性很强;频间冗余:多谱段图像中各谱段图像对应像素之间的灰度相关性很强;时间冗余:序列图像帧间画面对应像素灰度的相关性很强。

其二,应用环境允许图像有一定程度的失真。

(1)接收端图像设备分辨率较低,则可降低图像分辨率;

(2)根据人的视觉特性对不敏感区进行降分辨率编码(视觉冗余);

(3)应用方关心图像区域有限,可对其余部分图像采用空间和灰度级上的粗化。

由于一般图像中存在很大的冗余度,因此图像信息的压缩是可能的。但到底能压缩多少,除了和图像本身存在的冗余度大小有关外,很大程度取决于对图像质量的要求。例如广播电视要考虑艺术欣赏性,对图像质量要求就很高,用目前的编码技术,即使压缩比达到3∶1都是很困难的。而对可视电话,画面活动部分少,对图像质量要求也低,可采用高效编码技术,使压缩比高达1500∶1以上。目前高效图像压缩编码技术已能用硬件实现准实时处理,在广播电视、电视会议、可视电话、传真和互联网、遥感等多方面得到应用。6.1.2图像编码压缩技术的分类

图像编码方法有许多,但从技术角度来看,可以分作两大类:无失真编码和有失真编码。

无失真编码(无损压缩、可逆压缩)是一种经编、解码后图像不会产生失真的编码方法,可重建图像,但压缩比不大。

有失真编码(有损压缩、不可逆压缩)解码时无法完全恢复原始图像,压缩比大但有信息损失。这里的失真是指编码输入图像与解码输出图像之间的随机误差,而压缩比指原图像比特数与压缩后图像比特数之比。

无损编码中删除的仅仅是图像数据中冗余的数据,经解码重建的图像和原始图像没有任何失真,常用于复制、保存十分珍贵的历史、文物图像等场合;有损编码是指解码重建的图像与原图像相比有失真,不能精确地复原,但视觉效果上基本相同,是实现高压缩比的编码方法,数字电视、图像传输和多媒体等常采用这类编码方法。例如一张A4(210mm×297mm)幅面的照片,若用中等分辨率(300dpi)的扫描仪按真彩色扫描,共有(300×210/25.4)

×(300×297/25.4)个像素,每个像素占3B,其数据量为26MB。在多媒体中,海量图像数据的存储和处理是难点之一。如不进行编码压缩处理,一张600MB的光盘仅能存放20s左右的640×480像素的图像画面。根据编码的作用域划分,图像编码分为空间域编码和变换域编码两大类。但是,近年来,随着科学技术的飞速发展,许多新理论、新方法的不断涌现,特别是受通信、多媒体技术、信息高速公路建设等需求的刺激,一大批新的图像压缩编码方法应运而生,其中有些基于新的理论和变换,有些是两种或两种以上方法的组合,有的既在空间域也要在变换域进行处理,将这些方法都归属于其他方法。图6.1.1所示为图像编码压缩技术的分类。

图6.1.1图像编码压缩技术的分类

在图像压缩编码中,解码图像与原始图像可能会有差异,因此,需要评价压缩后图像的质量。描述解码图像相对原始图像偏离程度的测度一般称为保真度(逼真度)准则。常用的准则可分为两大类:客观保真度准则和主观保真度准则。6.2图像保真度准则6.2.1客观保真度准则

最常用的客观保真度准则是原图像和解码图像之间的均方根误差和均方根信噪比。令f(x,y)代表大小为M×N的原图像,

代表解压缩后得到的图像,对任意x和y,f(x,y)和

之间的误差定义为

(6.2.1)

1.均方根误差

均方根误差erms为

(6.2.2)

2.均方根信噪比(SNRrms)

如果将

看做原始图像f(x,y)和噪声信号e(x,y)的和,那么解压图像的均方根信噪比SNRrms为

(6.2.3)

实际使用中常将SNRrms归一化并用分贝(dB)表示。令

(6.2.4)

则有

(6.2.5)

3.峰值信噪比(PSNR)

如果令f

max=max[f(x,y)](x=0,1,…,M-1;y=0,1,…,N-1),可得到

(6.2.6)

6.2.2主观保真度准则

对具有相同客观保真度的不同图像,人的视觉可能产生不同的视觉效果。这是因为客观保真度是一种统计平均意义下的度量准则,对于图像中的细节无法反映出来,而人的视觉能够觉察出来。这种情况下,用主观的方法来评价图像的质量更为合适。一种常用的方法是让一组(不少于20人)观察者观看图像并打分,将他们对该图像的评分取平均,用来评价一幅图像的主观质量。

主观评价也可对照某种绝对尺度进行。表6.2.1给出一种对电视图像质量进行绝对评价的尺度,据此可对图像的质量进行判断打分。

表6.2.1电视图像质量评价尺度也可通过比较

和f(x,y)并按照某种相对的尺度进行评价。如果观察者将

和f(x,y)逐个进行对照,则可以得到相对的质量分。例如可用(-3,-2,-1,0,1,2,3)来代表主观评价{很差,较差,稍差,相同,稍好,较好,很好}。

根据信源的概率分布特性分配可变长码,使平均码长非常接近于熵,这种压缩编码称为统计编码。

为了衡量一种编码方法的优劣,本节首先讨论冗余度和编码效率,然后介绍统计编码方法中的霍夫曼编码、行程编码和算术编码方法。6.3统计编码方法6.3.1图像冗余度和编码效率

从信息论观点看,描述图像信源的数据由有用数据和冗余数据两部分组成。冗余数据有编码冗余、像素间冗余和心理视觉冗余三种。如果能减少或消除其中的一种或多种冗余,就能取得数据压缩的效果。

1.信息量和熵

信息量的定义:对应每个符号的

I(ai)=-logP(ai)

其中,P(ai)指ai出现的概率。

信源的定义:信源指能够产生信息的事物。在数学上信源是一概率场,若信源X可能产生的信息是x1,x2,…,xn,这些信息出现的概率分别是p1,p2,…,pn,则该信源可表示为

由于I(aj)是一个随机变量,因此也可以定义信源的信息量的统计平均为熵[entropy]

(6.3.1)

在编码应用中,熵表示信源中消息的平均信息量,在不考虑消息间的相关性时,是无失真代码平均长度比特数的下限。

2.编码过程

编码器是用符号集A中的符号构成输出代码,并建立输入信号单元与输出代码的对应关系,如图6.3.1所示。

根据Shannon无干扰信息保持编码定理,若对原始图像数据的信息进行信源的无失真图像编码,则压缩后的平均码率存在一个下限,这个下限是信源信息熵H。理论上最佳信息保持编码的平均码长可以无限接近信源信息熵H。若原始图像平均码长为,则

(6.3.2)

图6.3.1编码过程bi为灰度级i对应的码长,pi为灰度级i出现的概率。那么总是大于或等于图像的熵H。

因此可定义冗余度

(6.3.3)

编码效率h定义为

(6.3.4)

当经过编码压缩后图像信息的冗余度r已接近于零,或编码效率已接近于1时,那么平均码长已接近其下限,这类编码方法称为高效编码。

例设有信源

说明该信源编码平均码长最短情况下为7/4,不能再小,否则就会引起错误。而平均码长比此数大许多时,就表明还有待改进。

分别表示要传递的四种可能消息,如果选择一符号集合A={1,2,3,4},每一个符号分别代表一种消息,n=4(符号集中符号个数),则可以求出平均码长

冗余度

如果另选一种符号集A={0,1},n=2,分别用00,01,10,11表示4个消息,则

冗余度

从上例可以看出,这两种代码长度相同的编码方法没有得到最高的编码效率,即没做到用最少的码字传递信源的消息。如何使平均码长短到极限?

仍用上例,令A={0,1},n=2,分别用0,10,110,111表示4个消息,则平均码长为

这种方式得到最高的编码效率,是因为消息码字长度不同。6.3.2行程编码

行程编码RLE(Run-Length-Encoding)又称游程码,这种压缩方法广泛地应用于各种图像格式的数据压缩处理中,是压缩图像最简单的方法之一。

行程编码技术是在给定的图像数据中寻找连续重复的数值,然后用两个字符值取代这些连续值。例如,有一串用字母表示的数据为“aaaaabbbbccccdddedddaa”,经过行程编码处理可表示为“5a4b4c3d1e3d2a”。

二进制(黑白)图像,例如传真,通常包括0或1游程。例如,如果二值图像的段表示为:D=00000000011111

11111100000000000000011100000000000001001111111111,而通过简单地列出可选择的0和1行程长度,它可以紧凑地表示为c(d)=(9,11,15,3,13,1,2,10)。假定每个行程长度由4位表示,原始二进制数据d需要65位用于存储,而它的紧凑表示c(d)只需要32位。

这种方法在处理包含大量重复信息的数据时可以获得很好的压缩效率。但是如果连续重复的数据很少,则难获得较好的压缩比,而且甚至可能会导致压缩后的编码字节数大于处理前的图像字节数。所以行程编码的压缩效率与图像数据的分布情况密切相关。6.3.3霍夫曼编码

霍夫曼(Huffman,也译为哈夫曼)编码是由D.A.Huff

man在1952年提出的一种编码方法。这种编码方法根据源数据各信号发生的概率进行编码。在源数据中出现概率越大的信号,分配的码字越短;出现概率越小的信号,其码字越长,从而达到用尽可能少的码表示源数据的目的。它在变长编码方法中是最佳的。

霍夫曼编码的步骤如下:设信源X有m个符号(消息),

(1)把信源X中的消息按概率从大到小的顺序排列;

(2)把最后两个出现概率最小的消息合并成一个消息,从而使信源的消息数减少,并同时再按信源符号(消息)出现的概率从大到小排列;

(3)重复上述2个步骤,直到信源最后为

(4)将被合并的消息分别赋予1和0,并对最后的两个消息也相应地赋予1和0。

通过上述步骤就可构成最优变长码(霍夫曼编码,HuffmanCodes)。

下面通过实例来说明这种编码方法。

例设有编码输入

X={x1,x2,x3,x4,x5,x6}

其频率分别为

P(x1)=0.4,P(x2)=0.3,P(x3)=0.1,P(x4)=0.1,P(x5)=0.06,P(x6)=0.04

现求其最佳霍夫曼编码

W={w1,w2,w3,w4,w5,w6}

具体编码方法是:

①把输入元素按其出现概率由大到小排列起来,然后把最末两个具有最小概率的元素的概率加起来;

②把该概率之和同其余概率由大到小排队,然后再把两个最小概率加起来,再重新排队;

③重复②,直到最后只剩下两个概率为止。

在上述工作完毕之后,从最后两个概率开始从右向左进行编码。对于概率大的赋予0,小的赋予1。

本例中对0.6赋予0,对0.4赋予1。0.4传递到x1,所以x1的编码便是1。而0.6传递到前一级是两个0.3相加,大值是单独—个元素x2的概率,小值是两个元素概率之和,所以x2赋予0,0.2和0.1求和的0.3赋予1。则x2的编码是00,而剩余元素编码的前两个码应为01。对0.2赋予0,0.1赋予1。以此类推,最后得到诸元素的编码如下:

元素xi

x1

x2

x3

x4

x5

x6

概率p(xi)

0.4

0.3

0.1

0.1

0.06

0.04

编码wt

1

00

011

0100

01010

01011

其编码过程如图6.3.2所示。

图6.3.2霍夫曼编码过程经霍夫曼编码后,平均码长为

=0.4×1+0.30×2+0.1×3+0.1×4+0.06×5+0.04×5

=2.20(bit)

该信源的熵为H≈2.14bit,编码后计算的平均码长为2.2bit,非常接近于熵。可见霍夫曼编码是一种较好的编码。

也可按二叉树进行霍夫曼编码。算法步骤如下:

(1)统计出每个元素出现的频率。

(2)把上述频率按从大到小的顺序排列。

(3)选出频率最小的两个值,作为二叉树的两个叶子节点,将其和作为它们的根节点,两个叶子节点不再参与排序,新的根节点同其余元素按出现的频率排序。

(4)重复(3),直到最后得到和为1的根节点。

(5)将形成的二叉树的子节点概率大的取为0,概率小的取为1。把最上面的根节点到最下面的叶子节点途中遇到的0,1序列串起来,就得到了各个元素的编码。

以上过程如图6.3.3所示,其中圆圈中的数字是新节点产生的顺序。

图6.3.3霍夫曼编码二叉树可见,这与前面给出的编码结果是不一样的。因为霍夫曼编码具有以下特点:

(1)霍夫曼编码构造出来的编码值不是唯一的。原因在于给两个最小概率的图像的灰度值进行编码时,可以是大概率为“0”,小概率为“1”,但也可相反。而当两个灰度值的概率相等时,“0”、“1”的分配也是人为定义的,这就造成了编码的不唯一性,但这不影响解码的正确性。

(2)当图像灰度值分布很不均匀时,霍夫曼编码的效率就高。当信源概率是2的负幂次方时,编码效率为100%。而在图像灰度值的概率分布比较均匀时,霍夫曼编码的效率就很低。

(3)霍夫曼编码必须先计算出图像数据的概率特性并形成编码表后,才能对图像数据编码。因此,霍夫曼编码缺乏构造性,即不能使用某种数学模型建立信源符号与编码之间的对应关系,而必须通过查表方法建立起它们之间的对应关系。如果信源符号很多,那么码表就会很大,这必将影响到存储、编码与传输。

可见,利用霍夫曼编码需要对图像扫描两遍。第一遍扫描要精确地统计出原图像中每一灰度级出现的频率,建立霍夫曼树并进行编码,形成编码表;第二遍扫描原图像是利用编码表对原图像各像素编码生成图像压缩文件。由于需要建立二叉树并遍历二叉树生成编码,因此数据压缩和还原速度都较慢,但简单有效,因而得到广泛的应用。

理论上,用霍夫曼方法对源数据流进行编码可达到最佳编码效果,但由于计算机中存储、处理的最小单位是“位”,因此在一些情况下,实际压缩比与理论压缩比的极限相去甚远。例如源数据流由X和Y两个符号构成,它们出现的概率分别是2/3和1/3。理论上,根据字符X的熵确定的最优码长为

根据字符Y的熵确定的最优码长为

若要达到最佳编码效果,相应于字符X的码长为0.585位;字符Y的码长为1.58位。计算机中不可能有非整数位出现,硬件的限制使得编码只能按“位”进行。用霍夫曼方法对这两个字符进行编码,得到X、Y的代码分别为0和1。显然,对于概率较大的字符X不能给予较短的代码。这就是实际编码效果不能达到理论压缩比的原因所在。

应该指出,从编码最终结果可看出上述方法有其规律:短的码不会作为更长码的起始部分,否则在码流中区分码字时会引起混乱。另外这种码和计算机常用的数据结构(以字节和半字节为基础的字长)不匹配,因而数据压缩的效果不甚理想。因此有时用半字节为基础的近似霍夫曼方式加以折中解决,是对这种编码方法的一种扩展。6.3.4费诺—香农编码

由于霍夫曼编码法需要多次排序,当元素xi很多时十分不便,为此费诺(Fano)和香农(Shannon,也译为仙农)分别单独提出类似的方法,使编码方法更简单。具体编码方法如下:

(1)把x1~xn按概率由大到小、从上到下排成一列,然后把x1~xn分成两组x1~xk,xk+1~xn,并使得

(2)给两组中的xi赋值,将概率大的一组赋为0,概率小的一组赋为1。这是该方法的赋值原则。

(3)把两组分别按(1)、(2)分组、赋值,不断重复,直到每组只有一种输入元素为止。将每个xi所赋的值依次排列起来就是费诺—香农编码。

6.3.5算术编码

算术编码没有延用数据编码技术中用一个特定的代码代替一个输入符号的一般做法,它把要压缩处理的整段数据映射到一段实数半开区间[0,1)内的某一区段,构造出小于1且大于或等于0的数值。这个数值是输入数据流的唯一可译代码。

下面通过一个例子来说明算术编码的方法。

例如,对一个5符号信源A={a2a3a1a3a4},各符号出现的概率和设定的取值范围如下:

“范围”给出了符号的赋值区间,这个区间是根据符号发生的概率划分的。具体把a1、a2、a3分配在哪个区间范围,对编码本身没有影响,只要保证编码器和解码器对符号的概率区间有相同的定义即可。为讨论方便起见,假定有

Ns=Fs+Cl*L

(6.3.5)

Ne=Fs+Cr*L

(6.3.6)

式中,Ns为新子区间的起始位置;Fs为前子区间的起始位置;Cl为当前符号的区间左端;Ne为新子区间的结束位置;Cr为当前符号的区间右端;L为前子区间的长度。

按上述区间的定义,若数据流的第一个符号为a2,由符号概率取值区间的定义可知,代码的实际取值范围为[0.2,0.4),亦即输入数据流的第一个符号决定了代码最高有效位取值的范围。然后继续对源数据流中的后续符号进行编码。每读入一个新的符号,输出数值范围就将进一步缩小。读入第二个符号a3,取值范围为[0.4,0.8)。但需要说明的是,由于第—个符号a2已将取值区间限制在[0.2,0.4)的范围中,因此a3的实际取值是在前符号范围[0.2,0.4)的[0.4,0.8)处,根据式(6.3.5)和式(6.3.6)计算,符号a3的编码取值范围为[0.28,0.36)。也就是说,每输入一个符号,都将按事先对概率范围的定义,在逐步缩小的当前取值区间上按式(6.3.4)和式(6.3.5)确定新的范围上、下限。继续读入的第三个符号a1受到前面已编码的两个符号的限制,它的编码取值应在[0.28,0.36)中的[0,0.2)内,即[0.28,0.296]。重复上述编码过程,直到输入数据流结束。最终结果如下:

由此可见,随着符号的输入,代码的取值范围越来越小。当字符串A={a2a3a1a3a4}全部编码后,其范围在[0.2915,0.2928]内。在此范围内的数值代码都唯一对应于符号串“a2a3a1a3a4”。可取这个区间的下限0.2915作为对源数据流“a2a3a1a3a4”进行压缩编码后的输出代码,这样就可以用一个浮点数表示一个符号串,达到减少所需存储空间的目的。按这种编码方案得到的代码,其解码过程的实现比较简单。根据编码时所使用的字符概率区间分配表和压缩后的数值代码所在的范围,可以很容易地确定代码所对应的第一个字符。在完成对第一个符号的解码后,设法去掉第一个符号对区间的影响,再使用相同的方法找到下一个符号。重复以上的操作,直到完成解码过程。

预测就是根据过去时刻的样本序列,运用一种模型,预测当前的样本值。

在各类编码方法中,预测编码是易于实现的,如微分(差分)脉冲编码调制(DPCM)方法。在这种方法中,对每一个像素灰度值,都用先前扫描过的像素灰度值去减,求出它们的差值,此差值称为预测误差,预测误差被量化和编码与传送。6.4预测编码接收端再将此差值与预测值相加,重建原始图像像素信号。由于量化和传送的仅是误差信号,根据一般扫描图像信号在空间及时间邻域内各像素的相关性,预测误差分布更加集中,即熵值比原来图像小,可用较少的单位像素比特率进行编码,使得图像数据得以压缩。DPCM系统的基本系统框图如图6.4.1所示。

在该系统中,xN为tN时刻的亮度取样值。预测器根据tN时刻之前的样本x1,x2,…,xN-1对xN作预测,得到预测值xN'。xN与xN'之间的误差为

eN=xN-xN'

图6.4.1DPCM的基本系统框图

量化器对eN进行量化得到eN'。编码器对eN'进行编码发送。接收端解码时的预测过程与发送端相同,所用预测器亦相同。接收端恢复的输出信号xN″是xN的近似值,两者的误差是

DxN=xN-(xN'+eN')=xN-xN″=eN-eN'

当输入图像信号是模拟信号时,“量化”过程中的信息损失是不可避免的。当DxN足够小时,输入信号xN和DPCM系统的输出信号几乎一致。

对于隔行扫描的电视图像,通常有

其它预测方法还有以下几种:

(1)前值预测:用f(x,y)同一行中临近的前一像素预测,即

(2)一维预测:用同一行中前面若干像素预测。

(3)二维预测:用几行内像素预测。

(4)三维预测:利用相邻两帧图像信号的相关性预测。

6.5.1变换编码原理

变换编码的基本原理是通过正交变换把图像从空间域转换为能量比较集中的变换域系数,然后对变换系数进行编码,从而达到压缩数据的目的。尽管变换本身并不带来数据压缩的效果,但由于变换图像的能量大部分只集中于少数几个变换系数上,采用量化和熵编码则可以有效地压缩图像的编码比特率。

6.5正交变换编码

图6.5.1给出一个典型的变换编码系统框图。编码部分由4个操作模块构成:分解(构造)子图像、变换、量化和编码。一幅N×N图像先被分割为n×n的子图像,通过变换这些子图像得到(N/n)2个n×n的子图像变换数组。变换的目的是解除每个子图像内部像素之间的相关性或将尽可能多的信息集中到尽可能少的变换系数上。量化时有选择性地消除或较粗糙地量化携带信息最少的系数,因为它们对重建的子图像的质量影响最小。最后是符号编码,即对量化了的系数进行编码(常利用变长编码)。

图6.5.1变换编码系统框图解码部分由与编码部分相反排列的一系列逆操作模块构成。由于量化是不可逆的,所以解码部分没有对应的模块。6.5.2正交变换的性质

正交变换之所以能用于图像压缩,主要是因为正交变换具有如下性质:

(1)正交变换是熵保持的,说明正交变换前后不丢失信息,因此用图像各像素灰度存储或传送和用变换系数去存储或传输一样。

(2)正交变换是能量保持的。

(3)正交变换重新分配能量。常用的正交变换如傅立叶变换,能量集中于低频区,在低频区变换系数能量大,而高频区变换系数能量小得多。这样可用熵编码中的不等长码来分配码长,能量大的系数分配较少的比特数,从而达到压缩的目的。同理,也可用零替代能量较小的系数的方法压缩。

(4)去相关性质。正交变换把空间域中高度相关的像素灰度值变为相关很弱或不相关的频率域系数。显然这样能去掉存在于相关性中的冗余度。

总之,正交变换可把空间域相关的图像像素变为能量保持,而且能量集中于弱相关或不相关的变换域系数。6.5.3变换编码的数学分析

正交变换中常采用的有傅立叶变换、沃尔什变换、离散余弦变换和K-L变换等。设一幅图像可看成一个随机的向量,通常用n维向量表示

(6.5.1)

经正交变换后,其输出为n维向量Y,

(6.5.2)

设A为正交变换矩阵,则有

Y=AX

(6.5.3)

由于A为正交阵,有

AAT=AA-1=E (6.5.4)

传输或存储利用变换得到的Y,在接收端,经逆变换可恢复X

X=A-1Y=ATY (6.5.5)

若在允许失真的情况下,传输和存储只用Y的前M(M<N)个分量,这样得到Y的近似值:

(6.5.6)

利用Y的近似值重建X,得到X的近似值

(6.5.7)

式中,Al为M×M阵。只要Al选择恰当就可保证重建图像的失真在一定允许限度内。

现在关键的问题是如何选择A和Al,使之既能得到最大压缩又不造成严重失真。为此要研究X的统计性质。对于

(6.5.8)

其均值为

(6.5.9)

X的协方差矩阵为

(6.5.10)

同理,对于

(6.5.11)

Y的均值为

(6.5.12)

Y的协方差矩阵为

(6.5.13)

根据式(6.5.3),得

(6.5.14)

可见,Y的协方差可由SX作二维正交变换得到。SX是图像固有的,因此关键是要选择合适的A,使变换系数Y之间有更小的相关性。另外去掉了一些系数使得Y误差更大。总之,选择合适的A和相应的Al,使变换系数Y之间的相关性全部解除和使Y的方差高度集中,就称为最佳变换。6.5.4最佳变换与准最佳变换

若选择变换矩阵A使SY为对角阵,那么变换系数之间的相关性可完全消除。接着选择集中主要能量Y的系数的前M项,则得到的Y将引起小的误差。使Y的截尾误差小,这就是最佳变换A选择的准则。能满足均方误差准则下的最佳变换,通常称为K-L变换。

设误差e定义为

(6.5.15)

则均方误差为

(6.5.16)

将A写成列分块矩阵形式,则有

(6.5.17)

由正交性,得

(6.5.18)

由Y=AX,得

(6.5.19)

` (6.5.20)

为了压缩数据,在重建X时只能取Y的M个分量(M<N),从Y中选择M个分量构成一个子集,即

(6.5.21)

而把Y的M到N-1分量用一常数bi来代替,即

(6.5.22)

此处

可作为X的估计,其误差为

(6.5.23)

DX的均方误差e为

(6.5.24)

为了选择bi和ji使e最小,使e分别对bi和ji求导,并令导数等于0:

(6.5.25)

bi=E{yi} (6.5.26)

将式(6.5.19)代入式(6.5.26),得

(6.5.27)

将式(6.5.19)和式(6.5.27)代入式(6.5.24),得

(6.5.28)

若还要满足

的正交条件,使e为最小,那么可建立拉格朗日方程:

(6.5.29)

,则有

(6.5.30)

由线性代数理论可知,li、ji就是SX的特征值和特征向量。

若已知SX的li和ji,可找到一矩阵A,使Y=AX,Y的协方差阵SY为对角阵,且对角线元素恰为特征值li。若把求出的li从大到小排列起来,使得l1>l2>…>ln,那么由其相应的ji组成A阵的每一行,就能使SY恰为对角阵。

从以上讨论可知,最佳正交变换阵A是从X的统计协方差中得到的,不同图像会有不同的SX。因此K-L变换中的变换矩阵不是一个固定的矩阵,它由图像而定。欲求图像的K-L变换,一般要经过四个步骤:由图像求SX;从SX求li;对li按大小排队然后求ji,再从ji得到A;最后用A对图像进行变换,求得Y=AX。

理论上说,K-L变换是所有变换中信息集中能力最优的变换。对任意的输入图像和保留任意个系数,K-L变换都能使均方误差最小。但K-L与图像数据有关,由于运算复杂,没有快速算法,因而K-L变换的实用性受到很大限制。

最佳变换的核心在于经变换后能使SY为对角阵。若采用某种变换矩阵A,变换后的SY接近于对角阵,则这种变换称为准最佳变换。

由线性代数理论可知,任何矩阵都可以相似于一个约旦矩阵,这个约旦矩阵就是准对角矩阵,其形式如下:

根据相似变换理论可知,总可以找到一个非奇异矩阵A,使得ATSYA为准对角阵,而且这个A是非唯一的。6.5.5各种准最佳变换的性能比较

在第3章介绍的变换中,变换矩阵都具有A的性质,它们是常用的准最佳变换。尽管它们的性能比K-L变换稍差,但由于它们的变换矩阵是固定的,因此,实际中常用的是这些准最佳变换。

不同变换的信息集中能力不同。离散余弦变换比离散傅立叶变换、沃尔什变换有更强的信息集中能力。在这些变换中,非正弦类变换(如沃尔什变换)实现起来相对简单,但正弦类变换(如离散傅立叶变换、离散余弦变换)更接近K-L变换的信息集中能力。

近年来,由于离散余弦变换的信息集中能力和计算复杂性综合得比较好而得到了较多的应用。离散余弦变换已被设计在单个集成块上。对大多数自然图像,离散余弦变换能将最多的信息集中在最少的系数上。

从运算量大小和压缩效果这两个方面来比较各种正交变换的性能如表6.5.1所示。表中列举一维N点各种正交变换所需的运算次数。从表中可见,K-L变换的运算量大,极难做到用硬件来实现。而DWHT(沃尔什—哈达玛)变换运算量最小,用一般数字集成电路就可以做到实时变换,但是其压缩效果则较差。

表6.5.1各种正交变换性能比较假如图像信号为马尔可夫模型,那么各种正交变换在变换域能量集中由优到劣的顺序为

K-L→DCT→DFT→DWHT/HT

6.5.6编码

变换为压缩数据创造了条件,压缩数据还要通过编码来实现。通常所用的编码方法有两种:区域编码法和门限编码法。

1.区域编码法

区域编码法的关键在于选出能量集中的区域。例如,正交变换后变换域中的能量多半集中在低频率空间上,在编码过程中就可以选取这一区域的系数进行编码传送,而其他区域的系数可以舍弃不用。在解码端可对舍弃的系数进行补零处理。这样由于保持了大部分图像能量,在恢复图像中带来的质量劣化并不显著。

在区域编码中,区域抽样和区域编码的均方误差都与方块大小有关。图6.5.2给出了图像变换区域抽样的均方误差与方块尺寸的关系。图6.5.3给出了图像区域编码均方误差和方块尺寸的关系。区域编码的显著缺点是一旦选定某个区域就固定不变了,有时图像中的能量也会在其他区域集中较大的数值,舍弃它们会造成图像质量较大的损失。

图6.5.2区域抽样的均方误差与方块尺寸的关系图6.5.3区域编码的均方误差与方块尺寸的关系

2.门限编码法

门限编码法事先设定一个门限值T。如果系数值超过T,就保留下来并且进行编码传送。如果系数值小于T就舍弃不用。这种方法有一定的自适应能力,它可以得到较区域编码更好的图像质量。但是,这种方法也有缺点,那就是超过门限位的系数的位置是随机的。因此,在编码中除对系数值编码外,还要有位置码。这两种码同时传送才能在接收端正确恢复图像。所以,其压缩比有时会有所下降。

图像编码的国际标准主要是由国际标准化组织(ISO)和国际电信联盟(ITU)制定的。由这两个组织制定的图像编码国际标准主要包括三个部分:静止灰度(或彩色)图像压缩标准、运动图像压缩标准和二值图像压缩标准。6.6图像编码的国际标准6.6.1静止图像压缩标准

由上述两个组织的联合静止图像专家组JPEG(JointPhotographicExpertsGroup)建立了静态灰度(或彩色)图像压缩的公开算法,并于1991年开始使用。JPEG标准中有三个层次的定义:基本系统、扩展系统和特殊无损功能。

为了实现这三层定义,JPEG标准的组成包括基本顺序模式编码、DCT累进模式编码、预测无损编码和分层模式编码。这四个组成部分描述了JPEG压缩的不同层次。基本顺序编码定义了一种内容丰富的压缩方法,适合于大多数的图像应用;其他三种编码描述了对基本顺序编码的加强,可以获得不同结果。

1.图像编码的要求

JPEG提出的JPEG标准是为连续色调图像的压缩提供的公共标准。连续色调图像并不局限于单色调(黑白)图像,该标准可适用于各种多媒体存储和通信应用所使用的灰度图像、摄影图像及静止视频压缩文件。

JPEG标准还提出:

(1)必须将图像质量控制在可视保真度高的范围内,同时编码器可被参数化,允许设置压缩或质量水平。

(2)压缩标准可以应用于任何一类连续色调数字图像,并不应受到维数、颜色、画面尺寸、内容和色调的限制。

(3)压缩标准必须从完全无损到有损范围内可选,以适应不同的存储、CPU和显示要求。

2.无损预测编码

JPEG选择了基于DPCM的简单的线性预测编码方法,这种编码的优点是硬件易于实现,重建图像质量好。缺点是压缩比小,大约为2∶1。无损预测编码器的工作原理图和预测原理如图6.6.1和图6.6.2所示。其中x的预测值为x∧,将x-x∧的差值进行无损熵编码,熵编码器可采用霍夫曼编码或算术编码等。x的预测方法如图6.6.2所示,可有8种选择方法。

图6.6.1无损预测编码器的工作原理

图6.6.2x的预测方法

3.DCT变换编码

基于DCT(离散余弦变换)压缩编码算法是有失真的压缩编码,图6.6.3为DCT变换编码原理图。DCT变换编码的主要步骤是:颜色空间转换,正向离散余弦变换(FDCT),量化,熵编码(哈达玛编码或算术编码)。

图6.6.3DCT变换编码原理图

1)颜色空间转换和采样

JPEG压缩只支持YCbCr颜色模式,其中Y代表亮度,CbCr代表色度,所以在将彩色图像进行数据压缩之前必须对颜色模式进行转换,将RGB模式转为YCbCr模式。转换可通过计算下述公式完成:

Y=0.299R+0.587G+0.114B

Cb=-0.169R-0.331G+0.5B

Cr=0.5R-0.4187G-0.0813B (6.6.1)

对转换后的数据进行采样,采样比例一般是4∶2∶2或4∶1∶1。

经过采样后的图像数据的色度数据比原来减少了一半。选择这样的采样方式是因为人的视觉对亮度要比对色度更敏感,而重建后的图像与原图的差异是人的视觉所不易察觉到的。

2)DCT变换

在进行FDCT变换之前,先把图像分成8×8的子块。

将用P位表示的图像数据(一般用8位表示一个像素的颜色分量),即在[0,2P-1]范围内表示的无符号整数,变成[-2P-1,2P-1-1]范围内表示的有符号数,作为FDCT变换的输入量。经过DCT变换,将空域中表示的图像数据转换到频域中进行表示,并获得N个变换系数。变换公式为

(6.6.2)

逆DCT变换公式为

(6.6.3)

其中,

输出系数排列F(u,v)按Zig-zag排序,即按照图6.6.4箭头所指示的顺序排列。其中直流量为DC系数,交流量为AC系数。排列中越往后0越多。

图6.6.4DCT变换输出系数排列

3)量化

为了达到进一步压缩数据的目的,需要对DCT系数F(u,v)进行量化。在JPEG中采用了线性均匀量化器,为减少比特数,增加零值,JPEG分别对Y,U,V的不同系统有不同量化间隔Q(u,v),并提供了亮度与色度两张量化表,如表6.6.1和表6.6.2所示。

表6.6.1DCT亮度量化表

表6.6.2DCT色度量化表量化值

(6.6.4)

反量化公式为

F(u,v)=C(u,v)Q(u,v) (6.6.5)

4)直流系数DC与交流系数AC的编码

在64个变换系数经过量化后,其中F(0,0)为直流系数DC,其余的63个为交流系数AC。

直流系数DC与交流系数AC的编码也可采用熵编码的方法,如算术编码或霍夫曼编码,而后一种编码更常见。编码时DC系数与AC系数分别采用不同的霍夫曼编码表。对于亮度和色度也需要不同的霍夫曼编码表。所以,对图像数据进行编码时,同时需要四张不同的霍夫曼编码表。

对DC系数的差值DCi-DCi-1进行编码时,具体步骤如下:

(1)对差值进行判断,如果差值大于0,将差值转换为二进制编码表示,并获得差值所占的位数。例如亮度DC系数差值为5时,可表为101,差值位数为3。如果差值小于0,则取绝对值后转换为二进制编码表示,再获得该编码值的补位。例如差值为-5时,最后得码010,差值位数为3。

(2)在差值前端另外加入一些差值的霍夫曼码值,以差值所占的位数为索引值查表获得该差值的编码。表6.6.3所示给出的是亮度DC系数的霍夫曼编码表。例如亮度差值为5(101)的位数为3,则霍夫曼码值应该是100,两者连接在一起即为100101。而差值为-5的编码值为100010。从表6.6.3不难看出,DC系数差值的最大位数为11位,即最大差值在[-211,211-1]范围内。

表6.6.3亮度的霍夫曼编码表对AC系数进行Z行程编码(ZeroRunLengthCoding,ZRLC)。在对AC系数进行Z行程编码后,应获得一组[MN]压缩编码。其中M的含义是两个非零AC系数之间连续0的个数(行程长),N的含义是下一非零AC系数的值。码字可用2个字节表示,如图6.6.5所示。

这时第1字节中所表示的行程范围为1~15。当两个非零AC系数之间连续0的个数超过15时,增加1个扩展字节,对于63个AC系数最多可增加3个扩展字节。用M/N的位数作为索引值,到相应的霍夫曼编码表中得到对应的编码值。

表6.6.4为亮度的AC霍夫曼编码表(部分)。

图6.6.5行程编码的码字

表6.6.4亮度的AC霍夫曼编码表

例如,若编码为[3,45],45的二进制编码表示为101101,则对应的索引值为3/6,查表获得的编码值为1111111110010001,最终编码为1111111110010001101101。

4.DCT的累进操作模式

基于DCT的顺序模式编码是对每一个图像分量(8×8子块)按从左到右、从上到下的顺序一次扫描完成编码。而DCT的累进操作模式对每一个图像分量的编码要经过多次扫描才能完成。第一次扫描只进行—次粗糙图像的扫描压缩,并以相对于总的传输时间少得多的时间传输粗糙图像,重建质量较低的可识别图像。

在随后的扫描中再对图像作较细的压缩,这时只传递增加的信息,可重建一质量提高的图像,这样不断累进,直到得到满意的图像为止。

累进的方式可采用频谱选择法或按位逼近法。

(1)频谱选择法:一次扫描只对64个DCT变换系数中某些频带的系数进行编码、传递,在随后的扫描中,对其他频带的系数编码、传递,直到全部系数处理完毕为止。

(2)按位逼近法:沿着DCT量化系数有效位(表示系数精度的位数)方向分段累进编码。第一次扫描只取最高有效位的n位编码、传递,然后对其余位进行编码、传递。

图6.6.6给出了一幅原图像以及分别经过JPEG取压缩率为9.2、18.4和51.6压缩后的效果图。

图6.6.6原图像及不同压缩率下的JPEG效果在视觉效果不受到严重损失的前提下,静止图像压缩算法JPEG可以达到15到20的压缩比。如果在图像质量上稍微牺牲一点的话,可以达到40∶1或更高的压缩比。如果处理的是彩色图像,JPEG算法首先将RGB分量转化成亮度分量和色差分量,同时丢失一半的色彩信息(空间分辨率减半);然后用离散余弦变换来进行变换编码,舍弃高频的系数,并对余下的系数进行量化,以进一步减小数据量;最后使用行程长度编码和Huffman编码来完成压缩任务。由于JPEG超强的压缩能力,JPEG为Web图像的传输奠定了基础,但由于信息丢失较多,JPEG仅适合压缩供人欣赏而不是供数据分析的图像。

JPEG2000作为一种图像压缩格式,相对于最早的JPEG标准有了很大的技术飞跃,主要是因为它放弃了JPEG所采用的以离散余弦变换算法为主的区块编码方式,而利用离散子波变换、位平面编码和基于上下文的算术编码等一系列新技术。JPEG2000将图像编码的效率提高了30%左右,提供无损和有损两种压缩方式,支持渐近传输等功能。

此外,JPEG2000还将彩色静态画面采用的JPEG编码方式、2值图像采用的JBIG编码方式及低压缩率采用的JPEGLS统一起来,成为对应各种图像的通用编码方式。

JPEG2000无论是在传统的JPEG市场(如数码相机、扫描仪等)还是在新兴的应用领域(如网络传输、无线通信、医疗影像等)都大有用武之地。6.6.2运动图像压缩标准

在对图像和语音等媒体中的信息进行数字化的过程中,由于数据中存在着很多冗余,所以,必须压缩后再进行存储和传输。经验表明,实用化的压缩方法可以将运动图像数据压缩至1/30而不失真。

1.运动图像的压缩

数字影像的出现,得益于两项技术的发展:光碟存储技术和影像数字压缩技术。比如,NTSC制式的电视图像以大约640×480的分辨率、24bit/像素、每秒30帧的质量传输时,其数据传输率达28Mb/s,20秒的未压缩视频图像将占用560Mb的存储空间,相当于一张CD-ROM光盘只能储存20秒钟的未压缩电视节目。显然这样的要求对普通个人用户来讲是难以接受的,在实现上成本也非常高昂。所以,视频图像的压缩编码方法就应运而生了。

1980年以来,国际标准化组织(ISO)、国际电工委员会(IEC)和国际电信联盟(ITU)下属的国际电报电话咨询委员会(CCITT)陆续完成了各种数据压缩与通信的标准和建议,如面向静止图像压缩的CCITTT.81及ISO10918(JPEG)标准,在运动图像方面用于视频会议的CCITTH.261(Px64)标准、用于可视电话的CCITTH.263标准、用于VCD的ISO11172(MPEG-1)及用于广播电视和DVD的ISO/IEC

13818(MPEG-2)标准。近来正在讨论适用于低传输速率的MPEG-4方案。

MPEG是MovingPictureExpertGroup(运动图像专家组)的缩写,即所谓ISO11172。该专家组成立于1988年,大约有300名专家,分为10个组进行工作。MPEG-1和MPEG-2是该专家组通过的两个标准,适用于不同带宽和数字影像质量的要求。MPEG-2是由ISO和IEC于1994年11月定义并公布的标准,其全称为“运动图像及其伴音的编码”。DVB是欧洲电信标准ETS300421,其根据应用对象的不同又分为DVB-S、DVB-C和DVB-T,分别针对卫星数字广播、有线数字广播及地面数字广播。对于这些标准和建议,世界上主要工业国家的政府机构都十分重视。1993年下半年,美国“高级电视联盟”(ATV

GrandAlliance)和欧洲数字视频广播计划(DigitalVideoBroadcastProject)先后决定将MPEG-2用于自己的高分辨率电视(HDTV)广播中。日本邮政省数字广播研究组在1994年1月发表的阶段性研究报告中也建议采用OFEM传输方式和MPEG-2压缩技术。总的来说,MPEG优于其他影像压缩方案的地方是具有很好的兼容性、压缩比最高可达200∶1以及数据损失小。

2.MPEG视频压缩方法

图6.6.7表示了对运动图像的压缩过程,主要包括两方面:帧内压缩与帧间压缩。帧内压缩是删除空间的数据冗余,帧间压缩则是删除帧与帧之间的时间冗余。

1)空间域压缩和时间域压缩

MPEG标准在空间域的压缩,类似于JPEG标准,每一帧被作为独立的图像获取,且压缩步骤与JPEG标准步骤一样。要消除帧与帧之间的时间冗余,可通过帧间编码完成。

图6.6.7运动图像的压缩过程

2)帧间编码

帧间编码的基本思想是仅存储运动图像从一帧到下一帧的变化部分,而不是存储全部图像数据,这样能极大地减少运动图像数据的存储量,达到帧间压缩的目的。把帧序列划分成I帧、P帧、B帧,通过使用参照帧由运动补偿技术来实现。

I帧:在解码时,无需参照任何其他帧的帧称为I帧,或称内编码帧,它是利用自身的相关性进行帧内压缩编码的。

P帧:在帧编码时,仅使用最近前一帧(I帧或P帧)作为参照帧的帧称为P帧,或称为预测帧。

B帧:在帧编码时,要使用前、后帧作为参考帧的帧称为B帧,或称为双向预测帧。

3)运动补偿技术

在帧编码中,运动补偿技术是提高帧间压缩的有效方法,它主要用于消除P帧和B帧在时间上的冗余。在对P帧和B帧进行编码时,以宏块为基本编码单位。

对于B帧,每一宏块有4种类型:帧内宏块,简称I块;前向预测宏块,简称F块;后向预测宏块,简称B块;平均宏块,简称A块。对于B帧,每一宏块仅有I块和F块。无论B帧还是P帧,I块编码均与I帧编码技术一致。F块、B块、A块都采用了基于块的运动补偿技术。

基于块的运动补偿技术是在参照帧中寻找与当前编码块最佳匹配的宏块。所谓最佳匹配是指这两个宏块之间差值最小,通常可用AE(Absolutedifference)最小作为匹配依据:

(6.6.6)

其中,f是参照帧宏块,g为当前编码宏块,dx、dy是参照宏块在x和y方向上的运动矢量,它反映了从一帧到另一帧时,宏块仅仅是位置发生了改变,而内容并没有改变。

3.MEPG标准

1)MPEG-1

MPEG-1制定于1992年,可适用于不同带宽的设备,如CD

ROM、VideoCD、CD-i等,它的目的是把221Mb/s的NTSC图像压缩到1.2Mb/s,压缩率为200∶1。这是图像压缩的工业认可标准。它可针对SIF标准分辨率(对于NTSC制为352×240;对于PAL制为352×288)的图像进行压缩,传输速率为1.5Mb/s,每秒播放30帧,具有CD音质,质量级别基本与VHS(广播级录像带)相当。MPEG的编码速率最高可达4~5Mb/s,但随着速率的提高,其解码后的图像质量有所降低。

应用MPEG-1技术最成功的产品为VCD。VCD作为价格低廉的影像播放设备得到普及。MPEG-1也被用于数字电话网络上的视频传输,如非对称数字用户线路(ADSL)、视频点播(VOD)以及教育网络等。

2)MPEG-2

MPEG-2制定于1994年,其设计目标是高级工业标准的图像质量以及更高的传输率。MPEG-2所能提供的传输速率为3~10MB/s间,在NTSC制式下的分辨率可达720×

480。MPEG-2能够提供广播级的视像和CD级的音质。MPEG-2的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道和多达七个伴音声道。MPEG-2的另一特点是可提供一个较广范围的可变压缩比,以适应不同的画面质量、存储容量以及带宽的要求。

MPEG-2技术就是实现DVD的标准技术,现在DVD播放器也已经在家庭中普及了。除了作为DVD的指定标准外,MPEG-2还可用于为广播、有线电视网、电缆网络以及卫星直播提供广播级的数字视频。由于MPEG-2的出色性能表现,已能适用于HDTV(高清晰度电视),使得原打算为HDTV设计的MPEG-3还没有产生就被抛弃了。

3)MPEG-4

MPEG-4专家组成立于1993年。在1995年3月的Florence会议上初步定义了一个音频验证模型,并于1996年1月在Munich会议上定义了第一个视频验证模型(VerificationModel,VM),它提供了支持基于内容的视频表达环境。VM描述了编码和解码方法,主要用于软件模拟,以优化编解码的性能。1997年7月的会议后发布了VM8.0。MPEG征集到的技术建议经评估后,如认为可行,就会被加到VM中。

MPEG-4比MPEG-2的应用更广泛,最终希望建立一种能被多媒体传输、多媒体存储、多媒体检索等应用领域普遍采纳的统一的多媒体数据格式。由于所要覆盖的应用范围如此广阔,同时,应用本身的要求又如此不同,因此,MPEG-4不同于过去的MPEG-2或H.26X系列标准,其压缩方法不再是限定的某种算法,而是可以根据不同的应用进行系统裁剪,选取不同的算法。例如对Intra帧的压缩就提供了DCT和Wavelet两种变换。

比起MPEG-2及H.26X系列,MPEG-4新变化中最重要的三个技术特征是:基于内容的压缩、更高的压缩比和时空可伸缩性。

MPEG-4于1998年11月公布,它不仅是针对一定比特率下的视频、音频编码,而且更加注重多媒体系统的交互性和灵活性。这个标准主要应用于视像电话、视像电子邮件等,对传输速率要求较低,在4800~64000b/s之间,分辨率为176×144。MPEG-4利用很窄的带宽,通过帧重建技术和数据压缩,以求用最少的数据获得最佳的图像质量。

MPEG-4用运动补偿消除时域冗余,用DCT消除空域冗余,与以往视频编码标准相同。为支持基于对象的编码,MPEG-4还采用形状编码和与之相关的形状自适应DCT

(SA-DCT)技术以支持任意形状视频对象(VideoObject,VO)的编码。

另外,MPEG-4用视频对象来表述视频内容的基本单元,如:一个站立的人(脱离背景)就是一个VO,VO与其他的AVO(音视频对象)组合成一个特定的场景。传统的矩形图像只能被认为是将整个图像作为一个对象,是这种视频对象的一种特例。

4)MPEG-7

MPEG针对基于内容的问题启动了一个新的工作项目。这个MPEG家族的新成员是“多媒体内容描述界面”(MultimediaCo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论