第二章信源编码与数据压缩本2_第1页
第二章信源编码与数据压缩本2_第2页
第二章信源编码与数据压缩本2_第3页
第二章信源编码与数据压缩本2_第4页
第二章信源编码与数据压缩本2_第5页
已阅读5页,还剩132页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章信源编码与数据压缩本2第一页,共137页。

数字通信系统具有许多优点而成为当今通信的发展方向。然而自然界的许多信息经各种传感器感知后都是模拟信号,例如语音信号、视频信号等都是模拟信号。若要利用数字通信系统传输模拟信号,首先需要将模拟信号转换成数字信号。对于语音信号实现这种变换就称为语音编码。模拟信号实现数字化通信一般需要三个步骤:(1)把模拟信号数字化,即模数转换(A/D);(2)进行数字方式传输;(3)把数字信号还原为模拟信号,即数模转换(D/A)。由于A/D或D/A变换的过程通常由信源编(译)码器实现,所以我们把发端的A/D变换称为信源编码,而收端的D/A变换称为信源译码。第二页,共137页。语音的编码技术通常分为三类:波形编码、参量编码和混合编码。语音编码的分类如图2-3所示。其中,波形编码和参量编码是两种基本类型。第三页,共137页。第四页,共137页。(1)波形编码波形编码是将时间域信号直接变换为数字代码,力图使重建语音波形保持原语音信号的波形形状。波形编码比较简单,先根据采样定理对模拟语音信号进行采样,然后进行幅度量化,再进行二进制编码。译码是其反过程,将收到的数字序列经过译码和低通滤波恢复出发送的语音信号,这就是最简单的脉冲编码调制(PCM)。波形编码的目标是让译码器恢复出的模拟信号在波形上尽量与编码前原始波形相一致,也即失真要最小。第五页,共137页。

波形编码的方法简单,具有适应能力强、语音质量好等优点,但所用的编码速率高,在对信号带宽要求不太严格的通信中得到应用,而对频率资源相对紧张的移动通信来说,这种编码方式显然不合适。脉冲编码调制(PCM)和增量调制(△M),以及它们的各种改进型自适应增量调制(ADM),自适应差分编码(ADPCM)、子带编码(SB)、自适应变换编码(ATC)等,都属于波形编码技术。它们分别在64以及16Kbit/s的速率上,能给出较高的编码质量,当速率进一步下降时,其性能下降较快。第六页,共137页。(2)参量编码参量编码又称声源编码,是以发音模型作为基础,在频率域或其它正交变换域提取模拟话音信号特征参量,并将其变换成数字代码进行传输。解码为其反过程,将收到的数字序列经变换恢复特征参量,再根据特征参量重建语音信号。具体说,参量编码是通过对语音信号特征参数的提取和编码,力图使重建语音信号具有尽可能高的可靠性,即保持原语音的语意,但重建信号的波形同原语音信号的波形可能会有相当大的差别。这种编码技术可实现低速率语音编码,比特率可压缩到2kbit/s-4.8kbit/s,甚至更低,但语音质量只能达到中等,特别是自然度较低。线性预测编码(LPC)及其它各种改进型都属于参量编码。第七页,共137页。(3)混合编码混合编码是将波形编码和参量编码组合起来,克服了原有波形编码和参量编码的弱点,结合各自的长处,力图保持波形编码的高质量和参量编码的低速率,在4-16Kbit/s速率上能够得到高质量的合成语音。多脉冲激励线性预测编码(MPLPC),规则脉冲激励线性预测编码(KPELPC),码本激励线性预测编码(CELP)等都是属于混合编码技术。混合编码是适合于数字移动通信的语音编码技术。

第八页,共137页。2.1波形编码抽样定理

抽样是把时间上连续的模拟信号变成一系列时间上离散的抽样值的过程。能否由此样值序列恢复原信号,是抽样定理要回答的问题。抽样定理的原理是,如果对一个频带有限的时间连续的模拟信号抽样,当抽样速率达到一定数值时,那么根据它的抽样值就能恢复原信号。也就是说,若要传输模拟信号,不一定要传输模拟信号本身,只需传输按抽样定理得到的抽样值即可。因此,抽样定理是模拟信号数字化的理论依据。

第九页,共137页。1抽样定理:一个频带限制在(0,fH)赫内的时间连续信号,如果以Ts=1/fH秒的间隔对它进行等间隔(均匀)抽样,则该信号将被所得到的抽样值完全确定。抽样定理告诉我们:若m(t)的频谱在某一频率以上为零,则m(t)中的全部信息完全包含在其间隔不大于Ts秒的均匀抽样序列里。

第十页,共137页。2量化原理

利用预先规定的有限个电平来表示模拟信号抽样值的过程称为量化。时间连续的模拟信号经抽样后的样值序列,虽然在时间上离散,但在幅度上仍然是连续的,即抽样值可以取无穷多个可能值,因此仍属模拟信号。如果用N位二进制码组来表示该样值的大小,以便利用数字传输系统来传输的话,那么N位二进制码组只能同M个电平样值相对应,而不能同无穷多个可能取值相对应。这就需要把取值无限的抽样值划分成有限的M个离散电平,此电平被称为量化电平。

第十一页,共137页。

均匀量化:把输入信号的取值域按等距离分割的量化称为均匀量化。非均匀量化:非均匀量化是一种在整个动态范围内量化间隔不相等的量化。

第十二页,共137页。A律压扩特性

律压扩特性

第十三页,共137页。3脉冲编码调制(PCM)

脉冲编码调制(PCM)简称脉码调制,它是一种用一组二进制数字代码来代替连续信号的抽样值,从而实现通信的方式。由于这种通信方式抗干扰能力强,它在光纤通信、数字微波通信、卫星通信中均获得了极为广泛的应用。PCM是一种最典型的语音信号数字化的波形编码方式。首先,在发送端进行波形编码,主要包括抽样、量化和编码三个过程,把模拟信号变换为二进制码组。编码后的PCM码组的数字传输方式,可以是直接的基带传输,也可以是对微波、光波等载波调制后的调制传输。在接收端,二进制码组经译码后还原为量化后的样值脉冲序列,然后经低通滤波器滤除高频分量,便可得到恢复信号。

第十四页,共137页。A律13折线编码A律13折线的产生是从非均匀量化的基点出发,设法用13段折线逼近A=87.6的A律压缩特性。具体方法是:把输入x轴和输出y轴用两种不同的方法划分。对x轴在0~1(归一化)范围内不均匀分成8段,分段的规律是每次以二分之一对分。第一次在0到1之间的1/2处对分,1/2到1之间称为第8段;第二次在0到1/2之间的1/4处对分,1/4到1/2之间称为第7段;其余类推。第三次在0到1/4之间在1/8处对分,其余类推。

第十五页,共137页。

0到1/128之间为第1段,1/128到1/64之间为第2段。对y轴在0~1(归一化)范围内采用等分法,均匀分成8段,每段间隔均为1/8。然后把x,y各对应段的交点连接起来构成8段直线,得到折线压扩特性,其中第1、2段斜率相同(均为16),因此可视为一条直线段,故实际上只有7根斜率不同的折线。

第十六页,共137页。

在13折线编码中,采用8位二进制码编码,这8位码的安排如下:极性码段落码段内码

第十七页,共137页。

编码原理

实现编码的具体方法和电路很多,如有低速编码和高速编码、线性编码和非线性编码;逐次比较型、级联型和混合型编码器。目前常用的逐次比较型编码器原理。

第十八页,共137页。PCM信号的码元速率和带宽由于PCM要用N位二进制代码表示一个抽样值,即一个抽样周期内要编N位码,因此码位越多,码元宽度越小,占用带宽越大。显然,传输PCM信号所需要的带宽要比模拟基带信号的带宽大得多。对于语音信号,则码元传输速率为

第十九页,共137页。4自适应脉冲编码调制自适应脉冲编码调制(adaptivepulsecodemodulation,APCM)是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。

第二十页,共137页。

改变量化阶大小的方法有两种:一种称为前向自适应(forwardadaptation),另一种称为后向自适应(backwardadaptation)。前者是根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息(sideinformation)传送到接收端。后者是从量化器刚输出的过去样本中来提取量化阶信息。由于后向自适应能在发收两端自动生成量化阶,所以它不需要传送边信息。

第二十一页,共137页。

5差分脉冲编码调制(DPCM)编码原理在PCM中,每个波形样值都独立编码,与其他样值无关,这样,样值的整个幅值编码需要较多位数,比特率较高,造成数字化的信号带宽大大增加。然而,大多数以奈奎斯特或更高速率抽样的信源信号在相邻抽样间表现出很强的相关性,有很大的冗余度。利用信源的这种相关性,一种比较简单的解决方法是对相邻样值的差值而不是样值本身进行编码。由于相邻样值的差值比样值本身小,可以用较少的比特数表示差值。这样,用样点之间差值的编码来代替样值本身的编码,可以在量化台阶不变的情况下(即量化噪声不变),编码位数可以显著减少,信号带宽大大压缩。这种,利用差值的PCM编码称为差分PCM(DPCM)。

第二十二页,共137页。DPCM系统的组成方框图

第二十三页,共137页。

6自适应差分脉冲编码调制

值得注意的是,DPCM系统性能的改善是以最佳的预测和量化为前提的。但对语音信号进行预测和量化是复杂的技术问题,这是因为语音信号在较大的动态范围内变化,为了能在相当宽的变化范围内获得最佳的性能,需要在DPCM基础上引入自适应系统。有自适应系统的DPCM称为自适应差分脉冲编码调制(AdaptiveDifferencePulseCodeModulation),简称ADPCM。

第二十四页,共137页。

ADPCM的主要特点是用自适应量化器取代固定量化器,用自适应预测器取代固定预测器。自适应量化器和自适应预测器的参数能根据输入信号的统计特性自适应于最佳或接近于最佳参数状态。在维持相同的语音质量下,ADPCM允许用32kbit/s比特率编码,这是标准64kbit/sPCM的一半。目前CCITT标准G.721ADPCM广泛应用于无绳电话系统,如CT2和DECT等。第二十五页,共137页。第二十六页,共137页。

ADPCM编码器的原理图如上图所示。对于编码器,为了便于电路进行算术运算,要将A律或μ律八位非线性PCM码转换为12位线性码。输入信号减去预测信号便得到差分信号。4bit自适应量化器将差分信号自适应量化为15个电平,用4个二进制码表示。这4个二进制码表示一个差值信号样点,既为ADPCM编码器输出,其传输速率为32kb/s。同时,这4个二进制码送入自适应逆量化器,产生一个量化的差分信号,它再与预测信号相加产生重构信号。重建信号和量化差分信号经自适应预测器运算,产生输入信号估值(预测信号),从而完成反馈。

第二十七页,共137页。

译码器是编码器的逆变换过程,它包括一个与编码器反馈部分相同的结构以及线性PCM码到A律或μ律的转换器和同步编码调整单元。同步编码调整单元解决在某些情况下同步级联编码中所发生的累计失真。

第二十八页,共137页。第二十九页,共137页。7增量调制增量调制(DeltaModulation)简称DM,它是继PCM后出现的又一种模拟信号数字传输的方法,他可以看成是DPCM的一个重要特例。其目的在于简化语音编码方法。

第三十页,共137页。

一个语音信号,如果抽样速率很高(远大于奈奎斯特速率),则抽样间隔很小,那么相邻样点之间的幅度变化不会很大,相邻抽样值的相对大小(差值)同样能反映模拟信号的变化规律。

若将这些差值编码传输,同样可传输模拟信号所含的信息。此差值又称“增量”,其值可正可负。这种用差值编码进行通信的方式,就称为“增量调制”。简单增量调制原理波形图。第三十一页,共137页。DM(ΔM)编码器原理图

第三十二页,共137页。2.2声码器

声码器是一类语音编码系统。在发送端,声码器分析语音信号参数,在信道中传输分析得到的参数。在接收端,声码器根据这些参数合成语音信号。声码器系统在语音生成过程中,将语音信号建模为动态系统,并将系统中的某些物理约束量化,这些物理约束是语音信息的有限的描述。

第三十三页,共137页。第三十四页,共137页。第三十五页,共137页。第三十六页,共137页。2.2.1语音信号的数字模型

利用数字技术来模拟语音信号的产生称为语音信号的数字模型。根据发音器官构成的数字模型能产生与发音器官产生的声波相对应的信号。这种模型是一种线性系统,它的一组参数选定之后,系统的输出就具有所希望的语音性质。发音系统可以由激励源(声源)和声道滤波器来描述,其激励和声道形状都是随时间慢变化的。通常认为激励和声道的面积函数在一个音节(10~20ms)时间范围内是近似不变的。

第三十七页,共137页。

声道系统可以用全极点模型来描述,其系统函数为(2.2-1)

系统函数H(Z)的分子G反映的是语音强度,H(Z)的极点对应于语音的共振峰。对大多数语音来说,全极点模型能很好地模拟声道的功能。

第三十八页,共137页。

浊音激励信号产生的原理图如下图所示。冲激串产生器输出单位冲激序列,冲激序列之间的间隔即为所要求的基音周期。用单位冲激序列去激励传输函数为U(Z)的线性系统,经过幅度控制后的输出u(n)即为所要求的浊音激励。

第三十九页,共137页。

清音是由气流通过一个物理约束摩擦产生的,因此可以用白噪声作为清音激励。通常采用均值为零、方差为1并在幅度和时间都为白色分布的序列。将声道系统、浊音激励和清音激励综合在一起构成的语音信号产生数字模型如下图所示。

第四十页,共137页。

该模型采用浊音激励和清音激励交替对声道系统进行激励,因此称为二元激励。该模型的相关参数包括基音、声道系统滤波器的极点频率、幅度参数等。多数人语音的基音频率低于300Hz,成人语音的共振峰集中在500Hz、1500Hz、2500Hz、3500Hz。通过仔细调整语音信号数字模型中的参数,就可以合成高质量的语音信号。

第四十一页,共137页。2.2.2线性预测编码声码器

线性预测编码声码器(LPC)属于时域编码声码器,这类声码器从时间波形中提取语音信号的重要特征参数,再将特征参数编码、传输、解码,实现语音合成。

第四十二页,共137页。线性预测编码系统原理图

第四十三页,共137页。

线性预测编码系统用全极点线性滤波器模拟声道系统,可以采用线性预测技术在时域得到全极点滤波器的参数。合成器的激励根据是浊音还是清音选择基音频率上的冲激序列或白噪声序列。第四十四页,共137页。发端编码器原理图

第四十五页,共137页。收端译码器原理图

第四十六页,共137页。2.3数字移动通信中的语音编码第四十七页,共137页。第四十八页,共137页。第四十九页,共137页。第五十页,共137页。第五十一页,共137页。第五十二页,共137页。第五十三页,共137页。第五十四页,共137页。第五十五页,共137页。2.4IS-96CDMA语音编码第五十六页,共137页。第五十七页,共137页。第五十八页,共137页。第五十九页,共137页。2.5用于第三代移动通信系统的自适应多速率(AMR)语音编码第六十页,共137页。第六十一页,共137页。2.5.1AMR语音编码器原理第六十二页,共137页。第六十三页,共137页。第六十四页,共137页。第六十五页,共137页。第六十六页,共137页。第六十七页,共137页。第六十八页,共137页。2.5.2AMR语音编码器的算法及实现第六十九页,共137页。第七十页,共137页。第七十一页,共137页。第七十二页,共137页。2.5.3采用AMR的实际系统模型第七十三页,共137页。第七十四页,共137页。第七十五页,共137页。第七十六页,共137页。基于电路交换的多媒体3GPP系统说明第七十七页,共137页。第七十八页,共137页。2.6图象压缩编码

人类感觉器官所接受的各类信息中,约有70%来自视觉。图像能给人们以直观而具体的立体彩色形象。而且,通过视频获得的视频图像信息往往比通过听觉获得的音频信息具有更大的信息量。同时,视频图像还具有很多的特点,例如直观、确切、具体、生动等等。所以视频技术被广泛的应用于广播电视,通信,军事等诸多领域。

第七十九页,共137页。2.6.1图像压缩编码的基本概念

图像的信息量比起语音,文本等的信息量要大的多。例如:一幅512×512象素的图像,若其灰度为8bit(相当于256个灰度),则其总比特数为。

如果要在一秒中传输完成的话,则数码率不应低于2.09Mbit/s。

第八十页,共137页。

在现实生活中,数字图像信息无论是存储还是传输,都必须经过极大的压缩,否则很难在实际中应用,这就是为什么数字视频信号要采用视频压缩技术进行压缩的关键所在。

第八十一页,共137页。

图像压缩编码的研究对象是数字编码。它的目的是完成对图像的压缩。图像信号的固有的统计特性表明,其相邻象素之间,相邻行之间或者相邻帧之间,都存在着较强的相关特性。利用某种编码方式在一定程度上消除这些相关性,便可实现图像信息的压缩,这就是图像编码的核心思想。通过减少图像序列间的相关性,减少图像内容之间的冗余,用较少的比特数来表示图像,从而实现图像的压缩。

第八十二页,共137页。要对图像进行压缩,就要对图像的冗余进行分析,一般来说,主要将冗余分为以下几种:

第八十三页,共137页。

(1)统计冗余统计冗余又分为三类,一类叫空间冗余,是指在同一帧画面中,相邻的象素间存在的相关性。它取决于图像中图案粗细程度,例如,规则的条纹图像和平坦图像,它们的空间冗余就很大。另一类叫做时间冗余,通常对视频序列而言,除非场景发生变化,否则相继帧在时间上都是连续的。在前后两帧中往往包含与当前帧相同的背景和对象。只是由于镜头的转动或对象的移动使得空间位置变化,运动越缓慢,位置额变化越小,因此视频序列在时间上具有很强的相关性。第三类叫做信息熵冗余,对于编码符号,其平均码长高于所表示的信息熵,这个差值就形成了信息熵冗余。它也叫作编码冗余。空间冗余,时间冗余,信息熵冗余都依赖于图像数据的统计特性。

第八十四页,共137页。(2)视觉冗余通常来说,往往是人的眼睛来接受图像的信息。人眼视觉所感知的事物是非均匀的。所以人眼视觉对空间的某些频率感觉比较迟钝。因此对于人眼系统而言,存在频域冗余。所以可以根据人类视觉系统的这个特点来达到较高的压缩比。换言之,视频中不同频率内容的重要性是不一样的。例如:人眼视觉系统对亮度信号变化相对于色度信号变化的要更敏感一些,所以对色度分量可以进行降采样,同时保持主观视觉质量不变。YUV4:2:2的色差格式就是对色差分量在水平和垂直两个方向上进行2:1的降采样。此外,对信号频域的各个分量可以采取不同的量化步长,将人眼视觉不敏感的分量去除,而不会引起主观质量的下降。

第八十五页,共137页。(3)结构和知识冗余在某些图像的某些区域存在非常强的纹理结构,图像象素值有明显的分布形式,形成结构冗余,例如自相似性等。或者图像中包含的信息与某些先验知识有关,例如人的五官位置对于人脸而言就是一种先验知识,这种冗余构成知识冗余。

第八十六页,共137页。2.6.2图像编码方法分类

(1)按图像压缩后是否能恢复为原来图像,分为有损压缩(Lossless)和无损压缩(Lossy)。无损压缩又叫做无失真编码或者可逆编码。有损压缩又叫做限失真编码或不可逆编码。对于无损压缩,一方面它可以精确的恢复出原有数据,但是从另一方面来说,它的压缩率通常都很低,约在2:1左右,很难达到实际应用的要求。所以在实际生活中,都是采用有损压缩的方法。它用一定的失真来换取压缩比的增加,现在所有的视频压缩标准均采用有损压缩。

第八十七页,共137页。

(2)按压缩算法分类,可以分为预测编码、变换编码、矢量量化、分层编码、频带分割编码、结构抽取编码、熵编码等。现在的主流算法是预测编码(包括运动补偿)和变换编码(特别是二维DCT编码)。在低速的情况下,矢量量化也是有效的手段之一。此外,分层编码的思路在精致图像编码中已成为必须考虑的方法。结构抽取编码和智能编码(分析综合编码)虽然尚未达到实用化,但其研究已经非常活跃。

第八十八页,共137页。2.6.3图像编码技术的发展和国际标准

图像压缩编码技术自从上个世纪40年代研究以来,已经有60年的发展历史。图像压缩编码技术可以追溯到1948年提出的电视信号数字化,已有50多年的历史。20世纪50年代的图像压缩编码技术由于受到电路技术的制约,仅仅停留在预测编码、亚采样以及内插复原等技术的研究,还很不成熟。

第八十九页,共137页。

1969年在美国召开的第一届“图像编码会议”标志着图像编码作为一门独立学科的诞生。到了七八十年代,图像压缩技术的主要成果体现在变换编码技术上,矢量量化编码技术也有较大的发展。80年代末,小波变换理论、分形理论、人工神经网络理论、视觉仿真理论建立,人们开始突破传统的信源编码理论,图像压缩编码向着更高的压缩率和更好的压缩质量的方向发展,进入了一个崭新的发展时期。随着CCITT,ISO,ITU等国际组织开始积极致力于图像处理的标准化工作以来,图像压缩标准已经日益成熟,

第九十页,共137页。第九十一页,共137页。(1)H.261标准H.261标准是由国际电报电话咨询委员会CCITT的一个专家组1990年12月制定。它是最早出现的视频编码建议,它的输出码率是p×64Kbit/s(p为1到30的整数,当时,只能传清晰度不太高的图像,适合于面对面的电视电话;当可以传输清晰度较好的图像时,适用于电视会议)。H.261主要是应用于ISDN的会议电视和可视电话,采用的算法结合了可减少时间冗余的帧间预测和可减少空间冗余的DCT(离散余弦变换)的混合编码方法。

第九十二页,共137页。(2)H.263标准

1995年,ITU在总结当时视频编码技术的最新进展的基础上,针对低比特率视频应用制定了H.263标准,标准的设计目标定义为在低比特率的条件下提供中高质量运动图像质量。随后的几年中,ITU进行了多次补充以提高其编码效率,增强编码功能,进一步的补充修订的版本有1998年的H.263+,2000年的H.263++。H.263系列标准特别适用于在PSTN网络、无线网络和因特网等环境下提供视频业务,并已经被多种可视电话系统采纳为终端标准。

第九十三页,共137页。(3)MPEG-1和MPEG-2标准MPEG标准是由国际标准化组织的MPEG专家组制定的。MPEG1标准的码率为1.2Mbit/s左右,可提供30帧CIF(352×288)质量的图像,是为CD—ROM光盘的视频存储和播放所制定的。MPEG-1标准视频编码部分的基本算法与H.261/H.263相似,采用运动补偿技术减少帧间冗余度,二维DCT变换去除空间相关性,量化后的DCT系数进行VLC(变长编码)的游程编码,每个数据块的直流分量(DC)进行预测差分编码。MPEG-1中的图像类型共分四种:帧内帧(I)、预测帧(P)、双向预测帧(B)和直流帧(D)。D帧图像中只含直流分量,是为播出中的“快放”等功能而设计的。

第九十四页,共137页。

MPEG2标准在提高图像分辨率、兼容数字电视等方面做了一些改进,例如它的运动矢量的精度为半像素;在编码运算中(如运动估计和DCT)区分“帧”和“场”;引入了编码的可分级性技术,如空间可分级性、时间可分级性和信噪比可分级性等。

第九十五页,共137页。

(4)MPEG-4标准1992底,国际标准化组织的MPEG专家组决定开发新的适应极低比特率(即小于64kb/s)环境的音频/视频(AV,audio-video)编码的国际标准,即MPEG-4。但由于随后的H.263系列标准的成功,并考虑到AV领域中消费电子、通信和计算机(3C)在数字化的基础上交叉融合的趋势后,最终MPEG专家组将MPEG-4标准定位为多媒体的多领域应用的一般性框架,而不仅仅针对极低比特率的多媒体通信。MPEG-4的第一个版本在1999年推出,即国际标准ISO/IEC14496,相比于先前制定的MPEG标准,MPEG-4标准的目标定义为支持低比特率的多媒体通信和多产业的多媒体通信的综合。

第九十六页,共137页。

在视频编码方面,MPEG-4采用了不同以往的编码技术——基于视频内容(Content-based)的面向视频对象VO(VideoObjects)的编码技术。定义在一定的视角下,VO的n个形状规则的、具有一定纹理剖面的组合的连续运动序列为视频对象面VOP(VideoObjectProfile)。VOP描述了VO在一定视角条件下的表面特性。MPEG-4将VOP作为基本的编码单元,VOP的编码主要由两部分组成:一个是形状编码,另一个是纹理和运动信息编码。

第九十七页,共137页。

总之,MPEG-4作为新一代视频编码标准,实现了基于像素的传统编码技术向基于内容的先进编码技术的转变。其中提出的新的视频编码理论和技术也是现在视频编码研究的热点。需要指出的是,当前实现MPEG-4的编码方案仍是基于子块的混合编码方案,完全实现MPEG-4提出的目标还有大量的工作需要完成。

第九十八页,共137页。(5)H.264标准1998年,国际标准化组织(ISO)的活动图像专家组(MPEG)认识到H.26L的潜在优点,随之便成立了联合视频组(JVT)。他们一起制定了H.264标准。由于H.264标准采用了许多不同于以往标准中使用的先进技术,所以相对于以往的标准,在相同的码率下用H.264标准编码能够获得更高的主客观质量。但该标准也具有较高的复杂度,针对标准中现有的技术,可以进行算法上的优化,在主客观质量损伤很小的情况下降低复杂度,以达到处理器的实时编解码。同时H.264的巨大成功也表明视频编解码技术仍然具有较广阔的研究空间。

第九十九页,共137页。第一百页,共137页。第一百零一页,共137页。2.6.4静止图象压缩编码及其标准JPEG

静态图象是指单帧图象进行压缩编码后的图象,与前后帧无关,它完全使用本帧的信息进行编码处理,所以又称帧内编码。位图方式的图象不是一种有效的存储方式,在这种形式的图象数据中,像素和像素之间无论在行还是列方向上都具有很大的相关性,整体数据的冗余度大。在允许一定限度的失真的情况下,可以对图象数据进行很大程度的压缩。

第一百零二页,共137页。1.JPEG静态图象压缩标准是由联合摄影专家组(JointPhotographicExpertsGroup)制定的。其标准定义了2种基本压缩编码方案。(1)变换编码法(非可逆编码,有损编码),它是基于DCT(离散余弦变换)压缩的编码方案,可以用较少的bit数得到较好品质的恢复图象,作为JPEG标准的基础;(2)预测编码法(可逆编码),是以二维空间的差分脉冲编码调制(DPCM)为基础。这种压缩标准虽然压缩率低,但属于可以完全复原的可逆编码无损压缩。第一百零三页,共137页。2.基于DCT压缩的编码方案

原理:单帧图象的变换法压缩是基于图象的高度相关性,即在图象的一个局部小区域内,它们的像素变化不大,利用余弦变换可使能量集中在少数系数的特点,使该小区域在变换后大部分系数等于或接近于0,这样达到了用少数小值范围的系数来表示区域里全部像素的目的。然后进行进一步压缩处理,从而取得较高的压缩比,这就是基于DCT压缩编码的原理。基于DCT压缩编码的算法包括基本系统和增强系统,并且规定了2种不同类型的工作方式:顺序型和累进型。基本系统采用顺序工作方式,编码过程中只采用huffman编码,解码器只存储两张huffman表。增强系统是在基本系统的基础上扩充或增强,因此增强系统必须包含基本系统。增强系统采用累进的工作方式,编码过程可采用自适应能力的算术编码。

第一百零四页,共137页。基本系统

第一百零五页,共137页。离散余弦变换(DCT)DCT可是看成是一个谐波分析仪,它将光强度数组转换成频率数组,该频率数组体现了光强度变化的快慢,而DCT逆变换可看成是一个谐波合成器。假设原始图象的尺寸为M×M像素,若对整个M×M大的数据块做一次DCT,则所需的存储空间和运算时间都很大,所以将M×M分为若干个N×N的小块,当N小到一定程度时,若采用变换处理,可能使块与块之间边界上存在着被称为“边界效应”的不连续的点。当N<8时,边界效应比较明显,所以JPEG确定DCT用8*8的像素矩阵。

第一百零六页,共137页。第一百零七页,共137页。FDCT(ForwardDCT离散余弦正变换)把8*8个像素变换成64个空间频率分量的系数,这些空间频率系数组成了输入信号的频谱。FDCT输出64个基信号的幅值称作DCT系数,即DCT变换系数值,64个变换系数中包括一个代表直流分量的DC系数和63个代表交流分量的AC系数。原始的图像块经DCT变换后,相应频域的系数组成的图像块具有如下特点,即图像的均值(直流系数)位于频域图像块的左上角,离直流分量的距离越远,系数代表的图像交流成分的频率越高,更具体地说,频率图像块中元素的行值越大,则代表原始图像块中在列方向上的交流频率越高。频率图像块中元素的列值越大,则代表原始图像块中在行方向上的交流频率越高。

第一百零八页,共137页。IDCT(InverseDCT离散余弦逆变换)是FDCT的逆过程。把64个DCT变换系数经逆变换运算,重建一个64点的输出图像,如果FDCT和IDCT变换计算所使用的设备的计算精度足够高,且系统未经过量化,那么原始的64点信号就能精确地恢复。由于图像的相关性,这63个AC系数值大多数都很小或趋于0值。

第一百零九页,共137页。量化在JPEG图像压缩标准中,采用的线形均匀量化器,量化公式如下:公式中的A(u,v)是量化器的步长,它与(u,v)值有关,就是说随DCT系数位置的不同会有不同的值。它们组成了量化表,量化表的尺寸为8*8,与64个变换系数一一对应。这个量化表由用户规定,并作为编码器的一个输入。量化表中的每个元素值为1~255之间的任意整数,其值规定了它所对应DCT系数的量化器步长。

第一百一十页,共137页。3.差分编码和行程编码

8*8子块的64个变换系数经量化后需进一步做编码处理。自然景物的特点是图像的灰度变化比较平稳,所以相邻直流项系数DC的数值差别一般都不大,相邻子块之间的直流分量系数值DC有很强的相关性,JPEG对DC系数采用DPCM编码或差分编码。DPCM编码的做法是将整幅图像中每一个8*8的变换块,按从左到右,从上至下的光栅扫描顺序抽取其中的直流项系数进行差分编码。DPCM编码方式的基本思想是在相邻数据幅度变化不大的情况下,首先存储第一个数据,以后陆续存储后一个数据与当前数据的差值。解码时,有了第一个数据,通过把当前数据与接收到的数据相加,就可以陆续恢复原来的数据。

第一百一十一页,共137页。即采用下面的方法进行编码和解码:DPCM编码公式:DPCM解码公式:第一百一十二页,共137页。

JPEG对交流系数AC矩阵用一维编码方法进行处理,并使其按照频率的次序排列,可以将量化后的AC系数矩阵,通过Z形扫描(ZigzagSequence)方法展开,将块的所有交流项系数连成一个一维的数据串,这样就使代表相同或相近频率分量的系数在一维数据中相邻或相近的位置,之后用行程编码进行编码。

第一百一十三页,共137页。

经过DPCM编码的直流项系数和经过行程编码的交流项系数,仍然能进一步压缩,做熵编码。在JPEG算法中一般采用huffman编码。

第一百一十四页,共137页。4.熵编码熵编码是DCT编码系统的最后一个处理步骤,熵编码按DCT系数(AC和DC系数)的统计特性进一步编码,实现无损压缩。JPEG规定两种熵编码方法:Huffman编码和算术编码,Huffman编码需要一套或多套Huffman表。

第一百一十五页,共137页。5.JPEG算法的解码过程

第一百一十六页,共137页。

在以上的解码过程中,如果熵编码方法是Huffman编码方法,则熵解码过程是信息保持不变的,因而是无失真的,即解码器的输出能完全恢复编码前的数据。因为量化过程会带来失真,因此反量化过程不能精确恢复量化前的系数值,正是因为这样才使我们获得了较高的压缩比,所以量化器的设计是整个压缩算法的关键环节。JPEG解码过程的最后一个环节是反向离散余弦变换IDCT,最终得到原始光栅格式的图像数据。

第一百一十七页,共137页。第一百一十八页,共137页。

JPEG算法的编解码过程中,在离散余弦变换、量化、编码模型和熵编码4部分中,只有量化过程是不可逆的,但结合人眼特性,有目的地设计量化器,就能获得较高的压缩比而能很好地保持原有图像的质量。JPEG算法可以用软件实现也可以用硬件实现。

第一百一十九页,共137页。2.6.5动态图像压缩编码标准1.动态图像的一般特征动态图像是指随时间变化的一系列图像,又称图像序列。每秒25-30帧图像序列就可表示动态图像,人的眼睛感觉不到帧间物体的跳跃变化。但动态图像的数据量将是非常大,仅靠JPEG技术对每一帧图像压缩是不够的。

第一百二十页,共137页。2.动态图像的压缩原理压缩原理一(运动补偿):在动态图像序列中,帧与帧之间存在高度的相关性,即2个相邻图像的变化是十分相似的,那么可以对两帧图像的运动变化部分用一定的方法描述,例如运动矢量,则第二帧图像可以看成它的前帧图像补偿该运动的结果,也就是若知道运动补偿,就可以根据前帧图像大致确定本帧图像。压缩原理二(插补法):若已知存在一定时间间隔的2帧图像,只要该时间间隔不是很长,假设为1/5seconds,那么它们中间帧图像的变化基本上是该2帧图像的平均变化,即利用该2帧图像进行插补,就大致得到第3帧图像。

第一百二十一页,共137页。3.MPEG标准MPEG(MotionPhotographicExpertsGroup)标准不仅涉及视频压缩、视频伴音还涉及到二者的系统同步问题,分为三个部分:视频MPEG-Video、音频Mpeg-Audio和系统Mpeg-system。

大多数MPEG标准的产品都是对SIF(SourceInputFormat)格式(352*240*30帧或352*288*25帧)的运动图像进行压缩,能将视频信号压缩到0.5~1bit/pixel(像素),压缩数据速率为1.2Mbps。

第一百二十二页,共13

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论