第4章 数字音频_第1页
第4章 数字音频_第2页
第4章 数字音频_第3页
第4章 数字音频_第4页
第4章 数字音频_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第4章 数字音频、视频信号的压缩 4.0 数字视频信号的压缩(信源编码) (1)压缩的原因:由ITU-601标准可知,数字视频的数据码率高达216Mb/s。其码率之高,数据量之大,无论是对于网络的数据传输,还是对于存储介质的数据存储,都构成了巨大的压力。因此,只有在保持信号质量的前提下,降低码率及数据量,才能使标准得到应用。 (2)压缩的原理: 信源之所以可以压缩是因为图像信息内存在着大量的规律性或称相关性,在传输的前一个样值中也包含了后一个样值或后一帧中相关位置的样值内容。(3)压缩的方法 去除信息中的相关性,去除冗余码,使样值独立,提高熵值,降低信息码流。 可以采用一些特殊的编码方式,使平

2、均比特数降低,从而可进一步降低信息码流。 (4)信源编码: 降低码率的过程,称为压缩编码,也叫信源编码。 4.1 压缩编码基础编码方式是多种多样的,不同的算法其压缩率也不同,但都应本着无损的原则。在实际应用中往往是采用多种不同算法的综合压缩编码方式,反复压缩,以取得较高的压缩率。 411 莫尔斯码 电报码:是采用“· ”和“”来表示26个英文字母的变字长编码。编码思想:(1) 常用字母用短码表示(如E用“· ”表示,T用“”表示)(2) 不常用的字母用长码表示(如Z用 “-··”表示; j用“-··-”表示)编码方法:通过变字长编码方

3、式。对常用英文单词进行的大量统计。找出各字母出现的概率,最后确定: 有12个字母(出现几率最小)用4bit数字表示; 有8个字母(出现几率较少的)用3bit数字表示; 有4个字母(出现几率较高的)用2bit数字表示; 有2个字母(出现几率最高的)用1bit数字表示,共26个字母。 其中出现几率最低的12个字母共需 12×4bit=48bit其中出现几率较低的8个字母共需 8×3bit=24bit其中出现几率较高的4个字母共需 4×2bit=8bit其中出现几率最高的2个字母共需 2×1bit=2bit结论:每个字母的平均码长为: 平均码长=(48+24+

4、8+2)÷26=3.15bit/字母讨论: (1)要用固定码长方式则需要25 =32,即5bit来表示。 (2)莫尔斯码编码规律:先找出统计规律,然后对出现概率大的用短码,反之用长码。 (3)压缩对信息质量的影响: 而这种压缩对于信息无任何损坏,属无损压缩。 4.1.2预测编码 1差值编码(DPCM) (1)视频信号的空间(帧内)相关性的统计分析 视频图的组成: “像块”、“轮廓”和“细节” “像块”-是图像中成片相同像素组成的块,它的空间相关性最强。 “轮廓”-是像块间的分界,它的相关性较差。 ”细节”-是图像中变化最频繁的细节描述,相关性最小。统计结果: “像块”要占约90以上;

5、 “轮廓”和“细节”只占不到10。 注:在视频信号中低频部分占绝大多数,而高频部分则所占比例较小。 (2)时间(帧间)相关性的分析 在静止画面中,其帧间相同位置的样值则100的相同。 在非静止画面中,相邻帧的不同部分也只是运动物体,只占较小的比例。 (3)差值编码原理 在发送端:处理或传输的不是图像中当前样值本身,而是该样值与前一个(相邻)样值的差值,则这些差值绝大多数是很小的或为零,可以用短码来表示,而对那些出现几率较少的较大差值,用长码来表示,则可使总体码数下降。 在接收端:将已得到的前一样值与刚收到的差值相加,就可还原出所要的当前样值。 差值编码:采用对相邻样值差值进行变字长编码的方式称

6、为差值编码,又称为差分脉码调制(DPCM)。 (4)预测编码 发送端:从另一个角度看,我们可以把前一个样值看成是当前样值的预测值,并与当前样值相减,得到一个差值(预测误差)。该差值可以看成是当前要传送的样值对于预测值的修正值,并对该差值编码、传送。 接收端:可以将已得到的预测值(前一个样值的输出值),加上这一解码后的修正值,就得到了一个正确的当前样值。因此差值编码也可以称为预测编码。 (5)差值编码的实现P120发送端发出的预测误差应为: (4-1) 经过量化器Q量化后,Vi(n)=Vi(n)+(n)。其中(n)是量化误差或称量化噪声。 接收端输出的信号为:P121结论:发送端输出的

7、是当前样值与前一样值(预测值)的差值(预测误差)。 接收端将该预测误差与前一输出样值(预测值)相加,又还原为当前样值。 (1)可行性讨论: 差值编码可以实现图像信号的压缩、传输与还原。 2)存在的问题:在还原的Vo(n)中,除了含有Vo(n-1)和差值Vi(n)外,还附加了一个量化噪声(n),且在前一个输出样值Vo(n-1)中,还含有与再前一个样值差值的量化噪声(n-1),因为由(4-2)式可得出 (4-3)将式(4-3)带入式(4-2)得 由此可得出: (4-4) 在式(4-4)中n与m均为整数。 结论:在还原的Vo(n)中,含有前面历次差值的量化噪声(噪声积累)。 (3)方案的改

8、进 在发送端:输入信号减去的是上次输出的样值Vo(n-1),则在减去预测值的同时也减去了量化噪声(n) Vi(n)=Vi(n)-Vo(n-1)经量化后Vi(n)应为: Vi(n)=Vi(n)-Vo(n-1)+(n) (4-5)上式中的(n)为本次量化的量化噪声。 在接收端:输出的还原信号Vo(n)应为: Vo(n)=Vi(n)+ Vo(n-1) (4-6)将式(4-5)带入式(4-6)得:Vo(n)= Vi(n)-Vo(n-1)+ Vo(n-1)+(n)最后有: Vo(n)=Vi(n)+(n) (4-7)从上式中可以看出:最终还原的信号中,前一次的量化噪声被抵销了,而只含有当前的输入样值Vi(

9、n)和本次量化的量化噪声(n),不存在量化噪声的积累。 2.预测编码 (1)二维或三维预测:以上介绍的是一维预测编码,然而它对于图像的水平线有较好的效果,但对垂直线效果较差。因此人们一般采用二维(帧内)或三维(帧间)预测。(2)预测方法 如左图所示:设Xn为实际样值,Xn为其预测值。 A:本行前一样值 B:上一行前一样值 C:上一行该点样值 D:前一帧该点样值 预测值Xn应为:Xn=F(A,B,C,D) (3)线性预测 上式应为:Xn= KaA+KbB+KcC+KdD 其中Ka、Kb、Kc、Kd分别为A、B、C、D的权重或系数。 一般有 : Ka+Kb+Kc+Kd=1 讨论: 当Kb=Kc=K

10、d=0,Ka=1时,为一维差值预测,即前面讨论的情况。 当Ka+Kb+Kc=1,Kd=0时,为二维预测,即帧内预测。 当Kd0为三维预测,即帧间预测。 (4)预测编码的对象是:实际样值Xn和预测样值Xn的差值Xn。 即 : Xn= Xn- XnXn为预测误差,预测越准,其值越小,在多数情况下为零。 零出现的几率最大,可以用短码表示,而较大的差值用长码表示,从而可以降低码率,达到压缩的目的。 (1)变字长编码:对信源中出现概率大的“对象”用短码表示,对出现概率较小的“对象”用长码表示。其可获得较短的平均码长。注: “对象” 只是一个欲编码的数据、符号或元素。4.1.3 霍夫曼(Huffmun)编

11、码 (2)编码方法 首先将欲编码的信源对象按出现的概率由大到小排成一列。 找出最小的两个概率点,大的为“1”,小的为“0” (如概率相等,可随意用“0”和“1”分配)。 将这两个概率点的概率相加,生成一新的概率点。 再在新生成的概率点与余下的概率点中再选出两个最小的比较,大者为“1”,小者为“0”。再求和,生成一新的概率点,以此类推,直至新的概率点的概率为1为止。 最后将对应各“对象”的数码,按结构顺序组合起来,即为各信源“对象”的霍夫曼编码。P125(3)平均码长的计算与比较 平均码长的计算公式: (4-8) 式(4-8)中 P(XN)为XN的出现概率,L(XN)为XN的码长。 码长的比较

12、如果采用固定码长的编码方式,6个对象需3 bit码长,采用霍夫曼编码,其平均码长为:2.2 bit压缩了码位。 4.1.4变换编码 (1)变换的原因:由于预测编码对静止图像有较好的效果,但对快速运动的图像则效果较差。而视频信号的相关性不仅表现在位置空间(空域)中,在其他的空间中也具有很强的相关性,因此压缩编码的方法并不唯一。 (2)不同域有不同特点:静止图像的位置相关性较强,运动图像的频率相关性较强,因此在空域中解决不了的问题在频域中就可以解决。 1.离散余弦变换(DCT) (1)视频图像的频率特征:低频信号的幅值大,高频信号幅值小。图像信号的能量主要集中于信号的低频分量,而高频分量的能量较小

13、。 (2)相关性分析:对于变化复杂的图像来说位置空间的相关性并不明显,但将信号变换到频率的直角坐标域中,则幅值大的低频分量集中在一个角落,而幅值小的高频分量则分布在其他位置,表现出了较强的频率相关性。因此就可能获得一种效率更高的编码方法,以便于进行压缩编码,DCT编码就是这样一种纯数学变换的编码方式。 (3)DCT变换的方法 分块:将每个分量图像分成许多8×8=64个样点组成的像块,并对其采样,得到在空域中的8×8的样值矩阵。 变换:利用FDCT公式,将空域中的8×8样值矩阵,正向变换(FDCT)为频域中的8×8 DCT系数矩阵。P129注: f(x,y

14、)为空域中位置为(x,y)点的样值函数(x,y=0,1,7)。 F(u,v)为频率域中频率位置为(u,v)点的DCT系数(u,v=0,1,7)。 沿u,v方向频率增加,但是07并不特指某一频率(可视为小的频率域)。 F(0,0)对应直流分量,称为DC系数,其它63个对应交流分量的系数,称为AC系数。 两个空间的同位置系数无对应关系。 在频域中的右下角对应高频部分,而在左上角对应低频部分(特点,相关性)。 讨论: DC系数的构成: 当u,v0时, C(U)=C(V)=1/2 , 有: 可见DC系数为空域中64个样值的平均值(对8的)。(6) DCT系数规律:低频系数值大,高频系数值小。

15、 (7) 对比两个数值矩阵观察相关性 P129(8)IDCT变换(逆变换):DCT系数并不能重构图像,因此在接收端需要利用IDCT公式将频域中的8×8 DCT系数矩阵变换为空域中的8×8样值矩阵,使图像得以还原。 逆向DCT变换(IDCT):2.DCT系数量化 (1)量化的原因: DCT之后其系数矩阵中相关性不够明显,为进一步降低DCT系数矩阵中非零系数的幅值,增加零系数的个数,使相关性表现的更明显,需要进一步量化。 (2)量化的依据 对失真的要求:量化是图像质量下降的重要原因,DCT系数量化是基于限失真编码理论进行的,容许有失真,但应在视觉容许的容限内。视觉要求: a.

16、对亮度信号与色度信号的分辨能力不同; b. 对低频图像信号和高频图像信号的分辨能力不同。 结论:可以采用不同的量化方案。 (3)量化的方法 区域滤波法:是采用式:对DCT系数矩阵中的每一个值逐一量化 注: a. F(U,V)为DCT系数矩阵中位于(U,V)的DCT系数; W(U,V)为量化表中位于(U,V)点的量化步长,(不同位置可以采用不同的量化步长); Q(U,V)为对应于(U,V)位置的量化值。 b. round()为取整函数。 c. Q(U,V)矩阵,为量化后的DCT系数矩阵。式4-9表现了较强的相关性。 3. Zig-Zag扫描:一种将二维数组转变为一维数组的Z字形扫描方法。 (1)

17、采用扫描的原因:量化后的DCT系数仍然是二维系数矩阵,无法直接传输,还需将其变为一维数据序列。对Q矩阵重新排列。 (2)Zig-Zag扫描的依据:在量化后的DCT系数矩阵中,非0的数据主要都集中于矩阵的左上角。 (3) Zig-Zag扫描的方法:Zig-Zag扫描采用的是Z字形扫描方式。从直流分量DC开始进行Z字形扫描。P130 5)Z扫描的特点 可以增加连续0系数的个数,也就是增加0的游程长度。 在数据序列中,非零系数主要都集中于数据序列的首部,在数据序列的尾部,则都是连零(EOB)数据。这样对传输中的数据压缩十分有利。 4.游程编码 (RLC):消去一维数组序列尾部连续0数据的编码方法。

18、(1)游程:连续0的长度,或连续0的个数。 (2)游程编码的方法:将一维数组序列转化为一个由二元数组(run,level)组成的数组序列。其中:run表示连续0的长度; level表示连续0之后的一个非零值; 用EOB表示后面所有剩余的连续0。 3)游程编码实例(10进制):对应以上的两个一维数组序列的游程编码为:  0,8, 0,-3, 0,3,1,-4, 0,-2, 6,1,EOB 第n块 0,10, 0,5, 0,3, 0,1, 0,1, 1,1,3,1,EOB 第n+1块 P131注: 第一字节中:高4位表示一维数组序列中非零系数前零的个数。低4位则表示这个非零系数所需的比特

19、数。 第二字节:完全用于表示非零系数的数值。 EOB 用FFFF表示。 负数在此用补码表示。因此以上数组序列又可表示为:04,08,08,FD,02,03, 18,FC,08,FE,61,01,FFFF(H) 第n块字符对组 04,0A,03,05,02,03,01,01,01,01,11,01,31,01,FFFF(H) 第n+1块字符对组 (5)解码:在解码时见到FFFF就自动补0一直补足64个数据为止。 5.熵编码:是一种可变长编码。 (1)游程编码后的熵编码:在变换编码中,经过游程编码后的字符对数组序列,并不直接用于数据传输,还要对其进行霍夫曼编码,以进一步提高数据压缩率. (2)熵编

20、码:在发送端,根据字符对出现的概率进行霍夫曼编码,形成一个码表(霍夫曼表)存储在编码器的ROM中,传输时,按码表把字符对“翻译”成对应的二进制数码(霍夫曼码)。 (3)熵解码:在接收端,则必须采用同样的霍夫曼码表解码。P132 4.2 JPEG压缩 4.2.1 JPEG标准JPEG压缩是一种针对静止的连续色调的图像压缩方法,它属于帖内压缩。JEPG压缩标准要点: (1)压缩比可控:编码器的参数中应包括控制压缩比和图像质量的成分。 (2)不受限制:适用于所有的连续色调图像,不应对图像的尺寸、彩色空间和像素纵横比等特性进行限制,也不应对图像的场景内容(如复杂性、彩色范围或统计特性)有任何限制。3)

21、适中的计算复杂性:压缩算法既可用软件实现,也可用硬件实现,并且具有较好的性能。 (4)具有下述4种操作模式: 顺序编码 累进编码 无失真编码 层次编码4.2.2 基于DCT编码的JPEG压缩过程1.分块采样(帧改组) (1)JPEG压缩编码对象:为连续色调静止图像各分量信号进行单独采样。(2) 4:2:0格式中各分量信号的采样点数: PAL制:亮度信号(Y)的有效采样点数为720×576, 色差信号(U,V)有效采样点数均为360×288。 NTSC制:亮度信号(Y)的有效采样点数为720×480, 色差信号(I,Q)有效采样点数均为360×240(3)

22、帧改组:采样时,当一帧图像信号输入到编码器时,编码器对其进行的分解处理,称为帧改组。(4)帧改组方法:(亮度信号)P134分片:将图像分割成许多横向条(或称“片”),每条的宽度为16个采样点。 分段:以16个采样点为一段, 得到16×16个采样点构成的块,称为宏区块。分像块:将宏区块再分成4个8×8样点组成的像块。 注:a. DCT变换就是以像块为单位的; b. 在4:2:0格式中,U和V的采样点数均为Y(行和列)的一半,所以U,V的像块与Y的宏区块重叠(亮度信号有宏区块,色差信号无宏区块)。 宏块的形成:由4个8×8的亮度(Y)像块组成的宏区块和与之重叠的两个8

23、×8的色差(U,V )像块,这6个像块组成一个宏块。见下图。P135 2.FDCT变换 经过帧重组和采样,各分量信号变为一个8×8的样值矩阵。再经过FDCT变换,将每个像块的8×8=64个样值f(x,y),变换为8×8=64个FDCT系数F(u,v)。一个是直流DC系数,其他的63个是交流AC系数。3.量化 可以根据应用环境和需求设计出不同的量化表,亮度信号和色差信号的量化表也不同,量化后输出的是二维的DCT系数矩阵F(u,v)。 4.差值编码与Zig-Zag扫描 (1)DC系数的处理方法:在JPEG压缩中,量化后的FDCT系数矩阵F(u,v)中的直流分

24、量(DC系数),并不参与Z字形扫描,而是与前一像块的DC系数进行差值预测编码。 (2)AC系数的处理方法:63个AC系数,采用Z字形扫描输出。 (3)Z扫描后的数组排列:DC系数的预测误差排在扫描输出数组序列首位。P136 在上图中,第n块数据序列中的“X”是本块的DC系数与前一块DC系数的差值,在这里没有标出。而第n+1块数据序列的第一个数据是: DCn+1-DCn=10-8=2。5.熵编码 (1)游程编码:差值编码和Zig-Zag扫描后,生成的一维数组序列还需进行游程编码,以减少数组序列中零的个数, (2)霍夫曼编码:对游程编码后的数组序列进行霍夫曼编码。并以像块为单位输出一组组数据。4.

25、3 MPEG-1编码原理 4.3.1 MPEG-1压缩标准 1. MPEG-1压缩标准(1)1988年,ISO成立了活动图像专家组(Moving Picture Expert Group),负责活动图像及其伴音的编码标准制定工作。(2)1991年成为国际标准,并命名为MPEG-1标准。编号为ISO11172。(3)MPEG专家组下设了3个委员会:3个委员会分别制定出3个子标准: MPEG系统委员会(MPEG system)制定了11172-1标准。是整体系统标准。 它规定了压缩的图像和伴音数据与同步信息等复用(混合),并规定数码的传输率约为1.5 Mb/s。 MPEG视频委员会(MPEG vi

26、deo)制定了11172-2标准,是图像压缩标准。 它规定了图像信源输入格式(SIF)采用2:1:0(其水平清晰度为240线), 压缩空间冗余(帧内压缩),采用类似JEPG编码。 压缩时间冗余(帧间压缩),采用运动补偿方式。 MPEG音频委员会(MPEG Audio),制定了11172-3 标准,是音频压缩标准。 它规定了音频的三种可选码率,即64 kb/s,128 kb/s和192 kb/s,可以是单声道,也可以是两路立体声伴音(其伴音质量可接近于CD水平),未压缩的音频码率为1.4 Mb/s。 附加要求 a.可存取单帧(静止图像)。 b.可倒放。 c.可用菜单随机选择播放。 d.可对存入的

27、素材进行编辑。 e.视频与音频同步。2. MPEG-1的要点 (1)分辨率从704×576下降到352×288(亮度信号),质量不高。 (2)帧内压缩(I帧)采用JPEG方式,帧间压缩采用前向预测(P帧),双向预测(B帧)方式。 (3)选择1.5 Mb/s码率是为了适应当时的CD-ROM的读取速度(1.2 Mb/s)。 4.3.2 MPEG-1的图像格式1. MPEG-1的图像格式在MPEG-1中信源输入格式(SIF)为2:1:0格式2. MPEG-1的SIF参数 表4.1。 (704/2=352) 3.讨论 MPEG-1的清晰度240线取决于其亮度信号的采样频率(6.75

28、 M时的图像信号为3 M,3×80=240)PAL制与NTSC制码率相同,均为:30.4128 Mb/s PAL制1帧图像=352×288+176×144×2=152064像素 NTSC制1帧图像=352×240+176×120×2=126720像素PAL制和NTSC制的像素速率相等,且为:152064×25 = 126720×30 = 3.8016兆像素/s使用8位量化后,则码率为:3.8016×8 = 30.4128 Mb/s4. MPEG-1应用 VCD4.3.3 MPEG压缩中的 I、B

29、、P帧 (1) MPEG-1压缩的基本思想:同时采用降低图像标准、帧内压缩和帧间压缩。 (2) 时间相关性的统计分析:统计的结果表明,在间隔12帧的图像中,各像素只有10%以下的点,其亮度差值变化超过2%,而色度差值的变化只有1%以下。 采用的压缩方法: 分组:把几帧图像分为一组(GOP),为防止运动变化,帧数不宜取多定义帧:将每组内各帧图像定义为三种类型,即I帧、B帧和P帧。 预测帧:以I帧做为基础帧,以I帧预测P帧,再由I帧和P帧预测B帧。 数据传输:最后将I帧数据与预测的差值信息进行存储和传输。 1. I帧:帧内编码帧 I帧特点: 它是一个全帧压缩编码帧。它将全帧图像信息进行JPEG压缩

30、编码及传输。 解码时仅用I帧的数据就可重构完整图像。 I帧描述了图像背景和运动主体的详情。 I帧不需要参考其他画面而生成。I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量)。 I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧。 I帧不需要考虑运动矢量。 I帧所占数据的信息量比较大。2. P帧:前向预测编码帧。 (1)P帧的预测与重构:P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。 (2)P帧特点 P帧是I帧后面相隔

31、12帧的编码帧。 P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测误差)。 解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像。P帧属于前向预测的帧间编码。它只参考前面最靠近它的I帧或P帧。 P帧可以是其后面P帧的参考帧,也可以是其前后的B帧的参考帧。 由于P帧是参考帧,它可能造成解码错误的扩散。 由于是差值传送,P帧的压缩比较高。 3. B帧:双向预测内插编码帧。 (1)B帧的预测与重构 B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差

32、值求和,得到B帧“某点”样值,从而可得到完整的B帧。 (2)B帧特点 B帧是由前面的I或P帧和后面的P帧来进行预测的。 B帧传送的是它与前面的I或P帧和后面的P帧之间的预测误差及运动矢量。 B帧是双向预测编码帧。B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确。 B帧不是参考帧,不会造成解码错误的扩散。 注:I、B、P各帧是根据压缩算法的需要,是人为定义的,它们都是实实在在的物理帧,至于图像中的哪一帧是I帧,是随机的,一但确定了I帧,以后的各帧就严格按规定顺序排列。 4.3.4 关于运动矢量,运动估值及运动补偿 1. 运动矢量 (1)匹配样值  设:fn(x,y

33、)= fn(x,y)-fn-1(x,y)   fn(x,y)为当前编码帧(P帧)中某像素点样值。 fn-1(x,y)为其前面的参考帧 (I帧或P帧)中的对应位置像素点的样值。 fn(x,y)为差值(预测误差)。 在静止图像中有(x=x,y=y ), 则fn(x,y)=0,压缩效率最高。 在活动的视频图像的运动部分中,fn(x,y)0,但只要运动的物体没有消失,总可以沿物体运动的反方向,在参考帧(或P帧)中找到一点样值fn-1(x,y),使得 有最小值。此时,样值fn-1(x,y),称为样值fn(x,y)的匹配样值。 其中: (2)运动矢量:定义矢量MV(H,V)为像素点样值fn(x,

34、y)的运动矢量。 注:运动矢量MV表示了某像素点从编码帧到参考帧的运动方向和距离。 2. 运动估值 求图像中运动物体运动矢量的过程称为运动估值。 (1)块匹配方法:以图像中的宏块作为运动估值单元,将宏块视为一个运动物体,找出该宏块的运动矢量。并将它作为该宏块中所有像素共同的运动矢量。 注:块匹配方法只对亮度分量的宏区块进行。 (2)块匹配准则 平均绝对差准则(MAD):即两“宏区块”各对应位置样值差值绝对值和的平均值: a.式中(H,V)为两宏区块相对的水平和竖直位移(参考相对当前)。 b.(x,y)为当前编码帧中指定宏块的正交坐标(x,y=0,1,2,15)。 结论:当MAD(H,V)取得最

35、小值时,两个宏块匹配,MV(H,V)为编码帧中指定宏块的运动矢量。建立坐标系:在当前编码帧(如P帧)中,以宏块中心为原点,设置 一个以宏块长度为单位的相对直角坐标,如上图(a)。其中(X0 ,Y0)为当前编码宏块中心在编码帧中的绝对坐标。 求匹配宏块:用亮度差的绝对值的平均值公式求出: 当前编码宏块与参考帧(或P帧)中对应位置宏块的MAD(0,0)值。运动估值方法: 第一步:如上图 (b)在参考帧对应位置的水平和垂直方向距(X0,Y0)点各三个单位处选 8个宏块,分别与编码宏块求出MAD值。 第二步: a.选MAD值为最小者(如位于(X0+3,Y0+3)点的宏块)。 b.以同样的方式,取其周围

36、距该宏块两个单位的8个宏块。 c.再次求MAD值。第三步: a.选MAD值最小者,如位于(X0+5,Y0+1)点的宏块。 b.取其周围距该宏块一个单位的8个宏块。 c.再决求出MAD值。 d.选MAD值最小者,如(X0+6,Y0+2)位置宏块,作为当前编码宏块的最佳匹配宏块。 e.确定出当前编码宏块的运动矢量为MV(6,2)。 运动估值是一个大量运算的过程,需要一定的时间,因此对编码系统的运算速度有较高的要求。 B帧编码时的运动估值,要对两个参考帧进行运动估值,因此要比P帧更费时。3.运动补偿 在参考帧中,由当前位置及运动矢量寻找匹配宏块的过程。 (1)B帧在运动补偿中的线性内插: B帧预测值

37、的形成:B帧预测值是根据两个运动矢量,在两个参考帧中进行运动补偿后采用线性内插得到的。 其公式为: 设Iij为前向预测匹配宏块中的一个样值(i,j=0,1,2,7); Pij为后向预测匹配宏块中对应位置样值; Bij为当前B帧中编码宏块对应位置的预测值。 a.当求前向预测匹配宏块时, MAD=0,则有a=1,b=0。这也就是说,此时只选前向预测匹配宏块作为当前B帧中编码宏块的匹配宏块。 b.当求后向预测匹配宏块时,MAD=0,则a=0,b=1,此时只选后向预测匹配宏块作为当前B帧中编码宏块的匹配宏块。 c.当两个MAD0时,有两种情况:在两个参考帧中只有一个B帧时, 则有:也就是说,预测值等于

38、二匹配宏块对应样值的平均值。 在两个参考帧中有两个B帧时,则a,b的取值与该B帧在两个参考帧之间的位置有关。4.3.5 MPEG1 图像编码原理 1. 预处理 在JPEG压缩中首先要对输入的视频图像进行帧改组,即分片、分段 在MPEG1图像压缩编码中,同样要先对输入的视频图像进行预处理,其中包括: 变格式;分组;帧重排;分块。 ()变格式:将输入不同制式的视频信息转变为统一的中间格式(SIF)即:将PAL制的704×576 352×288, 将NTSC制的704×480 352×240。()分组:将SIF格式的视频帧图像进行分组处理。 分组的原因:MPE

39、G1的编码以帧组GOP为单位。 分组的方法: PAL制每5帧分为一组(GOP)(因帧频为25Hz,所以取5帧为一组); NTSC制每6帧分为一组(GOP)(帧频为30Hz,所以取6帧为一组)。 即:二制式每秒均为5 GOP。GOP特点: a.每一组的时间均为0.2s(不同的分组方法时间可能不同); b.每一组产生一个图像进出编辑点; c.GOP中只有一个帧。 ()帧重排:以GOP 为单位进行帧顺序重新排列 帧重排原因:因为只有预测出P帧后才能预测出B帧; 帧重排的原则:P帧必须排在对应B帧之前; 帧重排的方法:PAL制为IBPBP IPBPB。 NTSC制为IBBPBP IPBBPB(4)分块

40、 将SIF格式的每一帧图像进行切块处理。 分块的原因: a.DCT变换是以像块为单位进行的; b.运动估值和运动补偿又是以宏块为单位进行的。 分块的方法: a.分片:将一帧图像横向切成许多片(条)如下图所示,每片(条)的宽度为16个采样点(像素)。 b.切宏块:将每一片切成16×16的宏块。 c.切像块:亮度分量,需将宏区块切成4个8×8的像块。色差分量,已经是像块无需切分。编码方法:采用的是帧内压缩方式,方法与JPEG基本相同。 注: 快速自适应量化控制器的作用:调节输出码流使输出码率基本稳定在1.5Mb/s(此为与JPEG压缩不同之处)。 逆量化的量化步长:Q

41、-1在自适应量化控制器的作用下采用与Q同样的量化表。 I帧存储器的作用:是为了给P、B帧的预测提供参考值(没有它同样传输I帧数据)。 I帧存储器不采用I帧当前样值的原因: 为消除量化噪声的积累。 为与接收端具有同样的预测值。 帧码流的组成: I帧图像的样值信息。 量化表信息(以备解码使用)。 (注:为无运动矢量信息输出)。P帧编码方法:以其前面的I帧或P帧为参考,采用前向预测编码的方法。 注: P帧量化方式:在自适应控制器的控制下,采用固定步长量化方式,无量化表。且将小于2的系数都视为0,属于粗量化。 P帧存储器的作用:为B帧的预测而设置。 P帧存储器不采用P帧当前样值的原因: 为防止量化噪声

42、的积累。 为与接收端P数据保持一致。 逆量化的量化步长: Q-1在自适应量化控制器的作用下,采用与Q同样的量化步长。 熵编码:包括Z扫描 游程编码 霍夫曼编码 P帧码流组成: P帧的预测差值信息。 量化步长信息。 运动矢量信息。 B帧编码方法:以其前面的I帧或P帧与后面的P帧为参考采用双向预测编码的方法。 注: B帧量化方式:与P帧相同采用固定步长量化方式,无量化表。 不用Q-1和IDCT,无B帧存储器(其不是参考帧)。 B帧码流组成: B帧的预测差值信息。 量化步长信息。 两个运动矢量信息。 4.3.7 MPEG1 码流分层 (1) MPEG1 码流构成: MPEG-1的系统编码格式是将视频

43、数据和各种控制信息组合起来,以2K字节为一个数据块,称为封包(packet),大量的这种视频包和音频包就构成码流。 (2)MPEG1 视频包的层次结构:每个视频封包共分为6个层面,即封包层、帧组层、帧层、片层、宏块层、像块层。 第一层:封包层(PES),也称为图像序列层。 组成:它是由基本参数(标头)和若干帧组(GOP)组成。 基本参数:图像尺寸,像素宽高比,帧频,码率,帧组数,缓存容量等。 第二层:帧组(GOP)层 组成:它是由基本参数和一个帧组中的若干帧组成。 基本参数:标明了GOP内的帧数和各帧排列顺序(一般NTSC制为6帧,PAL制为5帧,在帧层中各帧的排列顺序是在编码时重排后的顺序)

44、。 第三层:帧层 组成:它是由基本参数和若干片组成。 基本参数: 帧类型,帧编号、帧内片层数等(在NTSC制中,一帧可切出15片,而在PAL制中,一帧为18片)。第四层:片层 组成:它包括基本参数和22个宏块。 基本参数:同步信号,片层编码和内部宏块数等(同步是以片为单位进行的,从而确定片的准确位置)。第五层:宏块层(MB) 组成:它是由基本参数和各像块组成(在MPEG1中,一个宏块中有4个8×8亮度像块和两个8×8色差像块)。 基本参数:有宏块编码,运动矢量MV1,MV2及比例系数a,b,量化步长、量化表等。第六层:像块层 组成:它是由基本参数和量化后的FDCT系数组成(

45、EOB标志块的结束)。 基本参数:注明了该像块层的编号(y1,y2,y3,y4或CR及CB)。 讨论: MPEG-1影像(VCD)是以“图像序列”(封包)为基本单位的。 MPEG编码是以“帧组”为单位进行的。 同步是以“片”为单位进行的。 运动估值、运动补偿是以“宏块”为单位进行的。 DCT变换是以“像块”为单位进行的。 4.3.8 MPEG1音频压缩 1. 音频压缩的基本原理 (1)音频压缩的方案选择:音频数据的bit率取决于采样频率和量化位数,其中为保证音频频域宽度,根据耐奎斯特定理不能降低采样频率,所以音频压缩一般采用降低量化位数的方法。 (2)MPEG音频压缩的基本原理:将音频信号进行

46、频率分解(把音域均分成32个子带),根据心理学模型(两种音阈效应)适当减少分配给各子带的量化位数,从而达到压缩的目的。 3)量化位数分配原则: 子带中没有谐音分量,则不必为其分配量化位数。 子带中的谐音分量的幅度在掩蔽听阈以下,则不必为其分配量化位数。 对人耳不敏感的子带可采用粗量化,而敏感的子带采用细量化。 为了达到最大的压缩率,每个子带的量化位数应使量化噪声恰好不被听见。 2. 关于MPEG-1音频标准及其特点 MPEG音频标准的要点: (1)音频信号采样频率可以是32 kHz、44.1 kHz、48kHz。 (2)可以按以下4种模式之一支持单声道或双声道:单声道模式、双单声道模式、立体声

47、模式、联合立体声模式。 (3)压缩后的比特流具有预定义的几种比特率之一。另外,还应支持用户使用预定义的比特率之外的比特率。 (4)MPEG音频标准提供三个独立的压缩层次。 (1)单一码流形成:将视频包和音频包按时分方式交替排列(每传送14或15 个视频数据封包才传送一个音频数据封包),就形成了复用单一码流,以便在媒体上记录。 (2) A/V同步:在播放时要使用时基信息进行音/视频同步 (即解码时先读入音频信号解压后存入待用,视频播放时根据同步信息进行音频播放)。 继承了MPEG1的压缩方式(基于DCT的、有运动补偿的、帧间双向预测的帧内和帧间压缩方式)。 继承了MPEG1的码流分层结构(6层结

48、构)。 支持场预测和场DCT功能(即隔行扫描编码,以16×8场宏块为单位)。码率可变。 图像分辨率支持ITU-601标准(SDTV标准)及高清晰度电视图像(HDTV)。 采用多级性数据流语法结构,即空间、时间、信噪比可分级。4.4.3 MPEG2的编码特点 1.MPEG-2的向后兼容性 MPEG-2是在MPEG-1的基础上发展起来的,是MPEG-1的扩展或延伸,所以MPEG-2解码器可以对MPEG-1码流解码。2.码率可变性 MPEG-1采用固定码率方案,其结果使图像质量发生变化(图像变化大时质量差,牺牲了图像质量)。 MPEG-2采用图像质量固定方案,则必然带来码率变化(以码率的变

49、化确保图像质量的相对稳定)。3.数据码流的多级性 空间可分级:采用空间分辨率分级编码方式,SDTV可对码流中低层次部分解码,而HDTV对所有层次码流解码,以适应不同用户要求。 时间可分级:采用时间分辨率分级编码方式,码流中高层次时间分辨率如果是60帧/s,则部分的取出作为低层次的时间分辨率即为30帧/s。信噪比(SNR)可分级:在空间分辨率不变的条件下,采用量化精度分级编码方式,不同等级的解码器可获得不同质量的图像,特别是高信噪比编码方式更适合应用在环境较差的网络传输。4.自适应的场 / 帧预测模式 场预测的作用:可以提高预测的精度,进一步提高快速运动图像质量(因为场频比帧频高一倍,但是存储器

50、更大、运算更复杂)。 场/帧预测的控制方式:在编码中采用“场”还是“帧”预测是由编码器根据图像的变化情况自行控制。场宏块的构成:场宏块像素为16×8,即两个8×8亮度像块和2个8×8色差像块。 场的前向和双向预测:1个I场或2个P场预测1个P场,4个P(可含I)场预测1个B场。5.采样方式与分辨率的区别 MPEG-1与MPEG-2都采用4:2:0方式,但是分辨率差4倍。 6.MPEG-2的档(profile)和级 MPEG-2的档(类):MPEG-2按功能定义了5个档次,即 简单、主用、NSR可分级、空间可分级、高。 MPEG-2的级:MPEG-2的每个档次又根据

51、分辨率分为4个级, 低、主、高1440、高(16:9) P1644.4.5 MPEG2音频压缩 1.MPEG-2音频要点 多通道(MC):MPEG-2音频支持5.1声道或7.1声道环绕立体声方案。 兼容性:MPEG-2具有很好的向后兼容性(MPEG-1音频解码器仍然可以对MPEG-2音频码流解码,但是只是双声道立体声)。2.MPEG-2音频编解码基本原理 声音中确定音源位置的三个属性:大脑通过对双耳听到的声音3个属性的比较来确定音源的位置。 幅值:幅值大的方向为音源方向(对两耳而言)。 相位:相位相同则音源在中间,相位差1800则音源失去方向信息。 时序:先听到的声音决定了音源方向(对两耳而言

52、)立体声:立体声是指3维听觉效果(对双声道放音系统而言,只有在“皇帝座”才能感受立体声效果)。 环绕立体声:增加一个中央声道和一个环绕声道共4个声道5只音箱,使在声场中的其他位置也能感受3维听觉效果。此方案为DDLS方案即杜比定向逻辑系统,由Dolby实验室与20世纪70年代提出的(中央声道可以容易的确定音源位置,环绕声道是为了增加产生环境噪声的效果,如反射音、回音等)。Dolby MP矩阵:为了兼容双声道重放和记录设备,Dolby实验室提出了Dolby MP矩阵的编码方案,将5声道或4声道编码为两声道信息(编码芯片(S)。 L=L+0.7C+0.7S×(+900)(移相) R=R+0.7C+0.7S×(-900)Dolby第一带家庭解码器算法则为:L=L 、R=R、C=L+R、S=L+R。 可由两声道分离为四声道。注: DDLS与双声道设备兼容。用双声道重放会有幻影中心和幻影环绕的感受(假环绕)。 为消除中频

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论