数字电视原理余兆明 西电版 图像数据压缩编码_第1页
数字电视原理余兆明 西电版 图像数据压缩编码_第2页
数字电视原理余兆明 西电版 图像数据压缩编码_第3页
数字电视原理余兆明 西电版 图像数据压缩编码_第4页
数字电视原理余兆明 西电版 图像数据压缩编码_第5页
已阅读5页,还剩486页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数字电视原理余兆明西电版图像数据压缩编码第1页/共491页

1.利用图像信号的冗余度图像信号的冗余度表现在结构和统计两个方面。

1)图像信号结构上的冗余度图像信号结构上的冗余度表现为很强的空间(帧内的)和时间(帧间的)相关性。统计测量证实了电视信号在相邻像素间、相邻行间、相邻帧间存在的这种强相关性。一般情况下,电视画面中的大部分区域信号变化缓慢,尤其是背景部分几乎不变,如电影胶带,连续几十张画面变化甚小。电视信号用6MHz带宽是为了表示画面中突变的轮廓和占画面比例不一定很大的纹理细节以及快速的运动,但在大部分时间内,电视信号并不含这么高的空间和时间频率成分。因此,频带可以压缩。第2页/共491页图4.1.1预测误差的拉普拉斯分布第3页/共491页

2)信号统计上的冗余度信号统计上的冗余度来源于被编码信号不均匀的概率密度分布。例如,在预测编码系统中,需要编码传输的是预测误差信号,它是当前待传像素样值与它的预测值间的差分信号。预测值是通过在该像素之前已经传出的它的几个近邻像素值预测出来的。电视信号相邻像素间相关性很强,在大部分时间内预测都很准,预测误差很小。并且,预测误差高度集中在0附近,形成如图4.1.1所示的拉普拉斯分布。这种不均匀的概率密度分布对采用变字长编码压缩码率极为有利。编码时,对出现概率高的预测误差信号(0及小误差)使用短码,对概率低的大预测误差信号使用长码,使总的平均码长比用固定码长编码短。这叫做统计编码或概率匹配编码、熵编码,后面还要详细讨论。第4页/共491页

2.利用人的视觉特性充分利用人的视觉特性,挖掘潜力,是实现码率压缩的第二个途径。人眼对图像的细节分辨率、运动分辨率和对比度分辨率的要求都有一定的限度。图像信号在空间、时间以及在幅度方面进行数字化的精细程度只要达到了这个限度即可,超过是无意义的。从视觉心理学和生理学的研究表明,人眼对图像细节、运动和对比度三方面的分辨能力是互相制约的。观察景物时,并非对这三者同时都具备最高的分辨能力。当人眼对图像的某种分辨率要求很高时,对其它的分辨率则降低了要求。利用这一特点,采用自适应技术,根据图像的每一局部的特点来决定对它的抽样频率和量化的精度,尽量做到与人眼的视觉特性相匹配,在不损伤图像主观质量的条件下压缩码率。例如,在预测编码中,利用受图像局部活动性影响的视觉掩盖效应设计的自适应主观优化量化器;在变换编码中,对不同空间频率的变换系数进行量化时采用的视觉加权矩阵。第5页/共491页4.1.2图像编码算法的分类从整体来看,图像数据压缩分为无损压缩与有损压缩两种。

1.无损压缩无损压缩方法仅删除图像数据中的冗余信息,回放压缩文件时,能够准确无误地恢复原始数据。它可分为基于统计概率的方法和基于字典的方法。

第6页/共491页

1)基于统计概率的方法基于统计概率的方法是依据信息论中的变长编码定理和信息熵的有关知识,用较短代码代表出现概率大的符号,用较长代码代表出现概率小的符号,而实现的数据压缩。统计概率编码方法中最有代表性的是霍夫曼(Huffman)编码方法,它根据概率分布大小进行一一对应地编码。在H.264标准中,采用了基于上下文自适应变字长编码,压缩效率得到了进一步提高。另外,算术编码也是一种利用概率分布特性的编码方法。算术编码是利用字符序列而不是单个字符进行编码,其效率比Huffman编码方法高。国际静止图像编码专家组把算术编码列入推荐算法的一部分。在H.264标准中,采用了基于上下文自适应二进制算术编码,压缩效率得到了较大的提高。第7页/共491页

2)基于字典的方法基于字典的方法的数据压缩有两种:一种是游程编码(RuningLengthCoding,RLC),在MPEG标准中使用;另一种是LZW(Lampel、Ziv、Welch,三个人名)编码。采用LZW编码时,可将数据文件生成特定字符序列的表以及它们对应的代码。LZW编码对二值图像可以得到非常显著的压缩效果,但对灰度图像压缩效果不显著,其压缩比一般在1∶1.5~1∶3以内。第8页/共491页

2.有损压缩有损压缩最常用的方法是空间和时间亚抽样编码。在某些(如VCD和电视电话等)应用中,高分辨率不是必需的。这时,我们可以使用空间和时间亚抽样来降低数据速率。在编码器中,从每几个像素中选择一个像素,从一帧的两场中取一场,或从每几帧中选择一帧,然后加以传输。在译码器中,可根据接收的像素和帧内插丢失的像素、场和帧,再生出分辨率较低的原始视频序列。如果像素是由色度和亮度分量表示的,那么可以以较高的比率(如2∶1或4∶1)对色度分量进行亚抽样,量化更粗略一些,这是因为人眼对色度分量的高频分量敏感性较低。

第9页/共491页这种技术既简单又十分有效。例如,如果对每两个像素传输一个像素,每一帧只传输一场,就可达到4∶1的压缩比(MPEG-1中两个色差分量U、V就是这样处理的)。这种方法是以损伤图像的质量为代价的,是一种有损压缩方式。有损压缩算法靠丢掉大量冗余信息来降低数字图像所占的空间,回放时也不能完整地恢复原始图像,而将有选择地损失一些细节,损失多少信息由需要多高的压缩比决定。对同一种压缩算法来讲,所需压缩比越高,损失的图像信息越多。第10页/共491页上面所介绍的所有编码方法中,除了Huffman编码、游程编码、算术编码、LZW编码外,其余都可归结为有损压缩编码范畴。现在所用的MPEG-1、MPEG-2、MPEG-4、H.261、H.262、H.263等中的离散余弦变换(DCT)压缩算法以及H.264中的整数变换压缩算法都是有损压缩算法。有损压缩算法的压缩比较大。如MPEG-1、MPEG-2的压缩比可达30∶1;MPEG-4采用了视频对象技术,压缩比可达100∶1;H.264采用了更多的压缩措施,压缩比可超过200∶1。第11页/共491页表4.1.1列出了主要的压缩编码算法。对各分量信号(Y、U、V)均用均匀量化的量化精度不应低于每像素8bit。各类图像编码一般都有自适应算法,即编码参数不是固定不变的,而是针对图像信号的某种局部或瞬时的统计特性,能自动地调整编码方案中某些参数,以求更高压缩效率。表4.1.1中,预测编码、DCT变换编码、Huffman编码和游程编码研究历史较长,应用较广泛,硬件实现较容易。由这些编码构成的“混合型”编码是目前活动图像的主流编码类型,已为CCITTH.261、H.262、H.263、H.264和MPEG等国际标准所采纳,并成为高清晰度电视(HDTV)的基本框架。第12页/共491页第13页/共491页4.1.3图像编码压缩比图像编码压缩比可由下式计算:

(4.1.1)

由于压缩技术层出不穷,图像编码的压缩比不断提高,它遵循Musmann定律。Musmann定律是以德国著名图像专家Musmann教授命名的。2006年4月,Musmann教授在北京主持了“图像编码的过去与未来”专题讨论会,并首先发言,对图像编码压缩技术的过去几十年工作作了总结,他认为广播质量的视频编码的压缩比大约每5年翻一番,并画出了图4.1.2,他还着重谈到视频编码的未来。后来被公认为Musmann定律。第14页/共491页图4.1.2Musmann定律曲线第15页/共491页4.1.4混合编码

1.混合编码压缩的编、解码器框图直至2007年底,国内、外所有图像信源压缩标准都是采用混合编码压缩方法。它包括内插法、预测编码、变换编码和熵编码等技术,统称为混合编码压缩方法。混合编码压缩的编、解码器框图如图4.1.3所示。图中上半部分为编码器框图,下半部分为解码器框图。对照编、解码器框图可以看出,在编码器的虚线框内实际上就是解码器,所以说编码器中包括了解码器。到目前为止,所有的国内、外图像信源编、解码器框图都可用图4.1.3表示。之所以有新旧标准的差异,是因为每个框图中所采用的技术不同,较早提出的标准技术较简单,第16页/共491页新标准的技术较精细,带来压缩比的不断提高。该方案中用运动补偿帧间预测去除图像在时间域的冗余度,然后用变换编码去除空间域的冗余度,最后再用熵编码去除经量化后的变换系数中所含的统计冗余度。变换系数的量化利用了人眼的视觉特性,量化器的精度还受到输出缓存器状态的控制。输出缓存器是为了适应恒定码率信道的要求,平滑变字长编码器输出的不均匀码流而设置的。当缓存器接近上溢和下溢时,通过反馈控制量化器的精度调整缓存器的输入码流,保持输出数码率的衡定。图4.1.3的信源编码方案是积60年图像编码经验之总结。第17页/共491页图4.1.3混合编码压缩的编、解码器框图第18页/共491页

2.混合编码的压缩比预测编码、变换编码及熵编码,这三种编码研究历史较长,应用广泛,硬件实现较容易,由这三种编码构成的“混合型”编码是目前电视图像压缩编码的主流类型,已为所有国际、国内图像信源编码标准所采纳,并成为标准清晰度电视(SDTV)和高清晰度电视(HDTV)的基本框架。据统计,变换编码的压缩比为5~10倍,预测编码(DPCM)的压缩比为2~3倍,熵编码的压缩比为1.3~1.5倍,因此采用以上“混合型”编码的平均压缩比约为15~30倍。在最新的H.264标准中,由于采用了更精细的帧内、帧间预测编码,整数变换和基于上下文自适应变字长编码以及基于上下文自适应二进制算术编码等措施使压缩比提高到100倍以上。第19页/共491页

3.混合编码压缩实施方法混合编码压缩分如下几个步骤进行:

(1)把一幅彩色图像分成亮度信号Y(黑白图像)和两个色差信号(V、U)的三幅图像,如图4.1.4所示;

(2)将上述三幅图像分别分割成整数个宏块(MB)图像和像素块(B)图像,如图4.1.5所示;

(3)对每个像素块分别进行压缩。第20页/共491页图4.1.4一幅彩色图像分成的三幅Y、V、U图像第21页/共491页图4.1.5一幅图像分割成宏块的方法第22页/共491页图4.1.4中采用了Y∶V∶U=4∶2∶2的抽样格式,所以亮度信号Y图像的面积是两个色差信号V、U图像的面积的四倍。在样点密度相同的情况下,两个色差信号V、U图像的面积分别为1/4。图4.1.5显示出了将一幅图像分成宏块的方法。例如,可把QCIF格式的图像分成11×9个宏块(MB),MB像素为16×16,每个宏块又可分为4个像素块(B),所以每个像素块的像素数为8×8。由于图像编码压缩是基于8×8像素方块进行的,如果传输中产生了误码,则在接收端恢复的图像会产生8×8像素块整块或几个8×8像素块的错误,这就造成了所谓的“马赛克效应”。为了克服“马赛克效应”,在最新标准H.264中采取了两个步骤:

(1)将分块变小,由8×8变为4×4;

(2)加抗块效应滤波。所以,在H.264标准中的图像几乎不产生“马赛克效应”。第23页/共491页在混合编码压缩技术中既采用了无损压缩,又采用了有损压缩,所以在接收端不能100%地还原图像。图4.1.6显示出了原图像、恢复后的图像和误差图像。虽然恢复后的图像与原图像有差异,但主观视觉感觉恢复后的图像与原图像差别不大,完全能被人们的视觉所接受。第24页/共491页图4.1.6原图像、恢复后的图像和误差图像(a)原图像;(b)恢复后的图像;(c)误差图像第25页/共491页4.2预测编码在经典的图像编码技术中,预测编码(predictivecoding)和变换编码(transformcoding)是主要的两类编码方法,硬件实现较简单。预测编码是基于图像数据的空间和时间冗余特性,用相邻的已知像素(或图像块)来预测当前像素(或图像块)的取值,然后再对预测误差进行量化和编码。这些相邻像素(或图像块)可以是同行扫描的,也可以是前几行或前几帧的,相应的预测编码分别称为一维、二维和三维预测。其中:一维和二维预测是帧内预测;三维预测是帧间预测,它是在时间轴上用前一帧的像素(或图像块)对后一帧的像素(或图像块)进行的预测。第26页/共491页预测编码有线性预测和非线性预测两类。线性预测编码又称为差分脉冲编码调制(DifferentialPulseCodeModulation,DPCM)。在预测编码时,不直接传送图像样值本身,而是对实际样值与它的一个预测值间的差值进行编码、传送。如果这一差值(预测误差)被量化后再编码,则这种预测编码方式称为DPCM。如果所用的量化器的量化层数为2,则称为增量调制(ΔM),它是DPCM的一种特殊形式。DPCM是预测编码中最重要的一种编码方法。第27页/共491页预测编码又可分为帧内预测编码和帧间预测编码。帧内预测编码可采用像素预测或像素块预测(H.264的帧内预测就是采用4×4像素块预测)形式的DPCM。采用像素预测的优点是算法简单,易于硬件实现;其缺点是对信道噪声及误码很敏感,会产生误码扩散,使图像质量大大下降。同时,帧内DPCM的编码压缩比较低,一般要结合其它编码方法。第28页/共491页

帧间预测编码(可以多帧)主要利用活动图像序列相邻帧间的相关性,即图像数据的时间冗余来达到压缩的目的,可以获得比帧内预测编码高得多的压缩比。帧间预测编码作为消除图像序列帧间相关性的主要手段之一,在视频图像编码方法中占有重要地位。帧间预测编码一般是针对图像块的预测编码,它采用的技术有帧重复法、阈值法、帧内插法、运动补偿法和自适应交替帧内/帧间编码法等,其中运动补偿预测编码现已被各种视频图像编码标准采用,得到了很好的结果。运动补偿预测编码方法的主要缺点是对图像序列不同的区域,预测性能不一样,特别是在快运动区,预测效率很差。而且为了降低预测算法的运算复杂度和提高预测精度,一般要对图像进行分块后再预测,这势必造成分块边缘的不连续。为改善边缘特性,提出了边缘滤波等技术。关于帧间预测编码我们在后面还会给出一个较详细的描述。第29页/共491页预测编码的关键在于预测算法的选取,这与图像信号的概率分布有很大关系,实际中常根据大量的统计结果采用简化的概率分布形式来设计最佳的预测器,有时还使用自适应预测器以较好地刻画图像信号的局部特性,提高预测效率。目前,在视频序列编码中,进行时间轴冗余度压缩的主要手段是运动补偿帧间预测。以上这些特点使预测编码在视频信号压缩编码中占有重要地位。第30页/共491页4.2.1预测编码的类型在图像数据压缩中,常用如下几种线性预测方案。

1.前值预测将前面已出现的像素值作为后面未出现的像素预测值称之为前值预测,即其预测公式为其中:

XN-1为预测像素前已传出的样值;a为预测系数。像素之间的关系如图4.2.1所示。第31页/共491页图4.2.1前值预测第32页/共491页

2.一维预测一维预测指用同一扫描行中的前面已知的几个抽样值预测,其预测公式为其中:ai为预测系数;Xi为在前已传出的样值(参考样值)。像素之间的关系如图4.2.2所示。第33页/共491页图4.2.2一维预测第34页/共491页

3.二维预测二维预测指既用的同一扫描行中以前的几个抽样值(X1,X5,…)又用的以前几行中的抽样值(X2,X3,X4,…)来预测,像素之间的关系如图4.2.3所示。预测公式如下:(4.2.1)其中:a1,a2,…,an称为预测系数;XN-1,XN-2,…,XN-n是在XN前已传出的样值(参考样值)。第35页/共491页图4.2.3二维预测第36页/共491页由于现行广播电视采用隔行扫描,一帧分成奇、偶两场,因此,做二维预测时又有帧内预测和场内预测之分。假设XN处在某帧的第n行上,若对其做帧内预测,则对其提供参考样值的上一行是该帧第n-1行;而对其做场内预测时,提供参考样值的是其所在场内的上一行,即n-2行。帧内预测相邻行间距离近,对于静止画面,行间相关性强,对预测有利。但对于活动画面,两场之间间隔了20ms,场景在此期间可能发生很大变化,因此,帧内相邻行间的相关性反比场内相邻行间的相关性弱。此外,帧内预测需要一个场存储器,很不经济。所以,隔行扫描电视信号的预测编码都采用场内预测,不采用帧内预测。第37页/共491页

4.三维预测(时间预测或帧间预测)若选择了处于前一帧图像上的样值作为参考样值,则称三维预测,如图4.2.4所示。采用一、二维预测的叫做帧内DPCM编码,三维预测编码属于帧间DPCM编码。帧间预测往往与运动补偿技术联系在一起。

5.多帧预测多帧预测是利用多帧图像预测新的一帧图像,如图4.2.5所示。第38页/共491页图4.2.4三维预测第39页/共491页图4.2.5多帧预测第40页/共491页

6.多假设预测多假设预测需要叠加由两个运动矢量所预测的两个宏块的预测值。我们把每个块的预测值称为假设(hypotheses)。最后预测块通过两个假设的运动矢量的预测值平均后得到。多假设预测分为双向预测(前向、后向)和前向、前向预测。双向预测只允许前后向预测对线性组合而成,如图4.2.6所示。多假设预测中前向、前向预测如图4.2.7所示。第41页/共491页图4.2.6多假设预测中的双向预测第42页/共491页图4.2.7多假设预测中前向、前向预测第43页/共491页由于帧间预测编码对视频信号的相关性利用最充分,因此压缩比最高,但是,接收端解码需要有一个容量很大的帧存储器把前一帧(或前几帧)解码复原的图像存起来,才能为下一帧预测提供参考样值。对于压缩比要求不高的系统主要采用帧内DPCM,而对于要求高压缩比的视频传输系统,如可视电话、会议电视、数字电视或高清晰度电视(HDTV)广播,则必须采用含有运动补偿的帧间预测。近年来提出的压缩标准中(如H.264),既采用了完善的帧内预测编码DPCM像素块压缩,也采用了帧间DPCM像素块压缩,使压缩比大为提高。第44页/共491页4.2.2差分脉冲编码调制(DPCM)的分析

DPCM系统又称预测量化系统。DPCM所传输的是经过再次量化的实际样值与其预测值之间的差值——预测误差。预测值是借助待传抽样(像素)邻近已经传出的若干样值估算(预测)出来的。由于电视信号邻近像素间的强相关性,邻近像素的样值电平一般很接近,因此,预测有较高准确性。从统计上讲,需要传输的预测误差主要集中在0附近(见图4.1.1)的一个小范围内。虽然在图像信号变化剧烈的地方(例如轮廓和边缘)可能由于预测不准出现一些大的预测误差,但这只是零星和个别的,而人眼对出现在轮廓与边缘处的较大误差不易察觉。因此,对于预测误差量化所需要的量化层数要比直接传送图像样值本身(8bitPCM信号需256个量化层)减少很多。DPCM就是通过去除邻近像素间的相关性和减少对差值的量化层数来实现码率压缩的。图4.2.8是DPCM系统的方框图。第45页/共491页图4.2.8DPCM系统的方框图第46页/共491页

DPCM系统的输入信号XN是PCM图像信号。对于每一个输入样值XN,预测器产生一个预测值,它是根据在XN之前已经传出的几个近邻样值通过预测公式(4.2.1)计算出来的。一般最多用4个近邻样值进行预测,因为实验证明,参考样值再多,对预测精度也提高不多。若tN时刻之前的已知样值与预测值之间的关系呈现某种函数形式,该函数一般分为线性和非线性两种,所以预测编码器也就有线性预测编码器和非线性预测编码器两种。第47页/共491页若估计值与各X1,X2,…,XN-1样值之间呈现为(4.2.2)则称之为线性预测。其中,ai(i=1,2,…,N-1)为常量,称为预测系数。若tN时刻的信号样本值XN与tN时刻之前的已知样本值X1,X2,X3,X4,…,XN-1不符合式(4.2.2)所示的线性组合关系,而是非线性关系,则称之为非线性预测。第48页/共491页在式(4.2.1)中,由于仅利用前已传送的参考样值计算,因此接收端也可以用与发送端同样的公式计算。如果传输过程中不出现误码,并且暂时忽略量化器的影响,则发送端和接收端计算出的相同。在这种情况下,发送端发送的是经编码后的预测误差,即(4.2.3)第49页/共491页接收端经解码后得到eN,将其与相加就可重新得到XN,即(4.2.4)但是,在实际的系统中,量化器的影响不能忽略。经编码后发送端传出的是量化后的预测误差,与eN的差别是量化引起的误差,即量化误差:(4.2.5)在接收端,利用收到的与预测值相加,可得到重建的样值:(4.2.6)第50页/共491页

显然,重建的样值与原始值XN之间的差别等于量化误差,即

(4.2.7)

由于在DPCM系统的接收端得不到原始样值XN,而只有含量化误差的样值,因此,在预测公式(4.2.1)中,只能以替换XN-1,XN-2,…,XN-n,即

(4.2.8)第51页/共491页为了做到发、收同步,即发送端和接收端得到同样的预测值,发送端和接收端要采用同样的预测公式和参考样值。为此,发送端必须产生含量化误差的重建样值作为预测器输入。在图4.2.8所示的发送端预测器的输入值是由一个加法器将与相加来实现的。由以上分析可知,前面样值的量化误差对当前样值的预测会产生一些影响,所以,量化器与预测器之间存在相互作用。第52页/共491页4.2.3预测器

DPCM系统中,预测器是关键。图4.2.9是根据式(4.2.8)设计的预测器,其中D1,D2,…,DN-1是延迟元件,它们分别存储(延迟)样值,a1,a2,…,aN-1是预测系数。第53页/共491页图4.2.9DPCM预测器第54页/共491页

1.最优线性预测的设计所谓最优线性预测,就是按照某种准则选择式(4.2.8)中的线性预测系数ai,使得预测的偏差值为最小。最基本、最常用的准则是均方误差(MeanSquareError,MSE)准则,因此将这种最优线性预测称为在MSE准则意义下的最优线性DPCM预测。换句话说,就是使为最小。第55页/共491页假如{XN}是平稳随机过程,那么ai(i=1,2,…,N-1)就是的度量,求对各个ai的偏导数,并令其为零,就可求出为极小值时的各个线性预测系数ai。即(4.2.9)i=1,2,3,…,N

第56页/共491页将上式整理后,得即(i=1,2,3,…,N)这样可以得到N-1个线性方程组:

(4.2.10)第57页/共491页将展开,得到

(4.2.11)令Xi与Xj的协方差记为第58页/共491页式(4.2.11)代表了N-1个线性方程组,其中共有N-1个待定常数ai。将上式写成矩阵方程即为(4.2.12)第59页/共491页由此可见,只要知道

个协方差Ri,j,所有的N-1个预测系数ai就能被解出。此时,解出的ai就为MSE准则下的最优预测系数。第60页/共491页如果{XN}为广义平稳过程,则其相关函数满足:R(i,j)=R(|i-j|)式(4.2.12)可简化为(4.2.13)第61页/共491页

由此可知,只要预先估计(N-1)+1个相关函数R0,R1,…,RN-1和RN就可以求出预测系数ai(i=1,2,…,N-1)。其中自相关矩阵不但是实对称矩阵,而且其主对角线上诸元素相同;同时与主对角线平行的斜线上的诸元素也相同,该矩阵是一个对称的托伯利兹(Toeplitz)矩阵。由于托伯利兹矩阵可逆,因此有

(4.2.14)第62页/共491页

注意,按预测误差的均方差最小准则导出的各个预测系数ai应满足所有系数代数和等于1,即

(4.2.15)

关于样本点个数的选取,一般来说,刚开始时,随着样本点个数N增大,将减小。可以证明,当N足够大时,即到了能使E{eNeN+j}=0时,再增加样本点数就会使不再减小了。第63页/共491页

2.实用型预测器的考虑表4.2.1所列是利用帧内DPCM对常规电视信号进行编码时,采用不同的预测器对亮度信号Y和色差信号U、V进行预测的性能比较。其中三个预测系数均不为0的是MMSE预测器,所用的预测系数是根据对6幅典型电视图像进行统计测量得到的自协方差再经过求解上述的线性方程组得到的。模拟图像信号的频带宽度Y和U、V分别为5MHz和1MHz,对它们的抽样频率分别为10MHz和2MHz。亮度信号Y的抽样结构与色差信号U、V的抽样结构是正交结构,但由于色差信号的抽样频率只为亮度信号的1/5,因此水平方向的抽样间隔要比垂直方向的抽样间隔大很多。第64页/共491页第65页/共491页从表4.2.1看出:亮度信号的二维MMSE预测器与一维预测器(前值预测:a1=1,a2=a3=0)相比,均方预测误差减少了一半;对于色差信号,二维预测要比一维预测效果好。但对于色差信号,如果用XN-3代替XN-1进行单参考样值预测,则效果要好得多,这是因为前述的色差信号抽样频率低,抽样XN-3比XN-1距离XN抽样更近,如图4.2.10所示。第66页/共491页图4.2.10各样点位置第67页/共491页前面曾经提到,预测器和量化器间存在相互作用,在利用MMSE准则进行预测器优化设计中,忽略了这种影响。Pirsch考虑到这种影响,提出了一种只含正预测系数的二维预测器,根据参考抽样距待传抽样XN的距离远近分配预测系数(权重系数)。对亮度信号Y用10MHz抽样时的预测公式为

(4.2.16)

实验表明,虽然Pirsch预测器产生的均方预测误差不是最小的,但是产生的大的预测误差小,为达到同样的主观图像质量要求,这种预测器要比MMSE预测器节省量化级数,所以采用的较多。第68页/共491页采用固定系数的预测器实际上是一个前提条件,即假设图像信号在图像中的各个局部都具有相同的统计特性。如果这一假设成立,则预测器在图像中的各种区域都能表现出很好的预测性能。但是,实际的图像信号并不满足这种假设,属于不平稳信源。在一幅图像中,内容变化缓慢的平坦区、细节丰富的纹理区、亮度突变的边缘和轮廓区分别具有不同的统计特性。因此,固定系数的预测器一般只在图像的平坦区具有较好的预测性能,而在轮廓、边缘及纹理区往往会造成大的预测误差。为了克服这一困难,进一步提高预测性能,可以采用自适应预测器。自适应预测器的思想是根据图像每一局部的特点,自适应地变更预测公式中的预测系数,尽可能地使预测公式随时与被预测样值附近图像局部的统计特性相匹配,从而避免出现过多的大的预测误差,提高预测准确性。第69页/共491页自适应预测器有很多种形式。用的较多的一种是开关型自适应预测器。这种预测器首先用一定的判据检查被预测抽样附近图像样值取值的特点,根据判断的结果把其划归到不同类型的图像区域中去,对应于每一种类型的图像区域再分别使用一个与其统计特性相适应的预测器预测。因此,开关型自适应预测器实际上包含一组固定系数预测器,工作时,对于被预测的抽样,从这一组预测器中找出一个与其相适应的预测器预测。第70页/共491页

3.一种典型实用的二维预测器图4.2.11为一种典型实用的二维预测器,可按预测公式(4.2.17)实现编码和解码。编码后的结果分别如图4.2.12和图4.2.13所示。第71页/共491页图4.2.11一种典型实用的二维预测器第72页/共491页图4.2.12一种典型实用的二维预测编码器第73页/共491页图4.2.13一种典型实用的二维预测解码器第74页/共491页编码器说明如下:

(1)1/2、1/4、1/8、1/32可从移位寄存器平移抽头中得到。

(2)。

(3)限幅器是为防止亮度信号过载而设置的。由于量化误差的存在,可能使f′(m,n)超过亮度范围。

(4)DPCM可把每像素8bit压缩为4bit。

(5)D/D变换是将4位码变成8位码。解码器说明如下:

(1)D/D变换是将4位码变成8位码。

(2)其余部分与编码器相同。第75页/共491页4.2.4前向预测和双向预测用K-1帧预测K帧图像的预测方式称为前向预测。如果待预测的子块是在K-1帧,而搜索区域处于K帧之内,也就是从后续的K帧图像预测前面的K-1帧图像,这种方式称为后向预测。为了提高数据压缩比,往往采用由前、后两帧来预测中间帧,这种预测方式称为双向预测。如图4.2.14所示,对于K帧中的子块,先从K-1帧中找到它的最佳匹配块,从而得到该子块从K-1到K帧的位移矢量,再利用后向预测得到它从K+1到K帧的位移矢量,然后将经过运动补偿的前向和后向预测的平均值作为K帧子块的预测值。这样的做法与单纯的前向预测相比,可以进一步降低预测误差。第76页/共491页图4.2.14双向预测第77页/共491页例如在MPEG中,每个图像组中包括三种类型图像帧:I帧、P帧、B帧。图4.2.15所示为三种图像间的依赖关系。I帧只做帧内编码,不做运动补偿帧间预测。每一个图像组以一个I帧开始,便于随机接收(I帧提供了随机接收的访问点)和定时进行帧刷新,以防止传输误码由于帧间预测可能引起的长时间扩散。P帧是前向预测帧,由在其前传输的I帧或P帧(以下称参考帧)做运动补偿预测。B帧是双向预测帧,它同时由已传输的在图像序列中处于该帧前和该帧后的两个参考帧分别做前向运动补偿预测和后向运动补偿预测。B帧不能用来作为对其它帧进行运动补偿预测的参考帧。另外,由于MPEG以一个16×16像素亮度分量和占据同一空间而水平、垂直分辨率都减半的两个8×8像素色度分量组成的宏块(MacroBlock)作为一个运动补偿的单元,因此,运动估计采用块匹配法。第78页/共491页图4.2.15I、P和B图像的依赖关系为了减少必须传送的运动矢量信息和减少运算量,MPEG只对亮度信号做运动估值,色度信号采用同一宏块中亮度信号的运动矢量。第79页/共491页为了提高编码性能,MPEG除了I帧中全部宏块都采取帧内编码模式之外,在P帧和B帧中以宏块为单位自适应地选择合适的运动补偿预测模式。P帧中的宏块主要采取前向运动补偿预测模式,但当预测效果不佳时,则转至帧内模式;B帧中的宏块可供自适应选择的模式包括前向运动补偿预测、后向运动补偿预测、双向运动补偿预测平均和帧内模式。宏块预测模式的自适应选择可以用编码一个宏块所用比特数的多少为判据,选择编码比特数少的模式。表4.2.2列出了不同类型宏块的各种预测模式(设前一参考帧为I0,后一参考帧为I2,当前帧为I1)。表中:是像素坐标(含水平和垂直两个分量);是I1帧相对于参考帧I0的运动位移矢量;是I1帧相对于参考帧I2的运动位移矢量。对于前向预测或后向预测的宏块,应当传送的运动信息量是一个运动矢量(包括水平和垂直两个分量),而对于双向平均的模式,则需传送两个运动矢量。第80页/共491页第81页/共491页4.2.5像素块预测

1.帧内预测

H.264标准是采用像素块进行预测的,对I帧的编码是利用空间相关性而非时间相关性实现的。以前的标准只利用了一个宏块内部的相关性,而忽视了宏块之间的相关性,所以一般编码后的数据量较大。为了能进一步利用空间相关性,H.264标准引入了帧内预测,以提高压缩效率。简单地说,帧内预测编码就是用周围邻近的像素值来预测当前的像素值,然后对预测误差进行编码。第82页/共491页帧内预测的目的是生成对当前宏块的预测值。一个宏块由一个16×16的亮度(luma)分量和两个8×8的色差(chroma)分量(Cr和Cb)构成。luma分量采用两类帧内预测方式,按标准中的记号表示为帧内(Intra)16×16和帧内(Intra)4×4;两个chroma分量则采用相同的预测方式。Intra16×16方式是对整个16×16大小的luma进行预测,一般用于图像比较平坦的区域,共有4种预测方式。Intra4×4方式是将16×16大小的luma划分为16个4×4大小的亮度块,然后对每个4×4大小的块进行预测,共有9种预测方式。对于chroma分量(Cr和Cb),预测是对整个8×8块进行的,共4种预测方式。几种帧内预测的模式见图4.2.16。第83页/共491页图4.2.16帧内预测的模式第84页/共491页

1)Intra16×16帧内预测模式

Intra16×16帧内预测模式根据与当前宏块邻近的33个像素来生成luma分量的预测数据,共有4种预测方式:垂直(vertical)、水平(horizontal)、DC和平面(plane),如图4.2.17所示。图中白色部分代表当前宏块,灰色部分代表作为参考的邻近像素,它们分别来自当前宏块的上方(以H表示)、左方(以V表示)和左上方,因为这些宏块在编码顺序上位于当前宏块之前,所以用它们来预测是合理的。第85页/共491页图4.2.17Intra16×16帧内预测模式第86页/共491页在进行预测之前,首先要判断这些邻近像素是否可用。如果这些像素不可用,例如邻近像素所在的宏块位于其它片(Slice)之中或当前宏块位于图像边缘时,某些预测模式就无法使用。具体判断的细节请参考标准。对于垂直模式,如果H可用,则预测值即为H,否则不能使用此模式。对于水平模式,如果V可用,则预测值即为V,否则不能使用此模式。对于DC模式:如果H和V都可用,则用这32个像素的均值作为预测值;如果只有H或V可用,则用这16个像素的均值作为预测值;如果H和V都不可用,例如当前宏块位于一个Slice的开头,则预测值为128。第87页/共491页对于平面模式,要求必须所有的33个邻近像素都可用。这种方式实质上就是利用H和V顺着图4.2.17箭头所指的方向做外插(extrapolation)。为便于叙述,引入一个坐标系,其中横向为x轴,纵向为y轴,定义当前宏块左上角像素的坐标为(0,0),用p(x,y)表示位于坐标(x,y)处的33个邻近像素值,其中H对应p(x,-1),x=0,1,2,…,15,V对应p(-1,y),y=0,1,2,…,15,而左上角处的邻近像素值为p(-1,-1)。预测值用predL(x,y)(x,y=0,1,2,…,15)表示,则平面预测模式的步骤及公式如下:

第88页/共491页

(1)计算中间变量H和V:(4.2.18)第89页/共491页

(2)计算中间变量a、b、c:

a=16×[p(-1,15)+p(15,-1)]

b=(5×H+32)>>6

c=(5×V+32)>>6

(3)计算预测值predL(x,y):

predL(x,y)=Clipl{[a+b×(x-7)+c×(y-7)+16]>>5} (x,y=0,1,2,…,15)其中Clipl(x)代表将x箝位于0到255之间,即

(4.2.19)第90页/共491页

2)Intra4×4帧内预测模式在Intra4×4帧内预测模式下,编码器将当前宏块16×16的luma分量划分为16个4×4的块,然后根据每个4×4块周围的邻近像素对该块做预测。一般来说,对一块像素做预测,其上、下、左、右的像素都应当作为参考,但由于编码顺序的原因,H.264只选择了13个像素作为参考,这13个邻近像素与当前块的位置关系如图4.2.18中的A~Q所示。第91页/共491页图4.2.18Intra4×4预测的邻近像素第92页/共491页同Intra16×16模式一样,在开始预测之前,首先需判断A~Q这些参考像素是否可用,如果有些参考像素不可用,那么有些预测模式也就不能用了。前已提及,编码器端用于预测的参考数据是经过反变换与反量化后的重建图像,所以判断的主要依据就是看这些像素是否在当前的4×4块之前已经完成编码,即是否已经是经过重建了的图像。对于宏块内序号为3和11的4×4块,由于它们的E~H参考像素所在的4×4块(序号分别为4和12)尚未编码,因此它们的E~H参考像素是不可用的。另外,如果E~H不可用而D是可用的,则用D来替代E~H并将E~H标记为可用。第93页/共491页在决定了哪些参考像素可用后,就可以通过它们产生预测值了。H.264一共定义了9种Intra4×4预测方式,除了DC方式(模式2)之外,其它8种都是向某一个方向上进行预测,也就是做外插。这8个预测方向和预测的方式如图4.2.19和图4.2.20所示。由图可以看出,如果某一块区域内的像素值呈现出一种方向性,那么选用与这个方向相近的某个预测方式,将会达到较好的预测效果。第94页/共491页图4.2.19Intra4×4的8个预测方向第95页/共491页作为空间相关性的一种表现,在空间上相邻的块的预测模式也是相近的,所以对于Intra4×4预测,H.264并不直接编码各个块的预测模式,而是根据当前块左边和上边块的预测模式对当前块的预测模式进行估计,只有当前块的预测模式和这个估计出来的预测模式不相同时才额外传送当前块的预测模式。第96页/共491页

3)色差分量的帧内预测色差分量的帧内预测针对的是当前宏块的两个8×8的色差分量Cr和Cb,共有4种模式,两个chroma分量采用相同的预测模式,预测对两个分量分别进行,预测的范围是整个8×8的色差分量。预测的参考像素是同一个chroma分量的周围17个像素,如图4.2.21所示,图中白色部分代表当前chroma分量,灰色部分代表参考像素。第97页/共491页图4.2.21色差分量的8×84种帧内预测模式第98页/共491页预测的过程与Intra16×16的基本相似。首先判断这17个参考像素的可用性,然后进行预测。这里仅说明DC模式的预测过程。图4.2.21最左边的是DC模式的示意图,图中S0~S3代表所处4个像素的平均值,a~b是4个4×4的块,它们的预测值要由S0~S3的可用性来决定。表4.2.3显示了该模式的预测过程。在表4.2.3中,每个块的预测都从最左端的一栏开始,如果预测公式所涉及到的S不可用,则转至右边的一栏。例如,如果S0和S3可用而S1和S2不可用,则a~d的预测分别采用Pred1、Pred3、Pred0和Pred2中的公式。第99页/共491页第100页/共491页

2.帧间预测与以往的标准一样,H.264使用运动估计和运动补偿来消除时间冗余,但是它具有以下四个不同的特点:

(1)预测时所用块的大小可变。在基于块的运动模型中,假设块内的所有像素都做了相同的平移,但在运动比较剧烈或者运动物体的边缘处这一假设会与实际有较大出入,从而导致较大的预测误差,这时减小块的大小可以使假设在小的块中依然成立。另外,小的块所造成的块效应相对也小,所以,一般来说,小的块可以提高预测的效果。第101页/共491页为此,H.264一共采用了16×16、8×16、16×8、8×8、4×8、8×4和4×47种方式对一个宏块进行分割,每种方式下块的大小和形状都不相同,这就使编码器可以根据图像的内容选择最好的预测模式。与仅使用16×16块进行预测相比,使用不同大小和形状的块可以使码率节省15%以上。第102页/共491页

(2)更精细的预测精度。在H.264中,luma分量的运动矢量使用1/4像素精度。chroma分量的运动矢量由luma分量的运动矢量导出,由于chroma分辨率是luma的一半(对4∶2∶0),因此其运动矢量精度将为1/8,也就是说,1个单位的chroma分量的运动矢量所代表的位移仅为chroma分量取样点间距离的1/8。如此精细的预测精度较之整数精度可以使码率节省超过20%。第103页/共491页

(3)支持多参考帧预测,即可以有多于1个(最多5个)的在当前帧之前解码的帧作为参考帧产生对当前帧的预测。这适用于视频序列中含有周期性运动的情况。采用这一技术,可以改善运动估计(ME)的性能,提高H.264解码器的错误恢复能力,但同时也增加了缓存的容量以及编/解码器的复杂性。但是H.264的提出是基于半导体技术的飞速发展的,因此上述两个负担在不久的将来会变得微不足道。较之只使用1个参考帧,使用5个参考帧可以节省码率5%~10%。第104页/共491页

(4)支持抗块效应滤波器。抗块效应滤波器的作用是消除经反量化和反变换后重建图像中由于预测误差产生的块效应,即块边缘处的像素值跳变,从而改善图像的主观质量,减少预测误差。H.264中的抗块效应滤波器还能够根据图像内容做出判断,只对由于块效应产生的像素值跳变进行平滑,而对图像中物体边缘处的像素值不连续给予保留,以免造成边缘模糊。经过滤波后的图像将根据需要放在缓存中用于帧间预测,而不是仅仅在输出重建图像时用来改善主观质量,也就是说,该滤波器位于解码环中而非解码环的输出外,因而它又称做LoopFilter(环路滤波器)。需要注意的是,对于帧内预测,使用的是未经过滤波的重建图像。第105页/共491页4.2.6量化与编码由于图像信号的强相关性,DPCM系统的预测误差在统计上有一个明显的特点,即它的概率分布高度集中在0及其附近的一个不太大的范围内,并随着误差绝对值的增加,出现概率迅速下降。图4.2.22中粗实线所示的是实测的预测误差概率分布,细实线表示的是理想的Laplace分布。第106页/共491页图4.2.22预测误差概率分布第107页/共491页通过前面的分析知道,如果把预测误差不经量化,精确地传到接收端,可以无失真地复原原始PCM信号。这样的编码方式叫做信息保持型预测编码,属于纯碎的冗余度压缩编码,在图像数据压缩过程中并不丢失任何信息。但是,主观实验表明,对于由人眼观看的电视图像,预测误差没有必要绝对精确地传到接收一方,可以对它再经过一次量化,适当降低精确度,从而获得进一步的码率压缩。这样,虽然量化误差的引入会造成图像一定程序的客观失真,但是,如果能够把量化误差限制到主观视觉不能觉察的程度,则并不影响图像的主观质量。所以,量化器是利用主观视觉特点挖掘压缩潜力的工具。第108页/共491页对于图4.2.22所示的概率分布,最适宜采用低端密分层、高端稀分层的非均匀(非线性)量化。因为在这种情况下,为了获得同样的主观图像质量,采用非均匀量化要比均匀(线性)量化节省量化级数。图4.2.23所示为一条非均匀量化特性曲线。与预测误差的分布相适应,非均匀量化特性曲线的低端密分层、高端稀分层,从而在有限的量化层数下,能够保证出现的量化误差大部分都是小误差,因而降低平均误差幅度。这种非均匀量化特性与人的主观视觉特性也是相适应的。生理、心理学实验发现,人眼对图像中误差的发现能力受“掩盖效应”的影响。掩盖效应是指人眼对图像中量化误差的敏感程度,它与存在这种误差的图像局部信号变化的剧烈程度(活动性)有关。第109页/共491页变化越剧烈,量化误差越容易被“掩盖”,不易被察觉。由于视觉的这一特点,对于同样大小的量化误差,出现在图像内容变化剧烈的轮廓和边缘处要比出现在图像内容缓慢变化的平坦区较能忍受,不易被发现。另外,在图像轮廓处,信号变化剧烈,不容易预测准确,预测误差大。因此,可以利用预测误差作为图像局部“活动性”的一种标志,用来描写图像局部信号变化的剧烈程度。将上述两方面结合起来可以得到这样的结论:对于小的预测误差,量化分层要密,因为它主要出现在图像平坦区,量化误差容易被察觉;对于大的预测误差,量化分层可以稀一些,因为它一般发生在轮廓或边缘处,由于掩盖效应,故允许存在较大的量化误差。显然,这里得出的结论与根据预测误差分布所考虑的非均匀量化特性的安排趋势是一致的。第110页/共491页图4.2.23非均匀量化第111页/共491页早期的非均匀量化器设计多采用最小均方量化误差准则,但这种设计的量化器往往是低端分层过密、高端分层过稀,与主观视觉特性不太匹配,不能达到最佳效果。近年来,被认为效果最好的量化器设计方法是利用主观实验进行优化设计的方法。这种设计方法首先利用主观实验测出人眼对不同预测误差幅值(代表图像局部活动性大小)下刚刚不能发现的量化误差的大小,得到一条“量化误差的可觉察门限”曲线;然后根据这条曲线选取量化器的电平,使可能产生的最大量化误差刚刚处于可觉察门限之下,从而保证在重建图像具有很高的主观质量的前提下,把所需要的量化层数减到最小。下面举例说明一实用量化器。量化器输入、输出及编码出端数据如表4.2.4所示,这是一个非均匀量化器,量化曲线如图4.2.23所示。第112页/共491页第113页/共491页采用固定字长编码的好处是设备简单,若要进一步压缩码率,则要采用变字长编码。经过非均匀量化后的预测误差的概率分布较量化前要平坦些,但基本上仍保持着中间高两边低的形状。小的误差出现机会多要指定短的码字,大的误差出现机会少要指定长的码字,从而降低平均码长。为了得到最短的平均码长,必然要使码长的分配与不同大小误差信号出现的概率相匹配,这就需要采用前面介绍的统计编码,如Huffman编码。第114页/共491页4.2.7图像帧间编码中的运动处理方法

1.运动处理原理在图像帧间编码中运动处理主要有两个过程:运动估计(MtionEstimation,ME),它是对运动物体的位移作出估计,估计出运动物体从上一帧到当前帧的位移方向和位移量,也即估计出运动矢量;运动补偿(MotionCompensation,MC),它是按照运动矢量将上一帧作位移,求出当前帧的运动结果。第115页/共491页运动处理原理框图如图4.2.24所示。在当前帧fn(x,y)和前一帧fn-1(x,y)之间作运动估计,通过匹配搜索产生运动矢量,用这个运动矢量将前一帧中的匹配块移位,求得当前帧的估计值,这个估计值和当前帧的差值为,将en(x,y)送去量化编码后传输,同时传输的还有运动矢量。接收端根据收到的运动矢量和差值en(x,y),即可由前一帧重建当前帧。可见,此运动估计是帧间运动处理中的关键步骤,其目的是利用其结果作运动补偿,以获得尽可能小的预测误差,提高压缩比。第116页/共491页图4.2.24运动处理原理框图第117页/共491页

2.运动位移算法电视信号的帧内编码是利用图像信号的空间相关性实现信息压缩,而帧间编码则是利用图像信号在时间轴上的相关性来实现信息压缩。统计测量表明,当景物不含剧烈运动、不发生场景切换以及摄像机不作明显运动(如推镜头(zooming)、摇镜头(panning))时,电视信号的帧差信号(相邻帧间空间位置对应的像素差值)比帧内相邻像素间的差值信号具有更为尖锐的、以0为中心的Laplace分布,即表现出更强的相关性。可视电话、电视会议由于场景中主要是不多的人物活动,其活动范围和运动速度均不大,因此,与广播电视信号相比,其帧间相关性更强些。第118页/共491页

但是,由于电视信号中运动事件的存在,直接利用帧差信号编码也会带来一些问题。当场景中有快速运动物体存在时,由空间几何位置对应的像素值相减得到的帧差信号的幅度会剧烈增加。如图4.2.25所示,第K-1帧里,中心点为(x1,y1)的运动物体,若在第K帧移动到中心点为(x1+dx,y1+dy)的位置,其位移矢量D=(dx,dy)T。如果直接求两帧间的差值,则第K帧的(x1+dx,y1+dy)点(运动物体)与第K-1帧的对应点(背景部分)间相关性极小,所得差值幅度很大。与此同时,第K帧的(x1,y1)点(背景部分)与第K-1帧的对应点(运动物体)求差值,也会出现同样的问题。但是,若能对运动物体的位移量进行运动补偿,即在图4.2.25中将第K帧(x1+dx,y1+dy)点的运动物体移回到(x1,y1)点,再与第K-1帧求差值,显然会使相关性增大,差值信号减小,从而提高压缩比。为了实现这一目的,必须事先估测场景中运动物体的位移量,即进行运动位移估值。第119页/共491页图4.2.25运动物体的帧间位移第120页/共491页在电视信号编码方面,运动位移估值的两个主要应用是运动补偿帧间预测和运动自适应帧内插。如上所述,借助运动位移估值得到的物体帧间位移矢量进行运动补偿后再作帧间预测,可使预测误差(帧差信号)明显下降。运动自适应帧内插在低码率视频编码中对提高图像质量起着重要作用,如在可视电话编码系统中,通过降低发送端传送的帧频来降低传输码率(例如,隔帧传送),末传输的图像帧在接收端则由已传输的处于该帧前和该帧后的两个图像帧的内插来恢复。采用运动自适应帧内插可以避免或减轻内插帧运动物体的图像模糊程度。第121页/共491页运动自适应帧内插还可以应用于标准电视和高清晰度电视的接收系统,用来提高显示帧频,降低闪烁效应。图4.2.26说明了运动自适应帧内插的原理,其中第K-1帧和第K+1帧是传输帧,第K帧是内插帧。按照一般的线性内插算法,第K帧内位于(x1,y1)的像素要由第K-1帧和第K+1帧的同样处于(x1,y1)的像素值内插获得。显然,这样要引起图像模糊,因为这是将运动物体上的像素值和静止背景上的像素值作混合平均。为了在内插帧中正确地恢复运动物体,必须考虑运动位移,即进行运动补偿。如图4.2.26所示,在第K-1帧中,中心位于(x1,y1)的运动物体在第K+1帧中运动到了(x1+dx,y1+dy)。第122页/共491页因此,在内插帧第K帧中,该运动物体的中心应处在处,即该帧中位于处的像素值应由第K-1帧中位于(x1,y1)的像素和第K+1帧中位于(x1+dx,y1+dy)的像素内插得到。不难理解,运动自适应帧内插对运动位移估值提出了比运动补偿帧间预测更高的要求,它希望得到的位移估值应尽量接近物体的真实运动,而不只是在某种准则函数值最小(或最大)意义上的最优。第123页/共491页图4.2.26运动自适应帧内插示意图第124页/共491页

3.块匹配运动位移估值实际物体的运动是十分复杂的三维运动,既有平动,又有转动,如果再考虑到物体的非刚性和运动中光照的变化,则运动模型的建立和运动参量的估值将变得十分复杂。在电视图像编码中,基于实时运算的要求,在目前所采用的运动估值算法中仅考虑物体运动在电视画面内的平动部分。目前,在图像编码领域使用的运动估值算法有块匹配法、像素递归法、相位相关法以及针对由摄像机运动引起图像全局运动的全局运动参数估值等。其中块匹配法是最常用的一种方法,在活动视频编码的国际标准H.261、CCIR723、MPEG-1、MPEG-2中都采用此法作运动估值(尽管有的未明确规定)。第125页/共491页块匹配法将当前帧划分成尺寸为M×N

像素的一个个像块,并假设一个像块内所有的像素作速度相同的平移运动。对当前帧中的第K帧中的每像块B,在以前帧的对应位置为中心,上、下、左、右四个方向偏开相等距离dm的范围内,即(M+2dm)×(N+2dm)个像素的搜索区内进行搜索,寻求与其最匹配的像块B′。这一对像块在水平和垂直方向的距离即是求得的运动位移矢量(dx,dy)。图4.2.27显示出了M×N像块与搜索区的关系。衡量最佳匹配的准则有很多种,如均方误差(MSE)、归一化互相关函数(NCCF)、平均绝对帧差(MAD)等。研究表明,各种准则性能差别不显著。第126页/共491页图4.2.27M×N像块与搜索区关系示意图第127页/共491页

(1)最小均方误差(MSE)定义为

(4.2.20)第128页/共491页

(2)平均绝对帧差(MAD)定义为

(4.2.21)式(4.2.20)和式(4.2.21)中:SK(m,n)为第K帧位于(m,n)的像素值;i、j分别为水平和垂直方向的偏移量,取值范围为-dm≤i,j≤dm。由于最小均方差值(MSE)准则运算量大,硬件实现困难,因此在实际中并不常用。常用的是MAD最小准则,其计算中没有乘法运算,运算量小,实现简单。第129页/共491页

4.块匹配法的快速搜索最细致的搜索方法是全搜索,即在搜索区内逐点搜索,每搜一点计算一次MAD,当MAD达到最小值时,求得最佳匹配像块。全搜索法需要计算MAD的次数是(M+2dm)×(N+2dm),当图像空间分辨率高、运动速度快、需大范围搜索时,其运算量是相当大的,为了实时运算,必须采取并行处理。为了减少搜索次数,提出了多种快速搜索算法,如三步法、正交搜索法、共轭方向法、二维对数法等。这些快速搜索算法的共同之处在于它们把使准则函数(如MAD)趋于极小的方向视为最小失真方向,并假定准则函数在偏离最小失真方向时是单调增加的,即认为它在整个搜索区内是(i,j)的单极点函数,有唯一极小值,而快速搜索是从任一猜测点开始的最小失真方向进行的。因此,这些快速搜索算法在实质上都是统一的梯度搜索法,所不同的是搜索路径和步长有所区别。第130页/共491页以下借助图4.2.28说明三步法的搜索过程。第一步,以搜索区最大搜索长度的一半为步长,以起始点(i,j)为中心,计算中心点及其周围邻近的8个方向共9个搜索点的MAD值;第二步,如找到某个点MAD最小,再以该点为中心,步长减为原来的一半,依次类推。在图4.2.28中,设点(i+3,j+3)在第一步中通过MAD准则检验,它的MAD值最小,而被视为位移矢量的一级近似。再围绕点(i+3,j+3)周围搜索8个点,搜索间隔缩小一些,找到二级近似点(i+3,j+5)。如此一直重复直到所要求的精度为止。在最大搜索位移为±6,要求位移估值精度为一个像素时,经过三步得到最终的位移矢量。图4.2.28中,最终得到的最佳匹配像块的位移在(i+2,j+6),三次搜索步长分别为3、2、1。显然,随着所要求的搜索范围的扩大和估值精度的提高,这种搜索方式的步骤可以不止三步,而做相应的增加。第131页/共491页图4.2.28三步法的搜索过程第132页/共491页图4.2.29共轭方向法的搜索过程第133页/共491页图4.2.29所示为简化的共轭方向搜索过程。第一步从点(i,j)开始,计算MAD(i-1,j)、MAD(i,j)、MAD(i+1,j),若算得MAD(i+1,j)为最小,则再计算MAD(i+2,j),且找出MAD(i,j)、MAD(i+1,j)、MAD(i+2,j)三者中之最小者。以这种方法处理直至最小值处在所比较的三个点的中间位置上时在i方向上的搜索停止,并在这个方向上得到一个MAD最小值。图4.2.29中这个点处在(i+2,j)处。第二步从点(i+2,j)开始,采用与第一步同样的步骤,在j方向寻找MAD最小值。图4.2.29中最终找到的最小值处在点(i+2,j+5),从而求得所估计的位移矢量。第134页/共491页

在几种快速搜索方法中,三步法的计算次数较多,但位移矢量的估计精度也较高。表4.2.5中列出了几种典型快速搜索方法的搜索次数,其中dm为最大搜索位移,并设水平方向和垂直方向的最大搜索位移相同。为了进行对比,表4.2.5中列出了全搜索的最大搜索次数和最大搜

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论