版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6章多媒体数据压缩技术【教学内容】1.多媒体数据压缩编码的必要性、可能性和压缩方法的分类;2.量化;3.统计编码;4.变换编码;5.多媒体数据压缩编码国际标准。【教学目的与要求】数字化后的音频和视频等媒体信息具有数据海量特性,与当前硬件技术所能提供的计算机存储资源和网络带宽之间有很大差距(虽然现在的存储器的容量越来越大),解决这一问题的关键技术就是数据压缩技术,即多媒体数据压缩编码的必要性。由于数据中存在着大量的冗余,所以多媒体数据压缩才是可行的。介绍常用的编码方法,数据压缩编码的国际标准:JPEG、MPEG等。1.熟练掌握:多媒体数据压缩编码的必要性、可能性;哈夫曼编码;JPEG压缩编码。2.掌握:量化;统计编码;变换编码。一般了解:压缩编码的分类;多媒体数据压缩编码的其他国际标准,如MPEG-1,MPEG-2,MPEG-4,MPEG-7等;【考核知识点】多媒体数据压缩编码的必要性;多媒体数据压缩的可行性;哈夫曼编码、算术编码的基本原理;数据压缩编码的国际标准:JPEG、MPEG的基本原理。随着通信、计算机和大众传播这三大技术更紧密的融合,计算机已不局限于数值计算、文字处理的范畴,同时成为处理图形、图像、文字和声音等多媒体等多种信息的工具。数字化后的视频和音频等媒体信息具有数据海量性,与当前硬件技术所能提供的计算机存储资源和网络带宽之间有很大差距,可以通过数据压缩技术解决该关键问题。在多媒体计算机技术的发展与进步的进程中,数据压缩技术扮演着举足轻重的角色。本章重点介绍一些重要的压缩编码方法,也介绍现有的多媒体数据压缩的国际标准:JPEG、MPEG、H.21、H.23可视通信的国际标准。这些压缩算法和国际标准可以广泛地应用于多媒体计算机、多媒体数据库、常规电视数字化、高清电视(HDTV)以及交互式电视(InteractiveTV)系统中。目前,正在开展应用的项目有:可视电话、视频会议、多媒体电子邮件、音频、视频点播和IP电话等。6.1多媒体数据压缩技术概述6.1.1多媒体数据压缩编码的必要性由于媒体元素种类繁多、构成复杂,即数字计算机所要处理、传输和存储等对象为数值、文字、语言、音乐、图形、动画、静态图像和电视视频图像等多种媒体元素,并且使他们在模拟量和数字量之间进行自由转换、信息吞吐、存储和传输。目前,虚拟现实技术要实现逼真的三维空间、3D立体声效果和在实境中进行仿真交互,带来的突出的问题是媒体元素数字化后数据量大得惊人。在前几章中曾介绍过诸如声音、图像等信号的海量表现,下面不妨再举几个例子说明:(1)陆地卫星的水平、垂直分辨率分别为3240和2340,4波段、采样精度为7位,那么一幅图像的数据量为2340×3240×7×4/8=26.5MB,按每天30幅计算,每天的数据量就有26.5×30=795MB,每年的数据量高达283GB。(2)高保真立体声音频信号的采样频率为44.1kHz、16位采样精度,一分钟存储量为10.34MB。一片CD-ROM(存储量为650MB)可存放约63分钟的音乐。如果使用48kHz采样频率的话,需要的存储量就更大了。(3)数字电视图像(InternationalConsultativeCommitteeForRadio,ICCR)格式,PAL制式、8:8:8采样,每帧数据量为720×576×3=1.19MB;每秒的数据量为1.19×25=29.75MB;一片CD-ROM只能存放650÷1.19=546帧图像,或一片CD-ROM可存储节目的时间为650÷29.75=21.85秒。从以上的例子可以看出,数字化信息的数据量十分庞大,无疑给存储器的存储量、通信干线的信道传输率以及计算机的速度都增加了极大的压力。如果单纯靠扩大存储器容量、增加通信干线传输率的办法来解决问题是不现实的。通过数据压缩技术可以大大降低数据量,以压缩的形式存储和传输,既节约了存储空间,又提高了通信干线的传输效率,同时也使计算机得以实时处理音频、视频信息,保证播放出高质量的视频和音频节目。6.1.2多媒体数据压缩的可能性(可行性)经研究发现,与音频数据一样,图像数据中存在着大量的冗余。通过去除那些冗余数据可以极大地降低原始图像数据量,从而解决图像数据量巨大的问题。图像数据压缩技术就是研究如何利用图像数据的冗余性来减少图像数据量的方法。因此,进行图像压缩研究的起点是研究图像数据的冗余性。(1)空间冗余。在静态图像中有一块表面颜色均匀的区域,在这个区域中所有点的光强和色彩以及色饱和度都相同,具有很大的空间冗余。这是由于基于离散像素采样的方法不能表示物体颜色之间的空间连贯性导致的。(2)时间冗余。电视图像、动画等序列图片,当其中物体有位移时,后一帧的数据与前一帧的数据有许多共同的地方,如背景等位置不变,只有部分相邻帧改变的画面,显然是一种冗余,这种冗余称为时间冗余。(3)结构冗余。在有些图像的纹理区,图像的像素值存在着明显的分布模式。例如,方格状的地板图案等,称此为结构冗余。如果已知分布模式,就可以通过某一过程生成图像。(4)知识冗余。对于图像中重复出现的部分,我们可以构造出基本模型,并创建对应各种特征的图像库,进而使图像的存储只需要保存一些特征参数,从而可以大大减少数据量。知识冗余是模型编码主要利用的特性。(5)视觉冗余。事实表明,人的视觉系统对图像的敏感性是非均匀性和非线性的。在记录原始的图像数据时,对人眼看不见或不能分辨的部分进行记录显然是不必要的。因此,大可利用人的视觉的非均匀性和非线性,降低视觉冗余。(6)图像区域的相同性冗余。它是指在图像中的两个或多个区域所对应的所有像素值相同或相近,从而产生的数据重复性存储,这就是图像区域的相似性冗余。在以上的情况下,当记录了一个区域中各像素的颜色值,则与其相同或相近的其他区域就不需要记录其中各像素的值。采用向量量化(Vectorquantization)方法就是针对这种冗余性的图像压缩编码方法。随着对人的视觉系统和图像模型的进一步研究,人们可能会发现图像中存在着更多的冗余性,使图像数据压缩编码的可能性越来越大,从而推动图像压缩技术的进一步发展。6.1.3多媒体数据压缩方法的分类多媒体数据压缩方法根据不同的依据可产生不同的分类。1.第一种分类方法是根据解码后数据是否能够完全无丢失地恢复原始数据,可分为两种:(1)无损压缩:也称为可逆压缩、无失真编码、熵编码等。工作原理为去除或减少冗余值,但这些被去除或减少的冗余值可以在解压缩时重新插入到数据中以恢复原始数据。它大多使用在对文本和数据的压缩上,压缩比较低,大致在2:1~5:1之间。典型算法有:哈夫曼编码、香农-费诺编码、算术编码、游程编码和Lenpel-Ziv编码等。(2)有损压缩:也称不可逆压缩和熵压缩等。这种方法在压缩时减少了数据信息是不能恢复的。在语音、图像和动态视频的压缩中,经常采用这类方法。它对自然景物的彩色图像压缩,压缩比可达到几十倍甚至上百倍。什么是熵?数据压缩不仅起源于20世纪40年代由ClaudeShannon首创的信息论,而且其基本原理即信息究竟能被压缩到多小,至今依然遵循信息论中的一条定理,这条定理借用了热力学中的名词“熵”(Entropy)来表示一条信息中真正需要编码的信息量:考虑用0和1组成的二进制数码为含有n个符号的某条信息编码,假设符号Fn在整条信息中重复出现的概率为Pn,则该符号的熵也即表示该符号所需的位数位为:En=-log2(Pn)整条信息的熵也即表示整条信息所需的位数为:E=∑En举个例子,对下面这条只出现了a、b、c三个字符的字符串:Aabbaccbaa字符串长度为10,字符a、b、c分别出现了5、3、2次,则a、b、c在信息中出现的概率分别为0.5、0.3、0.2,他们的熵分别为:Ea=-log2(0.5)=1Eb=-log2(0.3)=1.737Ec=-log2(0.2)=2.322整条信息的熵也即表达整个字符串需要的位数为:E=Ea*5+Eb*3+Ec*2=14.855位回想一下如果用计算机中常用的ASCII编码,表示上面的字符串我们需要整整80位呢!现在知道信息为什么能被压缩而不丢失原有的信息内容了吧。简单地讲,用较少的位数表示较频繁出现的符号,这就是数据压缩的基本准则。我们该怎样用0、1这样的二进制数码表示零点几个二进制位呢?确实很困难,但不是没有办法。一旦我们找到了准确表示零点几个二进制位的方法,我们就有权利向无损压缩的极限挑战了。第二种分类方法是按照压缩技术所采用的方法来分的,如P111表6-1所示:表6-1多媒体数据编码算法分类PCM自适应式、固定式多媒体数据编码算法预测编码自适应式、固定式(DPCM、ΔM)混合编码变换编码傅里叶、离散余弦、离散正统、哈尔、斜变换、沃尔-哈达马、卡胡南-劳夫(K-L)、小波统计编码(熵编码)哈夫曼编码、算术编码、费诺编码、香农编码、游程编码(RLE)、LZW静态图像编码方块、逐渐浮现、逐层内插、比特平面、抖动电视编码帧内预测帧间编码运动估计、运动补偿、条件补充、内插、帧间预测其他编码矢量量化、子带编码、轮廓编码、二值图像实际上连续模拟信号进行数字采样表示时,通常采用奈斯特采样速率。若量化器为N级,即N=2b,则每一个采样的样本用b位的二进制代码表示。在信号的量化中,每一色彩分量一般用8位表示。PCM编码器和解码器位于一个图像编码系统的起点和终点,它们实际上分别是A/D转换器和D/A转换器,以下所讨论的压缩技术编码方法都是在多媒体数据模拟信号经过编码后再进行的。2.第二种分类方法是按具体编码算法来分:(1)预测编码(PredictiveCoding,PC):这种编码器记录与传输的不是样本的真实值,而是真实值与预测值之差。对于语音,就是通过预测去除语音信号时间上的相关性;对于图像来讲,帧内的预测去除空间冗余、帧间预测去除时间上的冗余。预测值由预编码图像信号的过去信息决定。由于时间、空间相关性,真实值与预测值的差值变化范围远远小于真实值的变化范围,因而可以采用较少的位数来表示。另外,若利用人的视觉特性对差值进行非均匀量化,则可获得更高压缩比。(2)变换编码(TransformCoding,TC):在变换编码中,由于对整幅图像进行变换的计算量太大,所以一般把原始图像分成许多个矩形区域,对子图像独立进行变换。变换编码的主要思想是利用图像块内像素值之间的相关性,把图像变换到一组新的“基”上,使得能量集中到少数几个变换系数上,通过存储这些系数而达到压缩的目的。采用离散余弦编码DCT变换消除相关性的效果非常好,而且算法快速,被普遍接受。(3)统计编码:最常用的统计编码是哈夫曼编码,出现频率大的符号用较少的位数表示,而出现频率小的符号则用较多位数表示,编码效率主要取决于需要编码的符号出现的概率分布,越集中则压缩比越高。哈夫曼编码可以实现熵保持编码,所以是一种无损压缩技术,在语音和图像编码中常常和其他方法结合使用。6.2量化通常量化是指模拟信号到数字信号的映射,它是模拟量转化为数字量必不可少的步骤。由于模拟量是连续的,而数字量是离散量,因此量化操作实质上是用有限的离散量代替无限的连续模拟量的多对一映射操作。6.2.1比特率比特率是采样率和量化过程中使用的比特数的产物。用例子说明更容易理解,电话通信中,语音信号的带宽约3kHz,根据奈奎斯特定理,意味着采样频率应不低于6kHz。为了留下一定余量可选择标准采样频率为8kHz,使用一个8位的量化器,那么该电话通信所要求的比特率为:8K×8=64Kb/s。比特率是数据通信的一个重要参数。公用数据网的信道传输能力常常是以每秒传送多少Kb或多少Gb信息量来衡量的。P112表6-2列出了电话通信、远程会议通信(高音质)、数字音频光盘(CD)和数字音频带(DAT)等几类应用中比特率的相关比较。表6-2数字音频格式比较应用类型采样频率(kHz)带宽(kHz)频带(Hz)比特率(kb/s)电话8.03.0200~320064远程会议16.07.050~7000256数字音频光盘44.120.020~200001410数字音频带48.020.020~200001536信息量与数据量的关系:I=D-duI:信息量;D:数据量;du:冗余量6.2.2量化原理量化处理是使数据比特率下降的一个强有力的措施。脉冲编码调制(PCM)的量化处理在采样之后进行,从原理分析的角度看,图像灰度值是连续的数值,而我们实际看到的是用0~255的整数表示的图像灰度,这是经过A/D转换后的以256级灰度分层量化处理了的离散数值,这样就可以用㏒2256=8位表示一个图像像素的灰度值。或色差信号值,假设是彩色图像。我们所讨论的多媒体数据压缩编码中的量化,是指以PCM码作为输入,经正交变换、差分或预测处理后,在熵编码之前,对正交变换系数、差值或预测误差的量化处理。量化输入值的动态范围很大,需要以多的比特数表示一个数值,量化输出只能取有限个整数,称作量化级,一般希望量化后的数值用较少的比特数就可以表示。每个量化输入被强行归一到与其接近的某个输出,即量化到某个级。量化处理总是把一批输入量化到一个输出级上,所以量化处理是一个多对一的处理过程,一般是个不可逆过程,量化处理中有信息丢失,即会引起量化误差或量化噪声。6.2.3标量量化器的设计1.量化器的设计要求通常设计量化器有下述两种情况:(1)给定量化分层级数,满足量化误差最小。(2)限定量化误差,确定分层级数,满足用尽量小的平均比特数表示量化输出的要求。显然,这是一对相互矛盾的要求,设计量化器只能折衷处理。2.量化方法和量化特性量化方法有标量量化和矢量量化之分,标量量化又可分为均匀量化、非均匀量化和自适应量化。P113图6-1画出了一个标量量化过程的示意图。图6-1中的a区是待量化的函数,是一幅图像的灰度差值图。设其灰度值范围为0~255,从而使灰度差的范围为-255~255,需要㏒2512=9位表示一个输入,当限定量化输出级m=8时,那么量化输出仅用㏒28=3位表示就可以了,这时出现大量化级到小量化级的对应问题。图6-1中的b区画出了“均匀量化”处理的量化箱示意图。当m=8,共有W1,W2,W3,……,W8,8个等宽的量化箱,量化箱的宽度和等于输入的动态范围-255~255,也就是说把-255~255数分成8等份。每一等份对应一个量化箱,第k等份的量化值以该量化箱的中心值为准,在该量化箱内所有的输入均被定义为k级。图6-1中的c区的量化箱不等宽,中间大概率处的箱窄,两边小概率处的箱宽,表示不均匀量化。同样被量化为8级,c区的量化误差小于b区。量化器的量化特性曲线,有多种多样,P114图6-2给出一个8级均匀量化特性曲线,图6-3给出一个非均匀量化特性曲线。数据压缩技术中一个关键问题是量化器的设计和量化特性的选择。因为量化是一个有信息丢失的不可逆过程。量化器的好坏,不仅直接影响数据压缩率,而且量化误差对解压缩后的恢复图像的质量有很大影响。比如,斜率过载、颗粒噪声、边缘繁忙、假轮廓等现象都会使图像产生不愉快的视觉效果。自适应量化器,可以弥补上述缺点。6.2.4矢量量化矢量量化编码是近年来图像和语音信号编码技术中颇为流行的一种新型量化编码方法,一般是有失真的编码方法。矢量量化的名字是相对于标量量化而提出的。对于PCM数据,一个数一个数进行量化叫标量量化。若对这些数据分组,每组K个数构成一个K维矢量,然后以矢量为单元,逐个矢量进行量化,称矢量量化。矢量量化可以更有效地提高压缩比。以P114图6-4矢量量化编码、解码原理框图说明矢量量化的优越性。图中输入量是一个待编码的K维矢量,即先将输入图像分割成m个方块,每个块的尺寸为n2,然后把每一个方块以列(行)堆叠成K(K=n2)维矢量,作为编码输入矢量。码本C是一个具有N个K维矢量的集合,C={yi},i=1,2,……,N。码本C实际是一个长度为N查找表,这个查找表的每一个分量就是一个K维矢量yi,称为码字。在接收端和发送端各有完全相同的码本C。矢量量化编码过程就是从码本C中搜索一个与输入矢量最接近的码字yi的过程。想在码本C中找到一个完全一致的码字的概率是很小的,一般在可接受的误差范围内就可以算匹配成功,即用该码字yi代表输入矢量。传输时并不传送码字yi本身,而只传其下标号“i”。当码本长度为N,为传送下标所需要的比特数为㏒2N。传送一个像素所需的平均比特数为·㏒2N。可见,矢量量化的关键问题是设计一个良好的码本。6.3统计编码数据压缩技术的理论基础是信息论。根据信息论的原理,可以找到最佳数据压缩编码方法,数据压缩的理论极限是信息熵。如果要求在编码过程中不丢失信息量,即要求保存信息熵,这种信息保持编码又称作熵保存编码,或者叫熵编码。熵编码是无失真数据压缩,用这种编码结果经解码后无失真地恢复出原图像。当考虑到人眼对失真不易觉察的生理特征时,有些图像编码不严格要求熵保存,信息可允许部分损失以换取高的数据压缩比,这种编码是有失真数据压缩,通常运动图像的数据压缩是有失真编码,这就是著名的香农(Shannon)率失真理论,即信息编码率与允许的失真关系的理论。信息量和信息熵信息是用不确定性的量度定义的。一个消息的可能性越小,其信息越多;消息的可能性越大,其信息越少。在数学上,所传输的消息是其出现概率的单调下降函数。所谓信息量是指从N个相等可能事件中选出一个事件所需要的信息度量或含量,也就是在辨认N个事件中特定的一个事件的过程中所需要提问“是或否”的最少次数。例如,要从64个数中选定某一个数,可以先提问“是否大于32”,不论回答是或否都消去了半数的可能事件,这样继续部下去,只要提问6次这类问题,就能从64个数中选定某一个数。这是因为每提问一次都会得到1比特的信息量。因此在64个数中选定某个数所需要的信息量是:lb64=6(b)信息论把一个事件(字符xi)所携带的信息量定义为:I(xi)=-log2P(xi)i=1,2,…,n其中P(xi)为事件发生(字符出现)概率,I(xi)即信源X发出xi时所携带的信息量。信源X发出的xi(i=1,2,…,n),共n个随机事件的自信息统计平均(求数学期望),即H(X)=E{I(xi)}=·I(xi)=-·log2P(xi)H(X)在信息论中称为信源X的熵(Entropy),它的含义是信源X发出任一个随机变量的平均信息量。熵的大小与信源的概率模型有着密切的关系。6.3.1哈夫曼编码香农的信息保持编码只是指出存在一种无失真的编码,使得编码平均码长逼近熵值这个下限,但它并没有给出具体的编码方法。信息论中介绍了几种典型的熵编码方法,如Shannon编码法、Fano编码法和Huffman编码法,其中尤其以哈夫曼编码法为最佳,在多媒体编码系统中常用这种方法作熵保持编码。哈夫曼编码方法于1952年问世。迄今为止,仍经久不衰,广泛应用于各种数据压缩技术中,且仍不失为熵编码中的最佳编码方法。Huffman编码法利用了最佳编码定理:在变字长码中,对于出现概率大的信息符号以短字长编码,对于出现概率小的信息符号以长字长编码。如果码字长度严格按照符号概率的大小的相反顺序排列,则平均码字长度一定小于按任何其他符号顺序排列方式得到的码字长度。哈夫曼编码方法的具体步骤归纳如下:(1)概率统计(如对一幅图像,或m幅同种类型图像作灰度信号统计),得到n个不同概率的信源信息符号。(2)将信源信息符号的n个概率,按概率大小排序。(3)将n个概率中的最后两个小概率相加,这时概率个数减为n-1个。(4)将n-1个概率按大小重新排序。(5)重复步骤(3),将新排序后的最后两个小概率再相加,相加所得到的和与其余概率再排序。(6)如此反复重复n-2次,最后只剩下两个概率序列。(7)以二进制码元(0,1)赋值(如大概率用“0”表示,小概率用“1”表示),构成哈夫曼字,至此编码结束。例:设有7个符号的信源X={x1,x2,x3,…,x7},概率分布为P=P(xi){0.35,0.20,0.15,0.10,0.10,0.06,0.04},做出哈夫曼编码。码字的平均码长用下面公式计算===(0.35+0.20)×2+(0.15+0.10+0.10)×3+(0.06+0.04)×4=2.55bits/pel哈夫曼码字长度和信息符号出现概率大小次序正好相反,即大概率信息符号分配码字长度短,小概率信息符号分配码字长度长。6.3.2算术编码*(专科)1.算术编码基本原理算术编码方法比哈夫曼编码、游程编码等熵编码方法都复杂,但是它无需传送像哈夫曼编码的哈夫曼码表,同时算术编码还有自适应能力的优点,所以算术编码是实现高效压缩数据中很有前途的编码方法。算术编码从全序列出发,采用递推形式的连续编码。它不是将单个信源符号映射成一个码字,而是将整个输入符号序列映射为实数轴上的[0,1]区间内的一个间隔,其长度就等于该序列的概率,并在该间隔内选择一个代表性的二进制小数,作为实际的编码输出,使其平均码长逼近信源的熵,从而达到高效编码的目的。2.例子由于算术编码复杂且原理不是上面讲得那么简单,所以用一个具体例子加以说明。设输入数据为eaiou,其出现概率和所设定的取值范围如下:字符:aeiou概率:0.20.30.10.20.2范围:[0,0.2][0.2,0.5][0.5,0.6][0.6,0.8][0.8,1.0]“范围”给出了字符的赋值区间,该区间是根据字符发生的概率划分的。至于把某个具体字符分配在哪个区间范围,对编码本身没有影响,只要保证编码器和译码器对字符的概率区间相同即可。设high为编码间隔的高端,显然high=1;low为编码间隔的低端,low=0;range为编码间隔的长度,range=high-low;rangelow为编码字符分配的间隔低端;rangehigh为编码字符分配的间隔高端。于是一个字符编码后,新的low和high按下式计算:Low=low+range×rangelowhigh=low+range×rangehigh(1)在第一个字符e被编码时,e的rangelow=0.2,rangehigh=0.5,因此按照以上介绍的公式:Low=low+range×rangelow=0+1×0.2=0.2high=low+range×rangehigh=0+1×0.5=0.5range=high-Low=0.5-0.2=0.3此时分配给字符e的范围为[0.2,0.5]。(2)第二个字符a编码时使用新生成范围[0.2,0.5],a的rangelow=0,rangehigh=0.2。则Low=low+range×rangelow=0.2+0.3×0=0.2High=low+range×rangehigh=0.2+0.3×0.2=0.26range=high-Low=0.26-0.2=0.06此时分配给a的范围为[0.2,0.26]。(3)第三个字符i编码时用新生成的范围,i的rangelow=0.5,rangehigh=0.6,则:Low=low+range×rangelow=0.2+0.06×0.5=0.23High=low+range×rangehigh=0.2+0.06×0.6=0.236range=high-Low=0.236-0.23=0.006(4)第四个字符o编码,o的rangelow=0.6,rangehigh=0.8,则:Low=0.23+0.006×0.6=0.2336High=0.23+0.006×0.8=0.2348range=high-Low=0.2348-0.2336=0.0012此时分配给o的范围为[0.2336,0.2348]。(5)第五个字符u编码时,u的rangelow=0.8,rangehigh=1.0,,则:Low=0.2336+0.0012×0.8=0.23396High=0.2336+0.0012×1.0=0.2342此时分配给u的范围为[0.23396,0.2342]。编码结果如P117表6-3。表6-3输入字符的算术编码结果输入lowhighrangee0.20.50.3a0.20.260.06i0.230.2360.006o0.23360.23480.0012u0.233960.2342随着字符的输入,代码的取值范围越来越小,当字符串eaiou被全部编码后,其范围在[0.23396,0.2342]内,即在此范围内的数值代码都唯一地对应于字符串eaiou。我们可以取这个区间的下限0.23396作为对源数据流eaiou进行压缩编码后的输出代码。于是,可以用一个浮点数表示一个字符串,达到少占存储空间的目的。(6)译码的时候又是如何处理呢?译码过程的实现比较简单。以上例为例,根据上面给定字符的概率和取值范围,对代码0.23396进行译码,步骤如下:=1\*GB3①根据代码所在范围确定当前代码的第一个字符,并输出。由于0.23396在[0.2,0.5]的范围内,所以,代码对应的第一个字符是e。输出字符e。=2\*GB3②用0.23396减去e发生在概率取值的下限0.2,使代码变为0.03396,再除以e范围的宽度0.5-0.2=0.3,得到0.1132,落入区间[0,0.2],所以对应后续字符为a。=3\*GB3③转到=2\*GB3②,将0.1132作为代码继续确定下一个译码字符的范围。重复上述步骤直到整个字符串处理完毕为止。所以,有人说算术编码是“向极限挑战”。6.3.3游程编码在一幅图像中具有许多颜色相同的图块,如:一行上有许多连续的像素都具有相同的颜色,甚至许多行上的颜色都相同。所以在存储彩色时,只需存储一个像素的颜色,然后再存储具有相同颜色的像素数目或者相同颜色的行数,这样势必可以大大压缩数据量。这种压缩编码称为游程编码(RunLengthEncoding,RLE)。简单的说RLE压缩就是将一串连续的相同数据转化为特定的格式达到压缩数据量的目的。例如,有一幅灰度图像,第n行的像素值如P118图6-6所示。用RLE编码方法得到的代码为:80315084180。代码中加下划线表示的数字是行程长度,其后面不加下划线的数字代表像素的颜色值。如,有下划线的50表示有连续50个像素具有相同颜色值8。上例中,用游程编码的11个代码表示原来的73个代码,压缩比达到了7:1。可见RLE确实是一种实现起来简单、还原后得到的数据与压缩前的数据完全相同的无损压缩技术。但是RLE所能获得的压缩比有多大,主要取决于图像本身的特点。如果图像中具有相同颜色的图像块越大,图像块数目越少,获得的压缩比就越高;反之,压缩比就越小。对于重复色彩特别少的图像,如果仍然使用RLE编码方法,不仅不能压缩图像数据,反而可能使原来的图像数据变得更大。不过RLE编码技术仍可以和其他编码技术联合应用。6.4变换编码预测编码是一种较好地去除音频、图像信号相关性的编码技术,而变换编码也可以有效地去除图像信号的相关性,而且其性能还往往优于预测编码。6.4.1变换编码的基本原理变换编码不是直接对空域图像信号编码,而是首先在数据压缩前对原始输入数据作某种正交变换,把图像信号映射变换到另外一个正交向量空间,产生一批变换系数,然后再对这些变换系数进行编码处理。它首先在发送端将原始图像分割成n个子图像块,每个子图像块经过正交变换、滤波、量化和编码后经信道传输到达接收端,接收端做解码、逆变换、综合拼接,恢复出空域图像。P119图6-7给出了过程示意图。数字图像信号经过正交变换为什么能压缩数据量呢?举一个简单例子说明:一时域三角函数y(t)=Asin2πft,当t从-∞到+∞变化时,y(t)是一个正弦波。假如将其变换到频域表示,只需幅值A和频率f两个参数就足够了,可见y(t)在时域描述,数据之间的相关性大,数据冗余度大;而转到频域描述,数据相关性大大减少,数据冗余量减少,参数独立,数据量减少。再如,有两个相邻的数据样本x1与x2,每个样本采用3位编码,因此各有23=8个幅度等级。而两个样本的联合事件,共有8×8=64种可能,可用P120图6-8(a)的二维平面坐标表示。其中x1轴与x2轴分别表示相邻两样本可能的幅度等级。对于慢变信号,相邻两样本x1与x2同时出现相近幅度等级的可能性较大。因此,如图6-8(a)阴影区内450斜线附近的联合事件的出现概率也就越大,将阴影区之边界称为相关圈,信源的相关性越强,则相关圈越扁;反之,圈越圆。为了对圈内各点的位置进行编码,就要对两个差不多大的坐标值分别进行编码。当相关性越弱时,此相关圈就越显圆形状,说明x1处于某一幅度等级时,x2可能出现在不相同的任意幅度等级上。现在对该数据对进行正交变换,从几何上相当于坐标系逆时针转过450,变成y1、y2坐标系,如P120图6-8(b)所示,此时相关圈正好y1坐标轴下。且该圈越扁长,它在y1上的投影就越大,面在y2上的投影就越小。因而从y1、y2坐标来看,任凭y1在较大范围内变化,而y2却可以“岿然不动”或只有“微动”。这就意味着变量y1、y2之间在统计上更加相互独立。因此,通过这种坐标系旋转变换,就能得到一组去掉大部分甚至全部统计相关性的另一种输出样本。由此可知,正交变换实现数据压缩的本质在于:经过坐标系适当的旋转和变换,能够把散布在各个坐标轴上的原始数据,在新的、适当的坐标系中集中到少数坐标轴上,因而可用较少的编码位数来表示一组信号样本,实现高效率的压缩编码。变换编码技术已有近30年的历史,理论较完备,技术上比较成熟,广泛应用各种图像数据压缩,诸如单色图像、彩色图像、静止图像、运动图像,以及多媒体计算机技术中的电视帧内图像压缩和帧间图像压缩等。正交变换的种类很多,如傅里叶(Fouries)变换、沃尔什(Walsh)变换、哈尔(Haar)变换、斜(slant)变换、余弦变换、正弦变换、K-L(Karhunen-Loeve)变换等。6.4.2最佳的正交变换——K-L变换离散Karhunen-Loeve(K-L)变换是以图像的统计特性为基础的一种正交变换,也称为特征向量变换或主分量变换。主分量变换技术早在1933年就被霍特林(Hotelling)发现,他曾对这种正交变换作深入的分析。当今在图像处理书中提到的霍特林变换、K-L变换,其实所指的是同一种正交变换方法——主分量法。K-L变换从图像统计特性出发用一组不相关的系数来表示连续信号,实现正交变换。K-L变换使向量信号的各个分量互不相关,因而在均方误差准则下,它是失真最小的一种变换,故称为最佳变换。虽然K-L变换是最佳正交变换方法,但是由于它没有通用的变换矩阵,因此,对于每一个图像数据都要计算相应的变换矩阵,计算量相当大,很难满足实时处理的要求,所以在实际应用中很少用K-L变换对图像数据进行压缩。由于它的“最佳”特性,所以常作为对其他变换技术性能的评价标准。K-L变换的压缩性能是:对语音而言,用K-L变换在13.5Kb/s下得到的语音质量可与56Kb/s的PCM编码相比拟;对图像来讲,2位/pixel的质量可与7位/pixel的PCM编码相当。6.4.3离散余弦变换余弦变换是傅里叶变换的一种特殊情况。在傅里叶级数展开式中,如果被展开的函数是实偶函数,那么,其傅里叶级数只包含余弦项,再将其离散化,由此可导出余弦变换,或称之为离散余弦变换(discretecosinetransform,DCT)。将众多的正交变换技术比较后,人们发现离散余弦变换编码DCT与K-L变换性能最接近,而该算法的计算复杂度适中,又具有算法快速的特点,所以近来的图像数据压缩中采用离散余弦变换编码方法受到重视,特别是20世纪90年代迅速崛起的计算机多媒体技术中,JPEG、MPEG、H.261等压缩标准,都用到离散余弦变换编码进行数据压缩。DCT变换原理:DCT是一种正交变换,它将信号从空间域变换到频率域。在频率域中,大部分的能量集中在少数几个低频系数上,而且代表不同空间频率分量的系数间的相关性大为减弱,只利用几个能量较大的低频系数就可以很好地恢复原始图像,见附图1。对于其余的那些低能量系数,可允许其有较大的失真,甚至可以将其设置为0,这是DCT能够进行图像数据压缩的本质所在。DCT可分为一维离散余弦变换、二维离散余弦变换、借助傅里叶变换(FFT)实现离散余弦变换、二维快速离散余弦变换等。6.4.4变换后的压缩经过正交变换后,进一步的数据压缩依靠区域滤波,匹配主观视觉特性的量化和变字长编码。1.区域滤波和量化区域滤波是一个简单的数据压缩方法,它将经过某种正交变换所得的系数矩阵分成几个区域,对每一区域按照空间频率的权重取一种量化级数,然后根据这个量化级数进行量化。另一种更细致的量化方法是根据视觉对图形的敏感程度(通过主观实验确定),对于变换系数矩阵中的每个变换系数分别乘以一个视觉加权系数,由这一系数决定分配编码量的多少。例如,MPEG-2采用8×8个DCT,则对应于64个变换系数,有一个8×8视觉加权矩阵。在对每个变换系数加权处理后,再统一采用一个通用的量化器进行量化。这一过程实际上相当于对不同的变换系数采用粗、细不同的量化。2.“0”的游程编码如P122图6-9所示,DCT变换后,变换系数矩阵中除主对角线外的元素很多是0,或接近于0,再加上视觉加权处理和量化,会产生更多的0。对于同一数据的成串出现最好使用游程编码。如果一行编码,0在对角线附近,编码过程就会断掉,一个游程就会结束,可以采用zig-zag扫描读取方式,如P122图6-9所示。6.5数据压缩编码国际标准从20世纪80年代开始,世界上已有几十家公司纷纷投入到多媒体计算机系统的研制和开发工作。20世纪90年代已有不少精彩的多媒体产品问世,诸如荷兰菲利浦和日本索尼联合推出的CD-I,苹果公司Macintosh为基础的多媒体功能的计算机系统,Intel和IBM公司联合推出的DVI。此外,还有Microsoft公司的MPC及苹果的QuickTime等,这些多媒体计算机系统各具特色,丰富多彩,竞争异常激烈。具有人机交互特色的多媒体技术,使计算机进入普通家庭,进入人们的生活、学习、娱乐及人们的精神生活领域。人们像使用家用电器一样地使用计算机。计算机能听懂人的话语;计算机成为能讲话的实用型产品进入市场,也为时不远了。Internet技术的迅猛发展与普及,推动了世界范围的信息传输和信息交流。在色彩缤纷、变幻无穷的多媒体世界中,用户如何选择产品,如何自由地组合、装配来自不同厂家的产品部件,构成自己满意的系统,这就涉及一个不同厂家产品的兼容性问题,因此需要一个全球性的统一的国际技术标准。国际标准化协会(InternationalStandardizationOrganization,ISO)、国际电子学委员会(InternationalElectronicsCommittee,IEC)、国际电信协会(InternationalTelecommunicationUnion,ITU)等国际组织及CCITT,于20世纪90年代领导制定了多个重要的多媒体国际标准。如H.261、H.263、JPEG和MPEG等标准。H.261是被可视电话、电视会议中采用的视频、图像压缩编码标准,由CCITT制定,1990年12月正式批准通过;JPEG是由ISO与CCITT成立的“联合图片专家组(JointPhotographicExpertsGroup,JPEG)”制定的,用于灰度图、彩色图的连续变化的静止图像编码标准,于1992年正式通过;MPEG是以H.261标准为基础发展而来的。它是由IEC和ISO成立的“运动图像专家组(MovingPictureExpertsGroup,MPEG)”制定的,于1992年通过了MPEG-1,并在后来的几年中,陆续推出了MPEG-2、MPEG-4、MPEG-7等标准。6.5.1JPEG国际通用的标准JPEG采用的算法称为JPEG算法,它是一个适用范围很广的静态图像数据压缩标准,既可用于灰度图像,也可以用于彩色图像。其目的是为了给出一个适用于连续色调图像的压缩方法,使之满足以下要求:=1\*GB3①达到或接近当前压缩比与图像保真度的技术水平,能覆盖一个较宽的图像质量等级范围,能达到“很好”到“极好”的评估,与原始图像相比,人的视觉难以区分。=2\*GB3②能适用于任何种类的连续色调的图像,且长宽比都不受限制,同时也不受限于景物内容、图像的复杂程度和统计特性等。=3\*GB3③计算的复杂性是可以控制的,其软件可在各种CPU上完成,算法也可用硬件实现。=4\*GB3④JPEG算法具有以下4种操作方式:第一,顺序编码每一个图像分量按从左到右,从上到下扫描,一次扫描完成编码;第二,累进编码图像编码在多次扫描中完成。累进编码传输时间长,接收端收到的图像是多次扫描由粗糙到清晰的累进过程;第三,无失真编码无失真编码方法,保证解码后,完全精确地恢复源图像采样值,其压缩比低于有失真压缩编码方法;第四,分层编码图像按多个空间分辨率进行编码。在信道传输速率慢或接收端显示器分辨率不高的情况下,只需做低分辨率图像解码,也就是说,接收端可以按显示分辨率有选择地解码。JPEG压缩是有损压缩,它利用了人的视觉系统的特性,去掉了视觉冗余信息和数据本身的冗余信息。在压缩比为25:1的情况下,压缩后的图像与原始图像相比较,非图像专家难辨“真伪”。JPEG算法框图如P123图6-10所示。JPEG压缩编码全过程可分成7个步骤(以基于离散余弦变换DCT的有失真编解码为例):1.使用正向离散余弦变换(FDCT)把图像的空间域表示转换成频率域表示对每个单独的彩色图像分量,把整个分量图像分成8×8图像块,如图6-10所示,并作为二维离散余弦变换DCT的输入。通过DCT变换,把能量集中在少数几个频率系数上,频率系数可表示为F(u,v)。计算方法可参见相关文献资料,基本上使用傅里叶变换。2.使用加权函数对FDCT系数进行量化这种量化是对经过FDCT变换后的频率系数进行加权量化,这个加权函数对于人的视觉系统是最佳的。量化的目的是减小非0系数的幅度,以及增加0值系数的数目,量化处理是一个多到一的映射,它是图像质量下降的最主要原因。在JPEG标准中采用线性均匀量化器,量化定义为64个DCT系数除以量化步长,4舍5入取整。对于有损压缩算法,JPEG算法使用如图6-10(a)所示的均匀量化器进行量化,量化步距是按照系数所在的位置和每种颜色分量的色调值来确定。因为人眼对亮度信号比对色差信号更敏感,因此使用了两种量化表:一种是色度量化值,另一种是亮度量化值。3.Z字形编排量化后的DCT系数要重新编排,这样做可以增加连续的0系数的个数,也就是说尽量增加0游程长度,最好的办法是采用“Z字蛇形”矩阵,如P124表6-6所示。这样可把8×8的矩阵变成一个1×64的矢量。表6-6Z字型排列顺序01561415272824713162629423812172530414391118243140445310192332394552542022333846515560213437475056596135364849575862634.使用差分脉冲编码调制(DPCM)对直流系数(DC)进行编码8×8的图像块经过前几步的变换之后得到的“直流系数”有两个可利用的特点:其一,是系数的数值比较大;其二,相邻图像块系数数值变化不大。5.使用游程编码(RLE)对交流系数(AC)进行编码量化的“交流系数”特点是1×64矢量中包含有许多0,并且0是连续的,因此使用游程编码方法最能解决问题了。JPEG使用了1个字节的高4位表示连续0的个数,而使用低4位表示编码0后面紧跟的非0系数所需占用的位数,跟在它后面的就是量化AC的数值。6.熵编码可变长度的哈夫曼码表在这儿得到了应用。它在压缩数据符号时,对出现频度比较高的符号分配比较短的代码,而对出现频度较低的符号则分配比较长的代码。这样就达到对DPCM编码后的DC和RLE编码后的AC作了进一步的压缩。在JPEG有损压缩算法中,使用哈夫曼编码器来减少熵。使用哈夫曼编码器的理由是可以使用很简单的查表(LookupTable)方法进行编码。7.组成位数据流JPEG编码的最后一个步骤是把各种标记代码和编码后的图像数据组成一帧一帧的数据,便于传输、存储和译码器进行译码。MPEGISO和CCITT于1988年成立了“运动图像专家组(MPEG)”,研究制定了视频及其伴音国际编码标准。MPEG阐明了声音电视编码和解码过程,严格规定声音和图像数据编码后组成位数据流的句法,提供了解码器的测试方法等。其最初标准解决了如何在650MB光盘上存储音频和视频信息的问题,但是,它又保留了充分的可发展的余地,使得人们可以不断地改进编、解码算法,以提高声音和电视图像的质量以及编码效率。目前为止,已经开发的MPEG标准有以下几种:MPEG-1:1992年正式发布的数字电视标准;MPEG-2:数字电视标准;MPEG-3:于是1996年合并到高清晰度电视(HDTV)工作组;MPEG-4:1999年发布的多媒体应用标准;MPEG-7:多媒体内容描述接口标准,目前还在研究中。1.MPEG-1的视频压缩标准运动图像专家组在1991年11月提出了“用于数据速率大约高达1.5Mb/s的数字存储媒体的电视图像和伴音编码”,作为ISO11172号建议,于1992年通过,习惯上通称MPEG-1标准。这个标准主要是针对当时具有这种数据速率的CD-ROM开发的,用于在CD-ROM上存储数字影视和传输数字影视,PAL制为352×288pixel/frame×25frame/s,NTSC制为352×240pixel/frame×30frame/s。MPEG-1主要用于活动图像的数字存储,它包括MPEG-1系统、MPEG-1视频、MPEG-1音频、一致性测试和软件模拟等5个部分。以下重点放在MPEG视频和音频压缩技术上。(1)MPEG-1系统:将视频信号及其伴音可以接收的重建质量压缩到约1.5Mb/s的码率,并复合成一个单一的MPEG位流,同时保证视频和音频的同步。因此,在MPEG系统中定义了时间标志,解决了接收端图像与声音由于时延不同造成的“不同步”现象。(2)MPEG-1视频:用于满足日益增长的多媒体存储与表现的需求,即以一种通用格式在不同的数字存储介质如VCD、CD、DAT、硬盘和其他光盘中表示压缩的视频。该压缩算法采用3个基本技术:运动补偿预测编码、DCT技术和变字长编码技术。其中最独树一帜的是运动补偿内插技术,使编码效率显著提高,可把数据压缩到25~200倍。1)MPEG-1视频压缩的特点MPEG视频压缩技术,为满足应用需要,须具有以下特点:=1\*GB3①随机存取随机存取是存储媒体上视频信息必不可少的特性。随机存取要求能在被压缩的视频位流中间进行存取,并且能在限定的时间内对视频的任一帧进行解码。随机存取意味着存在可随机存取的单元,即某段信息编码的结果仅与该段自身的信息有关。在质量不下降的前提下,随机存取时间大约可达0.5s。=2\*GB3②快速正向/逆向搜索根据存储媒体的特点,对压缩数据流可进行扫描(可借助于应用规定的目录结构)和利用合适的存取点来显示所选择的图像,以实现正向快速搜索和逆向快速搜索。=3\*GB3③逆向重播交互式的应用有时需要视频信号能够逆向重播,但是并非所有的应用都需要在逆向重播时保持完好的画面质量。=4\*GB3④视听同步视频信号应该准确地与相关的音频信号同步。如果音频和视频信号分别由两个存在稍大差别的时钟产生,那么就会不同步,此时应该提供一个机制,使这两个信号能持久地重新同步。同步特性是由MPEG小组提出的。MPEG小组定义一个用于多音频、视频信号同步和合成的工具或手段。=5\*GB3⑤容错性大多数数字存储介质和通信并非都不产生错误,所以希望有一个合适的信道编码方案能适用于多种应用,并且要求这种编码方案对残缺的未被校正的误差有强的鲁棒性(robustness。健壮性,稳健性,坚固性,稳定性),即使在有误差的情况下,也能避免编码失败。=6\*GB3⑥编/解码延迟在视频电话的应用中,必须能够保证系统的延迟时间低于150ms,以保证这种面对面进行对话的应用质量要求。在出版应用中,可以允许一个较长的延迟,这种情况要求编、解码延时不超过1s。传输质量和延迟在一个相当的范围内是可以折中考虑的,因此压缩算法应在可接受的延迟范围内可充分地被执行。所以延迟时间被看作是一个阈值参数来设定。除以上所述的特点之外,还要求视频压缩技术具有可编辑性和灵活格式,运用计算机视频窗口技术,以支持各种格式,允许各种光栅尺寸(视频屏幕的宽、高)和帧速率等。同时要求编码方案的实时完成,解码器尽可能地用少量的芯片来实现,以控制生产成本不致过高。2)MPEG-1视频压缩策略MPEG-1视频压缩技术是针对运动图像的数据压缩技术。为了提高压缩比,帧内图像数据压缩和帧间图像数据压缩技术必须同时使用。帧内压缩算法与JPEG压缩算法大致相同,采用基于DCT的变换编码技术,用以减少空域冗余信息。帧间压缩算法采用预测和插补法,预测法有因果预测器(纯粹的预测编码)和非因果预测,即插补编码。预测误差可再通过DCT变换编码处理,进一步压缩。帧间编码技术可减少时间轴方向的冗余信息。=1\*GB3①去时域冗余由于MPEG对视频信号作随机存取的重要要求,以及通过帧间运动补偿可有效地压缩数据比特数,MPEG采用了3种类型的图像:帧内图(intrapictures,I),预测图(predictedpictures,P)和插补图,即双向预测图(bidirectionalprediction,B)。帧内图可以提供随机存取的存取位置,但压缩比不大;帧内插补可减少时域的冗余信息。帧间预测编码时,要用到先前(过去)的图(帧内图或预测图),当前的预测图通常又作为后面(将来)的预测图的参考值;双向预测图的数据压缩效果最显著,但是它在预测时需要先前和后续的信息,另外,双向预测图不能作为其他图的预测参考图。帧内图(I)和预测图(P)及双向预测图(B)沿时间轴上的顺序排列如下图所示:IBBPBBPBBPBBPBBIBBPBBPBBPBBPBB附图I、P、B排列顺序MPEG中这些图的组织结构是十分灵活的,它们的组合可由应用规定的参数决定,如随机存取和编码延迟等。A、运动补偿运动补偿是减少帧序列冗余信息的有效办法。运动补偿是基于16×16子块的算法,每个子块可作为一个二维的运动矢量处理。运动补偿实际是一种广义上的预测技术,它适用于单纯性预测(因果预测)和非因果预测(插补)。运动补偿预测是以子块(16×16)为预测单元,把当前子块认为是先前某一时刻图像子块的位移,位移的内容包括运动方向和运动幅度。所以运动补偿预测是用先前(过去)的局部图像来预测当前的局部图像,16×16的运动矢量块是预测误差,它必须进行编码、传送,供解码时恢复图像用。运动补偿中的非因果性预测,即插补编码是基于时间轴上的多分辨率技术,是对时间轴(帧序列方向)方向上低分辨率的子信号进行编码。比如NTSC制式,通常仅对帧率为1/2(15帧/秒)或帧率为1/3(10帧/秒)的低分辨率图像进行编码,然后作图像插值及附加校正,最后得到满分辨率的图像信号。插值法重建满分辨率图像信号的方法是,把校正信息加到前面和后面参考图像组合而成的。运动补偿插补编码,也称为双向预测编码。通过双向预测编码,可以获得一个高的压缩比。一个电视图像的帧序列中,不能全部是插补图B。B图必须由参考图进行插补,参考图可以是帧内图(I)或预测图(P),B图不能作为参考图。在两个参考图之间出现双向预测图B的频度是可选择的。当增加参考图之间B图的数目时,将会减少B图与参考图之间的相关性。B图数目的选择与被编码的图像景物有依赖性,对大多数景物来说,参考图以大约1/10秒的间隔隔开较为合适。由于I图、P图、B图三者之间存在因果关系,如第4帧的P图是由第1帧的I图预测;第1帧I图和第4帧P图共同预测出它们之间的双向预测B图,所以接受端解码器的输入(发送端编码器的输出),不能按照时间的顺序,而是按照以下的排列顺序:IPBBPBBPBBPBBIBB…这种帧图排列顺序完全符合解码需要。解码器的输出,又恢复为附图所示编码器输入顺序显示。B、运动表示MPEG标准中,运动补偿估算是基于16×16的块为单元表示的。这样的补偿单元称为宏块。宏块有不同的类型。比如在双向预测图(B)的每个16×16的宏块,可以是帧内型的、前向预测型的、后向预测型的或者是平均型的。对于一个给定的宏块,其预测器的表达式取决于参考图(前向和后向)和运动矢量。不同区域宏块的运动矢量可有不同的选择,运动矢量的范围是基于帧间图像的时间分辨率和块内图像的时间分辨率,以及帧序列图像的性质而选定。当两个16×16宏块所包含的画面内容在待送中完全静止不动,那么宏块的运动矢量为零(宏块坐标没有改变)。对于每个16×16宏块的运动信息与其相邻块之间可作不同的编码处理。采用宏块运动补偿方法,可减少电视图像帧间完整图像传送帧数,去除冗余信息,获取高压缩比和重建良好图像质量的压缩效果。C、运动估算运动的估算涉及从视频序列中抽取运动信息所使用的一整套技术。MPEG标准说明了怎样表示运动信息,根据运动补偿的类型:前向预测、后向预测和前后向预测,每个16×16的宏块中可包含有一个或两个运动矢量,然而MPEG标准并没有说明运动矢量的求取方法。但是由于基于块的运动表示算法,按照尽量减小匹配误差的方法来获得运动矢量。这个匹配误差可由一个表示该块与每个预测的候选块之间的不匹配程度的代价函数来测量。=2\*GB3②去空域冗余电视图像的帧内图像和预测误差信号都有很高的空域冗余信息。可用于减少空域冗余信息的技术很多,MPEG优先考虑了基于块的技术。在基于块的空间冗余技术领域中,变换编码技术和矢量量化编码技术是两种可选用的方法。离散余弦变换(DCT)编码有明确的优点和相对简单的实现方法,由DCT技术与视觉加权标量量化及行程编码和熵编码技术,是被优先考虑的变换编码技术。MPEG标准用DCT技术进行帧内图像的数据压缩编码,与JPEG标准对静止图像的压缩编码和CCITT的H.261标准中,可视电话压缩编码处理方法是相同的。关于离散余弦变换(DCT)等虽然在6.5.1中曾简单介绍过,但由于它在MPEG中意义重大,所在这里进行较为详细的介绍。A、离散余弦变换(DCT)离散余弦变换是把一个8×8空间窗口(块)的图像采样数据,或者是预测误差数据,作离散余弦正交变换,得出64个变换系数。B、DCT系数的量化是一步关键的操作,因为量化器结合游程编码使大部分数据得以压缩。通过量化器的量化操作,使编码器的输出与给定的位速率相匹配。a、视觉加权量化量化误差的主观感觉随DCT系数的频率可有很大的变化,利用这一特性可对高频系数作比较粗的量化。精确的量化矩阵依赖于许多外部参数,诸如图像的显示特性,观察距离和源图像中的噪声数量,因此对某种应用或者甚至对一个单独的序列设计一个专用的量化矩阵是合理的。一个特别的矩阵可作为编码环境和压缩的视频数据一起存储。b、帧内块和非帧内块量化的比较对于来自帧内块的信号系统的量化,应不同于由预测或插补得来的信号的是化。帧内编码的块包括所有频率的能量,如果量化太粗的话,很有可能产生块效应。另外,预测误差类型的块主要包含高频,可作更粗的量化处理。假设编码过程可以精确地预测低频,那么预测误差信号的低频分量一定很小。假如不是这样,在编码时就要采用帧内块类型,帧内块类型与差分编码块类型的差别导致使用两种不同的量化器结构,虽然两种量化器都是接近均匀的量化器(有一个固定的步长),但它们在零附近的特性是不同的。帧内块量化器没有死区(即量化为零值的区域的步长要小,而帧外量化器有一个大的死区)。c、可调量化器并非所有的空间信息都能使人眼视觉系统产生同等的感觉,特别是对于那些信号变化梯度平稳的块,如果有一个非常小的误差,人眼就会觉察到块的边界(称为块效应或称为假轮廓),而对信号变化剧烈(包含边界)的块,视觉对误差的敏感察觉被掩盖。为了适应块之间信号的不均匀性,可在块与块的基础上对量化器的步长进行调节。这个机制也可用于对特定的位率提供非常平滑的自适应调整(称为速率控制)。C、熵编码为了进一步提高DCT固有的压缩性和减小运动信息对整个位率的影响,使用可变长度的码字进行编码(即变长码)。对DCT系数,使用一个类似哈夫曼的表,对相应于数对{行程,幅值}的符号进行编码。为了避免出现太长的符号,使用一个换码符后面跟随一个固定长度的码字。=3\*GB3③MPEG-1视频的分层结构MPEG-1视频图像数据流是一个分层结构,目的是把位流中逻辑上独立的实体分开,防止语意模糊,并减轻解码过程的负担。对分层的要求是支持通用性灵活性和有效性。MPEG标准的通用性可以用MPEG位流更好地说明。通用性的含义是使MPEG标准的语法规定可以满足不同的应用要求。比如存储在计算机硬盘上的视频信号的随机存取和可编辑性,随机存取和可编辑性需要许多存储点,具有一定时间间隔的图像组(例如6帧图,1/5s);并以固定数量的比特数进行编码,使可编辑性成为可能。编码单元是一组图,它的编码只用组内的参考图数据。对于有噪声信道上的传送,在信道上残留未校正的误差,为了提高鲁棒性(robustness。健壮性,稳健性,坚固性,稳定性),预测器经常复位,帧内和预测图像被分割成许多片段,另外为了支持在位流蹭中间的“调准”,要经常对视频序列的编码内容进行重复。MPEG标准的灵活性可通过视频序列头上所定义的许多参数来说明。虽然MPEG标准是针对位率约为1.5Mb/s、分辨率约为360像素/行,但更高的分辨率和更高的位率也是可行的。MPEG标准的有效性是MPEG压缩编码需要对附加信息,如位移域、量化器步长、预测器或插值类型等,提供有效的管理。MPEG视频位流分层结构共包括6层,每一层支持一个确定的函数,或者是一个信号处理函数(DCT,运动补偿),或者是一个逻辑函数(同步,随机存取点)等:图像序列层(随机存取单元:上下文)图像组层(随机存取单元:视频编码)图像层(基本编码单元)宏块片层(重同步单元)宏块层(运动补偿单元)块层(DCT单元)MPEG语法把MPEG位流定义为一个符合语法的二进制数字序列。另外,位流必须满足用一个合适大小的缓冲区来进行解码的要求。在解码器的输入端,设置一个尺寸适当的缓冲区,不能要求缓冲区的尺寸过分庞大,只要使位率和缓冲区大小匹配(既不溢出,又不浪费)便可。保证缓冲区大小给出了在视频缓冲区校验器环境内对位流进行解码必需的最小缓冲区的尺寸。(3)MPEG-1音频:规定声音数据的编码和解码。MPEG-1音频编码过程如下:输入的音频抽样被读入编码器;映射器建立经滤波的输入音频数据流的子带抽样表示,如在层1或层2是子带抽样,在3层则是经变换的子带抽样;心理声学模型建立一组控制量化和编码的数据;各子带系数经过量化和编码,再加上其他一些附加信息;最后形成已编码的数据流。有4种不同的编码模式:单声道、双声道、立体声和联合立体声。根据应用需求,可以使用不同层次的编码系统,编码器的复杂性和性能也随之变化。=1\*GB3①层1包括将数字音频变成32个子带的基本映射。将数据格式化成固定分段的块。决定自适应位分配的心理声学模型。利用块压扩和格式化的量化器。理论上,层1编/解码最小延迟为19ms。=2\*GB3②层2提供了位分配、缩放因子和抽样的附加编码,使用了不同的帧格式。这一层的最小编/解码延迟为35ms。=3\*GB3③层3采用混合带通滤波器来提高频率分辨率。它增加了差值量化(非均匀)、自适应分段和量化值的熵编码。这一层最小的编/解码的延迟为59ms。符合MPEG-1标准的编码器,是产生一个合乎MPEG-1标准的语法结构的MPEG-1位流的编码器。在多媒体存储介质上MPEG-1标准为视频信号规定了一个语法,以及与这个语法相关的含义,一个解码器能够对MPEG-1位流进行解码,产生的结果在解码过程所规定的可接受的范围内的解码器称为MPEG-1解码器。MPEG-1标准只规定了位流语法和解码过程,用户可很好地利用这个语法的灵活性来设计非常高质量的编码器和成本非常低的解码器。编码器的设计中有一些重要参数,如运动估算、自适应量化和位速率控制等可以由用户自由确定。当速率约为1.2Mb/s的用MPEG-1算法压缩的视频图像的质量相当于VHS(家用视频系统如大1/2标准)记录质量。空间分辨率限制为每视频扫描行有360个像素,并且在源编码器端的视频信号为30帧/秒,逐行扫描。对大多数原始图像内容,可得到无人工痕迹的图像质量。MPEG-1中视频序列参数的灵活性使之产生了许多特性,诸如支持很宽范围的空间和时间分辨率,能使用很大范围的位率。但是保证使用MPEG-1标准的设备之间的相互操作性更为重要,不能强迫设备厂商再建造一个额外设计的系统。由于这个原因,MPEG-1定义了参数空间的一个特殊的子集,它给出了MPEG-1标准主要目标内的一个较为合理的折中。MPEG-1标准的主要目标是要使编码的视频信号位率约为1.5Mb/s。MPEG-1标准是VCD工业标准的核心,现在已经进入千家万户,利用MPEG-1音频第3层的MP3音乐格式也备受青睐。(4)MPEG-1一致性测试:这一标准详细说明如何测试位数据流和解码器是否满足MPEG-1前3个部分中所规定的要求。这些测试可由厂商和用户实施。(5)MPEG-1性软件模拟:这一部分不是标准,而是技术报告,给出了软件执行MPEG-1标准前3部分的结果。2.MPEG-2数字电视标准MPEG-2的标准号为ISO/IEC13818,标准名称为“信息技术——电视图像和伴音信息通用编码”。MPEG-2于1994年11月正式被确定为国际标准。它是声音和图像信号数字化的基础标准,将广泛用于数字电视(包括高清晰度电视HDTV)及数字声音广播、数字图像与声音信号的传输,多媒体等领域。因而MPEG-2是十分重要的,也是非常成功的世界统一标准。MPEG-2标准是一个直接与数字电视广播有关的高质量图像和声音编码标准,MPEG-2视频利用网络提供的更高的带宽(1.5Mb/s以上)来支持具有更高分辨率图像的压缩和更高的图像质量。MPEG-2可以说是MPEG-1的扩充,这是因为它们的基本编码和算法都相同。与MPEG-1视频比较,MPEG-2可支持隔行扫描电视的编码,还提供了位速率的可变功能等,因而取得更好的压缩效率和图像质量。MPEG-2要达到的基本目标是:位速率为4Mb/s~9Mb/s,最高达15Mb/s。同MPEG-1标准一样,MPEG-2标准也包括系统、视频和音频等部分内容,具体说有:系统、视频、音频、一致性测试、软件模拟、数字存储体命令和控制扩展协议、先进声音编码、系统解码器实时接口扩展标准等10个部分。它克服并解决了MPEG-1不能满足日益增长的多媒体技术、数字电视技术对分辨率和传输率等方面的技术要求的缺陷。(1)MPEG-2系统:规定电视图像数据、声音数据及其他相关数据的同步性。其系统结构如P127图6-11所示。(2)MPEG-2视频:定义了不同的功能档次,每个档次又分为几个等级,用来适应不同应用的要求,并保证数据的可交换性。目前共有5个档次,依功能增强逐次为:简单型、基本型、信噪比可调型、空间可调型、增强型。4个等级为:=1\*GB3①低级(352×288×29.79,面向VCR并与MPEG-1兼容);=2\*GB3②基本级(720×460×29.79或720×576×25,面向NTSC或PAL制式的视频广播信号);=3\*GB3③高1440级(1440×1080×30或1440×1152×25,面向HDTV);=4\*GB3④高级(1920×1080×30或1920×1152×25,面向HDTV)。(3)MPEG-2音频:MPEG-2音频的基本特性之一是与MPEG-1音频向后(下)兼容,并且支持5.1或7.1声道的环绕立体声。5.1通道采用左、右声道、中置和后面两个环绕声通道,总共5个通道。“.1”是指LFE(LowFrequencyEffect)是低频音效的加强通道,也就是通常所说的加个“低音炮”。7.1通道环绕立体声比5.1还多出中左、中右2个喇叭通道。MPEG-2标准的功能是将一个或更多的音频、视频或其他的基本数据流合成单个或多个数据流,以适应存储和传送。符合MPEG-2标准的编码数据流,可以在一个很宽的恢复和接收条件下进行同步解码。MPEG-2系统支持5项基本功能:=1\*GB3①解码时多压缩流的同步;=2\*GB3②将多个压缩流交织成单个的数据流;=3\*GB3③解码时缓冲器初始化;=4\*GB3④缓冲区管理;=5\*GB3⑤时间识别。MPEG-2标准的压缩编码系统是将视频和音频编码算法结合起来而开发的。系统编码可有两种方法,其编码输出包括程序流和传送流两种定义流。程序流和MPEG-1系统定义的流相似;而传送流是一种用来传送和保存程序的编码数据或其数据的数据流。3.MPEG-4多媒体应用标准MPEG-2视频体系要求必须保证与MPEG-1视频体系向下兼容,并同时力求满足数字存储媒体、电视会议/可视电话、数字电视、高清晰度电视(HDTV)、广播、通信、网络等应用领域,对多媒体视频、音频通用编码方法日益增长的新需求。如分辨率要求有不同档次;压缩编码方法也要求对应于从简单到复杂有不同的等级。MPEG-4于1994年开始工作,它是为视听数据的编码和交互播放开发算法和工具,是一个数据速率很低的多媒体通信标准。MPEG-4的目标是要在异构网络环境下能够高度可靠地工作,并且具有很强的交互功能。为了达到这个目标,MPEG-4引入了对象基表达的要领,用来表达视听对象(AVO)。MPEG-4扩充了编码的数据类型,由自然数据对象扩展到计算机生成的合成数据对象,采用合成对象、自然对象混合编码算法。在实现交互功能和重用对象中引入了组合,合成和编排等重要要领。MPEG-4系统的构造如P127图6-12所示,接收端的构造部件如P128图6-13所示。MPEG-4由于适合在低数据传输速率场合下应用,所以它的应用领域主要在公用电话交换网、可视电话、电视邮件和电子报纸等。MPEG-4在扩展性上具有很好的灵活性,可进行时域和空域的扩展。可根据现场带宽和误码率的客观条件,在时域或空域进行扩展,时域扩展是在带宽允许时在基本层之上的增强层中增加帧率,在带宽窄的时候可以在基本层中减少帧频,以达到充分利用带宽,使图像质量更好;在空域扩展时是指对基本层中的图进行采样插值,增加或减少空间分辨率。4.MPEG-7多媒体内容描述接口如今,越来越多的声像信息以数字形式存储和传输,这为人们更灵活地使用这些信息提供了可能性。但随之而来的问题是,随着网络上信息爆炸性的增长,获取所感兴趣的信息的难度却越来越大。传统的基于关键字或文件名的检索方法显然不适于数据量庞大、又不具有天然结构特征的声像数据,因此近年来多媒体研究的一个热点是声像数据的基于内容的检索,例如“从这段新闻片中找出有克林顿的镜头”这种形式的检索。实现这种基于内容检索的一个关键性的步骤是要定义一种描述声像信息内容的格式,而这与声像信息的存储形式(编码)又是密切相关的。国际标准化组织ISO/IEC下辖的运动图像专家组MPEG注意到了这方面的需求和潜在的应用市场,在推出影响极大的MPEG-1、MPEG-2之后,尚未完成MPEG-4的最后定稿,便开始着手制定专门支持多媒体信息基于内容检索的编码方案:MPEG-7。MPEG-7作为MPEG家族中的一个新成员,正式名称叫做“多媒体内容描述接口(multimediacontentdescriptioninterface)”,还是以MPEG-1、MPEG-2、MPEG-4等标准为基础的,它将为各种类型的多媒体信息规定一种标准化的描述,这种描述与多媒体信息的内容本身一起,支持用户对其感兴趣的各种“资料”的快速、有效地检索。各种“资料”包括:静止图像、图形、音频、动态视频,以及如何将这些元素组合在一起的合成信息。这种标准化的描述可以加到任何类型的多媒
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- ISO∕IEC 42001-2023《信息技术-人工智能-管理体系》之7:“6策划-6.1 确定风险和机遇的措施”专业解读和实践应用指导材料(雷泽佳编制-2024C0)
- 《生产改革报告》课件
- 全麻手术后咽喉
- 音乐照护技术指导老年康体指导初级
- 医疗保险的道德风险道德风险的原因患者的道德风险疾病发生概
- 中国商贸文化专题七 商战
- 《适当运动与养生》课件
- 妇幼保健院医保科信息系统故障应急预案
- 《选择方案》课件
- 大学师资培训方案
- 2024-2030年中国房车行业竞争战略发展趋势预测报告
- 2023年8月26日事业单位联考C类《职业能力倾向测验》试题
- 2023年天津公务员已出天津公务员考试真题
- 施工现场临水施工方案
- 2022年公务员多省联考《申论》真题(四川县乡卷)及答案解析
- 艾滋病职业防护培训
- 全科医生转岗培训结业考核模拟考试试题
- 2025年高考数学专项题型点拨训练之初等数论
- 上海市浦东新区2024-2025学年六年级上学期11月期中数学试题(无答案)
- 吃动平衡健康体重 课件 2024-2025学年人教版(2024)初中体育与健康七年级全一册
- 通信技术工程师招聘笔试题与参考答案(某世界500强集团)2024年
评论
0/150
提交评论