版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多媒体技术一、多媒体技术(一)多媒体计算机的基本配置(及可选配置)一般来说,多媒体个人计算机(MPC)的基本硬件结构可以归纳为七部分:至少一个功能强大、速度快的中央处理器(CPU);可管理、控制各种接口与设备的配置;具有一定容量(尽可能大)的存储空间;高分辨率显示接口与设备;可处理音响的接口与设备;可处理图像的接口设备;可存放大量数据的配置等。这样提供的配置是最基本MPC的硬件基础,它们构成MPC的主机。除此以外,MPC能扩充的配置还可能包括如下几个方面:光盘驱动器:包括可重写光盘驱动器(CD-R)、WORM光盘驱动器和CD-ROM驱动器。其中CD-ROM驱动器为MPC带来了价格便宜的650M存储设备,存有图形、动画、图像、声音、文本、数字音频、程序等资源的CD-ROM早已广泛使用,因此现在光驱对广大用户来说已经是必须配置的了。而可重写光盘、WORM光盘价格较贵,目前还不是非常普及。另外,DVD出现在市场上也有些时日了,它的存储量更大,双面可达17GB,是升级换代的理想产品。音频卡:在音频卡上连接的音频输入输出设备包括话筒、音频播放设备、MIDI合成器、耳机、扬声器等。数字音频处理的支持是多媒体计算机的重要方面,音频卡具有A/D和D/A音频信号的转换功能,可以合成音乐、混合多种声源,还可以外接MIDI电子音乐设备。图形加速卡:图文并茂的多媒体表现需要分辨率高,而且同屏显示色彩丰富的显示卡的支持,同时还要求具有Windows的显示驱动程序,并在Windows下的像素运算速度要快。所以现在带有图形用户接口GUI加速器的局部总线显示适配器使得Windows的显示速度大大加快。视频卡:可细分为视频捕捉卡、视频处理卡、视频播放卡以及TV编码器等专用卡,其功能是连接摄像机、VCR影碟机、TV等设备,以便获取、处理和表现各种动画和数字化视频媒体。扫描卡:它是用来连接各种图形扫描仪的,是常用的静态照片、文字、工程图输入设备。打印机接口:用来连接各种打印机,包括普通打印机、激光打印机、彩色打印机等,打印机现在已经是最常用的多媒体输出设备之一了。交互控制接口:它是用来连接触摸屏、鼠标、光笔等人机交互设备的,这些设备将大大方便用户对MPC的使用。网络接口:是实现多媒体通信的重要MPC扩充部件。计算机和通信技术相结合的时代已经来临,这就需要专门的多媒体外部设备将数据量庞大的多媒体信息传送出去或接收进来,通过网络接口相接的设备包括视频电话机、传真机、LAN和ISDN等。(二)媒体播放器在WEB中的应用我们知道,由于声音点播和影视点播应用还没有完全直接集成到现在的Web浏览器中,这就需要一个单独的应用程序来帮助,通常我们使用媒体播放器(Mediaplayer)来播放声音和影视。典型的媒体播放器要执行好几个功能,包括解压缩、消除抖动、错误纠正和用户播放等功能。现在可以使用像插件这种技术把媒体播放器的用户接口放在Web客户机的用户界面上,浏览器在当前Web页面上保留屏幕空间,并且由媒体播放器来管理。目前,大多数客户机使用如下几种方法来读取声音和影视文件:通过Web浏览器把声音/影视从Web服务器传送给媒体播放器直接把声音/影视从Web服务器传送给媒体播放器直接把声音/影视从多媒体流放服务器传送给媒体播放器在这个过程中,媒体播放器的主要功能表现在如下四个方面:解压缩:几乎所有的声音和电视图象都是经过压缩之后存放在存储器中的,因此无论播放来自于存储器或者来自网络上的声音和影视都要解压缩。去抖动:由于到达接收端的每个声音信息包和电视图象信息包的时延不是一个固定的数值,如果不加任何措施就原原本本地把数据送到媒体播放器播放,听起来就会有抖动的感觉,甚至对声音和电视图象所表达的信息无法理解。在媒体播放器中,限制这种抖动的简单方法是使用缓存技术,就是把声音或者电视图象数据先存放在缓冲存储器中,经过一段延时之后再播放。错误处理:由于在因特网上往往会出现让人不能接收的交通拥挤,信息包中的部分信息在传输过程中就可能会丢失。如果连续丢失的信息包太多,用户接收的声音和图象质量就不能容忍。采取的办法往往是重传。用户可控制的接口:这是用户直接控制媒体播放器播放媒体的实际接口。媒体播放器为用户提供的控制功能通常包括声音的音量大小、暂停/重新开始和跳转等等。
二、数据压缩与解压缩常用算法(一)数据压缩方法的分类数据压缩实际上是一个编码过程,即将原始数据进行编码压缩。数据解压缩是数据压缩的逆过程,即将压缩的编码还原为原始数据。因此,数据压缩方法也称编码方法。自从1948年Oliver提出脉冲编码调制(PCM)编码理论以来,编码方法的研究取得了极大的发展,数据压缩技术已日臻成熟,适合各种应用场合的编码方法不断产生。目前采用的数据压缩方法按出发点不同会有几种不同的分类结果。1.按照压缩方法是否产生失真分类无失真编码方法,也称为可逆编码方法。此类方法解压缩以后的还原数据与原始数据完全一致。有失真编码方法,也称为不可逆编码方法.此类方法解压缩以后的还原数据与原始数据之间有误差。但这种误差是限定在一定范围内的,即能满足具体应用的要求。以图像为例,此方法的还原图像虽与原始图像之间存在误差,但其视觉效果仍能被人所接收。2.按照压缩方法的原理分类⑴预测编码它是针对空间冗余和时间冗余的压缩方法。其基本思想是利用已被编码的点的数据值来预测邻近的一像素点的数据值。预测是根据某一模型进行的,如果模型选取得足够好的话,则只需存储和传输起始像素和模型参数就可以代替整幅图像了。按照模型的不同,预测编码又分为线性预测、帧内预测和帧间预测。⑵变换编码它也是针对空间冗余和时间冗余的压缩方法。其基本思想是将图像的光强矩阵(时域信号)变换到系数空间(频域)上,然后对系数进行编码压缩。在空间上具有强相关的信号,反映在频域上是某些特定区域内的能量常常被集中在一起,或者是系数矩阵的分布具有某些规律。可以利用这些规律来分配频域上的量化比特数,从而达到压缩的目的。由时域映射到频域总是通过某种变换进行的,这种方法正是由此得名。因为正交变换的变换矩阵是可逆的且逆矩阵与转置矩阵相等,这就使解码运算方便且保证有解,所以变换编码总是采用正交变换。⑶子带编码又称分频带编码。其基本思想是将图像数据变换到频域后,按频率分带,然后用不同的量化器进行量化,达到最优的组合。语言和图像信息都有较宽的频带,信息的能量集中在低频区域,细节和边缘则集中在高频区域。子带编码采取保留低频系数舍去高频系数的方法进行编码,操作时对低频区域取较多的比特数来编码,以牺牲边缘细节来换取比特数的下降,恢复后的图像比原图模糊。其特点是有较高的压缩比和信噪比。⑷信息熵编码根据信息熵原理,对出现概率大的符号用短码字表示,反之用长码字表示。其目的是减少符号序列中的冗余度,提高符号的平均信息量。它根据符号序列的统计特性,寻找某种方法把符号序列变换为最短的码字序列,使各码元承担的信息量达到最大,同时保证无失真地恢复原来的符号序列。实现这种编码的方法有哈夫曼编码方法和自适应二进制算术编码方法。⑸统计编码统计编码技术根据一幅图像像素值的统计情况进行编码压缩,也可先将图像按前述方法压缩,对所得的值加以统计,再做压缩。由此可知,统计编码既可单独使用,又可用在某个算法之后做进一步的压缩。最常用的统计编码方法是哈夫曼编码方法。⑹行程编码又称游程编码或运行长度编码。其基本思想是将一个相同值的连续串用一个代表值和串长来代替。行程编码又分为定长行程编码和变长行程编码两种。定长行程编码是指编码的行所使用的二进制位数固定;变长行程编码则指对不同范围的行使用不同位数的二进制位进行编码。行程编码适合于二值图像的编码。⑺算术编码其基本思想是将被编码的信息表示成[0,1]之间的一个间隔。信息越长,间隔就越小,编码所需的二进制位就越多。除了基于概率统计的固定模式外,还有自适应模式。算术编码适用于不进行概率统计的场合;当信源符号概率比较接近时,其效率高于哈夫曼编码方法。除了上述的编码方法外,还有结构编码方法、基于知识的编码方法等。(二)哈夫曼编码1.哈夫曼最佳变字长编码定理为了说明哈夫曼(Huffman)编码的具体方法,首先证明哈夫曼1952年提出的变字长编码的最佳编码定理。定理:在变字长编码中,对于出现概率大的信息符号编以短字长的码,对于概率小的符号编以长字长的码。如果码字长度严格按所对应符号出现概率大小逆顺序排列,则平均码字长度一定小于其他任何符号顺序排列方式得到的码字长度。2.哈夫曼编码的方法哈夫曼编码是根据可变长度最佳编码定理,应用哈夫曼算法而得到的一种编码方法。可以证明,在给定符号集和概率模型时,没有任何其他整数码比哈夫曼码有更短的平均码长,也即它是一种最优码。3.哈夫曼编码的特点虽然哈夫曼码是变长的,编码后的码串中又没有分隔码字的标识符,但由于它的无歧义性,完全能够正确地恢复出原信源所输出的符号序列来。哈夫曼编码方法构造出来的码不是惟一的,其原因有二:一是给两个分支赋值时,既可以是上(左)分支为1、下(右)分支为0,又可以是上(左)分支为0、下(右)分支为1,故造成编码不惟一;二是当两个符号的出现概率相等时,谁在前谁在后也是随机的,也造成编码的不惟一。哈夫曼编码码字字长不统一,给硬件实现带来一定的困难。对不同的信源,哈夫曼编码的效率也是不同的。当信源概率是2的负幂时,其编码效率最高,可达到100%;当信源为等概率时,其编码效率最低。因此,只有概率分布极不均匀时,哈夫曼编码才会收到显著效果。对信源进行哈夫曼编码后形成了一个哈夫曼编码表,若要正确解码必须依照此表。于是在信源存储与传输过程中,必须首先考虑此表的存储与传输,故此表也占有一定的比特数。最好的解决方法是使用默认的哈夫曼编码表,因为在某些应用场合中,信源的概率服从于某一分布(这主要由大量统计得到),可按经验构造一个概率模型,这样就可以事先在发送端和接收端固定哈夫曼编码表,从而在数据传输时省去了哈夫曼编码表的传输。但如果信源的实际概率模型与编码时所假设的概率模型有差异,实际的码长将大于预期值,编码效率将下降。(三)预测编码预测编码方法是一种专门用于压缩统计冗余数据的技术,主要是减少数据在空间和时间上的相关性。它根据某一模型利用以往的样本值对新样本值进行预测,然后将样本的实际值与其预测值相减得到一个误差值,进而对这一误差值进行编码。如果模型足够好,且样本序列在时间上相关性较强,则误差值远远小于实际值,从而达到了压缩的目的。理论上数据源可以准确地用一个数学模型表示,使输出数据总是与模型的输出保持一致,因此可以准确地预测数据。但没有一个实际的预测器能找到如此完美的数学模型,最好的预测器也只能做到以最小化的误差对下一个采样进行预测。由于整个数据信源的实际模型很复杂且是时变的,在大多数情况下预测几乎不可能实现,故预测器通常设计成用前面几个样值来预测下一样值。利用样本的预测器以这些样本的线性或非线性函数为基础,大多数使用线性预测函数。预测编码方法中典型的有DPCM和ADPCM方法。1.差分脉冲调制(DPCM)预测。分脉冲调制(DifferentialPulseCodeModulation,简称DPCM)是降低每个像素所需平均比特数最实用的方法。对于绝大多数图像来说,在局部空间和时间上是高度相关的,因而可以在已得到像素的基础上通过对当前像素的预测来减少图像的数据量。2.自适应差分脉冲调制(ADPCM)预测DPCM系统的基础是输入数据为平稳的随机过程,这样就可以用固定的参数来设计预测器。然而,当输入数据并非是所要求的平稳的随机过程时,或总体上平稳,但局部不平稳时,使用固定的参数来设计预测器将是不合理的。这时可采用自适应预测编码的方法,即定期地重新计算协方差矩阵和相应的加权因子,充分利用其统计特性重新调整预测参数,使预测器随着输入数据的变化而变化,从而得到较为理想的输出。(四)变换编码1.变换编码的基本概念在数字信号处理中,为了便于分析或求解,经常需要进行傅里叶变换或Z变换,以便将时域信号变换到频域上去分析或求解。在图像处理时,也可将图像压缩问题变换到频域上或其他域去处理。变换编码是指先对信号进行某种函数变换,从一种域(空间)变换到另一种域(空间),再对变换后的信号进行编码处理。以声音、图像为例,由于声音、图像大部分信号都是低频信号,在频域中信号的能量较集中,故将时域信号变换到频域,再对其进行采样、编码,便可以达到压缩数据之目的。下面是利用坐标变换去除相关的例子,有相邻的两个采样值x1和x2,若各用3比特编码,则各有8个幅度等级,于是两个采样值的合成可能性共有8×8=64种,如图2-11所示。横坐标表示x1的8种可能等级,纵坐标表示x2的8种可能等级。考虑到样值的相关性,x1和x2同时出现相近幅度的可能性最大。统计表明,合成可能性往往落在图中虚线所包围的区域内。如果将坐标轴旋转45°,到和坐标系,则它们的合成可能性就落在坐标轴附近。不管幅度在0到7的可能等级间如何变化,的幅度始终只在较小的范围内变化。这意味着和的相关性减小了。因此通过这种变换,就可以得到一组除去了部分相关性的输出样值。如前所述,预测编码主要是在时域上进行,而变换编码则主要是在变换域上进行。通过变换操作除去由于坐标轴选择不当而引起的相关性,且有可能将难以处理的各种小局部相关集中到一起处理。变换编码方法有两个最明显的特点:一是在频域上信息是按频谱能量与频率分布排列的,只要对频域平面进行合理量化就可以得到较高的压缩效率。变换就是寻求坐标轴的最优选择。二是与预测等其他方法相比,变换编码具有较高的计算复杂度。2.KL变换KL变换是一种最佳的变换编码方法,常常用作衡量变换性能好坏的标准,故在数据压缩中占有重要的地位。设X=[x1,x2,…,xn]T和是两个维随机向量。且正交变换的转置矩阵为,这里是k维向量,且具有标称正交特性,即由于相互正交,所以它们是线性独立的,即它们之中任何一个都不能由其余向量的线性组合来产生。我们知道,n个线性独立的向量可以生成一个n维空间,这种向量称为该空间的基,其中每一个称为基向量。3.离散余弦变换(DCT)余弦变换是一种准最佳变换。当信号的统计特性符合一阶马尔柯夫过程,而且相关系数接近1时(大多数图像信号都可以足够精确地用此模型描述),DCT与KL变换的压缩性能及误差很接近,变换后的能量集中程度较高。即使信号的统计特性偏离这一模型,它的性能下降也不显著。由于DCT的这一特性,再加上其基向量是固定的,并具有计算复杂度适中等原因,故在图像数据压缩中得到了广泛的应用。
三、多媒体数据压缩基本原理(一)多媒体数据压缩的必要性与可能性在多媒体计算机系统中,信息从单一媒体转到了多种媒体,要表示、传输和处理大量的声音、图像甚至影像视频信息,其数据量之大是非常惊人的。下面分别以文本、图像、音频、视频等不同类型的信息为例计算一下它们的信息量。1.文本设屏幕的分辨率为640×480(中等分辨率),字符大小为8×8点阵,每个字符占用两个字节,则满屏字符的数据存储量为:(640/8)×(480/8)×2×8=9600B=76.8kbit。2.图像以一幅640×480中等分辨率的伪彩色图像(8bit/像素)来看,则一帧图像的数据存储量为:640×480×8=2457600bit=2.46Mbit;若是同样大小的真彩色图像(24bit/像素),则一帧图像的数据存储量为:640×480×24=7372800bit=7.37Mbit。3.音频先看简单的语音信号,实验表明,人在正常说话时的音频一般在20Hz到4kHz范围,即人类语音带宽为4kHz。依据采样定理,当采样频率不小于两倍的原始信号频率时,才能保证采样后信号可被保真地恢复为原始信号。若采样位数取8bit,则1秒的数据存储量为4×2×8=64kbit;如果是高质量音频,采样频率至少为44.1kHz,量化为16bit双通道立体声,则1秒的数据存储量为44.1×16×2=1411.2kbit=1.41Mbit,在600MB的标准光盘中也仅能存放约1小时左右的数据。4.视频以一般彩色电视信号为例,YIQ彩色空间中各分量的带宽分别为4.2MHz、1.5MHz和0.5MHz。设各分量均被数字化为8位,根据采用样定理,则1秒的电视图像信号数据存储量将达到(4.2+1.5+0.5)×2×8=99.2Mbit,即使是存放在600MB的标准光盘中,也仅能播放约40秒。从以上多媒体信息与数据量的关系可见,数字化多媒体信息的数据量是如此巨大,加之信息种类多、实时性要求高,给数据的存储、传输以及加工处理均带来了巨大的压力,不仅要求计算机有更高的数据处理和数据传输能力以及巨大的存储空间,而且也要求通信信道有更高的带宽。为了解决存储、处理和传输多媒体数据的问题,除了提高计算机本身的性能以及通信信道的带宽外,更重要的则是对多媒体数据进行有效的压缩。因此数据压缩编解码自然就成为了多媒体技术中最为关键的核心技术。多媒体数据之所以能进行压缩,首先是因为多媒体数据中存在着很大的冗余,包括空间冗余、时间冗余、信息熵冗余、结构冗余、知识冗余、统计冗余等等。其次,作为多媒体信息的主要接收者,人的视觉和听觉都有其固有的生理特性,如人类视觉有“视觉掩盖效应”,即人对亮度信息很敏感,而对边缘的急剧变化不敏感;同样,听觉也存在类似的生理特性,即人对部分频率的音频信号不敏感。因此,可以利用人类视觉听觉特性,去除一些人的生理特性对其不敏感的信息,从而实现对数据的压缩。(二)数据冗余的基本概念与种类1.数据冗余的基本概念多媒体数据,尤其是图像、音频和视频,其数据量是相当大的,但那么大的数据量并不完全等于它们所携带的信息量,换言之,表达它们所携带的信息量并不需要那么大的数据量。在信息论中,这就称为冗余。冗余是指信息存在的各种性质的多余度。例如,180个汉字,其文本数据量仅为360B,若广播员用一分钟的时间去读它,则对语音直接采样的数据量将达到480KB。这就是说,传递同样的信息,数字化后的语音数据存在着1300多倍的文本数据冗余。2.数据冗余的类别多媒体数据在数字化后存在着各种形式的数据冗余,一般来说有以下几种类型:⑴空间冗余这是图像数据中经常存在的一种数据冗余。在同一幅图像中,规则物体和规则背景的表面物理特性具有相关性,所谓规则是指表面颜色分布是有序的而非杂乱无章,这些相关的光成像结构在数字化图像中就表现为数据冗余。例如,一个表面颜色均匀、各部分的亮度、饱和度相近的规则物体的图像,在对其进行数字化处理生成点阵图后,会发现很大数量的相邻像素其数据是完全一样或十分接近的,完全一样的数据当然可以压缩,而十分接近的数据也可以压缩。去掉这部分图像数据并不影响视觉上的图像质量,甚至对图像细节也无多大影响,因为恢复图像后人眼分辨不出它与原图像有什么区别。这种压缩就是对空间冗余的压缩。⑵时间冗余这是时基类媒体数据中经常存在的一种数据冗余。譬如,动态图像是由许多帧连续画面的序列构成的,前后帧之间具有很强的相关性,当播放该图像序列时,随着时间的推移,若干帧画面的某些地方发生了变化,但有的部位却根本没有变化,这就形成了时间冗余。具体看一个坐在客厅沙发上说话的人的序列画面,从一帧到下一帧,背景没有发生任何变化,人的绝大部分部位也没有发生变化,仅仅是人的面部略有变化,因此,相邻帧之间存在着很大的数据冗余。同样,语音数据由于前后也有着很强的相关性,它们也经常包含着冗余。⑶结构冗余数字化图像中物体表面纹理等结构往往存在着数据冗余,这种冗余就称为结构冗余。当一幅图像中有很强的结构特性,如布纹图像和草席图像等,其纹理很规范清晰,于是它们在结构上存在着极大的相似性,也就存在着较强的结构冗余。⑷信息熵冗余信息熵冗余是指数据所携带的信息量少于数据本身而反映出来的数据冗余。⑸视觉冗余人类的视觉系统由于受生理特性的限制,对于图像场的任何变化并不是都能感知。例如,对图像的压缩或量化而引入的噪声能使图像发生一些变化,如果这些变化并不能被视觉所感知,则忽略这些变化后,仍认为图像是完好的。事实上,人的视觉系统一般的分辨能力约为26灰度等级,而图像量化一般采用28灰度等级,这样的冗余就称为视觉冗余。⑹知识冗余由图像的记录方式与人对图像的知识之间的差异所产生的冗余称为知识冗余。人对许多图像的理解与人的某些知识有很大的相关性。譬如,人脸的图像就有固定的结构,鼻子位于脸的中线上,上方是眼睛,下方是嘴等;又譬如,建筑物中的门和窗的形状、位置、大小比例等。这些规律性的结构可由先验知识和背景知识得到。人具有这样的知识,但计算机存储图像时却还得一个一个像素地存入,这就形成了知识冗余。⑺其他冗余如图像的空间非定常特性所带来的冗余。另外,空间冗余和时间冗余是将信号看作概率信号时所反应出的统计特性,因此有时也称这两种冗余为统计冗余。(三)图像压缩预处理技术图像数据压缩的任务是在不影响或少影响图像质量的前提下,尽量设法减少图像数据中的数据量。上小节讨论的内容表明图像数据中存在各种冗余,因此数据压缩的首要任务就是去除各种冗余数据。当然删除冗余数据必然会给图像质量带来一定的损失,这就需要进行相应的预处理,来保证将这种损失降至最低限度,因为当删除的是那些人的视觉系统不能察觉的信息时,图像质量的损失也不会被人的视觉系统所察觉。为此,图像压缩技术使用一些通用的预处理工具,如滤波器、色差信息二次抽样、量化、预测编码、运动补偿、变长编码和图像内插等附加的能提供有效压缩因子的图像变换算法。图像预处理的技术主要有以下几种:1.二次抽样人的视觉对图像亮度分量的敏感程度高于色差分量,因此,亮度值应以最大的分辨率进行编码,可采用二次抽样或删去一些色差像素值而保留亮度值,使数据减少后的图像质量仅有很小的降低。2.滤波器滤波器能有选择地删除、衰减或放大信息。3.量化量化是用整数码来代替采样值的技术,真实值和量化值之差是分辨率和噪声的混合。4.预测编码预测编码通过统计冗余来改进压缩。先前解码的像素值(包括解码和编码)可以估计或预测尚未解码的像素值,这只需要对预测值和真实值之间的差值进行编码。这个差值是预测误差,解码器用它来修正预测。5.运动补偿运动补偿使用二维图像簇位移矢量来预测图像中邻域像素簇位移值,在新的图像中重新定位像素块。该技术依赖于一个事实,即背景相同的图像序列中,许多物体保持在同样的位置上,有些物体可能移动一段很小的距离。6.变长码变长码是一种统计技术,它的基本思想是出现频率高的值被赋以短码字,出现频率低的值被赋以长码字。平均起来,则使用频率高的短码字起了极大的支配作用,使得新的码串比原来缩短了很多,实现了更有效的压缩传输和存储。7.图像内插法图像内插法允许产生中间图像,因此邻近的两幅图像可以产生中间像,于是(在某种情况下)可以减少数据传输和存储。8.压缩和解压缩的速度压缩和解压缩的速度是压缩系统的两项重要的性能指标。⑴对称压缩在有些应用中,压缩和解压缩都需要实时进行,这称为对称压缩,如电视会议的图像传输。⑵非对称压缩在有些应用中只要求解压缩是实时的,而压缩可以非实时的,这称为非对称压缩,如多媒体CD-ROM节目的制作就采用非对称压缩。⑶压缩的计算量数据的压缩和解压缩都需大量的计算。通常压缩的计算量比解压缩的计算量大。如MPEG的压缩编码计算量约为解码的4倍。在MPEG中规定水平方向的像素≤768,垂直方向的像素≤576。对于352×240的图像,就有1320个8×8的图像块,计算这样一幅图像的DCT变换需126720次乘法运算和638880次加法运算。实时计算30帧/秒的黑白图像,仅DCT变换就需要数倍于一帧图的计算量。若是处理彩色数字电视时,运算次数还要多。
四、哈夫曼编码(一)哈夫曼最佳变字长编码定理为了说明哈夫曼(Huffman)编码的具体方法,首先证明哈夫曼1952年提出的变字长编码的最佳编码定理。定理:在变字长编码中,对于出现概率大的信息符号编以短字长的码,对于概率小的符号编以长字长的码。如果码字长度严格按所对应符号出现概率大小逆顺序排列,则平均码字长度一定小于其他任何符号顺序排列方式得到的码字长度。证明:设最佳排列方式的码字平均长度为,则其中P(ai)为信源信号ai出现的概率;ni为符号的编码长度。规定P(al)≥P(as),其中nl≤ns,l,s=1,2,…,m。若将al的码字与as的码字互换,其余码字不变,如此互换后,平均码字长度变为',则'应为加上两码字互换后与互换前的平均长度之差,即'=+[nsP(al)+nlP(as)]-[nlP(al)+nsP(as)]=+(ns-nl)[P(al)-P(as)](2-7)因为P(al)≥P(as),ns≥nl,所以'>,即最短,证毕。(二)哈夫曼编码的方法1.哈夫曼编码哈夫曼编码是根据可变长度最佳编码定理,应用哈夫曼算法而得到的一种编码方法。可以证明,在给定符号集和概率模型时,没有任何其他整数码比哈夫曼码有更短的平均码长,也即它是一种最优码。其编码方法如下:①将符号按出现的概率由大到小排序。给最后的两个符号各赋予一个二进制码,概率大的赋0,概率小的赋1(反之也可)。②把最后两个符号的概率加起来合成一个概率,再按大小重新排序。重新排序后重复步骤①的编码过程。③重复步骤②,直到最后只剩下两个概率为止。④将每个符号所对应的各分支赋的0、1值反向逆序排出,即得到各符号的编码。下面看一个哈夫曼编码的具体例子。设有信源符号集{a1,a2,a3,a4,a5,a6,a7},各符号对应的出现概率分别为{0.23,0.21,0.18,0.15,0.13,0.07,0.03}。哈夫曼编码方法编码的结果,码字的平均长度很接近于信息符号的熵值。2.哈夫曼编码的特点虽然哈夫曼码是变长的,编码后的码串中又没有分隔码字的标识符,但由于它的无歧义性,完全能够正确地恢复出原信源所输出的符号序列来。哈夫曼编码方法构造出来的码不是惟一的,其原因有二:一是给两个分支赋值时,既可以是上(左)分支为1、下(右)分支为0,又可以是上(左)分支为0、下(右)分支为1,故造成编码不惟一;二是当两个符号的出现概率相等时,谁在前谁在后也是随机的,也造成编码的不惟一。哈夫曼编码码字字长不统一,给硬件实现带来一定的困难。对不同的信源,哈夫曼编码的效率也是不同的。当信源概率是2的负幂时,其编码效率最高,可达到100%;当信源为等概率时,其编码效率最低。因此,只有概率分布极不均匀时,哈夫曼编码才会收到显著效果。对信源进行哈夫曼编码后形成了一个哈夫曼编码表,若要正确解码必须依照此表。于是在信源存储与传输过程中,必须首先考虑此表的存储与传输,故此表也占有一定的比特数。最好的解决方法是使用默认的哈夫曼编码表,因为在某些应用场合中,信源的概率服从于某一分布(这主要由大量统计得到),可按经验构造一个概率模型,这样就可以事先在发送端和接收端固定哈夫曼编码表,从而在数据传输时省去了哈夫曼编码表的传输。但如果信源的实际概率模型与编码时所假设的概率模型有差异,实际的码长将大于预期值,编码效率将下降。
五、变换编码在数字信号处理中,为了便于分析或求解,经常需要进行傅里叶变换或Z变换,以便将时域信号变换到频域上去分析或求解。在图像处理时,也可将图像压缩问题变换到频域上或其他域去处理。变换编码是指先对信号进行某种函数变换,从一种域(空间)变换到另一种域(空间),再对变换后的信号进行编码处理。以声音、图像为例,由于声音、图像大部分信号都是低频信号,在频域中信号的能量较集中,故将时域信号变换到频域,再对其进行采样、编码,便可以达到压缩数据之目的。下面是利用坐标变换去除相关的例子,有相邻的两个采样值x1和x2,若各用3比特编码,则各有8个幅度等级,于是两个采样值的合成可能性共有8×8=64种,如图2-11所示。横坐标表示x1的8种可能等级,纵坐标表示x2的8种可能等级。考虑到样值的相关性,x1和x2同时出现相近幅度的可能性最大。统计表明,合成可能性往往落在图中虚线所包围的区域内。如果将坐标轴旋转45°,到和坐标系,则它们的合成可能性就落在坐标轴附近。不管幅度在0到7的可能等级间如何变化,的幅度始终只在较小的范围内变化。这意味着和的相关性减小了。因此通过这种变换,就可以得到一组除去了部分相关性的输出样值。如前所述,预测编码主要是在时域上进行,而变换编码则主要是在变换域上进行。通过变换操作除去由于坐标轴选择不当而引起的相关性,且有可能将难以处理的各种小局部相关集中到一起处理。变换编码方法有两个最明显的特点:一是在频域上信息是按频谱能量与频率分布排列的,只要对频域平面进行合理量化就可以得到较高的压缩效率。变换就是寻求坐标轴的最优选择。二是与预测等其他方法相比,变换编码具有较高的计算复杂度。
六、通用视频图像压缩编码标准MPEG-2(H.262)(一)MPEG-2标准MPEG-2标准的编号为ISO/IEC13118,是一种既能兼容MPEG-1标准,又能满足高分辨率数字电视和高分辨率数字卫星接收机等方面要求的技术标准,它是由ISO的活动图像专家组和ITU-TS的15研究组于1994年共同制定的,在ITU-TS的协议系列中,被称为H.262。制定MPEG-2的初衷是得到一个针对广播电视质量(CCIR601格式)的视频信号的压缩编码标准,但实际上最后得到一个通用的标准,它能在很宽的范围内对不同分辨率和不同输出比特率的图像信号有效地进行编码。在图像格式方面,有可能对诸如标准清晰度电视、高清晰度、隔行扫描、顺序扫描等各种分辨率和信号形式的影像进行编码。在声音格式方面,它扩充了MPEG-1的功能,是一种多通道/多语言的声音编码。其系统格式所规定的多路复用方式不仅能适应可忽视错误的环境,而且也能适应广播之类不能忽视错误的环境。另外,它还规定了单一节目和多节目的多路复用/同步方式。MPEG-2标准主要分为四部分。第一部分是系统。该部分说明了MPEG-2的系统编码层。它定义了视频和音频数据的复接结构和实现实时同步的方法。第二部分是视频。此部分说明了视频数据的编码表示和重建图像所需要的解码处理过程。第三部分是音频。此部分说明了音频数据的编码表示。第四部分是一致性测试。此部分说明了检测编码比特流特性的过程以及如何测试上述三部分所要求的一致性。(二)MPEG-2与MPEG-1的对比MPEG-2对MPEG-1作了重要的改进和扩充,主要表现在下面几个方面:1.图像格式MPEG-1只能处理顺序扫描图像,而MPEG-2不仅能处理顺序扫描图像,还能处理隔行扫描图像。另外,在色差格式方面,MPEG-1只能支持4:2:0的模式,即色信号的取样模式无论在水平方向,还是垂直方向上都是亮度信号样点数的1/2。MPEG-2还可支持4:2:2和4:4:4模式,前者色信号的样点数在垂直方向上与亮度信号相同,只在水平方向上是亮度信号样点数的1/2;后者的色信号的样点数与亮度信号则完全相同。也就是说,MPEG-2可处理几乎所有的图像格式。2.图像质量由于能适应各种图像格式和具有高质量图像编码所需的技术,MPEG-2可提供比MPEG-1更高的图像质量。3.编码/解码的延迟与MPEG-1一样,MPEG-2可提供I图像帧、P图像帧和B图像帧。另外,在原图像为隔行扫描情况下,还可提供以帧为编码单位的帧构造和以场为编码单位的场构造(MPEG-1只支持帧构造),即除了在低延迟模式下只取I和B图像帧外,在原图像为隔行扫描情况下还可用场构造这样的小延迟方式。4.可伸缩的分层编码方式这是MPEG-1所没有的功能。MPEG-2提供4种可伸缩的分层编码方式:空间分层编码,时间分层编码,信噪比分层编码和数据分割编码。这几种分层编码既可单独使用,也可组合使用。5.灵活性MPEG-2在编码器和解码器的构成方面有很大的自由度,但某种程度的制约也是必要的,因而引出了类(Profile)和等级(Level)的概念,以此来确定编码器和解码器的等级规范。6.兼容性MPEG-2语法完全包含了MPEG-1语法,因此具有对MPEG-1的兼容性。另外,使用空间可伸缩性,可将MPEG-1的比特流与MPEG-2的比特流混合传送。7.特技方式MPEG-2能够提供比MPEG-1更多的特技方式。8.反复编码/解码对图像质量的影响MPEG-2提供了编码高质量图像的多种方法,能在反复进行编码和解码的情况下确保图像质量。9.抗错能力在比特流传送等过程出现错误的情况下,MPEG-1不能提供有效的消除错误的方法。然而即使比特流在异步传输模式中传输,MPEG-2也可通过解码器提供消除错误的方法。10.视窗MPEG-2可适应各种图形格式,如NTSC制式的4:3显示和HDTV的16:9图像,故可将16:9图像的一部分与4:3显示的信息混合在一起传送。
七、低比特率音视频压缩编码标准MPEG-4(一)MPEG-4标准及特点MPEG-4是1998年11月正式公布的国际性标准,其标准的编号为ISO14496-2,MPEG-4的初衷是制定一个通用的低码率(64Kb/s以下)的音频/视频压缩编码标准,并打算采用第二代压缩编码算法,以有效地支持甚低码率的应用。但是第二代压缩编码算法在MPEG-4工作组预定的时间(1997年)内似乎还不够成熟,因而它的目标后来转向支持当时的MPEG-1、MPEG-2标准尚未支持的那些应用,即支持用于通信、访问和数字视听数据处理的新方法(特别是基于内容的)。如移动通信中的声像业务、与其它多媒体数据的集成和交互式多媒体服务等。考虑到低损耗、高性能技术提供的机会和面临迅速扩展的多媒体数据库的挑战,MPEG-4提供了灵活的框架和开放的工具集,这些工具将支持一些新型的和常规的功能。MPEG-4可使用户实现音频视频内容交互性的多种形式,以及以一种整体的方式将人工的和自然的音频和视频信息溶合在一起。与MPEG-1、MPEG-2相比MPEG-4最突出的特点是采用基于对象的编码理念,即在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象分别编码后,再经过复用传输到接收端,然后再对不同的对象分别解码,从而组合成所需要的视频和音频。MPEG-4采用是基于内容的压缩编码方法。它突破了MPEG-1、MPEG-2基于块、像素的图像处理方法,而是按图像的内容如图像的场景、画面上的物体(物体1,物体2,…)等分块,即将感兴趣的物体从场景中截取出来,称为对象或实体。MPEG-4便是基于这些对象或实体进行编码处理的。对每一个对象的编码形成一个对象码流层,该层码流中包含着对象的形状、尺寸、位置、纹理以及其它方面的属性。一幅图像编码所形成的码流就是由一系列这样的对象层码流构成。“对象层”可以直接进行存取操作,例如,可以有选择地只对其中的几个对象解码和显示,或对其中的某个对象进行缩放、移位和旋转等操作后再解码显示,或增加原图像中没有的对象等。此外,MPEG-4还具有高效压缩、基于内容交互(操作、编辑、访问等)以及基于内容分级扩展(空域分级、时域分级)等特点。为了具有基于内容方式表示的音视频数据,MPEG-4引入了视听对象AVO(Audio/VideoObject)的概念。AVO的构成依赖于具体应用和系统实际所处的环境,它可以是一个没有背景的说话的人,也可以是这个人的语音或一段背景音乐等,它具有高效编码、高效存储与传播以及可交互操作的特性。以视频对象VO为例,对于低要求应用情况下,它可以是一个矩形帧(即MPEG-1中的矩形帧),从而与原来的标准兼容;对于基于内容的表示要求较高的应用情况,它可能是场景中的某一物体或某一层面,也可能是计算机产生的二维、三维图像等。当AVO被定义为场景中截取出来的不同物体时,它有三类信息来描述:运动信息、形状信息和纹理信息。MPEG-4标准的视频编码就是针对这三种信息的编码技术。在MPEG-4中,AVO有着重要的地位,MPEG-4对AVO的操作主要有:采用AVO来表示听觉、视觉或者视听组合内容。允许组合已有的AVO来生成复合的AVO,并由此生成AVO场景。允许对AVO的数据灵活地多路合成与同步,以便选择合适的网络来传输这些AVO数据。允许接收端的用户在AV场景中对AVO进行交互操作。(二)MPEG-4标准支持的功能与前面所介绍的标准不同,MPEG-4标准不仅是针对一定比特率下的视频、音频编码,而且更加注重多媒体系统的交互性和灵活性。MPEG-4支持如下的基于内容的交互性功能:1.基于内容的多媒体数据访问工具MPEG-4通过使用各种工具,提供基于音像内容的数据访问,例如,索引、超链接、查询、浏览、上载、下载和删除等;2.基于内容的处理和比特流编辑MPEG-4将提供“MPEG-4语法描述语言(MSDL)”和编码模式,以支持基于内容的处理和比特流编辑,且不需要转换代码。MSDL的高度灵活性为今后的使用提供了足够的扩展。3.混合自然和人工数据编码MPEG-4支持一种有效的方法,用于人工画面或对象与自然画面或对象的组合(如文本和图形的覆盖),并且具有对自然和人工音频和视频数据进行编码和处理的能力,MPEG-4还支持解码器可控制的方法,该方法可将人工数据和原始音频和视频组合在一起且便于交互。4.改进的时间随机访问MPEG-4将提供一种有效的方法,可以在有限的时间内,且以较高的分辨率,随机访问视听序列的部分内容(如帧或对象)。这里包括甚低比特率的常规随机访问。5.多重并行数据流的编码MPEG-4将提供对画面的多视图/声音进行有效编码的能力,在产生的基本流之间提供足够的同步信息。对于立体声视频应用,MPEG-4还将包括利用在相同画面的多视图或听点中冗余的能力。6.对多个并发数据流的编码MPEG-4将提供对同一景物的有效多视角编码,加上多伴音声道编码及有效的视听同步。在立体视频应用方面,MPEG-4将利用对同一景物的多视点观察所造成的信息冗余。MPEG-4的这一功能在足够的观察视点条件下,将有效地描述三维自然景物。7.错误易发环境中的抗错性“灵活多样”是指允许采用各种有线、无线网和各种存储媒体,MPEG-4将提高抗错误能力,尤其是在易发生严重错误的环境下的低比特应用中。MPEG-4是第一个在其音、视频表示规范中考虑信道特性的标准。目的不是取代已有通信网提供的错误控制技术,而是提供一种对抗残留错误的坚韧性。8.基于内容的尺度可变性内容尺度可变性意味着给图像中的各个对象分配优先级。其中,比较重要的对象用较高的空间或时间分辨率来表示。基于内容的尺度可变性是MPEG-4的核心,因为一旦图像中所含对象的目录及相应的优先级确定后,其他的基于内容的功能就比较容易实现了。对于甚低比特率应用来说,尺度可变性是一个关键的因素,因为它提供了自适应可用资源的能力。(三)MPEG-4的关键技术1.传输多媒体集成框架(DMIF)DMIF(DeliveryMultimediaIntegrationFramework)是MPEG-4制定的会话协议,主要解决交互网络中、广播环境下以及磁盘中多媒体应用的操作问题,通过传输多路合成比特信息,建立客户端和服务器端的握手和传输。传输接口层在MPEG-4中使用DMIF传输基本流,面向应用将网络实现的细节包装。DMIF使用服务和会话的概念,通过信道处理媒体基本流。对信道的处理是由DMIF所产生的信道标识器决定的,即告诉用户在哪里能得到所需的信息。使用复接器将几路同步的基本流通过一个信道进行传输,因此MPEG-4系统处理媒体流,而DMIF处理传输,它不需要知道媒体流的特性。对客户与服务器之间的控制是通过DMIF应用接口(DAI)完成的。实际上,DMIF相当于OSI的会话层的功能,DAI表示会话服务存取点。传输接口层对媒体不透明,而对传输是透明的。2.语法描述MPEG-4定义了一个句法描述语言来描述AV对象比特流表示和场景描述信息。这个句法描述语言是对C++的扩展,不仅易于表达其AV对象特性,而且也易于软件仿真实现与模型验证。与MPEG-4相比,MPEG-1和MPEG-2则采用一种类C语言的描述,MPEG-4描述语言反映了面向对象技术来描述对象。3.音频对象的编码视频音频的压缩编码自然仍是MPEG-4的核心所在。不过,与以前的MPEG-1、MPEG-2不同的是:MPEG-4不仅支持自然的声音(如语音和音乐),而且支持基于描述语言的合成声音,支持音频的对象特征。即一个场景中,同时有人声和背景音乐,它们也许是独立编码的音频对象。⑴自然声音编码MPEG-4研究比较了现有的各种音频编码算法,支持2-64K的自然声音编码。如8KHz采样频率的2-4Kbit/s的语音编码,以及8或16kHz采样频率4-16Kbit/s的音频编码,一般采用参数编码;6-24Kbit/s的语音编码,一般采用码激励线性预测(CELP)编码技术;16Kbit/s以上码率的编码,则可采用时频(T/F)变换编码技术。这些技术实质上借鉴了已有的音频编码标准,如G.723,G.728以及MPEG-1和MPEG-2等。图2-33是MPEG-4的可伸缩自然音频编码器示意图,包括了3种编码技术。⑵合成声音在合成声音编码当中,MPEG-4引入了2个极有吸引力的编码技术:文本到语音编码和乐谱驱动合成编码。这为网络上低比特率下交互的带有语音的游戏铺平了道路。事实上,合成声音编码技术即是一种基于知识库的参数编码。特别值得一提的是MPEG-4的乐谱驱动合成技术,在该技术中,解码器是由一种特殊的合成语言——结构化的音频管弦乐团语言(SOAL)驱动的。其中的“管弦乐团”是由不同的“乐器”组成的。当解码器不具有某一“乐器”时,MPEG-4还允许解码器从编码器下载该“乐器”到解码器,以便正确恢复合成声音。可见,MPEG-4不是提供一组MIDI音乐标准中的“乐器”,而是提供了一个可随时扩充的“管弦乐团”,因此,其可“演奏”乐谱自然更加丰富多彩。⑶视觉对象的编码同样,MPEG-4也支持对自然和合成的视觉对象编码。合成的视觉对象如2D、3D动画,人的面部表情动画等,这些合成图像单独编码,不仅可有效压缩,而且还便于操作。对自然视觉对象的编码,仍是MPEG-4的重点。对于静止图像,MPEG-4采用零树小波算法(ZerotreeWaveletalgorithm)以提供高压缩比,同时还提供多达11级的空间分辨率和质量的可伸缩性。对于运动视频对象的编码,MPEG-4采用了如图2-34所示的编码方法,以支持图像的编码。可见,MPEG-4为了支持基于对象的编码,引入了形状编码模块。为了支持高效压缩,MPEG-4仍然采用了MPEG-1,MPEG-2中的变换、预测混合编码框架。对于实时的极低比特率的应用(如可视电话),MPEG-4视频编码采用极低比特率视频(VLBV)核进行编码,类似于ITU的H.263直接对矩形视频编码,而不采用形状编码模块。可见,MPEG-4采取了向前兼容H.263,同时,也提供了一些高层特性,如基于内容的编码。MPEG-4支持有误码信道传输下的鲁棒性,提供了更好的同步和误码恢复机制。⑷MPEG-4的视频编码方法Mpeg-4和以前的视频标准Mpeg-1、Mpeg-2及H.26X系列相比,最重要的特征有:编码是基于对象的这样就使得操作、控制对象成为可能,而传统的编码都是基于帧的,显然无法对对象进行操作。另外由于传输带宽的限制,必须对压缩比特进行控制,这就影响图像质量,过去在比特率低时,整帧图像都受影响;而Mpeg-4的编码是基于对象的,可以控制对象的比特率,即在带宽低时,可以根据对象的重要性进行比特的科学分配,从而使图像的主观质量得到保证。Mpeg-4在时域和空域有灵活的可扩展性可根据现场带宽和误码率的客观条件在时域和空域进行扩展,时域扩展是在带宽允许时在基本层上的增强层中增加帧率,在带宽窄时在基本层中减少帧率;空域扩展是指对基本层中的图像进行插值,增加或减少空间分辨率,以达到充分利用带宽,使图像质量更好。为了支持上面提到的各种功能:高效压缩、基于内容交互(编辑、操作、访问等)以及基于内容分级扩展(空域分级、时域分级),必然要求MPEG-4要以基于对象的方式表示视频数据。因此,Mpeg-4中引入了VO(VideoObject)的概念来实现基于内容的表示。基于内容的视频编码过程由3步构成,首先是从原始视频流中分割出VO,之后由编码控制机制为不同的VO以及各个VO的运动信息、形状信息和纹理信息这三类信息分配码字,分别独立编码,最后将各个VO的码流复合成一个位流。MPEG-4标准的数据结构从上到下大致分为:视频序列(VideoSequence),视频段(VideoSession),视频对象(VideoObject),视频对象层(VideoObjectLayer),视频对象平面组(GroupofVideoObjectPlane),视频对象平面(VideoObjectPlane),其中视频对象包括:视频数据、静态纹理数据、2-D网格数据、人脸活动参数数据等,它是用户可以访问和处理的实体。一个完整的视频序列由多个视频段VS构成,每个VS由一个或多个视频对象VO构成,视觉对象有多个视频对象层。视频对象是场景中的某个物体,它是有生命期的,由时间上连续的许多帧构成。每个VO又由一个或多个视频对象层VOL构成。每一个VOL代表一个层次(基本层、增强层),每个层次表示一种分辨率。在每个层中,时间上连续的一系列视频对象平面VOP。VOP是某一时刻某一帧画面中的VO,即VO是以VOP的形式出现的。MEPG-4视频标准对每个VOP进行编码,VOP编码就是针对某一时刻该帧画面VO的形状、运动、纹理这三类信息进行编码。图2-40是VOP的编码结构示意图。形状编码是基于几何轮廓的编码,形状信息的获取首先要对图像进行分析和分割,把各个代表不同内容的目标分割后再用形状表示。MPEG-4标准中,形状信息又称为alpha平面,VO的形状信息有两类,即二值形状信息或灰度级形状信息,这两类信息均可采用编码采用位图法来表示。一个从场景中截取出的VOP是一个不规则的形状,VOP被一个边框框住,边框长、宽均为16的整数倍,同时保证边框最小。位图表示法实际上就是一个边框矩阵,于是编码就变为对这个边框矩阵的编码。二值形状信息用0或1表示被编码的VOP的形状,0表示非VOP区域,1表示VOP形状区域;灰度级形状信息在0~255间取值,0表示非VOP区域(即透明区域),1~255表示VOP区域透明程度的不同,灰度级的引入主要是为了进行VO边界的“模糊”处理。形状信息的编码就是分别对二值形状或灰度级形状进行编码,二值形状信息使用基于上下文相关信息的算术编码和运动补偿算法进行压缩编码,灰度级形状信息采用基于块的DCT和运动补偿编码。运动信息是反映VOP随时间变化的信息,通过运动估计和运动补偿,可消除VOP的时间冗余,从而提高编码效率。类似于MPEG-1中的I帧、P帧和B帧3种帧格式,MPEG-4中的VOP也有三种相应的帧格式,分别是I-VOP、P-VOP和B-VOP,以表示VOP的运动补偿类型的不同。如形状编码一样,运动估计和运动补偿时,VOP也外加了边框,边框分成16×16的宏块,宏块由8×8的块构成,运动估计和运动补偿可基于宏块,也可基于块。MPEG-4采用了全局运动补偿、块补偿、重叠运动补偿、二维三角形网络估计、半像素估计、重叠填充和多边形匹配等运动估计和运动补偿技术,它对估计误差和宏块运动矢量同时进行编码。对处于VOP外但在边框内的宏块,不进行运动估计;对完全处于VOP内的宏块,进行半像素估计等类似于H.263的运动估计与补偿;对部分在VOP内,部分在VOP外的宏块,则采用“多边形匹配”技术进行运动估计;对于作为参考的VOP,由于VOP外没有象素值,而运动估计要用到,故需采用“重复填充”技术,根据VOP内部象素来外插VOP外部的象素值。①填充技术首先对处于VOP外,但在矩形框内的点进行填充,然后再对矩形框外而在搜索范围内的点进行重复填充。第一步填充,先进行水平填充,如果左边和右边都有合适的点,则取这两点的平均值;否则,哪边有合适的点,则取该点的值;第二步填充是取最邻近点的值。采用上述填充技术填充过的VOP称为重构VOP。②基本的运动估计技术多边形匹配主要是利用形状信息,对一个宏块内且是VOP内部的点才计算在内,对于外部点不予计算,匹配准则是块的绝对差之和(SAD)。图2-41是对VOP边缘宏块采用多边形匹配的示意图。③运动估计首先采用整象素搜索,比较当前16×16宏块和前一重构VOP中移动宏块的差(SAD16)。在搜索范围内具有最小的SAD16的(x,y)就作为宏块的整象素的运动矢量V0,在这个运动矢量位置±2象素的窗口内,对于宏块内部的4个8×8块可以找到4个运动矢量V1、V2、V3、V4和4个SAD8。⑸纹理编码纹理编码时,VOP边框同样分成16×16的宏块,宏块由8×8的块构成。VOP的纹理信息包含在视频信号的亮度分量Y和两个色度分量U和V中。对于帧内编码的I-VOP,纹理信息直接包含在亮度和色度分量中,而对于帧间编码的P-VOP、帧间双向估计编码的B-VOP,纹理信息包含在的运动补偿后的残差中,这两类纹理信息均采用基于8×8的块DCT方案来编码。编码原则如下:对处于VOP外但在边框内的块(透明块),不进行编码;对完全出于VOP内的块,进行传统的DCT编码;对部分在VOP内,部分在VOP外的块,先用“重复填充”技术对该块在VOP外的部分进行填充(对于残差块,VOP外的区域只需填0),填充后的块编码方法与内部块一样,即进行传统的DCT编码。⑹容错和纠错MPEG-4的错误处理有三种方法:重同步、数据恢复和错误掩盖。重同步方法和H.261/H.263标准中使用的块组结构(GOB)相似,但MPEG-4的重同步不是基于块的,而是基于包所含的比特数的,这有利于抵抗高运动区的错误比特。数据恢复主要是恢复丢失的数据,他采用的方法是用可反向变长编码(RVLC),它的编码字反向、正向都可读。⑺可扩展性编码MPEG-4提供了灵活的可扩展性编码。两个主要的可扩展性编码包括:空间扩展和时间扩展。空间扩展提供了空间分辨率的扩展功能,他主要是通过对图象进行上采样或下采样来满足不同的需要,而时域扩展则提供了时间分辨率的扩展,他主要通过增加或减少帧率来达到目的。每种扩展都涉及到基本层和增强层,传统上这些都是基于帧的,但是MPEG-4不仅支持传统上的帧的扩展而且也支持具有任意形状VOP的扩展。(四)AVS音视频编码技术标准1.概述AVS(AudioViodeoCodingStandard)是我国自主制定,拥有自主知识产权的音视频编码技术标准,包括系统、音视、频编、数字版权管理等四个主要技术标准和一致性测试等支撑标准。目前,包括数字电视在内的数字音视频产业广泛采用的信源编码标准是MPEG-2。然而这并非一个最好的选择。因为,一方面使用MPEG-2每台设备需要交2.5美元的专利使用费;另一方面,MPEG-2是1994年制定的,近10年的技术进步已经使MPEG-2技术越来越落后。因此,国际上正在考虑采用新的国际标准MPEG-4AVC/H.264,取代MPEG-2。我国积极参与了新国际标准的制定并做出了一定的技术贡献,但是,新的标准仍有一个专利使用费问题。我国作为一个电子消费类产品的生产和消费大国,完全应该利用可以自主控制的技术形成自主信源编码标准,于是,由国家信息产业部科学技术司于2002年6月了数字音视频编解码技术标准工作组,其任务是:面向我国的信息产业需求,联合国内科研机构和相关企业,制定数字音视频的压缩、解压缩、处理和表示等共性,为数字音视频设备与系统提供高效经济的编解码技术,服务于高分辨率数字广播、高密度激光数字存储媒体、无线宽带多媒体通讯、互联网宽带流媒体等重大信息产业应用。数字音视频编解码技术标准工作组提出的AVS标准框架和草案以国际上最先进的MPEG-4AVC/H.264框架为起点,对数字音视频技术开展了较为深入的研究,提出并完成了具有自主知识产权的数字音视频编解码技术标准AVS。2003年完成的AVS1.0版,其编码效率已达到MPEG-2的2~3倍,且高于MPEG-4AVC/H.264,同时具有方案简单,复杂度低的特点。2.AVS标准的视频编码器结构给出了AVS标准的视频编码器结构示意图。编码器在控制模块的控制下,完成不同帧类型数据的编码。如图所示,输入的视频数据与预测产生的数据间的残差数据经变换和量化后生成差值系数,经熵编码后生成输出码流。另外,差值系数经反量化和反变换后,与预测数据产生的和值构成编码器的重建数据。在帧内预测时,由预测数据与原输入数据间的SAD来确定最优预测模式并产生最优预测值;在帧间预测时,重建数据经环路滤波后,与原输入数据一起再经运动估计,产生运动矢量;运动矢量一路送熵编码器编码输出,一路送运动补偿模块,由运动补偿模块根据运动矢量对经环路滤波后的重建数据进行插值,以产生帧间预测数据。3.AVS标准的核心技术AVS视频标准采用了与MPEG-4AVC/H.264类似的技术框架,包括:8×8整数变换、量化、帧内预测、1/4精度像素插值、特殊的帧间预测运动补偿、二维熵编码、环路滤波等核心技术。AVS也定义了I帧、P帧和B帧3种不同类型的。I帧中的宏块只进行帧内预测,P帧和B帧的宏块则需进行帧内预测或帧间预测。⑴变换和量化在MPEG-4AVC/H.264之前所有视频压缩编码国际标准中采用8×8块的DCT变换,而MPEG-4AVC/H.264中采用类DCT的整数变换替代传统的DCT变换,但H.264所采用的是4×4块的整数变换。而AVS中则采用8×8的块作为基本单元,其变换与量化可以在16位处理器上无失配地实现,从而克服了MPEG-4AVC/H.264存在失配的问题,尤其在高分辨率的视频图像上的去相关性能优于MPEG-4AVC/H.264。此外,AVS采用了64级量化,可以完全适应不同应用和业务对码率和质量的要求。在解决了16位实现的问题后,目前AVS所采用的8×8变换与量化方案,即适合于16位DSP或其他软件方式的快速实现,也适合于ASIC的优化实现。⑵帧内预测AVS的帧内预测技术沿袭了MPEG-4AVC/H.264帧内预测的思路,预测时使用左侧块和上面块中的相邻像素作为参考像素预测当前块。AVS以8×8亮度块和色度块为单位,亮度块采用5种预测模式,色度块采用4种预测模式,而这4种模式中又有3种和亮度块的预测模式相同。AVS帧内预测模式如表2-6所示。在编码质量相当的前提下,AVS采用较少的预测模式,使方案更加简洁、实现的复杂度大为降低。⑶帧间预测帧间运动补偿编码是混合编码技术框架中最重要的部分之一。AVS标准采用了16×16,16×8,8×16和8×8的块模式进行运动补
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年玉林货运从业资格仿真考题
- 2024商标转让及品牌升级合同:携手共进品牌升级之旅3篇
- 2024商混合同范本:商混混凝土生产与质量控制合作协议3篇
- 2025厨房设备销售合同版
- 商业综合体电力施工合同范本
- 城市公园旁咖啡馆租赁合同
- 城市绿化带扩建植树合同
- 出入境文件公证办理规范
- 智能家居维修员招聘合同模板
- 汽车研发中心施工协议
- 【道法广角】成语故事会:立木为信
- 《我们去看海》阅读答案
- 智慧酒店无人酒店综合服务解决方案
- 考研英语一新题型历年真题(2005-2012)
- 健身房会籍顾问基础培训资料
- 9脊柱与四肢、神经系统检查总结
- 秀场内外-走进服装表演艺术智慧树知到答案章节测试2023年武汉纺织大学
- 【高分复习笔记】王建《现代自然地理学》(第2版)笔记和课后习题详解
- TSGD0012023年压力管道安全技术监察规程-工业管道(高清晰版)
- SMM英国建筑工程标准计量规则中文 全套
- 2023-2024学年浙江省富阳市小学数学四年级上册期末通关题
评论
0/150
提交评论