数字电视-活动图像压缩标准H.261_第1页
数字电视-活动图像压缩标准H.261_第2页
数字电视-活动图像压缩标准H.261_第3页
数字电视-活动图像压缩标准H.261_第4页
数字电视-活动图像压缩标准H.261_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数字电视技术题 目:活动图像压缩标准H.261专 业:学 号:姓 名: 日 期:摘 要:论文中首先概述了图像压缩技术的必要性和可能性,方法分类及解码方法,接下来介绍H.261标准的内容及技术标准,最后得出结论。 1. 概述随着高清晰度电视、多媒体计算机和ATM交换为标志的宽带综合业务数字网的出现和发展,信息科学技术领域正经历着最深远的变革。现代数字通信业务的发展,需要大量的存储、纪录和传输文件、真迹、图形、图片、气象云图、遥感图像等静止图像及可视电话、会议电视和广播电视等各类活动图像。他们不仅要求图像质量高、设备稳定可靠、能够利用现存的或发展中的通信通道,而且要求成本低廉,为此,必须采取视频压

2、缩图像数据的压缩措施,以保证实现优质的高速的图像传输。由于图像信息量特别大,存储时占有媒体容量特别多,在传输时占用信道容量大,所以图像压缩编码具有很重要的意义。利用图像相邻像素之间、相邻扫描行之间、活动图像相邻帧之间的相关性和人眼的视觉特性,可实现图像数据的高效压缩。图像编码是面向信源的一门信息处理的科学或技术。它以一定的质量损失为容限,按照某种方法从给定的原始图像中推拿出己简化或“被压缩”的数据表达。任意一幅原始图像的自然表达,并不总是为反映其本质所必需的,它们之中多少的存在与图形质量无关的冗余信息。图像压缩就是在保证图像质量的前提下,用最少量的数码或数码率来实现各类图像的数字存储,数字记录

3、和数字传输。70年代,会议电视一般采用模拟方式传输,我国的第一个会议电视系统就曾利用了模拟微波中继技术方式。当时传送一路会议电视需要960个话路带宽,显然很不经济。到了80年代,由于计算机技术、大规模集成电路的迅猛发展,数字图像压缩技术取得重大进展。因而会议电视开始采用了数字传输方式。随着科学技术发展,会议电视的传输码率在不断降低,使传输频带逐渐减少。图像数字化的关键是压缩编码技术。在保证一定的图像质量下,采用尽可能低的传输速率。早期视频会议,互不兼容的编码算法也是制约市场发展的一个重要因素。在ISDN向宽带B-ISDN发展的形势下,随着多媒体技术的应用日益发展、如电视电话和会议电视业务的需要

4、,1990年7月通过了关于实现会议电视编解码器的H.261建议。该建议适用于px64kbit/s码率,其中p=130。H.261于1990年12月获得CCITT批准,适合于活动图像的压缩编码,广泛用于会议电视和可视电话。这一国际标准促进了视频压缩编码实施实现技术的研究和发展。它是1938年以来电视图像编码领域40年研究的结晶,其基础和核心是混合编码技术,即带有运动补偿的的帧间预测编码+变换编码(2维DCT)+量化+可变长编码。引入CIF格式使标准用于不通的电视制式(如NTSC,PAL)。H.261标准是ITU-T为降低速率而制定的图像压缩编码标准,具有压缩比高,速率可变,图像质量好等优点,可用

5、于远程会议、各种目的的监控图像信息传输业务,同样,也可以应用于图像记录、图像检索等方面。采用H.261标准的图像传输和存储产品市场潜力大,经济效益好。H.261 是最早出现的视频编码建议,目的是规范 ISDN 网上的会议电视和可视电话应用中的视频编码技术。2. 图像信息的压缩编码进入信息时代,人们将越来越依靠计算机来获取和利用信息。而数字化后的视频和音频等媒体信息具有数据海量性,与硬件技术所能提供的计算机存储资源和网络带宽之间有很大差距。这样就对多媒体信息的存储和传输造成了很大困难,成为阻碍人们有效获取和利用信息的一个瓶颈问题。从计算机的软硬件发展水平及发展趋势来看,数字化的媒体信息数据以压缩

6、形式存储和传输仍将是最佳的选择。2.1图像压缩编码的必要性和可能性信息时代的重要特征是信息的数字化,数字化了的信息带来了“信息爆炸”。数字化的视频信号的数据量之大是非常惊人的。以数字电视为例:(1) SIF格式,NTSC制,彩色,4:4:4采样每帧数据量352*240*3=253Kb每秒数据量253*30=7.603Mbit/s一片CD-ROM可存帧数为650/0.253=2865帧/片一片CD-ROM节目时间为(650/7.603)/60=1.42分/片(2) ICCR格式,PAL制,4:4:4采样每帧数据量720*576*3=1.24MB每秒数据量1.24*25=31.3MB一片CD-RO

7、M可存帧数为650/1.24=524帧/片一片CD-ROM节目时间为650/31.1=20.9秒/片再以陆地卫星为例(水平,垂直分辨率分别为2340和3240,四波段,采样精度7位),它的一幅图像的数据量为2340*3240*7*4=212Mbbit,按每天30幅计,每天数据量为212*30=6.36Gbit,每年的数据量高达2300Gbit。从以上列举的数据例子可以看出,数字化信息的数据量是何等庞大,这样大的数据量,无疑给存储器的存储容量,通信干线的信道传输率以及计算机的速度都增加了极大的压力。这个问题是图像技术发展中的一个非常棘手的瓶颈问题。解决这一问题,单纯用扩大存储器容量和增加通信干线

8、的传输率的办法是不现实的。数据压缩技术是个行之有效的方法,通过数据压缩手段把信息数据量降下来,以压缩形式存储和传输,既节约了存储空间,又提高了通信干线的传输效率,同时也使计算机能够实时处理视频信息,以保证播放出高质量的视频节目。那么,图像信息数据压缩可能性如何呢?从信息论观点来看,图像作为一个信源,描述信源的数据是信息量(信源熵)和信息冗余量之和。通过去除那些冗余数据可以使原来的图像数据极大的减少,图像数据压缩技术就是研究如何利用图像数据的冗余性来减少图像数据量的方法。信息冗余量有许多种,如空间冗余,结构冗余,知识冗余,视觉冗余等,数据压缩实质上是减少这些冗余量。可见,冗余量减少可以减少数据量

9、而不减少信源的信息量。下面将介绍一些常见的图像数据冗余的情况。(1)空间冗余这是静态图像存在的最主要的一种数据冗余。一幅图像记录了画面上可见景物的颜色,同一景物表面上各采样点的颜色之间往往存在着空间连贯性,但是基于离散像素采样来表示物体颜色的方式通常没有利用景物表面颜色的这种连贯性,从而产生了空间冗余。(2)时间冗余这是序列图像(电视图像,运动图像)表示中经常包含的冗余。序列图像一般为位于一时间轴区间内的一组连续画面,其中的相邻帧往往包含相同的背景和移动物体,只不过移动物体所在的空间位置略有不同,所以后一帧的数据与前一帧的数据有许多共同的地方,这种共同性是由于相邻帧记录了相邻时刻的同一场景画面

10、,所以称为时间冗余。(3) 结构冗余在有些图像的纹理区,图像的像素值存在着明显的分布模式。称为结构冗余,已知分布模式,可以通过某一过程生成相应图像。(4) 知识冗余有些图像的理解与某些知识有相当大的相关性。例如:人脸的图像有固定的结构。这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。(5) 视觉冗余事实表明,人类的视觉系统对图像场的敏感性是非均匀和非线性的。然而,在记录原始的图像数据时,通常假定视觉系统是线性和均匀的,对视觉敏感和不敏感的部分同等对待,从而产生了比理想编码更多的数据,这就是视觉冗余。(6) 图像区域的相似性冗余它是指在图像中的两个或多个区域所对应的所有像素

11、值相同或接近,从而产生了数据重复性存储,这就是图像区域的相似性冗余。(7) 纹理的统计冗余有些图像纹理尽管不严格服从某一分布规律,但是它在统计的意义上服从该规律。利用这种性质也可以表示图像的数据量,所以我们称为纹理的统计冗余。随着对人类视觉系统和图像模型的进一步研究,人们可能会发现更多的冗余性,使图像数据压缩编码的可能性越来越大,从而推动图像压缩技术的进一步发展。2.2图像压缩编码方法分类编码压缩方法有许多种,从不同的角度出发有不同的分类方法,比如从信息论角度出发可分为两大类:(1)冗余度压缩方法,也成无损压缩、信息保持编码或熵编码。具体的讲就是解码图像和压缩编码前的图像严格相同,没有失真,从

12、数学上讲是一种可逆运算。包括哈夫曼编码,算术编码,游程编码等。(2)信息量压缩方法,也称有损压缩、失真度编码或墒压缩编码。包括预测编码:DPCM,运动补偿;频率域方法:正交变换编码,子带编码;空间域方法:统计分块编码;模型方法:分形编码,模型基编码;1.预测编码(DPCM和运动补偿)预测编码是根据某一种模型,利用以前的(已收到的)一个或几个样值,对当前的(正在接收的)样本值进行预测,对当前样本实际值和预测值差值进行编码。显然如果模型足够好,图像样本时间上相关性很强,一定可以获得较高的压缩比。预测编码原理框图如图1所示。图1预测编码原理框图其中,XN为tN时刻图像样本值;XN根据tN时刻以前的样

13、本值X1,X2,X3,XN-1,对XN所作的预测值;eN=XN-XN差值信号;gN=eN一eN量化误差。预测编码方法的特点:算法简单,速度快,易于硬件实现;编码压缩比不太高,误差易于扩散,抗干扰能力差。2.变换编码(DCT和子带编码)变换编码的基本思路是,先将空域图像通过某种正交变换,获得一系列变换系数,在变换过程中,使图像变换系数能量相对集中,再对其变换系数进行区域量化,按其所含能量大小分配以不同的数据量(比特数)去描述(如高能量区域赋予多比特),这样又可以提高压缩比。变换编码系统框图如图2所示。图2变换编码系统框图3.统计编码根据香农信息论观点,信源冗余度来自信源本身的相关性和信源内事件概

14、率分布的不均匀性。只要找到取出相关性和改变概率分布不均匀性的方法,也就找到了信源统计编码方法(也称嫡编码)。对图像信源来说,既存在帧内像素空间上的相关性,同时也存在像素值概率分布的不均匀性,也就获得了图像信源嫡编码方法。2.3图像压缩解码方法根据在图像压缩编码时采用的方法,我们可以采用相应的解码技术来对图像进行解压缩。一般系统的解码流程如图3所示。图3解码流程3. H.261建议3.1 H.261建议标准及内容1990年12月,CCITT为会议电视/可视电话提出了H。261建议,解决了不同厂商间的产品兼容性问题,推动了电视会议系统的迅猛发展。该建议适用于 P *64Kbit/s码率,并可实现不

15、同电视制式之间的连接。为了适用于不同的彩电制式,不论是625行还是525行的视频信号,都被编码成统一的中间格式(CIF)信号,即亮度信号的抽样结构是:每帧288行,每行360个像素;彩色信号的采样结构是144行/帧*180像素/行。帧频规定为29.97帧/秒,不隔行。CIF的抽样结构如图4所示:图4CIF抽样结果在视频复用单元中形成视频数据结构,每帧图像的开始有图像头,包括图像起始码,信息类型指示等。每帧分成若干个数据块组(GOB),一个块组的大小为CIF图像的1/12或QCIF图像的1/3。每个块组又分成33个宏块。每个宏块有8*8像素的6个子块(4个亮度子块和2个色度信号)构成。这样一来,

16、除了对每个宏块的地址、型式、量化类型、运动矢量、变换系数、结束指示等应有相应的码元外,对应每个GOB的起始码、地址、型式等也应配置相应的码元。H.261建议的编解码器方框如图5所示。图5H.261视频编解码器框图3.2 H.261建议的技术指标3.2.1关于H.261建议(1)传输速率视频编码信号的传输速率为P*64kbit/s(P=l-30),即从64kbit/s到1.92Mbit/s,其算法必须能够实时操作,解码延时要短。(2)视频输入输出信号格式当P=l或2(即码率为64或128kbit/s)时只支持QCIF分辨率格式,每秒帧数较低的可视电话(主要用于传送人头和半身像,显示器小于31cm

17、),对于64kbit/s码率要考虑图像用40kbit/s,余下16kbit/s安排语音;对于128kbit/s码率,话音可考虑为16-64kbit/s,则图像编码码率为64-112kbit/s。时间轴分辨率为10-15帧/s,编码单程最大时延为250ms,要考虑画面中嘴唇和话音的同步。所有的编码都必须能处理QCIF格式,并要求有传送静止图像和图形的能力。当P6时,则可支持CIF图像分辨率格式(30帧/s)的会议电视(要考虑能传送并排坐的三个人像或部分屏幕后的六个人像)。(3)帧结构图像和语音的多路传输,采用64kbit/s AV业务用的帧结构。音频信号按建议G.722模式2编码,与控制和标志信

18、息合并后在符合建议H.261可视音频电信业务用64kbit/s通路的帧结构的一个64kbit/s时隙中传送。(4)信源编码算法信源编码器的一般形式主要有帧间预测、帧内分块变换和量化组成。编码算法分帧内和帧间两种情况。对帧序列中的第一幅图像或景物变换后的第一幅图像,采用帧内变换编码,利用8*8子块的DCT实现。各DCT系数经线性量化,变长编码后进入缓冲器,根据缓冲器的空(下溢)满(上溢)度来调节量化器的步长,以控制视频编码比特流,使之与信道速率(一般为恒定的)相匹配。帧间编码采用混合方法,利用运动补偿预测,当预测误差超过某个预定的闭值时,对误差作DCT,视觉加权量化,以改善图像质量。运动矢量信息

19、编码后也送到缓冲器。(5)误码处理方式传输位流中包含一个BCH(511,493)码,是否用来进行前向纠错,可由编码器任选。(6)图像信源编码的输出采用统计变长编码将数据压缩,再将多路转换为一个位串。3.2.2视频编码的算法3.2.2.1 预测和运动补偿预测在帧间进行,可以加入MC(运动补偿)和空间滤波。在编码器中运动补偿是备用的。对每个宏块,解码器将接纳一个MV(运动矢量),这些MV的水平和垂直分量均为不超过士15的整数值。该矢量用于宏块内的所有4个亮度像块,将其分量的值除以2后取整,就得到用于每一色差像块的MV的整数分量值。MV的水平或垂直分量值为正值时,表明预测是从前一幅画面中空间位置在被

20、预测像素右边或下方的像素形成的。对MV的限制条件是:其全部参考像素都位于已编码的图像区域内。MV的检索方式(全检索或分段检索)可自由设定与选择。3.2. 2. 2环路滤波器 可以用二维空间滤波器来改进预测过程,该滤波器对8*8预测块内的像素进行处理。可将其分离为一维的水平函数与垂直函数,二者均为抽头系数1/4, 1/2和1/4的非递归型结构。在像素边缘,可能会有一个抽头在像块外,此时则将一维滤波器的系数改为0,1,0。二维滤波器的输出为8比特位整数,小数部分四舍五入,可保留完整的算术精度。对于一个宏块内的所有的六个像块,滤波器的接入与断开由宏块的类型(总是包含在发送宏块中并由变长码子唯一区分)

21、决定。3. 2. 2. 3量化编码帧内编码与JPGE标准完全类似。对于DC系数,只用一个量化器;而对于AC系数共用31个量化器。则除了帧内DC系数外,对宏块内的所有系数都采用同一个量化器。帧内DC系数使用量化步长为8的非死区线性量化。其他31个量化器都为线性量化器,但在零周期存在死区,其量化步长为2至62范围内的偶数。对于帧内编码模式,宏块内的六个像块的变换系数均需传输;而在其他的情况下,由宏块类型和编码块模式来指示哪个像块的变换系数数据需要发送。量化后的变换系数也按照Zig Zag扫描方式发送。3. 2. 2. 4编码控制与强制更新视频编码率可以通过改变预处理、量化器、像块重要性判别准则和时

22、域亚取样等参数来控制,他们在整个控制策略中所占比重不受约束,而一旦引用时域亚采样,就将丢弃整帧数据。通过强制使用帧内模式的编码算法来实现强制性刷新,刷新模式未定义。为了控制反变换中的误差积累和误码效应在时间轴上扩散,每发送132次以后,宏块至少要强制更新一次。对于重建图像,也插入限幅功能;简单的将超出0-255范围的像素值限制在0-255内。3.2.3 视频复合编码器图6视频数据的结构如图6所示,视频数据的结构是视频编码标准的重要方面,它定义解码器对比特流正确解码所规定的顺序。共分四层,从顶层到底层,层次为:图像层、块组层(GOB)、宏块层(MB)、块层。(1)图像层图像层由图像头和GOB数据

23、组成,图像头的结构如图7所示。图7图像头的结构其中,图像起始层(pSC),用20比特来表示,其值为00000000000000010000。时间参考(T)R是帧号,用5比特表示,共有32个可能的值;图像类型(PTYPE)是关于整幅图像的信息,占用6比特。比特1列屏指示“0”关“1”开,比特2文件摄像指示器“0”关“1”开,比特3冻结图像释放“0”关“1”开,比特4源编码格式“0”关“1”开,比特5,6备用。图像额外插入信息(PIE)占用1比特。当值为“1”时表示下面要插入可选数据段:图像备用信息(PSPARE)0/8/16比特。仅当PIE为“1”时才能用PSPARE。不过在CCITT做出相应规

24、定以前,编码器不得插入PSPARE比特数据。如果PEI为“1”,则解码器必须舍弃PSPARE比特。(2)块组层每一帧图像均被分成若干数据块组(GO B)。一个块组的大小为CIF图像的1/12或QCIF图像的1/3,如图9所示,一个GOB块包括Y信息的48行乘176个像素和空间相对应的24行乘88个像素的CB,CR信号。其块组头如图8所示,其中,GBSC为块组起始码。 组号(GN)表示块组在图像中的位置,占4比特,13,14,15保留组号0用PSC。 量化器信息(GQUNT)用5比特表示块组使用的量化器参数。不过真正的量化器参数由后面的MQUANT所定义。 组额外插入信息(GEI),组备用信息(

25、GSPARE)与图像层中PEI形似,用于CCITT将来的扩展用途。图8块组头的结构图9图像的块组排列(3)宏块层每个块组被分成图10所示的33个宏块,每宏由16*16像素的Y信号和与之空间相对应的8*8CB,CR信号组成。宏块头如图11所示。图10块组的宏块排列图11宏块头的结构宏块地址(MBA)指交换宏块在块组中的位置,传输顺序如上图所示进行。对于块组中的一个发送的块,MBA是其绝对地址。随后传送的宏块,MBA则是该宏块绝对地址与前一个发送宏块绝对地址的差值。MBA总是包含在发送的宏块中。当宏块不包含图像部分的信息时,宏块不被传送。MTYPE总是包含在发送的宏块中。非运动补偿的宏块,可声明当

26、作零矢量MC+IFL来使用滤波器。量化器(MQUANT)5比特,只有当MTYPE指示时,MQUANT才存在,MQUANT占用5比特,指示该宏块块组中其他宏块所使用的量化器,直到MQUANT改变为止。MQUANT的码字与GQUANT的码字相同。运动矢量数据(MVD)可变长度,所有的运动补偿(MC)宏块都包含有运动矢量数据。MVD是由当前宏块矢量减前一个宏块矢量得到的。编码块模式(CB)P可变长度,若由MTYPE指示则存在CBP。该码字给出了宏块中表示的那些模式号,而该宏块中至少有一个变换系数被传送。(4)块层块层的结构如图12所示。块数据由变换系数的码字和块结束标志(EOB)组成。图12块层结构

27、变换系数(TCOEF F),变换系数采用Zig Zag扫描方式,将二维变换系数变换成一维数据形式,经量化后,进行游程编码。最常出现的(RNU,LEVEL)组合,采用可变长编码。其他组合采用20比特的等长码,20比特中,6比特为ESCAPE,6比特为RNU(游程)和8比特为LEVEL。对可变长度编码而言,有两个码表,第一个码表供在INTER,INTER+MC和INTER+MC+FIL块中的第一个传送的LEVEL使用。第二个码表供其他的LEVEL使用,但INTRA块中的一个所传送的LEvEL除外,该LEVEL用固定的8比特长度进行编码。3.2.4 传输解码器3.2.4.1比特率传输时钟由外部提供。

28、3.2.4.2视频数据缓冲为了获得固定的码率,编码器必须控制它的输出比特流。当用CIF图像格式时,任意一幅图像的编码比特数不得超过256Kbit/s(k=1024)。而用QCIF图像时,其编码比特数则不超过64kbit/s。这两种情况,其比特计数包括图像起始码和所有与图像有关的其他数据,但不包括纠错组帧比特,填充标志,填充比特或纠错奇偶校验信息。视频数据必须在每个有效的时钟周期上提供,这可以通过使用填充比特指示(FI)和在纠错块组帧中连续填充全“1”来保证。3.2.4.3视频编码延时为了能使视频和音频保持同步,视频编解码必须允许一定的视频编码延时。3.2.4.4编码视频信号前向纠错(1)误码校正码编码器输出的比特流中包含了BCH(511,493)前向纠错编码,这种纠错编码的使用对解码器来说是可选的。(2)生成多项式gx=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论