第五章视频编码国际标准_第1页
第五章视频编码国际标准_第2页
第五章视频编码国际标准_第3页
第五章视频编码国际标准_第4页
第五章视频编码国际标准_第5页
已阅读5页,还剩126页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五讲

视频压缩编码国际标准简介视频编码发展简史H.261(1988)MPEG-1(1993)H.263(1995)H.263+(1998)H.263++(2000)H.264(MPEG-4Part10)(2003)MPEG-4v1(1999)MPEG-4v2(2000)MPEG-4v3(2001)198819901992199419961998200020022003ISO/IECJPEG(1992)ITU-TMPEG-2(H.262)(1994)AVS视频图像编码标准编码标准全称传输码率主要应用H.261P×64kbps的音/视频服务的编/解码P×64kbpsP=1~30ISDN视频会议MPEG-1面向数字存储的运动图像及伴音编码1.5MbpsVCD,CD-ROMMPEG-2运动图像及伴音的通用编码4~100MbpsDVD,HDTV,VOD,DABH.263低比特率通信的视频编码低于64kbps远程视频监控,可视电话,电视会议MPEG-4音/视频对象的通用编码小于64kbps64~384kbps384kbps~4MbpsInternet通信,无线通信,2D/3D计算机图像交互式视频MPEG-7多媒体内容描述接口任意多媒体检索H.264/AVC高级视频编码算法任意未来视频编码工业标准静态图像压缩标准MPEG数字视频压缩标准H.26X视频压缩标准1概述JPEG(JointPhotographicExpertsGroup)是一个由ISO和IEC两个组织机构联合组成的一个专家组1986年开始制定,1992年成为国际标准JPEG是国际上彩色、灰度、静止图像的第一个国际标准,也是一个适用范围广泛的通用标准。它不仅适用于静止图像的压缩,电视图像序列的帧内图像的压缩编码,也常采用JPEG压缩方法。可用于多媒体CD-ROM,彩色图像传真,图文档案管理等。JPEG包括有损压缩(DCT为基础)和无损压缩(采用预测压缩方法)两种编码方案。6.1静态图像的国际压缩标准JPEG压缩比——10:1--100:1(一般压缩比≯40:1)试验表明,经压缩25倍还原后的彩色图像与原图相比,对非行家来说很难加以区别。在损失某些图像信息的情况下,JPEG可以把图像压缩比提的更高。例如当把30:1的压缩比用于一个全彩色的图像帧时,要求的图像存储空间就从1000K降至33K,而数据传输率则降至每秒1MB,这就降到了目前大多数存储设备可以处理的范围内了。2图像预处理(数据结构)

根据JPEG标准,源图像以帧为单位,每帧图像最多由4个分量图像组成,分量图像用符号Ci表示,i=1,2,3,4,例如一帧彩色图像由三个分量组成:C1=Y,C2=Cr,C3=Cb。由于眼睛对色度不敏感,色度分量的像素可以减少。基于DCT运算量的考虑,编码时每个分量图像均分为8×8的像块(block),块内的64个数据组成一个数据单元DU,16×16空间区域内的所有分量数据单元组成为一个最小编码单元MCU,MCU是进行DCT的准备。例如对取样率4:1:1的彩色图像,一个MCU包含4个Y分量DU、一个Cr分量DU和一个Cb分量DU,如右图。在JPEG中,定义了三种编码系统1)用于无失真应用场合的无损系统2)基于DCT的有损编码基本系统3)用于高压缩比、高精度或渐进重建应用的扩展编码系统3编解码系统预测器熵编码器表说明无失真编码器源图像数据压缩图像数据无失真编码简化框图基于DPCM的无失真编码优点是硬件易实现,重建图像质量好。缺点是压缩比太低,大约为2:1。(1).基于DPCM的无失真编码

(2).基于DCT的基本编码系统

图像子块的划分离散余弦变换量化处理DC系数的编码和AC系数的行程编码熵编码基本系统的编解码基本步骤颜色模式转换及采样;DCT变换;

量化;

编码;基于DCT的编码过程表说明压缩图像数据表说明88块(YUV每个分量)子块划分DCT变换量化行程编码熵编码数字图象JPEG码图象子块的划分

子块的大小---8×8像元

目的:提高相关性640×480大小标准图象,划分结果有4800个子块

色彩子采样减少子块个数

VUYVUY离散余弦变换(DCT)

F(7,7),AC分量高端F(0,0),DC分量子块8x8的DCT系数特点:DC分量为子块的平均灰度,系数分布集中在低频端量化

1612141418244972111213172235649210141622375578951619242956648798242640516881103112405857871091041211005160698010311312010361555662779210199量化表根据人的视觉特点,子块DCT系数中高低频分量采用不同量化台阶,使高端系数更小,等于0值亮度量化表JPEG推荐的量化表JPEG使用的颜色是YCrCb格式。Y分量代表了亮度信息,CrCb分量代表了色差信息。相比而言,Y分量更重要一些。可以对Y采用细量化,对CrCb采用粗量化,可进一步提高压缩比。所以量化表通常有两张,一张是针对Y的,一张是针对CrCb的.JPEG基本算法的量化表是从广泛的实验中得出来的。下表分别给出了JPEG标准所推荐的亮度量化表和色度量化表。161110162440516112121419265860551413162440576956141722295187806218223756681091037724355564811041139249647887103121120101729295981121001039917182447999999991821266699999999242656999999999947669999999999999999999999999999999999999999999999999999999999999999999999999999亮度量化表色度量化表

量化表中的元素皆为1-255之间的任意整数,其值规定了所对应DCT系数的量化步长。当频率系数经过量化后,将频率系数由浮点数转变为整数,这才便于执行最后的编码。不过,经过量化阶段后,所有数据只保留整数近似值,也就再度损失了一些数据内容,带来了失真。编码直流系数(DC)的编码

因为图像中相邻块之间有很强的相关性,JPEG标准对DC系数采用DPCM编码(差分编码)方法,即对相邻的8×8像素块之间的DC系数的差值进行编码,可以提高压缩比。这个差值可用公式表示为:交流系数(AC)编码

F矩阵中有63个元素是交流(AC)系数,可采用行程编码进行压缩。需要考虑的问题是:这63个系数应该按照怎么样的顺序排列?为了保证低频分量先出现,高频分量后出现,这63个元素采用了“之”字型(Zig-Zag)的排列方法,称之为Z形扫描。Z型扫描算法能够实现高效压缩的原因之一是经过量化后,大量的DCT矩阵元素被截成0。而且零值通常是从左上角开始沿对角线方向分布的。由于这么多0值,对0的处理与对其他数的处理不大相同的,采用行程编码算法(RLE)沿Z型路径可有效地累积图像中的0的个数,所以这种编码的压缩效率非常高。差分编码和行程编码

量化后:DC系数差分编码

AC系数Z字型行程编码

编码后得到两类数码形式:AC分量-行程码DC分量-差分码变长码集合JPEG建议:在基本系统中使用哈夫曼(Huffman)编码

76543210行程位数幅值符号1符号2AC分量行程码的表达方式76543210位数差值符号1符号2DC分量差分码的表达方式图2.13AC系数行程编码码字两个非0值间连续0的个数

表示下一个非0值需要的bit数

下一个非0实际值7430字节1字节2例子:对“…,3,0,0,0,0,0,12,0,0,…”编码…,(5,4),(12),….为了进一步达到压缩数据的目的,需要对DC码和AC行程编码的码字再作基于统计特性的熵编码(entropycoding)。JPEG建议使用两种熵编码方法:哈夫曼编码和自适应二进制算术编码。熵编码可分成两步进行,首先把DC码行程码字转换成中间符号序列,然后给这些符号赋以变长码字。熵编码

基于DCT的解码过程熵解码器IDCT表说明解码器逆量化器表说明88块压缩图像数据恢复的图像数据4.基于DCT的累进操作方式编码顺序方式:每个图像分量的编码一次扫描完成的;

累进方式:图像分量编码要经过多次扫描才完成。累进方式第一次扫描只进行一次粗糙图像的扫描压缩,以相对于总的传输时间快得多的时间传输粗糙图像,并重建一帧质量较低的可识别图像;在随后的扫描中再对图像作较细的压缩,这时只传递增加的信息,可重建一幅质量提高一些的图像。这样不断累进,直到满意的图像为止。需在量化器的输出与熵编码的输入之间,增加一个足以存储量化后DCT系数的缓冲区,对缓冲区中存储的DCT系数多次扫描,分批编码。5.基于DCT的分层操作方式(1)把原始图像空间分辨率降低。(2)对已降低分辨率的图像采用基于DCT的顺序方式、累进方式或无失真预测编码中的任何一种编码方法进行编码。(3)对低分辨率的图像解码,重建图像,使用插值滤波器,对它插值,恢复图像的水平和垂直分辨率。(4)把分辨率已升高的图像作为原始图像的预测值,对它们的差值采用基于DCT的顺序方式、累进方式或用无失真方式进行编码。(5)重复(3)、(4)直到图像达到完整的分辨率编码。JPEG举例源图像质量38384bytes

高质量压缩(Highquality),11331bytes

中等质量(Mediumquality),6968bytes

低质量(Lowquality),3687bytes在一般的图像处理软件中,对一幅图像按JPEG格式进行压缩时,用户可以选择压缩品质因子(QualityFactor)。Photoshop图像软件按四大类质量(低、中、高、最佳),把压缩品质分为0—12等级PhotoPaint图像软件把质量因子量化为2-250等分。基于DCT的JPEG压缩效率

比特/象素(bpp)质量0.25~0.50中~好,满足某些应用0.50~0.75好~很好,满足多数应用0.75~1.5极好,满足大多数应用1.5~2.0与原始图像分不出压缩质量maximummediumlow质量因子

830压缩比

3.7:17.1:18.8:1Factor:100Size=326321bytes

Factor:50Size=46295bytesFactor:25Size=29360bytes

Factor:5Size=9438bytes6.新一代静态图像压缩标准---JPEG2000

JPEG所具有的优良品质,使它获得极大的成功。然而,随着多媒体应用领域的激增,传统JPEG压缩技术也存在着许多不足,无法满足人们对多媒体图像资料的要求。DCT将图像分割为8×8的小块,然后依次放入文件中,这种算法靠丢弃频率信息实现压缩,因而图像的压缩率越高,频率信息被丢弃的越多。在极端情况下,JPEG图像只保留了反映图像外貌的基本信息,精细的图像细节都损失了。

JPEG2000与传统JPEG最大的不同,在于它放弃了JPEG所采用的以离散余弦变换(DiscreteCosineTransform)为主的区块编码方式,而改采以小波转换(Wavelettransform)为主的解析编码方式。JPEG20002000年12月公布的新的JPEG2000标准(ISO15444),其目标是在高压缩率的情况下,如何保证图像传输的质量。JPEG2000与JPEG的区别:采用了以小波变换为主的多分辨率编码方式统一了面向静态图像和二值图像的编码方式既支持低比率压缩又支持高比率压缩JPEG2000的主要特点:(1)高压缩率。与JPEG相比,可修复约30%的速率失真特性。JPEG和JPEG2000在压缩率相同时,JPEG2000的信噪比将提高30%左右;(2)无损压缩。预测编码作为对图像进行无损编码的成熟方法被集成在JPEG2000中;(3)渐进传输。JPEG2000可实现以空间清晰度和信噪比为首的各种可调节性,从而实现渐进传输,即具有“渐现”特性;(4)感兴趣区域压缩。JPEG2000支持所谓的“感兴趣区域”。测试结果表明,JPEG2000压缩效果更优秀,特别是在高压缩比的情况下。JPEG2000纠错能力很强,在文件传输中,有恢复丢失数据包的能力。可以指定最后文件的大小。静态图像压缩标准H.26X视频压缩标准MPEG数字视频压缩标准H.261H.261是用于视频会议和可视电话业务的以p×64kbps,p=1,…,30的速率在综合业务数字网(ISDN)上传送视频信号的压缩标准。H.261颁布于1990年,主要用于双向视频通信,允许的最大编码延迟为150ms。它的输入图象格式为通用(同时适用于625线和525线的视频标准)中间格式CIF(352x288),低端可用其四分之一大小的QCIF(176x144)格式,帧率为30,15,10,7.5四种,隔行(interlaced)视频,宽高比4:3。H.261的编码方案是基于DCT和DPCM的预测编码算法,运动每帧图象分成8x8的子块,再组成宏块、块组,宏块由4个8x8的亮度块和2个8x8的色度块组成,每个块组由3x11个宏块组成。每幅QCIF图象有3个块组;每幅CIF图象有12个块组,形成一个多层次的块结构。

H.263是ITU-T制定的适合于低速视频信号的压缩标准。大多数用户相当一段时间内最方便的是公用电话线,以V.34为标准的调制解调器支持在电话线中传输速率可达28.8kbps或33.6kbps,甚至56kbps。H.263是在H.261基础上扩展形成的,支持的图像格式包括Sub-QCIF(12896),QCIF,CIF,4CIF,16CIF(14081152)等。

其中主要采用的改进技术有:H.263

(1)半像素精度的运动补偿在H.261中,运动矢量的精度为1个像素,H.263运动矢量的估值精度达到半个像素。精度的提高使运动补偿后的帧间误差减少,从而降低了码率。(2)不受限的运动矢量当运动跨越图像边界时,由运动矢量所确定的宏块位置可能有一部分落在边界之外,此时可以用边界上的像素值表示界外的像素值,从而降低预测误差。(3)用基于句法的算术编码代替Huffman编码(可选项)这是一种效率较高的自适应算术编码。

(4)先进的预测模式(可选项)对宏块中的4个亮度块分别进行运动估值获得4个运动矢量。虽然此时传输运动矢量的比特数增加一些,但由于预测误差的大幅度降低,仍然使总码率降低。(5)PB帧模式(可选项)虽然使用双向预测的B帧可以降低码率,但是却要引入附加的编码延时和解码延时。为了降低延时,H.263采用了P帧和B帧作为一个单元来处理的方式,即将P帧和由该帧与上一个P帧所共同预测的B帧一起进行编码。标准简介JVT(JointVideoTeam)是由国际标准化组织运动图像专家组(ISOMPEG)和国际电信联盟视频编码专家组(ITU-TVCEG)成立的联合视频工作组,致力于开发低比特率视频标准;JVT标准于2003年推出H.264/AVC标准在ISO/IEC中正式名称为MPEG-4Part10,称之为“ISO/IEC14496Part10高级视频编码算法”(ISO/IEC1449610AVC)新一代视频压缩标准H.264/AVC

新一代视频压缩标准H.264/AVCH.264/AVC的档次和结构H.264/AVC编解码器帧内预测帧间预测一、档次与等级H.264主要支持4:2:0格式的连续或隔行视频的编解码,4:2:2和4:4:4可作为额外的参考信息参数;根据应用领域不同,制定了不同的算法集合和技术限定,共分为3个档次:基本档、主档和扩展档;在每一档次设置了不同的参数,每个档次下面又划分为不同的等级;基本档是扩展档的子集,但不是主档的子集。H.264档次档次技术特点典型应用基本档利用I片和P片支持帧内和帧间编码,支持利用基于上下文的自适应变长编码进行熵编码;支持灵活的宏块组织顺序;片之间是相互独立的可任意顺序传输到解码端视频会话、如会议电视、可视电话、远程医疗、远程教学等主档支持隔行视频,采用B片的帧间编码和加权预测的帧内编码;采用基于上下文的自适应算数编码消费电子应用,如数字电视广播、数字视频存储等扩展档支持码流之间的有效切换(SP和SI片)、改进抗误码性能;不支持隔行视频和基于上下文的自适应算数编码网络视频流,如视频点播、流媒体等H.264标准从概念上将编码结构分为两层:上层为视频编码层;底层为网络抽象层。控制数据视频编码层VCL数据分割网络适配层NALH.320MPEG-4H.323/IPMPEG-2其他编码宏块编码片/分区视频编码层负责完成高效率的视频压缩任务,网络适配层将视频编码层从具体的传输层中抽象出来,负责解决网络的适配问题,即根据使用环境对不同网络采用最为合适的方式对数据进行打包和传送,以使得码流对各类信道都具有良好的适应能力;对上层,从视频编码层获得数据,包括头信息、视频压缩数据信息;对下层,依据具体传输网络的特性对数据进行封装,包括成帧、发送信号至逻辑信道、利用同步信息等,定义适合传输层或存储介质需要的数据格式,提供头信息,将视频编码数据正确的映射到H.323、H.324等具体的传输协议上,从而提供视频编码层与外部世界的接口。二、H.264/AVC编解码器1、编码原理仍然采用经典的运动补偿混合编码算法;编码图像分为3种:I帧、P帧和B帧;此外H.264还定义了新的SP帧和SI帧,用以实现不同的传输速率、不同图像质量码流间的快速切换以及信息丢失的快速恢复等功能;H.264将一视频图像编码成一个或多个片,一个片由一系列按光栅扫描顺序排列的宏块构成,每片包含整数个宏块或一幅图像的全部宏块。片和片组

片一个视频图像可编码成一个或更多个片,每片包含整数个宏块(MB),即每片至少一个MB,最多时每片包含整个图像的宏块。设片的目的是为了限制误码的扩散和传输,使编码片相互间是独立的。某片的预测不能以其它片中的宏块为参考图像,这样某一片中的预测误差才不会传播到其它片中去。编码片共有5种不同类型,I片、P片、B片外,还有SP片和SI片。其中SP(切换P)是用于不同编码流之间的切换。

图4片的句法结构片和片组

片组

片组是一个编码图象中若干MB的一个子集,它可包含一个或若干个片。在一个片组中,每片的MB按光栅扫描次序被编码,如果每幅图象仅取一个片组,则该图象中所有的MB均按光栅扫描次序被编码。还有一种片组,叫灵活宏块次序(FMO),它可用灵活的方法,把编码MB序列映射到解码图象中MB的分配用MB到片组之间的映射来确定,它表示每一个MB属于哪个片组。下图为MB到片组的各种映射类型。

MB到片组的映射类型名称描述0交错MB游程被依次分配给每一块组(图a)1散乱每一片组中的MB被分散在整个图象中(图b)2前景和背景例见图c3Box-out从帧的中心开始,产生一个箱子,其MB属于片组0,其它MB属于片组(图d)4光栅扫描片组0包含按光栅扫描次序从顶-左的所有MB,其余MB属片组1(图e)5擦式扫描片组0包含从顶-左垂直扫描次序的MB,其余MB属片组1(图f)6显式每一Mbslice_group_id,用于指明它的片组(即MB映射完全是用户定义的)采用帧内编码时首先选择相应的帧内预测模式进行预测;随后对实际值和预测值之间的差值进行变换、量化和熵编码;同时编码后的码流经过反量化和反变换之后重构预测残差图像,与预测值相加得出重构帧,结果经环路滤波器平滑后送入帧存储器;采用帧间编码时首先在参考帧中进行运动估计,之后的残差图像经整数变换、量化和熵编码后与运动矢量一起送入信道传输。2、解码原理首先根据语法元素判断:为帧内编码直接进行反量化、反变换重构;为帧间编码得到的为残差图像,需要根据帧存储器中的参考图进行运动补偿后与残差图叠加。三、帧内预测子块内部和子块之间的像素具有空间冗余性;自然场景图像中的前景和背景通常具有一定的纹理特性,按其方向性可分为水平纹理、垂直纹理和倾斜纹理等;——为空域的帧内预测创造了条件MPEG-1/2帧内编码采用DCT、量化和熵编码;H.263+和MPEG-4中I帧采用基于频域的帧内预测;H.264基于空间的像素值进行预测,对于每个4×4块每个像素可用17个最接近的先前已编码像素的不同加权和来预测。H.264对亮度分量(两种预测模式)和色度分量(一种预测模式)设定不同预测方案,独立实施预测。各预测模式中详细定义了多种预测选项适应不同纹理特性的图像子块。在帧内预测模式中,预测块P是基于已编码重建块和当前块形成的。对亮度像素而言,P块用于4×4子块或者16×16宏块的相关操作。4×4亮度子块有9种可选预测模式,独立预测每一个4×4亮度子块,适用于带有大量细节的图像编码;16×16亮度块有4种预测模式,预测整个16×16亮度块,适用于平坦区域图像编码;色度块也有4种预测模式,类似于16×16亮度块预测模式。编码器通常选择使P块和编码块之间差异最小的预测模式。4×4亮度预测模式

如图所示,4×4亮度块的上方和左方像素A~M为已编码和重构像素,用作编解码器中的预测参考像素。a~p为待预测像素,利用A~M值和9种模式实现。4×4亮度预测模式

图中箭头表明了每种模式预测方向。其中模式2(DC预测)根据A~M中已编码像素预测,而其余模式只有在所需预测像素全部提供才能使用。对模式3~8,预测像素由A~M加权平均而得。例如,模式4中,d=round(B/4+C/2+D/4)。s0=0;if(block_available_up&&block_available_left){s0=(P_A+P_B+P_C+P_D+P_I+P_J+P_K+P_L+4)/(2*BLOCK_SIZE);}//如当前块上块和左块存在,则块内亮度值为上块参考点值与左块参考点值的均值。//后面加上4是因为/8是右移(取整)操作,加上4可以转换为四舍五入。elseif(!block_available_up&&block_available_left){s0=(P_I+P_J+P_K+P_L+2)/BLOCK_SIZE;}//如上块不存在,则取左块参考点值的均值elseif(block_available_up&&!block_available_left){s0=(P_A+P_B+P_C+P_D+2)/BLOCK_SIZE;}//同上else{s0=img->dc_pred_value;}//如都不存在,则取128for(j=0;j<BLOCK_SIZE;j++){for(i=0;i<BLOCK_SIZE;i++){img->mprr[DC_PRED][i][j]=s0;//直流预测,DC_PRED为预测模式。}}16×16亮度预测模式宏块的全部16×16亮度成分可以整体预测,有4种预测模式,如下所示。16×16预测模式模式描述模式0(垂直)由上边像素推出相应像素值模式1(水平)由左边像素推出相应像素值模式2(DC)由上边和左边像素平均值推出相应像素值模式3(平面)利用线形“plane”函数及左、上像素推出相应像素值,适用于亮度变化平缓区域16×16亮度预测模式8×8色度块预测模式

每个帧内编码宏块的8×8色度成分由已编码左上方色度像素预测而得,两种色度成分常用同一种预测模式。4种预测模式类似于帧内16×16预测的4种预测模式,只是模式编号不同。其中DC(模式0)、水平(模式1)、垂直(模式2)、平面(模式3)。

帧内预测模式编码例如:如果A块和B块的最优预测模式均是预测模式2,那么,最可能当前块C的最优预测模式是模式2对于当前块C,编解码器按照如下方法计算probablepredictionmode=min{predictionmodeofA,predictionmodesofB}当A(或者B)的预测模式不可用时,predictionmodeofA=2.例如

A和B块的预测模式分别为3和1

mostprobablemodeforblockC=1编码器为每个4x4块发送一个标记flag,解码器按照如下方式解码Ifflag==1,predictionmode=most_probable_modeIfflag==0Ifrem_intra4×4_pred_mode<most_probable_modepredictionmode=rem_intra4×4_pred_modeelsepredictionmode=rem_intra4×4_pred_mode+1这样表示9中预测模式只需要8个值(0to7)

四、帧间预测

树状结构运动补偿

每个宏块(16×16像素)可以4种方式分割:一个16×16,两个16×8,两个8×16,四个8×8。其运动补偿也相应有四种。而8×8分割还可以有四种方式的分割:一个8×8,两个4×8或两个8×4及4个4×4。这种分割下的运动补偿则称为树状结构运动补偿。树状结构运动补偿

每个分割或子宏块都有一个独立的运动补偿。每个MV必须被编码、传输,分割的选择也需编码到压缩比特流中。对大的分割尺寸而言,MV选择和分割类型只需少量的比特,但运动补偿残差在多细节区域能量将非常高。小尺寸分割运动补偿残差能量低,但需要较多的比特表征MV和分割选择。分割尺寸的选择影响了压缩性能。整体而言,大的分割尺寸适合平坦区域,而小尺寸适合多细节区域。宏块的色度成分(Cr和Cb)则为相应亮度的一半(水平和垂直各一半)。色度块采用和亮度块同样的分割模式,只是尺寸减半(水平和垂直方向都减半)。例如,8×16的亮度块相应色度块尺寸为4×8,8×4亮度块相应色度块尺寸为4×2等等。色度块的MV也是通过相应亮度MV水平和垂直分量减半而得。举例:如下图:一个残差帧(没有进行运动补偿)。H.264编码器为帧的每个部分选择了最佳分割尺寸,使传输信息量最小,并将选择的分割加到残差帧上。在帧变化小的区域(残差显示灰色),选择16×16分割;多运动区域(残差显示黑色或白色),选择更有效的小的尺寸。上图是一帧图像在没有进行运动补偿前采用最优分块方式预测后的残差信号。可以看出,图中的背景等高频信息很弱的部分块划分都比较大,但是在面部和肢体等细节较多的部分分块比较小。采用最优分块方式划分后的残差信号帧

在H.264参考软件模型中采用码率失真优化策略RDO(RateDistortionOptimisation)和穷尽搜索方式来选择最佳的运动预测块尺寸,即对各种块模式依次进行运动估计,再根据码率-失真度优化原则择取最优模式作为当前宏块的帧间预测模式,这样会耗费过多的编码处理时间。因此有必要在运动估计之前选择块尺寸,以减少运动预测和RDO的计算量。:原始采样点

:预测样点

运动矢量帧间编码宏块的每个分割或者子宏块都是从参考图像某一相同尺寸区域预测而得。两者之间的差异(MV)对亮度成分采用1/4像素精度,色度1/8像素精度。亚像素位置的亮度和色度像素并不存在于参考图像中,需利用邻近已编码点进行内插而得。当前帧的4×4块通过邻近参考图像相应区域预测。如果MV的垂直和水平分量为整数,参考块相应像素实际存在。如果其中一个或两个为分数,预测像素通过参考帧中相应像素内插获得。小数像素插值每一个帧间编码的宏块都是通过对参考帧中相同大小的宏块预测得到的。两个块之间的位移即运动矢量对于亮度块可以达到1/4像素的精度。由于在1/4像素位置上实际并没有实际的像素存在。因此需要通过内插来得到相应位置上的像素值。图中是当前帧中的一个4×4大小的块,可以通过相邻的块进行预测。如果水平和垂直方向的位移矢量都是整数,如图所示,那么可以通过采用已有的像素进行内插得到半像素精度的点,通过内插得到的半像素点可以再次预测得到1/4像素精度的运动矢量,然后再进行搜索。因此H.264的运动预测包含两个步骤:首先进行整像素搜索,其次再以整像素搜索最佳位置为中心进行1/4像素搜索。

亮度半像素位置内插内插像素生成:生成参考图像亮度成分半像素像素。半像素点(如b,h,m)通过对相应整像素点进行6抽头滤波得出,权重为(1/32,-5/32,5/8,5/8,-5/32,1/32)。类似的,h由A、C、G、M、R、T滤波得出。一旦邻近(垂直或水平方向)半素点的所有像素都计算出,剩余的半像素点便可以通过对6个垂直或水平方向的半像素点滤波而得。例如,j由cc,dd,h,m,ee,ff滤波得出。这里说明的是,6抽头滤器比较复杂,但可明显改善运动补偿性能。亮度1/4像素内插半像素点计算出来以后,1/4像素点就可通过线性内插得出,如图4所示。1/4像素点(如a,c,i,k,d,f,n,q)由邻近像素内插而得,如

剩余1/4像素点(p,r)由一对对角半像素点线性内插得出。如,e由b和h获得。帧间预测:¼像素精度CDABEKLMNOPFGHIJTURSccddeeffaabbgghhbacefgijkpqrdhnmsb1=(E-5F+20G+20H-5I+J)h1=(A-5C+20G+20M-5R+T)b=(b1+16)>>5h=(h1+16)>>5----------j1=cc-5dd+20h1+20m1-5ee+ffj=(j1+512)

>>10----------a=(G+b+1)>>1e=(b+h+1)>>1clippedto0~255clippedto0~2553、SP/SI帧编码为了适应视频码流带宽自适应特性和抗误码性能要求,在扩展档次中定义了两种新的帧类型:SP帧(SwitchingPPicture)和SI帧(SwitchingPPicture);SP/SI帧特有的编码方法使压缩码流能在不插入I帧的情况下同样实现码流的随机切换功能;SP帧可在诸如码流拼接、随机接入、快进/快退等应用中取代I帧,获得比I帧更高的编码效率;对于多参考帧模式下SP帧能采用统一的重建过程,更利于码流错误恢复和隐藏;通过使用SP/SI帧,能非常好的适应视频数据在各种传输环境下的应用,如视频监视器之间快速切换、广播电视插播、网络错误重发等。A0A1A2A3A4SP帧码流AB0B1B2B3B4切换点码流BP帧使用SI帧实现视频流的拼接SI码流拼接P帧P帧SI帧不使用运动补偿,所以适合于两种序列之间没有相关性

主要的改进方式:帧内预测编码帧间预测多模式选择SP/SI低复杂度变换和量化对传输错误的鲁棒性和对不同网络的适应性H.264的问题(1)虽然H.264/AVC的编码效率远比以先前的视频编码标准高,但由于其具有相当复杂的编码技术及模式选择,使得其运算复杂度也远高于先前的编码标准。根据JVT会议文件的评估结果,H.264参考编解码软件相较于MPEG-4,其编码器复杂度约为10倍以上,而解码器复杂度则为3倍以上。如此高的复杂度将使得H.264难以使用在具有即时需求的应用上。因此如何在不致牺牲H.264/AVC的编码效率之前提下,降低其运算复杂度使其适于实用化的程度,为目前相当重要的研究方向。H.264的问题(2)此外,实际的无线和IP信道会导致误码产生,例如:无线信道中的多径衰落产生误码和IP信道上的阻塞丢包等。由于信道带宽的限制,视频通信的数据往往是压缩编码以后的数据,而压缩以后的数据对误码非常敏感,造成误码环境下恢复图像质量严重下降。因此,如何采用多种有效的抗误码方法来保证恢复视频的质量,也值得加以研究。静态图像压缩标准H.26X/AVC视频压缩标准MPEG数字视频压缩标准MPEG-1

MPEG-1是1992年通过的视频压缩标准,用于CIF格式的视频在速率约1.5Mbps的各种数字存储介质(如CD-ROM,DAT,硬盘及光驱等)上的编码表示,主要应用在交互式多媒体系统中;MPEG-1算法与H.261算法相似,它在1.5Mbps(视频信号)速率下压缩和解压缩CIF格式的视频质量与VHS记录的模拟视频质量相当;它是一种通用标准,规定了编码位流的表示语法和解码方法,提供的支持操作有运动估计、运动补偿预测、DCT、量化和变长编码。MPEG-1的特点有:(1)随机存取,(2)支持快速双向搜索,(3)允许大约1秒的编码/解码延迟,比H.261的150ms内的严格限制松得多。MPEG-2/H.262MPEG-2是1993年通过的视频压缩标准,用于高清晰度视频和音频的编码,也包含用于可视电话中的超低码率(8-32kbps)的压缩编码;MPEG-2是MPEG-1的兼容扩展,广泛应用于各种速率(2-20Mbps)和各种分辨率情况下的场合;MPEG-2不仅接受逐行扫描视频,也可以接受隔行扫描视频,高清晰度视频,提供可伸缩调节的位流,提供改进的量化和编码选项。MPEG-4

低于64kbps甚低数据率,交互式多媒体应用标准;

MPEG-4利用了人眼视觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,基于对内容的访问;AV对象(AVO,AudioVisualObject)是MPEG-4为支持基于内容编码而提出的重要概念;视音频已不再是图像帧的概念,而是一个个视听场景;把编码对象从图像帧到任意形状的视频对象,实现从基于像素的传统编码到基于对象和内容的现代编码。

采用开放的编码系统,可随时加入新的编码算法模块,同时也可根据不同应用需求现场配置解码器,以支持多种多媒体应用;MPEG-7

多媒体内容描述标准,支持对多媒体资源的组织管理、搜索、过滤和检索;MPEG-21

多媒体框架和综合应用方面的框架。目标是建立一个交互的多媒体框架,该标准致力于在大范围的网络上实现透明的传输和对多媒体资源的充分利用。对象形成及跟踪基于语义基于对象基于像素对象特征提取MPEG-7MPEG-4MPEG-1MPEG-2数字声像存储压缩编码标准MPEG-1tIMPEG图象序列······BBPBBIBBBBPMPEG-1(ISO/IEC11172)标准于1993年8月公布,用于传输1.5Mbit/s数据传输率的数字存储媒体运动图像及其伴音的压缩编码数据。MPEG-l标准主要用于多媒体存储与再现,如VCD、硬盘和光盘等,它的任务是将视频信号及高质量伴音以可接受的重建质量压缩到约1.5Mbit/s的码率,并复合成一个单一的MPEG位流,同时保证视频和音频的同步。简化的MPEG-1编码框图

基本的MPEG-1解码器框图有损1量化从10bits降为8bits无损2省略水平和垂直空白间隔有损3降低垂直方向色度分辨率(4:2:0)无损4活动图像的DPCM有损5DCT和量化无损6Z扫描和零序列的游程编码无损7Huffman编码-20%量化10bits到8bits270Mbit/s216Mbit/s-25%忽略水平和垂直空白间隔166Mbit/s-25%降低垂直色度分辨率(4:2:0)124.5Mbit/s进一步数据压缩步骤2~6Mbit/sDPCMZ扫描+VLCHuffman编码进一步数据压缩DCT+量化MPEG-1视频编码和解码1、视频帧类型帧内图(intrapicture,I帧)——对I帧的编码类似于JPEG,支持随机存取,压缩比低;预测图(predictedpicture,P帧)——是运动主体在与I帧相隔一定时间,在同一背景上已有明显变化的画面。以前面I帧为参考,相同信息不发送只发送主体变化差值,进行具有运动补偿的前向预测;双向预测图(bidirectionalpicture,B帧)——传送I、P帧间的画面,只反映运动主体变化情况,重放时即参考I也参考P,本身不做参考帧使用,不能用作预测参考;2、关键技术(1)帧序重排在编码器端需要对输入图像重新排序,对按显示顺序输入的序列,经过帧序重排后成为按编码顺序排列,然后按I、P、B帧分别进行编码;(2)运动估计和补偿(3)比特流缓冲器图像压缩首先处理I帧图像,然后是P帧,最后在两者的基础上才处理B帧;MPEG编码器算法允许选择I图像频率(指每秒钟出现I图像的次数)和位置;一个典型的I、P、B图像排列如下:I的距离为15;P的距离为3;“开放性”的视频码流:I

帧在码流中出现的位置和频率,可根据图像序列中随机存取和景物切换的需要进行选择。相邻最近的I与P帧或P帧之间的B帧数目可以选择。I,P,B三种图象的数据压缩比:2~5:1,5~10:1,20~30:1

图象的编码顺序和显示顺序不相同。问题:MPEG-1中编码器、解码器为什么会造成延时?如何减少延时?

解答:MPEG-1图像编、解码的显示顺序和编码顺序并不相同;显示顺序如下: IBBPBBPBBPBBIBBP 0123456789101112131415根据前向预测和双向预测的关系,编码顺序如下:

IPBBPBBPBBIBBPBB 0123456789101112131415显示顺序上在前的B帧图像,由于预测时参照靠后的P帧图像,在传输存储和解码是必须先处理P帧图像,因此在编码顺序上P帧图像反而在B帧图像之前;由于编码顺序和显示顺序之间的差异,带来编、解码总延时达0.8~1s;这种延时对广播性质的图像传输不会带来任何影响,因为用户并不能发现发射端与接收端信号起始时间的差异;对于交互性质的图像传输,如数字会议电视会带来不便,如甲方向乙方提问,由于双向延时则会1.8~2s以后得到回答;为减小延时采用方法:通过减少B帧使两个I帧之间的帧数减少,则编、解码总延时下降;为进一步减小延时,可以把B帧、P帧全部去掉。这样可得零延时,此方式称M-JPEG方式;此时压缩比降到5:1~7:1,所以延时与压缩倍数是互相矛盾的。I帧编码算法P帧编码算法B帧编码算法MPEG-1视频语法MPEG视频图像数据流是一个分层结构,目的是把位流中逻辑上独立的实体分开,防止语意模糊,并减轻解码过程的负担。MPEG视频位流分层结构共包括六层:每一层支持一个确定的函数;或是一个信号处理函数(DCT,运动补偿);或是一个逻辑函数(同步,随机存取点)等;每一个层的开始有一个头,作为说明参数。MPEG-1编码6层次:图像序列、图像组、图片、 切片slice、宏块、块图像序列层——由连续图像组成,用序列终止符结束;图像组层——图像组(GOP)由几帧连续图像组成,是随机存取单元,其第一帧总是I帧;图像层——图像(帧)编码的基本单元,独立的显示单元;条带层——由一帧图像中的几个宏块组成,主要用于误差恢复;宏块层——一个宏块由四个8×8的亮度块和两个8×8的色差块组成;块层——一个8×8的像素区域称为一个块,是最小的DCT单位。GOP1GOPSCGOP头图像1图像2图像3…图像N图像SC图像头条1条2条3…条m条SC条头宏块1宏块2宏块3…宏块nY1宏块编码信息Y2Y3Y4C1C28×8系数块序列层GOP层图像层宏块层像块层序列SC序列扩展序列头GOP2…序列EC像条层MPEG-4视频编码和解码MPEG-1和MPEG-2存在不足基于像素和像素块的编码,不能对图像的内容进行查询、编辑和选择播放等操作,交互性较差;无法在同一场景中集成自然媒体与人造(合成)媒体;不支持超链接;不提供对低码率应用的支持,将图像分成固定大小的块,在高压缩比情况下会有很严重的块效应。MPEG-4视频编码和解码标准简介“基于音视频对象的通用编码算法”,其目的是为多媒体信息压缩提供统一和开放的平台,ISO/IEC14496,99年2月公布第一版草案,2000年初正式成为国际标准;目前,在Internet视频、流媒体、无线通信等领域中得到广泛应用可支持的比特速率低速率可低到5~64kb/s,高速率高达5Mb/s

;旨在将各种多媒体应用集成于一个完整的框架内。层次结构MPEG-4采用了基于对象的编码方案。对象:一幅图像中表征有含义的实体的一组区域;对象代替了像素,一幅图像/视频可以看作不能再分解的一组对象;一幅图像可以包括一个或多个视频对象,通过纹理、形状、运动等方式来表征每一个视频对象的时间、空间信息;基于对象的表征方法带来了交互性;MPEG-4中所见的视音频不再是图像帧的概念,而是一个个视听场景(AV场景),这些不同的AV场景由不同的AV对象组成;AV对象(Audio/VisualObjects)是听觉、视觉、或者视听内容的表式单元,其基本单位

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论