图像通信第五章_第1页
图像通信第五章_第2页
图像通信第五章_第3页
图像通信第五章_第4页
图像通信第五章_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

图像通信课件第五章第1页,共88页,2023年,2月20日,星期六目录5.1序列图像编码系统5.2二维运动估计5.3采用时间预测和变换编码的视频编码5.4MPEG-1视频编码和解码5.5视频图像编码标准中原工学院电子信息学院2第2页,共88页,2023年,2月20日,星期六概述数字电视、VCD、DVD、VOD、会议电视、流媒体、多媒体数据库和计算机网络等技术的日益融合和广泛应用,已经遍及国民经济和社会生活的各个方面。语音、图形、图像和数据等信息的传输、处理、存储及检索技术成为这些技术中重要的组成部分。为了能够有效地传输和存储这些信息,人们广泛采用了数字压缩编码技术。新概念、新算法、新标准、新协议正在不断涌现,这门技术已经成为当今信息与通信工程学科的主要研究热点之一。中原工学院电子信息学院3第3页,共88页,2023年,2月20日,星期六5.1序列图像编码系统视频看作一个沿时间轴分布的图像序列,统称为序列图像,其编码称为序列图像编码。如图5.1所示。对视频图像的压缩编码称为视频编码,即对构成视频的图像序列中的图像进行压缩编码。中原工学院电子信息学院4第4页,共88页,2023年,2月20日,星期六5.1序列图像编码系统视频编码的主要目的就是在保证一定重建质量的前提下,以尽量少的数据量来表征视频信息,以减少视频序列的码率,便于能够在给定的通信信道上实时传输视频信号。传统压缩编码:以香农信息论为出发点,用统计概率模型来描述信源,这种基于数据统计的、以消除视频数据相关冗余为目的的第一代视频编码技术获得了巨大成功。JPEG、MPEG-1,MPEG-2、H.261、H.263等压缩编码国际标准,以及它们对多媒体产业的巨大影响就是有力的证明。中原工学院电子信息学院5第5页,共88页,2023年,2月20日,星期六5.1序列图像编码系统第二代编码:第一代视频编码技术并未考虑信息接收者的主观特性、视频信息的具体含义和重要程度等,只是力图去消除数据冗余。基于内容的第二代视频编码技术,它所关心的是如何去消除视频内容的冗余,它认为人眼是视频信号的最终接收者,视频编码时应充分考虑人眼视觉特性这个因素,这是目前视频编码中最为活跃的一个领域。中原工学院电子信息学院6第6页,共88页,2023年,2月20日,星期六5.1序列图像编码系统5.1.1视频图像压缩的必要性对一帧NTSC制式的彩色视频图像进行数字化传输(图像数字化成720×480,颜色分量中的每个像素用8bit表示,每秒传输30帧),信道的传输能力要达到约248Mb/s。一帧HDTV的彩色电视图像,其分辨率为1920×1080,每种颜色分量中的每个像素用8bit表示,每秒传输30帧,那么信道的传输速率为1.4Gb/s。因此,不进行视频图像的压缩将对存储器的存储容量、传输信道的传输率(带宽)及计算机的处理速度等方面造成极大的压力。为了解决这些问题,对视频图像进行压缩编码就显得十分必要和迫切了。中原工学院电子信息学院7第7页,共88页,2023年,2月20日,星期六5.1序列图像编码系统5.1.2视频图像编码系统的一般结构图5.2给出了一个视频编码系统的基本组成。在编码器中,首先用信源模型的参数描述数字化的视频序列。信源模型参数被量化成有限的符号集,量化参数取决于比特率与失真之间所期望的折衷。最后,用无损编码技术把量化参数映射成二进制码字。最终产生的比特流在通信信道上传输。解码器反向进行编码器的二进制编码和量化过程,重新得到信源模型的量化参数。然后,解码器用信源模型的量化参数利用图像合成算法恢复解码后的视频帧。中原工学院电子信息学院8第8页,共88页,2023年,2月20日,星期六5.1序列图像编码系统中原工学院电子信息学院9第9页,共88页,2023年,2月20日,星期六5.1序列图像编码系统5.1.3视频编码方案分类几种视频编码算法,它们相应的信源模型中(见表5.1)。信源模型可做出图像序列的像素之间在时间和空间上相关性的假设,也可考虑物体的形状和运动或照度的影响,一个编码算法的信源模型要根据其编码参数集和图像合成算法确定中原工学院电子信息学院10第10页,共88页,2023年,2月20日,星期六5.1序列图像编码系统1.基于波形的编码把像素假设为统计上独立的,得到的模型是最简单的信源模型(见表5.1)。相关的编码技术就称为脉冲编码调制(PCM)。图像信号的PCM表示通常不用于视频编码,因为它与其它信源模型相比效率较低。大多数图像邻近像素的颜色、色度存在较高的相关性.为了减少编码比特率,使用K-L变换、DCT变换或小波变换等去除原图像像索点间的相关性,并把原始信号的能量集中到少数的几个系数上。需要量化和编码的参数是变换系数.利用相邻样点间相关性的另一种方法是预测编码,先由前面编码的样点预测要编码的样点值,然后对预测误差进行量化和编码。中原工学院电子信息学院11第11页,共88页,2023年,2月20日,星期六5.1序列图像编码系统现在使用的视频编码标准如H.261、H.263、MPEG-l、MPEG-2和MPEG-4等都采用了基于块的混合编码的编码方法,它综合了预测编码和变换编码。2.基于内容的编码基于块编码的缺点:采用固定大小的方块来近似场景中物体的形状,如果这些边界块中包含了具有不同运动的两种物体,那么用一个运动矢量就不能说明两个不同的运动,存在误差。基于内容的编码器企图把视频帧分成对应于不同物体的区域,并分别编码这些物体,对于每个物体,除了运动和纹理信息外,还必须传送形状信息。中原工学院电子信息学院12第12页,共88页,2023年,2月20日,星期六5.1序列图像编码系统二维轮廓描述物体的形状:采用分割算法运动矢量场描述物体的运动:采用运动估计颜色波形描述物体的纹理:采用纹理提取算法在视频序列中的物体已知的情况下,可采用基于知识的编码,该编码使用特别设计的线框来描述已识别出的物体类型。因为它自适应于物体的形状,有时也把这种技术称为基于模型的编码。已知可能的物体类型和它们的行为时,可以用语义基编码。中原工学院电子信息学院13第13页,共88页,2023年,2月20日,星期六5.2二维运动估计为什么需要二维运动估计?在视频压缩的应用中,根据估计出的运动矢量和前一个已编码的参考帧,可以得到当前帧的运动补偿预测。运动估计最终要达到的目的是使编码运动矢量和预测误差所用的总的比特数最少。我们可以在运动估计的准确性与表示运动参数所用的比特数之间做出折衷的选择。在某些情况下,虽然估计的运动并不是精确的实际物体运动,但仍可以产生好的运动预测。中原工学院电子信息学院14第14页,共88页,2023年,2月20日,星期六5.2二维运动估计5.2.1二维运动估计的基本概念二维运动估计既是迈向三维运动分析的第一步,也是运动补偿滤波和压缩的主要部分。运动估计算法都是基于图像亮度的时间变化,把观测到的或表现出来的二维运动矢量的速度称为光流。1.二维运动相关概念二维运动(也称为投影运动)指的是三维运动在图像平面上的透视或正交投影。三维运动的特征可依据物体像素的三维瞬时速度或三维位移来表征,二维位移和速度场分别是三维场在图像平面上的投影。中原工学院电子信息学院15第15页,共88页,2023年,2月20日,星期六5.2二维运动估计“视在二维位移场”和“视在二维速度场”不同于投影产生的二维位移(速度)场,因为:(1)实际视频信号缺乏足够的空间图像梯度。在实际运动能被观察到的运动范围内要有足够的灰皮等级(颜色〉变化,才能产生光流,否则光流就不可观测.(2)外部光照的变化。一个可观测到的光流,可能由于光照引起,即使没有运动,光流亦可观察到。二维位移和速度场分别是三维场在图像平面上的投影。而对应场和光流场是由时变亮度图像特性得到的位移和速度函数。实际应用中,由于只能观察到光流场和对应场,所以在本章中假设它们等同于二维运动场。中原工学院电子信息学院16第16页,共88页,2023年,2月20日,星期六5.2二维运动估计中原工学院电子信息学院17第17页,共88页,2023年,2月20日,星期六5.2二维运动估计中原工学院电子信息学院18第18页,共88页,2023年,2月20日,星期六5.2二维运动估计中原工学院电子信息学院19第19页,共88页,2023年,2月20日,星期六5.2二维运动估计

人类视觉对图像中的静止部分有较高的分辨率,必须给予充分的空间分辨率。在传输静止图像或序列图像的静止部分时,要保证较高的水平和垂直分辨率,但此时可以减少传输帧数。在接收端依靠帧存储器把未传输的帧补充出来。人类视觉对序列图像中运动物体的分辨率将随着运动物体速率的增大而显著降低。物体的运动速度越高,就可用更低的清晰度进行传输。例如,可以对序列图像中的静止部分每两帧传输一次,而对运动部分采用2:1的亚抽样,这样就降低了空间分辨率,而且对视觉来说,不易觉察出收端的复原图像的质量有较明显的降低。中原工学院电子信息学院20第20页,共88页,2023年,2月20日,星期六5.2二维运动估计中原工学院电子信息学院21第21页,共88页,2023年,2月20日,星期六5.2二维运动估计中原工学院电子信息学院22第22页,共88页,2023年,2月20日,星期六5.2二维运动估计5.2.3运动估计与补偿的基本概念采用帧间预测编码可以减少时间域上的冗余度,提高压缩比。静止图像:效果较好;运动图像:效果较差。对当前帧某像素(或像素块)进行预测时知道这个像素(或像素块)是从前一帧的哪个位置移动过来的,则在做预测时以真实对应位置上的像素值作为预测值,这样预测的准确性将大大提高。采用运动补偿帧间预测技术,可以更好地利用序列图像的时间冗余度,使预测差值的方差大大减小,从而降低误码率,提高压缩比。获得好的运动补偿的关键是运动估计。中原工学院电子信息学院23第23页,共88页,2023年,2月20日,星期六5.2二维运动估计1.运动估计将图像分成若干个块,并检测出当前帧中的每个块在前一帧(参考帧)图像中的对应位置,这个过程叫做运动估计。运动估计常以宏块为单位进行,计算被压缩图像与参考图像在对应位置上的宏块间的位置偏移。这种由运动估计得到的位置偏移是以运动矢量来描述的,水平和垂直位移。中原工学院电子信息学院24第24页,共88页,2023年,2月20日,星期六5.2二维运动估计2.运动补偿运动估计及补偿的基本原理:利用帧间运动估计得到待编码图像块的一个(或多个)参考块,然后用这个参考块进行运动补偿,将补偿后的残差进行DCT变换和可变长编码。从原理上讲,运动补偿帧间预测编码包括以下4个部分:(1)物体划分。静止区域和运动区域,运动补偿预测编码主要是针对运动区域进行编码。(2)运动估计。对运动物体进行位移估计,找出运动矢量。(3)运动补偿。建立同一物体在不同帧的空间对应关系。(4)预测编码。对补偿后的物体的位移帧差信号进行DCT变换、量化、编码。中原工学院电子信息学院25第25页,共88页,2023年,2月20日,星期六5.2二维运动估计图5.9表示了帧间运动估计与补偿预测的基本过程:中原工学院电子信息学院26第26页,共88页,2023年,2月20日,星期六5.2二维运动估计5.2.4基于块的运动估计-匹配算法1.基本思想及研究现状将图像序列的每一帧分成固定大小的宏块,然后对于当前帧中的每一块根据一定的匹配准则在参考帧某一给定搜索范围内找出与当前块最相似的块,即匹配块,由匹配块与当前块的相对位置计算出运动位移,所得运动位移即为当前块的运动矢量。运动估计越准确,补偿的残差就越小,编码的效率也就越高,解码出的图像质量越好。但这种运动估计在整个系统中的计算复杂度很大,往往占整个系统的50%以上。中原工学院电子信息学院27第27页,共88页,2023年,2月20日,星期六5.2二维运动估计全搜索法:搜索精度最高,然而计算复杂度太高。改进快速运动估计算法:三步法、二维对数法、交叉法等,通过限制搜索位置的数目来减少计算量;动态搜索窗调整法是根据当前结果动态调整下一步搜索步长的大小,算法性能在一定程度上有了改进预测搜索法、自适应运动跟踪法等利用相邻块的运动相关性选择一个反映当前运动块趋势的预测点作为初始搜索点,以提高搜索速度和预测的准确性;1999年10月,菱形法被MPEG-4国际标准采纳并收入验证模型,并相继出现了正方形菱形法、线性菱形并行搜索法。中原工学院电子信息学院28第28页,共88页,2023年,2月20日,星期六5.2二维运动估计2.提高搜索效率的主要技术块匹配的基本思想是依据一定的匹配法则,通过在两帧之间的像素域利用搜索程序找到最佳的运动矢量估计。中原工学院电子信息学院29第29页,共88页,2023年,2月20日,星期六5.2二维运动估计运动估计算法的整体效率主要体现在图像质量、压缩码率和搜索速度(复杂度)三个方面。运动估计越准确,预测补偿的图像质量越高;补偿的残差就越小,编码所需位数也就越少;运动估计速度越快,越有利于实时应用。提高图像质量,加快估计速度,减小比特率等都是运动估计算法的研究目标。通常是通过研究初始搜索点的选择、匹配准则和运动搜索策略等来提高算法效率。1)初始搜索点的选择(1)直接选择参考帧对应块的中心位置。(2)选择预测的起点。中原工学院电子信息学院30第30页,共88页,2023年,2月20日,星期六5.2二维运动估计2)块匹配准则运动估计算法中常用的匹配准则有三种:最小绝对值差(MAD)、最小均方误差(MSE)和归一化互相关函数(NCCF)。3)搜索策略搜索策略选择恰当与否对运动估计的准确性、运动估计的速度都有很大的影响。有关搜索策略的研究主要是解决运动估计中存在的计算复杂度和搜索精度这一矛盾。中原工学院电子信息学院31第31页,共88页,2023年,2月20日,星期六5.2二维运动估计3典型的块匹配算法1)全搜索法(FS,FullSearchmethod)(1)算法思想:全搜索法也称为穷尽搜索法,是对搜索范围内所有可能的候选位置计算其SAD(i,j)值,从中找出最小SAD,其对应偏移量即为所求运动矢量。此算法计算量虽大,但最简单、可靠,找到的一定是全局的最优点。(2)算法描述:Step1从原点出发,按顺时针方向由近及远,在每个像素处计算SAD值,直到遍历搜索范围内的所有点。Step2在所有的SAD中找到最小块误差(MBD)点,该点所在位置即对应最佳运动矢量。中原工学院电子信息学院32第32页,共88页,2023年,2月20日,星期六5.2二维运动估计2)二维对数法(TDL,Two-DimensionalLogarithmic)二维对数搜索法由J.R.Jain和A.K.Jain提出,它开创了快速算法的先例,分多个阶段搜索,逐次减小搜索范围直到不能再小时才结束。(1)基本思想:二维对数法是从原点开始,以“十”字形分布的五个点构成每次搜索的点群,通过快速搜索跟踪MBD点。(2)算法描述:Step1从原点开始,选取一定的步长,在以"十"字形分布的五个点处进行块匹配计算并比较。中原工学院电子信息学院33第33页,共88页,2023年,2月20日,星期六5.2二维运动估计中原工学院电子信息学院34第34页,共88页,2023年,2月20日,星期六5.3采用时间预测和变换编码的视频编码5.3.1三种常用的视频帧典型的视频压缩技术是将第一帧图像按照静态图像编码,接着确定出前一帧与当前帧的差值,通过对这些差值进行编码来得到后续帧图像的编码。如果当前帧图像与前一帧图像区别很大,应该独立于其它帧图像对其迸行单独编码。在视频压缩中,常使用三种视频帧,其关系见图5.23所示.中原工学院电子信息学院35第35页,共88页,2023年,2月20日,星期六5.3采用时间预测和变换编码的视频编码l.帧内图像帧内图像(IntraFrame或Intra)也称I帧图像,是不考虑与其它图像帧的关系而单独进行编码的图像,它不需要任何其它的帧图像来进行预测编码。帧内视频图像的编码是通过减少视频空间冗余度来完成压缩的,它们也提供了数据流的起始解码数据指针.2.前向预测图像前向预测图像(PredictedPictures)也称P帧图像,是根据前面已编码的I图像或P图像进行编码的图像,它利用运动补偿技术完成编码,并且还可以为下一非I帧图像提供运动预测,通过降低空间和时间上的冗余度。中原工学院电子信息学院36第36页,共88页,2023年,2月20日,星期六5.3采用时间预测和变换编码的视频编码3.双向预测图像双向预测图像(BidirectionalPredictionPictures)也称B帧图像,是同时根据前面的I图像和后面的P图像(或前后两个P图像)进行编码的图像。它也是利用运动补偿技术完成编码,其压缩效率最佳。为了能实现利用下一帧图像进行后向预测,编码器要对视频帧重新排序,视频帧的顺序编排将由原来的播放画面顺序改变成视频传送顺序。利用前一帧对当前帧进行编码将引入失真,导致直到下一帧内图像出现前的所有图像解码都不准确,要求除对第一帧进行帧内编码,还须在图像序列中间不时采用帧内编码。中原工学院电子信息学院37第37页,共88页,2023年,2月20日,星期六5.3采用时间预测和变换编码的视频编码图5.24(a)是这三种图像构成的一个图像序列,以编码器输入的顺序排列。图5.24(b)是以解码器的输出和显示的顺序排序的同一图像序列。每一帧图像都要有两个时间标记,一个表示编码顺序,一个表示显示顺序。中原工学院电子信息学院38第38页,共88页,2023年,2月20日,星期六5.3采用时间预测和变换编码的视频编码5.3.2基于块的混合视频编码每个视频帧被分成固定大小的块,对每个块独立地进行处理,称为"基于块的"。"混合"意味着每个块是联合运用运动补偿时间预测和变换编码进行编码的。图5.25给出了这种编码范例中的关键步骤。首先,利用基于块的运动估计由前面已编码的参考帧对块进行预测,运动矢量确定当前块和最佳匹配块之间的位移,得到预测误差。然后,用DCT对预测误差块进行变换,量化DCT系数,并用可变长编码把它们转换成二进制码字。中原工学院电子信息学院39第39页,共88页,2023年,2月20日,星期六5.3采用时间预测和变换编码的视频编码实际用于运动估计的块大小可能与用于变换编码块的大小不一样。运动估计是在一个较大的块,称为宏块(MB.MacroBlock)上进行的,宏块被进一步分成几个块,对这些块求DCT的值.例如,在大多数视频编码标准中,宏块的大小是16×16个像素,而每个块的大小是8×8个像素。在MPEG-1和MPEG-2标准中,把帧划分成图像组(GOP.groupofpictures)。而每个图像组以I帧开始,后跟交织的P帧和B帧。这使随机访问成为可能,可以访问任何图像组而不需要对前面的图像组进行解码。图像组结构也允许快进和快倒,仅解码I帧或解码I帧和P帧就可以实现快进。以后的顺序仅解码I帧就可以实现快倒。中原工学院电子信息学院40第40页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码5.4.1MPEG-1介绍MPEG是活动图像专家组(MovingPictureExpertGroup)的缩写。MPEG是一种视频压缩方法,包括对数字图像、声音以及两者同步信号的压缩。MPEG-1是针对数据率大约为1.5Mb/s的中等数据率情况的标准。MPEG-2主要针对的是10Mb/s的高数据率的标准。MPEG-3起初为HDTV压缩而设计,但后来发现是多余的,于是将其归并到MPEG-2中去。MPEG-4主要针对的是码率低于64kb/s的甚低数据率的情况。本节主要针对MPEG-1的图像压缩方法进行讨论。中原工学院电子信息学院41第41页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码中等数据率的视频:视频分辨率360×288像素,每像素24位,刷新率24帧/秒,需360×288×24×24=59719680b/s的数据率;音频为双声道,每声道44kHz,16位量化,数据率为2×44000×16=1408000b/s。总的数据率为61.1Mb/s。假设此数据率通过MPEG-1压缩到大约1.5Mb/s中等数据率,则压缩率将超过40。MPEG的视频序列,由许多幅图像组成,每幅图像有3个分量:一个亮度分量(Y)和两个色度分量(Cb和Cr)。每个分量为一矩形的采样数组,数组的每行称为光栅行。每个像素为3个采样的集合。MPEG-1的采样率为4:2:2。中原工学院电子信息学院42第42页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码MPEG编码器的输入称为源数据,解码器的输出称为重建数据。源数据被组织成若干数据包(如图5.26(b)所示)。每个数据包的开头为一个32位的开始码,接着为一个头(header),结尾为一结束码。在数据包的头和尾之间包含有许多数据组,数据组中包含着压缩数据。中原工学院电子信息学院43第43页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码MPEG解码器有3个部分,对视频、音频和系统数据进行解码。系统层读取并解释源数据中的各个码字和头,将数据组发往音频层或者视频层(如图5.26(a)所示)进行缓冲存储并解码。中原工学院电子信息学院44第44页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码5.4.2输入图像格式与图像类型MPEG图像基本组成单元为宏块(1块16×16的亮度采样和2块8×8的色度采样)。MPEG采用离散余弦变换将6个宏块变换成不相关的值,对结果进行量化编码。MPEG采用不同的量化表和不同的码表来进行帧内和帧间编码。MPEG中图像以“条带”(slice)的形式组织起来,每一条带由一组相邻的宏块组成,使得很多相邻宏块可能有相同的灰度值。图5.27(b)显示了一幅假定的MPEG图像是如何分成条带的,图像中的每一个正方形小块为宏块。中原工学院电子信息学院45第45页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码1.输入图像的格式MPEG-1采用源输入格式(SIF,SourceInputFormat),有352×288×25或352×240×30两种选择,总数据量相同,通过表5.2进行图像分辨率参数设置,编码更大的图像。中原工学院电子信息学院46第46页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码2.图像类型MPEG-l视频算法为了追求更高的压缩效率,更注重去除图像序列的时间冗余度,同时又必须满足多媒体播放等随机存取要求,但对编/解码的时间延迟则可以放宽些。为折衷这些相互矛盾的要求。MPEG-l将图像组中的图像划分为I图像(帧内编码图像)、P图像(预测编码图像)、B图像(双向预测编码图像)和D图像(直流编码图像)。这些图像被分为很多组,可以是开放或封闭的。图像在编码前以编码顺序排列,经解码的输出图像以显示顺序显示。在封闭组中,P图像和B图像仅能通过本组的其它图像来解码得到。而对开放组,可以通过本组外的图像来解码得到。中原工学院电子信息学院47第47页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码为了满足不同的使用要求,MPEG-l采用了更为灵活的开放性视频流:(1)为可随机存取和编辑并兼顾压缩比,允许编码端自行选择独立的I图像的使用频率和在视频流中的位置。建议随机存取点间隔为0.2s。通过搜索并解码显示各GOP中的I图像,可实现快进/快退功能;以GOP为单位,还可实现倒放。(2)由于I、P之间插入的B图像越多,压缩比往往就越高,所需帧存储器也越大,成本也随之上升;对于大多数景物,参考图像之间插入两帧B图像较为适宜。(3)编码端的视频流记录格式并不要求与图像的显示顺序相一致,在编码前要将输入图像帧的序列按编码顺序重排。中原工学院电子信息学院48第48页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码MPEG中对于P帧和B帧的使用没有做任何要求。下而是一个典型的测试序列:对SIF分辨率,采用IPBBPBBPBBPBBPBB的GOP结构,在码率为1.15Mb/s的MPEG视频序列中,I帧、P帧和B帧的平均图像码率分别为156kb/s、62kb/s、15kb/s。可以看出,B帧远远小于I帧和P帧。但是如果单纯增加I、P帧之间B帧的数量,并不能获得更好的压缩比,因为这样会增加B帧与相应的I帧和P帧间的时间距离,降低了它们之间的时间相关性,从而降低了运动补偿预测的性能。中原工学院电子信息学院49第49页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码5.4.3视频编码与解码的具体过程MPEG-l视频压缩编码与图像重建的原理框图如图5.28所示。视频压缩编码技术是以基于16×16子块的运动补偿和DCT为基础的,基于16X16子块的运动补偿技术可以减少序列的时间冗余度。DCT技术用于减少空域冗余度。中原工学院电子信息学院50第50页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码1.预处理过程包括RGB到YCbCr的色彩空间变换、格式转换、预滤波和亚采样等,这些操作在MPEG-1中没有给出。例如对CCIR601的预处理,在信源输入格式为SIF时,预处理的过程如图5.29所示。对于PAL制式,SIF格式为352×288×25帧,而对于NTSC制式,SIF格式为352×240×30帧。中原工学院电子信息学院51第51页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码2.编码过程MPEG标准并没有定义特定的编码过程,只是定义了编码比特流的语法和解码过程。通过图5.30给出一个MPEG-1编码器的功能。中原工学院电子信息学院52第52页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码1)帧序重排将显示顺序重排为编码顺序。2)运动估计和补偿I帧为帧内编码,对宏块DCT,量化DCT系数,再对量化结果进行VLC;对于P帧和B帧图像,对其预测误差进行编码,即帧间预测编码。3)比特流缓冲器比特流缓冲器中数据量的多少,反映出当前宏块的复杂程度,编码器可据此通过调节器调整量化器的加权因子q。4)其它部分DCT系数、运动矢量、宏块类型等,复用为MPEG-1比特流后传输。中原工学院电子信息学院53第53页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码3.宏块的编码MPEG-1定义三种图像类型:I帧、P帧和B帧。1)帧的编码对块进行DCT变换后,每个DCT系数都要与帧内编码量化矩阵的相应元素相除来进行量化。对于DC系数,量化步长通常固定为8。直流DC系数除以8并舍入到最近的整数,即得到DC系数的量化数。量化后,DC系数与前一块的量化DC系数相减,将差值编码为(size,amp)。amp为差值的大小,若此数为正值则是其二进制表示,若为负值则采用反码表示size表示amp所需的二进制位数。中原工学院电子信息学院54第54页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码对于AC系数的量化数,首先按照Zig-zag顺序进行排序,输出中元素代表的频率分量由低频到高频排序。之后每个非零的AC系数被表示为行程/幅度偶,MPEG中定义了行程/幅度偶的霍夫曼码表,对其进行霍夫曼编码,而表中未定义的行程/幅度偶则编码为ESC码,后跟它们的单独码字。2)P帧的编码决定是否使用运动补偿:运动矢量位数更多决定宏块使用帧间编码还是帧内编码:运动剧烈决定宏块是否要被编码:全零决定是否需要改变MQUANT:不使缓冲区上溢或下溢中原工学院电子信息学院55第55页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码3)B帧的编码决定使用前向运动、后向运动、内插运动补偿;决定采用帧内编码的方式还是帧间编码方式;决定宏块是否可以被跳过;决定量化尺度因子是否可以被改变。4.DCT系数的编码细节帧内编码中MPEG采样为8位无符号数,而帧间采用9位有符号数。二维DCT的两次求和至多将采样值扩大26倍,可能产生8+6=14位的整数。在两次求和过程中,采样值要乘以余弦函数,会产生负数,求和结果是一个15位有符号数,这个数再乘以1/8~1/4的因子,可用12位的有符号整数表示。中原工学院电子信息学院56第56页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码12位整数通过除以从量化表得到的一个量化系数而被量化并取整。正是在量化和取整过程中信息出现了不可恢复的丢失。帧内编码中取整通常是取最近的整数,而帧间编码是截断非整数到接近的小于其值的整数。图5.31给出了图示。注意在帧间编码中零值附近有较宽的间隔,即所谓的死区。中原工学院电子信息学院57第57页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码中原工学院电子信息学院58第58页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码中原工学院电子信息学院59第59页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码在MPEG中没有明确定义计算IDCT的方法。若一幅图像的编码采用一种实现方式而在解码时采用另一种实现方式,将会导致失真。而在帧间编码的图像链中,每幅图像采用相邻的其它图像解码,这将导致累积误差,称为IDCT失配现象。这是MPEG需要对图像的每一部分进行周期性的帧内编码的原因。量化后的QDCT要进行霍夫曼编码,要用到非自适应霍夫曼方法和霍夫曼码表,此码表是通过汇集来自许多训练图像序列的统计数据而算出的。具体用何种码表取决于待编码的图像类型,为避免出现零概率问题,在汇集任何统计数据之前所有的码表项都被初始化为1。中原工学院电子信息学院60第60页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码在I图像中,宏块的DC系数和AC系数是分别编码的,这与JPEG编码类似。图5.32表示出了I图像的Y分量、Cb分量和Cr分量所提供的3种类型的DC系数是如何在一个数据流中分别编码的。中原工学院电子信息学院61第61页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码某一DC系数DCi首先被用来计算差值ΔDC=DCi-P(P为前一块同一类型的DC系数),然后对这个差值进行编码,码字前一部分表示量值等级,接着的若干位表示差值的幅值和符号。量值等级就是对差值ΔDC的符号和幅值编码所需要的位数,每个量值等级都赋予一个码字。对DC系数的差值ΔDC的编码需要下述3个步骤:(1)首先确定量值等级,将它的码字发出;(2)若ΔDC为负值,将它的补码减去1;(3)发出表示差值最低有效位的二进制数,其位数等于量值等级。表5.5概括性地列出了量值等级、量值等级的码字和每一个量值等级所对应的差值ΔDC的范围。中原工学院电子信息学院62第62页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码(例5.1)设亮度差值ΔDC为5。因为数字5可以用3位二进制表示,所以量值等级为3,首先发码字101,接着发出表示5的3位二进制数的最低有效位101。若设色度差ΔDC值为3,因为数字3可以用2位二进制数表示,所以量值等级为2。首先发出码字10,而差值-3可以表示为2的补码11111101(假设为8位),将其减去1后得到的2位最低有效位二进制数为00,将其发出。中原工学院电子信息学院63第63页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码I图像(帧内编码)的AC系数通过Zig-zag顺序扫描进行编码。对每个非零系数C输出一个游程-等级码,此处游程指的是在C之前的0的个数,等级指的是C的绝对大小。每一个非零系数C的游程-等级码的后面跟一位C的符号位(1表示负数,0表示正数)。最后的非零系数的游程等级码字后面跟一个特定的两位“块尾”(EOB)码。表5.6与表5.7列出了EOB码、常见的游程值和等级值的游程-等级码,其中s表示符号位。对于表中没有列出的游程值和等级值的组合,编码方法是采用ESC码后面跟一个6位的表示游程长度的码和一个8位或16位的表示等级值的码。中原工学院电子信息学院64第64页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码例5.2.图5.33给出了一个8×8的量化系数块的例子。这些系数的Zig-zag形扫描序列是127,0,0,-1,0,2,0,0,0,1。127为DC系数,因此AC系数的编码为3个游程-等级码(2,-1),(1,2),(3,1),后面跟着EOB码字。根据表5.6,编码结果为010110001100001110100(注意符号位跟在游程等级码字后)。中原工学院电子信息学院65第65页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码上面的讨论为帧内编码(对于I图像)的DCT量化系数的编码。对于帧间编码(P图像和B图像}则情况有所不同。通过其它帧图像预测某帧图像的过程已经将采样值去相关了。DCT在帧间编码中的优势主要体现在量化上。对DCT系数的深度量化提高了压缩率。在这种情况下,甚至一个所有值都无差别的默认量化表都可能相当有效。DCT在帧间编码中的另一个特点是DC系数和AC系数没有实质上的区别,因为它们都是差值的DCT。因此没有必要对DC系数和AC系数分开编码。中原工学院电子信息学院66第66页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码5.运动矢量的编码细节宏块的运动矢量与前一宏块的矢量有密切联系。例如,在景物平行移动的情况下,所有矢量差不多都一样。因此,运动矢量编码使用DCPM技术.6.解码过程解码器输入的视频比特流码速率是固定的,但画面的数量差别很大,必须要设缓冲器以保证数据量的平滑,防止画面波动和固定帧频显示。

中原工学院电子信息学院67第67页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码分路器负责语法和语义检查,对宏块进行解码,解码出运动矢量和宏块类型等。IDCT输出的是I画面以及P画面和B画面的预测画面,并保存I及P画面,生成预测画面(P、B)。这样重建画面等于预测画面与差分画面之和。画面重新排序后再输出帧速度固定的视频图像。解码过程如图5.34所示中原工学院电子信息学院68第68页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码以编码序列T1,T4,T2,T3,T7,T5,T6,T8(见图5.35)为例,假设P帧中所有宏块都采用预测编码。B帧中所有宏块都采用双向预测编码,解码过程如下:(1)输入图像T1(I帧)。由于没有进行运动补偿,可直接进行IDCT变换,然后把解码出的图像进行显示并存入“过去帧缓存器”中。(2)输入图像T4(P帧)。对每个宏块进行IDCT变换并进行运动补偿,即把在过去帧(T1)中由运动矢量指出的相应宏块与IDCT变换的结果相加,重建图像存入“将来帧缓存器”中。中原工学院电子信息学院69第69页,共88页,2023年,2月20日,星期六5.4MPEG-l视频编码和解码(3)输入图像T2(B帧)。IDCT变换后进行双向运动补偿,利用T2的两个运动矢量指出的过去帧(T1)和将来帧(T4)中的相应宏块,形成对T2的预测值,将这个预测值与IDCT变换的结果相加,得到重建图像,并显示。B帧不参与其它帧的运动估计,不用被保存在任何帧缓存器中。(4)输入图像T3(B帧)。重复T2的解码过程,解码后立即显示T3.(5)输入图像T7(P帧)。重复T4的解码过程,将“将来帧缓存器”中的图像放入“过去帧缓存器”中,同时重建的图像T7要放入“将来帧缓存器”中(覆盖Tl),并显示图像T4.(6)输入图像T5、T6(B帧)。重复T2的解码过程,使用T4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论