几种网络视频编码技术的分析_第1页
几种网络视频编码技术的分析_第2页
几种网络视频编码技术的分析_第3页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、几种网络视频编码技术的分析、比较与发展摘要摘要:本文主要介绍了 MPEG,H.264,AVS 等 3 种主流网络视频编码标准。并从编码的关键技术,创新改进等方面对这三种标准进行了分析比较。以期在未来的实际应用中,能够更好的做出选择。1 引引 言言网络技术的快速发展,高速数据传输以及大数据容量的传输,而短时间内无法突破硬件存储容量的限制,推动了网络视频编码技术的革新、发展。通过各种网络视频编码标准的算法优化,给人们提供了一个良好的视听娱乐体验,本文将从目前主流的几种标准,即 MPEG-4,H.264 以及 AVS 对比分析各自的关键技术特点以及创新优势。2 几种主流标准介绍几种主流标准介绍2.1

2、 MPEG-4 标准MPEG(Moving Pictures Experts Group)即动态图像专家组是目前影响最大、 应用最广的多媒体技术标准。他包括 MPEG-1、MPEG-2、MPEG-4、MPEG-21 等众多分支1。每一个分支都侧重于不同的应用,本文主要针对 MPEG-4 标准进行阐述。2.2 H.264 标准H.264 是 ITU-T 和 ISO/IEC 联合制定的一种视频编码标准, 他具有高效的编码标准和易于网络传输的特点,H.264 标准同时定义了四个档次,即基本档次,主档次、扩展档次和高级档次,以满足视频电话、视频会议、视频存储、视频广播等众多领域的应用。2.3 AVS

3、标准AVS(Audio Video coding Standard,音视频编码标准)是信息技术先进音视频编码系列标准的简称,是我国具备自主知识产权的第二代信源编码标准,也是数字音视频产业的共性基础标准。3 一般性视频编码结构介绍一般性视频编码结构介绍3.1 视频编码结构介绍视频编码理论和其他科学研究一样,离不开数学模型的支撑。视频编码器采用模型来描述一个视频流。这种模型使得压缩数据尽可能占用最少的 bit 数,同时又保证重建后的视频流能较好地近似原视频流, 做到压缩效率和图像质量的平衡。图 3-1 视频编码模型视频编码器如图 3-1 所示, 分为三个主要功能单元:时域模型、 空域模型和嫡编码器

4、。时域模型的输入是未压缩的原始视频流,通常原始视频流相邻帧之间具有很大的相似性,根据这个特点,时域模型建立预测帧来降低时域冗余;频域模型的输入是残差图像,它利用相邻像素点的相似性,消除残差图像的频域冗余;熵编码器对时域参数如运动矢量和变换系数进行压缩,消除存在的统计冗余,并输出压缩后的比特流和数据用于视频的存储和传输。 压缩后的视频码流包括编码的运动矢量参数、变换系数和头信息。目前国际上的视频编解码标准多种多样,但这些标准大多遵循这一设计模型,细化后包括前端的运动估计和补偿(又称为 DPCM)、变换预编码和熵编码等。这个模型又常常被称为 DPCM/DCT 视频编解码器混合模型。 任何兼容 H.

5、26x 系列和 MPEG 系列的视频编码器都必须实现一套类似的基本编码和解码功能。图 3-2 是一套典型的混合 DPCM/DCT 编码框图, 目的是将当前帧压缩成比特流。图 3-2DPCM/DCT 视频编码框图43.2 时域模型时域模型的作用就是消除连续帧之间的时域冗余。在时域模型中,当前帧减去预测帧得到残差图像。预测帧越准确,所得的残差图像的能量越小。残差图像经过编码后被传输到解码器。 解码器通过与残差图像相加来恢复当前图像以重建相应的预测帧。预测帧的重建可以参考一帧或多帧之前或之后的图像(称为参考帧),其精度可以通过参考帧和当前帧之间的运动补偿来提高。对于运动图像为了使预测误差尽可能小,从

6、而达到减少码率的目的,就一定要采用适当的预测方法, 这个方法就是运动补偿预测。 运动补偿预测有两个过程。第一个过程是对运动物体的位移做出估计, 即运动物体从上一帧到当前帧位移的方向和像素数要做出估计,也就是要求出运动矢量,这个过程叫做运动估计。第二个过程是按照运动矢量,将上一帧做位移,求出对当前帧的估计,这个过程称为运动补偿。图像分割是运动补偿预测的基础。理想上是将图像分割成不同运动的物体,但实现比较困难,所以通常采用两种较简单的方法。一种方法是对每个像素的位移进行递归估计;另一种是把图像分为矩形子块,适当选择块的大小,估计出运动子块的位移,进行预测传输。得到运动物体的位移估值后,即可将其送入

7、预测器。与图像分割的两种方法相对应,运动估计有两种方法:一个是以像素为基础的运动估计算法,也就是对每一个像素做估计,实现较为复杂;另一个是以像素矩阵块为基础的块匹配法 (BMA), 是目前常用的运动估计算法。 即先将一帧图像分成 MxN 小块,假定在同一块中的像素具有相同的位移,运动估计按每一块进行计算。为了得到最佳匹配块,要进行运动估计中的搜索。搜索的方法很多,有全像素搜索法、快速搜索法和三步法等。块匹配法中图像子块通常选为 NxN 的方块。由于只有在块较小时才可以近似认为块内各点作相等的平移,以满足 BMA 法的基本假设。但若块太小,则估值结果易受干扰噪声影响,不够可靠,而且传送运动矢量场

8、所需的比特数过多:块太大可减轻其影响,但 BMA 法的基本假设难以满足。所以通常取护 16(H.264和 AvS)或 8(MPEG-4),即 16、16 或 8、8 的块作为匹配单元是上述因素折衷的结果。3.3 频域模型频域模型一般包括变换编码和量化两部分。变换用于消除数据相关性,而量化用于降低变换域数据精度。变换的目的是减少变换系数的相关性, 可以把这样的性质称之为相关减弱性质。适当选取基函数,可使系数的相关性减少。与相关减弱性质相联系的性质是能量集中。将大部分能量集中于一部分变换系数,可以去除大多数系数也不会严重影响图像。以熟知的傅立叶变换为例,变换后相当于图像信号由空间域变换到了频域。由

9、于一般图像的能量基本集中在低频部分,于是变换后像素方块的能量集中于左上角。 这时只需对低频区域的变换系数进行编码, 高频区域则既不编码,也不传输,即达到了压缩编码的目的。理论分析表明,K-L 正交变换(KLT)是能达到有效的能量集中的最佳变换,但它实现起来很难,所以在工程实践中很少使用;离散傅立叶变换曾被认为是一种适合的变换,原因是它有固定的基函数组,可以用 FFT 算法对它做快速运算,包括正向和反向运算。尤其重要的是,普通图像经 DFT 变换能量的主要部分集中于低频区域;但是后来发现 DCT(DisereteCosineTransform),离散余弦变换、的性能比 DFT 更好。DeT 具有

10、能量更加集中的优点而且不会牺牲其他方面的质量,己有的高效算法仍然适用,而且 DCT 可以用 DFT 的快速算法。除了 DFT 和 DCT,人们还提出了许多其他的变换,如哈特利变换和正弦变换,但从计算效率和能量集中这两方面来看,DCT 仍占优势, 所以目前诸多图像编码的国际标准均采用 DCT 作为编码的主要环节之一。一个连续的标量,可以是一个像素的幅值,也可以是变换系数。要用有限的比特数来表示它,那就只能用有限的 L 个量化电平中的一个来代表它,这个过程叫做 t 化。正交变换(如 DCT)本身并没有抛弃变换后的高频系数分 t。 对于一个 8:3 的图像块来说,输入的是 64 个值,输出的仍然是

11、64 个值,只不过能量全部集中到了左上角的直流和低频分量中,而右下角的高频系数分量趋于 O。在量化过程中通过设置合理的步长将趋于 O 的值都置成 O,对于这些 O 值既不分配码字也不传输。于是 8x8 的图像块可以用少数的直流和低频系数表示。这一部分我们在下一节中做详细介绍。3.4 熵编码器熵编码将描述视频流的一串符号编码成适于传输或存储的压缩比特流。 熵编码的输入有量化后的传输系数、运动矢量、标记点头信息和辅助信息。熵编码中用得最多的三种编码方法是基于概率分布特性的 Huffinan 编码、 算术编码和基于相关性的游程编码。其中最常用的是 Huff 比 an 编码和游程编码,本小节将重点介绍

12、这两种编码。(1)Huffman 编码Huffman 于 1952 年提出了 Huffman 编码,这是完全依据字符出现的概率来构造平均长度最短的异字头码字的一种编码方法。它的依据是:在变长编码中,若各码字长度严格按照所对应符号出现概率的大小逆序排列, 则其平均长度为最小。Huffman 编码的具体实现步骤如下:将信源符号出现概率按减小的顺序排列;将两个最小的概率进行组合相加,并继续这一步骤,始终将较高的概率分支放在上部,直到概率达到 1.0 为止;对每对组合中的上边一个编码为 1,下边一个编码为 0(或相反,即对上边一个编码为 O,下边一个编码为 1);画出每个信源符号概率到 1.0 处的路

13、径,记下沿路径的 1 和 O:对于每个信源符号都写出 1、0 序列,则从右到左就得到 Huflhlan 码。Huffillan 编码的效率比较高,一般在 95%以上,但应该指出的是,由于“0 和月”的指定是任意的,故由上述过程编出的码并不是唯一的一种,但因其平均码长是一样的,所以并不影响编码效率和数据压缩性能。(2)游程编码所谓游程(RUn.Length,缩写为 RL)就是指由字符(或信号采样值)构成的数据流中各个字符重复出现而形成的字符串长度.如果给出了形成串的字符、串的长度及串的位置,就能恢复出原来的数据流。而游程编码(甩 C)就是用二进制码字给出上述信息的一类编码方法。 游程编码的数据压

14、缩效率取决于整个数据流中重复字符出现次数、平均游程长度及所采用的编码结构。对于灰度值少,特别是二值图像编码效率较高, 二维压缩比可达 10:1, 在应用时常常和其他编码方法混合使用,如 Huffman 编码或 DCT 编码。MPEG-4 的墒编码就是采用哈夫曼编码和游程编码相结合的方法。4 三种网络视频编码的比较三种网络视频编码的比较4.1 MPEG-4 的视频编码运动图像专家组于 2000 年公布的 MPEG-4 标准不仅仅是压缩算法,它还是数字电视、交互式绘图应用、交互式多媒体等整合及压缩技术的国际标准。MPEG-4 将众多的多媒体应用集成于一个完整的框架内,建立起一种能被多媒体传输、存储

15、、检索等应用领域普遍采用的统一数据格式。MPEG-4 除采用第一代视频编码的核心技术(如变换编码、运动估计与运动补偿、量化、熵编码)外,还提出了一些新的有创见性的关键技术,如下:(1)视频对象提取技术:MPEG-4 把视频图像分割成不同对象或把运动对象从背景中分离出来,然后针对不同对象采用相应编码方法,以实现高效压缩。目前视频对象分割的一般步骤是:先对原始视频图像数据进行简化以利于分割,然后对视频图像数据进行特征提取(如:颜色、纹理、运动、帧差、位移帧差乃至语义等特征);再基于某种均匀性标准来确定分割决策,根据所提取特征将视频数据归类;最后是进行相关后处理,以实现滤除噪声及准确提取边界。(2)

16、VOP 视频编码技术: 视频对象平面(VOP, Video Object Plane)是视频对象(VO)在某一时刻的采样。MPEG-4 在编码过程中针对不同 VO 采用不同的编码策略,111x,-J-前景 VO 的压缩编码尽可能保留细节和平滑;对背景 VO 则采用高压缩率的编码策略,甚至不予传输而在解码端由其他背景拼接而成。这样既提高了压缩比,又实现了基于内容的交互。为视频编码提供了广阔的发展空间。(3)视频编码可分级性技术:随着因特网业务的迅速增长,在速率起伏很大的 IP 网络及具有不同传输特性的异构网络上进行视频传输的要求和应用越来越多。在这种背景下,视频分级编码的重要性日益突出,MPEG

17、-4 通过视频对象层(VOL,Video Object Layer)数据结构来实现分级编码。MPEG-4 提供了两种基本分级工具,即:时域分级(Temporal Scalability)和空域分级(Spatial Scalability),此外还支持时域和空域的混合分级。每一种分级编码都至少有两层 VOL,低层称为基本层,高层称为增强层。基本层提供了视频序列的基本信息,增强层提供了视频序列更高的分辨率和细节。在随后增补的视频流应用框架中,MPEG-4 提出了FGS(Fine Granularity Scalable,精细可伸缩性)视频编码算法以及 PFGS(ProgressiveFine Gr

18、anularity Scalable,渐进精细可伸缩性)视频编码算法。(4)运动估计与运动补偿技术:MPEG-4 采用 I-VOP、P-VOP、B-VOP 三种帧格式来表征不同的运动补偿类型。它采用了 H.263 中的半像素搜索(haft pixelsearching)技术和重叠运动补偿技术,同时又引入重复填充(repetitive padding)技术和修改的块(多边形)匹配(modified block(polygon)matching)技术以支持任意形状的 VOP 区域。 此外, 为提高运动估计算法精度, MPEG-4 采用了 MVFAST (MotionVector Field Ada

19、ptive Search Technique) 和改进的 PMVFAST(Predictive MVFAST)方法用于运动估计。对于全局运动估计,则采用了基于特征的 FFRGMET(Featurebased Fast and Robust Global Motion Estimation Technique)方法。在 MPEG-4 视频编码中,运动估计相当耗时,对编码的实时性影响很大。因此这里特别强调快速算法。运动估计方法主要有像素递归法和块匹配法两大类,前者复杂度很高,实际中应用较少,后者则在 H.263 和 MPEG 中广泛采用。4.2H264 标准ISOIEC 与 ITUT 组成的联合视

20、频组(JVT)制定的新一代视频压缩编解码标准 H.264 标准有三个子集:基本子集、主体子集和扩展子集。基本子集是专为视频会议应用设计的,能够提供强大的差错隐消技术(应用该技术,即使在 Internet这样的易错网络上也可以得到较好的视频效果),且支持低延时编解码技术,使视频会议显得更自然。 主体子集和扩展子集更适合于电视应用(数字广播、 DVD)和延时显得并不很重要的视频流应用。H.264 标准的关键技术如下:(1)帧内预测编码:帧内编码用来缩减图像的空间冗余。为提高 H.264 帧内编码的效率,在给定帧中充分利用相邻宏块的空间相关性。H.264 提供 6 种模式进行 4x4 像素宏块预测,

21、 包括 1 种直流预测和 5 种方向预测, H 264 也支持 16x16的帧内编码。(2)帧间预测编码:帧间预测编码利用连续帧中的时间冗余来进行运动估计和补偿。H.264 除了支持 P 帧、B 帧外,还支持新的流间传送帧SP 帧,码流中包含 SP 帧后,能在有类似内容但有不同码率的码流之间快速切换,同时支持随机接人和快速回放模式。(3)整数变换: 在变换方面, H.264 使用了基于 4x4 像素块的类似于 DCT 的变换,但使用的是以整数为基础的空间变换,不存在反变换。与浮点运算相比,整数 DCT 变换会引起一些额外的误差,但因为 DCT 变换后的量化也存在量化误差,与之相比,整数 DCT

22、 变换引起的量化误差影响并不大。此外,整数 DCT 变换还具有减少运算量和复杂度,有利于向定点 DSP 移植的优点。(4)量化:H.264 中可选 32 种不同的量化步长,这与 H.263 中有 31 个量化步长很相似,但是在 H.264 中,步长是以 12.5的复合率递进的,而不是一个固定常数。 在 H.264 中, 变换系数的读出方式也有两种: 之字形(Zigzag)扫描和双扫描,大多数情况下使用简单的之字形扫描;双扫描仅用于使用较小量化级的块内,有助于提高编码效率。(5)熵编码: H.264 标准采用的熵编码有两种:一种是基于内容的自适应变长编码(CAVLC)与统一的变长编码(UVLC)

23、结合; 另一种是基于内容的自适应二进制算术编码(CABAC)。CAVLC 与 CABAC 根据相邻块的情况进行当前块的编码,以达到更好的编码效率。CABAC 比 CAVLC 压缩效率高,但要复杂一些2。4.3AVS 标准AVS 是基于我国创新技术和部分公开技术的自主标准,AVS 标准包括系统、视频、音频、数字版权管理等四个主要技术标准和一致性测试等支撑标准。AVS 视频编解码的核心技术包括:(1)变换量化:AVS 的 8x8 变换与量化可以在 16 位处理器上无失配地实现,从而克服了H.264 之前所有视频压缩编码国际标准中采用的8x8 DCT变换存在失配的固有问题。 而 H.264 所采用的

24、 4x4 整数变换在高分辨率的视频图像上的去相关性能不及 8x8 的变换有效。AVS 采用了 64 级量化,可以完全适应不同的应用和业务对码率和质量的要求。(2)帧内预测:AVS 的帧内预测技术沿袭了 H.264 帧内预测的思路,用相邻块的像素预测当前块, 采用代表空间域纹理方向的多种预测模式。 但 AVS 亮度和色度帧内预测都是以 8x8 块为单位的。亮度块采用 5 种预测模式,色度块采用 4 种预测模式,而这 4 种模式中又有 3 种和亮度块的预测模式相同。在编码质量相当的前提下,AVS 采用较少的预测模式,使方案更加简洁、实现的复杂度大为降低。(3)帧间预测3: 帧间运动补偿编码是混合编

25、码技术框架中最重要的部分之一。AVS标准采用了16x16, 16x8 8x16和8x8的块模式进行运动补偿, 而去除了H 264标准中的 8x4,4x8,4x4 的块模式,目的是能更好地刻画物体运动,提高运动搜索的准确性。实验表明,对于高分辨率视频,AVS 选用的块模式已经能足够精细地表达物体的运动。较少的块模式,能降低运动矢量和块模式传输的开销,从而提高压缩效率、降低编解码实现的复杂度。AVS 和 H.264 都采用了 14 像素精度的运动补偿技术。 H.264 采用 6 抽头滤波器进行半像素插值并采用双线性滤波器进行 14 像素插值。而 AVS 采用了不同的 4 抽头滤波器进行半像素插值和

26、 14 像素插值,在不降低性能的情况下减少插值所需要的参考像素点,减小了数据存取带宽需求。 在传统的视频编码标准中, 双向预测帧 B 帧都只有一个前向参考帧与一个后向参考帧,而前向预测帧 P 帧则只有一个前向参考帧。AVS 中 P 帧可以利用至多 2 帧的前向参考帧, 而 B 帧采用前后各一个参考帧, P 帧与 B 帧(包括后向参考帧)的参考帧数相同,其参考帧存储空间与数据存取的开销并不比传统视频编码的标准大,而恰恰是充分利用了必须预留的资源。AVS 的 B 帧的双向预测使用了直接模式(direct mode)、对称模式(symmetric mode)和跳过模式(skipmode)。使用对称模

27、式时,码流只需要传送前向运动矢量,后向运动矢量可由前向运动矢量导出,从而节省后向运动矢量的编码开销。对于直接模式,当前块的前、 后向运动矢量都是由后向参考图像相应位置块的运动矢量导出,无需传输运动矢量,因此也可以节省运动矢量的编码开销。跳过模式的运动矢量的导出方法和直接模式的相同,跳过模式编码的块运动补偿的残差为零,即该模式下宏块只需要传输模式信号,而不需要传输运动矢量、补偿残差等附加信息。(4)熵编码:AVS 熵编码采用自适应变长编码技术,在 AVS 熵编码过程中,所有的语法元素和残差数据都是以指数哥伦布码的形式映射成二进制比特流。 采用指数哥伦布码的优势在于:一方面,它的硬件复杂度比较低,

28、可以根据闭合公式解析码字,无需查表;另一方面,它可以根据编码元素的概率分布灵活地确定以k 阶指数哥伦布码编码,如果 k 选得恰当,则编码效率可以逼近信息熵。对预测残差的块变换系数,经扫描形成(1evel、mR)对串,level、mR 不是独立事件,而存在着很强的相关性, 在 AVS 中 level、 mR 采用二维联合编码, 并根据当前 level、mR 的不同概率分布趋势,自适应改变指数哥伦布码的阶数。5 三种编解码标准的比较三种编解码标准的比较三种编解码标准各有所长, MPEG-4 是新一代全球多媒体标准, MPEG-4 能够在各种带宽范围内提供专业质量的音频和视频流服务, 是目前商用化程

29、度最高的标准,同时在节目源基础方面占有先天优势。H.264 由于采用了多项提高图像质量和增加压缩比的技术措施, 比 MPEG-4 节约 50的码率, 具有较强的抗干扰性,容易获得稳定的图像。压缩比则是视频传输过程中最重要的指标,因而,在编码技术上,H.264 比 MPEG-4 更先进。AVS 是我国第一个具有自主知识产权、达到国际先进水平的数字音视频编解码标准,可用于高清晰度数字电视、高清晰度激光视盘机、网络电视、视频通信等领域。与 MPEG-4 相比,其压缩效率明显提高,而与 H.264 相比,又减少了 CABAC 等实现难度大的技术,从而增强了可实现性。AVS 对我国数字化音视频产业的发展具有基础意义。AVS 最直接的产业化成果是未来 10 年我国需要的数亿颗解码芯片,最直接效益是 AVS 标准专利管理委员会只象征性地收取每台机顶盒 1 元人民币的专利费, 可节省超过每年数十亿美元的专利费。为了降低 IPTV 网络运营成本,我国将力挺国产音视频标准 AVS。6 网络视频编解码标准的选择与未来的趋势网络视频编解码标准的选择与未来的趋势现在流行的 IPTV 即 Internet Pro

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论