AVS中的音视频编码压缩技术_第1页
AVS中的音视频编码压缩技术_第2页
AVS中的音视频编码压缩技术_第3页
AVS中的音视频编码压缩技术_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、文章编号:1002- 8692(2006)06- 0013- 04中的音视频编码压缩技术王明伟(南京邮电大学 通信与信息工程学院,江苏 南京 210003)a v s实用技术【摘要】介绍了音视频编码标准 avs 中的主要技术特点,对 avs 标准所采用的主要技术进行了综述,给出了 avs 视频标准与mpeg- 4 avc/h.264 编码器性能的比较和分析,讨论了 avs 的发展前景。【关键词】avs 标准;视频编码;mpeg- 4 avc/h.264 标准【中图分类号】tn919.81【文献标识码】aaudio and video coding and compr essing techno

2、logy of avswang ming- wei(college of telecommunications & information engineering, nanjing university of posts and telecommunications, nanjing 210003, china)【abstr act】avs represents national audio and video coding standard. the main technical characteristics of avs- video and audio standard are ill

3、ustrated in this paper.comparing with the corresponding international video and audio coding standard mpeg- 4avc/h.264, we analyze the performance of avs video. and the future development of avs is discussed.【key wor ds】audio video coding standard; video coding; mpeg- 4 avc/h.264 standard引言avs(audio

4、1输入 pcm 数据video coding standard)标准是数字音视频编解码技术标准工作组(avs 工作组)制定的数字音视频编码标准。avs 工作组成立于 2002 年,成员包括国 内外从事数字音视频编码技术和产品研究开发的机构和企业。avs 工作组的任务是面向我国的信息产业需求组 织制订行业和国家信源编码技术标准。s音频编码流音频立体声编码标准概述avs 音频专家组在制订标准时最主要的目标就是 在基本解决知识产权问题的前提下,制订具有国际先进 水平的中国音频编/解码技术标准,使 avs 音频编解码 技术的综合技术指标(包括编码效率复杂度和延迟等) 基本达到或超过 mpeg acc

5、编码技术1。avs 音频编码器支持 8 96 khz 采样的单/双声道 pcm 音频信号作为输入信号,编码器编码后的输出码率 为 1696 kbps/channel,在 64 kbps/channel 编码时可以实现接近透明的音质,编码后的文件可以压缩为原来的1/101/16。avs 音频立体声标准编码框图如图 1 所示。图 1 中, 输入的 pcm 数据经过长/短窗判决、intimdct(整数点改 进离散余弦变换)、spsc 立体声编码、量化、cbc (con-text- dependent bitplane coding)编码后打包成符合 avs音频标准的比特流输出。2.1 长/短窗判决2

6、图 1 avs 音频立体声标准编码框图预测度的两极窗判决法,其主要原理为:把输入的一帧音 频信号划分为若干个子块,首先在时域内进行第一级判 决,简单分析子块能量的变换情况,满足特定条件后才进 行第二步的不可预测度判决,具有基于能量判决简单和 基于不可预测度判决准确的优点,同时该方法克服了基于能量判决不准确和基于不可预测度计算复杂的缺点,从而在迅速确定瞬变信号的同时减少了误判。2.2 intimdct(整数点改进离散余弦变换)avs 音频专家组在制订标准时考虑到和 mpeg 音 频保持同步以及以后的无损压缩扩展,选定整数 mdct 作为分析滤波器。整数 mdct 变换可用来实现无损音频编码(lo

7、ssless audio coding)或混合感知和无损音频编码(combined perceptual and lossless audio coding),它继 承了 mdct 变换的所有重要特性:临界采样(criticalsampling)、数据块叠加(overlapping of blocks)、优良的频数据 控制长/短窗判决比特流 格式转化avintimdct心理 声学 模型spsc立体声编码量化cbc熵编码timdct和反向 intimdct 后可以没有误差地完全重构。2.3 spsc 立体声编码们的性能和复杂度。avs 视频标准采用了与 h.264 类似的技术框架,包 括变换、量

8、化、熵编码、帧内预测、帧间预测、环路滤波等 技术模块。avs- p2 视频标准还定义了 i 帧、p 帧和 b 帧3 种不同类型的图像,i 帧中的宏块只进行帧内预测,p帧和 b 帧的宏块则需要进行帧内预测或帧间预测。3.1 avs1- p2 概述avs1- p2 是基于空间和时间的预测和补偿、空域的 变换和基于统计的熵编码的混合编码。码流结构语法层次从高到低依次为:序列、图像、条带、宏块、块。图像类型有 i,p,b 三种。宏块有帧内预测和帧间预测两大类。块, 是空间预测补偿、时间预测补偿和空间变换的基本单位。在 avs1 - p2 中,块大小为 8 8 像素。在传统的mpeg- 1,mpeg-

9、2,mpeg- 4 第二部分,h.261,h.263 等 标准中变换单元均为 88 像素块,而运动补偿为 1616,168 或 88。而在 mpeg- 4 avc/h.264 标准中,预测补 偿和变换的最小单元都是 44 像素块。容易理解的是,块的尺寸越小,帧内和帧间的预测越准确,预测的残差越小,便于提高压缩效率,但同时更多的运动矢量和帧内预 测模式等附加信息的传递将花费更多的比特。实验表明, 在高分辨率情况下 88 块的性能比 44 块更优,因此 avs1- p2 的块尺寸固定为 88。总体来讲,88 的整数变 换(ict)比 4 个 44 的 ict 的计算复杂度略高一些,但88 运动补偿

10、,运动估计和环路滤波的复杂度较之 44要大为降低。目前 avs1- p2 已定义了一个档次(profile)即基准档 次。这个档次又分为 4 个级别,用于标清的 4.0(420)级 别和 4.2(422)级别,以及用于高清的 6.2(420)级别和6.2(422)级别。在 avs 视频标准中,所有宏块都要进行帧内预测或 帧间预测。预测残差要进行 88 整数变换和量化,然后对量化系数进行 zig- zag 扫描(隔行编码块使用另一种扫 描方式)得到一维排列的量化系数,最后对量化系数进行熵编码。avs 的变换和量化只需要加减法和移位操作, 用 16 位精度即可完成。avs 使用环路滤波器对重建图像

11、滤波,其优点:一 方面可以消除方块效应,改善重建图像的主观质量;另一方面能够提高编码效率。滤波强度可以自适应调整。3.1.1 变换和量化2mpeg- 1,mpeg- 2,mpeg- 4,h.261,h.263 等标准使 用 88 离散余弦变换(dct);h.264 标准使用 44 整数变换,能够避免正变换和逆变换的不匹配问题;考虑到编码性能、实现复杂度、avs- p2 视频标准的主要应用等多方 面因素,最终选择了 88 整数变换,ict 可用加法和移位 直接实现。spsc(square polarstereo coding)是一种比较高效的立体声编码方法,当左/右两个声道有比较强的相关性时,采

12、用 spsc 能够带来比较大的编码增益。其主要原理 为当左/右两个声道有比较强的相关性时,一个声道传大值信号,而另一个声道传两个声道的差值信号,编码端的spsc 模块和解码端相对应的重建模块构成无损变换对。2.4 cbc 熵编码cbc(context - dependentbitplane coding)是一种高效的量化熵编码方法,具有精细颗粒可调(fine grainscalability)特征,可调步长为 1 kbps,编码速率可从 1696 kbps 连续可调。音频解码器可以根据解码端解码能 力,在低于编码比特率下解 avs 编码码流。当解码速率从编码速率到较低比特速率时,解码音乐信号的

13、音质从高到低逐级衰减。cbc 编码效率要优于 mpeg aac 中 的哈夫曼编码,在 64 kbps/channel 编码时,cbc 平均编 码比特数较 mpeg aac 中的哈夫曼编码节省约 6%。为了满足不同的应用需求 avs 音频编码技术采用 分模式策略,主要分以下两个模式:1)main profile:高质量,高复杂度;2)scalability:可分级的码率和编码质量。在 scalability 模式下,编码比特流由基本层和多个 增强层组成,这样可以在最小音质损失的情况下动态地自适应网络带宽的变化以及用户终端的解码能力,极大 地增加了系统的灵活性。avs 音频编码技术与 mpeg a

14、cc 技术相比,avs音频编码的 main profile 可以 获得与 mpeg acc lc profile 相当或更高的编码质量;而其 main profile 编解码 运算复杂度高于 mpeg acc lc 模式;但是 avs 音频支持可分级编码,而 mpeg acc 不支持。avs 视频标准中的技术概述avs 标准包括 9 部分:系统、视频、音频(2 部分)、参 考软件、数字媒体版权管理、移动视频、在 ip 网上传输 avs 及 avs 文件格式2- 4。其中 avs 标准中涉及视频压缩编码的有两个独立 的部分:avs 第二部分(avs1- p2),主要针对高清晰度和 高质量数字电视

15、广播和高密度存储媒体应用;它的主要特点为:1)性能高,编码效率比 mpeg- 2 高 2 倍以上, 与 h.264 的编码效率相当;2) 算法复杂度比 h.264 低;3)软硬件实现成本低于 h.264;4)专利授权模式简单, 费用明显低于同类标准。avs 第七部分(avs- p7)主要针对低码率、低复杂度、较低图像分辨率的移动媒体应用。下文分析了 avs1- p2 部分的主要技术特征以及它3为减少变换和量化过程中取整带来的误差,avs 和h.264 都将变换和量化结合在一起进行考虑,与 h.264不同的是 avs 视频标准中正向和反向缩放都放在编码 器端完成,从而减少了解码器的计算量,而在解

16、码端只进行反量化,不再需要反缩放。由于 avs1- p2 中采用总共64 级近似 8 阶非完全周期性的量化,pit 的使用可以使 编、解码端节省存储与运算开销,而性能上又不会受影响。量化参数 qp 决定量化步长:在 h.264 中,qp 每增加6,量化步长增加一倍;而在 avs 中,qp 每增加 8,量化步 长增加一倍。与 mpeg- 4 avc/h.264 的 44 块的帧内预测相比,大的预测块将增加待预测样本和参考样本间的距离,从而减弱相关性,降低预测精确度。在 avs1- p2 的 dc 模 式中先用 3 抽头低通滤波器(1,2,1)对参考样本滤波,而 且每个像素值由水平和垂直位置的相应

17、参考像素值来预 测,所以每个像素的预测值都可能不同。这种 dc 预测较 之 h.264 中的 dc 预测更精确。rm4.0(avs- p2 的参考软件)上的实验表明,avs 采 用 5 种模式仅比 mpeg- 4 avc/h.264 采用 9 种模式损失 0.05 db 的 psnr2,与 h.264 相比,在编码质量相当的前提下,avs 采用较少的预测模式,使方案更加简洁、实 现的复杂度大为降低。熵编码avs- p2 所有语法元素的码字基于指数哥伦布码或 定长码而构造。定长码用来编码具有均匀分布的语法元 素,指数哥伦布码用来编码可变概率分布的语法元素。avs- p2 采用基于上下文的 2d-

18、 vlc(variable length code)来编码 88 块变换系数。基于上下文的意思是用已 编码的系数来确定 vlc 码表的切换。avs1- p2 总共用到21 张可变长度码(vlc)码表。2d- vlc 的意思是将(level,run)对视为一个事件联 合编码。在之前的视频编码标准 mpeg- 2/4 等中已用到2d- vlc,对不同类型的变换块分别用不同的 vlc 表编 码。avs1- p2 充分利用上下文信息,编码方法总共用到19 张 2d- vlc 表。这些表需要约 1 k 字节的存储空间。文献2中的实验结果表明,avs- p2 与 h.264 main profile性能接

19、近,而明显优于目前在标清和高清视频应用中主 流的 mpeg- 2。3.1.3 帧内预测avs- p2 采用基于 88 块的帧内预测。预测时使用 当前块的左侧块和上面块中的相邻像素作为参考像素。亮度和色度帧内预测分别有 5 种和 4 种模式如表 1。相 邻已解码块在环路滤波前的重建像素值用来给当前块作参考。3.1.2帧间预测avs- p2 支持 p 帧和 b 帧两种帧间预测图像。p 帧3.1.4至多采用 2 个前向参考帧;b 帧采用前后各一个参考帧。与 mpeg- 4 avc/h.264 相比,avs- p2 标准允许 p 帧使用在其之前的连续两个 i/p 帧作为参考图像。在不增加 存储和数据带

20、宽等资源的情况下,尽可能地发挥现有资源的作用,提高压缩性能。帧间预测中每个宏块的划分有 4 种类型:1616,168,816 和 88,运动矢量的精度为 1/4 像素。p 帧有 5 种预测模式:p_skip (16 16),p_16 16,p_16 8,p_8 16,p_88。对于后 4 种预测模式的 p 帧,每个宏块由 2 个候选参考帧中的 1 个来预测,候选参考帧为最近解码的 i或 p 帧。对于后 4 种预测模式的 p 场,每个宏块由最近 解码的 4 个场来预测。双向预测有两种模式:对称模式和直接模式。在对称模式中,每个宏块只需传送一个前向运动矢量,后向运动 矢量由前向运动矢量通过一定的对

21、称规则获得,从而节 省后向运动矢量的编码开销。在直接模式中,前向和后向 运动矢量都是由后向参考图像中的相应位置块的运动矢 量获得,不需传输运动矢量,因此也节省了运动矢量的编 码开销。这两种双向预测模式充分利用了连续图像的运 动连续性。avs 视频标准中的 b 帧定义了一种对称模式。在该 模式中,只对前向运动矢量编码,后向运动矢量根据前向 运动矢量计算得到。由于定义了 b 帧的对称模式,在 avs 视频标准中,b 帧的宏块最多只需要对一个方向的 运动矢量进行编码;而在 mpeg- 1/2 等标准中,帧可能需 要对两个方向的运动矢量进行编码。表 1帧内预测模式环路滤波基于块的视频编码很容易造成方块

22、效应,特别是在 低码率的情况下。avs 视频标准定义了自适应环路滤波 器来消除方块效应,改善重建图像的主观质量,同时可提3.1.5亮度块色度块模式名称模式名称0intra_88_vertical1intra_88_horizontal2intra_88_dc3intra_88_down_left4intra_88_down_right0intra_chroma_dc1intra_chroma_horizontal2intra_chroma_vertical3intra_chroma_planeavs- p2 采用自适应环路滤波,即根据块边界两侧的块类型先确定块边界强度(boundary str

23、ength,bs)值, 然后对不同的 bs 值采取不同的滤波策略。帧内块滤波最强,非连续运动补偿的帧间块滤波较弱,而连续性较好的块之间不滤波。avs1- p2 变换和最小预测块大小都是 88,因此环路滤波的块大小也是 88。与 h.264 的 44 相 比,avs1- p2 块边界数量大大减少。而且 bs 值和改变的像素值的数量都有所减少。环路滤波对亮度块和色度块的边界进行 (图像和条 带边界不滤波)。滤波时首先对块的水平边界滤波,然后 再对块的垂直边界滤波。滤波强度由宏块编码模式、量化 参数、运动矢量等决定。h.264 的环路滤波器滤波时使用 边界左右各 4 个像素(共 8 个像素);而 a

24、vs 视频标准只 使用左右各 3 个像素(共 6 个像素),实现复杂度低于 h.264 的环路滤波器。avs 视频标准使用的环路滤波器也 更有利于并行实现。3.2 avs1- p7 概述avs1- p7 也是基于预测、变换和熵编码的混合编 码系统,框架与 avs1- p2 相同。avs1- p7 的主要目标是以较低的运算和存储代价实现在移动设备上的视频应用。avs1- p7 码流结构语法层次与 avs1- p2 类似。不同 的是,avs1- p7 的条带是由以扫描顺序连续的若干宏块 组成,而并不要求是完整的宏块行,这样便于视频流的打 包传输。图像类型只有 i 与 p 两种。目前 avs1- p

25、7 已定 义了一个档次,即基本档次和 9 个级别。其主要技术如下:1)与高分辨率图像的压缩相反,在低分辨率情况 下,变换和预测补偿的单元越小,性能越好。因此, avs1- p7 采用 44 的块大小作为变换、预测补偿的基 本单位。2)亮度帧内预测有 9 种基于 44 的模式,色度有 3种基于 44 的模式。3)avs1- p7 中帧间预测帧只有 p 帧类型,没有 b帧,这一点与 mpeg- 4/h.264 的基准档次一样。最大参考 帧数为 2 帧,而不是 mpeg- 4/h.264 基准档次中的 16 帧,更为实际可行。p 帧分为两类,分别为可作参考的 p帧和不可作参考的 p 帧。这样既简化了

26、操作,又保证了码流的可伸缩性。帧间运动补偿的块大小可以为:1616,168,816,88,84,48,44。帧间运动补偿的精度最 高为 1/4 像素。1/2 像素插值的水平和垂直方向分别采用8 抽头和 4 抽头滤波器;1/4 像素插值则均采用 2 抽头滤 波器。为了便于实现,avs1- p7 中将运动矢量范围限制在 图像边界外 16 个像素以内。竖直方向运动矢量分量的取值范围对 cif 格式是 - 32,31.75,而非 mpeg- 4/h.264的- 128,127.75。4)采用一种特别简化的环路滤波方法。首先,滤波 的强度是在宏块级而非块级确定,即当前宏块的类型和当前宏块的量化参量 qp 值确定了此宏块的滤波强度, 从而大大减少了判断的次数。此外,滤波过程仅涉及边界两边各两个像素点,且滤波最多仅修改边界两边各两个 像素点,这样同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论