版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1第5章信源编码标准掌握MPEG-2AAC的音频编解码原理熟悉DRA多声道数字音频编解码的算法原理及关键技术了解新一代环绕多声道音频编码格式理解MPEG-2、H.264/AVC标准中“类”和“级”的含义熟悉H.264/AVC标准的主要特点及性能了解H.265/HEVC标准的主要特点及性能了解我国具备自主知识产权的音视频编码标准(AVS)的性能及应用本章学习目标第5章信源编码标准5.1数字音视频编码标准概述5.2高级音频编码(AAC)算法5.3DRA多声道数字音频编解码标准5.4新一代环绕多声道音频编码格式5.5H.264/AVC视频编码标准5.6H.265/HEVC视频编码标准5.7AVS与AVS+视频编码标准5.1数字音视频编码标准概述国际上数字音视频编码标准主要有两大系列。一个系列由国际标准化组织(ISO)和国际电工委员会(IEC)制定,另一个系列由国际电信联盟电信标准部(ITU-T)制定。●ISO/IEC:JPEG,JPEG2000,MPEG-1/2/4/7
●
ITU-T:H.261/2/3/4制定这些标准的背景有所不同,面向的主要应用也有所区别,它们采用的技术有很多共同点,应用领域有所重叠。两者合作制定标准:H.262/MPEG-2/
、H.264/MPEG-4AVC和H.265/HEVC制定视频编码标准的组织国际电信联盟(ITU)ISO/IECInternationalTelecommunicationUnion(ITU)其委员会包括:CCITT(ConsultativeCommitteeonInternationalTelegraphand
Telephone),1956~1992CCIR(ConsultativeCommitteeonInternationalRadio),1927~19921992重组CCITT→ITU-TCCIR→ITU-R5.1数字音视频编码标准概述ITUITU-RITU-TITU-D(发展)SG1SG2StudyGroup6-MultimediaWP1-ModemsandInterfaceV.34,V.25terWP2-SystemsH.320-ISDNH.323-LANH.324-POTST.120-DATAWP3-CodingG.7xx-AudioH.26x-VideoITU视频编码相关的研究小组ISO/IECIEC-InternationalElectrotechnicalCommission成立于1906年,致力于建立所有电工技术方面的国际标准瑞士法律下的非盈利、私立机构ISO-InternationalStandardizationOrganization成立于1947年,“推动工业标准的国际协调和统一”瑞士法律下的非盈利、私立机构ISO/IEC
联合技术委员会(ISO/IECJointTechnicalCommmittee1,JTC1)联合致力于计算机相关的标准活动占ISO和IEC总标准的30%视频编码标准组织ISOJTC1IECSubcommittee29AGWGAGMRAWG1WG12WG11SGSGSGJBIGJPEGMHEG5MHEG6需求Systems描述VideoAudioSNHCTests实现研究联络ISO/IEC视频编码相关的研究小组视频编码标准发展历程视频编码标准发展历程视频编码标准发展历程ISO/IEC--MPEG-1,MPEG-2,MPEG-4,MPEG-4AVC/H.264,HEVCITU-T--H.261,H.262(MPEG-2),H.263,H.264,H.265中国AVS--AVS,AVS+下一代标准?---方向、技术?
年代
MPEG-1
1993
2001
1997
2005
MPEG-4AVC/H.2641989
MPEG-2MPEG-42013AVS下一代标准20092017视频编码标准发展历程5.1.1H.26x系列标准ITU-T的视频编码专家组(VCEG)制定了H.26x标准系列,主要针对实时视频通信领域的应用,如可视电话、会议电视等。H.261:“速率为p×64kbit/s(p=1,2,…,30)视听业务的视频编解码”,简称为p×64kbit/s标准。H.262:同MPEG-2的视频部分(ISO/IEC13818-2)。H.263:低码率视频编码标准。H.264:等同于MPEG-4AVC(ISO/IEC14496-10)。H.265:等同于MPEGHEVC(ISO/IEC23008-2)。
ITU-TH.2611988年制定,奠定了现代视频编码的基础:编码结构为:运动补偿预测+DCT编码+熵编码关键技术包括16×16宏块运动补偿预测、8×8DCT、量化、环路滤波和变字长编码(VLC)等。这些关键技术后来被其它标准采用。H.261v2(1993年早期)增加了后向兼容的高清晰度图片模式(例如远程教学中的白板)图像格式:CIForQCIF,帧率29.97fps数码率为n×64kbit/s(64~1920kbit/s),典型为384kbit/s特性:低复杂、低时延后向兼容的一个标准被H.263和H.264超越H.261图像格式ITU-RBT.601CIFQCIF720×576352×288176×144基于MC+DCT混合视频编码器反量化IDCTMC预测器DCT量化运动估计ME帧缓存器运动补偿预测MC输入信号编码码流(送信道)解码帧(送显示)运动矢量和块模式数据(送信道)先前解码的帧(虚框表示解码器)熵编码H.263:低码率视频编码标准ITU-TH.263(V1:1995):取代H.261,成为视频会议、可视电话和Internet视频流的压缩标准。H.263+(1997/1998年)&H.263++(2000年)图像格式通常为CIF、QCIForSub-QCIF(128×96),帧率一般低于10fps。数码率:任意,典型20kbps(对于PSTN)。在所有的数码率上对优于H.261,在一半数码率上与
H.261具有相同的质量是MPEG4标准的压缩Core。H.263vs.H.261改进的运动补偿H.261:整数像素精度,环路滤波器,每个MB一个运动矢量H.263:半像素精度,无环路滤波器,每个MB一个运动矢量减少了Overhead支持更多的图像格式附录中定义了选项无限制的运动矢量(附录D)基于语法的算术编码(SAC)(附录E)高级预测模式(AP)(附录F)重叠块运动补偿(OverlappedBlockMotionCompensation,OBMC)每个MB中1或4个运动矢量切换PB帧图像(附录G)在H.263++增加了更多选项5.1.2MPEG-x系列标准
MPEG(MovingPictureExpertsGroup)是运动图像专家组的英文缩写。即ISO/IECJTC1/SC29/WG11。这个专家组开发的标准通常称为MPEG标准。
MPEG-1:针对1.5Mbit/s以下数码率的数字存储媒体应用的运动图像及其伴音编码,标准号ISO/IEC11172。MPEG-2:运动图像及其伴音信息的通用编码,标准号ISO/IEC13818。MPEG-4:视听对象编码,标准号ISO/IEC14496。MPEG-7:多媒体内容描述接口,标准号ISO/IEC15938。MPEG-HPart2:同H.265,标准号ISO/IEC23008-2。
MPEG-1是针对1.5Mbit/s以下数据传输率的数字存储媒介应用的运动图像及其伴音编码的国际标准。MPEG-1的目标是将压缩后的视/音频码流存入光盘(如CD-ROM、VCD等),数据传输率为1.416Mbit/s,其中1.1Mbit/s用于视频,128kbit/s用于音频,其余的用于系统开销。MPEG-1是一个开放的、统一的标准,在商业上获得了巨大的成功。尽管其图像质量仅相当于VHS视频的质量,还不能满足广播级的要求,但已广泛应用于VCD等家庭视听产品中。
5.1.2MPEG-x系列标准在制订MPEG-1的过程中,广播电视的设备制造商立即意识到MPEG技术对提高卫星转发器和有线电视信道效率的潜力。但数字电视广播不能满足于VHS的图像质量,数码率也不必像MPEG-1限制得那样低。于是MPEG为数字电视广播的应用制订了MPEG-2标准。MPEG-1是MPEG-2的一个子集,任何MPEG-2的解码器要能够对MPEG-1的码流进行解码。MPEG-2不是MPEG-1的简单升级,它在系统和传送方面作了更加详细的规定和进一步的完善。MPEG-2的应用领域非常广泛,包括存储媒介中的DVD、广播电视中的数字电视和HDTV、以及交互式的视频点播(VOD)等。5.1.2MPEG-x系列标准MPEG-4
视听对象编码(Codingofaudio-visualobjects)标准(ISO/IEC14496),始于1993年的多媒体应用标准1998年10月发布了版本11999年底完成了版本22000年初正式成为国际标准不断更新和完善……目标是为通信、广播、存储和其他应用提供数据速率低而视听质量高的数据编码方法和交互播放工具吸收了MPEG-1、MPEG-2和其他相关标准的许多特性引入了视听对象(audio-visualobjects,AVO)编码的概念5.1.2MPEG-x系列标准扩充了编码类型,由自然对象扩展到合成对象采用了合成对象与自然对象混合编码(Synthetic/NaturalHybridCoding,SNHC)算法引入了组合、合成和编排等重要概念,以实现交互功能和对象重用5.1.2MPEG-x系列标准发送端(b)接收端MPEG-4基于对象的系统模型5.1.2MPEG-x系列标准AVS(AudioVideocodingStandard)是我国具备自主知识产权的第二代信源编码标准,是《信息技术——先进音视频编码》系列标准的简称。AVS视频标准(GB/T20090.2-2006)主要面向高清晰度和高质量数字电视广播、网络电视、高密度激光数字存储媒体和其他相关应用,具有以下特点:(1)性能高,编码效率是MPEG-2的2倍以上,与H.264的编码效率处于同一水平;(2)复杂度低,算法复杂度比H.264明显低,软硬件实现成本都低于H.264;(3)我国掌握主要知识产权,专利授权模式简单,费用低。5.1.3AVS和AVS+标准熵编码反量化反变换运动补偿预测控制数据量化后的变换系数运动数据帧内/帧间编码控制解码器运动估计变换/量化-0环滤波帧内预测5.1.3AVS和AVS+标准AVS视频编码标准工具集双向预测隔行编码运动矢量预测子像素插值多参考帧预测可变块大小预测帧内预测变换和量化熵编码环路滤波缓冲区管理其它图像组头防伪起始码码流顺序时间参考索引AVS的的意义直接产业化成果:未来10年我国需要的4~5亿颗解码芯片,辐射超万亿的国民经济产业构建完整的产业链:技术专利标准芯片系统制造业运营业文化产业我国高清电视、直播卫星等音视频产业跨越发展的难得契机AVS产品形态芯片高清/标清AVS解码芯片,国内需求量在未来十多年的时间内年均将达到4000多万片。软件AVS节目制作与管理系统,Linux和Window平台上基于AVS标准的流媒体播出、点播、回放软件整机机顶盒、播出服务器、编码器、高清激光视盘机、高清数字电视机顶盒和接收机、手机、便携式数码产品等媒体运营产业
AVS+视频标准AVS工作组制定了AVS1-P2等视频编码标准,并于2006年颁布为国标GB/T20090.2-2006,之后于2012年在国标的基础上升级为AVS+,形成了广电行业标准GY/T257.1-2012。AVS2视频标准AVS标准针对视频监控的伸展档AVS-S2又于2013年被国际电子电气工程师协会(IEEE)标准化委员会接受并颁布为IEEE1857标准。2013年12月31日国家质检总局、国家标准委批准发布了《信息技术先进音视频编码第2部:视频》(修订)(国标代号GB/T20090.2-2013)、《信息技术先进音视频编码第10部:移动语音和音频》(国标代号GB/T20090.10-2013)为国家标准,标准将于2014年7月15日正式实施。AVS2是AVS+的下一代,即《信息技术--先进音视频编码第2部:视频》(修订)。国标代号GB/T20090.2-2013,简称AVS2视频标准首要应用目标是超高清晰度(
4K或8K
)视频。测试表明,AVS2视频标准的压缩效率已经比上一代AVS国家标准和AVC/H.264国际标准提高了一倍,在场景类视频编码方面大幅度领先于最新国际标准HEVC,实现复杂度不高于同等级的编码标准。第5章信源编码标准5.1数字音视频编码标准概述5.2高级音频编码(AAC)算法5.3DRA多声道数字音频编解码标准5.4新一代环绕多声道音频编码格式5.5H.264/AVC视频编码标准5.6H.265/HEVC视频编码标准5.7AVS与AVS+视频编码标准5.2
高级音频编码(AAC)算法MPEG-2标准定义了两种音频压缩编码算法:MPEG-2Audio(标准号为ISO/IEC13818-3),或称为MPEG-2BC,它是与MPEG-1音频压缩编码标准(ISO/IEC11172-3)后向兼容的多声道音频编码标准;MPEG-2AAC(AdvancedAudioCoding,高级音频编码),标准号为ISO/IEC13818-7。因为它与MPEG-1音频压缩编码算法是不兼容的,所以也称为MPEG-2NBC(NonBackwardCompatible,非后向兼容)标准。MPEG-2BC:对MPEG-1音频编码的扩展,没有增加新的编码的算法增加了低采样频率(16kHz、22.05kHz、24
kHz)和低数码率支持5.1或7.1声道环绕声支持多达7种语言和MPEG-1后向兼容5.2
高级音频编码(AAC)算法在MPEG-1音频编码的基础上,MPEG-2音频编码能传输多路声音,称为MUSICAM环绕声。5.2
高级音频编码(AAC)算法MPEG-2多声道编解码器RoLoRoLoMPEG-1
编码器MPEG-1
解码器MPEG-2
EncoderMPEG-2编码器MPEG-2解码器缩混RLCLSRSLFE重新混合RLCLSRSLFEMPEG-2Decoder前向兼容:MPEG-2多声道解码器可正确地对MPEG-1立体声码流进行解码后向兼容:MPEG-1立体声解码器可以从多声道码流中正确地对解码出双声道立体声信号5.2
高级音频编码(AAC)算法MPEG-2AAC(ISO/IEC13818-7)MPEG-2后向不兼容(Non-backwardcompatible,NBC)
改名为AAC(AdvancedAudioCoding)支持48个主声道、16个低频音效增强(LFE)声道、16个配音声道(overdubchannel)或者称为多语言声道(multilingualchannel)和16个数据流。采样率8~96kHz数码率为8~160kbps/声道与MPEG-1的第2层相比,MPEG-2AAC的压缩比可提高1倍,而且音质更好;在质量相同的条件下,MPEG-2AAC的数码率大约是MPEG-1第3层(即MP3)的70%。5.2
高级音频编码(AAC)算法达到CD质量水平的声音测试44.1kHz,16bits/sample,立体声=
1.411MbpsMP3需要128kbpsAAC需要96kbps5.2
高级音频编码(AAC)算法MPEG-2AAC(ISO/IEC13818-7)5.2
高级音频编码(AAC)算法主档次(MainProfile)除了“增益控制(GainControl)”模块之外低复杂度档次(LowComplexityProfile)不使用预测模块和增益控制模块,瞬时噪声整形(temporalnoiseshaping,TNS)滤波器的级数也有限
可分级的采样率档次(ScalableSamplingRateProfile)使用增益控制对信号作预处理,不使用预测模块,TNS滤波器的级数和带宽也都有限制
MPEG-2AAC的档次5.2
高级音频编码(AAC)算法MPEG-4Time/FrequencyCodingM/S预测强度立体声/耦合时域噪声整形滤波器组增益控制工具比特流复接感知模型量化和编码音频信号ISO/IEC14496-3Subpart4CodedAudioBitStream控制流数据流BarkScaletoScaleFactorBandMapping窗长度判决SpectralNormal.AAC量化和编码BSAC量化和编码TwinVQ频谱处理MPEG4通用音频编码:基于AAC的编码时延主要由以下因素引起:帧长度分析和合成滤波器在编码器中窗长度切换(2048vs256样值)需要“look-ahead”时间。比特池匹配于变比特率(VariableBit-Rate,VBR)需求最小理论时延:110ms+210ms(比特池)(在24kHz取样频率和24kbit/s比特率时)AAC低时延:帧长:只有512个样值没有提前预见时间(look-aheadtime)没有比特池编码增益损失:约20%MPEG4通用音频编码:AAC低时延第5章信源编码标准5.1数字音视频编码标准概述5.2高级音频编码(AAC)算法5.3DRA多声道数字音频编解码标准5.4新一代环绕多声道音频编码格式5.5H.264/AVC视频编码标准5.6H.265/HEVC视频编码标准5.7AVS与AVS+视频编码标准DRA数字音频编解码技术采用自适应时频分块(AdaptiveTimeFrequencyTiling,ATFT)方法,实现对音频信号的最优分解,进行自适应量化和熵编码,具有解码复杂度低、压缩效率高、音质好等优点,可广泛应用于数字音频广播、数字电视、移动多媒体、激光视盘机、网络多媒体以及在线游戏、数字电影院等领域。
5.3DRA多声道数字音频编解码标准DRA标准概况(1/4)标准名称:《多声道数字音频编解码技术规范》 (简称DRA音频)标准类别:中国电子行业标准标准号:SJ/T11386-2006标准批准时间:2007年1月4日批准部门:中华人民共和国信息产业部标准研发单位:广州广晟数码技术有限公司DRA标准概况(2/4)DRA最大特点是用很低的解码复杂度实现了国际先进水平的压缩效率。经国家广电总局规划院多次测试表明,DRA技术在每声道64kbps的码率时即“达到了EBU定义的‘不能识别损伤’的音频质量”。DRA可应用于数字电视、数字音频广播、数字电影院、网络流媒体、IPTV及移动多媒体等领域。DRA标准概况(3/4)DRA测试情况测试条件:5.1声道384kbps码率情况下,以5分为满分4.94.54.24.04.0DRA标准概况(4/4)采样频率范围8~192kHz采样精度24bit比特率32~9612kpbs可支持的最大声道数正常声道64个,低频效果声道(LFE)3个,即64.3算法实现复杂度采用Motorola5636X定点DSP,只需48MIPS即可完成5.1声道的384kpbs的解码压缩效率每声道在64kbps码率下“达到了EBU定义的‘不能识别损伤’的音频质量”编码延迟43ms(48K采样率),46ms(44.1K采样率)技术指标5.3DRA多声道数字音频编解码标准DRA多声道数字音频编码算法5.3DRA多声道数字音频编解码标准DRA多声道数字音频解码算法第5章信源编码标准5.1数字音视频编码标准概述5.2高级音频编码(AAC)算法5.3DRA多声道数字音频编解码标准5.4新一代环绕多声道音频编码格式5.5H.264/AVC视频编码标准5.6H.265/HEVC视频编码标准5.7AVS与AVS+视频编码标准5.4
新一代环绕多声道音频编码格式DolbyDigitalPlus(DD+)5.4
新一代环绕多声道音频编码格式DolbyTrueHDDolbyTureHD(杜比真高清)是Dolby公司于2005年9月8日推出的一种针对高清光盘格式开发的新一代无损音频编码格式,可为听众提供相当于高分辨率录音棚母版的音响效果。采用MLP无损压缩技术最高数码率可达18Mbit/s支持7.1声道,最高可达13.1声道5.4
新一代环绕多声道音频编码格式DTS-HDDolbyTureHD(杜比真高清)是Dolby公司于2005年9月8日推出的一种针对高清光盘格式开发的新一代无损音频编码格式,可为听众提供相当于高分辨率录音棚母版的音响效果。采用MLP无损压缩技术最高数码率可达18Mbit/s支持7.1声道,最高可达13.1声道第5章信源编码标准5.1数字音视频编码标准概述5.2高级音频编码(AAC)算法5.3DRA多声道数字音频编解码标准5.4新一代环绕多声道音频编码格式5.5H.264/AVC视频编码标准5.6H.265/HEVC视频编码标准5.7AVS与AVS+视频编码标准VCL实现视频数据的编解码;NAL定义数据封装格式,为VCL提供与网络无关的统一接口H.264/AVC视频编码器的分层结构H.264/AVC视频编码框图变换/量化去除空间冗余运动补偿预测去除时间冗余熵编码去除变换系数的冗余熵编码反量化/变换运动补偿控制数据量化的变换系数运动矢量帧内/帧间编码控制解码器运动估计变换/量化-输入视频信号划分成宏块
帧内预测环路滤波视频信号输出视频流仍然采用先前标准中的MC+DCT混合编码算法,相同的部分包括:16×16宏块传统的亮度和色度采样格式4:2:0块运动位移或矢量运动矢量越过图像边界的算法块大小可变的运动补偿块变换(没有采用小波或分形
waveletsorfractals)标量量化I、P
和
B帧图像类型变字长编码Variable-lengthcodingH.264/AVC标准采用的已有技术多模式、多参考帧运动补偿1/4pixel运动矢量精度多模式帧内预测(I帧空域预测)去方块效应环路滤波器44整数变换熵编码采用CAVLC或CABACSP-slices网络适应层NAL(NetworkAbstractionLayer)H.264/AVC标准采用的新技术动机:运动/固定目标的大小是可变的许多小块也可能需要花费许多比特来编码不同块大小和形状的运动补偿1/4-pixel精度(源自MPEG-4ASP,但更复杂)以往的视频编码标准都采用了整像素或半像素的运动估计,¼-pixel比½-pixel获得1.5~2dB增益,约节省20%的比特率½-pixel精度采用6抽头滤波器得到7种可变块大小:H.264把每个16×16宏块再细分,每个子块分别进行预测,提高了预测精度:保持完整的宏块,水平(垂直)划分为两个子块,大小为16×8(8x16)划分成4个子块,大小为8×8上述的4个8×8子块可以进一步划分成更小的2或4个块(8×4、4×8、4×4)。节省了15%以上的比特率多参考帧预测:假设为5个参考帧预测,相对于一个参考帧来说,可节省5%到10%比特率。H.264多模式、多参考帧运动补偿16×168×84×4
1/4像素则由1/2像素线性内插得到,例如:1/4像素精度运动补偿1/2像素内插采用6-TAP滤波器例如b点是由E、F、G、H、I、J计算得出:1/4像素精度运动补偿的性能比较Foreman30fpsQCIF熵编码反量化/变换运动补偿控制数据量化的变换系数运动矢量帧内/帧间编码控制解码器运动估计变换/量化-输入视频信号划分成宏块16x16pixels帧内预测环路滤波视频信号输出视频流H.264
可变大小块运动补偿大小和形状可变块(7种)8x804x80101234x48x4108x8Types016x16018x16MBTypes8x8012316x810不同匹配块数量的性能比较Foreman30fpsQCIF熵编码反量化/变换运动补偿控制数据量化的变换系数运动矢量帧内/帧间编码控制解码器运动估计变换/量化-输入视频信号划分成宏块16x16pixels帧内预测环路滤波视频信号输出视频流多参考帧运动补偿H.264多参考帧运动补偿5个参考帧(33.19dB)1个参考帧(31.65dB)H.264多参考帧运动补偿多参考帧的性能比较H.264多参考帧运动补偿Foreman30fpsQCIF多参考帧的性能提高不明显,这与图像序列有很大关系。宏块或块基于先前编码的块进行预测:先前编码的块位于当前块的上面和/或左面的块亮度块两类帧内预测方式:9种4×4帧内预测模式,用于纹理区域。4种16×16帧内预测模式,用于平滑区域。Mode0(垂直)Mode1(水平)Mode2(DC)Mode3(面)色度样值只有4种8×8帧内预测模式,类似于亮度样值的16×16帧内预测模式Mode0(Vertical)Mode1(Horizontal)Mode2(DC)Mode3(Plane)编码参数规定了哪些相邻块用于预测,以及如何预测?多模式帧内预测(I帧空域预测)熵编码反量化/变换运动补偿控制数据量化的变换系数运动矢量帧内/帧间编码控制解码器运动估计变换/量化-输入视频信号划分成宏块16x16pixels
帧内预测环路滤波视频信号输出视频流方向性空间预测模式 (亮度9种4×4预测模式)像素(a-p)由周围解码的像素(A-Q)进行预测。例如模式3:右下对角线预测通过下式预测:
(A+2Q+I+2)>>2QABCDEFGHIabcdJefghKijklLmnopMNOP013456782-DCH.264中的4×4帧内预测H.264中的4×4帧内预测亮度分量4×4块预测模式模式描述模式0(垂直)由A、B、C、D垂直推出相应像素值模式1(水平)由I、J、K、L水平推出相应像素值模式2(DC)由A~D及I~L平均值推出所有像素值模式3(下左对角线)由方向像素值内插值得出相应像素值模式4(下右对角线)由方向像素值内插得出相应像素值模式5(右垂直)由方向像素值内插得出相应像素值模式6(下水平)由方向像素值内插得出相应像素值模式7(左垂直)由方向像素值内插得出相应像素值模式8(上水平)由方向像素值内插得出相应像素值色度分量/亮度分量16×16块预测模式模式描述模式0(垂直)由上边像素推出相应像素值模式1(水平)由左边像素推出相应像素值模式2(DC)由上边和左边像素平均值推出相应像素值模式3(平面)利用线形“plane”函数及左、上像素推出相应像素值帧内预测性能分析Foreman30fpsQCIFH.264中的4×4整数变换动机:DCT需要实数运算,反变换中引起了精度的损失。更小的图像,更好的运动补偿,意味着更小的空间相关性,不需要8×8变换4×4的块可以有效的减弱重建图像的块效应H.264使用了非常简单的整数4×4变换:对4×4DCT非常精巧的逼近变换矩阵只包含+/-1和+/-2计算只需要加法、减法和移位结果显示仅有可以忽略不计的质量损失(~0.02dB)熵编码反量化/变换运动补偿控制数据量化的变换系数运动矢量帧内/帧间编码控制解码器运动估计变换/量化-输入视频信号划分成宏块16x16pixels帧内预测环路滤波视频信号输出视频流差值图像基于4x4整数变换:主档次:自适应块大小变换(8x4,4x8,8x8)对于8x8色度和16x16帧内亮度块DC系数再次变换8×816×164×4H.264中的4×4整数变换2D-DCT回顾2D-DCT的基为:正变换可表示为:
2D-DCT矩阵表示:正变换:反变换:A为离散余弦变换矩阵AT为A的转置矩阵
2D-DCT变换矩阵A当N=2时,变换矩阵A为:当N=4时,变换矩阵A为:2D-DCT回顾H.264中的4×4整数变换4×4整数变换的表达式为:由于矩阵H只有±1与±2,只需加减法和左移即可完成变换,所以H.264的整数变换是无乘法的。基核矩阵H为:H.264中的4×4整数变换相应的反变换表达式如下:
只需加法和右移的操作即可完成反变换,而反变换的输入数据具有大的动态范围,所以造成的误差很小。
最终得到反变换表达式如下:
H.264中的4×4整数变换H.264中4×4亮度的DC系数变换
此变换仅用于16×16的帧内编码块的亮度信号,每个4×4块整数变换后,取出DC系数进行再次进行4×4Hadamard变换。正变换表达式如下:
反变换表达式为:H.264中2×2色度的DC系数变换
每个宏块有两个8×8色度块,每个色度块分为4个4×4块。色度块经过变换之后,可分离出两个2×2的DC系数块,同亮度一样再进行一次2×2Hadamard变换:正变换表达式为:
反变换表达式为:H.264的量化不同于传统意义的量化。避免了除法操作,减小了舍入误差,与变换相配合,对应于传统意义上的量化,实际的量化步长已经不是整数了。H.264的52个量化步长支持了广泛的压缩比,很好的做到了不同码率视频流的选择。我们用变换编码增益来衡量整数变换的性能,而编码增益通常定义为,信号经过变换以后再量化得到的信噪比,与直接对原始信号量化得到的信噪比,前者比后者的提高。如果输入信号为一个平稳的高斯-马尔科夫随机过程,相关系数是0.9,DCT、H.26L以及H.264的变换编码增益分别是5.39dB、5.39dB、5.38dB。因此,H.264的整数变换约有0.01dB的损失。
H.264整数变换与量化的性能
——量化步长——经变换后未缩放的矩阵系数——缩放系数
——量化后的系数
——变换后的系数
H.264量化技术H.264量化需要注意:避免除法运算和浮点运算;
将整数变换中的放大矩阵包含进去其中W为整数变换后系数PF为放大因子,其值取决于其在4×4块中的位置H.264量化技术Q01234567891011QStep
0.6250.68750.81250.87511.1251.251.3751.6251.7522.25Q12…18…24…30…36…51QStep
2.5…5…10…20…40…224量化参数Q与量化步长QStep的对应关系
H.264标准定义了52个量化步长,对应52个量化参数。量化参数每增加6,量化步长增加一倍。增加量化步长的范围使得编码器能够在精确自如的控制比特率和图像质量间的均衡。动机:基于块匹配的MC和块变换将产生块效应在低码率时,人眼易于观察到。以前的标准采用简单的滤波器去“模糊”块之间的边界。H.264对每个边界自适应地选择应用5个去方块效应滤波器之一。例如,若两个块具有相同的运动矢量,就需要较小的滤波。提高了客观质量,以及在相同的PSNR下,减少了约7~9%比特率。H.264去方块效应环路滤波器熵编码反量化/变换运动补偿控制数据量化的变换系数运动矢量帧内/帧间编码控制解码器运动估计变换/量化-输入视频信号划分成宏块16x16pixels帧内预测环路滤波视频信号输出视频流水平沿(亮度)水平沿(色度)垂直沿(色度)垂直沿(亮度)16×16宏块16×16宏块H.264去方块效应环路滤波器
没有去块效应滤波H.264/AVC去块效应滤波H.264去方块效应环路滤波器H.264熵编码
动机:传统的编码器使用了固定的变字长码本质上都是Huffman类型码没有自适应,不能对概率>0.5的符号进行有效编码,因为至少需要一个bit。H.263AnnexE定义了一个算术编码器仍然是非自适应的,使用了多个非二进制的字母表,计算高度复杂H.264标准规定了两种熵编码:基于上下文的自适应变长编码(Context-basedAdaptiveVariableLengthCoding,CAVLC)基于上下文的自适应二进制算术编码(Context-basedAdaptiveBinaryArithmeticCoding,CABAC)熵编码反量化/变换运动补偿控制数据量化的变换系数运动矢量帧内/帧间编码控制解码器运动估计变换/量化-输入视频信号划分成宏块16x16pixels帧内预测环路滤波视频信号输出视频流H.264熵编码
变换量化后的4×4(或2×2)块进行zig-zag扫描后,进行CAVLC编码。量化后的4×4块有一些特点:经预测、变换和量化后,块包含许多0,采用游程(Run)与幅度(level)的编码方式可以有效的表示变换系数,这也是以往传统的编码方式用到的。经过量化后,许多Level是±1,通过zig-zag扫描可以把尾1(trailing1s)集中起来,CAVLC把这些Level统计出来。没有块结束标志,非零系数的数目是需要编码的。非零系数的Level越接近DC系数越大,而在高频处比较小。CAVLC利用这个特点根据当前编码的变换系数选择码表。CAVLC编码对象共有5个(或者编码步骤有5步):非零系数的个数和尾1(trailing1s)的个数尾1的正负号其余非零系数的幅度(level)最后一个非零系数前零的总数游程(Run)H.264CAVLC熵编码
对多数符号使用了自适应概率模型通过使用上下文关系,利用了符号相关性。限制为二进制算术编码(binaryarithmeticcoding)所有的语法符号都转换为bit串简单和快速自适应机制基于只用查表和移位方式的快速二进制算术编解码器399种预定义的上下文模型,分为组:例如模型14-20用于帧间宏块类型的编码模型的选择基于前面编码的信息(上下文关系)每个上下文模型适应实验分布CAVLC平均节省了比特率10~15%H.264CABAC熵编码
上下文模型二进制化概率估计编码引擎更新概率估计自适应二进制算术编码器基于过去获得的条件选择一个模型非二进制符号映射为二进制序列使用提供的模型进行编码并更新模型获得好的性能,源于:通过上下文选择模型基于本地统计的自适应估计算术编码减少计算复杂度H.264CABAC熵编码
CABAC性能(ITUH.26L(TML4)
测试模型)
QCIF:节省4.5%~15%比特率CIF:节省5%~32%比特率CABAC通过使用上下文,利用符号间相关性使用自适应概率模型使用算术编码使得每个符号有非整数比特CAVLC概率分布是静态的码字只能是整数比特H.264CABAC熵编码H.264帧和片帧(Frame)、片(Slice)在H.263和MPEG中,每个帧是P帧或I帧:例外:P帧中的宏块可能是帧内编码的,称之为I块(I-block).H.264推广这点:每个帧包含一个或多个片(slices):Slice是临近的宏块序列,当不采用FMO时,按其内部的光栅扫描顺序进行处理。每个slice独立地编码和解码I-slices,P-slices,B-slices(两个参考帧)FMO(FlexibleMacroblockOrdering)通过SliceGroup改变了图像分割成Slice的方式。每个SliceGroup以光栅扫描方式分割成一个或多个Slice。H.264帧和片帧Frames、片Slices在H.263和MPEG中,每个帧是P帧或I帧:例外:P帧中的宏块可能是帧内编码的,称之为I块(I-block).H.264推广这点:每个帧包含一个或多个片(slices):Slice是临近的宏块序列,当不采用FMO时,按其内部的光栅扫描顺序进行处理。每个slice独立地编码和解码I-slices,P-slices,B-slices(两个参考帧)FMO(FlexibleMacroblockOrdering)通过SliceGroup改变了图像分割成Slice的方式。每个SliceGroup以光栅扫描方式分割成一个或多个Slice。FMO—灵活的宏块排序H.264可进行不同的性能配置,基于“profiles”&“levels”:档次(profile):编码算法或工具的集合。级(level):对某些关键参数的限制(例如分辨率、码率等)H.264分为4个档次:Baseline、Main、Extended和High基本(Baseline):最小实现,逐行扫描、I-frame、P-frame和CAVLC,但没有CABAC、B-frame和SP-Slices,从视频会议、无线视频通信到数字影院,大多数应用都是良好的。主(Main):增加了隔行扫描、B-Slices和CABAC等,广播应用扩展(Extended):SP/SI帧,帧数据分割,流媒体应用高(High):8*8DCT变换H.264/AVC有15级:分辨率、容量、比特率、缓存器、参考帧数、解码处理速度等图像尺寸:QCIF~数字影院D-Cinema匹配国际上通行的设备和发送格式。H.264/AVC的档次与级H.264/AVC的档次H.264BaselineProfile(L2)I和Pslice(没有Bslice)熵编码CAVLC(Context-basedAdaptiveVLC,基于上下文的自适应变字长码)去块效应环路滤波器逐行扫描1/4像素运动估计和补偿增强误码适应性支持ASO(Arbitrarysliceordering,ASO)支持FMO(Flexiblemacroblockordering,FMO)支持冗余片(Redundantslices)应用:IP视频、视频会议等支持所有的BaselineProfile算法,除了不支持BaselineProfile中增强的误码适应性不包括Arbitrarysliceorder(ASO)不支持Flexiblemacroblockordering(FMO)不支持冗余片RedundantslicesI、P、BslicetypesCABAC
和CAVLC熵编码隔行扫描和逐行扫描MB级帧/场切换B和P帧加权预测¼像素运动估计和补偿应用:
电视广播H.264MainProfileExtended
Profile
所有的Baselineprofile算法或工具Bslice加权预测SP/SI切换帧更多的误码可靠:数据分割(Datapartitioning)H.264ExtendedProfile27282930313233343536373839050100150200250Bit-rate[kbit/s]Foreman
QCIF10HzQualityY-PSNR[dB]MPEG-2H.263MPEG-4JVT/H.264/AVCH.264与MPEG-2/H.263/MPEG-4的性能比较TempeteCIF30Hz25262728293031323334353637380500100015002000250030003500Bit-rate[kbit/s]QualityY-PSNR[dB]MPEG-2H.263MPEG-4JVT/H.264/AVCH.264与MPEG-2/H.263/MPEG-4的性能比较MPEG-2203kbpsH.26439kbpsForeman,QCIF,30fpsH.264与MPEG-2的性能比较H.264与MPEG-2的性能比较H.264与MPEG-2的性能比较
CopyIP存储DVR
IP视频电话DTVH.264ISTBVODH.264视频应用环境IP视频流DTVMPEG2
overIPSTB3GPPVODSIP/H.264
overIP转码视频监控H.264
overLAN/IPHFC转码转码H.264/AVC小结视频编码基于混合视频编码方案,原理上与其它标准类似,但有重要差别。新的关键技术特征:增强的运动补偿小尺寸的整数变换增强的熵编码CAVLC和CABAC其它:增强的去块效应滤波器等和其它标准相比,在相同质量下,节省比特率50%以上,特别是对于允许使用B帧的较高延时应用。主观质量感觉比客观PSNR指标更好。复杂度增加,编码器3~4倍,解码器2~3倍。ITU-TVCEG和ISO/IECMPEG联合制定的标准H.264/MPEG4-10AVC第5章信源编码标准5.1数字音视频编码标准概述5.2高级音频编码(AAC)算法5.3DRA多声道数字音频编解码标准5.4新一代环绕多声道音频编码格式5.5H.264/AVC视频编码标准5.6H.265/HEVC视频编码标准5.7AVS与AVS+视频编码标准在H.264基础上增加了SAO滤波器5.6.1H.265/HEVC视频编码原理H.264H.265MB/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年武汉铁路职业技术学院高职单招职业适应性测试近5年常考版参考题库含答案解析
- 2025年无锡城市职业技术学院高职单招语文2018-2024历年参考题库频考点含答案解析
- 2025年曹妃甸职业技术学院高职单招语文2018-2024历年参考题库频考点含答案解析
- 物业公司管理完整方案及体系
- 基于CiteSpace的我国护理学历继续教育研究热点分析
- 税务工作总结税收运营模式创新实践
- 互联网政策与产业协同发展考核试卷
- 2025年浙教新版选修5历史下册月考试卷含答案
- 2025年粤教版八年级历史下册月考试卷含答案
- 2025年湘教版九年级地理上册月考试卷
- 2025年度厨师职业培训学院合作办学合同4篇
- 《组织行为学》第1章-组织行为学概述
- 市场营销试题(含参考答案)
- 2024年山东省泰安市高考物理一模试卷(含详细答案解析)
- 护理指南手术器械台摆放
- 肿瘤患者管理
- 四川省成都市高新区2024年七年级上学期语文期末试卷【含答案】
- 2025年中国航空部附件维修行业市场竞争格局、行业政策及需求规模预测报告
- 国土空间生态修复规划
- 2024年医疗器械经营质量管理规范培训课件
- DB11T 1136-2023 城镇燃气管道翻转内衬修复工程施工及验收规程
评论
0/150
提交评论