第三章 流媒体编解码技术_第1页
第三章 流媒体编解码技术_第2页
第三章 流媒体编解码技术_第3页
第三章 流媒体编解码技术_第4页
第三章 流媒体编解码技术_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Chapter3

流媒体编解码技术海南大学信息学院流媒体编解码技术MPEG简介MPEG-1和MPEG-2标准MPEG-4视频编码标准MPEG-7标准MPEG-21标准H.261标准H.263标准H.263+和H.263++标准H.264标准流媒体编码压缩新技术3.1MPEG简介MPEG:MovingPicturesExpertsGroup(运动图像专家组)负责制订适用于数字存储媒介、电视广播和通信等应用场合的视频和音频数据的压缩编码标准MEPG-1,MEPG-2,MEPG-4,MEPG-7和MEPG-213.2MPEG-1和MPEG-2标准MPEG-1标准全称:CodingofMovingPicturesandAssociatedAudioforDigitalStorageMediaatuptoabout1.5Mbp/s第一部分说明了如何根据第二部分(视频)以及第三部分(音频)的规定,对音频和视频进行复合编码。第四部分说明了检验解码器或编码器的输出比特流符合前三部分规定的过程。第五部分是一个用完整的C语言实现的编码和解码器。MPEG-2标准全称:GenericCodingofMovingPicturesandAssociatedAudioInformation3.2.1MPEG-1/-2标准中的三种编码类型图像I帧

AI-frameisencodedusingonlyinformationfromwithinthatframe(intracoded)--notemporalcompression(intercoded)P帧

Pframe(predictedframe)useprecedingframeasreferenceimageB帧

Bframe(bidirectionalframe)usebothprecedingframeandfollowingframeasreferenceimagesIPBBBPBBBPBBB15234967813101112AtypicalgroupofpicturesincodingorderIBBBPBBBPBBBPAtypicalgroupofpicturesindisplayorder3.2.2视频码流的分层结构视频数据经过压缩编码后形成视频基本码流(ES)MPEG用句法规定了一个分层结构对分层要求:支持通用性、灵活性和有效性MPEG视频基本码流的分层结构从上至下依次为:视频序列层(Sequence),图像组层(GOP:GroupofPicture),图像层(Picture),像条层(Slice)或宏块条(片)层,宏块层(MacroBlock)和像块层(Block)。

除宏块层和像块层外,上面四层中都有相应的起始码,可用于因误码或其它原因收发两端失步时,解码器重新捕捉同步。因此一次失步将至少丢失一个像条的数据。3.2.2视频码流的分层结构图像序列头图像组图像组…………….图像组序列尾图像头像条MBS像条MBS…………….图像组头图像(I,P,B)图像(I,P,B)…………….像条头宏块MB宏块MB…………….

18×8

28×838×8

48×858×868×88×8图像序列层图像组层图像层像条层(宏块条层)宏块层像块层(块层)YCRCB序列指构成某路节目的图像序列,序列起始码后的序列头中包含了图像尺寸,宽高比,图像速率等信息。序列扩展中包含了一些附加数据。为保证能随时进入图像序列,序列头是重复发送的。3.2.2视频码流的分层结构

——序列层3.2.2视频码流的分层结构

——GOP层一个图像组由相互间有预测和生成关系的一组I、P、B图像构成,但头一帧图像总是I帧。GOP头中包含了时间信息。问题:在两个参考帧之间插入几个B帧?(1)B帧数目的增加会降低B帧和参考帧之间以及参考帧与参考帧之间的相关性;(2)B帧数目的增加要求增大参考帧中运动估计的搜索范围;B帧数目的增加会增加接收的延迟时间和要求增加接收机内缓存器的容量;3.2.2视频码流的分层结构

——图像层包括不同编码类型的图像,即I、B、P帧;MPEG-1中,逐行扫描(帧格式);MPEG-2中,逐行或隔行(场格式)扫描;PIC头中包含了图像编码的类型和时间参考信息。3.2.2视频码流的分层结构

——宏块条层包括若干个连续宏块,其顺序和行扫描顺序一致从一个宏块行(16行宽)的任何一个宏块开始MPEG-2MP@ML

中,一个宏块条必须在同一宏块行中起始和结束,且一个宏块条至少包括一个宏块比特流重新同步的基本单元3.2.2视频码流的分层结构

——宏块层运动补偿预测的基本单元。MPEG算法在P帧和B帧中以宏块为单位自适应地选择合适的运动补偿预测模式(在I帧中全部宏块都采用帧内编码模式)。P帧中的宏块采用前向运动补偿预测模式;当预测效果不佳时,切换到帧内编码模式。B帧中的宏块采用何种模式取决于哪一种模式下对该宏块进行编码时所需的比特数最少。3.2.2视频码流的分层结构

——宏块层(Cont’d)MPEG-2中定义了三种宏块结构:4:2:0宏块4:2:2宏块和4:4:4宏块,分别代表构成一个宏块的亮度像块和色差像块的数量关系。4:2:0宏块中包含四个亮度像块,一个Cb色差像块和一个Cr色差像块;4:2:2宏块中包含四个亮度像块,二个Cb色差像块和二个Cr色差像块;4:4:4宏块中包含四个亮度像块,四个Cb色差像块和四个Cr色差像块。这三种宏块结构实际上对应于三种亮度和色度的抽样方式。

3.2.2视频码流的分层结构

——像块层MPEG算法中最小的编码单位DCT变换的基本单元MP@ML中一个像块由8x8个抽样值构成同一像块内的抽样值必须全部是Y信号样值,或全部是Cb信号样值,或全部是Cr信号样值。

3.2.3MPEG-1/-2视频编码关键技术MPEG-1/-2视频压缩的原理:利用序列图像中的空间相关性和时间相关性。空间相关性:一个像素与其周围的某些像素在亮度和色度上存在的关系时间相关性:一个视频序列中前后帧图像间存在的关系采用带运动补偿的帧间预测编码和帧内DCT编码相结合的方案帧内编码与帧间编码流程的区别:是否经过预测环的处理3.2.3MPEG-1/-2视频编码关键技术(Cont’d)1.离散余弦变换(DCT)2.量化器3.“之”字形扫描与游程编码4.熵编码5.信道缓存

6.运动估计7.运动补偿3.2.4MPEG-2和MPEG-1的区别1.MPEG-2定义了“Profile”和“Level”的概念规定了5个语法子集(Profile):SimpleProfile,MainProfile,SNRScalableProfile,SpatiallyScalableProfile,HighProfile按编码图像的分辨率分成4个Levels:HighLevel,High-1440Level,MainLevel,LowLevelProfile规定了可以使用哪些语法因素,以及如何使用这些语法元素;Level规定了这些语法元素的取值范围3.2.4MPEG-2和MPEG-1的区别(Cont’d)2.MPEG-2有“按帧编码”和“按场编码”两种模式MPEG-1只支持逐行扫描;MPEG-2支持逐行扫描和隔行扫描,针对隔行扫描的常规电视图像专门设置了“按帧编码”和“按场编码”两种模式。MPEG-1中,宏块被逐行地分割成像块;MPEG-2中,逐行扫描图像采用逐行分割方式;隔行扫描的帧图像采用逐行分割与隔行分割两种方式。3.2.4MPEG-2和MPEG-1的区别(Cont’d)3.MPEG-2增加了可分级性(1)空间可分级性(2)时间可分级性(3)信噪比可分级性3.3MPEG-4视频编码标准MPEG-4标准主要应用于视像电话(videophone),视像电子邮件(VideoEmail)和电子新闻(Electronicnews)等,其传输速率要求较低,在4800-64000bps之间,分辨率176144。MPEG-4利用很窄的带宽,通过帧重建技术,压缩和传输数据,以求以最少的数据获得最佳的图象质量。与MPEG-1和MPEG-2相比,MPEG-4的特点是其更适于交互AV服务以及远程监控。MPEG-4是第一个使你由被动变为主动(即有交互性)的动态图象标准。从根源上说,MPEG-4试图将自然物体与人造物体相溶合(视觉效果意义上的)。MPEG-4的设计目标还有更广的适应性和可扩展性。MPEG-4编解码的基本思想是基于图像内容的第二代视频编解码方案,并将基于合成的编码方案也结合在标准中。它根据图像的内容将图像分割成不同的视频对象VO(VideoObject),在编码过程中对前景对象和后景对象采用不同的编码策略,对于人们所关心的前景对象,则尽可能的保持对象的细节及平滑,而对不大关心的后景对象采用大压缩比的编码策略。MPEG-4VOPMPEG-124比较MPEG-1MPEG-2MPEG-4开始成为标准的年份199219951999最大分辨率352x2881920x1152720x576预设分辨率(PAL)352x288720x576720x576预测分辨率(NTSC)352x288640x480640x480最大音频范围48kHz96kHz96kHz最多声道数目288最大传输速率3Mbit/秒80Mbit/秒5至10Mbit/秒常用的传输速率1380kbit/s(352x288)6500kbit/s(720x576)880kbit/s(720x576)帧率(PAL)252525帧率(NTSC)303030主观质量满意很好好至很好编码的硬件要求低高很高解码的硬件要求很低中等高MPEG-4应用举例DivX&XviD数年前,在PC上能用的唯一MPEG-4编码器是由微软开发的,包括MSMPEG4V1、MSMPEG4V2、MSMPEG4V3系列编码不過V1和V2的编码质量并不太好,直到MSMPEG4V3开始,画面质量有了明显的改善不过微软却决定仅将MSMPEG4V3的视频编码核心算法封装在WindowsMedia流媒体技术中,也就是我们熟知的ASF文件中电影骇客很快便有小组,修改了微软的MSMPEG4V3,解除了不能用於AVI文件的限制,并开放了其中一些压缩参数,也就诞生了我们今天所熟悉的MPEG4编码器DivX3.11…DivX4,DivX5历经波折….发展出了XviD现在的XviD

更可以说超越了DivX5,以更好的质量,更强的功能挑战新一代的MPEG4应用MPEG-4应用举例MP4:一种可包含大量多媒体的文件容器格式MP4被定义为MPEG4part1系统部份,其可支持所有的多媒体内容(video,audio,subtitle,pictures)

、使用者互动MP4内容可延伸至下列形式:.mp4.mp4v,.m4v–原始mpeg-4videostreams.m4a–存储AppleiTunesaudioonly.m4p-AppleforDRMprotectedfiles;.3gp,.3g2–用於3GmobilephonesMP4可包含的多媒体文件

视频:MPEG-4(XviD,DivX5,3ivx,ffmpeg/ffvfw,NeroDigital,H.264/AVC),MPEG-2,MPEG-1,...无法使用于MSMPEG-4,MPEG-4DivX3,WM9(WindowsMedia9),RV9(RealVideo9)...音频:MP3,AAC,MP2,MP1,TwinVQ,…无法使用于OGGVorbis,Voxware

Metasound,...图像:JPEG,PNG常见的MPEG-4应用设备VideoiPod音频:AAC、ProtectedAAC(iTunes

)、MP3、MP3VBR、Audible、AppleLossless、WAV、AIFF照片:JPEG、BMP、GIF、TIFF、PSD(仅限Mac)和PNG格式视频支持格式:H.264(768Kbps,320x240,30fps)音频格式:.m4v,.mp4与

.movMPEG-4视频影片:最高可达

2.5Mbps,480x480,每秒30影格MP4影音播放器音频格式:MP3,WMA,OGG,AC3视频格式:AVI,MPEG1,MPEG2,MPEG4,VOB,DAT

图片格式:JPG,最大YUV4800*3600pixels,支援图片浏览功能常见的MPEG-4应用设备DVD播放器支持播放文件格式:影片:MPEG4、DivX、Mpeg-2、Mpeg-1照片:JPEG、可达相片光碟音乐:CD、MP3文件DV摄像机影像文件格式:ASF(MPEG-4相容)常见的MPEG-4应用设备3G手机音乐播放器:MP3,AAC铃声种类:MIDI,AAC,MP3图片支持格式:JPEG影片播放格式:3GP录像格式:3GP3.4MPEG-7标准ISO/IEC15938

正式名称:多媒体内容描述接口(MultimediaContentDescriptionInterface)是一种多媒体内容描述的标准,而非信息压缩编码标准定义了描述符、描述语言和描述方案,以便于处理多媒体内容主要目标是对多媒体信息内容进行各种标准化的描述和有效的检索3.4MPEG-7标准

——应用1.“拉”应用(1)视频数据库的存储和检索(2)专业媒体制作方面的图片和视频提交(3)商业音乐应用(卡拉OK和音乐销售)(4)声音效果库(5)历史语言数据库(6)通过听觉事件进行电影场景检索(7)商标库的注册和检索3.4MPEG-7标准

——应用2.“推”应用(1)用户代理驱动的媒体选择和过滤(2)个性化电视服务(3)智能多媒体表现(4)个性化浏览、过滤和搜索(5)特殊的信息存取3.4MPEG-7标准

——应用3.特殊的专业应用和控制应用(1)远程购物(2)医学应用(3)遥感应用(4)教育应用(5)监测应用(6)基于视觉的控制3.5MPEG-21标准ISO/IEC21000正式名称:多媒体框架(MultimediaFramework)。其制订工作于2000年6月开始。创建一个开放的多媒体传输和消费的框架,通过将不同的协议、标准和技术结合在一起,使用户可以通过现有的各种网络和设备透明地使用网络上的多媒体资源。MPEG-21中的用户可以是任何个人、团体、组织、公司、政府和其它主体,在MPEG-21中,用户在数字项的使用上拥有自己的权力,包括用户出版/发行内容的保护、用户的使用权和用户隐私权等。3.5MPEG-21标准(Cont’d)包括7个基本要素:数字项声明(DigitalItemDeclaration),数字项识别和描述,内容处理和使用,知识产权管理和保护,终端和网络,内容表示,事件报告。数字项是MPEG-21框架中的基本单元,它由资源、原数据(metadata)和结构共同组成,是一个带有标准化的结构化数字对象。要素中的资源包括采用MPEG-1、MPEG-2、MPEG-4标准的多媒体信息。通过数字项的定义,MPEG-21集成了MPEG系列的其它标准,因此MPEG-21是建立在其它标准的基础之上的。3.5MPEG-21标准(Cont’d)支持以下功能:内容创建,内容生产,内容分配,内容的消费和使用,内容的分组,知识产权管理和保护,内容识别和描述,用户权限,终端和网络资源提取,内容表示和事件报告等。从商业内容和与内容相关服务的前景等角度开发同已有的其它MPEG系列标准等进行适当结合,从而使用户对视频、音频的处理更加方便和有效,最终为多媒体信息的用户在全球范围内提供透明而有效的视频通信应用环境。MPEG-21的出台可以将现有的标准统一起来,消费者将可以自由使用音视频内容而不被不兼容的格式、编解码器、媒体数据类型及诸如此类的东西所干扰。3.6H.261标准正式名称:P×64Kb/s(P=1~30)视听业务的视频编解码器;P=1或2时,仅支持QCIF的输入图像格式,用于帧频低的可视电话;P≥6时,支持CIF(Common

Intermediate

Format)的输入图像格式的会议电视;利用CIF格式,可使各国使用的不同制式的电视信号变换为通用中间格式,然后输入给编码器,从而使编码器本身考虑信号是来自哪种制式的。核心:采用带有运动补偿的预测编码以及基于DCT的变换编码相结合的混合编码方法3.6H.261标准(Cont’d)3.6.1视频编码器原理3.6.2视频数据复用格式3.6.3压缩编码模式基本判决准则:哪一种模式给出较小的编码比特,就采用这种模式。运动估计以16×16像素的宏块为单位进行,搜索范围为±15。采用全搜索的块匹配算法计算运动矢量。使用二维空域滤波器对8×8预测块内的像素进行操作,可以改进预测过程。3.6.4量化编码32个线性量化器一个用于帧内DCT变化的直流分量;其余31个用于交流分量。除帧内DCT的直流分量,一个宏块内使用同一个量化器。帧内直流分量是一个量化步长为8的线性量化器,其余31个量化器的量化步长为2,4,…,62。量化器的选择由编码控制器决定。DCT变换后的8×8系数块中的各个系数按“之”字型扫描,便于量化后编码。3.7H.263标准是ITU-T为低码率会议电视/可视电话系统制定的视频编码标准支持的输入图像格式:Sub-QCIF(128×96)、QCIF、CIF、4CIF或者16CIF的彩色4:2:0亚取样图像8×8DCT变换宏块使用相同的量化步长一个宏块使用一个运动矢量;或宏块的每个子块各使用一个运动矢量

——块运动补偿能力,改善帧间预测采用半像素精度的运动补偿3.7H.263标准(Cont’d)与H.261相比,增加的压缩编码模式:(1)无限制的运动矢量模式(2)基于句法的算术编码模式(3)先进的预测模式(4)PB-帧模式3.8H.263+和H.263++标准H.263+允许更大范围的图像输入格式,自定义了图像的尺寸,从而拓宽了标准使用的范围,使之可以处理基于视窗的计算机图像、更高帧频的图像序列及宽屏图像。为提高压缩效率:采用先进的帧内编码模式;增强的PB-帧模式改进了H.263的不足,增强了帧间预测的效果;去块效应滤波器不仅提高了压缩效率,且提供重建图像的主观质量。为适应网络传输:增加了时间分级、信噪比和空间分级,对在噪声信道和存在大量包丢失的网络中传送视频信号很有意义。另外,片结构模式、参考帧选择模式增强了视频传输的抗误码能力。3.8H.263+和H.263++标准(Cont’d)H.263++在H.263+基础上增加了3个选项,主要是为了增强码流在恶劣信道上的抗误码性能,同时也为了提高编码效率。选项U:增强型参考帧选择;能够提供增强的编码效率和信道错误再生能力(特别是在包丢失的情形下),需要设计多缓冲区用于存储多参考帧图像。选项V:数据分片;能够提供增强型的抗误码能力(特别是在传输过程中本地数据被破坏的情况下),通过分流视频码流中DCT的系数头和运动矢量数据,采用可逆编码方式保护运动矢量。选项W:在H.263+的码流中增加补充信息,保证增强型的反向兼容性。3.9H.264标准

——概述由ITU-T的视频编码专家组(VCEG)与ISO/IEC的MPEG组成的联合视频工作组(JVT)共同制定的新一代视频压缩编码标准。设计方案包含:视频编码层(VCL)和网络抽象层(NAL)。3.9H.264标准

——特点编码效率高对信道时延的适应性较强在编/解码器中采用复杂度可分级设计,支持不同网络资源下的分级编码传输容错能力强网络的适应性强3.9.1H.264的主要特性

——高编码效率1.运动补偿预测(1)不同大小和形状的宏块分割(2)高精度的亚像素运动预测(3)多参考帧的运动补偿(4)自适应去方块效应滤波器(5)运动补偿预测的其他特性3.9.1H.264的主要特性

——高编码效率(Cont’d)2.4×4整数变换3.基于空域预测的帧内编码4.量化5.基于上下文的熵编码3.9.1H.264的主要特性

——强容错能力和网络适应性1.参数集结构2.NAL单元语法结构3.灵活的像条大小4.灵活的宏块排序(FMO)5.任意像条排序6.冗余图像7.数据分割FramepartitionsMacroblockpartitions16x16blocks8x8blocks4x4blocks例:帧和宏块的划分宏块的划分总结:基本视频编码标准3.10流媒体编码压缩新技术1.高效的编码技术媒体系统中的多媒体数据要通过网络来传输给用户,高效的编码技术可以降低流媒体系统对网络带宽的要求。目前标准化和商业化的视频编码技术都是基于运动补偿和DCT变换的。运动估计和补偿模块用来消除相邻图像间的冗余信息,熵编码模块用来消除编码信号的冗余性,变换量化模块根据人的视觉系统对视频信号的细微变化的不敏感性丢失部分信息,从而提高压缩比。3.10流媒体编码压缩新技术(Cont’d)2.可伸缩性编码技术在流媒体应用中需要解决的一个基本问题是网络带宽的波动。有效方法是采用可伸缩性的视频编码,以提供移动的使用网络带宽变化的能力。3.多媒体标准技术标准的制定和执行确保不同厂家和服务商之间可以互通互联;标准里的知识产权是商家必争之处。4.对等网络技术(P2P)通过P2P技术,除了和服务器外,每个用户可以共享他的文件或信息给其他用户。TheEnd滤波的基本思想如果块边沿的绝对差值相对比较大,出现块人工瑕疵的可能性就很大,因此需要进行相应处理。然而,如果差值幅度很大,编码量化过程的误差不能解释,边沿很可能反映了源图像的实际样值,不需处理。环滤波对块效应的消除4489Bytes,33.77dB

4489Bytes,34.18dB补:帧内编码与帧间编码流程的区别

在帧内编码的情况下,编码图像仅经过DCT,量化器和比特流编码器即生成编码比特流,而不经过预测环处理。DCT直接应用于原始的图像数据。

在帧间编码的情况下,原始图像首先与帧存储器中的预测图像进行比较,计算出运动矢量,由此运动矢量和参考帧生成原始图像的预测图像。而后,将原始图像与预测像素差值所生成的差分图像数据进行DCT变换,再经过量化器和比特流编码器生成输出的编码比特流。

1、离散余弦变换DCT

DCT是一种空间变换,在MPEG-2中DCT以8x8的像块为单位进行,生成的是8x8的DCT系数数据块。DCT变换的最大特点是对于一般的图像都能够将像块的能量集中于少数低频DCT系数上,即生成8x8DCT系数块中,仅左上角的少量低频系数数值较大,其余系数的数值很小,这样就可能只编码和传输少数系数而不严重影响图像质量。

DCT不能直接对图像产生压缩作用,但对图像的能量具有很好的集中效果,为压缩打下了基础。

2、量化器

量化是针对DCT变换系数进行的,量化过程就是以某个量化步长去除DCT系数。量化步长的大小称为量化精度,量化步长越小,量化精度就越细,包含的信息越多,但所需的传输频带越高。不同的DCT变换系数对人类视觉感应的重要性是不同的,因此编码器根据视觉感应准则,对一个8x8的DCT变换块中的64个DCT变换系数采用不同的量化精度,以保证尽可能多地包含特定的DCT空间频率信息,又使量化精度不超过需要。DCT变换系数中,低频系数对视觉感应的重要性较高,因此分配的量化精度较细;高频系数对视觉感应的重要性较低,分配的量化精度较粗,通常情况下,一个DCT变换块中的大多数高频系数量化后都会变为零。

3、之型扫描与游程编码

DCT变换产生的是一8x8的二维数组,为进行传输,还须将其转换为一维排列方式。有两种二维到一维的转换方式,或称扫描方式:之型扫描(Zig-Zag)和交替扫描,其中之型扫描是最常用的一种。由于经量化后,大多数非零DCT系数集中于8x8二维矩阵的左上角,即低频分量区,之型扫描后,这些非零DCT系数就集中于一维排列数组的前部,后面跟着长串的量化为零的DCT系数,这些就为游程编码创造了条件。

3、之型扫描与游程编码

游程编码中,只有非零系数被编码。一个非零系数的编码由两部分组成:前一部分表示非零系数前的连续零系数的数量(称为游程),后一部分是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论