数字视频技术_第1页
数字视频技术_第2页
数字视频技术_第3页
数字视频技术_第4页
数字视频技术_第5页
已阅读5页,还剩140页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数字视频技术第1页,课件共145页,创作于2023年2月4.2MPEG-1视频编码和解码4.3MPEG-2视频编码和解码4.1视频图像编码标准综述主要内容4.4MPEG-4视频编码和解码4.5H.264/AVC视频编码和解码重点重点了解第2页,课件共145页,创作于2023年2月§4.1视频图像编码标准综述第3页,课件共145页,创作于2023年2月§4.1视频图像编码标准综述一、H.261H.261颁布于1990年,主要用于双向视频通信,允许的最大编码延迟为150ms。它的输入图象格式为通用(同时适用于625线和525线的视频标准)中间格式CIF(352×288),低端可用其四分之一大小的QCIF(176×144)格式,帧率为30,15,10,7.5四种,隔行(interlaced)视频,宽高比4:3。H.261的编码方案是基于DCT和DPCM的预测编码算法,运动每帧图象分成8×8的子块,再组成宏块、块组,宏块由4个8×8的亮度块和2个8×8的色度块组成,每个块组由3×11个宏块组成。每幅QCIF图象有3个块组;每幅CIF图象有12个块组,形成一个多层次的块结构。第4页,课件共145页,创作于2023年2月§4.1视频图像编码标准综述二、H.263H.263是在H.261的基础上针对低码率(低于64kbp)视频压缩提出的标准,与之不同的是采用半象素精度运动补偿算法和变长编码,并引进了16种可协商的编码选项用于提高压缩性能和支持新增加的功能。第5页,课件共145页,创作于2023年2月三、JPEGJointPhoto-GraphicExpertsGroup联合图像专家组,是ISO和IEC两个机构联合组成的。适用于连续变化的静止图像,连续变化是指灰度等级和颜色两方面的连续变化。编码压缩的基本算法与H.261的帧内模式相似,只在本帧内进行,与前后帧无关。JPEG可用于活动图像压缩编码,只不过压缩方法只限于帧内进行,不作运动补偿和帧间差运算,称作:M-JPEG,只用于高质量图像压缩。JPEG编码器组成框图第6页,课件共145页,创作于2023年2月JPEG压缩流程示意图第7页,课件共145页,创作于2023年2月亮度量化表色度量化表

第8页,课件共145页,创作于2023年2月§4.1视频图像编码标准综述四、MPEG-1

MPEG-1是1992年通过的视频压缩标准,用于CIF格式的视频在速率约1.5Mbps的各种数字存储介质(如CD-ROM,DAT,硬盘及光驱等)上的编码表示,主要应用在交互式多媒体系统中;MPEG-1算法与H.261算法相似,它在1.2Mbps(视频信号)速率下压缩和解压缩CIF格式的视频质量与VHS记录的模拟视频质量相当;它是一种通用标准,规定了编码位流的表示语法和解码方法,提供的支持操作有运动估计、运动补偿预测、DCT、量化和变长编码。MPEG-1的特点有:(1)随机存取,(2)支持快速双向搜索,(3)允许大约1秒的编码/解码延迟,比H.261的150ms内的严格限制松得多。第9页,课件共145页,创作于2023年2月§4.1视频图像编码标准综述五、MPEG-2/H.262MPEG-2是1993年通过的视频压缩标准,用于高清晰度视频和音频的编码,也包含用于可视电话中的超低码率(8-32kbps)的压缩编码;MPEG-2是MPEG-1的兼容扩展,广泛应用于各种速率(2-20Mbps)和各种分辨率情况下的场合;MPEG-2不仅接受逐行扫描视频,也可以接受隔行扫描视频,高清晰度视频,提供可伸缩调节的位流,提供改进的量化和编码选项。第10页,课件共145页,创作于2023年2月§4.1视频图像编码标准综述六、MPEG-4

低于64kbps甚低数据率,交互式多媒体应用标准;

MPEG-4利用了人眼视觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,基于对内容的访问;AV对象(AVO,AudioVisualObject)是MPEG-4为支持基于内容编码而提出的重要概念;视音频已不再是图像帧的概念,而是一个个视听场景;把编码对象从图像帧到任意形状的视频对象,实现从基于像素的传统编码到基于对象和内容的现代编码。

采用开放的编码系统,可随时加入新的编码算法模块,同时也可根据不同应用需求现场配置解码器,以支持多种多媒体应用;第11页,课件共145页,创作于2023年2月§4.1视频图像编码标准综述MPEG-7:多媒体内容描述标准,支持对多媒体资源的组织管理、搜索、过滤和检索;MPEG-21:多媒体框架和综合应用方面的框架。目标是建立一个交互的多媒体框架,该标准致力于在大范围的网络上实现透明的传输和对多媒体资源的充分利用。七、H.264/AVC面向电视电话、电视会议和Internet多媒体的新一代国际视频编码标准;具有较强的抗误码特性,可适应丢包率高、干扰严重的信道中的视频传输;支持不同网络资源下的分级编码传输,在图像主观质量和码率方面有大幅改进,是目前综合性能最优、应用前景最广泛的编码标准。第12页,课件共145页,创作于2023年2月§4.1视频图像编码标准综述对象形成及跟踪基于语义基于对象基于像素对象特征提取MPEG-7MPEG-4MPEG-1MPEG-2第13页,课件共145页,创作于2023年2月§4.1视频图像编码标准综述编码标准全称传输码率主要应用H.261P×64kbps的音/视频服务的编/解码P×64kbpsP=1~30ISDN视频会议MPEG-1面向数字存储的运动图像及伴音编码1.5MbpsVCD,CD-ROMMPEG-2运动图像及伴音的通用编码4~100MbpsDVD,HDTV,VOD,DABH.263低比特率通信的视频编码低于64kbps远程视频监控,可视电话,电视会议MPEG-4音/视频对象的通用编码小于64kbps64~384kbps384kbps~4MbpsInternet通信,无线通信,2D/3D计算机图像交互式视频MPEG-7多媒体内容描述接口任意多媒体检索H.264/AVC高级视频编码算法任意未来视频编码工业标准综合数字电话网第14页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码一、标准简介编号为ISO/IEC11172;规定视频信息与伴音信息经压缩之后的数据速率上限为1.5Mbps(其中视频约为1.2Mbps,音频约为0.3Mbps);可以在CD-ROM、硬盘、可写光盘、数字音频磁带等介质上进行存储,也可在局域网、ISDN上进行视频与伴音信息的传输;应用:目前市场上用的MP3和VCD以及数字电话网络上的视频传输为MPEG-1。第15页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码二、标准组成MPEG-1系统—这部分是有关同步和多路复合的技术,用来把数字视频和声音复合成单一的数据位流。标准名是ISO/IEC11172-1。MPEG-1视频—这部分是有关电视图像的压缩技术,标准名是ISO/IEC11172-2。MPEG-1音频—这部分是关于声音的压缩编码技术。标准名是ISO/IEC11172-3。MPEG-1一致性测试—这个标准详细说明了如何测试比特数据流和解码器是否满足MPEG-1前3个部分中所规定的要求。这些测试可由厂商和用户实施。标准名是ISO/IEC11172-4。MPEG-1软件模拟—这部分内容不是标准,而是一个技术报告,给出了用软件执行前3个部分的结果。标准名是ISO/IEC11172-5。第16页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码三、输入图像格式

MPEG-1输入视频信号采用源输入格式(SIF,SourceInputFormat),采用YCrCb色空间;采样格式4:2:0;

MPEG-1最大的图像尺寸只能是352×288(对应25Hz帧频)。第17页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码四、视频帧类型帧内帧(intrapicture,I帧)——对I帧的编码类似于JPEG,支持随机存取,压缩比低;

预测帧(predictedpicture,P帧)——是运动主体在与I帧相隔一定时间,在同一背景上已有明显变化的画面。以前面I帧为参考,相同信息不发送只发送主体变化差值,进行具有运动补偿的前向预测;双向预测帧(bidirectionalpicture,B帧)——传送I、P帧间的画面,只反映运动主体变化情况,重放时既参考I帧也参考P帧,本身不做参考帧使用,不能用作预测参考;第18页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码第19页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码有损1量化从10bits降为8bits无损2省略水平和垂直空白间隔有损3降低垂直方向色度分辨率(4:2:0)无损4活动图像的DPCM有损5DCT和量化无损6Z扫描和零序列的游程编码无损7Huffman编码第20页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码-20%量化10bits到8bits270Mbit/s216Mbit/s-25%忽略水平和垂直空白间隔166Mbit/s-25%降低垂直色度分辨率(4:2:0)124.5Mbit/s进一步数据压缩步骤2~6Mbit/s第21页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码DPCMZ扫描+VLCHuffman编码进一步数据压缩DCT+量化第22页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码五、MPEG-1视频语法MPEG视频图像数据流是一个分层结构,目的是把位流中逻辑上独立的实体分开,防止语意模糊,并减轻解码过程的负担。MPEG视频位流分层结构共包括六层:每一层支持一个确定的函数;或是一个信号处理函数(DCT,运动补偿);或是一个逻辑函数(同步,随机存取点)等;每一个层的开始有一个头,作为说明参数。第23页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码图像序列层——由连续图像组成,用序列终止符结束;图像组层——图像组(GOP)由几帧连续图像组成,是随机存取单元,其第一帧总是I帧;图像层——图像(帧)编码的基本单元,独立的显示单元;像条层——由一帧图像中的几个宏块组成,主要用于误差恢复;宏块层——一个宏块由四个8×8的亮度块和两个8×8的色差块组成;块层——一个8×8的像素区域称为一个块,是最小的DCT单位。第24页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码

层次名称功能图像序列层随机存取单元:上下文图像组层随机存取单元:视频编码图像层基本编码单元宏块片层重同步单元宏块层运动补偿单元块层DCT单元第25页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码图像组

图像组

图像组图像图像序列宏块条宏块8×8块第26页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码GOP1GOPSCGOP头图像1图像2图像3…图像N图像SC图像头条

1条

2条

3…条m条

SC条头宏块

1宏块

2宏块

3…宏块

nY1宏块编码信息Y2Y3Y4C1C28×8系数块序列层GOP层图像层宏块层像块层序列SC序列扩展序列头GOP2…序列EC0x000001B3像条层第27页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码1、关键技术(1)帧序重排在编码器端需要对输入图像重新排序,对按显示顺序输入的序列,经过帧序重排后成为按编码顺序排列,然后按I、B、P帧分别进行编码;(2)运动估计和补偿(3)比特流缓冲器六、MPEG-1视频编码器第28页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码图像压缩首先处理I帧图像,然后是P帧,最后在两者的基础上才处理B帧;MPEG编码器算法允许选择I图像频率(指每秒钟出现I图像的次数)和位置(时间方向上帧所在的位置);一个典型的I、P、B图像排列如下:I的距离为15;P的距离为3;第29页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码“开放性”的视频码流:I帧在码流中出现的位置和频率,可根据图像序列中随机存取和景物切换的需要进行选择。相邻最近的I与P帧或P帧之间的B帧数目可以选择。I,P,B三种图象的数据压缩比:2~5:1,5~10:1,20~30:1

图象的编码顺序和显示顺序不相同。第30页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码显示顺序上在前的B帧图像,由于预测时参照靠后的P帧图像,在传输存储和解码是必须先处理P帧图像,因此在编码顺序上P帧图像反而在B帧图像之前;由于编码顺序和显示顺序之间的差异,带来编、解码总延时达0.8~1s;这种延时对广播性质的图像传输不会带来任何影响,因为用户并不能发现发射端与接收端信号起始时间的差异;对于交互性质的图像传输,如数字会议电视会带来不便,如甲方向乙方提问,由于双向延时则会1.8~2s以后得到回答;为减小延时采用方法:通过减少B帧使两个I帧之间的帧数减少,则编、解码总延时下降;为进一步减小延时,可以把B帧、P帧全部去掉。这样可得零延时,此方式称M-JPEG方式;此时压缩比降到5:1~7:1,所以延时与压缩倍数是互相矛盾的。第31页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码I帧编码算法第32页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码P帧编码算法第33页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码B帧编码算法第34页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码2、MPEG标准并没有定义特定的编码过程,只是定义了编码比特流的语法和解码过程。①②③④⑤⑥⑦⑧⑨⑩⑾第35页,课件共145页,创作于2023年2月§4.2MPEG-1视频编码和解码讨论:编码过程I帧:DCT量化编码P、B帧:预测求帧差DCT量化编码DCT变换帧内编码模式下,采样为8位无符号数;帧间编码模式下,采样为9位有符号数,因为差值有可能为负数;经过DCT变换后,用一个12位有符号整数表示。第36页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码一、标准简介“运动图象和相关声音信息的一般编码方法”,ISO/IEC13818,94年11月公布;用于DVB,HDTV,DVD。是针对标准数字电视和高清晰度电视在各种应用下的压缩方案和系统层的详细规定,也是国际主流的SDTV和HDTV的编码标准。在ITU-T的协议系列中,被称为H.262;MPEG-2和MPEG-1的图像结构相同;MPEG-2通用性较强,满足对图像质量和传输速率的多层次要求,技术成熟;图像格式:704×576(PAL)和704×480(NTSC),码率为3~15Mbps,9Mbps模拟分量质量;能处理逐行扫描和隔行扫描图像,包括16:9宽高比图像格式。第37页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码MPEG-1定位在VHS质量,MPEG-2的目的是要达到广播级的音视频质量;MPEG-2编码增加了场处理的方式;MPEG-2支持多种分辨率;MPEG-2的音频编码可与MPEG-1兼容(MPEG-2BC),并扩展支持16KHz、22.05KHz和24KHz采样频率,音频数据位率扩展到8-64Kbps,支持5.1和7.1声道环绕立体声;MPEG-2还支持线性PCM编码和DolbyAC-3编码。第38页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码二、标准组成——共分9个部分,核心如下:13818-1系统:定义规范的系统编码,包括复合视频和音频数据的复用结构以及重放同步序列所需表示定时信息的方法;13818-2视频:定义视频数据的编码方法和重建图像所要求的解码过程;13818-3音频:定义音频数据的编码方法;13818-4兼容性:定义编码码流是否符合MPEG-2码流的兼容性测试方法;13818-5软件:描述MPEG-2标准的前3部分的软件实现方法;13818-6数字存储媒体-命令与控制:描述交互式多媒体网络中服务器与用户间的会话信令集。第39页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码三、档次及等级MPEG-2视频标准的技术规范集包括5个“档次”(Profiles)和4个“等级”(Levels);档次是MPEG-2标准定义的不同编码算法的子集:较低的档次在编码时仅使用最为基本的编码工具;较高的档次则采用较多的编码工具集;档次之间具有向下兼容性;等级主要针对ITU-RCCIR601标准下的不同的图像信源的分辨率:从低级到高级,对应信源的分辨率逐步增加。档次与等级的若干组合构成MPEG-2视频编码标准在某种特定应用下的子集,对某一输入格式的图像,采用特定集合的压缩编码工具,可产生规定速率范围内的编码码流。第40页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码1、MPEG-2标准的档次(类)档次(Profile)说明简单档次(SimpleProfile)使用最少的编码工具集主档次(MainProfile)增加双向预测方法信噪比可伸缩档次(SNRScalableProfile)增加可伸缩特性空间可分伸缩档次(SpatiallyScalableProfile)高级档次(HighProfile)用于图像质量、比特率要求更高的场合第41页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码2、MPEG-2标准的等级级别(Level)分辨率最大码率低级(LowLevel)352×240×30,352×288×254Mbps主级(MainLevel)720×480×30,720×576×2515Mbps1440高级(High-1440Level)1440×1080×3060Mbps高级(HighLevel)1920×1080×30(16:9)80Mbps第42页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码3、档次与等级的组合选择在实现MPEG-2标准时,可根据应用环境(数字存储媒体、可视电话、数字电视、高清晰度电视及通信网络)的需求,选择适当的档次与等级;在20种可能的组合中,为了保证与MPEG-1向下兼容及特定的数字广播、通信和家用视听设备的需求,目前11种是已获通过的,成为MPEG-2适用点。第43页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码第44页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码以下4种技术规范最常使用:MP@ML:主级/主类,可应用于包括数字视频广播(DVB)、数字视盘(DVD)、数字有线电视和交互式电视等;SP@ML:简单类/主级,用于数字有线电视和数字录像机;MP@HL:主类/高级,用于全数字HDTV;SSP@HL1440:空域可伸缩类/1440高级,用于HDTV。第45页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码四、系统层原理MPEG-2在概念上将编码结构分为两层:最外部为系统层(系统层作用是对多个压缩层的码流进行打包和复用);内层为压缩层;为使压缩码流能够在卫星、电缆和地面频道等信道的传输中兼容MPEG-1系统层码流,MPEG-2系统部分还定义了两种码流结构:节目流(ProgramStream,PS);传送流(TransportStream,TS)。MPEG-2为TS流和PS流都提供了相关的解码方式和语法,能够保证压缩码流的同步译码和音/视频信号的重构;TS流和PS流的数据结构称为PES数据包,包含编码后的音/视频信息和相关系统信息。第46页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码MPEG-2系统层结构图打包器打包器PS复用TS码流PS码流视频PES视频音频数据TS复用视频编码器音频编码器数据编码器MPEG-2系统规范原始音/视频等信息编码后送到系统层系统层对压缩码流打包形成PES数据包复合成节目流和传输流送出I1B2B3P4B5B6P7B8B9I10I1P4B2B3P7B5B6I10B8B9第47页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码1、节目流节目流能够将一个或多个具有相同时间基点的数据流合成单个数据流;MPEG-2节目流解码器能够正确对MPEG-1系统流进行解码,因此与MPEG-1系统流一样,MPEG-2节目流适用于无误码影响的环境以及基于软件的解码处理;节目流的PES数据包通常比较长且长度不固定,典型长度在1~2KB之间;节目流支持MPEG-2标准一些特性:随机访问;特技模式等。第48页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码2、传送流传送流面向通信传输信道定义,能够有效提高传送码流对信道噪声的鲁棒性,传送流中可以包含多个信道节目;传送流将多个独立时间基点的多信道节目合成为一个单独的数据流,属于同一节目的各个原始数据流具有相同时间基点,以便于划分;传送流由一系列的传送流分组构成,每个传送流分组是包括头信息在内的188B的数据包;更利于使用嵌入式硬件进行处理,也适合在各种有线和无线信道中传输。第49页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码(1)链接头作用包同步:用于建立包同步;包识别PID:复用和解复用的识别信息,靠PID提取基本码流;误码处理:发端对包作0~15的重复计数,接收端发现连续计数中断,就会判断丢失数据;有条件接收:传输格式允许包的数据作加扰处理,各基本流可独立扰乱,传输包的链接头要说明是否扰乱,标志出解扰密钥。头部信息不允许扰乱。

链接头可变长适配头净负荷数据

188字节

4字节第50页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码(2)适配的作用定时:一些包的适配头传时间信息,即在(PCR)字段传27MHz时钟,指出解码器从码流中读完该字段的期望时间。解码器的时钟与PCR比较,调整本时钟频率,进行同步;可随机进入压缩码流;在节目调节或更换时应该随机进入音频和视频的I帧,在I帧前的视频序列的头部应该有一个随机进入点;可插入本地节目。第51页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码188字节包头净荷包头净荷…包头净荷适应字段81113包同步误码指示开始指示传送优先级PID加扰控制适应字段控制连续性计数器1224可变长可选字段8115适应字段长度不连续性指示随机进入指示ES优先级指示5个标志填充字节14848PCR拼接点倒计时传送私有数据8OPCR适应字段扩展TS包格式第52页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码五、编/解码原理1、编码原理——经典的基于DCT变换的混合编码方案第53页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码在编码器端,输入图像首先根据帧编码模式来进行相应处理:帧内编码——编码图像分块后直接进行DCT变换,随后使用量化矩阵进行量化处理,以缩小数值的动态区域。帧间编码——视频信号经过运动估计和运动补偿后,由运动矢量和参考帧生成当前帧的预测图像,而后将当前帧与预测图像的残差图像进行DCT变换、量化、VLC编码,生成编码比特流送入缓冲器。第54页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码2、解码重建像块差值每个GOP的头部送一个量化矩阵用两个码表解码运动矢量重建像块数据提取各种参数第55页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码六、关键技术1、离散余弦变换(DCT)考虑到视频信号的隔行扫描特性,MPEG-2专门设置了两种图像结构:场模式(Field-pictures)和帧模式(Frame-pictures),因而DCT变换的基本单元也有所不同,即可以基于帧,也可以基于场;帧模式在进行DCT变换之前直接对宏块进行划分,每块由两场的交替行组成,最后分割为8×8像素的子块即可;场模式是每帧先被划分为16×16的宏块,随后对宏块进行重新组合,按宏块中每一行所在场的不同将宏块划分为16×8的2个子块,最后对每个子块中的2个8×8的数据块做DCT变换。第56页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码第57页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码2、量化器量化针对DCT变换系数进行,由于DCT变换系数对人类视觉系统感知的重要性不同,因此对一个8×8的DCT变换块的64个DCT变换系数采用不同的量化精度,保证尽可能多的包含特定的DCT空间频率信息,又使量化精度不超过需要;低频系数对视觉感应的重要性较高,分配的量化步长较小;高频系数对视觉感应的重要性较低,分配量化步长较大,通常情况下DCT变换块中大多数高频系数量化后会变为零。第58页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码3、扫描方式DCT变换系数量化后大多数非零系数集中于8×8矩阵的左上角,即低频分量区,为使游程编码和VLC编码效率更高,必须将其转换为一维序列的表达方式;扫描后,非零DCT系数集中于一维排列数组的前部,后面跟着长串的量化为0的DCT系数,为后续编码创造条件;MPEG-2使用了两种扫描方法:Zigzag扫描和交替扫描;交替扫描是基于隔行扫描图像的垂直相关性较逐行扫描图像要小的特性得到的,在低比特率下具有更好的性能;第59页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码第60页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码4、游程编码在游程编码中,只有非零系数被编码,当子块的一维序列中剩余的DCT系数全部为零时,MPEG-2定义“块结束”(EndOfBlock,EOB)标志位来指示,就可结束当前子块编码,从而进一步降低编码的比特数。5、熵编码MPEG-2视频压缩系统中采用Huffman编码,对不同的语法元素制定了不同的VLC码表。第61页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码6、信道缓存信道缓存是所有编解码器都必须具有的核心部分;随着视频图像统计特性的变化,编码后的码流码率也是变化的,在大多数情况下传输带宽是恒定的,因此需在编码码流进入信道前设置缓存器,以变比特率从熵编码器读入数据,以传输系统标称的恒定比特率向外读出,输入信道;缓存器大小固定,若编码器瞬时输出比特率明显高于或低于传输系统的带宽,可能造成缓存器的上溢或下溢,需要加码率控制器,使缓存器的写入与读出数据速率趋于平衡;码率控制器的调控主要通过调整量化器的量化参数实现:将要上溢时增大量化步长以降低编码数据速率;将要下溢时减小量化步长以提高编码数据速率;第62页,课件共145页,创作于2023年2月§4.3MPEG-2视频编码和解码7、运动估计MPEG-2根据“帧模式”和“场模式”对运动估计和运动补偿进行了相应的扩展;帧图像的帧预测帧图像的场预测场图像的场预测双基预测16×8预测对于帧图像,合成图像中相邻行来自于不同场,图像中物体运动时,垂直方向上相邻像素间相关性会减少,MPEG-2使用新的运动估计方法,最高支持半像素精度。第63页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码一、标准简介“基于音视频对象的通用编码算法”,其目的是为多媒体信息压缩提供统一和开放的平台,ISO/IEC14496,99年2月公布第一版草案,2000年初正式成为国际标准;目前,在Internet视频、流媒体、无线通信等领域中得到广泛应用;作为开放标准,新内容和新算法不断加入其中;可支持的比特速率低速率可低到5~64kb/s,高速率高达5Mb/s

;图像格式:支持各种扫描标准和图象格式;旨在将各种多媒体应用集成于一个完整的框架内。第64页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码二、标准提出的背景技术发展的趋势与应用要求的提高音视频内容越来越多,且很多是计算机合成的;视频信息的传送将扩展到所有网络,无线通信不仅用于语音,而且将应用于数据和视频;对音视频信息交互处理和应用的要求不断增长;电信、计算机、影视广播领域正逐步融合,相互渗透;MPEG-1和MPEG-2存在不足基于像素和像素块的编码,不能对图像的内容进行查询、编辑和选择播放等操作,交互性较差;无法在同一场景中集成自然媒体与人造(合成)媒体;不支持超链接;不提供对低码率应用的支持,将图像分成固定大小的块,在高压缩比情况下会有很严重的块效应。第65页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码第66页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码三、标准组成由相互联系的16个部分组成,核心部分如下:14496-1系统:定义规范的系统编码,主要是复合音/视频数据的复用结构和实时应用中重放同步序列所需表示定时信息的方法。(编码器端的音/视频对象被分别编码,与场景描述信息和其它同步控制信息合成比特流;接收端按场景描述信息合成场景)14496-2视频:定义视频数据的编码表示和重建图像所要求的解码过程;14496-3音频:定义音频数据的编码要求;14496-6多媒体集成传输框架(DMIF):对不同传输媒体提供共同的接口和服务。通过对编码比特流进行打包,使压缩码流适合于在不同的信道传输。第67页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码第68页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码四、标准新功能基于内容的交互性基于内容的操作与比特流编辑自然与合成数据的混合编码增强的时间域随机存取:可按帧或任意形状对象进行随机存取高压缩率提高了编码效率:同等码率下更好的图像质量对多个并发数据流的编码:提供对同一场景的有效多视角编码、多伴音声道编码及有效视听同步,足够观察视点下可有效描述三维自然景物灵活多样的存取抗误码特性:多种抗误码技术基于内容的可伸缩性:图像中各个对象具有不同优先级第69页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码五、档次与等级MPEG-4针对不同的媒体内容和场景描述定义了四各类:视频类音频类图形类场景描述类不同分类在选用时是相互独立的,与MPEG-2类似MPEG-4也采用了档次和等级的形式,档次就是针对特定的应用确定要采用的编码工具,不同类的码流句法结构不同,视频、音频和图形类中支持的对象类型也各不相同;每个档次包括一个或多个等级,用以限制计算复杂度。第70页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码核心的视频框架下主要包括如下6各档次:SimpleVisualProfile:提供针对矩形视频对象的编码功能,具有最低的复杂度,适合于计算能力较差的移动网络终端设备;AdvancedSimpleVisualProfile:提供针对矩形视频对象的高效编码功能,支持交织视频方式,适合对质量要求较高的移动网络;SimpleScalableVisualProfile:在SimpleProfile基础上增加了对象的时域和空域可伸缩编码功能,应用于提供多级服务质量,如Internet和软件解码;CoreVisualProfile:在SimpleProfile基础上增加了任意形状对象编码和时域扩展编码功能,适用于相对简单的内容交互应用,如Internet多媒体应用;MainVisualProfile:在CoreProfile基础上增加了Sprite对象编码功能,适合于交互和娱乐质量广播和DVD应用等;N-BitVisualProfile:在CoreProfile基础上增加了具有不同像素深度(4~12bit)视频对象编码功能,适用于监控应用;第71页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码六、层次结构MPEG-4采用了基于对象的编码方案。对象:一幅图像中表征有含义的实体的一组区域;对象代替了像素,一幅图像/视频可以看作不能再分解的一组对象;一幅图像可以包括一个或多个视频对象,通过纹理、形状、运动等方式来表征每一个视频对象的时间、空间信息;基于对象的表征方法带来了交互性;MPEG-4中所见的视音频不再是图像帧的概念,而是一个个视听场景(AV场景),这些不同的AV场景由不同的AV对象组成;第72页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码AV对象(Audio/VisualObjects)是听觉、视觉、或者视听内容的表式单元,其基本单位是原始AV对象,可以是自然的或合成的声音、图像,它们又可进一步组成复合AV对象;AV对象编码是MPEG-4的核心编码技术。第73页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码一个面向对象的电视情景Sportsresults:Portugal-Brazil

Sportsresults:Portugal-Brazil第74页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码MPEG-4视频内容呈现层次结构,从高层到低层共5层结构;视频对象序列(VisualObjectSequence,VS):是MPEG-4视频流的最高语法结构,是一个完整的可以包括任何自然的或人工合成的对象的MPEG-4视频场景。VS由视频对象序列起始码开始,后跟视频对象,最后由视频对象结束码标注结束;视频对象(VideoObject,VO):VO对应着场景中的一个特定对象,可以是任意形状的对象,也可以是一个矩形帧。VO由视频对象起始码标注开始,后跟视频对象层;视频对象层(VideoObjectLayer,VOL):根据应用具体要求,每一个视频对象都可以分级(空间或时间分级)或不分级的方式进行编码,用视频对象层来表征。VOL包括基本层和增强层,基本层有一个,增强层可有多个,每一层表示一种分辨率,分辨率可以从粗糙到精细;第75页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码视频对象平面组(GroupofVideoObjectPlanes,GOV):可以提供对码流的随机访问点,GOV是任意的;视频对象平面(VideoObjectPlane,VOP):一个VOP是对一个视频对象的时间采样,包括视频对象的运动参数,形状信息和纹理数据,对VOP编码就是针对某一时刻该帧画面VO的形状、运动、纹理等信息进行编码。一个普通的视频帧可用矩形的VOP表征。第76页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码MPEG-4视频码流逻辑结构图第77页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码说明:视频对象(VO)为场景中的某个物体,有生命期,由时间上连续的许多帧构成;视频对象平面(VOP)可看作VO在某一时刻的表示,即某一帧;视频对象平面组(GOV)提供视频流的标记点,标记VOP单独解码的时域位置,也就是对视频流任意访问的标记;视频对象层(VOL)用于扩展VO的时域和空域分辨率,包含VO的3种属性信息;几个视频场景(VS)组成一个完整的视频序列。第78页,课件共145页,创作于2023年2月P1P2PnP1P2Pn§4.4MPEG-4视频编码和解码七、编/解码原理在MPEG-4中,宏块仅支持一种图像采样格式,即4:2:0格式。MPEG-4系统层编码原理图第79页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码视频对象形成(分割):采用全自动、半自动、人工等方法分割出视频对象,或直接采用传统的矩形区域作为视频对象,在时间轴上生成VOP;在MPEG-4中采用了3种VOP,即I-VOP帧、P-VOP帧和B-VOP帧。对于输入的任意形状的VOP序列,采用基于变换的混合编码算法:首先对I-VOP进行编码,然后是P-VOP和B-VOP,对不同视频对象的形状、运动、纹理信息应分配不同的码字;将每个视频对象(VOP)的形状、运动、纹理信息在复合成VOL比特流输出。第80页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码自然视觉对象编码对于静止图像,采用零树小波算法提供高压缩比,同时提供多达11级的空间分辨率和质量的可伸缩性;对于运动视频对象编码,采用形状编码来支持对象编码。第81页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码第82页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码ShapeDecodingTextureDecodingShapeInformationDEMULTIPLEXERMotionCompensationBitstreamMotionDecodingVOPMemoryReconstructedVOPCompositorVideoOutCompositingscript第83页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码第84页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码场景描述——用BIFS描述语言描述场景的结构和视音频对象的位置变化、尺寸、彩色、声音响度等属性;场景描述的核心是对多媒体对象的安排布置,用户通过场景描述可以操作对象的显示状态,实现交互操作;场景描述用单独的数据流传输,单独编解码,可在压缩的数据流域实现对象控制;场景描述结构例:显示的图像序列、声音、音乐、语言,投影屏幕,背景墙,动画合成女解说员,讲由解说词产生的语言,还有合成的绘图—桌子和地球仪。第85页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码BIFS场景描述例第86页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码八、关键技术1、形状编码使用一个尺寸为16的整数倍的最小边框将VOP框住,框内分成独立的16×16宏块,这样就可以将VOP用一个边框矩阵表示,对VOP的形状编码变为对边框矩阵的编码;最终每个VOP的形状与运动、纹理信息在宏块内一起编码。

第87页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码VO的形状信息有两类:二值形状信息和灰度形状信息二值形状信息的取值为0或1,值的选定依赖于像素是否位于视频对象内部:1表示VOP形状区域;0表示非VOP区域。灰度形状信息是二值形状信息的扩展,采用0~255之间的数值来表示VOP的透明程度,也称做阿尔法平面(AlphaPlane)。0表示完全透明,1~254表示透明程度不同的VOP区域,255表示完全不透明。灰度级形状信息的引入相当于作了“模糊”处理,使前景物体叠加到背景上时不会使边界太明显。第88页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码News一帧图像

前景对象的二值形状信息第89页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码形状信息编码采用基于块的运动补偿变换编码方法,与VOP的纹理和运动信息一起编码;编码以二值阿尔法块为单位,基本编码工具是基于上下文的算术编码算法,根据有无运动估计分为:帧间编码,用于在帧间有运动补偿的场合;帧内编码,用于帧内无运动补偿的情况。第90页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码编码模式分为多种:VOP外部块,标记为透明块,这些块的纹理无需编码;VOP内部块,标记为不透明块,这些块不做形状编码,但需要纹理编码;帧内VOP,使用帧内形状编码,不使用参考信息;帧间VOP,运动矢量误差为零,块不更新;帧间VOP,运动矢量误差为零,块更新。用帧间形状编码对更新的块编码,宏块的运动矢量可通过计算最佳匹配位置给出;第91页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码八、关键技术2、运动信息编码运动信息编码可视为现有标准由矩形视频帧向任意形状VOP的延伸;三种模式:帧内编码模式(I-VOP)、帧间预测编码模式(P-VOP)和帧间双向预测编码模式(B-VOP);运动估计可以基于16×16的宏块,同时也支持8×8子块;为了能够适应任意形状的VOP编码,还引入图像填充技术和多边形匹配技术。第92页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码对于标准宏块:采用标准的基于块的运动估计和补偿技术;对于位于VOP边界的轮廓宏块,形状不规则,运动估计与补偿步骤如下:图像填充技术,使用VOP内部像素值来对外部像素值进行预测,用该灰度值填充轮廓宏块中位于边界以外的像素。水平填充,根据边缘像素左端或右端最近邻像素点有效灰度值填充,若左右都有合适的则取平均值,否则哪端合适取哪端像素点值;垂直填充,水平填充后剩下仍为透明的像素部分进行垂直填充,根据上下邻近点灰度值填充。多边形匹配,根据匹配准则在采用填充技术填充过的重构VOP中,为当前VOP的边缘宏块寻找最佳匹配宏块。“多边形”定义了轮廓宏块中位于VOP以内的部分,以外的部分排除在外。运动估计只对多边形定义的属于VOP活动区域的像素进行。第93页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码水平填充垂直填充第94页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码第95页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码八、关键技术3、纹理信息编码纹理:由许多相互接近、互相编织的元素构成的,并且具有一定程度的规律性或周期性;VOP的纹理信息包含在视频信号的亮度分量和两个色度分量中;VOP纹理编码的对象可以是帧内编码模式I-VOP,也可以是帧间编码模式的P-VOP或B-VOP运动补偿后的预测误差。第96页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码纹理编码流程DCT量化系数预测系数扫描VLCVOP纹理码流第97页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码DCT变换:帧内编码——完全属于VOP内的区域直接做,属于VOP边缘的宏块区域首先填充再做变换;帧间编码——将VOP形状之外的块填充后变换;量化:采用非线性方式量化;系数预测(帧内预测):DCT变换后不直接对系数进行编码,根据已编码子块(上方或左方)的系数得到预测值,对当前块DCT系数和预测系数的残差进行量化和熵编码;系数扫描:定义了3种扫描方式Zigzag扫描(如果没有DC频段系数预测)、水平交替扫描(如果DC系数进行水平方向预测)和垂直交替扫描(如果DC系数进行垂直方向预测);熵编码:在MPEG-4中对于帧内编码块和帧间编码块,DC系数和AC系数分别采用不同的码表;帧内编码块DC系数用8bit定长码编码,AC系数Huffman编码;帧间编码块DC和AC系数都采用Huffman编码。第98页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码九、编码新技术1、视频对象提取技术视频编码以任意形状的VOP为单位进行的,编码前要提取独立的VOP信息,针对不同对象进行编码;视频对象提取(分割)技术是MPEG-4的关键技术之一,是新一代编码的研究热点及难点,标准中没有规定生成VOP的具体算法;VOP提取包括:全自动、半自动(人工输入确定初始帧VOP的范围通过算法获得初始帧VOP,后继帧中自动跟踪此VOP的运动和变化)和人工提取(人工方法将视频对象标记出来,对有意义的对象进行跟踪提取);目前的编码机制中大都以16×16的宏块为基本单位,按基于矩形的块编码方案进行,可以与现有面向像素编码标准兼容,又便于面向对象编码技术扩展。第99页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码九、编码新技术2、可伸缩编码技术支持两种可伸缩方式:空域可伸缩和时域可伸缩;每一种可伸缩至少包括2层VOL,低层为基本层,高层为增强层;空域可伸缩通过增强层强化基本层的空间分辨率实现,目前只支持矩形VOP;时域可伸缩既支持帧(矩形VOP)又支持任意形状VOP。第100页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码九、编码新技术3、Sprite对象编码视频编码中多数视频序列中的背景本身静止或变化缓慢的,可通过图像匹配和拼接将整个视频序列的背景图像拼为一幅完整的全景图像,该序列所有帧背景中出现过的像素点在该背景的全景图中都能找到对应点——Sprite图像;Sprite图像本身不变,整个编码中只需传输一次,接收端根据摄像机运动参数重建背景,避免重复传送,减少传输数据量;第101页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码Sprite全景图生成过程全局运动估计仿射变换合成帧存形状图当前帧Sprite第102页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码第103页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码第104页,课件共145页,创作于2023年2月§4.4MPEG-4视频编码和解码Sprite编码分3种:基本Sprite编码低延时Sprite编码可伸缩Sprite编码Sprite的形状和纹理信息都按照I-VOP进行编码;低延时Sprite编码:整个Sprite分为不同的片,先将必要的片传送到接收端显示,其余的片在必要时或者带宽允许时在传送;可伸缩Sprite编码:先传送低分辨率图像,后不断进行细化。第105页,课件共145页,创作于2023年2月MPEG-7简介“多媒体内容描述接口”ISO/IEC15938;多媒体内容描述标准,定义了描述符、描述语言和描述方案,对多媒体信息进行标准化的描述,实现快速有效的搜索;MPEG-1,-2,-4是对信息进行有效的表示,MPEG-7则对信息表示方法进行描述,为各种表示法的适当部分提供索引。前三种编码方法使得信息的内容变得容易获取,MPEG-7则使在需要时能找到它。MPEG-7确立各种类型多媒体信息的标准描述方法,方法是描述符和描述方案的组合,并与所描述的内容紧密相关;描述形式与描述内容的编码方法或存储方式无关,描述可独立于所描述的媒体而存在。也可将描述附加在媒体上,方便检索和查询。标准只规定媒体特征的描述语法和语义。第106页,课件共145页,创作于2023年2月MPEG-7标准的组成第107页,课件共145页,创作于2023年2月MPEG-7中的描述定义语言描述定义语言DDL、描述方案和描述符是实现MPEG-7描述的主要工具,其中DDL是MPEG-7的核心部分;DDL——一种允许产生新的描述方案和描述符的语言,同时能够对现有的描述方案进行扩展和修改;DDL必须满足MPEG-7描述定义语言的需求:能够表示描述方案或描述方案元素之间的复杂空间、时间、结构和概念关系;能提供丰富的模型来连接或索引一个或多个描述以及被描述的数据;必须是一个与应用无关、人机可读的平台;第108页,课件共145页,创作于2023年2月MPEG-7工作范围MPEG-7工作范围:特征提取标准的信息描述(MPEG-7)搜索引擎视频素材的低级描述符能够描述象形状、尺寸、纹理、颜色、运动(抛射)、位置等属性;最高级的抽象描述等级可能会给出关于语义的信息。如,描述一个场景;中级描述,如一个场景中主、客体分类。第109页,课件共145页,创作于2023年2月MPEG-7与其它MPEG标准的区别MPEG-7可独立于其他MPEG标准使用;MPEG其他标准着重研究视频、音频的高效压缩编码算法,MPEG-7对多媒体对象的存储、编码不进行专门讨论,而将重点放在多媒体对象的特征提取、数据库的层次划分、不同数据类型之间的有机联系等方面,它所处理的数据对象甚至包含模拟信号(电影和录音剪辑);可利用MPEG-7的描述来增强其他MPEG标准的内容描述功能;MPEG-7与其他MPEG标准最大不同在于MPEG-7更注重于对人的自然本性的考虑;MPEG-7必须将许多相关领域的特点和技术结合起来,比如:计算机视觉、数据库以及信号处理等。第110页,课件共145页,创作于2023年2月MPEG-7的潜在应用PULL(检索/定位):多媒体素材的存储与调用

PUSH

(过滤):个性化电视服务第111页,课件共145页,创作于2023年2月MPEG-7基于内容检索系统的简单结构媒体库特征库特征抽取检索引擎管理端用户端数据库数据库生成子系统数据查询子系统知识库第112页,课件共145页,创作于2023年2月MPEG-7按MPEG-7描述标准建立的管理系统工作流程图例读入视频资料镜头分割提取视频资料及其关键帧的特征值将特征值按照MPEG-7标准进行描述将视频资料及其描述信息存储到视频数据库提取关键帧第113页,课件共145页,创作于2023年2月MPEG-21多媒体框架(ISO/IEC18034)标准的提出背景随着互连网的飞速发展,越来越多的设备通过互联网的主干线、本地的宽带或窄带网、高速局域网或家庭网以及正在发展的无线网互连到一起,共享和交换信息;多媒体内容的产生和消费不再是固定的,每个消费终端都是多媒体的制作者和消费者,多媒体数据将通过不同的用户层和应用范围漫游。在多媒体数据的交换过程中,要处理和组成各种所需内容,直到满足各种消费要求的问题尚不能解决;怎样能使这些无处不在的多媒体信息高效地、安全可靠地通过全球范围的各种不同类型网络和用户设备漫游?是当前流媒体安全发展中的一个挑战性的问题;解决这个问题需要综合地利用不同层次的多媒体技术标准。现在的标准是否能真正做到匹配衔接?在各个标准之间是否存在缺漏?是否还需要一个综合性的标准来加以协调?第114页,课件共145页,创作于2023年2月MPEG-21面对这些问题,于1999年10月的墨尔本MPEG会议上提出了多媒体框架这一概念。1999年12月毛伊岛会议上确定为MPEG-21。主要研究目标讨论是否需要和如何将这些不同的组件(协议、标准、技术等)有机的结合起来;讨论是否需要新的规范;讨论如果具备前两个条件,如何将不同的标准集成在一起。第115页,课件共145页,创作于2023年2月MPEG-21MPEG-21的范围可描述成一些关键技术的集成,其功能包括:内容表示、内容创建、内容发布、内容消费、内容识别与描述、知识产权管理和保护、财政管理、用户的隐私权、终端和网络资源的内容提取、事件报告等;MPEG-21框架的基本要素数字项目的发布(DigitalItemDeclaration)数字项目的识别与描述内容管理与使用知识产权管理与保护终端和网络(TerminalsandNetworks)内容表示(ContentRepresentation)事件报告(EventReporting)第116页,课件共145页,创作于2023年2月MPEG-21第117页,课件共145页,创作于2023年2月MPEG-21的应用和发展有关MPEG-21的应用主要参考MPEG会议产生的文档N3549.doc,文中介绍了多方面应用及举例:相册管理;数字图书馆;医学研究;旅游;家庭设计网络视音频的广播和点播等。MPEG-21的制定从2000年5月开始,计划在2002年2月达到国际标准。MPEG-21标准的内容非常丰富,许多内容尚在制定中,如转码、扩展的权力表达语言—XrML等。第118页,课件共145页,创作于2023年2月MPEG-21关键问题关键问题网络传送;服务质量和灵活性;内容展示的质量;内容艺术性方面的质量;服务和设备的易用性;物理媒体格式的互操作性;付费/订购模型;第119页,课件共145页,创作于2023年2月MPEG-21关键问题多平台的解码和绘制;内容的过滤、定位、回放和存储;消费者信息发布;消费者使用权限;消费者隐私保护。第120页,课件共145页,创作于2023年2月§4.5H.264/AVC视频编码和解码一、标准简介JVT(JointVideoTeam)是由国际标准化组织运动图像专家组(ISOMPEG)和国际电信联盟视频编码专家组(ITU-TVCEG)成立的联合视频工作组,致力于开发低比特率视频标准;JVT标准于2003年推出H.264/AVC标准在ISO/IEC中正式名称为MPEG-4Part10,称之为“ISO/IEC14496Part10高级视频编码算法”(ISO/IEC1449610AVC)第121页,课件共145页,创作于2023年2月§4.5H.264/AVC视频编码和解码第122页,课件共145页,创作于2023年2月§4.5H.264/AVC视频编码和解码二、档次与等级H.264主要支持4:2:0格式的连续或隔行视频的编解码,4:2:2和4:4:4可作为额外的参考信息参数;根据应用领域不同,制定了不同的算法集合和技术限定,共分为3个档次:基本档、主档和扩展档;在每一档次设置了不同的参数,每个档次下面又划分为不同的等级;基本档是扩展档的子集,但不是主档的子集。第123页,课件共145页,创作于2023年2月§4.5H.264/AVC视频编码和解码档次技术特点典型应用基本档利用I片和P片支持帧内和帧间编码,支持利用基于上下文的自适应变长编码进行熵编码;支持灵活的宏块组织顺序;片之间是相互独立的可任意顺序传输到解码端视频会话、如会议电视、可视电话、远程医疗、远程教学等主档支持隔行视频,采用B片的帧间编码和加权预测的帧内编码;采用基于上下文的自适应算数编码消费电子应用,如数字电视广播、数字视频存储等扩展档支持码流之间的有效切换(SP和SI片)、改进抗误码性能;不支持隔行视频和基于上下文的自适应算数编码网络视频流,如视频点播、流媒体等第124页,课件共145页,创作于2023年2月§4.5H.264/AVC视频编码和解码H.264标准从概念上将编码结构分为两层:上层为视频编码层;底层为网络抽象层。控制数据视频编码层数据分割网络适配层H.320MPEG-4H.323/IPMPEG-2其他编码宏块编码片/分区第125页,课件共145页,创作于2023年2月§4.5H.264/AVC视频编码和解码视频编码层负责完成高效率的视频压缩任务,网络适配层将视频编码层从具体的传输层中抽象出来,负责解决网络的适配问题,即根据使用环境对不同网络采用最为合适的方式对数据进行打包和传送,以使得码流对各类信道都具有良好的适应能力;对上层,从视频编码层获得数据,包括头信息、视频压缩数据信息;对下层,依据具体传输网络的特性对数据进行封装,包括成帧、发送信号至逻辑信道、利用同步信息等,定义适合传输层或存储介质需要的数据格式,提供头信息,将视频编码数据正确的映射到H.323、H.324等具体的传输协议上,从而提供视频编码层与外部世界的接口。第126页,课件共145页,创作于2023年2月§4.5H.264/AVC视频编码和解码三、编/解码原理1、编码原理仍然采用经典的运动补偿混合编码算法;编码图像分为3种:I帧、P帧和B帧;此外H.264还定义了新的SP帧和SI帧,用以实现不同的传输速率、不同图像质量码流间的快速切换以及信息丢失的快速恢复等功能;H.264将一视频图像编码成一个或多个片,一个片由一系列按光栅扫描顺序排列的宏块构成每片包含整数个宏块或一幅图像的全部宏块。第127页,课件共145页,创作于2023年2月§4.5H.264/AVC视频编码和解码采用帧内编码时首先选择相应的帧内预测模式进行预测;随后对实际值和预测值之间的差值进行变换、量化和熵编码;同时编码后的码流经过反量化和反变换之后重构预测残差图像,与预测值相加得出重构帧,结果经环路滤波器平滑后送入帧存储器;采用帧间编码时首先在参考帧中进行运动估计,之后的残差图像经整数变换、量化和熵编码后与运动矢量一起送入信道传输。第128页,课件共145页,创作于2023年2月§4.5H.264/AVC视频编码和解码三、编/解码原理2、解码原理首先根据语法元素判断:为帧内编码直接进行反量化、反变换重构;为帧间编码得到的为残差图像,需要根据帧存储器中的参考图进行运动补偿后与残差图叠加。第129页,课件共145页,创作于2023年2月§4.5H.264/AVC视频编码和解码四、关键技术H.264的特征是加大了预测部分的比重,通过改善预测误差而提高编码效率;与H.263+和MPEG-4简单类相比,在视频图像质量相同的情况下,H.264最多能节省50%的码率;第130页,课件共145页,创作于2023年2月§4.5H.264/AVC视频编码和解码采用的新型编码技术主要包括如下:采用4×4像素块的整数变换,运算速度快,反变换过程中没有匹配错误问题;采用可变块运动估计/运动补偿技术,宏块尺寸从16×16,1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论