[信息与通信]现代电视技术8_数字视音频压缩.ppt

上传人：x*** IP属地：四川上传时间：2019-05-02 格式：PPT 页数：52 大小：5.33MB 积分：15 举报 版权申诉

已阅读5页，还剩47页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1,现代电视技术(8),主讲教师：杨磊, 办公：主楼601 电话：65779439,2,第8章数字视音频压缩原理,本章重点内容： JPEG MPEG-2 H.264,3,8.1 数字视频压缩编码概论,表8-1 常见数字视频的原始有效码率,4,8.1.1 数字视频压缩机理数字视频存在空间、时间、结构、信息熵等数据冗余,相邻像素,相邻帧,纹理,编码比特大于信息熵,人眼视觉对图像感知非均匀、非线性，小误差不被察觉亮度辨别阈值、视觉阈值、视觉对不同图像内容的空间分辨力不同、人眼对亮度比对色度敏感,数字视频压缩编码即是充分利用了上述人眼的视觉特性和视频图像的冗余信息,5,8.1.2 数据压缩编码方法分类与性能指标,原始数据x,编码器（压缩）,解码器（解压）,压缩后数据y,压缩编码性能指标图像质量评价（主观、客观）压缩复杂度延时量,压缩编码分类无损压缩有损压缩,6,8.2 预测编码,利用信源相邻样值之间的相关性，减少数据在时间和空间上的冗余。多用差分脉冲编码调制DPCM。,输入样值xn,根据n时刻之前重建的样值x1, x2, , xn-1对当前时刻样值xn作预测，得：,ai预测系数,en预测误差,量化误差xn=en-en,编码失真也是量化误差,如果发端无量化器，直接对en进行编码、传输，收端可无误差地恢复xn。这是可逆的无失真DPCM编码，是信息保持编码。但是如果有量化器，编码器是对en编码，则量化器导致了不可逆的信息损失，这时收端经解码恢复出的信号不是真正的xn ，而是有失真的xn 。有损但人眼不觉察，节省比特，效率高。,7,8.2 预测编码（2）,8.2.2 帧内预测,基于同一帧内相邻像素存在很强的相关性。,前值预测：用同一行中最邻近的前值来预测；,一维预测：用同一行中前几个样值来预测；,二维预测：用同一行和上几行中的几个样值来预测。,8,通过使预测误差en的均方值e2最小来求预测系数a1，a2，an-1，以获得最佳线性预测值，即为最佳预测编码。注意ai=1,9,8.2 预测编码（3）,8.2.3 帧间预测,10,8.2 预测编码（4）,8.2.4 运动补偿技术,11,1. 运动估计（ME，Motion Estimation）,帧间运动补偿的关键步骤。ME的精度直接决定了帧间预测的精度。最好基于像素运动估计产生位移矢量(运动矢量MV)，但一般基于宏块运动估计。,12,以当前帧中的每一个亮度宏块MB的坐标为中心，对参考帧(前向or后向)相应位置的宏块在上下左右4个方向搜索，求得与其最佳的匹配块，从而得到运动矢量MV 。（搜索范围限制在规定的搜索窗范围内，色差信号与亮度信号采用相同的运动矢量）,运动预测的位移可以是整像素、1/2像素、1/4像素。运动矢量位移精度越高，帧间预测后的残差越小，压缩比越高。,13,2. 匹配准则,最小均方误差（MSE）准则,最小平均绝对差（MAD）准则,3. 运动补偿（MC，Motion Compensation）,重建的参考帧存放在帧存储器中，当前帧数据块和参考帧数据块经过运动估值后得到参考帧的最佳匹配块和运动矢量MV，将当前帧被编码宏块与最佳匹配宏块求差值，得到残差块。因此只需要传送运动矢量MV和残差块数据，就可以恢复出当前帧的预测图像。经过运动补偿后再求残差值，残差数据值将会很小，经量化后可使传输的数据量大大降低。,14,8.2 预测编码（5）,8.2.5 量化器设计,量化器用于对预测误差值en进行量化，而en呈右图概率分布，即en=0的出现概率最大。一般图像缓变区（低频区）易预测，因此en较小，而人眼对此部分误差的分辨能力较高；图像急变区（高频区）不易预测，en较大，但人眼对此部分误差的分辨能力较低。因此缓变区细量化，急变区粗量化。,15,8.3 正交变换编码,将空间图像变换到正交的变换域（正交向量空间）。正变换为分解，反变换为合成。变换后能量集中，容易量化，因而容易压缩。,8.3.1 二维DCT变换,16,17,18,19,8.4 变字长编码（VLC）,经过预测、正交变换、量化之后，得到一系列数值（符号），如残差函数的变换系数、运动矢量、辅助信息等。 VLC即是将出现概率大的用短码，出现概率小的用长码，从而使平均码长减小。,20,平均码长：信息熵：,21,8.5 视频压缩标准概述,三大国际标准化组织(ISO、IEC、ITU)制订了多个视音频压缩编码标准,22,8.6 JPEG压缩编码标准,分两种：基于DCT的有损压缩、基于DPCM的无损压缩,8.6.1 JPEG压缩编码原理,步骤：通过DCT减少数据空间冗余；用与人眼视觉特性相关的量化矩阵量化DCT系数F(u,v)，减少视觉冗余；对量化后的直流系数DC和交流系数AC分别进行可变长编码VLC，减少编码冗余。,灰度级减2n-1 无符号有符号减少绝对值大数,见教材图8-18,图8-19,图8-20,图8-21,基于人眼感知阈实验，系数分布体现了人眼对高频系数和色度系数不敏感的特性(高频量化大于低频、色度量化大于亮度),制造更长0游程。后续为0的系数不传，以EOB表示。,表8-4 幅度值VLC码表,表8-5 亮度直流系数H表,表8-6 亮度交流系数H表,23,8.6.2 JPEG解码过程,解码图像与原始图像相比有一定误差，是由量化过程引起，但一般并不大。(见教材图8-23),24,8.7 MPEG-2视频压缩编码,Moving Picture Experts Group于1988年开始工作，制定了一系列标准,8.7.1 MPEG-1和MPEG-2概述,MPEG-1：Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5Mb/s。标准号：ISO/IEC 11172。主要由3个部分组成，1为系统(数字视音频和辅助数据等多路压缩数据流复用和同步的规定)，2为视频(位速率为1.5Mb/s的视频压缩编码规定，逐行CIF格式)，3为音频(每通道位速率为64kb/s、128kb/s、192kb/s的数字音频信号的压缩编码的规定)。,MPEG-2：Coding of Moving Pictures and Associated Audio。标准号：ISO/IEC 13818。主要由3个部分组成，1为系统(多路数字视音频和数据的复用和同步的规定)，2为视频(各种比特率的数字视频压缩编码规定)，3为音频(扩充了MPEG-1的音频标准，成为多通道音频编码系统)。,都是基于块的DCT编码、帧间预测和运动补偿编码技术的混合编码结构。MPEG-2兼容MPEG-1并在多个方面有扩充。,25,8.7.2 MPEG-2的型和级,MPEG-2支持不同性能和不同复杂性的解码器，面向不同的应用。,High： 1920108030及1920108025；最高比特率80 Mb/s。 16:9 High-1440：1440108030及1440108025；最高比特率60 Mb/s。4:3 Main： 72048030及72057625；最高比特率15 Mb/s。 Low： 35224030及35228825；最高比特率4 Mb/s。,26,8.7.3 视频结构,Video Sequence,GOP,Picture,Slice,MB,Block,含不同数量的色度块,27,In the DVCAM/DV formats, the sampled video data is handled on a so-called macro block basis. In the 525-60 system, a macro block is formed of four horizontally adjacent luminance pixel blocks and two chrominance pixel blocks, one each for the CR and CB component. Similarly, in the 625-50 system, a macro block is formed of four luminance pixel blocks neighboring in the horizontal and vertical directions, and two chrominance pixel blocks. In either case, the macro block size was determined as the smallest unit to package one each of the 88 chrominance pixel blocks with their associated luminance pixel blocks. Since the 525 and 625 DVCAM systems use 4:1:1 and 4:2:0 processing respectively, there are four luminance pixel blocks associated with one each of the chrominance blocks, resulting in a macro block size of six 8 8 pixel blocks.,28,8.7.4 I、B、P帧编码原理,MPEG采用DCT和帧间运动预测联合编码技术，大幅压缩了视频图像的空间冗余和时间冗余，将图像定义为3种类型：帧内编码图像（Intra picture，I帧）：只使用本帧内的数据进行编码，是GOP的第1帧，也是随机访问编码图像序列的切入点，压缩比一般为(25):1，且必须传送。前向预测编码图像（Predicted Picture，P帧）：由前面最靠近的I帧或P帧作为参考帧，以宏块为单位预测而来，由于使用了运动补偿(传送的只是预测误差)，压缩比可达(510):1。,双向预测编码图像（Bi-directional Prediction，B帧）：由前面的和后面的各一参考帧(P帧或I帧)进行双向预测而来，但不用做基准帧，因此不会传输误码，压缩比可达(2030):1。,29,MPEG允许编码端自行选择I帧的使用频率及其在视频流中的位置，对随机存取、截取景物定位有利；同时允许编码端自行选择参考帧之间的B帧数（如I帧与P帧之间、P帧与P帧之间），但是B帧数越多，存储及处理就越复杂。,如果只有前向预测，当前编码帧中可能有许多宏块在参考帧中搜索不到匹配块，但在其后面的帧中能够搜索到匹配块。,过去帧,当前帧,将来帧,30,P帧内有多种类型的编码宏块：帧内块、前向预测块、跳过的块(位移矢量为0且预测误差为0的宏块) 编码过程进行运动补偿判断、帧内编码判断、编码判断、量化后DCT系数的编码。,8.7.5 MPEG编码器工作原理,31,B帧编码在预测时可能在前后参考帧找到两个匹配块，要进行加权和，然后与当前帧的块进行预测编码，此时需传两个运动矢量。,32,8.7.6 视频基本码流结构,(见教材图8-30),33,8.7.7 MPEG-2解码,34,8.8 MPEG-2系统复用,8.8.1 系统复用,将连续传输的数据流按一定的长度分段，构成具有特定结构和长度的一个个单元包。,Elementary Stream,Program Stream,Transport Stream,Packetized Elementary Stream,Service Information,包长固定抗误码,包长不固定,PES非定长，一般为一个存取单元的长度(视频帧or音频帧)。为了实现解码同步，每段前还需插入相应的时间标记及相关标志符，如显示时间标签PTS (Presentation Time Stamp)、解码时间标签DTS (Decoding Time Stamp)及段内信息类型、用户类型等标志信息。,35,8.8.2 复用码流分析,TS包长固定为188字节，传输系统间的连接格式，传输设备间的基本接口。,有关传输信息，长度不定，最小32bit,PES包,包标识,36,8.8.3 节目专用信息PSI,节目关联表PAT：由PID为0x0000的TS包传送，为复用的每一路TS提供所包含的节目和节目编号，以及对应节目的节目映射表(PMT)的位置，i.e. PMT的TS包的包标识符(PID)的值。,(见教材p350-351),节目映射表PMT：用于指示组成某一套节目的视音频和数据在TS中的位置，以及每路节目的节目时钟参考(PCR)字段的位置。,条件接收表CAT：由PID为0x0001的TS包传送，提供复用流中CA系统的有关信息，指定CA系统与它们相应的授权管理信息(EMM)之间的联系，指定EMM的PID以及相关参数。,网络信息表NIT：提供多组TS和传输网络相关的信息。,传送流描述表TSDT：由PID为0x0002的TS包传送，提供传送流的一些主要参数。,专用段：用于传送用户自己定义的专用数据。,描述符：提供关于视频流、音频流、语言、层次、系统时钟、码率等多方面的。,37,38,8.9 H.264视频压缩编码,SERIES H: AUDIOVISUAL AND MULTIMEDIA SYSTEMS Infrastructure of audiovisual services Coding of moving video Advanced video coding for generic audiovisual services 码率低容错能力强网络适应性强计算复杂度高基本型(Baseline Profile)：帧内和帧间编码及CAVLC (Context-based Adaptive Variable Length Coding)熵编码等。低复杂度、低延时。主型(Main Profile)：支持隔行扫描、双向预测帧间编码、加权预测帧间编码、CABAC (Context-based Adaptive Binary Arithmetic Coding)熵编码等。压缩效果最佳，但延时大。扩展型(Extended Profile)：包括了所有容错技术、对比特流的灵活访问、切换技术。但不支持隔行扫描和CABAC，主要针对流媒体应用。,8.9.1 H.264概述,39,40,Previously coded pictures (reference pictures) may be used for inter prediction of further coded pictures. Reference pictures are organized into one or two lists (sets of numbers corresponding to reference pictures), described as list 0 and list 1.,A video picture is coded as one or more slices, each containing an integral number of macroblocks from 1 (1 MB per slice) to the total number of macroblocks in a picture (1 slice per picture) The number of macroblocks per slice need not be constant within a picture.,41,视频编码层(VCL, Video Coding Layer)：包括基于块的运动补偿混合编码和一些新的特性，但不涉及前处理和后处理，灵活性高。,8.9.2 H.264系统层,网络提取层(NAL, Network Abstraction Layer)：将视频编码层输出的视频格式转换成传输网络或存储媒体所要求的合适格式。另外在VCL和NAL之间定义了一个基于打包方式的接口。NAL按照下层网络的打包格式来封装数据，包括组帧、逻辑信道的信令、定时信息的利用、序列结束信号等。,42,8.9.3 H.264视频编解码框图,43,44,帧内预测：使用相同帧中已经重建的像素块与当前进行编码的像素块进行预测编码，用以除去相邻块之间的空间冗余。,8.9.4 帧内预测(Intra Prediction),图8-44 9种预测模式,45,根据9 种预测模式计算产生的相应预测块。(SAE为绝对误差和) 。与当前块的最匹配的模型为模式8，因为该模式下的SAE 最小且最接近于原始44 块。,46,新增SP帧：基本原理同P帧，但它能够参照不同的参考帧重构出相同的图像帧，可取代I帧，广泛应用于流间切换、拼接、随机接入、快进快退、错误恢复，且大大降低码率开销。,8.9.5 高精度运动估计和运动补偿技术,新增SI帧：基于帧内预测编码，其重构图像和对SP的重构图像完全相同。,MPEG-x为确保完全正确解码，切换帧不得使用当前帧之前的帧信息，即只使用I 帧，只好周期性地放置I 帧，造成视频流数据量增大，增加传输带宽的要求。,47,1.不同大小和形状的宏块分割：MPEG-2仅1616，H.264可至44(亮度变化小的区域用大块，变化大的用小块，处理运动细节、减少块效应)。,I macroblocks are predicted using intra prediction from decoded samples in the current slice. A prediction is formed either (a) for the complete macroblock or (b) for each 44 block of luma samples.,P macroblocks are predicted using inter prediction from reference picture(s). An inter coded macroblock may be divided into macroblock partitions, i.e. blocks of size 1616, 168, 816 or 88 luma samples (and associated chroma samples). If the 88 partition size is chosen, each 88 sub-macroblock may be further divided into sub-macroblock partitions o

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

[信息与通信]现代电视技术8_数字视音频压缩.ppt

文档简介

温馨提示

最新文档

评论

[信息与通信]现代电视技术8_数字视音频压缩.ppt

文档简介

温馨提示

最新文档

评论

相关文档