多媒体数据压缩编码技术_第1页
多媒体数据压缩编码技术_第2页
多媒体数据压缩编码技术_第3页
多媒体数据压缩编码技术_第4页
多媒体数据压缩编码技术_第5页
已阅读5页,还剩141页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章多媒体数据压缩编码技术1第二章多媒体数据压缩编码技术2.1多媒体数据压缩基本原理2.2数据压缩与解压缩常用算法2.3多媒体数据压缩常用标准2.1多媒体数据压缩基本原理2.1.1数据压缩的必要性与可能性2.1.2数据冗余的基本概念和种类2.1.3图像压缩预处理技术2.1.4量化及其质量2.1.5数据压缩算法综合评价指标2.1.1数据压缩的必要性与可能性数据压缩必要性数据量大BGR图像:一张640×480真彩(24位)的图像需:640×480×24=7372800(bit)=900KB(1Byte=8bit)相当于约46万汉字2.1.1数据压缩的必要性与可能性数据压缩必要性数据量大视频:以这样的图像构成视频,以每秒30帧进行播放,所需数据量为:

7372800×30≈26.37MB一张650MB(5200Mb)的光盘只能存储约25秒的视频节目很难满足计算机处理多媒体的要求2.1.1数据压缩的必要性与可能性数据压缩必要性数据量大音频:以44.1KHz采样频率,量化为16bit双通道立体声,每秒数据量为: 44100×16×2=1411200(bit)≈172.3KB一张650MB的光盘能存放: 650×1024/172.3≈64分钟很难满足计算机处理多媒体的要求2.1.1数据压缩的必要性与可能性数据压缩的可能性数字化的多媒体数据可以进行数据压缩是基于两种事实信息的冗余度:多媒体数据中存在大量的冗余,如:300…00(后跟100个0),可以表示为30(100),表示3后跟100个0,从而避免大量的重复0。(科学记数法)数据(文字、图形、声音、视频等)在计算机中都是以二进制值0、1来表达、存储和传输,其数值之间有空间相关和时间相关性。利用相关性可以进行压缩。2.1.1数据压缩的必要性与可能性数据压缩的可能性数字化的多媒体数据可以进行数据压缩是基于以下两种事实人的视觉及听觉等感官特性视觉特征表现为对亮度信息很敏感而对边缘的急剧变化不敏感听觉特征表现出对部分音频信号不敏感,如人的听觉具有一个强音能抑制一个同时存在的弱音现象,而且人耳对低频端比较敏感,而对高频端不太敏感因此,完全可以利用这些特性去除一些多余及不敏感的信息,从而实现对数据的压缩2.1.2数据冗余的基本概念与种类数据冗余的基本概念多媒体数据的数据量远远大于其所携带的信息量例:180个汉字,文本数据量为360B。广播员朗读使用1分钟,数字化时采样频率8000Hz,单声道,8为量化,则数据量为8000X60=480KB。可见,传递同样信息,语音数据有1300倍冗余

数学描述:I=D-duI:信息量D:数据量du:冗余量2.1.2数据冗余的基本概念与种类数据冗余的基本概念复习——信息量指从N个相等的可能事件中选出一个事件所需要的信息度量和含量复习——信息熵信源平均信息量I(x)=log2N=-log2=-log2p(x)1NH(x)=H(p(x1),(p(x2),…,p(xn))=-∑p(xi)×log2p(xi)i=1nn为数据或码元的个数,p(xi)为码元xi

发生的概率2.1.2数据冗余的基本概念与种类数据冗余的基本概念为使单位数据量D接近或等于H,应其中b(xi)为分配给码元xi的比特数。理论情况下,应取但实际上很难确定各码元的概率,因此,一般总取b(x1)=b(x2)=...=b(xn),即分配给每个码元的比特数相等(等长码),这样所得的D必然大于H,从而形成了信息冗余。例如,英文字母编码码元长为7bit,这样d必然大于H,由此带来的冗余称为信息熵冗余或编码冗余2.1.2数据冗余的基本概念与种类数据冗余的类别空间冗余图像数据中,大量的相邻像素完全一样或十分接近时间冗余时间类媒体中经常存在地冗余相邻两帧的大部分数据无变化,只有少量数据变化AAA2.1.2数据冗余的基本概念与种类数据冗余的类别结构冗余:图像由有规律的图案组成信息熵冗余:数据携带的信息量少于数据本身视觉冗余:由人的视觉特性所产生的冗余,人的视觉系统一般的分辨能力约为26灰度等级,而图像量化一般采用28灰度等级,这样的冗余就称为视觉冗余2.1.2数据冗余的基本概念与种类数据冗余的类别知识冗余:图像的记录方式与人对该图像的知识之间的差异而产生。例如人脸的图像就有固定的结构,鼻子位于脸的中线上,上方是眼睛,下方是嘴等。我们可以构造其基本模型,并创建对应各种特征的图像库,进而图像的存储只需要保存一些特征参数,就可以大大减少数据量其他冗余:如图像的空间非定常特性所带来的冗余2.1.3图像压缩预处理技术图像数据压缩的任务是在不影响或少影响图像质量的前提下,尽量设法减少图像数据中的数据量图像数据中存在各种冗余,数据压缩的首要任务就是去除各种冗余数据。当然删除冗余数据必然会给图像质量带来一定的损失,这就需要进行相应的预处理,来保证将这种损失降至最低限度2.1.3图像压缩预处理技术图像预处理采用的主要技术二次抽样滤波器量化预测编码运动补偿变长码图像内插法2.1.4压缩编码中的量化及其质量量化从模拟信号到数字信号的量化压缩编码中的量化以PCM码为输入,在量化器经过某种变换后输出存在量化误差量化方法标量量化矢量量化2.1.4压缩编码中的量化及其质量量化量化方法——标量量化对经过映射变换后的数据或PCM数据逐个进行量化,在这种量化中,所有采样使用同一个量化器进行量化,每个采样的量化都与其他采样无关,也称为零记忆量化包含均匀量化和非均匀量化两种均匀量化非均匀量化2.1.4压缩编码中的量化及其质量量化量化方法——矢量量化是近年来发展起来的一种新的编码方法,是一种有损的编码方案,其主要思想是先将输入的语音信号按一定方式分组,再把这些分组数据看成一个矢量,对它进行量化。每组形成的矢量看成一个元素,又叫码字,这些码字排列起来,就构成了一个表(码表),这样在接收端放置同样的码表,当接收到码字的下标信息后,就可以通过查表的到码字信息此方法以输入矢量与选出的码字之间失真最小为依据,与标量量化相比,它有更大的数据压缩比。但其关键问题是设计一个良好的码本2.1.5数据压缩算法综合评价指标压缩倍数也称压缩率,有两种衡量方法方法一:压缩前后总的数据量之比例如:1024X768黑白图像,每像素8bit,将其分辨率降为512X384,再压缩使每像素用0.5bit,则其压缩倍数为64倍,压缩比为1:64将任何非压缩算法产生的效果(如降低分辨率、帧率等)排除在外,用压缩后的比特流中每个显示像素的平均比特数来表示例如:以15000字节存储一幅256×240的图像,则压缩率为(15000×8)/(256×240)=2比特/像素2.1.5数据压缩算法综合评价指标图像/音频质量评估解压缩后所得数据的质量,常采用客观评估和主观评估两种方法客观评估:是通过一种具体的算法来统计多媒体数据压缩结果的评估方法,常使用信噪比来评价主观评价:由人主观进行打分以进行评价。具体做法是:由若干人(一般分专业组、非专业组)对所观测的重建图像的质量按很好、好、尚可、不好、坏五个等级评分,然后计算出平均分数MOS,一般MOS4分以上即为可收费标准2.1.5数据压缩算法综合评价指标图像/音频质量解压缩后所得数据的质量还与压缩时所采用的压缩方法相关无损压缩:压缩后的数据经解压缩还原后与原始数据完全相同,压缩倍数不大有损压缩:压缩后的数据经解压缩还原后与原始数据不完全相同,压缩倍数较大,解压缩后的数据质量会降低2.1.5数据压缩算法综合评价指标压缩和解压缩的速度压缩和解压缩速度是压缩系统的两项重要指标对称压缩:压缩和解压缩需要实时进行,如电视会议的图像传输,压缩和解压缩速度相同非对称压缩:解压缩实时,压缩非实时,如CD-ROM的制作与播放,压缩比解压缩速度慢数据的计算量:压缩和解压缩都需要大量的计算,如使用MPEG-1计算352×240的图像,需126720次乘法运算和638880次加法运算。通常解压缩比压缩的计算量小,如MPEG的压缩编码计算量约为解码的4倍。2.2数据压缩与解压缩常用算法2.2.1数据压缩方法的分类2.2.2哈夫曼编码2.2.3预测编码2.2.4变换编码2.2.1数据压缩方法的分类数据压缩方法也称编码方法,有多种分类方法按是否产生失真分无失真编码:也称可逆编码,无损压缩,此类方法解压缩后的还原数据与原始数据完全一致有失真编码:也称不可逆编码,有损压缩,此类方法解压缩后的还原数据与原始数据不完全一致2.2.1数据压缩方法的分类按原理分预测编码针对空间冗余和时间冗余利用已被编码的点的值预测邻近的点的值变换编码针对空间冗余和时间冗余将图像或时域信号变换到频域上,再进行压缩子带编码:分频带编码将数据变换到频域后,按频率分带,分别量化语言和图像2.2.1数据压缩方法的分类按原理分信息熵编码根据信息熵原理,对概率大的符号用短码字表示,反之用长码字表示典型的有哈夫曼编码、行程编码、算术编码统计编码根据一幅图像像素值的统计情况进行编码压缩,也可先将图像按前述方法压缩,对所得的值加以统计,再做压缩。统计编码既可单独使用,又可用在某个算法之后做进一步的压缩最常用的统计编码方法是哈夫曼编码方法2.2.1数据压缩方法的分类数据压缩方法总结特点描述无损无失真地准确地恢复原始数据有损有失真帧内独立地完成帧的编码帧间参照前、后帧对帧进行编码,并考虑帧之间的时间冗余对称编码及译码的访问几乎相等不对称编码时间比译码时间长很多实时编-译码延迟不应该超过50ms2.2.1数据压缩方法的分类数据压缩方法总结2.2.2哈夫曼编码最佳编码定理哈夫曼1952年提出内容:在变字长编码中,对于出现概率大的信息符号编以短字长的码,对于概率小的符号编以长字长的码。如果码字长度严格按所对应符号出现概率大小逆序排列,则平均码字长度一定小于其他以任何符号顺序排列方式得到的平均码字长度2.2.2哈夫曼编码编码方法根据以上定理而得到的一种编码方法步骤1.将符号按出现概率由大到小排列,给最后两个符号赋予一个二进制码,概率大的赋1,小的赋0(反之亦可)2.把最后两个符号的概率合成一个概率,重复上一步3.重复步骤2,直到最后只剩下两个概率为止4.将每个符号所对应的分支的0,1反序排出即可可以看出,概率大的符号其编码短,概率小的符号其编码长,符号使用其编码来表示,达到数据压缩目的2.2.2哈夫曼编码哈夫曼编码过程演示A1A2A3A4A5A6A70.230.210.180.150.130.070.03100.10100.23100.33100.44

1

00.56011编码0100111110101100110002.2.2哈夫曼编码哈夫曼编码过程演示2.2.2哈夫曼编码哈夫曼编码结果分析编码010011111010110011000码长2233344码字的平均长度_

7N=∑niP(ai)=2.72biti=1信息符号的熵值

7H(a)=∑P(ai)log2P(ai)=2.61biti=1编码效率:=

2.61/2.72≈

96%可见,哈夫曼编码结果,其平均长度接近于信息符号的熵值,但是仍有冗余2.2.2哈夫曼编码哈夫曼编码最佳情况示例信源有四个符号:Xa1a2a3a41/21/41/81/8信息熵:H(x)=-1/2log2(1/2)-1/4log2(1/4)-1/8log2(1/8)2=1.75bit/字符2.2.2哈夫曼编码a1

a2

a3

a4

1/21/41/81/8符号概率011/4011/2011编码010110111采用哈夫曼编码(二进制编码)a1a2a3a4

_010110111平均码长:N=(1/2)1+(1/4)2+(1/8)6=1.75bit/字符编码效率:=1.75/1.75=100%哈夫曼编码最佳情况示例2.2.2哈夫曼编码哈夫曼编码最佳情况示例4个符号采用PCM编码:R=log24=2bita1a2a3a4_00011011N=2Pi

=2_编码效率:=H(x)/N=1.75/2=87.5%2.2.2哈夫曼编码哈夫曼编码的特点其实就是数据结构中的二叉树形式无歧义性,能正确地恢复原信号构造出来的码不唯一有两种赋值方式:概率大的赋1,小的赋0,反之亦可两符号概率相等时,其排列顺序随机,造成编码不唯一2.2.2哈夫曼编码哈夫曼编码的特点编码出来的字长不统一,硬件实现困难对不同的信号源,编码效率不同,等概率信源,效率最低编码后形成一个哈夫曼编码表,若正确解码必须有此码表,于是在传送过程中也要传送此码表2.2.3预测编码原理利用以往的样本值对新样本值进行预测将新样本值的实际值与其预测值相减,得到误差值对该误差值进行编码,传送此编码即可理论上数据源可以准确地用一个数学模型表示,使其输出数据总是与模型的输出一致,因此可以准确地预测数据,但是实际上预测器不可能找到如此完美的数学模型2.2.3预测编码典型方法DPCM:差分脉冲调制预测,DifferentialPulseCodeModulationADPCM:自适应差分脉冲调制预测,AdaptiveDifferentialPulseCodeModulation2.2.3预测编码差分脉冲调制预测差分脉冲调制(DifferentialPulseCodeModulation,简称DPCM)是降低每个像素所需平均比特数最实用的方法。对于绝大多数图像来说,在局部空间和时间上是高度相关的,因而可以在已得到像素的基础上通过对当前像素的预测来减少图像的数据量2.2.3预测编码差分脉冲调制预测——原理图量化器预测器译码器预测器-++编码器发送端接收端Xndn^XnXn’dn’dn’^XnXn’2.2.3预测编码差分脉冲调制预测发送端预测器带有存储器,把tn时刻以前的采样值x1,x2,x3,xn-1存储起来并据此对xn进行预测,得到预测值dn为xn与的差值,dn’为dn经量化器量化的值xn’是接收端的输出信号误差qn为qn=xn-xn’=xn-(+dn’)=(xn-)-dn’=dn-dn’实际上就是发送端的量化器对误差量化的误差对dn’的量化越粗糙,压缩比越高,失真越大^Xn^Xn^Xn^Xn2.2.3预测编码差分脉冲调制预测——对于图像预测编码Xn表示被预测的像素,x1,x2,x3,xn-1则是根据不同的预测方案被选出来的已知像素点一维预测:同一行二维预测:不同行三维预测:不同帧X1xn2.2.3预测编码差分脉冲调制预测——对于图像预测编码一维预测利用像素之间在水平方向上的相关性。在水平方向上亮度变化缓慢地图像效果好。但是有亮度 突变就不行。 图中黑白条:=x1=0(黑色) 可采用二维预测: x4-x51=x1+————=— 22x1xn^Xn^Xn+-2.2.3预测编码差分脉冲调制预测适用于输入数据为平稳的随机过程预测器设计是预测编码系统的核心,预测器的复杂程度与线性预测中使用以前的样本数有关,样本数越多,预测器越复杂对预测误差的量化是造成图像质量下降的主要原因,表现为:斜率过载:图像轮廓变模糊颗粒噪声:图像在平坦区出现颗粒状的细斑边缘忙乱:在变化不快的边缘出现闪烁不定现象伪轮廓:在图像亮度值缓慢变化区域出现伪轮廓2.2.3预测编码差分脉冲调制预测——应用示例例如,取一序列为10,12,14,16,18,20。(例如亮度变化缓慢的图像的亮度值)由于其中所有数字都不相同,但是是一个等差的数列,所以行程编码和哈夫曼对其不产生压缩效果。先用DPCM方法,其预测器的预测参数为=Xn-1,则其误差值得到一个新的序列10,2,2,2,2,2。然后再使用行程编码方法对这个新序列进行压缩,压缩结果为10(5,2)。^Xn2.2.3预测编码自适应差分脉冲调制预测输入数据不是平稳的随机过程自适应预测定期重新调整预测器的预测参数,使预测器随输入数据的变化而变化自适应改变量化器的量化阶数,用小量化阶量化小差值,大量化阶量化大差值分为线性自适应预测与非线性自适应预测两种2.2.4变换编码原理为达到目的,可以通过不同的路径——殊途同归例如:数学计算机中,经常利用某些数学函数略加转换可以找出一条计算的捷径。 乘法:1000000X100000=1 运算时,数据很大,可以变成对数进行加法1000000X100000=1取对数lg106取对数lg105取指数10116+5=11算法变换2.2.4变换编码基本概念先对信号进行某种函数变换,从一种域(空间)变换到另一种域(空间),再对变换后的信号进行编码处理以声音图像为例,由于声音图像大部分信号都是低频信号,在频域中信号较集中,因此将时域信号变换到频域,再对其进行采样、编码2.2.4变换编码变换去除相关性示例设有两个相邻的数据样本x1和x2,每个样本采用3比特编码,则各有8个幅度等级,两个样本的联合事件共有64种可能用右图二维平面坐标表示考虑到相邻样值的相关性,x1和x2同时出现相近幅度的可能性最大。因此,合成可能性往往落在阴影区内0X1X2X1’X2’2.2.4变换编码变换去除相关性示例如果对数据进行正交变换,从几何上相当于坐标系旋转45o,变成x1’、x2’坐标系,则在新坐标系下,任凭x1’在较大的范围变化,而x2’始终只在相当小的范围内变化,因此通过这样的变化就能得到一组去除大部分,甚至是全部统计相关性的另一种输出样本2.2.4变换编码变换编码过程变换量化译码器逆变换编码器发送端接收端GAA’G’U’输入U输出U为变换矩阵,A,A’:变换系数U’:U的逆变换矩阵2.2.4变换编码KL变换最佳变换编码方法变换矩阵不是恒定的,需要临时计算离散余弦变换(DCT,DiscreteCosineTransform)准最佳变换,利用三角函数进行的一种变换DCT的基向量由余弦函数构成一维DCT变换和二维DCT变换,变换后输出DCT变换系数,将幅度变成频率广泛应用于图像与视频压缩中,如JPG,MPEG资料:行程编码行程编码又称为游程编码、运行长度编码相同值的连续串用该值和串长代替,有多种表示方法如:MDDG用M!10DG或M(10,D)G表示再如:0用0453表示,第1位0表示该串首码是0,第2位4表示有4个0,第3位5表示5个1,第4位3表示3个0。因为二进制非0即1行程编码演示资料:LZ77压缩编码来源1977年由两个以色列人Lempel,Ziv提出,1984年由Welch改进,成为LZW算法LZ77技术特点先进的无损数据压缩技术,压缩和解压缩速度快稳定,有效,快速应用应用在几乎日常使用的所有通用压缩工具中,ARJ,PKZip,WinZip,RAR,ACE以及GIF图像文件等某些硬件如网络设备中内置的压缩算法资料:LZ77压缩编码基本原理将已经编码过的信息作为字典,如果要编码的字符串曾经出现过,就输出该字符串的出现位置及长度,否则输出新的字符串。解压缩时,自动建立与压缩时一样的串表简单概括:就是字典压缩,串表即字典资料:LZ77压缩编码基本原理图示输入:吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮未压缩:BAABABBBAABBBBAAAABABBBAABBBBAAB,AABA12解析字符串BAABABBBAABBBBAABBB1解析字符串资料:LZ77压缩编码压缩过程示例ABABBBAABBBBAAB,A,2BABBAAB123解析字符串BAABBBBAAB,A,2B,3B,1ABABAABABBBA12345解析字符串ABBBAABBBBAAB,A,2B,3BABBBAABABB1234解析字符串资料:LZ77压缩编码压缩过程示例压缩后:B,A,2B,3B,1A,4B,5AABBBBAAB,A,2B,3B,1A,4BABBBBAABABBBAABBB123456解析字符串BAAB,A,2B,3B,1A,4B,5ABAABAABABBBAABBBBAA1234567解析字符串资料:LZ77压缩编码压缩过程示例A,2B,3B,1A,4B,5ABAABA12解析字符串B,A,2B,3B,1A,4B,5ABBB1解析字符串已压缩:B,A,2B,3B,1A,4B,5A资料:LZ77压缩编码解压缩过程示例2B,3B,1A,4B,5ABAAB2BBAAB123解析字符串1A,4B,5ABAABABBBA1ABAABABBBA12345解析字符串3B,1A,4B,5ABAABABB3BBAABABB1234解析字符串资料:LZ77压缩编码解压缩过程示例4B,5ABAABABBBAABBB4BBAABABBBAABBB123456解析字符串解压缩后:BAABABBBAABBBBAA5ABAABABBBAABBBBAA5ABAABABBBAABBBBAA1234567解析字符串资料:LZ77压缩编码解压缩过程示例2.3多媒体数据压缩常用压缩标准2.3.1音频压缩标准2.3.2静止图像压缩编码标准JPEG2.3.3数字声像压缩标准MPEG-12.3.4通用视频压缩标准MPEG-22.3.5低比特率音视频压缩标准MPEG-42.3.1音频压缩标准音频压缩方法熵编码波形编码:在信号采样和量化过程中考虑人的特性,适应人的应用要求,PCM、DPCM、ADPCM等参数编码:将音频信号以某种模型表示,压缩倍数很高,计算量大,保真度不高,适合对语音信号编码混合编码:吸取波形和参数编码的优点,综合编码2.3.1音频压缩标准音频压缩方法无损压缩有损压缩哈夫曼编码算术编码游程编码波形编码参数编码混合编码(熵编码)(熵压缩)PCMµ(A)DPCMADPCMSB-ADPCMCELPCVSELPPRE-LTPMPEGAC-3用于公共网ISDN配音用于保密电话用于移动通信

用于语音邮件

用于CD

用于音响用于ISDN

LPC2.3.1音频压缩标准评价计算MOS(MeanObjectionScore)值,请40-60位有代表性人听同一段语音,给出评分。分值范围在1-5分,4分以上为可收费得分2.3.1音频压缩标准电话质量的音频压缩技术标准G.711标准:1972年,非线性量化PCM编码,64kbpsG.721标准:1984年,ADPCM,32kbpsG.728标准:1992年,基于短时延码本激励线性预测编码LD-CELP,16kbpsG.729标准:基于共轭结构代数码本激励线性预测编码CS-ACELP,8kbps2.3.1音频压缩标准电话质量的音频压缩技术标准GSM标准:1992年,德国,长时延线性预测规则码本激励RPE-LTP编码,13kbpsCTIA标准:1989年,美国,矢量和激励线性预测技术VSELP,8kbps美国国家安全局1982年采用LPC算法,2.4kbps美国国家安全局1989年采用CELPC算法,4.8kbps2.3.1音频压缩标准广播质量的音频压缩技术标准G.722标准:1988年,64kbps,从采样频率为16kHZ,量化为14bit的224kbps中压缩而来,可以在窄带ISDN中传送调幅广播质量的音频信号.高保真度立体声音频压缩技术标准MPEG标准:MP3AC-3标准5.1声道(6声道):左、中、右、左环绕、右环绕、低频增强(频率在20~120HZ,0.1声道)采样频率48kHZ,量化16~22bit2.3.2静止图像压缩编码标准JPEGISO联合图像专家组为单帧彩色图像的压缩制订,可以由用户自行设定压缩比例2.3.2静止图像压缩编码标准JPEG编码方法与彩色空间无关,因此RGB-YUV,YUV-RGB的变换不包含在JPEG算法中JPEG算法处理彩色图像是单独的彩色分量图像,可压缩不同彩色空间的数据采用混合编码方法2.3.2静止图像压缩编码标准JPEG两种基本算法采用DPCM的无失真压缩算法采用DCT加行程编码的有失真压缩算法基本系统:是一种基于DCT的简化编码方法,该系统保证必须的功能,可满足大多数应用的要求。所有JPEG编解码器都必须支持基本系统。输入图像精度为8bits/像素/色,支持顺序模式,采用Huffman编码扩展系统:是为了满足更为广阔的应用要求而设置的。增强了数据压缩能力,输入图像精度可达12bits/像素/色,支持渐进模式,可采用哈夫曼编码和算术编码2.3.2静止图像压缩编码标准JPEG四种编码模式DCT顺序模式:其基本算法是将图像分成8×8的块,然后进行DCT变换、量化和熵编码(哈夫曼编码)。这种模式每个图像分量的编码一次扫描完成的DCT渐进模式:所采用的算法与DCT顺序模式相类似,不同的是需要对图像进行多次扫描,先传送部分DCT系数信息(如低频带的系数或所有系数的近似值),使接收端尽快获得一个“初略”的图像,然后再将剩余频带的系数渐次传送,最终形成清晰的图像顺序模式渐进模式2.3.2静止图像压缩编码标准JPEG四种编码模式DCT顺序和DCT渐进模式示意图2.3.2静止图像压缩编码标准JPEG四种编码模式无失真编码模式:采用一维或二维的空间域DPCM和熵编码。由于输入图像已经是数字化的,经过空间域的DPCM之后,预测误差值也是一个离散量,因此可以不再量化而实现无失真编码分层编码模式这是对一幅原始图像的空间分辨率,分成多个分辨率进行“锥形”的编码方法,水平(垂直)方向分辨率的下降以2的倍数因子改变,先对分辨率最低的一层图像进行编码,然后将经过内插的该层图像作为下一层图像的预测值,再对预测误差进行编码,以次类推,直到底层2.3.2静止图像压缩编码标准JPEGJPEG标准的无失真预测编码压缩过程原理无失真编码器原图象数据预测器熵编码器压缩图象数据码表说明2.3.2静止图像压缩编码标准JPEGJPEG标准的无失真预测编码无失真编码器采用三邻域采样值法,由a,b,c预测x,得x’对x-x’的差进行无失真的编码(可采用哈夫曼编码)压缩比低:2:1cbax序号X’值序号X’值0非预测4a+b+c1a5A+((b-c)/2)2b6B+((a-c)/2)3c7(a+b)/2三邻域预测公式2.3.2静止图像压缩编码标准JPEGJPEG标准的基于DCT的有失真压缩编码编码过程DCT

正变换量化器熵编码器码表说明码表说明编码器8*8块源图像

数据基于DCT编码的简化框图压缩后的图像数据2.3.2静止图像压缩编码标准JPEGJPEG标准的基于DCT的有失真压缩编码编码过程:基于DCT的编码过程为:先进行DCT正变换,然后再对DCT系数进行量化,并对量化后的直流(DC)系数和交流(AC)系数分别进行差分编码和行程编码,最后再进行熵编码2.3.2静止图像压缩编码标准JPEGJPEG标准的基于DCT的有失真压缩编码解码过程DCT逆变换量化器码表说明码表说明恢复的图像数据解码器熵解码器压缩的图像数据基于DCT解码器的简明框图8*8块2.3.2静止图像压缩编码标准JPEGJPEG标准的基于DCT的有失真压缩编码说明:以上给出的是单个彩色分量的编码、解码过程,对于彩色图像,可将多个分量分别处理数据单元无损模式:一个像素为一个数据单元有损模式:采用8×8像素块作为一个数据单元C1C2CN**********XiYi采样行右左顶底采样点N≤2552.3.2静止图像压缩编码标准JPEGJPEG标准的基于DCT的有失真压缩编码数据单元的处理逐行排序:每个分量数据单元的处理从左向右、从上向下,一个分量接一个分量,对于图像的解码需要全部完成才能正确显示图像。交叉排序:不同分量的交叉数据单元组合成最小编码单元MCU,编码时可以按MCU进行,解码时可以一个MCU一个MCU地显示图像,甚至允许对图像部分解码。****************************顶底右左2.3.2静止图像压缩编码标准JPEGJPEG标准的基于DCT的有失真压缩编码编码步骤——切割分块JPEG采用8X8像素的二维DCT变换,在编码器输入端把原始图像顺序分割成8X8的子块,分割可采用逐行排序或交叉排序方法。如果原始图像的采样精度为P位,是无符号整数,则将[0,2P-1]转换为[-2P-1,2P-1-1]的有符号整数,作为DCT的输入解码时,经DCT逆变换后得到8X8的图像数据块,在将[-2P-1,2P-1-1]变回[0,2P-1],获得重构的图像2.3.2静止图像压缩编码标准JPEGJPEG标准的基于DCT的有失真压缩编码编码步骤——DCT变换对原始图像的所有数据块进行DCT变换,每个数据块经过DCT变换后,输出64个DCT变换系数,形成一个8X8矩阵,其中包含一个代表直流分量的DC系数(矩阵的左上角,代表此块的彩色分量的平均值)和63个代表交流分量的AC系数(代表该块的彩色分量的起伏变化的剧烈程度)2.3.2静止图像压缩编码标准JPEGJPEG标准的基于DCT的有失真压缩编码编码步骤——DCT变换二维8X8DCT正变换(FDCT)和逆变换(IDCT)公式2.3.2静止图像压缩编码标准JPEGJPEG标准的基于DCT的有失真压缩编码编码步骤——DCT变换将8×8像素块映射到频域上,即选用64个因子代表各个不同的水平和垂直亮度,将其描述为DCT基本函数的组合水平频率的增加垂直频率的增加2.3.2静止图像压缩编码标准JPEGJPEG标准的基于DCT的有失真压缩编码编码步骤——DCT变换二维DCT系数的频率分布与块特征低中高垂直水平对角线DCT程序演示2.3.2静止图像压缩编码标准JPEGJPEG标准的基于DCT的有失真压缩编码编码步骤——DCT变换DCT逆变换通过这64个DCT变换系数重建这8X8图像,由于计算过程中的精度损失和量化,不可能完全恢复原始图像——有损压缩2.3.2静止图像压缩编码标准JPEGJPEG标准的基于DCT的有失真压缩编码编码步骤——量化为达到压缩数据的目的,对DCT变换系数F(u,v)进行量化处理。量化是造成图像质量下降的最主要原因。利用人的视觉特性,经过大量实验,获得了量化表Q(u,v)。量化公式为

FQ(u,v)=Integer(Round(F(u,v)/Q(u,v))

解压缩时反量化公式为:FQ’(u,v)=FQ(u,v)*Q(u,v)2.3.2静止图像压缩编码标准JPEGJPEG标准的基于DCT的有失真压缩编码编码步骤——量化量化特性0.5123-0.5-1-2-1-2123F(U,V)/Q(U,V)FQ(U,V)2.3.2静止图像压缩编码标准JPEGJPEG标准的基于DCT的有失真压缩编码编码步骤——量化利用人的视觉特性,经过大量实验,获得了量化表量化表。根据不同的量化表,可以做出不同压缩比的JPEG文件。用户也可以自己定义量化表161110162440516112121419265860551413162440576956141722295187806218223756681091037724355564811041139249647887103121120101729295981121001039917182447999999991821266699999999242656999999999947669999999999999999999999999999999999999999999999999999999999999999999999999999亮度量化表色度量化表2.3.2静止图像压缩编码标准JPEGJPEG标准的基于DCT的有失真压缩编码编码步骤——DCT系数的处理DC系数:DCT变换系数经过量化后,直流分量DC数值比大,而且相邻的两个8X8块的DC系数有很强的相关性,变化不大,因此采用DPCM对相邻两块的DC的差值Delta进行编码Delta=DCi-DCi-12.3.2静止图像压缩编码标准JPEGJPEG标准的基于DCT的有失真压缩编码编码步骤——DCT系数的处理AC系数:DCT变换系数经过量化之后,有大量AC会变成0,可采用游程编码进一步进行数据压缩。为增加编码效率,采用“Z”字形的次序来进行游程编码,可以增加连续0的个数。2.3.2静止图像压缩编码标准JPEGJPEG标准的基于DCT的有失真压缩编码编码步骤——哈夫曼编码DC和AC系数进行DPCM和行程编码后,对其编码后的数据再次进行哈夫曼编码,以提高压缩效率编码步骤——组成位数据流这是JPEG编码的最后一个步骤,即把各种标记代码和图像编码后的图像数据组成一帧一帧的数据,以便于传输、存储和译码器译码有失真压缩过程示例示例源图像样本DCT正变换系数量化后的系数量化表2.3.2静止图像压缩编码标准JPEG量化后的系数量化表逆量化后的系数重构的图像样本2.3.2静止图像压缩编码标准JPEG有失真压缩过程示例2.3.3数字声像压缩标准MPEG-1数字声像的压缩率与质量与很多因素有关帧速度注:连续3页的视频摘录自《数字媒体-技术·应用·设计》2.3.3数字声像压缩标准MPEG-1数字声像的压缩率与质量与很多因素有关不但原始数据源有关,还与颜色深度有关2.3.3数字声像压缩标准MPEG-1数字声像的压缩率与质量与很多因素有关与压缩算法和压缩倍数等有关2.3.3数字声像压缩标准MPEG-1MPEG(MotionPictureExpertsGroup)针对活动视频的压缩标准系列MPEG-1:适用于传输速率为1.5Mbps的数字电视标准,91年提出草案,93年8月公布MPEG-2:适用于传输速率为10Mbps的数字电视标准,93年提出草案,94年11月公布MPEG-4:1999年12月公布的多媒体应用标准2.3.3数字声像压缩标准MPEG-1MPEG(MotionPictureExpertsGroup)MPEG-7:多媒体内容描述接口标准,一套描述符标准,描述媒体及其关系,方便信息检索,98年提出,2001年完成并公布。MPEG-21:正式名称是MultimediaFramework(多媒体框架),是为大范围的网络上实现透明的传输和对多媒体资源的充分利用而制定的标准,确定是否需要将不同的协议、标准、技术等有机融合在一起2.3.3数字声像压缩标准MPEG-1MPEG-1简介标准名称:用于数字存储媒体运动图像及其伴音速率为1.5MBps的压缩编码,简称MPEG-11991年制订,最初为CD-ROM制订标准的组成:MPEG专家组下设3个委员:MPEG系统委员会、MPEG视频委员会和MPEG音频委员会。这三个委员会分别制定了三个标准,即MPEG系统标准、MPEG视频标准、MPEG音频标准2.3.3数字声像压缩标准MPEG-1MPEG-1简介MPEG系统标准:该标准定义了多道压缩音频、视频码流的的同步和合成MPEG视频标准:该标准定义了视频数据的编码和重建图像所需的解码过程MPEG音频标准:该标准定义了音频数据的编码和解码标准支持特性:随机存取、快速搜索、逆向播放、编辑功能2.3.3数字声像压缩标准MPEG-1MPEG-1标准的参数352*240每秒30帧播放352*288每秒25帧播放2.3.3数字声像压缩标准MPEG-1MPEG-1标准的视频数据码流MPEG-1规定了视频压缩数据码流的语法结构,这个语法结构将视频压缩数据码流分为6层。运动图像序列(VideoSequence)图像组图像组(GroupOfPictures,GOP):由一系列图像帧组成,这些图像可以从运动序列中随机抽取。2.3.3数字声像压缩标准MPEG-1MPEG-1标准的视频数据码流图像图像(Picture):一个图像(静止图像,一帧)由三个部分组成一个亮度信号Y两个色差信号UV图像组Y:U:V8:2:22.3.3数字声像压缩标准MPEG-1MPEG-1标准的视频数据码流图像图像条图像条(Slice):图像帧内的水平条,由附加数据及一个或多个宏块组成。每个图像条16bit高,宽与图像帧宽度相同2.3.3数字声像压缩标准MPEG-1MPEG-1标准的视频数据码流图像的切片宏块:MPEG的基本编码单元,即进行运动补偿的单元。由16X16像素的亮度(Y)信息和两个8X8像素的色度(U,V)信息组成。宏块由附加数据及四个亮度(Y)信号块和两个色差信号(U,V各一块)块组成。宏块每块:8*8像素,可以是亮度Y或色度U,V一个宏块由附加数据及四个亮度(Y)信号块和两个色差信号(U,V各一块)块组成。Y:U:V8:2:22.3.3数字声像压缩标准MPEG-1MPEG-1标准的视频数据码流宏块(1616)块(88)图像序列头图像组图像组……图像组图像组序列层图像组头图像(I、P、B)图像(I、P、B)……图像头图像条……图像条图像条头宏块……MB宏块MB18*828*858*868*838*848*88*8YCrCb块层宏块层图像条层图像层图像组层MPEG视频码流分层结构图2.3.3数字声像压缩标准MPEG-12.3.3数字声像压缩标准MPEG-1MPEG-1算法基本思想在设计动态图像的编码算法时,主要矛盾是:一方面仅仅靠帧内编码方法是无法保证在有良好画面质量的前提下的高压缩比,另一方面用单一静止的帧内编码方法又能最好地满足随机存取的要求,为了同时满足高压缩比和随机存取的要求,MPEG推荐的标准化算法,必须使用帧间和帧内编码技术2.3.3数字声像压缩标准MPEG-1MPEG-1算法基本思想MPEG-1标准推荐的算法是以两个基本技术为基础的,一个是基于16×16子块的运动补偿技术,用以减少帧序列的时域冗余度;另一个是基于DCT的压缩技术,用以减少空域冗余度,在MPEG-1中,不仅帧内使用DCT,而且对帧间预测也使用DCT,以进一步减少数据量2.3.3数字声像压缩标准MPEG-1MPEG-1算法基本思想为了实现随机存取,最好要用帧内编码。为了把编码电视图像的位速率限制在1.2Mbps,既要有较高的压缩率,又要获得高质量的图像,就要求在帧内和帧间编码之间进行折中。由于在时间上进行正负方向的帧间预测编码可以有更高的图像压缩比,因此,MPEG将图像帧分成三类I-图像帧(Intra-codedpicture):内帧P-图像帧(Predictive-codedpicture):预测帧B-图像帧(Bidirectionallypredictive-codedpicture):双向帧2.3.3数字声像压缩标准MPEG-1MPEG-1图像帧I-图像帧:帧内编码图像帧,内帧静态图像,只利用自身信息进行编码,采用JPEG方式可作为压缩数据流中的随机存取点——快进、快退等2.3.3数字声像压缩标准MPEG-1MPEG-1图像帧P-图像帧:预测编码图像帧,预测帧利用最近的前一个I-帧或P-帧作为参考采用带运动补偿技术的帧间预测进行编码—前向预测通常作为后续的P-帧或B-帧的预测参考帧B-图像帧:双向预测编码图像帧,双向帧既利用过去的I-帧或P-帧(前向),也利用后来的I-帧或P-帧(后向)作为参考进行带运动补偿技术的双向预测编码从不作为预测的参考帧2.3.3数字声像压缩标准MPEG-1MPEG-1图像帧三种图像帧的典型排列方式前向预测双向预测1I2B3B4P5B6B7P8I2.3.3数字声像压缩标准MPEG-1MPEG-1图像帧三种图像帧的典型排列方式IBBPBBPBBPBBPBBIBBPBBPBBPBBPBB116301秒每15帧(0.5秒)有一个I-帧参照帧间有两个B-帧2.3.3数字声像压缩标准MPEG-1MPEG-1图像帧图像组一般由一个I-帧,几个P-帧和若干个B-帧组成。MPEG-1的算法允许编码器选择I-帧的频率和位置。一般每0.5秒以内必须传送一次I-帧PAL制式:图象组12帧NTSC制式:图象组15帧从I-帧(或P-帧)得到P-帧,P-帧压缩比60:1从I-帧或P-帧得到B-帧,B-帧压缩可达200:1MPEG-1算法不对称,压缩比解压缩复杂,慢编码器需要选择位于I-帧和P-帧间B-帧的数目2.3.3数字声像压缩标准MPEG-1帧内编码技术针对I-图像帧,采用DCT方法,与JPEG压缩方式相似,只是量化器稍有差别图像压缩过程:以NTSC制式为例彩色空间转换:将RGB信号转换为亮度Y和色差C信号。每一像素的亮度都传送,而色差信号分为U=Y-R,V=Y-B传送,每传送4个亮度信号才传送一个色差信号,称为YUV4:1:1格式。经过YUV4:1:1格式采样后,信息量减少了50%例:RGB格式:各8bit——24bit/像素YUV4:1:1格式:Y8bit,U,V各2bit——12bit/像素2.3.3数字声像压缩标准MPEG-1帧内编码技术采用与JPEG相似的压缩编码方式Zig-zag:Z字型排列2.3.3数字声像压缩标准MPEG-1帧间编码技术原理:NTSC每秒30帧,每帧的主体只有少许差异,背景差异更小,即相隔1/30秒之间的两帧画面中,景物主体运动在画面上的位移量或整幅画面切换的概率极小,因此可以通过运动补偿技术进行压缩2.3.3数字声像压缩标准MPEG-1帧间编码技术过程运动补偿:对数据码流,将一幅画面的某一宏块与参考画面中的邻近范围内的宏块进行数值对比,寻找与该快最接近的、误差最小的块,只需记录该块在两个画面中的位移量(运动向量)以及差值部分根据运动向量坐标的变化和块的差值,可算出该块是否移动以及形状是否改变,在传送时可以省略背景和主体详情,只传送代表运动向量和块差值的少许数据,再根据这少许数据还原整个画面2.3.3数字声像压缩标准MPEG-1帧间编码技术运动补偿技术主要用于消除P-帧和B-帧在时间上的冗余,提高压缩效率,在宏块一级进行2.3.3数字声像压缩标准MPEG-1帧间编码技术基于宏块的运动补偿技术就是在其参照帧中找出符合一定条件的块作为当前块的最佳匹配块对于F宏块和B宏块,只找一个最佳匹配块对于A宏块,其前后参照帧各有一个最佳匹配块运动向量采用预测器对预测点坐标进行预测,用实际坐标减去预测坐标,得到预测误差,对预测误差进行压缩编码2.3.3数字声像压缩标准MPEG-1帧间编码技术最佳匹配块及运动向量示意图时刻1时刻2最佳匹配块运动向量2.3.3数字声像压缩标准MPEG-1帧间编码技术最佳匹配块及运动向量示意图运动向量2.3.3数字声像压缩标准MPEG-1帧间编码技术——前向预测最佳匹配运动向量RLE:行程编码2.3.3数字声像压缩标准MPEG-1帧间编码技术——双向预测RLE:行程编码运动向量2.3.3数字声像压缩标准MPEG-1三种图像帧比较压缩比:I-帧最少,P-帧次之,B-帧最大一般I-帧之后相隔两帧设置一个P-帧,之间为B-帧主体变化越大时,两个I-帧相距的帧数越小,否则可以大一些,但是不能太大画面的数据量I-帧:19000BP-帧:10000BB-帧:2088-2900B(平均2875B)2.3.3数字声像压缩标准MPEG-1编码过程由MPEG编码器完成视频图像输入时,其中场景相同的几幅画面组成图象组一图像组的第一帧输入到编码器时,对其进行处理彩色空间转换:RGB-YUV分成图像条,高16bit将图像条分成16bit宽,构成16X16宏块将宏块分成4个8X8的块,进行D

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论