第4章信源编码原理new_第1页
第4章信源编码原理new_第2页
第4章信源编码原理new_第3页
第4章信源编码原理new_第4页
第4章信源编码原理new_第5页
已阅读5页,还剩137页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数字电视原理第4章信源编码原理数字音频编码的基本原理4.1数字视频编码概述4.2预测编码4.4变换编码4.5熵编码4.3第4章信源编码原理4.1数字音频编码的基本原理4.1.1数字音频压缩的必要性和可能性4.1.2人耳的听觉感知特性4.1.3音频感知编码原理4.1.1数字音频压缩的必要性和可能性

必要性----音频信号数字化后,可以避免模拟信号容易受噪声和干扰的影响,可以扩大音频的动态范围,可以利用计算机进行数据处理,可以不失真地远距离传输,可以与图像、视频等其他媒体信息进行多路复用,以实现多媒体化与网络化,所以,音频信号的数字化是一种必不可少的技术手段。4.1.1数字音频压缩的必要性和可能性

----可能性----时间域冗余样值幅度分布的非均匀性样值间的相关性信号周期之间的相关性长时自相关静音4.1.1数字音频压缩的必要性和可能性频率域冗余长时功率谱密度的非均匀性

----功率谱的高频成分能量较低。话音特有的短时功率谱密度能量最大的前三个共振峰频率----决定了不同的语音特征;频率越高,功率谱下降;整个功率谱是由基因频率+高次谐波组成。4.1.1数字音频压缩的必要性和可能性听觉冗余因为人耳对信号幅度、频率的分辨能力是有限的,所以凡是人耳感觉不到的成分,即对人耳辨别声音的强度、音调、方位没有贡献的成分,称为与听觉无关的“不相关”部分,都可视为是冗余的,可以将它们压缩掉。4.1.1数字音频压缩的必要性和可能性

数字音频压缩编码的目的,是在保证重构声音质量一定的前提下,以尽量少的比特数来表征音频信息,或者是在给定的数码率下,使得解码恢复出的重构声音的质量尽可能的高。4.1数字音频编码的基本原理4.1.1数字音频压缩的必要性和可能性4.1.2人耳的听觉感知特性4.1.3音频感知编码原理4.1.2人耳的听觉感知特性可听域----

人耳对不同强度、不同频率声音的听觉范围。在人耳的可听域范围内,声音听觉心理的主观感受主要有响度、音调、音色等特征和掩蔽效应、高频定位等特性。声音的“三要素”----响度、音调、音色分别与声音的振幅、频率、频谱分布特性(包络形状)相对应,称为声音的“三要素”。人耳的掩蔽效应:一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。

掩蔽效应----是心理声学的基础,是感知音频编码的理论依据。4.1.2人耳的听觉感知特性4.1.2人耳的听觉感知特性响度声压

由声波引起的交变压强称为声压,一般用P表示,单位是帕(Pa)。声压的大小反映了声音振动的强弱,同时也决定了声波的幅度大小。在一定时间内,瞬时声压对时间取均方根值后称为有效声压。4.1.2人耳的听觉感知特性声压级

用声压的相对大小(称声压级或声强)来表示声压的强弱。声压级用符号SPL表示,单位是分贝(dB):

式中,P为声压有效值;Pref为参考声压,一般取Pa,这个数值是人耳所能听到的1kHz声音的最低声压,低于这一声压,人耳就无法觉察出声波的存在了。4.1.2人耳的听觉感知特性响度

人耳对声音强弱的主观感觉称为响度。响度与声波的振幅并不完全一致。响度不仅取决于振幅的大小,还取决于频率的高低。响度用符号N表示,单位是宋(sone)。国际上规定,频率为1kHz的纯音在声压级为40dB时的响度为1宋(sone)。4.1.2人耳的听觉感知特性响度级人耳对声音强弱的主观感觉还可以用响度级来表示。响度级的单位为方(phon)。规定1kHz纯音声压级的分贝数定义为响度级的数值。响度/sone1248163264128256声压级/dB405060708090100110120响度级/phon4050607080901001101204.1.2人耳的听觉感知特性等响度曲线

4.1.2人耳的听觉感知特性听阈与痛阈

当声音减弱到人耳刚刚可以听见时,此时的声音强度称为最小可听阈值,简称为“听阈”。一般以1kHz纯音为准进行测量,人耳刚能听到的声压级为0dB(通常大于0.3dB即有感受)。

当声音增强到使人耳感到疼痛时,这个听觉阈值称为“痛阈”。仍以1kHz纯音为准来进行测量,使人耳感到疼痛时的声压级约达到140dB左右。4.1.2人耳的听觉感知特性音调

音调也称音高,表示人耳对声音调子高低的主观感受。音调单位是“美(Mel)”。频率为1kHz、声压级为40dB的纯音所产生的音调就定义为1Mel。音调大体上与频率的对数成正比。4.1.2人耳的听觉感知特性音色

按声音的频率成分组成,可分为:纯音:振幅和周期均为常数的声音复音:不同频率和不同振幅的声波组合基音:复音中的最低频率称为复音的基音,是决定声音音调的基本因素,它通常是常数泛音:复音中的其他频率称为泛音(谐音)音色是人耳对各种频率、各种强度的声波的综合反应。主要由声音的频谱结构决定的。4.1.2人耳的听觉感知特性人耳的听觉掩蔽效应

一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的听觉“掩蔽效应”。

被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被人耳听到的纯音的最小值称为绝对听阈。

4.1.2人耳的听觉感知特性人耳的听觉掩蔽效应

在掩蔽情况下,提高被掩蔽弱音的强度,使人耳能够听见时的听阈称为掩蔽听阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为掩蔽量(或称阈移)。

4.1.2人耳的听觉感知特性掩蔽效应纯音间的掩蔽对处于中等强度时的纯音最有效的掩蔽是出现在它的频率附近。低频的纯音可以有效地掩蔽高频的纯音,而反过来则作用很小。4.1.2人耳的听觉感知特性掩蔽效应噪音对纯音的掩蔽掩蔽音为宽带噪音,被掩蔽音为纯音,则它产生的掩蔽门限在低频段一般高于噪音功率谱密度17dB,且较平坦;当频率超过500Hz时,大约每十倍频程增大10dB。若掩蔽音为窄带噪音,被掩蔽音为纯音,其中位于被掩蔽音附近的由纯音分量组成的窄带噪音即临界频带的掩蔽作用最明显。4.1.2人耳的听觉感知特性掩蔽类型频率域掩蔽所谓频率域掩蔽是指掩蔽音与被掩蔽音同时作用时发生掩蔽效应,又称同时掩蔽。这时,掩蔽音在掩蔽效应发生期间一直起作用,是一种较强的掩蔽效应。

4.1.2人耳的听觉感知特性掩蔽类型频率域掩蔽4.1.2人耳的听觉感知特性掩蔽类型时间域掩蔽在一个强音信号之前或之后的弱音信号,也会被掩蔽掉,这种掩蔽效应称为时间域掩蔽,也称异时掩蔽。

时间域掩蔽又分为前掩蔽和后掩蔽。

4.1数字音频编码的基本原理4.1.1数字音频压缩的必要性和可能性4.1.2人耳的听觉感知特性4.1.3音频感知编码原理4.1.3音频感知编码原理感知编码是利用人耳听觉的心理声学特性(频谱掩蔽特性和时间掩蔽特性)、人耳对信号幅度、频率、时间的有限分辨能力,凡是人耳感觉不到的成分不编码,不传送,即凡是对人耳辨别声音信号的强度、音调、方位有贡献的部分(称为不相关部分或无关部分)都不编码和传送。对感觉到的部分进行编码时,允许有较大的量化失真、并使其处于听阈以下,人耳仍然感觉不到。4.1.3音频感知编码原理感知编码是利用人耳听觉的心理声学特性,将凡是人耳感觉不到的成分不编码不传送的一种编码技术.简单的说感知编码是以人类听觉系统的心理声学原理为基础,只记录那些能被人的听觉所感知的声音信号,从而达到减少数据量而又不降低音质的目的。4.1.3音频感知编码原理如何精确地计算出掩蔽阈值(即获得“心理声学模型”)如何从音频信号中仅仅提取可闻信息而加以处理,将人耳不能感知的声音成分去掉,只保留人耳能感知的声音成分,在量化时也不一味追求最小的量化噪声,只要量化噪声不被人耳感知即可。4.1.3音频感知编码原理如何精确地计算出掩蔽阈值(即获得“心理声学模型”)如何从音频信号中仅仅提取可闻信息而加以处理,将人耳不能感知的声音成分去掉,只保留人耳能感知的声音成分,在量化时也不一味追求最小的量化噪声,只要量化噪声不被人耳感知即可。4.1.3音频感知编码原理感知编码是利用人耳听觉的心理声学特性(频谱掩蔽特性和时间掩蔽特性)、人耳对信号幅度、频率、时间的有限分辨能力,凡是人耳感觉不到的成分不编码,不传送,即凡是对人耳辨别声音信号的强度、音调、方位有贡献的部分(称为不相关部分或无关部分)都不编码和传送。对感觉到的部分进行编码时,允许有较大的量化失真、并使其处于听阈以下,人耳仍然感觉不到。简单的说感知编码是建立在人类听觉系统的心理声学原理为基础,只记录那些能被人的听觉所感知的声音信号,从而达到减少数据量而又不降低音质的目的。

在变换编码中,利用正交变换,把时间域音频信号变换到另一个域(如频率域),由于去相关的结果,变换域系数的能量将集中在一个较小的范围,所以对变换系数进行量化编码,就可以达到压缩数码率的目的。而在接收端,用逆变换便可获得重构的音频信号。使变换域系数能够进行自适应比特分配的变换编码,称为自适应变换编码(ATC)。4.1.3音频感知编码原理在音频编码中,正交变换主要使用离散余弦变换(DCT)和改进的离散余弦变换(MDCT)

在DCT之前应先进行分组----加窗处理经DCT之后,频率域能量主要集中在低中频的变换系数上。4.1.3音频感知编码原理?1:变换长度(即窗长度)的选择

一方面,变换长度越长,编码压缩比越高。但对于单一字组中幅度急剧变化的信号(如鼓声),在上升部分若采用长的分组,会使得时间域分辨率下降,导致严重的所谓“前反射”。消除“前反射”的办法是用短的分组,提高时间域的分辨率,使之限制在一个较短的时间内。自适应谱感知熵编码(AdaptiveSpectralPerceptualEntropyCoding,ASPEC)采用动态长度的重叠窗函数。4.1.3音频感知编码原理?2:字组失真

字组编码的原则是,无论字组边界相邻的采样在时间轴上是否连续,都应按属于不同字组而进行不同精度的量化,因此人们会容易感觉到字组边界附近量化噪声的不连续性,这就是加窗变换造成的边界效应。为了消除这种边界效应,往往采用具有部分重叠的变换窗,而这样又会带来时间域混叠,降低了编码性能。4.1.3音频感知编码原理子带编码

子带编码(Sub-BandCoding,SBC)不对信号直接进行变换,而是首先用一组带通滤波器将输入信号分成若干个在不同频段上的子带信号,然后将这些子带信号经过频率搬移转变成基带信号,再对它们在奈奎斯特速率上分别重新采样。采样后的信号经过量化编码,并合并成一个总的码流传送给接收端。在接收端,首先把码流分成与原来的各子带信号相对应的子带码流,然后解码、将频谱搬移至原来的位置,最后经带通滤波、相加,得到重建的信号。4.1.3音频感知编码原理子带编码的优点:可根据每个子带信号在感知上的重要性,即利用人对声音信号的感知模型(心理声学模型),对每个子带内的采样值分配不同的比特数。由于分割为子带后,减少了各子带内信号能量分布不均匀的程度,减少了动态范围,从而可以按照每个子带内信号能量来分配量化比特数,对每个子带信号分别进行自适应控制。通过频带分割,各个子带的采样频率可以成倍下降。4.1.3音频感知编码原理

1976年子带编码技术首次被美国贝尔实验室的R.E.Crochiere等人应用于话音编码。

掩蔽型自适应通用子带综合编码和复用(MaskingpatternadaptedUniversalSubbandIntegratedCodingAndMultiplexing,MUSICAM)编码方案,已被MPEG采纳作为宽带、高质量的音频压缩编码标准。第4章信源编码原理4.1数字音频编码的基本原理4.2数字视频编码概述4.3熵编码4.4预测编码4.5变换编码4.2数字视频编码概述4.2.1数字视频压缩的必要性和可能性4.2.2数字视频编码技术的进展4.2.3数据压缩分类4.2.1数字视频压缩的必要性和可能性数据压缩的理论基础是信息论。从信息论的角度来看,压缩就是去掉数据中的冗余,即保留不确定的信息,去掉确定的信息(可推知的),也就是用一种更接近信息本质的描述来代替原有冗余的描述。图像/视频压缩编码

利用空间冗余度进行压缩编码利用时间冗余度进行压缩编码利用视觉冗余度进行压缩编码利用统计冗余度进行压缩编码4.2.1数字视频压缩的必要性和可能性空间冗余空间冗余也称为空域冗余,是一种与像素间相关性直接联系的数据冗余。如果先去除冗余数据再进行编码,则使表示每个像素的平均比特数下降,这就是通常所说的图像的帧内编码,即以减少空间冗余进行数据压缩。

4.2.1数字视频压缩的必要性和可能性时间冗余时间冗余也称为时域冗余,它是针对视频序列图像而言的。视频序列每秒有25~30帧图像,相邻帧之间的时间间隔很小;同时实际生活中的运动物体具有运动一致性,使得视频序列图像之间有很强的相关性。4.2.1数字视频压缩的必要性和可能性时间冗余

对于视频压缩而言,通常采用运动估值和运动补偿预测技术来消除时间冗余,也称为帧间编码。

4.2.1数字视频压缩的必要性和可能性统计冗余统计冗余也称编码表示冗余或符号冗余。

采用可变长编码技术,对出现概率大的符号用短码字表示,对出现概率小的符号用长码字表示,则可去除符号冗余,从而节约码字,这就是熵编码的思想。4.2.1数字视频压缩的必要性和可能性结构冗余在有些图像的部分区域内有着很相似的纹理结构,或是图像的各个部分之间存在着某种关系,例如自相似性等,这些都是结构冗余的表现。

分形图像编码的基本思想就是利用了结构冗余。4.2.1数字视频压缩的必要性和可能性知识冗余

在某些特定的应用场合,编码对象中包含的信息与某些先验的基本知识有关。可以利用这些先验知识为编码对象建立模型。通过提取模型参数,对参数进行编码而不是对图像像素值直接进行编码,可以达到非常高的压缩比。这是模型基编码(或称知识基编码、语义基编码)的基本思想。4.2.1数字视频压缩的必要性和可能性人眼的视觉冗余视觉冗余度是相对于人眼的视觉特性而言的。压缩视觉冗余的核心思想是去掉那些相对人眼而言是看不到的或可有可无的图像数据。对视觉冗余的压缩通常反映在各种具体的压缩编码过程中。4.2.1数字视频压缩的必要性和可能性人眼的视觉冗余

人眼的敏感性:亮度>色度低频(大面积)>高频(边沿细节)静止图像>运动图像4.2.1数字视频压缩的必要性和可能性图像与视频压缩编码

方法:

尽可能去除各种冗余信息,以减少用于表示图像与视频信息所需的数据量。

目的:在保证重建图像质量的前提下,以尽量少的比特数目来表征图像与视频信息。4.2数字视频编码概述4.2.1数字视频压缩的必要性和可能性4.2.2数字视频编码技术的进展4.2.3数据压缩分类4.2.2数字视频编码技术的进展1948年电视信号数字化的提出,人们开始了对图像压缩编码的研究工作1952年哈夫曼给出最优变长码的构造方法4.2.2数字视频编码技术的进展预测编码1952贝尔实验室的奥利弗等人开始研究线性预测编码理论1958年格雷哈姆用计算机模拟法研究图像的DPCM方法1966年奥尼尔通过理论分析和计算模拟比较了PCM和DPCM对电视信号进行编码传输的性能20世纪70年代开始进行了帧间预测编码的研究20世纪80年代初开始对作运动补偿预测所用的运动估值进行研究4.2.2数字视频编码技术的进展变换编码首先讨论了包括K-L(Karhunen-Loeve)变换、傅立叶变换等正交变换1968年安德鲁斯等人采用二维离散傅立叶变换(2D-DFT)提出了变换编码此后相继出现了沃尔什-哈达玛(Walsh-Hadamard)变换、斜(Slant)变换、K-L变换、离散余弦变换(DCT)等4.2.2数字视频编码技术的进展子带编码1976年美国贝尔系统的克劳切等人提出了话音的子带编码1985年奥尼尔将子带编码引入到图像编码4.2.2数字视频编码技术的进展算术编码1960年,P.Elias提出了算术编码的概念1976年,R.Pasco和J.Rissanen分别用定长的寄存器实现了有限精度的算术编码1979年Rissanen和G.G.Langdon一起将算术编码系统化,并于1981年实现了二进制编码1987年Witten等人发表了一个实用的算术编码程序,即CACM87(后被ITU-T的H.263视频压缩标准采用)同期,IBM公司发表了著名的Q-编码器(后被JPEG建议的扩展系统和JBIG二值图像压缩标准采用)4.2.2数字视频编码技术的进展基于模型编码1983年瑞典的Forchheimer

和Fahlander提出了基于模型编码(Model-BasedCoding)的思想4.2.2数字视频编码技术的进展小波变换编码1986年,Meyer在理论上证明了一维小波函数的存在1987年Mallat提出了多尺度分析的思想及多分辨率分析的概念,提出了相应的快速小波算法——Mallat算法,并把它有效地应用于图像分解和重构1989年,小波变换开始用于多分辨率图像描述4.2.2数字视频编码技术的进展分层可分级编码20世纪90年代中后期,Internet迅猛发展,移动通信也迅速在全球普及,因此人们开始有了在网络上传输视频和图像的愿望。在网络上传输视频和图像等多媒体信息除了要解决误码问题之外,最大的挑战在于用户可以获得的带宽在不停地变化。为了适应网络带宽的变化,提出了分层(layered)、可分级(scalable)编码的思想。4.2数字视频编码概述4.2.1数字视频压缩的必要性和可能性4.2.2数字视频编码技术的进展4.2.3数据压缩分类4.2.3数据压缩分类哈夫曼(Huffman)编码算术编码游程编码(RLE)预测编码变换编码矢量编码基于模型的编码无失真编码(无损编码)(熵编码)限失真编码(有损编码)(压缩熵编码)数据压缩编码主要的视频图像压缩编码算法

4.2.3数据压缩分类无失真编码

无失真编码(熵编码)是纯粹基于信号统计特性的一种编码方法,它利用信源概率分布的不均匀性,通过变长编码来减少信源数据冗余,解码后还原的数据与压缩编码前的原始数据完全相同而不引入任何失真。无失真编码的压缩比较低,可达到的最高压缩比受到信源熵的理论限制,一般为2∶1到5∶1。无失真编码(无损编码)包含:哈夫曼(Huffman)编码算术编码游程编码(RLE)4.2.3数据压缩分类限失真编码

限失真编码(有损编码、熵压缩编码)利用了人类视觉的感知特性,允许压缩过程中损失一部分信息,虽然在解码时不能完全恢复原始数据,但是如果把失真控制在视觉阈值以下或控制在可容忍的限度内,则不影响人们对图像的理解,却换来了高压缩比。

在限失真编码中,允许的失真愈大,则可达到的压缩比愈高。

限失真编码(有损编码)分类:预测编码变换编码矢量编码基于模型的编码第4章信源编码原理4.1数字音频编码的基本原理4.2数字视频编码概述4.3熵编码4.4预测编码4.5变换编码4.3熵编码根据信息论基础知识可知,信息冗余是由信源本身的相关性和信源概率分布的不均匀性引起的。

熵编码的基本原理就是去除图像信源在空间和时间上的相关性,去除图像信源像素值的概率分布不均匀性,使编码码字的平均码长接近信源的熵而不产生失真。由于这种编码完全基于图像的统计特性,因此,有时也称其为统计编码。4.3.1哈夫曼编码

哈夫曼于1952年提出一种编码方法,完全依据符号出现概率来构造异字头(前缀)的平均长度最短的码字,有时称之为最佳编码。哈夫曼编码是一种可变长度编码(VariableLengthCoding,VLC),各符号与码字一一对应,是一种分组码。4.3.1哈夫曼编码huffman编码方法1)初始化,根究符号概率大小排序;2)概率最小两个符号均分剩余概率;3)重复步骤2),直到最后1个符号,所有符号概率和为1;4)码树结构中,每个下分支为1,上分支为0;5)编码:从根节点直到叶节点的码元值顺序列组合。4.3.1哈夫曼编码编码方法4.3.1哈夫曼编码哈夫曼编码的特点哈夫曼编码的算法是确定的,但编出的码并非是唯一的。由于哈夫曼编码的依据是信源符号的概率分布,故其编码效率取决于信源的统计特性。哈夫曼码没有错误保护功能。哈夫曼码是可变长度码,码字字长参差不齐,因此硬件实现起来不大方便。对信源进行哈夫曼编码后,形成了一个哈夫曼编码表,解码时,必须参照这一哈夫编码表才能正确解码。4.3.2算术编码

算术编码是一种非分组编码,它用一个浮点数值表示整个信源符号序列。算术编码将被编码的信源符号序列表示成实数半开区间[0,1)中的一个数值间隔。这个间隔随着信源符号序列中每一个信源符号的加入逐步减小,每次减小的程度取决于当前加入的信源符号的先验概率。算术编码步骤:(1)编码器在开始时将“当前间隔”[L,H)设置为[0,1)。(2)对每一事件,编码器如下进行处理:(a)编码器将“当前间隔”分为子间隔,每一个事件一个。(b)一个子间隔的大小与下一个将出现的事件的概率成比例,编码器选择对应于下一个确切发生的事件相对应的子间隔,并使它成为新的“当前间隔”。(3)最后输出的“当前间隔”的下边界就是该给定事件序列的算术编码。4.3.2算术编码4.3.3游程编码

游程编码(RLE),也称行程编码或游程(行程)长度编码,其基本思想是将具有相同数值的、连续出现的信源符号构成的符号序列用其数值及串的长度表示。以图像编码为例,灰度值相同的相邻像素的延续长度(像素数目)称为延续的游程,又称游程长度,简称游程。游程编码游程编码又称“运行长度编码”或“行程编码”,是一种统计编码,该编码属于无损压缩编码。行程编码的基本原理是:用一个符号值或串长代替具有相同值的连续符号(连续符号构成了一段连续的“行程”。行程编码因此而得名),使符号长度少于原始数据的长度。只在各行或者各列数据的代码发生变化时,一次记录该代码及相同代码重复的个数,从而实现数据的压缩。游程编码举例例如:5555557777733322221111111游程编码为:(5,6)(7,5)(3,3)(2,4)(1,7)。可见,游程编码的位数远远少于原始字符串的位数。并不是所有的游程编码都远远少于原始字符串的位数,但行程编码也成为了一种压缩工具。游程编码是连续精确的编码,在传输过程中,如果其中一位符号发生错误,即可影响整个编码序列,使行程编码无法还原回原始数据。第4章信源编码原理4.1数字音频编码的基本原理4.2数字视频编码概述4.3熵编码4.4预测编码4.5变换编码4.4预测编码

预测编码的基本原理:一般视频图像的上下左右相邻像素及前后帧同位置像素都有很大的相邻相似性。

利用图像数据的相关性,利用已传输的像素值对当前需要传输的像素值进行预测,然后对当前像素的实际值与预测值的差值(即预测误差)进行编码传输,而不是对当前像素值本身进行编码传输,以去除图像数据中的空间相关冗余或时间相关冗余。

在接收端,将收到的预测误差的码字解码后再与预测值相加,就可以恢复当前像素值。

预测编码帧内预测----同一帧帧间预测----相邻帧4.4.1帧内预测编码DPCM系统的基本原理DPCM(DifferentialPulseCodeModulation,差分脉冲编码调制)4.4.1帧内预测编码DPCM系统的基本原理

接收端恢复的输出信号和发送端输入的信号的误差是可见,输入输出信号之间的误差主要是由量化器引起的。4.4.1帧内预测编码预测模型

设时刻之前的样本值,,…,与预测值之间的关系呈现某种函数形式线性预测编码器非线性预测编码器4.4.1帧内预测编码

在图像数据压缩中,常用如下几种线性预测方案:前值预测,即一维预测,即采用同一扫描行中前面已知的若干个样值来预测二维预测,即不但用同一扫描行中的前面几个样值,而且还要用以前几行扫描行中样值来预测

4.4.2帧间预测编码序列图像在时间上的冗余情况可分为如下几种:对于静止不动的场景,当前帧和前一帧的图像内容是完全相同的。对于运动的物体,只要知道其运动规律,就可以从前一帧图像推算出它在当前帧中的位置。摄像头对着场景的横向移动、焦距变化等操作会引起整个图像的平移、放大或缩小。对于这种情况,只要摄像机的运动规律和镜头改变的参数已知,图像随时间所产生的变化也是可以推算出来的。对于静止不动的场景,当前帧和前一帧的图像内容是完全相同的。对于运动的物体,只要知道其运动规律,就可以从前一帧图像推算出它在当前帧中的位置。摄像头对着场景的横向移动、焦距变化等操作会引起整个图像的平移、放大或缩小。对于这种情况,只要摄像机的运动规律和镜头改变的参数已知,图像随时间所产生变化也是可以推算出来的。4.4.2帧间预测编码运动补偿预测

4.4.2帧间预测编码运动补偿预测所谓运动估值,就是对运动物体的位移作出估计,即对运动物体从前一帧到当前帧位移的方向和像素数作出估计,也就是求出运动矢量。

运动补偿预测就是根据求出的运动矢量,找到当前帧的像素(或像素块)是从前一帧的哪个位置移动过来的,从而得到当前帧像素(或像素块)的预测值。

4.4.2帧间预测编码运动估值分类1.

像素递归法+块匹配算法;像素递归法:根据像素间亮度的变化和梯度,通过递归修正的方法来估计每个像素的运动矢量。让接收端在与发送端同样的条件下,用与发送端相同的方法进行运动估值。

4.4.2帧间预测编码运动估值分类2.块匹配算法:块匹配算法对当前帧图像的每一子块,在前一帧(第K-1帧)的一定范围内搜索最优匹配,并认为本图像子块就是从前一帧最优匹配块位置处平移过来的。

4.4.2帧间预测编码块匹配算法:

4.4.2帧间预测编码运动估值像素递归法估计精度高,可以满足运动补偿帧内插的要求。但接收端较复杂,不利于一发多收(如数字电视广播等)的应用。块匹配算法虽然作了一定假设(假设位于同一图像子块内的所有像素都作相同的运动,且只作平移运动),但满足了计算复杂度和实时实现的要求。4.4.2帧间预测编码块匹配算法方块大小的选取 块大时,一个方块可能包含多个作不同运动的物体,块内各像素作相同平移运动的假设难以成立,影响估计精度。 若块太小,则估计精度容易受噪声干扰的影响,不够可靠,而且传送运动矢量所需的附加比特数过多,不利于数据压缩。

一般都用16×16大小块作为匹配单元。4.4.2帧间预测编码块匹配算法最优匹配准则

绝对差均值(MAD,MeanAbsoluteDifference)最小准则另有:均方误差(MSE,MeanSquaredError)最小准则和归一化互相关函数最大准则。

4.4.2帧间预测编码块匹配算法最优匹配点的搜索方法穷尽搜索(fullsearch,也称全搜索)搜索范围内每一点都计算MAD值,找出最小MAD值所对应位移量即为所求的运动矢量。---运算量大,算法简单,算出的匹配点是全局最优,适合于ASIC硬件实现。快速搜索:其算法共同之处在于它们把使准则函数(例如,MAD)趋于极小的方向视同为最小失真方向,并假定准则函数在偏离最小失真方向时是单调递增的,即认为它在整个搜索区内是(i,j)的单极点函数,有唯一的极小值,而快速搜索是从任一猜测点开始沿最小失真方向进行的。4.4.2帧间预测编码块匹配算法最优匹配点的搜索方法分级搜索:先通过对原始图像滤波和亚采样得到一个图像序列的低分辨率表示,再对所得低分辨率图像进行全搜索。由于分辨率降低,使得搜索次数成倍减少,这一步可以称为粗搜索。然后,再以低分辨率图像搜索的结果作为下一步细搜索的起始点。经过粗、细两级搜索,便得到了最终的运动矢量估值。4.4.2帧间预测编码运动估值应用运动补偿帧间预测编码运动补偿帧间预测编码主要利用了视频帧序列中相邻帧之间的时间相关性,适用于所有的帧间编码。

4.4.2帧间预测编码运动补偿帧间预测编码过程在视频帧序列中设置参照帧,且第1帧总是参照帧。对于当前的编码帧,首先在该帧的前一帧和/或后一帧(参照帧)中寻找与该帧的一个图像方块最优匹配的图像方块。

4.4.2帧间预测编码如果找到这样的最优匹配块,则进行下列计算:计算当前块的像素值与参照帧中最优匹配块(称参照块)的像素值之间的差值,即预测误差;计算当前块相对于参照块在水平(x)和垂直(y)两个方向上的位移,即运动矢量。如果找不到最优匹配块,则必须进行帧内编码,即对当前块的像素样本值进行编码传输。4.4.2帧间预测编码运动补偿帧间预测类型单向运动补偿预测:只使用前参照帧或后参照帧中的一个来进行预测。双向运动补偿预测:使用前、后两个帧作为参照帧来计算各块的运动矢量,最后只选用与具有最小匹配误差的参照帧相关的运动矢量值。插值运动补偿预测:取前参照帧预测值与后参照帧预测值的平均值。这时,需要对两个运动矢量分别进行编码传输。4.4.2帧间预测编码运动估值应用运动自适应帧内插在低数码率视频编码中对提高图像质量起着重要作用,通过降低发送端传送的帧频来降低数码率,未传输的图像帧在接收端则由已传输的处于该帧前和该帧后的两个图像帧的内插来恢复。

4.4.2帧间预测编码运动自适应帧内插4.4.2帧间预测编码运动自适应帧内插

运动自适应帧内插对运动位移估值提出了比运动补偿帧间预测更高的要求,它希望得到的位移估值应尽量接近物体的真实运动,而不只是在某种准则函数值最小(或最大)意义上的最优。4.4预测编码预测编码还可应用于对其他参量的编码中对运动矢量进行预测(把相邻图像块的运动矢量作为本块运动矢量的预测值),然后对运动矢量的预测误差进行编码传输。在模型基编码中,对模型参数进行预测编码。对各图像块离散余弦变换系数的直流分量(DC)进行预测编码。第4章信源编码原理4.1数字音频编码的基本原理4.2数字视频编码概述4.3熵编码4.4预测编码4.5变换编码4.5.1变换编码的基本原理基本原理 变换编码不直接对空间域图像数据进行编码,而是首先将空间域图像数据映射变换到另一个正交向量空间(变换域),得到一组变换系数,然后对这些变换系数进行量化和编码。变换编码系统通常包括正交变换、变换系数选择和量化编码3个模块。变换编码:利用映射变换来实现对数据的建模表示的建模表示,也就是说,将原始数据“变换”到另一个更为紧凑的表示空间。映射的关键:在于能够产生一系列更加有效的系数,对这些系数进行编码所需的总比特数,要比对原始数据直接编码所需的总比特数要少得多,从而使数码率得以降低。映射的方法:一般指函数变换法常用的是正交变换法4.5.1变换编码的基本原理基本原理 为了保证平稳性和相关性,同时也为了减少运算量,在变换编码中,一般在发送端的编码器中,先将一帧图像划分成若干个N×N像素的图像块,然后对每个图像块逐一进行变换编码,最后将各个图像块的编码比特流复合后再传输。在接收端,对收到的变换系数进行相应的逆变换,再恢复成图像数据。4.5.1变换编码的基本原理正交变换

正交变换本身并不能压缩数据,它只把信号映射到另一个域,但由于变换后系数之间的相关性明显降低,为在变换域里进行有效的压缩创造了有利条件。各坐标轴上方差的不均匀分布正是正交变换编码实现图像数据压缩的理论基础。 4.5.1变换编码的基本原理正交变换设一个图像块由1×2个像素组成,每个像素的值取8个灰度等级中的任一个,xl代表其中第一个像素的值,x2代表第二个像素的值。

4.5.1变换编码的基本原理正交变换 图像经过正交变换能够实现数据压缩的物理本质在于:经过多维坐标系中适当的坐标旋转和变换,散布在各个坐标轴上的原始图像数据在选择适当的新坐标系中集中到了少数坐标轴上,因而有可能用较少的编码比特来表示一个图像块,从而实现图像数据压缩。4.5.2DCT图像编码各正交变换比较

选择不同的正交基向量,可以得到不同的正交变换,比如离散傅里叶变换(DFT)、离散余弦变换(DCT)、沃尔什-哈达玛变换(WHT)、斜变换、K-L变换等。从数学上可以证明,各种正交变换都能在不同程度上减小随机向量的相关性,而且信号经过大多数正交变换后,能量会相对集中在少数变换系数上,删去对信号贡献较小(方差小)的系数,只利用保留下来的系数恢复信号时,不会引起明显的失真。4.5.2DCT图像编码各正交变换比较在理论上,K-L变换是在均方误差(MSE)准则下的最佳变换,它是建立在统计特性基础上的一种变换。由于K-L变换是取原图像各子块的协方差矩阵的特征向量作为变换基向量,因此K-L变换的变换基是不固定的,且与编码对象的统计特性有关。对大多数图像信源来说,DCT的性能最接近K-L变换,同时其变换基向量是固定的,且有快速算法4.5.2DCT图像编码DCT编码和解码原理4.5.2DCT图像编码DCT变换8×8

二维DCT变换8×8

二维DCT反变换当时,当u、v为其他值时4.5.2DCT图像编码DCT变换

8×8二维DCT反变换的变换核函数为按u,v分别展开后得到64个8×8像素的图像块组,称为基图像。4.5.2DCT图像编码DCT变换基图像4.5.2DCT图像编码DCT变换补充:水平空间频率:画面宽带范围内垂直黑白条的周期数。垂直空间频率:画面高带范围内水平黑白条的周期数。随着u,v的增加,相应系数分别代表逐步增加的水平空间频率和垂直空间频率分量的大小。4.5.2DCT图像编码DCT变换

DCT变换过程看作是把一个图像块表示为基图像的线性组合,这些基图像是输入图像块的组成“频率”。DCT变换输出64个基图像的幅值即“DCT系数”,是输入图像块的“频谱”。64个变换系数中包括一个代表直流分量的“DC系数”和63个代表交流分量的“AC系数”。4.5.2DCT图像编码量化

量化处理是一个多到一的映射,它是造成DCT编解码信息损失的根源。根据人眼的视觉特性,对不同的变换系数设置不同的量化步长。4.5.2DCT图像编码量化

JPEG标准中每个亮度DCT系数的量化步长16111016244051611212141926586055141316244057695614172229518780621822375668109103772435556481104113924964788710312112010172929598112100103994.5.2DCT图像编码量化

JPEG标准中每个色度DCT系数的量化步长171824479999999918212666999999992426569999999999476699999999999999999999999999999999999999999999999999999999999999999999999999994.5.2DCT图像编码变换系数熵编码

Zig-Zag(或称“Z”字形,“之”字形)扫描

DC直流系数AC01交流系数扫描开始交流系数扫描结束AC07AC70AC774.5.2DCT图像编码变换系数熵编码直流分量(DC):相邻图像子块的直流分量(图像子块的平均样值)也存在着相关性,所以对DC的量化系数用DPCM编码较合适,即对当前块和前一块的DC系数的差值进行编码。交流分量(AC):把数值为0的连续长度(即0的游长)和非0值结合起来构成一个事件(Run,Level),然后再对事件(Run,Level)进行熵编码。

4.5.2DCT图像编码DCT编码的示例139144149153155155155155144151153156159156156156150155160163158156156156159161162160160159159159159160161162162155155155161161161161160157157157162162161163162157157157162162161161163158158158(a)原始图像块的亮度样值

4.5.2DCT图像编码DCT编码的示例(b)对应的DCT系数1259.6-1.0-12.1-5.22.1-1.7-2.7-1.3-22.6-17.5-6.2-3.2-2.9-0.10.4-1.2-10.9-9.3-1.61.50.2-0.9-0.6-0.1-7.1-1.90.21.50.9-0.10.00

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论