《语音与音频编码》课件第6章

上传人：1*** IP属地：广东上传时间：2024-07-18 格式：PPT 页数：109 大小：2.61MB 积分：15 举报 版权申诉

已阅读5页，还剩104页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

6.1音频压缩编码的原理

6.2MPEG音频压缩编码标准概述

6.3MPEG-1音频压缩编码的基本原理

6.4MPEG-2音频编码原理

6.5MPEG-4音频编码标准

6.6小结

习题六第六章MPEG音频压缩编码6.1.1音频压缩编码的必要性和可能性

音频文件的大小可以用下式来计算：

文件大小(B)=采样频率(Hz)×录音时间(s)×

×通道数(单声道为1，立体声为2)6.1音频压缩编码的原理6.1.2感知音频编码原理

一旦涉及音频压缩，就必须涉及感知音频编码原理，任何数据压缩系统的目的都是降低数据传输速率，那么，降低采样频率和量化比特数就成了行之有效的方法。6.1.3频域编/解码器原理

频域编码器的工作机理如下：

(1)采用滤波和FFT变换，可在频域内将其能量较小的分量忽略，从而实现降低比特率。

(2)利用人耳听觉的掩蔽效应，在满足一定量化噪声的前提下压缩数码率。数字音频编码以感知音频编码原理为基础，采用了两种频率编码器，即子带编码器和变换编码器。其中，子带编码器采用为数不多的子带，处理时间上相邻的取样值，而变换编码器使用很多频率上相邻的取样值。因为编码器性能的差别主要在算法，在编码器中用到的所有变换都可以看做滤波器组，这样，子带编码和变换编码都可以采用如图6.1所示的原理框图。图6.1频率解码器的基本结构

1.子带编码

图6.2是子带编码器的原理图。图6.2子带编码器的原理图为了对子带编码有更进一步的理解，图6.3给出了一个子带编码器的编码实例图。图6.3子带编码的编码实例图最后，必须给每个子带分配足够的位数来保证量化的噪声处于掩蔽阈值以下。在每一个子带的量化噪声低于掩蔽阈值的条件下，由信号掩蔽比(SignalMaskingRatio，SMR)，即信号最大值与掩蔽阈值之间的差值，决定分配给子带的比特位数。比特分配实例如图6.4所示。图6.4比特分配实例图通过以上的分析总结出使用子带编码具有以下优点：

(1)对信号进行分带可以去除信号之间的相关性，得到一组互不相关的信号，从而可以独立地进行量化编码。

(2)由于音频和语音信号的频谱为非平坦的，通过对语音的不同子带分配不同的比特数，就可以控制各个子带相应的量化电平和量化误差，从而使编码速率与信号的信源统计分布实现更精确的匹配。误差谱的形状更加适合人耳的听觉特性，所以得到了更好的主观听觉质量。对低频段用较多的比特数来表示样值，而对高频段则用较少的比特数来表示。

(3)子带编码中各个子带内的量化噪声相互独立，从而避免了输入电平较低的子带信号被其他子带的量化噪声所淹没。

2.变换编码

变换编码对频率系数编码，时域取样变化到频域产生频谱系数，对频谱系数进行量化，来实现对音频数据的有效压缩。在变换编码中，时域窗口长度的选择要考虑两个因素：

一个是时间分辨率；另一个是频率分辨率。例如对采样频率为44.1kHz的PCM样值进行离散余弦变换，每512个样值为一块，则计算如下：

采样频率为44.1kHz，样值的周期为0.0227ms，窗口长度为512×0.0227＝11.62ms；频率分辨率Δf对应的频率为44100÷2÷512=

43.07Hz，Δf越小，频率分辨率越大；

时间分辨率Δt对应的时间为1÷43.07＝23.22ms，Δt越小，频率分辨率越大；

如果采用每256个样值为一块，则采样频率为44.1kHz，样值的周期为0.0227ms，

窗口长度为256×0.0227＝5.81ms；

频率分辨率为

时间分辨率为自适应变换编码原理框图如图6.5所示。图6.5自适应变换编码

1.MPEG-1标准

1)MPEG-1标准规定

MPEG-1的全称为CodingofMovingPicturesandAssociatedAudioforDigitalStorageMediaatuptoabout1.5Mb/s，即达到1.5Mb/s的数字存储媒体所用的运动图像及其相关声音编码。MPEG-1分为五部分，其中，系统、图像和声音三部分于1993年通过并成为标准，一致性测试部分于1995年通过，第五部分软件仿真为技术报告。6.2MPEG音频压缩编码标准概述

2)MPEG-1音频编码标准的特点和应用

MPEG-1音频编码标准提供了3个压缩层次，分别描述如下：

第一层(LayerⅠ)，它是一种听觉心理声学模型下的亚抽样编码，算法简单，应用于数字小型盒式磁带(DigitalCompactCassette，DCC)记录系统；

第二层(LayerⅡ)，比第一层加入了更高的精度，编码器的复杂程度中等，应用于数字音频广播、CD-ROM、CD-I和VCD等；

第三层(LayerⅢ)，是现在流行的MP3音乐格式，加入了非线性量化、霍夫曼编码和其他实现低速率高保真音质的先进技术，它可以把一个1.4Mb/s的立体声双通道数据流压缩为32～384kb/s且保持高保真的音质。依次下去的等级提供更高的质量和越来越高的压缩率，但要求计算机有越来越高的压缩计算能力。

2.MPEG-2标准

1)MPEG-2标准规定

MPEG-2音频是在1994年11月为数字电视而提出的，其发展分为三个阶段：

第一阶段是对MPEG-1增加了低采样频率，有16kHz、22.05kHz及24kHz。

第二阶段是对MPEG-1实施了向后兼容的多声道扩展，将其称为MPEG-2BC(ISO/IEC13818-3BackwardCompatible)。支持单声道、双声道和多声道编码，并附加“低频加重”扩展声道，从而达到5声道编码。

第三阶段是后向不兼容，即不能被MPEG-1音频解码器译码，将其称为MPEG-2AAC先进音频编码。采样频率可低至8kHz，而高至96kHz范围内的1～48个通道可选高音质音频编码。

2)MPEG-2的特点和应用

(1)MPEG-2BC分为三层，相应能达到的比特率分别为：LayerⅠ为32～256kb/s，LayerⅡ和LayerⅢ为8～160kb/s，主要适用于数据比特率从8kb/s的单声道电话的音

质到160kb/s的多声道高质量的音质。

(2)兼容性强。

(3)MPEG-2AAC采用了与MPEG-1LayerⅢ同样的基本编码模式，仅在一些细节上增加了新的编码工具。

3.MPEG-4标准

MPEG-4标准力求做到两个目标：低比特率下的多媒体通信；它是多工业的多媒体通信的综合。

MPEG-4标准的侧重点主要有以下几种：

(1)同先前的标准不同，MPEG-4将静止图像、视频、音频等都看做“媒体对象”，并将它们作为编码的对象。对音频对象来说，编码的形式包括文本、合成语音等。

(2)在对音频对象的组合上，MPEG-4允许控制音频对象的声调，增加回音、加重、动态范围控制等效果。由于将不同的音频来源看做不同的音频对象，MPEG-4可以制造出原先标准中都难以制造出的音频效果。比如，在某些电影画面中，可以将人物对话、背景声、舞台噪声看做不同的音频对象，甚至可以将不同人物的说话看做不同的对象，这样可以根据实际需要修改人物对话，甚至情节。

(3)在码流的发布上，MPEG-4提出了一个类似于FTP(FileTransferProtocol)的发布体系——多媒体发送综合架构(DeliveryMultimediaIntegrationFramework，DMIF)。这个体系架构也采用了协议分层的思想，将多个基本码流分接、复接，并根据实际的带宽情况，实现QoS(QualityofService)。

(4)除此以外，MPEG-4还增加了对象描述符，用来描述对象的配置信息以及版权信息。

4.MPEG-7标准

MPEG-7的全称是多媒体内容描述接口(MultimediaContentDescriptionInterface，MCDI)，主要是描述多媒体素材内容的通用接口的标准化，用于促进数据元的互操作性、通用性和数据管理的灵活性。为了适应人们在因特网上快速搜索到所需的内容，MPEG-7多媒体接口应能支持：

(1)完成人耳听觉感知需要的内容，频率轮廓线、音色、和声、频率特征(音调、音域)、振幅包络、时间结构，即声音特性(音头持续时间及音尾)、文本内容。

(2)数据音频，如CD唱片和MPEG-1音频格式；模型音频，如磁带介质、MPEG-4的结构化音频乐队语言SAOL(StructureAudioOrchestralLanguage)和电子乐器数字接口MIDI(MusicInstrumentsDigitalInterface)。

5.MPEG-21标准

MPEG-21的主要研究目标是：分析是否需要协议、标准、技术等不同的技术元素有机地结合在一起；分析是否需要新的规范；分析如果具备前面的两个条件，如何将不同的标准集成在一起。MPEG-21的范围可以描述成一些关键技术的集成，其功能包括：内容表示、创建、发布、消费、识别和描述，知识产权管理和保护，财政管理，用户的隐私权，中段和网络资源的内容提取、事件报告等。用这些技术可以实现多媒体资源通过和访问极大范围的网络和设备。

1.MPEG-1LayerⅠ

MPEG-1LayerⅠ音频压缩编码器的原理框图如图6.6所示。6.3MPEG-1音频压缩编码的基本原理图6.6MPEG-1LayerⅠ音频压缩编码器的原理框图

1) 子带分析滤波器组

子带分析滤波器采用的是多相滤波器组，它将输入的数字音频信号均匀地分成32个子带。子带的频率宽度Δf为

式中，fs为PCM样本值的采样频率。

当fs=48kHz时，

当fs=32kHz时，

(6-1)

2)组块

如果将子带信号直接原样量化，则量化噪声电平由量化步长决定，当输入信号电平低时，噪声就会显现出来，当输入信号电平高时，量化又过于缓慢，这对于提高信噪比没有大的帮助。考虑到人耳听觉的时域掩蔽效应，将每个子带内连续的12个采样值归并成一个块，在采样频率为48kHz时，这个块相当于8ms，即12×32÷48＝8ms。这样，在每一个子带内，以8ms为一个时间段，对12个采样值并成的块一起计算，在每一个块中，由于掩蔽效应的作用，在后面的比例因子的作用下，可以把量化噪声限制到有用信号之下，起到压缩的目的。

3)确定比例因子

比例因子表如表6.1所示，后面的MPEG-1LayerⅡ中的比例因子的选择也用此表。另外，在编码过程中，比例因子标号用6bit编码后作为比例因子信息传送，对应关系见表6.2。表6.1MPEG-1LayerⅠ、Ⅱ比例因子表6.2MPEG-1LayerⅠ、Ⅱ比例因子6比特编码码序

4)FFT分析

由于分析子带滤波器具有256个样点延迟，为了保证用于比特分配的信号掩蔽比和相应子带样点在时间上相符合，进入FFT的PCM样点必须延迟256个样点，进行FFT分析的帧长为512点，且将经过延迟处理的384个样点放在中间位置并在左右扩展64个相邻样点构成一个FFT帧，其中，Hanning窗为

功率谱x(k)为(6-2)(6-3)

5)心理声学模型

心理声学模型的输入是原始的音频信号，输出则是各个子带的信号掩蔽比，配合信噪比来确定量化比特分配，以此来控制量化过程。MPEG-1标准建议了两种决定掩蔽比的心理声学模型，即模型1和模型2。

主要包括以下9个步骤：

(1)进行时域到频域的映射。采用512点或1024点的快速傅里叶变换(FFT)，并加Hanning窗来减少边界效应，利用FFT将时域数据转换到频域，这样可以计算精确的掩蔽阈值。前面已经讲过，这里不再赘述。

(2)确定最大声压级。在每个子带内根据比例因子和频谱数据进行计算。在确定掩蔽阈值时采用取最大值的方法。对于每个子带计算相应的声压级，子带n中声压级SPL(n)用式(6-4)计算：

SPL(n)=max［x(k),20lg(scfmax(n)×32768)－10］(6-4)

(3)确定安静阈值。安静阈值也叫绝对阈值，也就是人们在安静环境下刚能听到的声音，形成了最低掩蔽边界。安静阈值是根据大量心理声学试验得出的，MPEG-1标准根据输入PCM信号的采样率不同，制定了“频率、临界频带比率和绝对阈值”表，从表中可以查出频谱的绝对阈值LTq(k)。当比特率大于96kb/s时，还要对绝对阈值补偿，补偿值为－12dB。绝对域值按下式计算：

(6-5)

(4)识别音调和非音调成分。由于信号中的音调和非音调成分的掩蔽域值不同，首先要识别音调和非音调成分，然后分别来进行处理。要列出谱线x(k)的有调和无调，需执行下面三个步骤：

第一步：标明局部最大。若x(k)>x(k－1)，且x(k)>x(k+1)，则x(k)为局部最大值。

第二步：列出有调成分和计算声压级。如果x(k)－x(k+j)≥7dB，则x(k)列为有调成分。其中j按下面的规则进行选择：

其中，x(k)列为有调成分，则还要列出谱线的标记k、声压级(6-7)(6-6)第三步：列出无调成分，计算功率。无调成分从余留谱线计算，在每个临界频带内将所有谱线的功率加起来形成临界频带内无调成分的声压级xnm(k)，并列出下面的参数：最接近临界频带几何平均值的谱线标记k，声压级xnm(k)以及无调指示。

(5)掩蔽器抽取。不是所有有调和无调成分都用于掩蔽阈值的计算，只有在xtm(k)≥LTq(k)或xnm(k)≥LTq(k)时，掩蔽阈值计算才要考虑有调或无调成分，因此所有不满足条件的有调和无调指示必须移去。另外在剩下的有调成分中还需要判断任意两个有调成分之间距离是否小于0.5Bark，如果是则移去这两个有调成分中较小的一个，这是为了保证在每个子频带内频率响应平坦度0.5dB内仅有一个纯音信号。

(6)计算掩蔽阈值。

计算样点掩蔽阈值不是对所有频带内频谱样点进行，而是对一组样点进行。该组样点的组成为：对头6个子带覆盖的频域内谱线不变；对接着6个子带覆盖的频域，每次抽取第2条谱线；对余留谱线每次抽取第4条谱线，其中对

32kHz采样率抽取到15kHz结束，对44.1kHz和48kHz抽取到20kHz为止。音调和非音调各自的掩蔽阈值由下列表达式求出：

LTtm[Z(j)，Z(i)]=Xtm[Z(j)]+AVtm[Z(j)]+VF[Z(j)，Z(i)]

(6-8)

LTnm[Z(j)，Z(i)]=Xnm[Z(j)]+AVnm[Z(j)]+VF[Z(j)，Z(i)]

(6-9)

AV值为

对于有调掩蔽器

AVtm［Z(j)］=－1.525－0.275×Z(j)－4.5dB(6-10)

对于无调掩蔽器

AVnm［Z(j)］=－1.525－0.175×Z(j)－0.5dB(6-11)掩蔽器的掩蔽函数VF对有调和无调掩蔽器是相同的，它具有不同的上、下端斜率，随着到掩蔽器的距离dz=z(i)－z(j)变化，掩蔽函数值为

VF=17×(dz+1)－(0.4×X［z(j)］+6)(－3≤dz<－1)(6-12)

VF=(0.4×X［z(j)］+6)×dz(－1≤dz<0)

(6-13)VF=17×dz(0≤dz<1)

(6-14)VF=－(dz－1)×(17－0.15×X［z(j)］)－17(1≤dz<8)

(6-15)

(7)计算总掩蔽阈值。第i个频率样点的总掩蔽阈值LTg(i)等于所有有调和无调成分在该样点上单独掩蔽阈值的功率总和加上安静阈值功率得到。公式描述如下：

(6-16)

(8)确定最小掩蔽域值。子带n中最小掩蔽阈值LTmin(n)由下式决定：

LTmin(n)=min(LTg(i))dB(6-17)

(9)计算信号掩蔽比(SignalMaskingRatio，SMR)。子带信号中的声压级和最小掩蔽阈值之间的差异决定了每个子带的SMR值(见下式)，这个值将用于比特分配。

SMR(n)=SPL(n)－LTmin(n)dB(6-18)

6)比特分配

为了同时满足数码率和掩蔽特性的要求，比特分配器应同时考虑来自分析滤波器组的输出样值以及来自心理声学模型的信号掩蔽比，来决定分配给各个子带信号的量化比特数，使量化噪声低于掩蔽阈值，以便于在规定比特率下尽可能满足心理声学要求，即计算每个子带的SMR，以决定分配给每个子带的比特数n，使得它满足下式：

(6-19)在调整比特率之前要先确定用于一帧子带样点和比例因子编码的比特数用adb来表示，可以由下式来确定：

adb=bt－(bhdr+bcrc+bbal+banc)(6-20)分配过程是一个迭代过程，其中每迭代一步子带样点的级数相应增加。首先计算各个子带的掩蔽噪声比(MNR)，它是信号噪声比(SignalNoiseRatio，SNR)减去信号掩蔽比，即

MNR=SNR－SMR(6-21)

SNR可以由以下公式计算得到：

SNR=6.02n+1.76(6-22)其中,n为量化所需的比特数，SMR为心理声学模型输出，并置各子带样点比特数bsp1和比例因子比特数为零。其次开始进行如下迭代过程：

(1)对所有子带定出最小MNR。

(2)对最小MNR的子带，其量化比特数增加一级。

(3)计算该子带新的MNR。

(4)样点比特数bsp1随之更新。开始时，如果一个非零比特数分配给子带，其相应比例因子比特数bscf必须增加6bit，然后用下面的公式计算剩下的adb，即

adb=bt－(bhdr+bcrc+bbal+banc+bscf+bsp1)(6-23)

(5)重复该循环,直到adb不小于bscf和bsp1的任何可能增加。

7)线性量化编码

子带样点的量化采用具有中平型的线性量化器，以防止围绕零变化的微小值量化为不同级。各个子带样点先归一化，将其除以比例因子得到X，然后根据下面的步骤进行量化：

(1)计算AX+B，其中A、B值从“量化系数”表(即表6.3)中查寻。

(2)取该值最有效的N位，N表示用于该样点的编码比特数。

(3)最高位取反，以避免出现全“1”代码。表6.3层1量化系数

8)帧结构

将量化后的采样值和格式标记以及其他附加辅助数据按照规定的帧格式组装成比特数据流。MPEG-1LayerⅠ的音频码流的数据帧格式如图6.7所示。图6.7MPEG-1LayerⅠ音频流的数据帧结构图

2.MPEG-1LayerⅡ编码的基本原理

从本质上来说，MPEG-1LayerⅡ的编码与原始的MUSICAM标准是相同的，但是在设计上要复杂一些。它是以稍高的代价、在合适的数据传输速率下得到很高的保真度为目的的。

MPEG-1LayerⅡ层的编码原理框图如图6.8所示，编码算法的流程图如图6.9所示。图6.8MPEG-1LayerⅡ音频压缩编码器的原理框图图6.9MPEG-1LayerⅡ编码算法的流程图从原理框图可以看出，MPEG-1LayerⅡ和MPEG-1LayerⅠ有如下不同：

(1)MPEG-1LayerⅡ使用1024点的FFT运算，提高了频率的分辨率，可以实现尽可能低的数码率，得到原信号更准确的瞬时频谱特性，以便更好地计算心理声学模型。

(2)MPEG-1LayerⅡ中有块形成，与LayerⅠ对每个子带由12个采样值组成一块的编码不同，LayerⅡ对一个子带的3个块进行编码，其中每块有12个采样值，每帧包含1152个采样值的码字。

(3)描述比特分配的字段长度随子带的不同而不同。低频段子带用4bit来描述，中频段子带用3bit来描述，高频段子带用2bit来描述。这种因频率不同而比特率不一样的做法也是临界频带的应用。

(4)最大的不同是MPEG-1LayerⅡ有比例因子的选择信息(ScaleFactorSelectionInformation，SCFSI)。具体传送比例因子的情况见表6.4。表6.4比例因子的传送情况所以，MPEG-1LayerⅡ的音频码流的数据帧格式如图6.10所示。图6.10MPEG-1LayerⅡ音频码流的数据帧格式图另外，在子带样值量化和编码中的A、B值可从“量化系数”表中查得，MPEG-1LayerⅡ和MPEG-1LayerⅠ的量化系数表不同。

MPEG-1LayerⅡ的量化系数表如表6.5所示。表6.5MPEG-1LayerⅡ的量化系数表

3.MPEG-1LayerⅢ编码器

1)MPEG-1LayerⅢ编码器原理

MPEG-1LayerⅢ也就是大家所熟悉的MP3，数字音频经过MP3压缩方式的处理，能增加更多的存储空间。MPEG-1LayerⅢ的音频编码基本原理框图如图6.11所示。图6.11MPEG1-LayerⅢ音频压缩编码器的原理框图输入的数字音频信号即PCM采样信号进入子带滤波器组后，被分成32个子带信号，每个子带含有3个块，每个块具有12个样本值，共1152个采样点，改进的离散余弦变换(ModifiedDiscreteCosineTransform，MDCT)把子带的输出在频率里进一步地分成18个频线，这样共产生576个频线，然后利用心理声学模型计算出子带信号的掩蔽比，根据这些掩蔽比决定分配给576个频线的比特数，分别对它们进行比特分配和可变步长量化，量化后的样值再经过无失真的霍夫曼编码，以提高编码效率，并与比特分配和量化产生的边信息一起组成一帧数据。

MP3编码的一帧数据包括两个组，每组有576个频线和与它们相关的边信息，边信息被存储在每一帧的帧头中，对这样一帧一帧组成的比特流，MP3解码器可以独立进行解码，而不需要额外的信息。表6.6MPEG-3LayerⅢ在各种音质下的性能

2)MPEG-1LayerⅢ中所涉及的关键技术

(1)多相/MDCT混合滤波器组。

(2)自适应窗口选择技术。

下面解释各窗口类型的功能：

①长窗：用于稳定信号的正常窗口类型，表达式如式(6-15)所示，则

②短窗：短窗基本上和长窗具有相同的形状，只是长度是长窗的1/3。它跟随着一个1/3的MDCT,即

③开始窗：为了在长窗和短窗之间进行切换，使用混合窗，即它的左边和长窗类型的左边具有相同的形状;右边的1/3长度的幅度是1，1/3和短窗的右边具有相同的形状，剩余的1/3是0。因此，与后面的短窗部分重叠可保证混叠抵消。则

④结束窗：这种类型窗把短窗切换回正常窗，其形状与开始窗镜像，即

用Matlab实现几种不同的窗口类型，其窗函数图如图6.12所示。图6.12各种类型的窗函数图采用自适应窗口切换技术可以很好地在编码效率和编码质量之间取得折中，其代价是增加算法的复杂度。MP3编码标准中采用这种技术，只在需要抑制前回声时才使用短窗，而在平时则使用长窗。由长窗切换到短窗时，必须插入一个起始窗；由短窗切换到长窗时，必须插入一个终止窗，其切换规则如图6.13所示。图6.13各种类型的窗函数切换图

(3)霍夫曼编码。霍夫曼编码是统计编码的一种，可以在不降低信号质量的前提下，将传输每个样值所需要的平均码长降到最低，具体方式是先把声音信号的幅值按出现概率由大到小的顺序排列，然后按相反的顺序分配码字的长度。码字是按以下步骤形成的：

①将消息按其概率由大到小排列；

②把两个最小的概率概括出来，并分别配给“0”和“1”；

③将两个最小概率相加变成一个概率，再和其他概率一起由大到小排列；④重复步骤(2)、(3)，直到所有概率都被相加处理完为止；

⑤对于每个消息都沿其处理的路径，按照从右到左的顺序，将所配给的符号序列作为其代码。

例：声音信号幅度符号xi出现的概率为Pi，出现的概率从大到小的顺序为从上述编码结果可看出nL是可变字长，则平均字长N为

N=∑PinL

=0.3×2+0.22×2+0.20×2+0.1×3+0.08×4+0.05×5

+0.03×6+0.02×6

=2.61bit/码长

(4)比特池技术。采用了弹性比特存储技术之后，MP3的帧结构就不同于一般数据流的帧结构了。弹性比特存储技术实际上就是在每帧的主数据中以固定的间隔插入同步码和边信息，从而以固定比特率的格式实现可变比特率的编码。也就是说，在一般的帧中，每帧的数据都是紧接于帧同步码之后，而MP3帧的主数据则有可能先于该帧的同步码出现。它的帧结构如图6.14所示。图6.14MPEG-1LayerⅢ音频码流的数据帧格式图

MPEG-2的声音编码标准是在MPEG-1的基础上发展起来的多声道编码系统。与MPEG-1标准相比，MPEG-2作了如下扩充：

(1)增加了16kHz、22.05kHz和24kHz采样频率；

(2)扩展了编码器的输出速率范围，由32～384kb/s扩展到了8～640kb/s；

(3)增加了声道数，支持5.1声道和7.1声道的环绕声；

(4)支持线性PCM和DolbyAC-3编码。6.4MPEG-2音频编码原理

1.MPEG-2AAC音频编码的基本原理

MPEG-2AAC编码原理框图如图6.15所示，这是一个AAC编码的完整框图，开发MPEG-2AAC标准采用的方法与开发MPEG-1音频标准采用的方法不同。MPEG-1Audio采用的方法是对整个系统进行标准化，而MPEG-2AAC采用的方法是模块化的方法，把整个AAC系统分解成一系列模块，用标准化的AAC工具对模块进行定义，但是在实际应用中，并不是所有的功能模块都是必需的。为了允许在质量、存储器和处理能力需求之间进行折中，AAC系统提供了三层框架：主框架、低复杂度(LC)框架和分级采样率(SSR)框架。图6.15MPEG-2AAC编码原理框图2.MPEG-2AAC音频编码器模块的功能

1)心理声学模型2

2)增益控制(GainControl)

3)滤波器组(FilterBank)

4)瞬时噪声整形TNS(TemporalNoiseShapping)

5)联合立体声编码

联合立体声编码(JointStereoCoding)是一种空间编码技术，其目的是去掉空间的冗余信息。MPEG-2AAC系统包含两种空间编码技术：M/S编码(Middle/SideEncoding)和声强/耦合(Intensity/Coupling)。M/S编码使用矩阵运算，因此把M/S编码称为矩阵立体声编码(MatrixedStereoCoding)。由于左右声道具有相关性，M/S编码不传送左右声道信号，而是使用标准化的“和”信号和“差”信号，前者用于中央M(Middle)声道，后者用于边S(Side)声道，来代替原来的左、右声道，因此M/S编码也叫做“和/差编码”(Sum-differenceCoding)。在编码时，不是每个频带都需要用M/S编码，只是左右声道相关性较强的子带采用M/S编码。标准对每个子带分别使用M/S编码和L/R编码两种方法进行了量化和编码，再根据两者中使用比特数较小的方法来决定是否使用M/S编码。声强/耦合编码的名称也很多，如声强立体声编码(IntensityStereoCoding)、声道耦合编码(ChannelCouplingCoding)等，它们探索的基本问题是声道间的不相关性(Irrelevance)。人耳听觉系统在听4kHz以上的信号时，双耳的定位对左右声道的强度差比较敏感，而对相位差不敏感。声强/耦合就利用这一原理，在某个频带以上的各子带使用左声道代表两个声道的联合强度，右声道的谱线置为零，不再参与量化和编码。做法为：将左右声道之频谱值相加，再乘上一个调整因子，最后将新的频谱系数送出。如下式所示：

6)预测(Predication)

在信号较平稳的情况下，利用时域预测可进一步减小信号的冗余度，在AAC编码器中预测是利用前面两帧的频谱来预测当前帧的频谱，再求预测的残差，然后对残差进行编码。预测使用经过量化后重建的频谱信号，具体步骤如下：

(1)使用前两帧的重建频谱信号预测当前帧的频谱。

(2)将当前频谱与预测频谱相减得到残差信号。

(3)对残差信号量化。

(4)对残差信号反量化，利用预测残差和预测值重建当前帧频谱信号。

(5)更新预测器。

7)量化器(Quantizer)

上述5个模块都可以达到数据压缩的目的，然而主要压缩工作是在量化与编码阶段完成的。

8)无噪声编码(NoiselessCoding)

无噪声动态范围压缩应用在Huffman编码前。在量化系数矩阵前可以放置±1作为基值偏差，标示频率位置，仅应用于有足够存储空间时。此编码最多有4种系数输入。

9)多比特转换(BitstreamMultiplexing)

AAC可以单纯地传送原始数据，也可利用先进的声音转换逻辑传送。

3.MPEG-2AAC解码流程

MPEG-2AAC(MainProfile)的解码流程如图6.16所示。解包模块从原始AAC码流中分离出数据和控制信息提供给各个相关工具；无噪声解码模块利用霍夫曼码本将频谱的编码数据变换成量化数据；编码端把每帧1024条谱线分成若干区，每个区由一种码本编码，解码端所需的码本和分区信息从控制信息中的编码分区数据中获得。图6.16MPEG-2AAC(MainProfile)解码器

AAC是个大家族，目前已经制定了如表6.7所示的几种规格，以适应不同场合的需要。

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《语音与音频编码》课件第6章

文档简介

温馨提示

最新文档

评论

《语音与音频编码》课件第6章

文档简介

温馨提示

最新文档

评论

相关文档