多媒体图像处理_声音_第1页
多媒体图像处理_声音_第2页
多媒体图像处理_声音_第3页
多媒体图像处理_声音_第4页
多媒体图像处理_声音_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、音频处理技术Audio Processing二 音频处理技术2.1音频信号及其概念n声音处理技术的历史2.1 2.1 声音与听觉声音与听觉n声音是通过空气传播的一种连续的波,这种连续声音是通过空气传播的一种连续的波,这种连续性表现在两个方面,一个是时间上的连续性,另性表现在两个方面,一个是时间上的连续性,另一方面是指它在幅度上是连续的。一方面是指它在幅度上是连续的。n音频信号的形式:语音与非语音2.1音频信号及其概念音频场景分析音频场景分析n模拟音频信号的物理特性2.1音频信号及其概念n声音由物体的振动产生,并通过介质传播的连续波声波传递的是分子的运动声音传播需要介质空气中的声速约为 340

2、米/秒n声音的频率频率:1秒钟内振动的次数人耳能听到的声音: 20Hz20kHz超声波 20kHz次声波 20Hzn声音的幅度幅度:声音的强弱(能量)周期周期幅度幅度n与声音有关的几个术语(主观心理量)2.1音频信号及其概念n音高、响度、音色为声音的三要素。n响度响度是人类主观感觉到的声音的强弱程度,取决于声音的幅度。频率和响度的关系:等响度曲线。n音高音高取决于声音的频率。频率越高,人耳听到的声音就越高,反之亦然,但非线性关系。 美尔(Mel)n音色音色是由混入基音的泛音所决定的,不同发音体所发出的音波都有自己的特异性,可分为纯音和复合音。痛阈痛阈闻阈闻阈n声音信号的三个重要参数声音信号的三

3、个重要参数: :频率频率(音调)(音调)带宽带宽(音色)(音色)振动幅度振动幅度(音强)。(音强)。n声音强弱体现在声音强弱体现在振幅振幅大小,其音调高低体现在大小,其音调高低体现在占占主导地位的基本频率主导地位的基本频率,声音的浑厚、饱满程度取,声音的浑厚、饱满程度取决于决于带宽带宽,即叠加在基频上的各种不同频率信号。,即叠加在基频上的各种不同频率信号。2.1音频信号及其概念 基频与音调基频与音调频率是指信号每秒钟变化的次数。人对声音频频率是指信号每秒钟变化的次数。人对声音频率的感觉表现为音调的高低,在音乐中称为音率的感觉表现为音调的高低,在音乐中称为音高。高。音调是由基频所决定的,音乐中音

4、阶的划分是音调是由基频所决定的,音乐中音阶的划分是在频率的对数坐标(在频率的对数坐标(20log)上取等分而得的。)上取等分而得的。2.1音频信号及其概念基频的高次谐波分量,也称为泛音。音色是基频的高次谐波分量,也称为泛音。音色是由混入基音的泛音的多少(带宽)所决定的,由混入基音的泛音的多少(带宽)所决定的,高次谐波越丰富高次谐波越丰富, ,音色就越有明亮感和穿透音色就越有明亮感和穿透力。不同的谐波具有不同的幅值和相位偏移,力。不同的谐波具有不同的幅值和相位偏移,由此产生各种音色效果。由此产生各种音色效果。n 幅度与音强幅度与音强人耳对于声音细节的分辨只有在强度适中时人耳对于声音细节的分辨只有

5、在强度适中时才最灵敏。人的听觉响应与强度成对数关系。才最灵敏。人的听觉响应与强度成对数关系。一般的人只能察觉出一般的人只能察觉出3 3分贝的音强变化。分贝的音强变化。 谐波与音色谐波与音色2.1音频信号及其概念用音量来描述音强,在处理音频信号时,一用音量来描述音强,在处理音频信号时,一般用动态范围来定义,以分贝(般用动态范围来定义,以分贝(dB=20logdB=20log)为单位。为单位。 动态范围动态范围2020log(log(信号的最大强度信号的最大强度/ /信号信号的最小强度的最小强度)(dB)(dB)动态范围越大,信号强度的相对变化范围越动态范围越大,信号强度的相对变化范围越大,音响效

6、果越好。大,音响效果越好。2.1音频信号及其概念 音频频率划分:音频频率划分:人的听觉器官能感知的频率范围为人的听觉器官能感知的频率范围为2020kHz ,能能感知的声音幅度范围在感知的声音幅度范围在0120dB之间,而人的发之间,而人的发音器官能够发出的声音频率范围为音器官能够发出的声音频率范围为803.4kHz。n 20kHz: 超声波(超声波(ultrasonic)信号)信号语音带宽语音带宽音频音频(audio)带宽带宽 20 300 3K 20K f (Hz)超声波超声波次声波次声波2.1音频信号及其概念n声音质量的评价2.1音频信号及其概念n客观评价客观评价n主观评价主观评价 评价值

7、的测量 声源的测量 音质的测量 信噪比(SNR, Signal to Noise Ratio) 平均判分(MOS, Mean Opinion Score), 通常使用5分制。n声音质量分级与带宽声音质量分级与带宽声音的质量与声音的带宽有关,一般来说频率范围越宽,声音质量也就越好。声音类型带 宽电话语音200Hz3.4kHz调幅广播(AM)50Hz7kHz调频广播(FM)20Hz15kHzCD20Hz20kHzn音频信号的频带越宽,所包含的音频信号分量音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。越丰富,音质越好。300Hz3.4kHz, 电话信号范围电话信号范围50Hz7kHz,A

8、M广播信号范围广播信号范围20Hz15kHz,FM广播信号范围广播信号范围20Hz20kHz,高保真声音,高保真声音(high-fidelity audio)的频率范围,带宽约的频率范围,带宽约20kHz电话电话CD-DA10 20 50 300 3.4K 7K 15K 22K f (Hz)AM广播广播FM广播广播n音频信号是一种连续变化的模拟信号音频信号是一种连续变化的模拟信号, ,可用一条连可用一条连续的曲线来表示,称为声波。它不仅在时间上是续的曲线来表示,称为声波。它不仅在时间上是连续的,而且在幅度上也是连续的。连续的,而且在幅度上也是连续的。n这个模拟信号曲线无论多复杂,在任一时刻都可

9、这个模拟信号曲线无论多复杂,在任一时刻都可分解成一系列正弦波的线性叠加。分解成一系列正弦波的线性叠加。2.2音频的数字化0110101111002.2音频的数字化n声音进入计算机的第一步就是数字化(A/D转换),数字化实际上就是采样采样、量化量化和编码编码。 声音数字化需要解决两个问题:声音数字化需要解决两个问题:每秒钟需要采集多少个声音样本,也就是每秒钟需要采集多少个声音样本,也就是采样频率(采样频率(fsfs)是多少;)是多少;每个声音样本的位数(每个声音样本的位数(bit per sample, bit per sample, bpsbps)应该是多少,也就是量化精度。)应该是多少,也就

10、是量化精度。 图图 声音的采样和量化声音的采样和量化2.2音频的数字化n采样(抽样,采样(抽样,sampling):将声音信号在时间上离散化,即每隔一段时间抽取一个信号样本。n采样频率采样频率(Sampling Rate) 奈奎斯特理论指出:采样频率不应低于声音信号最高频率的最高频率的两倍两倍,这样就能把以数字表达的声音还原成原来的声音,称为无损数字化。 f fs = 2f = 2fmax * 电话话音信号最高频率约为3.4kHz,所以采样频率取为8kHz。 采样频率采样频率根据奈奎斯特理论(根据奈奎斯特理论(Nyquist theory),采样频),采样频率不应低于声音信号最高频率的两倍,这

11、样就率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,即能把以数字表达的声音还原成原来的声音,即: fs 2f 或者或者 T T/2可以这样来理解奈奎斯特理论:声音信号可以可以这样来理解奈奎斯特理论:声音信号可以看成由许许多多正弦波组成的,一个振幅为、看成由许许多多正弦波组成的,一个振幅为、频率为频率为f f的正弦波至少需要两个采样样本表示的正弦波至少需要两个采样样本表示。 量化精度量化精度量化精度用每个声音样本的位数(量化精度用每个声音样本的位数(bit/s)表示)表示的,它反映度量声音波形幅度的精度。的,它反映度量声音波形幅度的精度。 例如,每个声音样本用例如,

12、每个声音样本用1616位表示,声音样本值位表示,声音样本值是在是在0 06553565535的范围里,它的精度就是输入信的范围里,它的精度就是输入信号的号的1/655361/65536。量化位数越多,声音的质量越高,需要的存储量化位数越多,声音的质量越高,需要的存储空间也越多;位数越少,声音的质量越低,需空间也越多;位数越少,声音的质量越低,需要的存储空间越少。要的存储空间越少。2.2音频的数字化n量化(量化(quantization):):将连续的信号幅度离散化。如果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。 电压范围电压范围 量化量化(dec) 编码编码(bin) 0.5 0.

13、7 3 011 0.3 0.5 2 010 0.1 0.3 1 001 -0.1 0.1 0 000 -0.3 -0.1 -1 111 -0.5 -0.3 -2 110 -0.7 -0.5 -3 101 -0.9 -0.7 -4 100质量采样频率(kHz)样本精度单道声/立体声数据率(kb/s)频率范围(kHz)电话88单道声642003400AM11.0258单道声88507000FM22.05016立体声705.62015000CD44.116立体声1411.22020000DAT4816立体据率=采样频率量化精度声道数n如果不压缩,音频采样的数据量可由下式推算

14、:如果不压缩,音频采样的数据量可由下式推算:数据量数据量= =(采样频率(采样频率每个采样位数每个采样位数声道数)声道数)(kb/s/s)例如,一秒钟例如,一秒钟CD高保真立体声的数据量为:高保真立体声的数据量为: (44.1kHz16位位2声道)声道) = 1411.2 kb/s = 1411200/8 字节字节 = 176400字节字节 = 172.26 KB量化精度的信噪比量化精度的信噪比(signal-to-noise ratio, SNR )表示方法:表示方法:如果用如果用Vsignal 表示信号电压,表示信号电压,Vnoise表示噪声电表示噪声电压,则压,则SNR(单位:分贝,(单

15、位:分贝,dB)用下式计算:用下式计算:)/log(20)/()log(1022NoiseSignalNoiseSignalVV VVSNR例例2.1 假设假设Vnoise=1,量化精度为量化精度为1位表示位表示Vsignal=21,它的信噪比它的信噪比 SNR=6dB 例例2.2 假设假设Vnoise=1,量化精度为量化精度为16位表示位表示Vsignal=216 ,它的信噪比,它的信噪比SNR=96dB 2.2音频的数字化n编码(编码(Coding):):是指按把经过采样和量化得到的离散数据(脉冲数字信号)记录下来,并在有效的数据中加入一些用于纠错、同步和控制的数据。n脉冲编码调制(PCM

16、,Pulse Code Modulation) 把模拟信号转换为数字信号的一种调制方式 。n量化误差:模拟信号经过采样和量化,然后用有限个二进制代码代表量化后的幅度,在编码时引入量化误差,在解码时无法消除,即引入了噪声,降低了信噪比(SNR)。电话采用A率标准,SNR35dB。2.2音频压缩编码与标准n目的:目的:减少存储空间,尽量保证音质。n依据依据: (a)冗余。冗余。通过识别和去除冗余,达到压缩目的。 (b)人耳特性。人耳特性。如掩蔽效应,它是指一个强音能抑制一 个同时存在的弱音。 (c)相关性。相关性。对声音波形采样后,相邻样值间存在相关性。n编码方式:编码方式: (a) 波形编码:P

17、CM、APCM、ADPCM (b) 参数编码:语音参数基音周期、共振峰、语音谱,声强等。LPC (c) 混合编码:CELP, MELP2.2 语音编码语音编码2.2.1 2.2.1 话音编码概要话音编码概要2.2.2 2.2.2 波形编译码器波形编译码器2.2.3 2.2.3 音源编译码器音源编译码器2.2.4 2.2.4 混合编译码器混合编译码器2.2.1 2.2.1 语音编码概要语音编码概要n音频压缩编码技术分类:音频压缩编码技术分类:n有损编码中的三种语音编译码器有损编码中的三种语音编译码器 波形编译码器(波形编译码器(waveform codec):根据人):根据人耳听觉特性进行采样量

18、化,达到压缩数据的耳听觉特性进行采样量化,达到压缩数据的目的。如目的。如A律、律、律非均匀量化,将量化误律非均匀量化,将量化误差留给出现概率小的采样值。适用于高质量差留给出现概率小的采样值。适用于高质量音频、音乐信号。声音质量高,但数据率也音频、音乐信号。声音质量高,但数据率也很高。很高。 音源(参数)编译码器(音源(参数)编译码器(source codec):):将音频信号看成某种模型,利用特征提取方将音频信号看成某种模型,利用特征提取方法抽取必要的模型参数和激励信号的信息,法抽取必要的模型参数和激励信号的信息,对这些信息进行编码。压缩率很大,但计算对这些信息进行编码。压缩率很大,但计算量大

19、,保真度不高,适合于语音编码。量大,保真度不高,适合于语音编码。混合编译码器(混合编译码器(hybrid codec):数据率和):数据率和音质介于上述两者之间。音质介于上述两者之间。 普通编译码器音质与数据率普通编译码器音质与数据率 数据压缩的主要依据是人耳朵的听觉特性,使数据压缩的主要依据是人耳朵的听觉特性,使用用“心理声学模型心理声学模型”来达到压缩声音数据的目来达到压缩声音数据的目的的:q听觉系统中存在一个听觉阈值电平听觉系统中存在一个听觉阈值电平q听觉掩饰特性听觉掩饰特性2.2.2 2.2.2 波形编译码器波形编译码器 n波形编译码的基本想法:不利用生成话音信号的波形编译码的基本想法

20、:不利用生成话音信号的任何知识来重构,而是与原始话音波形尽可能一任何知识来重构,而是与原始话音波形尽可能一致。致。n该编译码器的复杂程度较低,数据速率在该编译码器的复杂程度较低,数据速率在 16kb/s16kb/s以上,质量相当高;低于这个数据速率时,音质以上,质量相当高;低于这个数据速率时,音质急剧下降。急剧下降。n最简单的波形编码是脉冲编码调制最简单的波形编码是脉冲编码调制(pulse code modulation, PCM),它仅对输入信号进行采样,它仅对输入信号进行采样和量化。和量化。 nPCM PCM编码是对连续语音信号进行空间采样、幅度量化及 用适当码字将其编码的总称。 PCM量

21、化:均匀、非均匀、自适应。n均匀量化与非均匀量化:均匀量化与非均匀量化:均匀量化就是采用相同的均匀量化就是采用相同的“等分尺等分尺”来度量采来度量采样得到的幅度;样得到的幅度;采用相同的量化间隔,幅度范围N=2B(B为量化位数)均匀量化脉冲编码调制的不足:为满足听觉上的效果,要使用较多的量化位数,因而数据量大,需要较多的存储空间。n均匀量化均匀量化PCMn非均匀量化非均匀量化PCM利用语音信号幅度的统计特性,量化区间在遇到大幅度信号时变大,在遇到小幅度信号时变小。根据语音抽样非均匀分布的特点,设法让量化阶距随信号的概率密度的减少而增大,或者说把大的量化误差留给出现概率小的样值,从而得到较大的信

22、噪比,又保证了足够大的动态范围。人耳对语音信号能量感知呈现对数规律。量化前用对数函数将幅度压缩,解码后再用指数函数进行幅度扩张。均匀量化无论对大的输入信号还是小的输入均匀量化无论对大的输入信号还是小的输入信号一律都采用相同的量化间隔。为了适应信号一律都采用相同的量化间隔。为了适应大幅度输入信号,同时满足精度要求,就需大幅度输入信号,同时满足精度要求,就需要增加样本的位数。要增加样本的位数。但是,对话音信号来说,大信号出现的机会但是,对话音信号来说,大信号出现的机会并不多,增加的样本位数就没有充分利用。并不多,增加的样本位数就没有充分利用。为了克服这个不足,出现了非均匀量化的方为了克服这个不足,

23、出现了非均匀量化的方法,也叫做非线性量化。法,也叫做非线性量化。非线性量化的基本思想:对输入信号进行量非线性量化的基本思想:对输入信号进行量化时,大的输入信号采用大的量化间隔,小化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。的输入信号采用小的量化间隔。 例如,典型的窄带话音带宽限制在例如,典型的窄带话音带宽限制在4kHz,采采样频率是样频率是8kHz。如果要获得高一点的音质,。如果要获得高一点的音质,样本精度要用样本精度要用12 位,其数据率为位,其数据率为96kb/s;若用非线性量化的对数量化器(若用非线性量化的对数量化器(logarithmic quantizer),

24、它产生的样本精度为它产生的样本精度为8位,它的位,它的数据率为数据率为64kb/s时,重构的话音信号几乎与时,重构的话音信号几乎与原始的话音信号没有什么差别原始的话音信号没有什么差别。这些波形编译码器是在时域里实现的,在时这些波形编译码器是在时域里实现的,在时域 里 的 编 译 码 方 法 称 为 时 域 法 (域 里 的 编 译 码 方 法 称 为 时 域 法 ( time domain approach)。)。nm m律律(m m -law)、A律(律(A-law)压扩()压扩(companding)m m律压扩主要用于北美和日本地区数字电话通律压扩主要用于北美和日本地区数字电话通信,信,

25、A律主要用于欧洲和中国地区;均为对数律主要用于欧洲和中国地区;均为对数或近似对数非线性量化;或近似对数非线性量化;对于采样频率为对于采样频率为8KHz, 样本精度为样本精度为13位、位、14位位或者或者16位的输入信号,使用位的输入信号,使用m m律压扩编码或者律压扩编码或者使用使用A律压扩编码,经过律压扩编码,经过PCM编码器之后每个编码器之后每个样本的精度为样本的精度为8位,输出的数据率为位,输出的数据率为64kb/s。这。这个就是个就是CCITT推荐的推荐的G.711标准。标准。其优点是编译码器简单,延延时间短,音质高;其优点是编译码器简单,延延时间短,音质高;不足之处是数据速率比较高,

26、对传输通道的错不足之处是数据速率比较高,对传输通道的错误比较敏感。误比较敏感。 2.3音频压缩编码与标准nA 律 (A-law) 欧洲标准n律(-law)北美和日本标准律公式: 其中Xmax是信号x(n)得最大幅度,是控制压缩程序的参数(最大量化间隔与最小量化间隔之比),越大压缩就越厉害。)()1ln(x(n)1ln)(maxmaxnxsignXXnymm对数对数PCM(LOG-PCM)对数对数:压扩特性压扩特性 m律压律压( (缩缩) )扩扩( (展展) )算法算法 m律压扩输入输出成对数关系按照下式确定律压扩输入输出成对数关系按照下式确定量化输入和输出的关系:量化输入和输出的关系: 式中:

27、式中:x为输入信号幅度,规格化成为输入信号幅度,规格化成-1 x 1; sgn(x)为为x的极性;的极性;m为确定压缩量的参数,它为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比,取反映最大量化间隔和最小量化间隔之比,取100 m 500。)1ln(|)|1ln()sgn()(mmmxxxFA律律(A-Law)压扩按下面的式子确定量化输入和压扩按下面的式子确定量化输入和输出的关系:输出的关系: 式中:式中:x为输入信号幅度,规格化成为输入信号幅度,规格化成-1 x 1,sgn(x)为为x的极性;的极性;A为确定压缩量的参数,它为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比。反

28、映最大量化间隔和最小量化间隔之比。 A律压律压( (缩缩) )扩扩( (展展) )算法算法1|/1),ln1/(|)|ln1)(sgn(/1|0 ,ln1/()()sgn()(xAAxAxAxAxAxxFAn差分脉冲编码调制差分脉冲编码调制DPCM (differential pulse code modulation, DPCM)对预测的样本对预测的样本值与原始的样本值之差进行编码值与原始的样本值之差进行编码 。n预测技术预测技术:用过去的样本去估算下一个样本信:用过去的样本去估算下一个样本信号的幅度大小,这个值称为预测值号的幅度大小,这个值称为预测值 。根据是认。根据是认为在话音样本之间存

29、在相关性,如果样本的预为在话音样本之间存在相关性,如果样本的预测值与样本的实际值比较接近,它们之间的差测值与样本的实际值比较接近,它们之间的差值幅度的变化就比原始话音样本幅度值的变化值幅度的变化就比原始话音样本幅度值的变化小,因此量化这种差值信号时就可以用较少的小,因此量化这种差值信号时就可以用较少的位数表示值;位数表示值;预测误差预测误差n自适应差分脉冲编码调制编码(自适应差分脉冲编码调制编码(adaptive differential PCM, ADPCM)根据输入信根据输入信号幅度大小来改变量化步长,并用过去样本值号幅度大小来改变量化步长,并用过去样本值估算下一个输入的预测值的一种编码技

30、术。它估算下一个输入的预测值的一种编码技术。它用较小量化步长编码小的差值,用大的步长编用较小量化步长编码小的差值,用大的步长编码大的差值,以克服码大的差值,以克服DPCM对幅度急剧变化的对幅度急剧变化的输入信号会产生比较大的噪声的缺陷。输入信号会产生比较大的噪声的缺陷。n在在20世纪世纪80年代,国际电话与电报顾问委员会年代,国际电话与电报顾问委员会(CCITT),现改为国际电信联盟(),现改为国际电信联盟(ITU-TSS),就制定了数据率为),就制定了数据率为32kb/s的的ADPCM标标准,它的音质非常接近准,它的音质非常接近64kb/s的的PCM编译码器。编译码器。 n频域法频域法(fr

31、equency domain approach) 子带子带编码编码(sub-band coding, SBC)输入时话音信号被分成好几个频带(子带),输入时话音信号被分成好几个频带(子带),变换到每个子带中的话音信号都用变换到每个子带中的话音信号都用ADPCM进进行独立编码。在接收端,每个子带中的信号单行独立编码。在接收端,每个子带中的信号单独解码之后重新组合,然后产生重构话音信号;独解码之后重新组合,然后产生重构话音信号;优点是每个子带中的噪声信号仅仅与该子带使优点是每个子带中的噪声信号仅仅与该子带使用的编码方法有关系。对听觉感知比较重要的用的编码方法有关系。对听觉感知比较重要的子带信号,可

32、分配比较多的位数,在这些频率子带信号,可分配比较多的位数,在这些频率范围里噪声就比较低。对于其他的子带,由于范围里噪声就比较低。对于其他的子带,由于对听觉感知的重要性比较低,允许比较高的噪对听觉感知的重要性比较低,允许比较高的噪声,于是可以分配比较少的位数来表示。声,于是可以分配比较少的位数来表示。 2.2.3 2.2.3 音源编译码器音源编译码器 n音源编译码的思想是试图从话音波形信号中提音源编译码的思想是试图从话音波形信号中提取生成话音的参数,使用这些参数通过话音生取生成话音的参数,使用这些参数通过话音生成模型重构出话音。针对话音的音源编译码器成模型重构出话音。针对话音的音源编译码器称做声

33、码器(称做声码器(vocoder)。)。 n在话音生成模型中,声道被等效成一个随时间在话音生成模型中,声道被等效成一个随时间变化的滤波器,叫做时变滤波器(变化的滤波器,叫做时变滤波器(time-varying filter),它由白噪声它由白噪声无声话音段激无声话音段激励,或脉冲串励,或脉冲串有声激励构成。有声激励构成。n需要传送给解码器的信息就是滤波器的规格、需要传送给解码器的信息就是滤波器的规格、发声或者不发声的标志和有声话音的音节周期,发声或者不发声的标志和有声话音的音节周期,并且每隔并且每隔1020ms更新一次。更新一次。n声码器的模型参数既可使用时域的方法也可用频声码器的模型参数既可

34、使用时域的方法也可用频域的方法确定,这项任务由编码器完成。域的方法确定,这项任务由编码器完成。n声码器的数据率在声码器的数据率在 2.4kb/s 左右,产生的语音虽然左右,产生的语音虽然可以听懂,但其质量远远低于自然话音。可以听懂,但其质量远远低于自然话音。n增加数据率对提高合成话音的质量无济于事,这增加数据率对提高合成话音的质量无济于事,这是因为受到声音生成模型的限制,但由于其保密是因为受到声音生成模型的限制,但由于其保密性能好,因此这种编译码器一直用在军事上。性能好,因此这种编译码器一直用在军事上。3.4 3.4 混合编译码器混合编译码器n混合编译码的想法是企图填补波形编译码和音混合编译码

35、的想法是企图填补波形编译码和音源编译码之间的间隔。源编译码之间的间隔。n波形编译码器虽然可提供高话音的质量,但数波形编译码器虽然可提供高话音的质量,但数率低于率低于16kb/s时,在技术上还没有解决音质的时,在技术上还没有解决音质的问题;声码器的数据率虽然可降到问题;声码器的数据率虽然可降到2.4kb/s 甚至甚至更低,但它的音质根本不能与自然话音相比。更低,但它的音质根本不能与自然话音相比。n目前最为成功并普遍使用的编译码器是时域合目前最为成功并普遍使用的编译码器是时域合成成-分析(分析(analysis-by-synthesis, AbS)编译码)编译码器。包括:线性预测编码(器。包括:线

36、性预测编码(linear predictive coding, LPC,码激励线性预测(,码激励线性预测(code excited linear predictive, CELP) nA b S 编 译 码 器 把 输 入 话 音 信 号 分 成 许 多 帧编 译 码 器 把 输 入 话 音 信 号 分 成 许 多 帧(frames),通常每帧的长度为),通常每帧的长度为20ms。合成滤波。合成滤波器的参数按帧计算,然后确定各项激励参数。器的参数按帧计算,然后确定各项激励参数。 nAbS编码器是一个负反馈系统,通过调节激励信编码器是一个负反馈系统,通过调节激励信号使重构的话音与实际的话音最接近

37、,即编码器号使重构的话音与实际的话音最接近,即编码器通过通过“合成合成”许多不同的近似值来许多不同的近似值来“分析分析”输入输入话音信号。话音信号。n在表示每帧的合成滤波器的参数和激励信号确定在表示每帧的合成滤波器的参数和激励信号确定之后,编码器就把它们存储起来或者传送到译码之后,编码器就把它们存储起来或者传送到译码器。在译码器端,激励信号馈送给合成滤波器,器。在译码器端,激励信号馈送给合成滤波器,合成滤波器产生重构的话音信号。合成滤波器产生重构的话音信号。 nCELP编译码器在话音通信中取得了很大的成编译码器在话音通信中取得了很大的成功,话音的速率在功,话音的速率在4.816kb/s之间。之

38、间。n数据率为数据率为2.464kb/s的部分编码器的部分编码器MOS分数分数如下:如下: 编编 码码 器器MOS64kb/s脉冲编码码调制脉冲编码码调制(PCM)4.332kb/s自适应差分脉冲编码调制自适应差分脉冲编码调制(ADPCM)4.116kb/s低时延码激励线性预测编码低时延码激励线性预测编码(LD-CELP)4.08kb/s码激励线性预测编码码激励线性预测编码(CELP)3.73.8kb/s码激励线性预测编码码激励线性预测编码(CELP)3.02.4kb/s线性预测编码线性预测编码(LPC)2.5 ITU-T G系列声音压缩标准系列声音压缩标准nG.7111972年年CCITT为

39、电话质量和语音压缩制定了为电话质量和语音压缩制定了PCM标准标准G.711。其速率为。其速率为64kb/s,使用,使用律或律或A律的非线性量化技术,主要用于公共电话网律的非线性量化技术,主要用于公共电话网中。中。nG.7221988年年CCITT为调幅广播质量的音频信号压缩为调幅广播质量的音频信号压缩制定了制定了G.722标准,它使用子带编码标准,它使用子带编码(SBC)方案,方案,其滤波器组将输入信号分成高低两个子带信号,其滤波器组将输入信号分成高低两个子带信号,然后分别使用然后分别使用ADPCM进行编码。进行编码。G.722能将能将224kb/s的调幅广播质量的音频信号的调幅广播质量的音频

40、信号压缩为压缩为64kb/s,主要用于视听多媒体和会议电,主要用于视听多媒体和会议电视等。视等。G.722的主要目标是保持的主要目标是保持64kb/s的数据率,的数据率,而音频信号的质量要明显高于而音频信号的质量要明显高于G.711的质量。的质量。nG.7231996年年ITU-T通过了通过了G.723标准标准“用于多媒用于多媒体传输的体传输的5.3kb/s或或6.3kb/s双速率话音编码双速率话音编码”。它采用多脉冲激励最大似然量化它采用多脉冲激励最大似然量化(MP-MLQ)算算法,此标准可应用于可视电话及法,此标准可应用于可视电话及IP电话等系统电话等系统中。中。nG.728为了进一步降低

41、压缩的速率,为了进一步降低压缩的速率,CCITT于于1992年制定了年制定了G.728标准,使用基于低时延码本标准,使用基于低时延码本激励线性预测编码激励线性预测编码(LD-CELP)算法,其速率算法,其速率为为16kb/s,主要用于公共电话网中。,主要用于公共电话网中。nG.729ITU-T于于1996年年3月通过了月通过了G.729标准,它使标准,它使用用8kb/s的共轭结构代数码激励线性预测的共轭结构代数码激励线性预测(CS-ACELP)算法,此标准将在无线移动网、算法,此标准将在无线移动网、数字多路复用系统和计算机通信系统中应用。数字多路复用系统和计算机通信系统中应用。 部分声音压缩编

42、码方法比较部分声音压缩编码方法比较2.3音频压缩编码与标准n自适应PCM量化APCM 自适应PCM量化是指量化器的特性自适应于输入信号幅度的变化,即一个自适应量化器的量化间隔自适应的改变,并与输入信号的幅度方差保持相匹配。也可在一个固定的量化器前加一个自适应增益控制,使进入量化器的输入信号方差保持为固定的常数。两种方法是等效的。APCM可进一步提高信噪比(与LOG-PCM相比)。2.3音频压缩编码与标准n压缩编码标准: 1972年,ITU G.711标准,8kHz, 16bit,输入信号经律或A律PCM,64kb/s1984年,ITU G.721,采用ADPCM: 适用于3003400Hz窄带

43、语音信号,32kb/sITU G.722,507000Hz宽带语音信号,数据速率为64kb/s ,ISDN的B通道上传输音频数据。1989年开始,ITU 16kb/s,欧洲为GSM制定的RPE-LTP (13kb/s),美国CTLA标准ISO MPEG音频分三个层次(Layer1,2,3MP1,2,3)n音频编码算法 和标准一览 2.3音频压缩编码与标准nMPEG Audio Layer 3 MP3 “感官编码技术感官编码技术”:实验表明,人类能听到的声音频率范围是20Hz20kHz,但人耳对整个音频频段声音的反应不是平直的,25kHz是人耳最灵敏的频段。依其特性将整个音频频段分成多个分成多个

44、临界频带临界频带,因为人类听觉系统是依据频率来分辨声音能量的,任何频率 的细小声音都会因掩蔽效应而被临界频带内音量较高的声音所覆盖(掩蔽效应掩蔽效应)。MP3对其不作量化处理,从而去掉那些人类听觉系统所无法察觉的声音,达到压缩的目的。MP3:子带编码、辅助子带编码、非均匀量化、熵编码 有损压缩方式,但它以极小的声音失真换来较高的压缩比 l MP1压缩率1:4l MP2压缩率1:61:8l MP3压缩率1:101:122.4常见音频文件 又称为波形文件,微软公司音频文件,采用又称为波形文件,微软公司音频文件,采用RIFF格式描述。该格格式描述。该格式记录了声音的波形,它不对数据进行压缩,所以文件

45、很大,但只要式记录了声音的波形,它不对数据进行压缩,所以文件很大,但只要“拾音拾音”设备足够好,制作的声音质量可以达到专业级水平。设备足够好,制作的声音质量可以达到专业级水平。文件大小计算公式:文件大小计算公式:S=RD(r/8) N Creative公司用标准音频格式,与公司用标准音频格式,与WAV格式类似,由文件头和音频格式类似,由文件头和音频数据组成。数据组成。如:激光唱盘(CD)一分钟音乐需要的存储量为:44.110006016/82=10,584,000B(字节)=10.1MB2.4常见音频文件 采用MPEG Audio 的Layer-3压缩方案,压缩比达到1:101:12,用一张M

46、P3 CD可以容纳大约10张激光唱片的歌曲,是目前网上常用的音乐格式。 MP4以MPEG2 AAC为基础发展而来。它的特点是音质更加完美而压缩比更大(1:15-1:20)。与MP3一样采用删除人耳不能分辨频率的方式减小数据量,但是MP4又增加了诸如对立体声的完美再现、比特流效果音扫描、多媒体控制、降噪等MP3没有的特性,使得在音频压缩后仍能完美的再现CD的音质。2.4常见音频文件 RealNetwork公司的RealAudio格式,它的压缩比很大,非常适合在网上实时播放,是现在网络实时播放的主要格式之一。 Audio Interchange File Format, 音频交换文件格式,是苹果公

47、司Macintosh平台及其应用程序支持。 激光唱片的格式,记录的是波形流,纯正、HIFI。采样位数多为16位,现在也经常看到20位、24位、36位采样录音CDA。缺点是无法编辑和文件长度太大。2.4常见音频文件 作为音乐工业的数据通信标准,MIDI是一种专业性的语言,他的科学性、兼容性、复杂程度等各方面都是最高的。回放效果也是最好的。 微软开发中的WMT 4.0(Windows Media Technology)的一个组件。最受人瞩目的是其著作权保护技术。在WMT 4.0中包括有“著作权管理”功能,通过它著作权人可以保护自己的著作权。在压缩技术方面WMAudio着眼于使用28.8kbps的M

48、ODEM达到FM水准的音质,下载速度比MP3快两倍左右,而存贮空间只有一半。无论从技术性能还是压缩率上,WMA都比MP3好。 附:WAV文件头格式Typedef struct DWORDrftype; DWORDwbSize; DWORDwftype; DWORDftype; DWORDBlockSize; WORD wFormatTag; WORDnChannels; DWORDnSamplesPerSec; DWORDnAvgBytesPerSec; DWORDnBlockAlign; WORDwBitsPerSample; DWORDdataflag; DWORDfSize; PCMWAVEFORMAT;l WAV文件开始是46个字节的文件头,之后是波形数据。文件头如下:n乐器数字接口(乐器数字接口(Musical Instrument Digital Interface, MIDI)是用于在音乐合成器)是用于在音乐合成器(music synthesizers)、乐器()、乐器(musical instruments)和计算机之间交换音乐信息的一)和计算机之间交换音乐信息的一种标准协议。种标准协议。nMIDI是乐器和计算机使用的一套标准语言和是乐器和计算机使用的一套标准语言和指令。指示乐器(即指令。指示乐器(即MIDI设备)要做什么,设备)要做什么,怎么做,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论