语音处理的基本知识

上传人：5*** IP属地：湖北上传时间：2021-11-26 格式：PPT 页数：94 大小：1005.50KB 积分：30 举报 版权申诉

已阅读5页，还剩89页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第第2 2章章数字音频信号数字音频信号处理技术处理技术2.1 数字音频基础数字音频基础2.2 数字音频压缩技术数字音频压缩技术2.3 计算机音乐计算机音乐2.4 数字语音处理技术数字语音处理技术音频处理技术的研究意义音频处理技术的研究意义声音声音(音频音频)是信息交流的一种主要手段，是数是信息交流的一种主要手段，是数字媒体信息的重要组成部分；字媒体信息的重要组成部分；信息技术、计算机技术和网络技术的迅猛发展，信息技术、计算机技术和网络技术的迅猛发展，使音频处理技术受到重视并得到广泛应用，需求使音频处理技术受到重视并得到广泛应用，需求也日益多样。也日益多样。2.1 2.1 数字音频基础数字音频

2、基础n声音的物理描述声音的物理描述n产生原理产生原理n物理特性物理特性n听觉特性听觉特性n声音信号数字化声音信号数字化n声音质量评价声音质量评价（1 1）声音简介）声音简介音频信号音频信号声音是听觉器官对声波的感知，人们之所以声音是听觉器官对声波的感知，人们之所以能听到各种声音，是因为不同频率的声波通过能听到各种声音，是因为不同频率的声波通过空气产生振动，对人耳刺激的结果。空气产生振动，对人耳刺激的结果。声波是声源产生的，通过空气或其他媒体传声波是声源产生的，通过空气或其他媒体传播的连续振动的波。播的连续振动的波。因声波是在时间和幅度上都连续变化的量，因声波是在时间和幅度上都连续变化的量，声波

3、是一种连续变化的模拟信号，可用一条连声波是一种连续变化的模拟信号，可用一条连续的曲线来表示，称为续的曲线来表示，称为声波声波，或者叫做，或者叫做音频信音频信号号。（1 1）声音简介）声音简介n用函数关系表示模拟声波时，它是在时间和用函数关系表示模拟声波时，它是在时间和幅度上都是连续的一维模拟信号，如图幅度上都是连续的一维模拟信号，如图1所示所示图图1 1 声音是一种连续的波声音是一种连续的波（1 1）声音简介）声音简介模拟音频信号基本参数：频率和幅度。模拟音频信号基本参数：频率和幅度。音频信号的幅度是从信号的基线到当前波峰的距离。幅音频信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号

4、音量的强弱程度。幅度越大，声音越强。度决定了信号音量的强弱程度。幅度越大，声音越强。一般用声压（达因平方厘米）或声强（瓦特平方厘一般用声压（达因平方厘米）或声强（瓦特平方厘米）。米）。声源每秒钟可产生成百上千个波峰，每秒钟波峰所发生声源每秒钟可产生成百上千个波峰，每秒钟波峰所发生的数目就是音频信号的频率，声音的频率体现音调的高的数目就是音频信号的频率，声音的频率体现音调的高低。低。声音的强弱体现在声波压力的大小上，音声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。调的高低体现在声音的频率上。（1 1）声音简介）声音简介声音的量化参数：声音的量化参数：n强度：强度：dBn 动物

5、的呼吸声大约为动物的呼吸声大约为20dB，人们正常谈话的声音约为，人们正常谈话的声音约为60dB，汽车鸣笛的声音约为，汽车鸣笛的声音约为100dB，飞机起飞的声音约，飞机起飞的声音约为为120dB，超过，超过120dB会使人感到痛苦。会使人感到痛苦。n频率：频率：Hzn 高保真声音高保真声音(high-fidelity audio): 10 20 000 Hzn 声音声音(audio): 20 20 000Hzn 话音话音(speech): 3003000/3400 Hzn 亚音亚音/次音次音(subsonic): 20 000 Hzn相位相位: 波的位置。波的位置。复杂的声音是由多个不同振

6、幅、频率、相位的正弦复杂的声音是由多个不同振幅、频率、相位的正弦波组成波组成（1 1）声音简介）声音简介n声音的听觉特性：声音的听觉特性：n目前主要研究人的心理声学和语言声学目前主要研究人的心理声学和语言声学特性。特性。n听觉心理的主观感受包括：响度、音高、听觉心理的主观感受包括：响度、音高、音色、音量、噪声、听觉掩蔽、定位等。音色、音量、噪声、听觉掩蔽、定位等。（1 1）声音简介）声音简介n对响度的感知对响度的感知声音的响度就是声音的强弱声音的响度就是声音的强弱n在物理上，用在物理上，用dyn/cm2(达因达因/平方厘米平方厘米)(声压声压)或或W/cm2(瓦特瓦特/平方厘米平方厘米)(声强

7、声强)度量度量n在心理上，主观感觉的声音强弱使用响度级在心理上，主观感觉的声音强弱使用响度级“方方(phon)”或或“宋宋(sone)”来度量来度量n这两种计量单位完全不同，但它们之间有一定这两种计量单位完全不同，但它们之间有一定的联系的联系人耳的听觉范围人耳的听觉范围n听阈：当声音弱到人耳朵刚可听见时的声音强听阈：当声音弱到人耳朵刚可听见时的声音强度度n痛域：声音强到使人耳感到疼痛时的声音强度痛域：声音强到使人耳感到疼痛时的声音强度n听觉范围：位于听阈和痛域之间，见图听觉范围：位于听阈和痛域之间，见图2 （1 1）声音简介）声音简介图图2 2 “听阈听阈频率频率”曲线和曲线和“痛阈痛阈频率频

8、率”曲线曲线（1 1）声音简介声音简介n对音高对音高(频率频率)的感知的感知n客观上用频率表示声音的音高，其单位是客观上用频率表示声音的音高，其单位是Hz。而主观感觉的音高单位则是而主观感觉的音高单位则是“美美(Mel)”。Hz和和Mel不同但有联系不同但有联系n主观音高与客观音高的关系为主观音高与客观音高的关系为21000log (1)Melf其中，其中，f 的单位为的单位为HzHz，人耳对频率的感知范围，可以听到人耳对频率的感知范围，可以听到最低频率约最低频率约20 Hz最高频率约最高频率约20000 Hz （1 1）声音简介声音简介n测量主观音高时，让实验者听两个声强级为测量主观音高

9、时，让实验者听两个声强级为40dB的纯音，的纯音，固定其中一个纯音的频率，调节另一个纯音的频率，直固定其中一个纯音的频率，调节另一个纯音的频率，直到他感到后者的音高为前者的两倍，就标定这两个声音到他感到后者的音高为前者的两倍，就标定这两个声音的音高差为两倍。测出的的音高差为两倍。测出的“音高音高频率频率”曲线见图曲线见图3 图图3 3 “音高音高频率频率”曲线曲线（1 1）声音简介）声音简介n掩蔽效应掩蔽效应n一种频率的声音阻碍听觉系统感受另一种频一种频率的声音阻碍听觉系统感受另一种频率的声音的现象率的声音的现象n前者称为掩蔽声音前者称为掩蔽声音(masking tone)n后者称为被掩蔽声音

10、后者称为被掩蔽声音(masked tone)n掩蔽可分成频域掩蔽和时域掩蔽掩蔽可分成频域掩蔽和时域掩蔽（1 1）声音简介声音简介图图4 4 频域掩蔽频域掩蔽频域掩蔽频域掩蔽一个强纯音掩蔽在其附近同时发声的弱纯音的特一个强纯音掩蔽在其附近同时发声的弱纯音的特性，也称同时掩蔽性，也称同时掩蔽(simultaneous masking), 如图如图4所示所示（1 1）声音简介）声音简介n图图5中的一组曲线表示为中的一组曲线表示为250 Hz，1 kHz和和4 kHz纯音的掩蔽效应，它们的声强均为纯音的掩蔽效应，它们的声强均为60 dBn250 Hz，1 kHz和和4 kHz附近，对其他纯音的掩蔽

11、效果附近，对其他纯音的掩蔽效果最明显最明显n低频纯音可有效地掩蔽高频纯音，相反则不明显低频纯音可有效地掩蔽高频纯音，相反则不明显图图5 5 不同纯音的掩蔽效应曲线不同纯音的掩蔽效应曲线（1 1）声音简介）声音简介n时域掩蔽时域掩蔽n在时间上相邻的声音之间的掩蔽现象在时间上相邻的声音之间的掩蔽现象n一个强掩蔽音出现前、同时存在时或消失后的掩一个强掩蔽音出现前、同时存在时或消失后的掩蔽效果产生时域掩蔽的主要原因蔽效果产生时域掩蔽的主要原因n人的大脑处理信息需要花费一定的时间人的大脑处理信息需要花费一定的时间（1 1）声音简介）声音简介n同时掩蔽同时掩蔽(simultaneous masking)

12、：信号和掩蔽音同时：信号和掩蔽音同时产生的现象产生的现象n滞后掩蔽滞后掩蔽(post-masking)：信号出现在掩蔽音消失后出现：信号出现在掩蔽音消失后出现的现象，可以持续的现象，可以持续50200 ms n超前掩蔽超前掩蔽(pre-masking)：信号出现在掩蔽音出现之前产：信号出现在掩蔽音出现之前产生的现象。虽然对超前掩蔽有许多研究报告，但这种现象生的现象。虽然对超前掩蔽有许多研究报告，但这种现象依然令人费解。超前掩蔽很短，通常只有大约依然令人费解。超前掩蔽很短，通常只有大约220 ms，（1 1）声音简介）声音简介n临界频带临界频带(critical band)n当噪声掩蔽纯音时，起

13、作用的是以纯音频率为中心频率的一定频带宽度内的噪声频率。如这频带内的噪声功率等于在噪声中刚能听到的该纯音的功率，则这频带就称为听觉临界频带听觉临界频带。n临界频带表征了人类最主要的听觉特性,它是在研究纯音对窄带噪声掩蔽量的规律时被发现的,在加宽噪声带宽时,最初是掩蔽量增大,但带宽超过某一定值后,掩蔽量就不再增加,这一带宽就称为临界频带临界频带。n通常认为声音(audio)有25个临界频带，见表n临界频带的宽度随声音频率的变化而变化（1 1）声音简介）声音简介（2 2）模拟音频的数字化模拟音频的数字化数字化的概念数字化的概念如果要用计算机对音频信息进行处理，则首先要通如果要用计算机对音频信息进

14、行处理，则首先要通过过A/D（模（模/数）转换将模拟音频信号变成数字信号，数）转换将模拟音频信号变成数字信号，实现音频信号的数字化。实现音频信号的数字化。数字化的声音易于用计算机软件处理，现在几乎所数字化的声音易于用计算机软件处理，现在几乎所有的专业化声音录制器、编辑器都是数字的。有的专业化声音录制器、编辑器都是数字的。对模拟音频的数字化过程涉及到音频的对模拟音频的数字化过程涉及到音频的采样、量化采样、量化和编码和编码。当需要播放数字音频时，按照相反过程还原回模拟当需要播放数字音频时，按照相反过程还原回模拟音频音频声音信号的数字化过程声音信号的数字化过程模拟模拟声音声音信号信号采样采样量量化

15、化编编码码数字数字声音声音011010011101（a）采样和量化采样和量化连续时间的离散化通过采样来实现，就是每隔相等的连续时间的离散化通过采样来实现，就是每隔相等的一段时间采样一次，这种采样称为均匀采样一段时间采样一次，这种采样称为均匀采样连续幅度的离散化通过量化连续幅度的离散化通过量化(quantization)来实现，来实现，就是把信号的强度划分成一小段一小段，如果幅度的就是把信号的强度划分成一小段一小段，如果幅度的划分是等间隔的，就称为线性量化，否则就称为非线划分是等间隔的，就称为线性量化，否则就称为非线性量化。性量化。图图7 7 声音的采样、量化、编码声音的采样、量化、编码（2

16、 2）模拟音频的数字化模拟音频的数字化n影响数字音频质量的因素：影响数字音频质量的因素：n采样精度采样精度n采样频率采样频率n声道个数声道个数（2 2）模拟音频的数字化模拟音频的数字化采样频率采样频率采样频率由根据奈奎斯特理论采样频率由根据奈奎斯特理论(Nyquist theory)确定确定奈奎斯特理论指出，采样频率不应低于声音信号最高奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样就能把以数字表达的声音还原成频率的两倍，这样就能把以数字表达的声音还原成原来的声音，这叫做无损数字化原来的声音，这叫做无损数字化(lossless digitization)假设被采样信号的最高频

17、率为假设被采样信号的最高频率为fmax，则采样定律，则采样定律可用公式表示为可用公式表示为max2sff（2 2）模拟音频的数字化模拟音频的数字化n采样精度采样精度n度量声音波形幅度的精确程度，用每个声音样本度量声音波形幅度的精确程度，用每个声音样本的位数表示的位数表示n例如每个声音样本用例如每个声音样本用16位表示，测得的声音样本值是在位表示，测得的声音样本值是在065535范围里的数，它的精度是范围里的数，它的精度是1/65536n精度是在模拟信号数字化过程中度量模拟信号的最小单精度是在模拟信号数字化过程中度量模拟信号的最小单位，因此也称量化阶位，因此也称量化阶(quantization

18、 step size)n01 V的电压用的电压用256个数表示时，量化阶等于个数表示时，量化阶等于1/256 Vn样本位数的大小影响到声音的质量，位数越多，样本位数的大小影响到声音的质量，位数越多，声音质量越高，所需存储空间也越多；位数越少，声音质量越高，所需存储空间也越多；位数越少，声音质量就越低，所需存储空间也越少声音质量就越低，所需存储空间也越少（2 2）模拟音频的数字化模拟音频的数字化n声音质量和数据率声音质量和数据率质量度量质量度量质量质量采样频率采样频率(kHz)样本精度样本精度(bit/s)单道声单道声/立体声立体声(未压缩的未压缩的)数据率数据率(kb/s)频率范围频率范围

19、(Hz)电话电话*88单道声单道声64.0 2003 400AM11.0258单道声单道声88.22015000FM22.05016立体声立体声705.6507000CD44.116立体声立体声1411.22020000DAT4816立体声立体声1536.02020000（b b）编码）编码所谓编码，就是按照一定的格式把经过采样和量所谓编码，就是按照一定的格式把经过采样和量化得到的离散数据记录下来，用二进制数据表示，以后化得到的离散数据记录下来，用二进制数据表示，以后续达到可以形成数据文件进行存储的目的。并在有效的续达到可以形成数据文件进行存储的目的。并在有效的数据中加入一些用于纠错同步和控

20、制的数据。在数据回数据中加入一些用于纠错同步和控制的数据。在数据回放时，可以根据所记录的纠错数据判别读出的声音数据放时，可以根据所记录的纠错数据判别读出的声音数据是否有错，如果有错，可加以纠正。是否有错，如果有错，可加以纠正。音频信号编码常用的是音频信号编码常用的是波形编码波形编码方法，它是直接方法，它是直接对波形采样、量化和编码，算法简单，易于实现。而且，对波形采样、量化和编码，算法简单，易于实现。而且，声音恢复时能保持原有的特点，因此被广泛应用。声音恢复时能保持原有的特点，因此被广泛应用。此外还有此外还有参数编码、混合编码参数编码、混合编码等。等。（2 2）模拟音频的数字化模拟音频的

21、数字化编码方法编码方法（1）PCM（Pulse Code Modulation ）脉冲编码调制）脉冲编码调制PCM简称脉码调制，可以直接对声音信号做简称脉码调制，可以直接对声音信号做A/D转换，转换，用一组二进制数字编码表示，得到的是未经压缩的音频数用一组二进制数字编码表示，得到的是未经压缩的音频数据。这是一种最常用、最简单的编码方法。据。这是一种最常用、最简单的编码方法。PCM编码方法不需要复杂的信号处理技术就能实现瞬时编码方法不需要复杂的信号处理技术就能实现瞬时的数据的量化和还原，而且信噪比高。的数据的量化和还原，而且信噪比高。在解码后恢复的声音，只要采样频率足够高，量化位数在解码后恢复的

22、声音，只要采样频率足够高，量化位数足够多，就会有很好的质量。但是，这种对声音信号直接足够多，就会有很好的质量。但是，这种对声音信号直接量化的方法编码数据量很大，需要很高的传输速率。量化的方法编码数据量很大，需要很高的传输速率。编码方法编码方法PCM是概念上最简单、理论上最完善、最早研制成功、是概念上最简单、理论上最完善、最早研制成功、使用最为广泛、数据量最大的编码系统。使用最为广泛、数据量最大的编码系统。目前的声卡一般都具有目前的声卡一般都具有PCM编码和解码的功能。激光编码和解码的功能。激光唱盘（唱盘（CD-DA）记录声音时就采用这种方法，存储未）记录声音时就采用这种方法，存储未经压缩的数字

23、音频信号。经压缩的数字音频信号。编码方法编码方法算法思想：首先对音频信号进行算法思想：首先对音频信号进行律或律或A律压扩，也就律压扩，也就是放大小信号，抑制大信号，然后进行均匀量化，等是放大小信号，抑制大信号，然后进行均匀量化，等效于对小信号进行小量化级量化，对大信号进行大量效于对小信号进行小量化级量化，对大信号进行大量化级量化，使大小信号的量化信噪比趋于接近，从而化级量化，使大小信号的量化信噪比趋于接近，从而避免了小信号产生较大的量化噪声误差，而大信号却避免了小信号产生较大的量化噪声误差，而大信号却有不必要的高量化信噪比。有不必要的高量化信噪比。编码方法编码方法脉冲编码调制(PCM)n输入是

24、模拟信号，输出是输入是模拟信号，输出是PCM样本。样本。n防失真滤波器：低通滤波器，用来滤除声音频带以外的信号防失真滤波器：低通滤波器，用来滤除声音频带以外的信号n波形编码器：可理解为采样器波形编码器：可理解为采样器n量化器：可理解为量化器：可理解为“量化阶大小量化阶大小(step-size)”生成器或者称为生成器或者称为“量化间隔量化间隔”生成器。生成器。nPCM实际上是模拟信号数字化。实际上是模拟信号数字化。量化的方法量化的方法:均匀量化、非均匀量化均匀量化、非均匀量化n均匀量化均匀量化n采用相等的量化间隔采用相等的量化间隔/等分尺度量采样得到的信等分尺度量采样得到的信号幅度，也称为线性量

25、化。量化后的样本值号幅度，也称为线性量化。量化后的样本值Y和和原始值原始值X的差的差E=Y-X称为量化误差或量化噪声。称为量化误差或量化噪声。均匀量化编码方法编码方法编码方法编码方法n非均匀量化非均匀量化n大的输入信号采用大大的输入信号采用大的量化间隔，小的输的量化间隔，小的输入信号采用小的量化入信号采用小的量化间隔间隔n可在满足精度要求的可在满足精度要求的情况下用较少的位数情况下用较少的位数来表示来表示n声音数据还原时，采声音数据还原时，采用相同的规则用相同的规则非均匀量化编码方法编码方法DPCM （Differential Pulse Code Modulation）差分脉冲编码调制）

26、差分脉冲编码调制 DPCM编码是利用音频信号的相关性，通过只传编码是利用音频信号的相关性，通过只传输声音的预测值和样本值的差值来降低音频数据的编输声音的预测值和样本值的差值来降低音频数据的编码率的一种方法。它采用预测编码技术，实现音频数码率的一种方法。它采用预测编码技术，实现音频数据的压缩编码。据的压缩编码。因为音频信号一般不会发生突然变化，相邻的语因为音频信号一般不会发生突然变化，相邻的语音采样值之间存在很大的相关性，从一个采样值到相音采样值之间存在很大的相关性，从一个采样值到相邻的另一个采样值的差值要比样值本身小得多。利用邻的另一个采样值的差值要比样值本身小得多。利用预测编码方法建立预测

27、模型，通过预测器对未来的样预测编码方法建立预测模型，通过预测器对未来的样本进行预测，然后对样本值与预测器得到的预测值之本进行预测，然后对样本值与预测器得到的预测值之差进行量化和传输。差进行量化和传输。由于这个差值的幅度远远小于样由于这个差值的幅度远远小于样本值本身，需要较少的比特数来表示，这样可以降低本值本身，需要较少的比特数来表示，这样可以降低数据的编码率，从而使编码数据得到压缩。数据的编码率，从而使编码数据得到压缩。编码方法编码方法ADPCM（Adaptive Differential Pulse Code Modulation）自适应差分编码调制）自适应差分编码调制在实际使用中，由于输

28、入信号的不稳定性，造成在实际使用中，由于输入信号的不稳定性，造成DPCM方法的信噪比大大降低。因此在方法的信噪比大大降低。因此在DPCM编码中加入编码中加入自适应的方法，就形成了自适应差分编码调制（自适应的方法，就形成了自适应差分编码调制（ADPCM）方案。所以，方案。所以，ADPCM是对是对DPCM方法的改进，通过调整方法的改进，通过调整量化步长，量化步长，对不同的频段设置不同的量化字长对不同的频段设置不同的量化字长，可使数据，可使数据得到进一步压缩。得到进一步压缩。 ADPCM压缩方案压缩倍率可达压缩方案压缩倍率可达25倍，信噪比高，倍，信噪比高，性能优越，因此，多媒体计算机所获得的数字化

29、的声音信性能优越，因此，多媒体计算机所获得的数字化的声音信息大都采用此压缩方法。息大都采用此压缩方法。MPC的音频卡也提供有的音频卡也提供有ADPCM算法，如将算法，如将16位的采样值压缩成位的采样值压缩成4位，将位，将8位的采样值压位的采样值压缩成缩成4位、位、3位或位或2位。位。音频信号编码音频信号编码算法算法名称名称码速率码速率标准标准应用应用波形波形编码编码PCMPCM压扩压扩64kbps64kbpsG G711711电话、公共网电话、公共网ADPCMADPCM自适应差分量化自适应差分量化32kbps32kbpsG G721721SB-ADPCMSB-ADPCM子带子带- -自适应差分

30、量自适应差分量化化64kbps64kbpsG G7227225.3kbps5.3kbps6.3kbps6.3kbpsG G723723参数参数编码编码LPCLPC线性预测编码线性预测编码2.4-2.4-16kbps16kbpsFS1015FS1015保密、保密、卫星通信卫星通信混合混合编码编码CELPCCELPC码激励码激励LPCLPC4.6kbps4.6kbpsIS95IS95移动通信移动通信VSELPVSELP矢量和激励矢量和激励LPCLPC8kbps8kbps语音邮件语音邮件LD-CELPLD-CELP低延时码激励低延时码激励LPCLPC8kbps8kbpsG G729729移动通信移动

31、通信MPEGMPEG多子带、感知编码多子带、感知编码128kbps128kbpsMPEG1MPEG1，2 2，H.261H.261DVDDVD、运动图像、运动图像伴音伴音音频信号编码音频信号编码编码后形成二进制数据，就可以在计算机上进编码后形成二进制数据，就可以在计算机上进行存储、传输和处理，即数字音频行存储、传输和处理，即数字音频语音信号存在多种冗余度，可以进行压缩。语音信号存在多种冗余度，可以进行压缩。时域冗余度时域冗余度频域冗余度频域冗余度听觉特性冗余度听觉特性冗余度（3 3）声音质量的评价声音质量的评价数字音频信息的质量与存储量数字音频信息的质量与存储量采样、量化和编码技术是音频数字

32、化的关键技术。采样、量化和编码技术是音频数字化的关键技术。而采样频率、每个采样值的量化位数以及音频信息的而采样频率、每个采样值的量化位数以及音频信息的声道数目，是影响数字化音频信息质量和容量的三个重声道数目，是影响数字化音频信息质量和容量的三个重要因素。要因素。采样频率越高、量化为数越大、声道数目越多，音频采样频率越高、量化为数越大、声道数目越多，音频的质量就越高，但存储量就越大。的质量就越高，但存储量就越大。（3 3）声音质量的评价）声音质量的评价音频质量的评价音频质量的评价（a）客观质量的度量）客观质量的度量对声波的测量包括评价值的测量、声源的测量和音质的对声波的测量包括评价值的测量、声源

33、的测量和音质的测量，其测量与分析工作，是使用带计算机处理系统的测量，其测量与分析工作，是使用带计算机处理系统的高级声学测量仪器来完成。高级声学测量仪器来完成。度量声音客观质量的一个主要指标是信噪比度量声音客观质量的一个主要指标是信噪比SNR（Signal to Noise Ration），信噪比是有用信号与噪），信噪比是有用信号与噪声之比的简称，其单位是分贝（声之比的简称，其单位是分贝（dB）。）。信噪比越大，声音质量越好。信噪比越大，声音质量越好。（3 3）声音质量的评价）声音质量的评价音频质量的评价音频质量的评价（b）主观质量的度量）主观质量的度量采用客观标准方法很难真正评定编码器的质量

34、，在采用客观标准方法很难真正评定编码器的质量，在实际评价中，主观的质量度量比客观质量的度量更为恰实际评价中，主观的质量度量比客观质量的度量更为恰当和合理。当和合理。主观的质量度量通常是对某编码器的输出的声音质量进主观的质量度量通常是对某编码器的输出的声音质量进行评价。行评价。度量方法类似于电视节目中的歌手比赛，由评委对每个歌手的表现度量方法类似于电视节目中的歌手比赛，由评委对每个歌手的表现进行评分，然后求出平均值。进行评分，然后求出平均值。例如播放一段音乐，记录一段话，然后重放给一批实验者听，再由例如播放一段音乐，记录一段话，然后重放给一批实验者听，再由实验者进行综合评定，得出平均判分（实验者

35、进行综合评定，得出平均判分（Mean Opnion Scose，MOS）。）。主观平均分主观平均分(mean opinion score，MOS) 对声音主观质量度量比较通用的标准是对声音主观质量度量比较通用的标准是5分制，各分制，各档次的评分标准见表档次的评分标准见表3-2 分数分数质量等级质量等级失真级别失真级别5优优(Excellent)无察觉无察觉4良良(Good)(刚刚)察觉但不讨厌察觉但不讨厌3中中(Fair)(察觉察觉)有点讨厌有点讨厌2差差(Poor)讨厌但不反感讨厌但不反感1劣劣(Bad)极讨厌极讨厌(令人反感令人反感)n声音质量的衡量方法声音质量的衡量方法n客观质量度量客

36、观质量度量n用信噪比用信噪比(SNR)表示表示n主观质量度量主观质量度量n有时同时采取两种方法评估，有时以主有时同时采取两种方法评估，有时以主观质量度量为主观质量度量为主n声音带宽法声音带宽法n等级由高到低依次是等级由高到低依次是DAT、CD、FM、AM和数字电话和数字电话2.2 2.2 数字音频压缩技术数字音频压缩技术n数据的冗余数据的冗余n声音的压缩原声音的压缩原理理n声音的压缩分声音的压缩分类类n声音的压缩标声音的压缩标准准n数字音频格式数字音频格式什么是音频压缩什么是音频压缩音频压缩技术指的是对原始数字音频信号流（如音频压缩技术指的是对原始数字音频信号流（如PCMPCM编码）运用适当的

37、数字信号处理技术，在不损编码）运用适当的数字信号处理技术，在不损失有用信息量，或所引入损失可忽略的条件下，失有用信息量，或所引入损失可忽略的条件下，降低（压缩）其码率，以减少数据量，也称为压降低（压缩）其码率，以减少数据量，也称为压缩编码。缩编码。它必须具有相应的逆变换，称为解压缩或解码。它必须具有相应的逆变换，称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。的噪声和一定的失真。虽然表示数字音频需要大量的数据，但数字虽然表示数字音频需要大量的数据，但数字音频数据是高度相关的，或者说存在冗余音频数据是高度相关的，或者说存

38、在冗余（RedundancyRedundancy）信息，去掉这些冗余信息后可）信息，去掉这些冗余信息后可以有效压缩数据量，同时又不会损害声音的有以有效压缩数据量，同时又不会损害声音的有效信息。效信息。数据的冗余数据的冗余n你的妻子，你的妻子，HelenHelen，将于明天晚上将于明天晚上6 6点零点零5 5分在分在上海上海的虹桥的虹桥机场接你。机场接你。n (23(23* *2+10=562+10=56个半角字符个半角字符) )n你的妻子将于明天晚上你的妻子将于明天晚上6 6点零点零5 5分在虹桥机场接你分在虹桥机场接你n (20(20* *2+2=422+2=42个半角字符）个半角字符）n

39、HelenHelen将于明晚将于明晚6 6点在虹桥接你点在虹桥接你n (10(10* *2+6=262+6=26个半角字符）个半角字符）结论：表达信息的文字存在冗余。只要接收端不会产生结论：表达信息的文字存在冗余。只要接收端不会产生误解，就可以减少承载信息的数据量。误解，就可以减少承载信息的数据量。我们从一个互动游戏来体会数据冗余的概念。在下面的例子中，我们从一个互动游戏来体会数据冗余的概念。在下面的例子中，用一种最好的方式来发送一封电报。用一种最好的方式来发送一封电报。48数据压缩的基本原理数据压缩的基本原理为了满足对数字化的信息进行存储、传输的需要，就必为了满足对数字化的信息进行存储、传输

40、的需要，就必须进行数据压缩，即去掉数据的冗余性。须进行数据压缩，即去掉数据的冗余性。评价压缩技术的评价压缩技术的3个重要指标：个重要指标：n1) 压缩比要大压缩比要大n2) 算法简单算法简单n3) 恢复效果要好恢复效果要好按照一致性分类：按照一致性分类：可逆编码（无失真编码，可逆编码（无失真编码，lossless）：解码信号与原始信号严）：解码信号与原始信号严格相同。如格相同。如Huffman编码、算术编码、游程编码。编码、算术编码、游程编码。不可逆编码方法（无失真编码，不可逆编码方法（无失真编码， lossy）：还原信号与原始信）：还原信号与原始信号存在一定的误差，但效果可以接收。号存在一定

41、的误差，但效果可以接收。按照压缩方案的不同：按照压缩方案的不同：n又可将其划分为时域压缩、变换压缩、子带压缩，又可将其划分为时域压缩、变换压缩、子带压缩，以及多种技术相互融合的混合压缩等等。以及多种技术相互融合的混合压缩等等。各种不同的压缩技术，其算法的复杂程度、压缩质量、各种不同的压缩技术，其算法的复杂程度、压缩质量、算法效率（即压缩比例），以及编解码延时等都有很大算法效率（即压缩比例），以及编解码延时等都有很大的不同。的不同。各种压缩技术的应用场合也因之而各不相同。各种压缩技术的应用场合也因之而各不相同。数据压缩方法的分类数据压缩方法的分类n按照压缩方法分类：按照压缩方法分类：预测编码：利

42、用空间中相邻数据的相关性，利用过去预测编码：利用空间中相邻数据的相关性，利用过去和现在出现过的点的数据情况来预测未来点的数据。和现在出现过的点的数据情况来预测未来点的数据。如差分脉冲编码调制（如差分脉冲编码调制（DPCM）、自适应差分脉冲编）、自适应差分脉冲编码调制（码调制（ADPCM）等。）等。变换编码：将时域信号变换到频域空间上处理。比如变换编码：将时域信号变换到频域空间上处理。比如K-L变换、变换、DCT(离散余弦变换离散余弦变换)变换等。变换等。信息熵编码：让出现概率大的用短的码字表达，反之信息熵编码：让出现概率大的用短的码字表达，反之用长的码字表示。如用长的码字表示。如Huffman

43、编码。编码。子带编码：将图像数据变换到频域后，按频域分带，子带编码：将图像数据变换到频域后，按频域分带，然后用不同的量化器进行量化，从而达到最优的组合。然后用不同的量化器进行量化，从而达到最优的组合。数据压缩方法的分类数据压缩方法的分类音频信号压缩编码不仅利用一般压缩编码方音频信号压缩编码不仅利用一般压缩编码方法，而且利用人耳的听觉特性，主要有两点：法，而且利用人耳的听觉特性，主要有两点： 1. 1.人的听觉系统中存在一个人的听觉系统中存在一个听觉阈值电平听觉阈值电平，低于，低于这个电平的声音信号人耳听不到这个电平的声音信号人耳听不到. . 2. 2.人的听觉存在人的听觉存在屏蔽效应屏蔽效应

44、。当几个强弱不同的声。当几个强弱不同的声音同时存在时，强声使弱声难以听到，并且两者音同时存在时，强声使弱声难以听到，并且两者之间的关系与其相对频率的大小有关之间的关系与其相对频率的大小有关. . 声音编码算法通过这些特性来去掉更多的冗声音编码算法通过这些特性来去掉更多的冗余数据，来达到压缩数据的目的。余数据，来达到压缩数据的目的。音频压缩音频压缩音频压缩音频压缩n声音包括语音和音乐，声音数据表征的是一声音包括语音和音乐，声音数据表征的是一个一维时变系统，故声音数据的压缩要易于个一维时变系统，故声音数据的压缩要易于图像数据的压缩。图像数据的压缩。n根据时域冗余度、频域冗余度和人听觉感知根据时域

45、冗余度、频域冗余度和人听觉感知机理进行压缩，主要方法有：机理进行压缩，主要方法有：基于音频数据的统计特性进行编码，如波形编码。基于音频数据的统计特性进行编码，如波形编码。基于音频的声学参数进行编码，或者混合编码。基于音频的声学参数进行编码，或者混合编码。基于人的听觉特性进行编码，如基于人的听觉特性进行编码，如Dolby AC-3Dolby AC-3。电话质量的语音压缩标准电话质量的语音压缩标准：300Hz3.4KHz。当采样频当采样频率为率为8KHz，量化位数为，量化位数为8bit时所对应的速率为时所对应的速率为6kbit/s。调幅广播质量的音频压缩标准调幅广播质量的音频压缩标准：50Hz7K

46、Hz。当使用当使用16KHz的抽样频率和的抽样频率和14bit的量化位数时，信号速率为的量化位数时，信号速率为224kbit/s。符合。符合1988年年ITU制定的制定的G.722标准。标准。高保真立体声音频压缩标准高保真立体声音频压缩标准：50Hz20KHz。在在44.1KHz抽样频率下用抽样频率下用16bit量化，信号速率为每声道量化，信号速率为每声道705kbit/s。目前比较成熟的标准为目前比较成熟的标准为“MPEG音频音频”。音频压缩标准音频压缩标准数字音频格式数字音频格式nWAVn是微软公司开发的一种声音文件格式，也叫波形声是微软公司开发的一种声音文件格式，也叫波形声音文件。是最早

47、的数字音频格式，被音文件。是最早的数字音频格式，被Windows平平台及其应用程序广泛支持。台及其应用程序广泛支持。WAV格式支持许多压缩格式支持许多压缩算法、支持多种音频位数、采样频率和声道，经常算法、支持多种音频位数、采样频率和声道，经常见到的见到的WAV格式的文件多采用格式的文件多采用44.1kHz的采样频率。的采样频率。16位量化位数，其音质与位量化位数，其音质与CD相同，但相同，但WAV格式对格式对存储空问需求太大而不便于通过网络交流和传播存储空问需求太大而不便于通过网络交流和传播WAV 也是音乐编辑创作的首选格式，适合保存音也是音乐编辑创作的首选格式，适合保存音乐素材。乐素材。数字

48、音频格式数字音频格式nAIFFn 音频交换文件格式音频交换文件格式(Audio Interchange File Format，简写为，简写为AIFAIFF)，是苹果，是苹果计算机公司开发的一种标准声音文件格式，计算机公司开发的一种标准声音文件格式，被被Macintosh平台及其应用程序所支持，它平台及其应用程序所支持，它属于属于QuickTime技术中的一部分，而且是技术中的一部分，而且是一种优秀的文件格式，投入使用后便很快得一种优秀的文件格式，投入使用后便很快得到到Microsoft公司青睐，公司青睐，Netscape Navigator浏览器中的浏览器中的Live Audio、SGI及及

49、其他专业音频软件包都支持它。其他专业音频软件包都支持它。n AIFAIFF支持支持支持支持l6位位,44.1kHz立体声，立体声，现在几乎所有的音频编辑软件和播放软件都现在几乎所有的音频编辑软件和播放软件都支持这种格式。支持这种格式。数字音频格式数字音频格式nMIDI：Musical Instrument Digital Interface，是数字音乐电子合成乐器的统一国际标准。它定是数字音乐电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器及其它电子设备义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式。规定了不同厂家的电子乐器交换音乐信号的方式。规定了不同厂家的电子

50、乐器与计算机连接的电缆和硬件及设备间数据传输的协与计算机连接的电缆和硬件及设备间数据传输的协议，可以模拟多种乐器的声音。议，可以模拟多种乐器的声音。MIDI文件就是文件就是MIDI格式的文件，它存储的只是一些指令，我们要格式的文件，它存储的只是一些指令，我们要听到声音，必须把这些指令发送给音源，再由音源听到声音，必须把这些指令发送给音源，再由音源按照指令将声音合成和播放出来。按照指令将声音合成和播放出来。nCD：扩展名：扩展名CDA，其取样频率为，其取样频率为44.1kHz，16位位量化位数。量化位数。CD存储采用了音轨的形式，又叫存储采用了音轨的形式，又叫“红皮红皮书书” 格式。记录的是波形

51、流，是一种近似无损的格格式。记录的是波形流，是一种近似无损的格式。式。数字音频格式数字音频格式nMP3：全称是：全称是MPEGl AudioLayer 3，它，它在在1992年合并至年合并至MPEG规范中。规范中。MP3能够以能够以高音质、低采样率对数字音频文件进行压缩。高音质、低采样率对数字音频文件进行压缩。音频文件音频文件(WAV 文件文件)能够在音质丢失很小的能够在音质丢失很小的情况下把文件压缩到更小的程度。它是利用情况下把文件压缩到更小的程度。它是利用人耳的掩蔽效应对声音进行压缩，使文件在人耳的掩蔽效应对声音进行压缩，使文件在较低的比特率下，尽可能地保持了原有的音较低的比特率下，尽可能

52、地保持了原有的音质，是目前最为流行的压缩方式，也是现在质，是目前最为流行的压缩方式，也是现在网上收集音乐的最主要的方式，大多数播放网上收集音乐的最主要的方式，大多数播放器都支持这一文件格式。器都支持这一文件格式。MP3格式的声音文格式的声音文件的压缩比达件的压缩比达10：112：l，在不小于，在不小于128kbps传输率下，基本保持了原有音质。传输率下，基本保持了原有音质。数字音频格式数字音频格式nSACD (SA =SuperAudio)：是由：是由Sony公司发布的。公司发布的。它的采样率为它的采样率为CD格式的格式的64倍，即倍，即2.8224MHz。SACD重放频率带宽达重放频率带宽达

53、100kHz，为，为CD格式的格式的5倍，倍，24位量化位数，远远超过位量化位数，远远超过CD。声音的细节表现更为。声音的细节表现更为丰富、清晰。丰富、清晰。nVQF格式：是由格式：是由YAMAHA和和NTT共同开发的一种音共同开发的一种音频压缩技术，它的压缩率能够达到频压缩技术，它的压缩率能够达到1：18。因此，相。因此，相同情况下压缩后同情况下压缩后VQF的文件体积比的文件体积比MP3小小3050，更便利于网上传播。同时音质极佳，接近，更便利于网上传播。同时音质极佳，接近CD 音音质质(16位位441kHz立体声立体声)。但。但VQF未公开技术标准，未公开技术标准，至今未能流行开来。至今未

54、能流行开来。数字音频格式数字音频格式nDVD Audio：是新一代的数字音频格式，：是新一代的数字音频格式，与与DVD Video尺寸以及容量相同，为音乐尺寸以及容量相同，为音乐格式的格式的DVD 光碟，取样频率为光碟，取样频率为“48kHz96kHzl92kHz和和“44.1kHz88.2kHzl76.4kHz” 可选择，量化位数可选择，量化位数可以为可以为16、20或或24比特，它们之间可自由比特，它们之间可自由地进行组合。低采样率的地进行组合。低采样率的92kHz、176.4kHz虽然是虽然是2声道重播专用，但它最声道重播专用，但它最多可收录到多可收录到6声道。而以声道。而以2声道声道1

55、92kHz24b或或6声道声道96kHz24b收录声音，可容收录声音，可容纳纳74分钟以上的录音，动态范围达分钟以上的录音，动态范围达144dB，整体效果出类拔萃。整体效果出类拔萃。数字音频格式数字音频格式nMD (MiniDisc)：由日本：由日本Sony公司开发。公司开发。MD之所以能在一张盘中存储之所以能在一张盘中存储6080分钟、分钟、采用采用44.1khz采样的立体声音乐，就是因为采样的立体声音乐，就是因为使用了使用了ATRAC算法算法(自适应声学转换编码自适应声学转换编码)压压缩音源。这是一套基于心理声学原理的音响缩音源。这是一套基于心理声学原理的音响译码系统，它可以把译码系统，它

56、可以把CD唱片的音频压缩到原唱片的音频压缩到原来数据量的大约来数据量的大约15，而声音质量没有明显，而声音质量没有明显的损失。的损失。ATRAC利用人耳听觉的心理声学特利用人耳听觉的心理声学特性性(频谱掩蔽特性和时间掩蔽特性频谱掩蔽特性和时间掩蔽特性)以及入耳以及入耳对信号幅度、频率、时间的有限分辨能力。对信号幅度、频率、时间的有限分辨能力。编码时将人耳感觉不到的成分不编码、不传编码时将人耳感觉不到的成分不编码、不传送，这样就可以相应减少某些数据量的存储，送，这样就可以相应减少某些数据量的存储，从而既保证音质又达到缩小体积的目的。从而既保证音质又达到缩小体积的目的。数字音频格式数字音频格式nR

57、ealAudio：是由：是由Real Networks公司推出的一种公司推出的一种文件格式。最大的特点是可以实时传输音频信息，文件格式。最大的特点是可以实时传输音频信息，尤其是在网速较慢的情况下，仍然可以较为流畅地尤其是在网速较慢的情况下，仍然可以较为流畅地传送数据。因此传送数据。因此RealAudio主要适用于网络上的在主要适用于网络上的在线播放。现在的线播放。现在的RealAudio文件格式主要有文件格式主要有RA(RealAudio)、RM (RealMedia，RealAudio G2)、RMX (RealAudio Secured)等三种，这些文等三种，这些文件的共同性在于随着网络带

58、宽的不同而改变声音的件的共同性在于随着网络带宽的不同而改变声音的质量。在保证大多数人听到流畅声音的前提下，令质量。在保证大多数人听到流畅声音的前提下，令带宽较宽敞的听众获得较好的音质。带宽较宽敞的听众获得较好的音质。数字音频格式数字音频格式nAAC：高级音频编码的缩写。：高级音频编码的缩写。nAAC 是由是由Fraunhofer IISA、杜比和、杜比和AT&T共同开共同开发的一种音频格式，它是发的一种音频格式，它是MPEG一一2规范的一部分。规范的一部分。AAC所采用的运算法则与所采用的运算法则与MP3的运算法则有所不同，的运算法则有所不同，AAC通过结合其他的功能来提高编码效率。通

59、过结合其他的功能来提高编码效率。AAC 的音的音频算法在压缩能力上远远超过了以前的一些压缩算法频算法在压缩能力上远远超过了以前的一些压缩算法(比如比如MP3等等)。它还同时支持多达。它还同时支持多达48个音轨、个音轨、l5个低个低频音轨、更多种采样率和比特率、多种语言的兼容能频音轨、更多种采样率和比特率、多种语言的兼容能力、更高的解码效率。总之，力、更高的解码效率。总之，AAC可以在比可以在比MP3文件文件缩小缩小30的前提下提供更好的音质。的前提下提供更好的音质。数字音频格式数字音频格式nAPE：MonkeyS Audio提供的一种无损压缩格式。提供的一种无损压缩格式。nMonkeyS Au

60、dio提供了提供了Winamp的插件支持，的插件支持，因此这就意味着压缩后的文件不再是单纯的压缩格因此这就意味着压缩后的文件不再是单纯的压缩格式，而是和式，而是和MP3一样可以播放的音频文件格式。一样可以播放的音频文件格式。压缩效果大约为压缩效果大约为2：l左右，但能够做到真正无损，左右，但能够做到真正无损，因此获得了不少发烧用户的青睐。令人满意的压缩因此获得了不少发烧用户的青睐。令人满意的压缩比以及飞快的压缩速度，成为了不少朋友私下交流比以及飞快的压缩速度，成为了不少朋友私下交流发烧音乐的唯一选择。发烧音乐的唯一选择。数字音频格式数字音频格式nOGG格式：全称是格式：全称是OGGVobis。它是一种

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音处理的基本知识

文档简介

温馨提示

最新文档

评论

语音处理的基本知识

文档简介

温馨提示

最新文档

评论

相关文档