语音处理基本知识

上传人：农*** IP属地：广东上传时间：2022-08-15 格式：PPT 页数：92 大小：1.66MB 积分：18 举报 版权申诉

已阅读5页，还剩87页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、关于语音处理的基本知识第一张，PPT共九十二页，创作于2022年6月音频处理技术的研究意义声音(音频)是信息交流的一种主要手段，是数字媒体信息的重要组成部分；信息技术、计算机技术和网络技术的迅猛发展，使音频处理技术受到重视并得到广泛应用，需求也日益多样。第二张，PPT共九十二页，创作于2022年6月2.1 数字音频基础声音的物理描述产生原理物理特性听觉特性声音信号数字化声音质量评价第三张，PPT共九十二页，创作于2022年6月（1）声音简介音频信号声音是听觉器官对声波的感知，人们之所以能听到各种声音，是因为不同频率的声波通过空气产生振动，对人耳刺激的结果。声波是声源产生的，通过空气或其他媒体传

2、播的连续振动的波。因声波是在时间和幅度上都连续变化的量，声波是一种连续变化的模拟信号，可用一条连续的曲线来表示，称为声波，或者叫做音频信号。第四张，PPT共九十二页，创作于2022年6月（1）声音简介用函数关系表示模拟声波时，它是在时间和幅度上都是连续的一维模拟信号，如图1所示图1 声音是一种连续的波第五张，PPT共九十二页，创作于2022年6月（1）声音简介模拟音频信号基本参数：频率和幅度。音频信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大，声音越强。一般用声压（达因平方厘米）或声强（瓦特平方厘米）。声源每秒钟可产生成百上千个波峰，每秒钟波峰所发生的数目就

3、是音频信号的频率，声音的频率体现音调的高低。声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。第六张，PPT共九十二页，创作于2022年6月（1）声音简介声音的量化参数：强度：dB 动物的呼吸声大约为20dB，人们正常谈话的声音约为60dB，汽车鸣笛的声音约为100dB，飞机起飞的声音约为120dB，超过120dB会使人感到痛苦。频率：Hz 高保真声音(high-fidelity audio): 10 20 000 Hz 声音(audio): 20 20 000Hz 话音(speech): 3003000/3400 Hz 亚音/次音(subsonic): 20 000 Hz相位:

4、波的位置。复杂的声音是由多个不同振幅、频率、相位的正弦波组成第七张，PPT共九十二页，创作于2022年6月（1）声音简介声音的听觉特性：目前主要研究人的心理声学和语言声学特性。听觉心理的主观感受包括：响度、音高、音色、音量、噪声、听觉掩蔽、定位等。第八张，PPT共九十二页，创作于2022年6月（1）声音简介对响度的感知声音的响度就是声音的强弱在物理上，用dyn/cm2(达因/平方厘米)(声压)或W/cm2(瓦特/平方厘米)(声强)度量在心理上，主观感觉的声音强弱使用响度级“方(phon)”或“宋(sone)”来度量这两种计量单位完全不同，但它们之间有一定的联系人耳的听觉范围听阈：当声音弱到人

5、耳朵刚可听见时的声音强度痛域：声音强到使人耳感到疼痛时的声音强度听觉范围：位于听阈和痛域之间，见图2 第九张，PPT共九十二页，创作于2022年6月（1）声音简介图2 “听阈频率”曲线和“痛阈频率”曲线第十张，PPT共九十二页，创作于2022年6月（1）声音简介对音高(频率)的感知客观上用频率表示声音的音高，其单位是Hz。而主观感觉的音高单位则是“美(Mel)”。Hz和Mel不同但有联系主观音高与客观音高的关系为其中，f 的单位为Hz，人耳对频率的感知范围，可以听到最低频率约20 Hz最高频率约20000 Hz 第十一张，PPT共九十二页，创作于2022年6月（1）声音简介测量主观音高时，

6、让实验者听两个声强级为40dB的纯音，固定其中一个纯音的频率，调节另一个纯音的频率，直到他感到后者的音高为前者的两倍，就标定这两个声音的音高差为两倍。测出的“音高频率”曲线见图3 图3 “音高频率”曲线第十二张，PPT共九十二页，创作于2022年6月（1）声音简介掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音的现象前者称为掩蔽声音(masking tone)后者称为被掩蔽声音(masked tone)掩蔽可分成频域掩蔽和时域掩蔽第十三张，PPT共九十二页，创作于2022年6月（1）声音简介图4 频域掩蔽频域掩蔽一个强纯音掩蔽在其附近同时发声的弱纯音的特性，也称同时掩蔽(simulta

7、neous masking), 如图4所示第十四张，PPT共九十二页，创作于2022年6月（1）声音简介图5中的一组曲线表示为250 Hz，1 kHz和4 kHz纯音的掩蔽效应，它们的声强均为60 dB250 Hz，1 kHz和4 kHz附近，对其他纯音的掩蔽效果最明显低频纯音可有效地掩蔽高频纯音，相反则不明显图5 不同纯音的掩蔽效应曲线第十五张，PPT共九十二页，创作于2022年6月（1）声音简介时域掩蔽在时间上相邻的声音之间的掩蔽现象一个强掩蔽音出现前、同时存在时或消失后的掩蔽效果产生时域掩蔽的主要原因人的大脑处理信息需要花费一定的时间第十六张，PPT共九十二页，创作于2022年6月（

8、1）声音简介同时掩蔽(simultaneous masking)：信号和掩蔽音同时产生的现象滞后掩蔽(post-masking)：信号出现在掩蔽音消失后出现的现象，可以持续50200 ms 超前掩蔽(pre-masking)：信号出现在掩蔽音出现之前产生的现象。虽然对超前掩蔽有许多研究报告，但这种现象依然令人费解。超前掩蔽很短，通常只有大约220 ms，第十七张，PPT共九十二页，创作于2022年6月（1）声音简介临界频带(critical band)当噪声掩蔽纯音时，起作用的是以纯音频率为中心频率的一定频带宽度内的噪声频率。如这频带内的噪声功率等于在噪声中刚能听到的该纯音的功率，则这频带就称

9、为听觉临界频带。临界频带表征了人类最主要的听觉特性,它是在研究纯音对窄带噪声掩蔽量的规律时被发现的,在加宽噪声带宽时,最初是掩蔽量增大,但带宽超过某一定值后,掩蔽量就不再增加,这一带宽就称为临界频带。通常认为声音(audio)有25个临界频带，见表临界频带的宽度随声音频率的变化而变化第十八张，PPT共九十二页，创作于2022年6月（1）声音简介第十九张，PPT共九十二页，创作于2022年6月（2）模拟音频的数字化数字化的概念如果要用计算机对音频信息进行处理，则首先要通过A/D（模/数）转换将模拟音频信号变成数字信号，实现音频信号的数字化。数字化的声音易于用计算机软件处理，现在几乎所有的专业化

10、声音录制器、编辑器都是数字的。对模拟音频的数字化过程涉及到音频的采样、量化和编码。当需要播放数字音频时，按照相反过程还原回模拟音频第二十张，PPT共九十二页，创作于2022年6月声音信号的数字化过程模拟声音信号采样量化编码数字声音011010011101第二十一张，PPT共九十二页，创作于2022年6月（a）采样和量化连续时间的离散化通过采样来实现，就是每隔相等的一段时间采样一次，这种采样称为均匀采样连续幅度的离散化通过量化(quantization)来实现，就是把信号的强度划分成一小段一小段，如果幅度的划分是等间隔的，就称为线性量化，否则就称为非线性量化。第二十二张，PPT共九十二页，

11、创作于2022年6月图7 声音的采样、量化、编码第二十三张，PPT共九十二页，创作于2022年6月（2）模拟音频的数字化影响数字音频质量的因素：采样精度采样频率声道个数第二十四张，PPT共九十二页，创作于2022年6月（2）模拟音频的数字化采样频率采样频率由根据奈奎斯特理论(Nyquist theory)确定奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样就能把以数字表达的声音还原成原来的声音，这叫做无损数字化(lossless digitization)假设被采样信号的最高频率为fmax，则采样定律可用公式表示为第二十五张，PPT共九十二页，创作于2022年6月（2）模拟

12、音频的数字化采样精度度量声音波形幅度的精确程度，用每个声音样本的位数表示例如每个声音样本用16位表示，测得的声音样本值是在065535范围里的数，它的精度是1/65536精度是在模拟信号数字化过程中度量模拟信号的最小单位，因此也称量化阶(quantization step size)01 V的电压用256个数表示时，量化阶等于1/256 V样本位数的大小影响到声音的质量，位数越多，声音质量越高，所需存储空间也越多；位数越少，声音质量就越低，所需存储空间也越少第二十六张，PPT共九十二页，创作于2022年6月（2）模拟音频的数字化声音质量和数据率质量度量质量采样频率(kHz)样本精度(bit

13、/s)单道声/立体声(未压缩的)数据率(kb/s)频率范围(Hz)电话*88单道声64.0 2003 400AM11.0258单道声88.22015000FM22.05016立体声705.6507000CD44.116立体声1411.22020000DAT4816立体声1536.02020000第二十七张，PPT共九十二页，创作于2022年6月（b）编码所谓编码，就是按照一定的格式把经过采样和量化得到的离散数据记录下来，用二进制数据表示，以后续达到可以形成数据文件进行存储的目的。并在有效的数据中加入一些用于纠错同步和控制的数据。在数据回放时，可以根据所记录的纠错数据判别读出的声音数据是否有错

14、，如果有错，可加以纠正。音频信号编码常用的是波形编码方法，它是直接对波形采样、量化和编码，算法简单，易于实现。而且，声音恢复时能保持原有的特点，因此被广泛应用。此外还有参数编码、混合编码等。（2）模拟音频的数字化第二十八张，PPT共九十二页，创作于2022年6月编码方法（1）PCM（Pulse Code Modulation ）脉冲编码调制PCM简称脉码调制，可以直接对声音信号做A/D转换，用一组二进制数字编码表示，得到的是未经压缩的音频数据。这是一种最常用、最简单的编码方法。PCM编码方法不需要复杂的信号处理技术就能实现瞬时的数据的量化和还原，而且信噪比高。在解码后恢复的声音，只要采样

15、频率足够高，量化位数足够多，就会有很好的质量。但是，这种对声音信号直接量化的方法编码数据量很大，需要很高的传输速率。第二十九张，PPT共九十二页，创作于2022年6月编码方法PCM是概念上最简单、理论上最完善、最早研制成功、使用最为广泛、数据量最大的编码系统。目前的声卡一般都具有PCM编码和解码的功能。激光唱盘（CD-DA）记录声音时就采用这种方法，存储未经压缩的数字音频信号。第三十张，PPT共九十二页，创作于2022年6月编码方法算法思想：首先对音频信号进行律或A律压扩，也就是放大小信号，抑制大信号，然后进行均匀量化，等效于对小信号进行小量化级量化，对大信号进行大量化级量化，使大小信号的量化

16、信噪比趋于接近，从而避免了小信号产生较大的量化噪声误差，而大信号却有不必要的高量化信噪比。第三十一张，PPT共九十二页，创作于2022年6月编码方法脉冲编码调制(PCM)输入是模拟信号，输出是PCM样本。防失真滤波器：低通滤波器，用来滤除声音频带以外的信号波形编码器：可理解为采样器量化器：可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器。PCM实际上是模拟信号数字化。第三十二张，PPT共九十二页，创作于2022年6月量化的方法:均匀量化、非均匀量化均匀量化采用相等的量化间隔/等分尺度量采样得到的信号幅度，也称为线性量化。量化后的样本值Y和原始值X的差E=Y-X称为量

17、化误差或量化噪声。均匀量化编码方法第三十三张，PPT共九十二页，创作于2022年6月编码方法非均匀量化大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔可在满足精度要求的情况下用较少的位数来表示声音数据还原时，采用相同的规则非均匀量化第三十四张，PPT共九十二页，创作于2022年6月编码方法DPCM （Differential Pulse Code Modulation）差分脉冲编码调制 DPCM编码是利用音频信号的相关性，通过只传输声音的预测值和样本值的差值来降低音频数据的编码率的一种方法。它采用预测编码技术，实现音频数据的压缩编码。因为音频信号一般不会发生突然变化，相邻的语音

18、采样值之间存在很大的相关性，从一个采样值到相邻的另一个采样值的差值要比样值本身小得多。利用预测编码方法建立预测模型，通过预测器对未来的样本进行预测，然后对样本值与预测器得到的预测值之差进行量化和传输。由于这个差值的幅度远远小于样本值本身，需要较少的比特数来表示，这样可以降低数据的编码率，从而使编码数据得到压缩。第三十五张，PPT共九十二页，创作于2022年6月编码方法ADPCM（Adaptive Differential Pulse Code Modulation）自适应差分编码调制在实际使用中，由于输入信号的不稳定性，造成DPCM方法的信噪比大大降低。因此在DPCM编码中加入自适应的方法，

19、就形成了自适应差分编码调制（ADPCM）方案。所以，ADPCM是对DPCM方法的改进，通过调整量化步长，对不同的频段设置不同的量化字长，可使数据得到进一步压缩。 ADPCM压缩方案压缩倍率可达25倍，信噪比高，性能优越，因此，多媒体计算机所获得的数字化的声音信息大都采用此压缩方法。MPC的音频卡也提供有ADPCM算法，如将16位的采样值压缩成4位，将8位的采样值压缩成4位、3位或2位。第三十六张，PPT共九十二页，创作于2022年6月音频信号编码算法名称码速率标准应用波形编码PCM压扩64kbpsG711电话、公共网ADPCM自适应差分量化32kbpsG721SB-ADPCM子带-自适应差分量

20、化64kbpsG7225.3kbps6.3kbpsG723参数编码LPC线性预测编码2.4-16kbpsFS1015保密、卫星通信混合编码CELPC码激励LPC4.6kbpsIS95移动通信VSELP矢量和激励LPC8kbps语音邮件LD-CELP低延时码激励LPC8kbpsG729移动通信MPEG多子带、感知编码128kbpsMPEG1，2，H.261DVD、运动图像伴音第三十七张，PPT共九十二页，创作于2022年6月音频信号编码编码后形成二进制数据，就可以在计算机上进行存储、传输和处理，即数字音频语音信号存在多种冗余度，可以进行压缩。时域冗余度频域冗余度听觉特性冗余度第三十八张，PPT共

21、九十二页，创作于2022年6月（3）声音质量的评价数字音频信息的质量与存储量采样、量化和编码技术是音频数字化的关键技术。而采样频率、每个采样值的量化位数以及音频信息的声道数目，是影响数字化音频信息质量和容量的三个重要因素。采样频率越高、量化为数越大、声道数目越多，音频的质量就越高，但存储量就越大。第三十九张，PPT共九十二页，创作于2022年6月（3）声音质量的评价音频质量的评价（a）客观质量的度量对声波的测量包括评价值的测量、声源的测量和音质的测量，其测量与分析工作，是使用带计算机处理系统的高级声学测量仪器来完成。度量声音客观质量的一个主要指标是信噪比SNR（Signal to Noise

22、 Ration），信噪比是有用信号与噪声之比的简称，其单位是分贝（dB）。信噪比越大，声音质量越好。第四十张，PPT共九十二页，创作于2022年6月（3）声音质量的评价音频质量的评价（b）主观质量的度量采用客观标准方法很难真正评定编码器的质量，在实际评价中，主观的质量度量比客观质量的度量更为恰当和合理。主观的质量度量通常是对某编码器的输出的声音质量进行评价。度量方法类似于电视节目中的歌手比赛，由评委对每个歌手的表现进行评分，然后求出平均值。例如播放一段音乐，记录一段话，然后重放给一批实验者听，再由实验者进行综合评定，得出平均判分（Mean Opnion Scose，MOS）。第四十一张，P

23、PT共九十二页，创作于2022年6月主观平均分(mean opinion score，MOS) 对声音主观质量度量比较通用的标准是5分制，各档次的评分标准见表3-2 分数质量等级失真级别5优(Excellent)无察觉4良(Good)(刚)察觉但不讨厌3中(Fair)(察觉)有点讨厌2差(Poor)讨厌但不反感1劣(Bad)极讨厌(令人反感)第四十二张，PPT共九十二页，创作于2022年6月声音质量的衡量方法客观质量度量用信噪比(SNR)表示主观质量度量有时同时采取两种方法评估，有时以主观质量度量为主声音带宽法等级由高到低依次是DAT、CD、FM、AM和数字电话第四十三张，PPT共九十二页，创

24、作于2022年6月2.2 数字音频压缩技术数据的冗余声音的压缩原理声音的压缩分类声音的压缩标准数字音频格式第四十四张，PPT共九十二页，创作于2022年6月什么是音频压缩音频压缩技术指的是对原始数字音频信号流（如PCM编码）运用适当的数字信号处理技术，在不损失有用信息量，或所引入损失可忽略的条件下，降低（压缩）其码率，以减少数据量，也称为压缩编码。它必须具有相应的逆变换，称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。第四十五张，PPT共九十二页，创作于2022年6月虽然表示数字音频需要大量的数据，但数字音频数据是高度相关的，或者说存在冗余（Redundanc

25、y）信息，去掉这些冗余信息后可以有效压缩数据量，同时又不会损害声音的有效信息。数据的冗余第四十六张，PPT共九十二页，创作于2022年6月你的妻子，Helen，将于明天晚上6点零5分在上海的虹桥机场接你。 (23*2+10=56个半角字符)你的妻子将于明天晚上6点零5分在虹桥机场接你 (20*2+2=42个半角字符） Helen将于明晚6点在虹桥接你 (10*2+6=26个半角字符）结论：表达信息的文字存在冗余。只要接收端不会产生误解，就可以减少承载信息的数据量。我们从一个互动游戏来体会数据冗余的概念。在下面的例子中，用一种最好的方式来发送一封电报。第四十七张，PPT共九十二页，创作于2022

26、年6月数据压缩的基本原理为了满足对数字化的信息进行存储、传输的需要，就必须进行数据压缩，即去掉数据的冗余性。评价压缩技术的3个重要指标：1) 压缩比要大2) 算法简单3) 恢复效果要好第四十八张，PPT共九十二页，创作于2022年6月按照一致性分类：可逆编码（无失真编码，lossless）：解码信号与原始信号严格相同。如Huffman编码、算术编码、游程编码。不可逆编码方法（无失真编码， lossy）：还原信号与原始信号存在一定的误差，但效果可以接收。按照压缩方案的不同：又可将其划分为时域压缩、变换压缩、子带压缩，以及多种技术相互融合的混合压缩等等。各种不同的压缩技术，其算法的复杂程度、压缩质

27、量、算法效率（即压缩比例），以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。数据压缩方法的分类第四十九张，PPT共九十二页，创作于2022年6月按照压缩方法分类：预测编码：利用空间中相邻数据的相关性，利用过去和现在出现过的点的数据情况来预测未来点的数据。如差分脉冲编码调制（DPCM）、自适应差分脉冲编码调制（ADPCM）等。变换编码：将时域信号变换到频域空间上处理。比如K-L变换、DCT(离散余弦变换)变换等。信息熵编码：让出现概率大的用短的码字表达，反之用长的码字表示。如Huffman编码。子带编码：将图像数据变换到频域后，按频域分带，然后用不同的量化器进行量化，从而

28、达到最优的组合。数据压缩方法的分类第五十张，PPT共九十二页，创作于2022年6月音频信号压缩编码不仅利用一般压缩编码方法，而且利用人耳的听觉特性，主要有两点： 1.人的听觉系统中存在一个听觉阈值电平，低于这个电平的声音信号人耳听不到. 2.人的听觉存在屏蔽效应。当几个强弱不同的声音同时存在时，强声使弱声难以听到，并且两者之间的关系与其相对频率的大小有关. 声音编码算法通过这些特性来去掉更多的冗余数据，来达到压缩数据的目的。音频压缩第五十一张，PPT共九十二页，创作于2022年6月音频压缩声音包括语音和音乐，声音数据表征的是一个一维时变系统，故声音数据的压缩要易于图像数据的压缩。根据时域冗

29、余度、频域冗余度和人听觉感知机理进行压缩，主要方法有：基于音频数据的统计特性进行编码，如波形编码。基于音频的声学参数进行编码，或者混合编码。基于人的听觉特性进行编码，如Dolby AC-3。第五十二张，PPT共九十二页，创作于2022年6月电话质量的语音压缩标准：300Hz3.4KHz。当采样频率为8KHz，量化位数为8bit时所对应的速率为6kbit/s。调幅广播质量的音频压缩标准：50Hz7KHz。当使用16KHz的抽样频率和14bit的量化位数时，信号速率为224kbit/s。符合1988年ITU制定的G.722标准。高保真立体声音频压缩标准：50Hz20KHz。在44.1KHz抽样频率

30、下用16bit量化，信号速率为每声道705kbit/s。目前比较成熟的标准为“MPEG音频”。音频压缩标准第五十三张，PPT共九十二页，创作于2022年6月数字音频格式WAV是微软公司开发的一种声音文件格式，也叫波形声音文件。是最早的数字音频格式，被Windows平台及其应用程序广泛支持。WAV格式支持许多压缩算法、支持多种音频位数、采样频率和声道，经常见到的WAV格式的文件多采用44.1kHz的采样频率。16位量化位数，其音质与CD相同，但WAV格式对存储空问需求太大而不便于通过网络交流和传播WAV 也是音乐编辑创作的首选格式，适合保存音乐素材。第五十四张，PPT共九十二页，创作于2022年

31、6月数字音频格式AIFF 音频交换文件格式(Audio Interchange File Format，简写为AIFAIFF)，是苹果计算机公司开发的一种标准声音文件格式，被Macintosh平台及其应用程序所支持，它属于QuickTime技术中的一部分，而且是一种优秀的文件格式，投入使用后便很快得到Microsoft公司青睐，Netscape Navigator浏览器中的Live Audio、SGI及其他专业音频软件包都支持它。 AIFAIFF支持支持l6位,44.1kHz立体声，现在几乎所有的音频编辑软件和播放软件都支持这种格式。第五十五张，PPT共九十二页，创作于2022年6月数字音频格

32、式MIDI：Musical Instrument Digital Interface，是数字音乐电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式。规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传输的协议，可以模拟多种乐器的声音。MIDI文件就是MIDI格式的文件，它存储的只是一些指令，我们要听到声音，必须把这些指令发送给音源，再由音源按照指令将声音合成和播放出来。CD：扩展名CDA，其取样频率为44.1kHz，16位量化位数。CD存储采用了音轨的形式，又叫“红皮书” 格式。记录的是波形流，是一种近似无损的格式。第五十六张，PPT共九十

33、二页，创作于2022年6月数字音频格式MP3：全称是MPEGl AudioLayer 3，它在1992年合并至MPEG规范中。MP3能够以高音质、低采样率对数字音频文件进行压缩。音频文件(WAV 文件)能够在音质丢失很小的情况下把文件压缩到更小的程度。它是利用人耳的掩蔽效应对声音进行压缩，使文件在较低的比特率下，尽可能地保持了原有的音质，是目前最为流行的压缩方式，也是现在网上收集音乐的最主要的方式，大多数播放器都支持这一文件格式。MP3格式的声音文件的压缩比达10：112：l，在不小于128kbps传输率下，基本保持了原有音质。第五十七张，PPT共九十二页，创作于2022年6月数字音频格式SA

34、CD (SA =SuperAudio)：是由Sony公司发布的。它的采样率为CD格式的64倍，即2.8224MHz。SACD重放频率带宽达100kHz，为CD格式的5倍，24位量化位数，远远超过CD。声音的细节表现更为丰富、清晰。VQF格式：是由YAMAHA和NTT共同开发的一种音频压缩技术，它的压缩率能够达到1：18。因此，相同情况下压缩后VQF的文件体积比MP3小3050，更便利于网上传播。同时音质极佳，接近CD 音质(16位441kHz立体声)。但VQF未公开技术标准，至今未能流行开来。第五十八张，PPT共九十二页，创作于2022年6月数字音频格式DVD Audio：是新一代的数字音频格

35、式，与DVD Video尺寸以及容量相同，为音乐格式的DVD 光碟，取样频率为“48kHz96kHzl92kHz和“44.1kHz88.2kHzl76.4kHz” 可选择，量化位数可以为16、20或24比特，它们之间可自由地进行组合。低采样率的92kHz、176.4kHz虽然是2声道重播专用，但它最多可收录到6声道。而以2声道192kHz24b或6声道96kHz24b收录声音，可容纳74分钟以上的录音，动态范围达144dB，整体效果出类拔萃。第五十九张，PPT共九十二页，创作于2022年6月数字音频格式MD (MiniDisc)：由日本Sony公司开发。MD之所以能在一张盘中存储6080分钟、

36、采用44.1khz采样的立体声音乐，就是因为使用了ATRAC算法(自适应声学转换编码)压缩音源。这是一套基于心理声学原理的音响译码系统，它可以把CD唱片的音频压缩到原来数据量的大约15，而声音质量没有明显的损失。ATRAC利用人耳听觉的心理声学特性(频谱掩蔽特性和时间掩蔽特性)以及入耳对信号幅度、频率、时间的有限分辨能力。编码时将人耳感觉不到的成分不编码、不传送，这样就可以相应减少某些数据量的存储，从而既保证音质又达到缩小体积的目的。第六十张，PPT共九十二页，创作于2022年6月数字音频格式RealAudio：是由Real Networks公司推出的一种文件格式。最大的特点是可以实时传输音频

37、信息，尤其是在网速较慢的情况下，仍然可以较为流畅地传送数据。因此RealAudio主要适用于网络上的在线播放。现在的RealAudio文件格式主要有RA(RealAudio)、RM (RealMedia，RealAudio G2)、RMX (RealAudio Secured)等三种，这些文件的共同性在于随着网络带宽的不同而改变声音的质量。在保证大多数人听到流畅声音的前提下，令带宽较宽敞的听众获得较好的音质。第六十一张，PPT共九十二页，创作于2022年6月数字音频格式AAC：高级音频编码的缩写。AAC 是由Fraunhofer IISA、杜比和AT&T共同开发的一种音频格式，它是MPEG一2

38、规范的一部分。AAC所采用的运算法则与MP3的运算法则有所不同，AAC通过结合其他的功能来提高编码效率。AAC 的音频算法在压缩能力上远远超过了以前的一些压缩算法(比如MP3等)。它还同时支持多达48个音轨、l5个低频音轨、更多种采样率和比特率、多种语言的兼容能力、更高的解码效率。总之，AAC可以在比MP3文件缩小30的前提下提供更好的音质。第六十二张，PPT共九十二页，创作于2022年6月数字音频格式APE：MonkeyS Audio提供的一种无损压缩格式。MonkeyS Audio提供了Winamp的插件支持，因此这就意味着压缩后的文件不再是单纯的压缩格式，而是和MP3一样可以播放的音频文

39、件格式。压缩效果大约为2：l左右，但能够做到真正无损，因此获得了不少发烧用户的青睐。令人满意的压缩比以及飞快的压缩速度，成为了不少朋友私下交流发烧音乐的唯一选择。第六十三张，PPT共九十二页，创作于2022年6月数字音频格式OGG格式：全称是OGGVobis。它是一种新的音频压缩格式，类似于MP3等现有的音乐格式。但有所不同的是，它是完全免费、开放和没有专利限制的。OGG Vobis有一个很出众的特点，就是支持多声道，随着它的流行，以后用随身听来听DTS编码的多声道作品将不会是梦想。OGG Vobis在压缩技术上比MP3好，使它很有可能成为一个流行的趋势，这也正是一些MP3播放器对其支持的原因

40、。另外，如果相同速率录制音频mp3和ogg不分上下，ogg采用更先进的算法还可能会好一些。第六十四张，PPT共九十二页，创作于2022年6月2.3 计算机音乐音乐合成MIDI规范数字音频工作站第六十五张，PPT共九十二页，创作于2022年6月一个乐音必备的三要素是：音高、音色和音强。运动的旋律中的乐音还应具备时值，即持续时间。音高：音高指声音的基频。声音的基频越高，给人的感觉就越激越；相反，声音的基频越低，给人的感觉就越低沉。音色：音色是由声音的频谱决定的：各阶谐波的比例不同，随时间衰减的程度不同，音色就不同。各种乐器的音色是由其自身结构特点决定的。要用计算机模拟具有强烈真实感的旋律，音

41、色的变化非常重要的。音强和时值：音强也叫响度，是指声音信号的强弱程度，是由声波振动的振幅决定的。声波振动的持续时间称为时值，它具有明显的相对性，一个音只有在包含了比它更短的音的旋律才会显得长。音乐合成第六十六张，PPT共九十二页，创作于2022年6月任何一种波形信号都可以被分解成若干个频率不同的正弦波，一个乐器的声音也可以由若干个正弦波合成得到。调频（FM）是使高频振荡波的频率按调制信号规律变化的一种调制方式。采用不同调制波频率和调制指数，就可以方便地合成具有不同频谱分布的波形，再现某些乐器的音色。我们可以采用这种方法得到具有独特效果的“电子模拟声”，创造出丰富多彩的、真实乐器所不具备的音

42、色。为使音乐更加真实，人们开发出波形表（wavetable）音乐合成技术。波表合成是把真实音乐声音数字信号录制后，保存在存储器中，当选择某个乐器时，将所录制的样本信号回放。目前这两种音乐合成技术都应用于多媒体计算机的音频卡中。第六十七张，PPT共九十二页，创作于2022年6月 1什么是MIDI MIDI（Musical Instrument Digital Interface，乐器数字接口）是一种技术规范，定义了为把电子乐器连接到计算机所需要的电缆和端口的硬件标准，计算机和具有MIDI接口的设备之间进行信息交换的规则，电子乐器之间传送数据的通信协议。 MIDI声音是记录电子乐器键盘的弹奏

43、过程，是将乐曲进行一种数字化的描述，这种描述称为MIDI消息（MIDI Message）。当需要播放这段音乐时，从相应的MIDI文件中读出MIDI消息，由合成器来解释这些消息中的符号，并生成所需要的乐器的声音波形，经放大后由扬声器输出。在计算机中播放MIDI信息须使用带有合成器的声卡。 MIDI规范第六十八张，PPT共九十二页，创作于2022年6月2 MIDI声音的优点：（1）存储容量小因为MIDI文件中记录的是一系列指令的集合，所以， MIDI文件所占的存储量非常小。在需要播放长时间的高质量音乐时，往往采用MIDI文件。（2）可以提供背景音乐或音响效果的配音功能当多媒体计算机播放图

44、像、文字、图表时，或者播放波形音频、语音时，可以同时播放MIDI音乐作为背景音响效果。（3）便于编辑和修改 MIDI声音记录的是符号，是乐谱的数字化表示。因此，它可以在计算机中很方便地任意修改乐曲的速度、音调，甚至可以更换的乐器，从而得到不同的效果。（4）可以在MIDI合成器中完全重现原来的演奏 MIDI是把MIDI设备上产生的每个活动记录下来，形成MIDI文件，把它再传送到MIDI合成器时，就可以完全重现原来的演奏效果。第六十九张，PPT共九十二页，创作于2022年6月3MIDl规范 MIDI规范是一个国际的标准，主要包括以下3个方面的内容。（1）MIDI的硬件规范指的是各种MIDI

45、设备之间连接的硬件接口标准和信号传输机制，包括输入/输出通道的类型，连接电缆样式及插座形式等。（2）MIDI声音信息的规范指的是使音乐信息互相交换的一种编码标准。它包括有关音乐成分的信息，如音符、音量、音调、音符时间长短等，是一种表达各种声音的作曲系统。（3）MIDI声音合成的规范指的是各种声音的表达方式，即真实声音信号的规范，它可以采用FM合成技术和波形表合成技术的标准。第七十张，PPT共九十二页，创作于2022年6月4MIDI的有关术语（1）MIDI文件 MIDI文件是存放MIDI信息的标准文件，文件名后缀为 .MID。（2）通道（Channels ）MIDI可为16个通道提供

46、数据，每个通道可以访问一个独立的逻辑合成器。（3）音序器（Sequencer）音序器是为了MIDI作曲而设计的计算机程序或电子装置，用于记录、编辑、播放MIDI文件。（4）合成器（Synthesizer）合成器是利用数字信号处理器或其他芯片产生音乐或声音的电子设备。它可以产生并修改波形，然后通过声音产生器和扬声器发出声音。（5）乐器（Instrument ）合成器能产生的特定声音称为乐器。每种乐器都有自己的波形，合成器按音色和音调的要求，由不同的乐器组合成最终的声音组合。第七十一张，PPT共九十二页，创作于2022年6月（6）复音（Polyphony ）复音是合成器同时支持的最多音符数

47、。（7）音色（Timbre ）音色指的是声音的音质，它取决于声音频率。（8）音轨（Track ）一种用通道把MIDI数据分隔成单独组，每条音轨分别定义了该条音轨的属性，如音轨的音色，音色库，通道数，输入/输出端口，音量等。一条音轨对应于音乐的一个声部，每一音轨可认为一种乐器的演奏。（9）合成音色映射器（Patchappear）合成音色映射器是一种软件。为了适应Microsoft的MIDI合成音色，分配表规定了合成音色的编号。软件为特定的合成器重新分配编号。（10）通道映射（Channel mapping ）通道映射把发送装置的MIDI通道号变换成适当的接收装置的通道号。第七十二张，PPT

48、共九十二页，创作于2022年6月数字音频工作站（Digital Audio Workstation，简称DAW）是集中多种音频处理工具的、以计算机为平台的数字音频制作系统。或者说是一种用来处理、交换音频信息的计算机系统。它是数字音频技术的和计算机技术结合的产物，数字音频工作站的出现，实现了广播系统高质量的节目录制自动化播出，同时也创造了更加良好的高效的工作环境。它把众多繁琐的音频制作过程集中在通用多媒体计算机上完成，与传统数字音频制作相比，省去了大量周边辅助数字音频设备，省去了大量设备的连接、安装、调试等，操作集中在计算机上完成，方便简单；目前DAW已被用到了广播电台的广播节目制作、播出、

49、管理与控制的各个环节，是广播电台播控中心数字化、网络化关键设备之一。第七十三张，PPT共九十二页，创作于2022年6月数字音频工作站从硬件角度来说，数字音频工作站的构成可以归结为以下几个部分：计算机控制部分，核心音频处理部分，数据存储设备及其它外设设备；从软件角度来说，数字音频工作站可分为以下几个模块：操作平台，音频处理界面，文件格式，第三方软件及其他相关软件。第七十四张，PPT共九十二页，创作于2022年6月数字音频工作站功能DAW提供了制作广播与影视节目中音频部分所需要的所有功能，包括：专业要求的音质录入和声音播放；采样频率最低44.1kHz，16bit的量化级别，频响范围达到20

50、Hz20000Hz，信噪比接近90dB 录音放音和合成；能够同时播放8个以上音轨、可同时看到波形剪辑功能。删除、静音、复制、移位、拼接、淡入淡出、移调、伸缩等数字效果处理；调音、实时均衡、声音扩压、声像移动、电平调整、混响、延时、降噪、变速调节等第七十五张，PPT共九十二页，创作于2022年6月第七十六张，PPT共九十二页，创作于2022年6月2.4 数字语音处理技术语音增强语音合成语音识别数字音频水印技术第七十七张，PPT共九十二页，创作于2022年6月语音增强语音增强是指当语音信号被各种噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术，即从含噪声语音中尽可能

51、提取纯净的原始语音。第七十八张，PPT共九十二页，创作于2022年6月语音增强的意义1，日常生活中，经常遇到在噪声干扰中进行语音通信的问题，如在汽车、火车上使用移动电话，在闹市、马路边、商场里打电话。2，军事通信中，指挥员的作战命令、情报员的汇报、战地会议等受到恶劣战场环境，如枪炮声、马达声等的干扰。3，窃听技术的需要进行增强。4，语音识别技术需要先进行增强。第七十九张，PPT共九十二页，创作于2022年6月语音增强的方法1，噪声对消法。2，谐波增强法。3，基于参数估计的语音再合成法。4，基于语音短时谱估计的增强算法。第八十张，PPT共九十二页，创作于2022年6月语音合成语音合成，又称文语转

52、换（Text to Speech）技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术是中文信息处理领域的一项前沿技术第八十一张，PPT共九十二页，创作于2022年6月语音合成这里所说的“让机器像人一样开口说话”与传统的声音回放设备（系统）有着本质的区别。传统的声音回放设备（系统），如磁带录音机，是通过预先录制声音然后回放来实现“让机器说话”的。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音，从而真正实现让机器“像人一样开口说话”。文语转换系统实际上可以看作是一个人工智能系统。第八十二张，PPT共九十二页，创作于2022年6月TTS的基本结构语言学处理在文语转换系统中起着重要的作用，主要模拟人对自然语言的理解过程文本规整、词的切分、语法分析和语义分析，使计算机对输入的文本能完全理解，并给出后两部分所需要的各种发音提示。韵律处理为合成语音规划出音段特征，如音高、

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音处理基本知识

文档简介

温馨提示

最新文档

评论

语音处理基本知识

文档简介

温馨提示

最新文档

评论

相关文档