第四章多媒体多媒体音频信息处理

上传人：7*** IP属地：湖北上传时间：2022-02-13 格式：PPT 页数：121 大小：1.73MB 积分：28 举报 版权申诉

已阅读5页，还剩116页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第第4 4章章多媒体音频信息处理多媒体音频信息处理声音是多媒体信息的一个重要组成部分,也是表达思想和情感的一种必不可少的媒体。无论其应用目的是什么，声音的合理使用可以使多媒体应用系统变得更加丰富多彩。在多媒体系统中，音频可被用作输入或输出。输入可以是自然语言或语音命令，输出可以是语音或音乐，这些都会涉及到音频处理技术。4.1 音频信号及其概念u4.1.1 声音处理技术历史回顾语言、音乐和各种自然声是以声波为载体传递信息的基本形式。人类很早就开始研究声音，并利用当时已掌握了的声音的某些规律来制造乐器、进行建筑设计或传声装置设计，使发出的声音传得更远。可是几千年来，人类只能凭耳朵来辨别声音的高

2、低、强弱，而不能把声音记录和储存起来。所以与其他研究领域相比，声学的研究相对滞后。直到19世纪爱迪生发明了留声机，人们才能用机械的方法把各种声音记录在唱片上。可是声音、机械振动不容易传递，也不容易放大，机械方法很不方便。随着电学、电子学的发展，人们开始尝试记录下这些真实的声音，利用把声的振动转换成电信号的原理，使声音的记录成为可能。最终电声技术获得了迅速发展。电声技术是研究可听声频率范围内声音的产生、传播、存储、重放和接收的技术。顾名思义，电声技术是依靠“电”来记录并播放声音的，其基本原理是通过电压来产生模拟声波变化的电流信号，并记录下来，灌录成早期的唱片或磁带，这种电流信号便被称之为“模拟

3、信号”。传统的声音记录方式就是将模拟信号直接记录下来，例如磁带录音和密纹唱片就是将声音拾取处理后以磁记录或机械刻度的方式记录下来，此时磁带上磁极的变化或密纹唱片音槽内的纹路起伏变化都是与声音信号的变化相对应、成正比的。这里，密纹唱片、盒式磁带等是记录储存这种模拟声音信号的载体，而能够播放和（或）记录这些软件的信号处理设备，诸如电唱机、磁带录音机等，则称为模拟音响设备。电声技术把声信号转换成电信号，经扩声系统直接进行扩声；或者将其信号利用磁带、CD或其他存储形式，使声音可超越时间和空间，通过重放系统将其信号（数字的或模拟的）经过放大，由扬声器或耳机转换成声信号，进入最后的终端-人耳，以实现任何时

4、间和地点的声音重现。电声转换、音频信号的存储、重放技术、加工处理技术以及数字化音频信号的编码、压缩、传输、存取、纠错等技术，是音频技术的主要对象。随着计算机技术的发展，特别是海量存储设备和大容量内存在计算机上的实现，对音频媒体进行数字化处理便成为可能。数字化处理的核心是对音频信息的采样，通过对采集到的样本进行加工，生成各种效果。音频信息在多媒体中的应用是极为广泛的，当计算机配有声卡和音箱后，就能够发出各种悦耳的声音，尤其是视频图像配以娓娓动听的音乐和语音，使计算机的操作得以藉由视觉以外的听觉加以辅助而成为一种愉快的过程。静态或动态图像配以解说和背景音乐，可使图像充满生气；立体声音乐可增加空间感

5、，使人身临其境；语音电子邮件，听声如见其人，游戏中的音响效果对于渲染气氛则为显得更为重要；此外，在多媒体通信中，可视电话、电视会议、这些都离不开数字化音频处理技术。 u4.1.2 音频信号的形式在日常生活中，音频(Audio)信号可分为两类：语音信号和非语音信号。语音是语言的物质载体，是社会交际工具的符号, 它包含了丰富的语言内涵，是人类进行信息交流所特有的形式。非语音信号主要包括音乐和自然界存在的其他声音形式。非语音信号的特点是不具有复杂的语义和语法信息，信息量低、识别简单。我们之所以能听到日常生活中的各种声音信息，其实就是不同频率的声波通过空气产生震动，刺激人耳的结果。在物理上，声音可

6、用一条连续的曲线来表示。这条连续的曲线无论多复杂，都可分解成一系列正弦波的线性叠加。规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示，称为声波。因声波是在时间和幅度上都连续变化的量，我们称之为模拟量。图图4-4 4-4 在自然界，声波与水波一样都是一种振动波在自然界，声波与水波一样都是一种振动波用声音录制软件记录的英文单词“Hello”的语音实际波形u4.1.3 模拟音频信号的物理特征模拟音频信号有两个重要参数：频率和幅度。声音的频率体现音调的高低，声波幅度的大小体现声音的强弱。一个声源每秒钟可产生成百上千个波，我们把每秒钟波峰所发生的数目称之为信号的频率，单位用赫兹(Hz)或千

7、赫兹(kHz)表示。例如一个声波信号在一秒钟内有5000个波峰，则可将它的频率表示为5000Hz或5kHz。人们在日常说话时的语音信号频率范围在300Hz3000Hz之间。频率小于20 Hz的信号称为亚音(Subsonic)；频率范围为20Hz20kHz的信号称为音频(Audio)，高于20kHz的信号称为超音频(Ultrasonic)。与频率相关的另一个参数是信号的周期。它是指信号在两个峰点或谷底之间的相对时间。周期和频率之间的关系是互为倒数。信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大，声音越强。对音频信号，声音的强度用分贝(dB)表示，分贝的幅度就是

8、音量。幅度限周期基线dB的测量值等于在对数标尺上选定的参考声强与实际感受到的声强的比值。如某一声音的功率强度为P1它的分贝数可用下式计算。分贝数=此处P0为参考点的功率无声时为10-12W。之所以选择对数是因为人耳对声音强度的感觉并不是与声音功率的大小成正比，而是与该功率的对数成正比。比如将声音功率调高100倍，但感觉增加的声强只增加20dB。)/log(1001PPu4.1.4 声音的A/D与D/A转换模拟信号很容易受到电子干扰，因此随着技术的发展，声音信号就逐渐过渡到了数字存储阶段，A/D转换和D/A转换技术便应运而生。这里，A代表Analog”（类比、模拟），D代表“Digital

9、”（数字、数码），A/D转换就是把模拟信号转换成数字信号的过程，模拟电信号变为了由“0”和“1”组成的Bit信号。这样做的好处是显而易见的，声音存储质量得到了加强，数字化的声音信息使计算机能够进行识别、处理和压缩，这也就是为什么如今磁带逐渐被淘汰，CD唱片却趋于流行的原因。 A/D转换的一个关键步骤是声音的采样和量化，得到数字音频信号，它在时间上是不连续的离散信号。借助于A/D或D/A转换器，模拟信号和数字信号可以互相转换 8 位可编程 A/D 转换芯片 u4.1.6 声音质量的评价我们经常会对某一位歌手的歌声发表意见，并与其他歌手进行比较，这其实是在对声音的质量进行评价。声音质量的评价是

10、一个很困难的问题，也是一个值得研究的课题。目前来看，声音质量的度量有两种基本方法，一种是客观质量度量，另一种是主观质量的度量。声音客观质量的度量方法声波的测量与分析传统的方法是先用机电换能器把声波转换为相应的电信号，然后用电子仪表放大到一定的电压级进行测量与分析。由于计算技术的发展，使许多计算和测量工作都使用了计算机或程序实现。这些带计算机处理系统的高级声学测量仪器，能完成下列一些测量工作：q评价值的测量响度和响度级，噪音级，清晰度指数，噪音评价数。q声源的测量频谱的时间变化，声功率，指向性，效率，频谱特征，幅值分布等。 q音质的测量混响时间，隔音量，吸音量。声测量的基本仪器是声级计。

11、声级计是一种能对声音作出类似人耳的反应的仪器，同时，它能进行客观而可重复的声压和声级测量。声压测量的好处很多：它能帮助音乐厅提高音响效果；能对烦扰声音进行精密的、科学的分析。声级测量还能明确地告诉我们什么声音会引起听力损害，并提醒人们采用适当的听力保护措施。因此，声测量是不可少的。度量声音客观质量的一个主要指标是信噪比SNR（Signal to Noise Ration），信噪比是有用信号与噪声之比的简称。其单位是分贝(dB)。声音主观质量的度量采用客观标准方法很难真正评定某种编码器的质量，在实际评价中，主观的质量度量比客观质量的度量更为恰当和合理。通常是对某编码器的输出的声音质量进行评价，

12、例如播放一段音乐，记录一段话，然后重放给实验者听，再由实验者进行综合评定。可以说，人的感觉机理最具有决定意义。当然，可靠的主观度量值是较难获得的。平均判分（Mean Opnion Scose-MOS）过程是召集一批实验者，请每个实验者对某个编解码器的输出进行质量判分，采用类似于考试的五级分制，不同的MOS分对应的质量级别和失真级别见表4-。 MOS质量级别失真级别5优(Excellent)不察觉良(Good)刚察觉但不可厌中(Fair)察觉及稍微可厌差(Poor)可厌(但不令人反感)劣(Unacceptable)极可厌(令人反感)声音质量分级与带宽声音的质量与它所占用的频带宽度有关，频带越

13、宽，信号强度的相对变化范围就越大，音响效果也就越好。按照带宽可将声音质量分为4级： q数字激光唱盘质量，通常又CD-DA质量，这种质量也就是我们常说的超高保真，即Super HiFi(High Fidelity)。 q调频无线电广播，简称FM(Frequency Modulation)质量。 q调幅无线电广播，简称AM(Amplitude Modulation)质量。 q电话(Telephone)质量。在这4级质量中，以CD-DA的声音质量等级最高，其余次之。 4级声音质量的频率范围音频测试仪(AUDIO TEST) 4.2 模拟音频的数字化过程如果要用计算机对音频信息进行处理，则首先要将

14、模拟音频信号（如语音、音乐等）转变成数字信号。数字化的声音易于用计算机软件处理，现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音频的采样、量化和编码。采样和量化的过程可由A/D转换器实现。A/D转换器以固定的频率去采样，即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号，可以将其以文件形式保存在计算机的存储介质中，这样的文件一般称为数字声波文件。模拟信号的数字化过程100101100011101u4.2.1采样早在40年代，信息论的奠基者香农（Shannon）指出：在一定条件下，用离散的序列可以完全代表一个连续函数，这是采样定理的

15、基本内容。采样定理看来象是一个数学问题，而实质上它为数字化技术奠定了一个基础。为实现A/D转换，需要把模拟音频信号波形进行分割，以转变成数字信号，这种方法称为采样(Sampling)。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值，把时间上的连续信号，变成时间上的离散信号。该时间间隔称为采样周期，其倒数为采样频率。采样频率是指计算机每秒钟采集多少个声音样本。采样频率越高，即采样的间隔时间越短，则在单位时间内计算机得到的声音样本数据就越多，对声音波形的表示也越精确。这和测定每天24小时气温变化是一样的，每小时测定1次气温比每两小时测定1次气温的精度要高一倍。采样频率与声音频率之间有

16、一定的关系，根据奈奎斯特（Nyquist）理论，只有采样频率高于声音信号最高频率的两倍时，才能把数字信号表示的声音还原成为原来的声音。采样的著名实例就在我们的日常生活中，例如电话和CD唱片。在数字电话系统中，为将人的声音变为数字信号，采用脉冲编码调制PCM方法，每秒钟可进行8000次的采样。PCM提供的数据传输率是56kb/s(b/s表示b/s)或64kb/s。CD唱片存储的是数字信息，要想获得CD音质的效果，则要保证采样频率为44.1kHz，也就是能够捕获频率高达22050Hz的信号。 u4.2.2 量化采样只解决了音频波形信号在时间坐标(即横轴)上把一个波形切成若干个等分的数字化问题，

17、但是每一等分的长方形的高是多少呢? 即需要用某种数字化的方法来反映某一瞬间声波幅度的电压值的大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为“量化”。量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合，把落入某个区段内的样值归为一类，并赋于相同的量化值。如何分割采样信号的幅度呢? 我们还是采取二进制的方式，以位(bit)或16位(bit)的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中，其纵轴将会被划分为256个量化等级(quantization levels)，用以记录其幅度大小。而一个以16位为采样模式的音效中，它在每一个固定采样的区间内所被

18、采集的声音幅度，将以个不同的量化等级加以记录。在相同的采样频率之下，量化位数愈高，声音的质量越好。同理，在相同量化位数的情况下，采样频率越高，声音效果也就越好。这就好比是量一个人的身高，若是以毫米为单位来测量，会比用厘米为单位量更加准确。表4-2给出了不同信号类型的采样率和量化精度。信号类型频率范围(Hz) 采样率(kHz) 量化精度(位)电话话音200-34008宽带音频50-7000调频广播20-15k高质量音频20-22ku4.2.3 采样与量化过程示例以图4-1所示的原始模拟波形为例进行采样和量化。假设采样频率为1000次/秒，即每1/1000秒A/D转换器采样一次，其幅度被划分

19、成09共10个量化等级，并将其采样的幅度值取最接近0 9之间的一个数来表示，如图4-2所示。图中每个正方形表示一次采样。当D/A转换器从图4-2得到的数值中重构原来信号时，得到图4-3中蓝色(直线段)线段所示的波形。从图中可以看出，蓝色线与原波形(红色线)相比，其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。失真在采样过程中是不可避免的，如何减少失真呢？可以直观地看出，我们可以把图4-2中的波形划分成更为细小的区间，即采用更高的采样频率。同时，增加量化精度，以得到更高的量化等级，即可减少失真的程度。在图4-4中，采样率和量化等级均提高了一倍，分别为2000次/秒和20个量化等

20、级。在图4-5中，采样率和量化等级再提高了一倍，分别达到4000次/秒和40个量化等级。从图中可以看出，当用D/A转换器重构原来信号时（图中的轮廓线），信号的失真明显减少，信号质量得到了提高。图4-4 采样率为2000Hz，量化等级为20的采样量化过程图4-4 采样率为4000Hz，量化等级为40的采样量化过程 u4.2.4 编码模拟信号量经过采样和量化以后，形成一系列的离散信号脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码，形成计算机内部运行的数据。所谓编码，就是按照一定的格式把经过采样和量化得到的离散数据记录下来，并在有用的数据中加入一些用于纠错、同步和控制的数据。在数据回放时，

21、可以根据所记录的纠错数据判别读出的声音数据是否有错，如在一定范围内有错，可加以纠正。编码的形式比较多，常用的编码方式是PCM脉冲调制。脉冲编码调制（PCM）是把模拟信号变换为数字信号的一种调制方式，既把连续输入的模拟信号变换为在时域和振幅上都离散的量，然后将其转化为代码形式传输或存储。PCM的主要优点是：抗干扰能力强；失真小；传输特性稳定，尤其是远距离信号再生中继时噪声不累积，而且可以采用压缩编码、纠错编码和保密编码等来提高系统的有效性、可靠性和保密性。模拟信号经过采样再经量化，然后用有限个二进制码去代表量化后的幅度，在编码器中引入的量化误差在解码时无法消除，这一误差等效于引入了噪声、降低

22、了信噪比。在比特率较高的波形编码中可以用客观指标如信噪比来衡量编码的质量，例如现在电话中普遍使用的律标准（ITU G.711标准），要求信噪比优于35dB。除此之外，还可以规定动态范围和频率响应，在有关的国际标准中都有具体规定。在低比特率情况下，采用了语音特征参数分析和合成语音的编码方法，每个样值仅或0.5比特。在ISO的红皮书（Red Book）标准中，规定CD-DA每24字节双声道音频数据为一帧，对每一帧数据编码后要形成帧同步码、子码（用于控制和显示）及纠错码，采用差错校验码CIRC，用来检测和纠正因CD表面的划伤或灰尘产生的差错。其格式如表4-3所示。在CD-DA中，数据、控制码和纠

23、错码分别记录在不同的光道上。定义98个音频数据帧为一个扇区。因此每个扇区所含音频数据量为 9824 2352（Byte），它使得一张CD唱盘上可容纳约74分钟的立体声音乐信号。帧同步子码音频数据（左声道）Q校验音频数据（右声道）P校验4.3 音频信号的压缩编码与标准将量化后的数字声音信息直接存入计算机将会占用大量的存储空间。在多媒体系统中，一般是对数字化声音信息进行压缩和编码后再存入计算机，以减少音频的数据量。u4.3.1 音频信号压缩编码概述在多媒体音频信号处理中，一般需要对数字化后的声音信号进行压缩编码，使其成为具有一定字长的二进制数字序列，并以这种形式在计算机内传输和存储。在播放这些

24、声音时，需要经解码器将二进制编码恢复成原来的声音信号播放。音频信号处理过程声音信号能进行压缩编码的基本依据是：声音信号中存在着很大的冗余度，通过识别和去除这些冗余度，便能达到压缩的目的；音频信息的最终接收者是人，人的听觉器官(包括视觉器器官)都具有某种不敏感性，舍去人的感官所不敏感的信息对声音质量的影响很小，在有些情况下，甚至可以忽略不计。例如，人耳听觉中有一个重要的特点，即听觉的“掩蔽”。它是指一个强音能抑制一个同时存在的弱音的听觉现象。利用该性质，可以抑制与信号同时存在的量化噪音。 .对声音波形取样后，相邻样值之间存在着很强的相关性。音频数据压缩和编码与图像压缩编码有着很大的不同。图

25、像数据表达的是二维空间，很难找出固定的模型来形式化地表征它。音频数据表达的是一维随时间变化的函数，因而声音数据的压缩比图像数据压缩要容易得多。从方法上看，声音信号的编码方式大致可分为三类，即波形编码、参数编码和混合编码。波形编码的编码信息是声音的波形。这种方法要求重构的声音信号的各个样本尽可能地接近于原始声音的采样值，复原的声音质量较高。波形编码技术有PCM（脉冲编码调制）、ADPCM（自适应差分脉冲编码调制）和ATC（自适应变换编码）等参数编码是一种对语音参数进行分析合成的方法。语音的基本参数是基音周期、共振峰、语音谱、声强等，如能得到这些语音基本参数，就可以不对语音的波形进行编码，而只要记

26、录和传输这些参数就能实现声音数据的压缩。这些语音基本参数可以由语音生成机构模型通过实验获得。得到语音参数后，就可以对其进行线性预测编码（LPC-Linear Predictive Coding）。混合型编码方法是一种在保留参数编码技术的基础上，引用波型编码准则去优化激励源信号的方案。混合编码充分利用了线性预测技术和综合分析技术，其典型算法有：码本激励线性预测（CELP）、多脉冲线性预测（MP-LPC）及矢量和激励线性预测（VSELP）等。总的来说，波形编码在声音编码方案中应用较广，可以获得很高的声音质量。下面我们介绍波形编码方案中常用的PCM编码。 u4.3.2 PCM编码 1939年法国

27、工程师Alec Reeves发明了将连续的模拟信号变换成时间和幅度都离散的二进制码代表的脉冲编码调制信号（Pulse Code Modulation-PCM），并申请了专利。首先开始应用于电话系统，但一直到年美国Bell实验室才为制成了国际上第一套商用电话系统（系统），这标志了通信开始步入数字化。以后的计算机发展更促进了通信的数字化，并逐步与通信相结合。 PCM 编码是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称。PCM方法可以按量化方式的不同，分为均匀量化PCM、非均匀量化PCM和自适应量化PCM等几种。如果采用相等的量化间隔对采样得到的信号作量化，那么这种量化称为均匀

28、量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度，也称为线性量化，如图4-6所示。均匀量化PCM就是直接对声音信号作A/D转换，在处理过程中没有利用声音信号的任何特性，也没有进行压缩。该方法将输入的声音信号的振幅范围分成个等份（B为量化位数），所以落入同一等份数的采样值都编码成相同的B位二进制码。只要采样频率足够大，量化位数也适当，便能获得较高的声音信号数字化效果。为了满足听觉上的效果，均匀量化PCM必须使用较多的量化位数。这样所记录和产生的音乐，可以达到最接近原声的效果。当然提高采样率及分辨率后，将引起储存数据空间的增大。图 46 均匀量化图 4-7 律的压缩特性改进PCM编

29、码技术的一个方法是采用非均匀量化，即让量化级高度随信号振幅而变化。信号振幅小则缩小量化级高度，信号振幅大时则增大量化级高度。这样就可以在满足精度要求的情况下用较少的位数实现编码。在声音数据还原时，采用相同的规则。在非均匀量化中，采样输入信号幅度和量化输出数据之间定义了两种对应关系，一种称为律（-Law）压（缩）扩（展）算法，另一种称为A律(A-Law) 压（缩）扩（展）算法。这两种算法主要用于数字电话通信中。律的计算公式如下：)()1ln(x(n)u1ln)(maxmaxnxsignuXXny 其中是信号x(n)的最大幅度，u是控制压缩程序的参数，u越大压缩就越厉害图4-7给出了按律压

30、扩算法的输入输出特性曲线，为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比。由图可见，值越大，压缩量越大。由于律压扩的输入和输出关系是对数函数关系，所以这种编码又称为对数PCM。 A律压扩与律压扩相比，则压缩的动态范围略小些，小信号振幅时质量要比律稍差。无论是A律还是律算法，它们的特性在输入信号振幅小时都呈线性，在输入信号振幅大时呈对数压缩特性。对于采样频率为8kHz，样本精度为16位的输入信号，使用A律压扩或律压扩编码，经过PCM编码器之后每个样本的精度为8位，输出的数据率为64kb/s。这个数据就是CCITT ,（国际电话与电报顾问委员会）推荐的G.711标准：话音频率脉冲编码

31、调制。 u4.3.3 音频压缩编码的标准随着多媒体计算机系统及数字通信系统的发展，数字音频编码技术正日益受到重视。为了提高信号传输和存储的效率，人们多方致力于信源编码的研究，力图在保证声音质量的前提下，降低信源编码的数据速率，并由此产生了一系列的国际的区域的标准。国际电报电话咨询委员会（CCITT）先后提出了一系列有关语音压缩编码的建议。在1972年制定了G.711，采用的是律或A律的PCM编码技术，数据速率为64kb/s。1984年，公布了G.721标准，它采用的是ADPCM编码技术，数据率为32kb/s。以上两个标准均适用于3003400Hz窄带语音信号，也可用于公用电话网。针对宽带语音信

32、号（50Hz7kHz），CCITT制定了G.722编码标准，它的数据速率为64kb/s。用此标准编码，可在ISDN（综合业务数据网）的B通道上传输音频数据为了进一步降低数据速率，CCITT从1989年开始研究16kb/s的短延时、高质量的音频编码标准。在AT&T Bell实验室16kb/s短延时码激励（LD-CELP）编码方案的基础上，又公布适合于进入长途电话网采用的新标准。另外，还有欧洲数字移动通信（GSM）制定了数字移动通信网的13kb/s长时预测规则码激励（RPE-LTP）语音编码标准。美国1989年也公布了CTIA标准。它采用长时延自适应CELP方案，适应于更低速率的语音压缩，

33、主要应用在保密话音通信。 ISO（国际标准化组织）也制定了一系列的相应的标准，其运动图象专业组（MPEG）在制定运动图象编码标准的同时，制定了高保真立体声音频压缩标准“MPEG音频”。虽然MPEG声音标准是MPEG标准的一部分，但它同时也完全可以独立应用。 MPEG声音压缩算法是第一个高保真声音数据压缩的国际标准。 MPEG音频根据不同的算法分为三个层次。层次1与层次2具有大致相同的算法,如表4-3所示。输入音频信号的采样频率为48kHz、44.1kHz或32kHz，经过滤波器组分成32个子带。同时编码器利用人耳的屏蔽效应，根据音频信号的性质计算各个频率分量的屏蔽门限，以控制每一个子带的量化

34、参数，达到数据压缩的目的。MPEG音频的层次3进一步引入了辅助子带、非均匀量化和熵编码等技术，可以进一步压缩率。立体声信号的编码也可以在MPEG音频中作为附加功能实现。MPEG音频压缩技术的传输速率为每声道32kb/s448kb/s。 MPEG声音的质量表中，MUSICAM (Masking pattern adapted Universal Subband IntegratedCoding And Multiplexing)为自适应声音掩蔽特性的通用子带综合编码和复合技术。ASPEC (Adaptive Spectral Perceptual Entropy Coding of high

35、quality musical signal) 表示高质量音乐信号自适应谱感知熵编码。层次算法压缩率立体声信号所对应的比特率(kbits/sec)1 MUSICAM 1:4 3842MUSICAM 1:6 1:8256 1923ASPEC1:10 1:12128 1124.3.4 数字音频的文件格式在多媒体技术中，存储音频信息的文件格式主要有：WAV文件、VOC文件和MP3文件等。 WAV文件 WAV文件又称波形文件，是Microsoft公司的音频文件格式。自从Windows视窗操作系统面世以来，Microsoft就将WAV文件作为其标准格式的文件使用。用于保存Windows平台的音频信息

36、资源，被Windows平台及其应用程序所广泛支持。WAV文件来源于对声音模拟波形的采样，并以不同的量化位数把这些采样点的值轮换成二进制数，然后存入磁盘，这就产生了波形文件。 W A V 声音文件是使用 R I F F （ R e s o u r c e Interchange File Format资源交换文件）的格式描述的，RIFF格式文件是一种带有标记的文件结构，它由文件头和波形音频文件数据块组成。文件头包括标志符、语音特征值、声道特征以及PCM格式类型标志等。WAV数据块是由数据子块标记、数据子块长度和波形音频数据3个数据子块组成。 Wave格式支持MSADPCM、CCITT

37、 ALaw、CCITT Law和其他压缩算法，支持多种音频位数、采样频率和声道，是PC机上最为流行的声音文件格式，但其文件尺寸较大，多用于存储简短的声音片断。 VOC文件 VOC文件是Creative公司所使用的标准音频文件格式，也是声霸卡（Sound Blaster）所使用的音频文件格式。Voice文件是 Creative Labs (创新公司)开发的声音文件格式，多用于保存 Creative Sound Blaster(创新声霸)系列声卡所采集的声音数据，被Windows平台和DOS平台所支持，支持CCITT A Law和CCITT Law等压缩算法。与WAV格式类似，VOC文件由文件

38、头块和音频数据块组成。文件头包含一个标识、版本号和一个指向数据块起始地址的指针，这个指针帮助数据块定位以便顺利找到第一个数据块。数据块分成各种类型的子块，如声音数据、静音、标记、ASCII码文件、重复、重复的结束及终止标记等MPEG音频文件.MP1/.MP2/.MP3 这里的音频文件格式指的是MPEG标准中的音频部分，即MPEG音频层(MPEG Audio Layer)。MPEG音频文件的压缩是一种有损压缩，根据压缩质量和编码复杂程度的不同可分为三层(MPEG Audio Layer 1/2/3)，分别对应MP1、MP2和MP3这三种声音文件； MPEG音频编码具有很高的压缩率，MP1和MP2

39、的压缩率分别为41和6181，而MP3的压缩率则高达101121，也就是说一分钟CD音质的音乐，未经压缩需要10MB存储空间，而经过MP3压缩编码后只有1MB左右，同时其音质基本保持不失真。 MP3的流行得益于Internet的推波助澜，它用网络代替了传统唱片的传播途径，扩大了数字音乐的流传范围，加速了数字音乐的传播速度，MP3凭借其优美的音质和高压缩比而成为最为流行的音乐格式。 MP3播放器WinampMP3是Internet上流行的音乐格式MP3格式文件在播放时需要专门的工具软件，Winamp是一个集强大的功能和小巧灵珑于一体的MP3播放器。它能够对播放 MP3 文件的播放作全面的控制，支

40、持MMX技术。它内置的图形化均衡器，可以方便地调节音色，使之更符合个人喜好。此外，应用较为广泛的MP3播放软件还有Winplay3和MusicMatch等。 RealAudio文件.RA/.RM/.RAM RealAudio文件是RealNetworks公司开发的一种新型流式音频(Streaming Audio)文件格式；它包含在RealNetworks所制定的音频、视频压缩规范RealMedia中，主要用于在低速率的广域网上实时传输音频信息；网络连接速率不同，客户端所获得的声音质量也不尽相同：对于28.8kb/s的连接，可以达到广播级的声音质量；如果拥有ISDN或更快的线路连接，则可获得CD

41、音质的声音。 AIFF文件.AIF/.AIFF AIFF是音频交换文件格式(Audio Interchange File Format)的英文缩写，是苹果计算机公司开发的一种声音文件格式；被Macintosh平台及其应用程序所支持，其他专业音频软件包也同样支持这种格式。4.4 声卡声卡（也称为声效卡）在多媒体计算机中，是不可缺少的重要部件。它直接决定了MPC对声音数据的处理能力与质量。现在的声卡已不仅仅作为发声之用，还兼备了声音的采集、编辑、语音识别、网络电话等种种功用。 u4.4.1 声卡发展的历史 ADLIB-最早的声卡虽然PC声卡是在90年代才得以普及，但它的问世却早在1984年。英国

42、的ADLIB公司是目前公认的“声卡之父”，虽然他们最初开发的产品只能提供简单的音乐效果，并且无法处理音频信号，但在当时无疑已经是一个很大的突破。由于技术不够成熟、成本又非常高昂，因此这类带有试验品性质的早期ADLIB音乐卡，当时计算机的运算速度也不足以应付大规模的多媒体处理，所以并未能普及。 Creative 声卡系列把声卡真正带入个人电脑领域的，是CREATIVE-创新公司。创新科技有限公司是世界上规模最大的多媒体硬件生产商和制造商之一，其“声霸卡”和“视霸卡”系列产品在全球占有很高的市场份额。自1989年，Creative在美国Comdex展览会上首次推出自己研制开发的适用于PC机的Sou

43、nd Blaster而引起轰动至今，使SB声霸卡产品形成系列而风靡全球。第一代Sound Blaster声卡基于ISA总线，具有一个8位的D/A转换器，只支持单声道录放音模式。它一次为电脑同时加上了音乐处理和音频信号处理的功能。此后推出的Sound Blaster Pro加入了对立体声信号的支持。第一个多媒体电脑技术标准MPC1，就把Sound Blaster Pro作为声卡设备的标准配置。 Creative在成功推出第一块适用于机的声音卡 Sound Blaster Pro 后，又推出了具有 16bit、44KHz采样率并支持立体声的Sound Blaster 16系列。它的推出使多媒体声

44、卡的录音和放音第一次在技术规格上达到了CD唱片的品质。在20世纪90年代中期，16bit、44KHz、立体声D/A转换代表了声卡的最高技术水平。 Creative在1995年的推出了具有波表合成功能的Sound Blaster Awe 32声卡。SB Awe 32具有一个32复音的波表引擎，并集成了1MB容量的音色库，使其MIDI合成效果大大超越了以前所有的产品（其以前的产品在MIDI“电子合成器”方面采用都是YAMAHA公司研发的FM合成技术）。在Sound Blaster 32的基础上，Sound Blaster AWE64在技术上取得了巨大的飞跃。这里的32和64不再表示数字音频的位数

45、，而是表示32和64种复音的波表合成技术，它们仍是16位声卡。SB AWE64采用著名音源公司E-mu的专业级的波表，采用了多点插值算法专利技术的Wave Effect合成器，提供平滑的音频复制和最小的失真，可升级到28MB音色采样子系统能更好地支持Sound Font 音色库。它提供了高质真实乐器感的64复音的MIDI合成器，使得游戏和多媒体应用程序的音响效果比以前更为逼真。3D增强定位音响（3D Positional Audio）技术和空间响应，使每一种声音变得比以前更加令人陶醉。高级的音色库定制和编辑，使用户可以在计算机上制作音乐，进行作曲。 u4.4.2 声卡的工作原理声卡采用大规模集

46、成电路，将音频技术范围的各类电路以专用芯片形式集成在声卡上，并可直接插入计算机的扩展槽中使用。虽然声卡的品牌与型号各异，功能也不尽相同，但基本包含以下各功能部件，如图4-10所示。主芯片-数字信号处理器声卡音频处理的主芯片承担着对声音信息处理、特殊音效过滤与处理、语音识别、实时音频压缩、MIDI合成等重要的任务。而对声音信号的采样与编码则被分离出来，这个任务交给了一个被称作“CODEC”的芯片来完成。声卡主芯片普遍都是一块具有强大运算能力的DSP(数字信号处理器）。多数情况下，声卡上最为硕大的那块芯片就是主音频处理芯片，是声卡的核心部件。DSP是一种可编程芯片，通过软件安装新的指令后就能够

47、升级。主芯片能将来自ADC(数字/模拟转换器)的信号加以处理，改变成所需要的形式。DSP芯片对输入的数字声音用PCM、DPCM或ADPCM方式进行编码和压缩，并形成WAV格式文件送入计算机磁盘存储。声音输出时，将磁盘中的WAV文件送入DSP芯片，经解码后变成数字声音信号送至D/A转换部分。美国ESS生产的声卡主芯片混音芯片-CODEC CODEC的意思是“多媒体数字信号编解码器”，一般我们把它简称为“混音芯片”或”混音器”。 Intel公司制定的AC97音频规范文件中建议，为了提高声音信号转换过程中的信噪比，减少电磁干扰，应该把数模转换（D/A）和模数转换（A/D）部分从主芯片中脱离出来

48、，采用一个独立的处理单元来进行声音采样和编码，CODEC也就应运而生了。 CODEC芯片它主要承担对原始声音信号的采样、编码和混音处理，由于它肩负着采样编解码工作，所以CODEC芯片的处理能力和信噪比对最终的声音输出品质有很大的影响。混音的声源可以是MIDI信号、CD音频、线性输入、话筒等，可以选择输入一个声源或将几个不同声源进行混合录音。在对音源处理时，可编程设定采样频率和量化位数。混音器通过I/D端口(地址和数据端口)可对混音器的各种功能进行可编程设置：q控制数字化声音输出的音量。q控制FM输出音乐音量，设置左声道或左右声道同时输出以及静音(mute)方式(即所有声道全部关闭)。q控制C

49、D-ROM中播放的音量。q控制外线输入和话筒输出的音量。q控制总音量输出，调整左、右及中央声道输出，达到控制音频媒体表现效果。q选择声音I/O模式，即单声道或立体声。q选择或组合声音输入源。q选择I/O滤波器，低通、高通或关闭滤波器，适应输出要求。 Sound Blaster PCI64声卡的混音器设置界面在多声道趋于流行的时代，CODEC芯片是否具有多通道DAC功能就显得尤为重要。目前新声卡产品已经普遍可以支持四通道的DAC转换。ADC由于主要负责声音的录制，所以一般都是两通道的。频响范围也是非常重要的指标，大部分CODEC芯片都能够支持20Hz20KHz的频响范围，这已经是人耳所能听

50、到的最大范围。合成器标准多媒体PC可以通过声卡的内部合成器或主机MIDI端口的外部合成器播放MIDI文件。MIDI合成器有两种：频率调制合成器(FM合成器)、波形表(Wave Table合成器)。波形合成器是将每一种乐器对应一种或几种波形，合成音乐时，以查表方式获取乐器的波形，从而产生效果逼真的合成音乐输出。总线接口和控制器总线接口和控制器由数据总线双向驱动器、总线接口控制逻辑、总线中断逻辑和DMA控制逻辑组成。目前声卡的总线接口一般采用PCI接口，并可设定基本I/O地址、中断向量IRQ和DMA通道三个参数。外部输入输出口声卡外部输入输出口均为3.5mm规格插口，比较常见的包括：

51、q麦克风接口（MIC IN）连接麦克风，实现声音输入、外部录音功能。 q线性输入口（LINE IN）连接各种音频设备的模拟输出，实现相关设备的音源输入。q音频输出口（LINE OUT）连接多媒体有源音箱，实现声音输出。q扬声器输出（SPK OUT）通过声卡功放输出的放大信号，用于连接无源音箱 q后置音箱输出口（REAR OUT）四声道声卡专有，连接环绕音箱。 qMIDI设备接口/游戏手柄接口（MIDI/Joystick）连接MIDI音源、电子琴或者游戏控制设备。 q同轴数码输出（SPDIF OUT）连接数字音频设备，主要是AC-3、DTS解码器和数字音箱。 q光纤数码输入（SPDIF IN）用

52、于连接数字音频设备的光纤输出，实现无损录音。 .4.3 声卡录音与回放的工作过程在基本了解了声卡的结构后，就容易理解声卡究竟是如何完成对声音的录制与回放的过程了。在录音时，声音信号通过麦克风或者Line in通道进入，首先经过CODEC芯片进行采样、A/D转换、混合等一系列过程，随后通过主芯片处理，录制成相关的波形音频文件。在放音时，数字波形声音信号首先通过声卡主芯片进行处理和运算，随后被传输到CODEC芯片进行D/A转换，随之模拟信号再经过放大器的放大，通过多媒体音箱输出，而被用户的耳朵最终接收到。在播放MIDI时，根据所指示的乐器到波形查询表中查询该乐器的资料，经过D/A转换为模拟

53、声音方式，可以达到令人满意的音乐效果. u4.4.4 声卡的性能指标音频技术指标声卡的录音、放音效果应该具有CD唱片的音质。所谓CD音质是指录音采样速度达到44.1KHz，用16位量化指标来记录声音。Sound Blaster 16（即16位声霸卡）系列的声卡都是CD音质的声卡。 MIDI音频 MIDI是计算机产生声音的另外一种方法, 它是一种电子音乐. MIDI(. MID)文件记录产生某种声音的指令. 因此与数字化声音文件(.WAV)相比, 同一首乐曲, .MID文件的存储容量远小于.WAV文件. 此外.MID文件容易修改, 用户借助MIDI制作软件可在计算机上作曲. 计算机播放MID

54、I文件时, 有两种方法合成声音: FM合成和波表合成. FM合成是通过多个频率的声音混合来模仿乐器的声音, 波表合成是将乐器的声音样本存储在声卡波形表中, 播放时从波形表中取出来产生声音. 采用波表合成技术可以产生更逼真的声音声道数声卡所支持的声道数也是重要指标。单声道是比较原始的声音复制形式，单声道缺乏对声音的位置定位，而立体声技术则彻底改变了这一状况。立体声声音在录制过程中被分配到两个独立的声道，从而达到了很好的声音定位效果。这种技术在音乐欣赏中显得尤为有用，听众可以清晰地分辨出各种乐器来自的方向，从而使音乐更富想象力，更加接近于临场感受。时至今日，立体声依然是许多产品遵循的技术标准。

55、立体声虽然满足了人们对左右声道位置感体验的要求，而要达到好的效果，仅仅依靠两个音箱是远远不够的，随着波表合成技术的出现，由双声道立体声向多声道环绕声的发展就显得格外迫切。因为同时期的家用音响设备已经基本转向多声道环绕声的家庭影院系统，而且随着DVDROM的普及，回放DVD影片时的Dolby Digital（AC3）5.1声道信号的解码也提上了日程。四声道环绕规定了4个发音点：前左、前右，后左、后右，听众则被包围在这中间。同时还建议增加一个低音音箱，以加强对低频信号的回放处理(这也就是如今4.1声道音箱系统广泛流行的原因)。就整体效果而言，四声道系统可以为听众带来来自多个不同方向的声音环绕，

56、可以获得身临各种不同环境的听觉感受，给用户以全新的体验。如今四声道技术已经广泛融入于各类中高档声卡的设计中，成为未来发展的主流趋势。 5.1声道已广泛运用于各类传统影院和家庭影院中，一些比较知名的声音录制压缩格式，譬如杜比AC-3（Dolby Digital）就是以5.1声音系统为技术蓝本的。其实5.1声音系统来源于4.1环绕，不同之处在于它增加了一个中置单元。这个中置单元负责传送低于80Hz的声音信号，在欣赏影片时有利于加强人声，把对话集中在整个声场的中部，以增加整体效果。多音频流输出多音频流输出是指声卡可以在同一时间内支持多个WAVE、MP3、MIDI类音频文件的播放。拥有多音频流输出能

57、力的一个典型好处就是，你可以在欣赏MP3音乐的时候，同时听到来自OICQ、ICQ之类软件的信息提示音。如果声卡不支持这个功能，如果某个软件程序首先占用了WAVE音频输出，它就将独占这个通道，其他需要播放其他文件的程序(包括播放同种音频文件类型)将不能被正常播放。目前大部分中高档PCI声卡是普遍支持多音频流输出的，多路Wave信号通过声卡芯片进行混合后输出。 I/O设备接口一般的声卡都设有线性输入(LINE IN)、线性输出(LINE OUT)、音箱输出(SPEAKERS OUT)、MIDI和游戏杆接口(MIDI/JOYSTICK PORT)等。声卡的常用接口系统参数的可调性为避免I/O地址

58、、DMA、IRQ对系统的冲突，声卡参数必须能够设置。当然是利用软件进行设置才最为方便，早期的声卡有可能要对着手册去调整硬卡上的Jumper(跳线)。声卡软件声卡软件很重要，一块声卡的技术指标再高，但缺乏应用软件的支持，很难发挥该卡的特长。声卡一般都带有应用程序，这些应用程序包括录音软件、WAV、CD及MIDI播放软件、混音器、WAV文件编辑器等。较高档的声卡还应提供特殊效果播放器、文字阅读软件及语音识别软件等。总线结构由于计算机技术突飞猛进的发展，ISA总线已经不能满足音频信号的高吞吐量的需要，于是产生了PCI声卡。所谓PCI声卡，就是采用PCI总线的声卡。那么PCI声卡比ISA声卡有

59、什么优点呢?。ISA总线的最大传输率是8Mb/s，由于ISA总线带宽的限制,使少量的声音流直接影响到游戏程序编制,使之由简变复,加重了系统负担。而PCI总线的最大传输率是133Mb/s，由于数据带宽得到扩展,系统负担也就由此而得以缓解,完全可以满足音频数据传输的要求。 PCI声卡芯片采用了高度集成化的设计，它将FM合成器、波表合成器和多媒体数字信号编码解码器集成到了同一个芯片上面。这样可以降低产品的生产成本，提高声卡的可靠性。随着PC 98标准的实施，主板上的ISA插槽将会被逐渐淘汰，PCI声卡会越来越普及。 u4.4.6 音频制作与处理软件声卡生产商会给用户提供一些音频制作与处理软件，满足简

60、单的制作与处理音频的要求。如果要进行专业级的创作，可以考虑选用一种兼容性强、功能完善的通用音频制作与处理软件。 CoolEditCoolEdit Pro是著名的Syntrillium公司开发的数字音频处理软件，其运行环境为Windows。CoolEdit Pro是一个功能强大的音频处理软件,其主要特色有： q作为一个功能超强的数字音频处理软件，其所支持的音频格式十分丰富，多达十余种，还提供了对5种不同类型WAV文件的支持。 q提供丰富的特殊效果。包括3D混响、降噪、滤波、音频缩/放、合声、延迟、变形、反转、静音等。q提供了强大的DSP（数字信号处理）能力。能够同时处理64条音轨。支持录音、回放、混音、

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第四章多媒体多媒体音频信息处理

文档简介

温馨提示

最新文档

评论

第四章多媒体多媒体音频信息处理

文档简介

温馨提示

最新文档

评论

相关文档