多媒体音频信息处理oweroinresen

上传人：6*** IP属地：贵州上传时间：2023-01-27 格式：PPTX 页数：134 大小：2.33MB 积分：12 举报 版权申诉

已阅读5页，还剩129页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第4章多媒体音频信息处理

声音是多媒体信息的一个重要组成部分,也是表达思想和情感的一种必不可少的媒体。无论其应用目的是什么，声音的合理使用可以使多媒体应用系统变得更加丰富多彩。在多媒体系统中，音频可被用作输入或输出。输入可以是自然语言或语音命令，输出可以是语音或音乐，这些都涉及到音频处理技术。

STOP14.1音频信号及其概念4.1.1声音处理技术历史回顾

语音、音乐和各种自然声是以声波为载体进行传输的。人类很早就开始研究声音，并利用已掌握了的声音的某些规律来制造乐器、进行建筑设计或传声装置设计，使发出的声音传得更远。可是几千年来，人类只能凭耳朵来辨别声音的高低、强弱，不能把声音记录和储存起来。所以与其他研究领域相比，声学的研究相对滞后。直到19世纪爱迪生发明了留声机，人们才能用机械的方法把各种声音记录在唱片上。但机械振动不易传递，也不易放大，机械方法很不方便。随着电学、电子学的发展，人们开始尝试记录真实声音，利用把声的振动转换成电信号的原理，使声音的记录成为可能。电声技术迅速发展。2电声技术是研究可听声频率范围内声音的产生、传播、存储、重放和接收的技术。它依靠“电”来记录并播放声音，其基本原理是通过电压产生模拟声波变化的电流信号，并记录下来，灌录成唱片或磁带，这种电流信号被称为“模拟信号”。传统的声音记录方式就是将模拟信号直接记录下来，例如磁带录音和密纹唱片就是将声音拾取处理后以磁记录或机械刻度的方式记录下来，此时磁带上磁极的变化或密纹唱片音槽内的纹路起伏变化都是与声音信号的变化相对应、成正比的。这里，密纹唱片、盒式磁带等是记录储存这种模拟声音信号的载体，而能够播放、记录这些信号的处理设备，诸如电唱机、磁带录音机等，称为模拟音响设备。

电声技术把声信号转换成电信号，经扩声系统进行扩声；或者将其信号利用磁带、CD或其他存储形式存储，使声音超越时间和空间，通过重放系统将信号放大，由扬声器或耳机转换成声信号，进入最后的终端---人耳，以实现任何时间、任何地点的声音重现。电声转换、音频(Audio)信号存储、重放、加工处理以及数字化音频信号的编码、压缩、传输、存取、纠错等技术，是音频技术的主要对象。4随着计算机技术的发展，特别是海量存储设备和大容量内存在计算机上的实现，使音频数字化处理成为可能。数字化处理的核心是对音频信息的采样，通过对采集的样本进行加工，生成各种效果。音频信息在多媒体中的应用极为广泛，计算机配有声卡和音箱后，就能发出各种悦耳声音，尤其是视频图像配以动听的音乐和语音，使得计算机操作成为愉快的过程。静态或动态图像配以解说和背景音乐，可使图像充满生气；立体声音乐可增加空间感，使人如身临其境；语音电子邮件，听声如见其人，游戏中的音响效果对于渲染气氛显得更为重要；此外，在多媒体通信中，可视电话、电视会议等都离不开数字化音频处理技术。

54.1.2音频信号的形式

日常生活中，音频信号可分为两类：语音信号和非语音信号。语音是语言的物质载体，它包含了丰富的语言内涵，是人类进行信息交流的特有形式。非语音信号主要包括音乐和自然界存在的其他声音。非语音信号的特点是不具有复杂的语义和语法信息，信息量低、识别简单。

我们能听到的各种声音，是不同频率的声波通过空气产生震动刺激人耳的结果。在物理上，声音可用一条连续曲线表示。这条曲线无论多复杂，都可分解成一系列正弦波的线性叠加。规则音频是一种连续变化的模拟信号,可用一条连续的曲线表示，称为声波。声波是在时间和幅度上都连续变化的量，我们称之为模拟量。

用声音录制软件记录的英文单词“Hello”的语音实际波形如图4-1所示：图4-1用声音录制软件记录的英文单词“Hello”的语音实际波形74.1.3模拟音频信号的物理特征

模拟音频信号有两个重要参数：频率和幅度。频率体现音调的高低，幅度体现声音的强弱。

一个声源每秒可产生成百上千个波，我们把每秒波峰所发生的数目称为信号的频率，单位用赫兹(Hz)或千赫兹(kHz)表示。如一个声波信号在一秒内有5000个波峰，可将其频率表示为5000Hz或5kHz。人们说话时语音信号频率范围在300Hz～3000Hz之间。频率小于20Hz的信号称为亚音(Subsonic)，范围为20Hz～20kHz的信号称为音频(Audio)，高于20kHz的信号称为超音频(Ultrasonic)。

与频率相关的另一个参数是信号的周期。它指信号在两个峰点或谷底之间的相对时间。周期和频率互为倒数(如图4-2)。

信号的幅度是从信号的基线到当前波峰的距离。幅度决定信号音量的强弱程度。幅度越大，声音越强。音频信号声音的强度用分贝(dB)表示。分贝的幅度称为音量。幅度限周期基线图4-2声音的幅度和周期9声声音的A/D与D/A转换模拟信号易受受电子干扰。。随着技术的的发展，声音音信号逐渐过过渡到数字存存储阶段，A/D转换和D/A转换技术应运运而生。这里里，A代表“Analog”(类比、模拟)，D代表“Digital”(数字、数码)，A/D转换就是把模模拟信号转换换成数字信号号。A/D转换芯片如图图4-3，其好处是：：声音存储质质量得到加强强，数字化的的声音信息使使计算机能够够进行识别和和处理。A/D或D/A转换的波形如如图4-4，这也是磁带带逐渐被淘汰汰，CD唱片趋于流行行的原因。A/D转换关键步骤骤是声音的采样和量化，得到的数字字音频信号是是在时间上不不连续的离散散信号。10图4-38位可编程A/D转换芯片图4-4借助于A/D或D/A转换器，模拟拟信号和数字字信号可以互互相转换11与与声音有关关的几个术语语音高是声波频率的的主观属性，，它与声波的的频率有关。。声波的振动动频率高，我我们听到的声声音就高，但但它们之间并并非线性关系系。音色是声波波形的的主观属性。。不同的发音音体所发出的的声波都有自自己的特性。。声波的类型型是多种多样样的，一般可可分为纯音和和复合音两大大类。语音是特殊的复合合音。语音由由元音和辅音音构成。元音音是一种能连连续发出的音音，辅音主要要是不能连续续发出的短促促的音，元音音与辅音合成成汉语音节。。响度是声波振幅的的主观属性，，它由声波的的振幅引起。。振幅越大响响度越大，但但它们之间也也不是线性关关系。12声声音质量的的评价我们经经常会会对某某一歌歌手的的歌声声发表表意见见，并并与其其他歌歌手进进行比比较，，这其其实是是对声声音的的质量量进行行评价价。对对声音音质量量的评评价实实际上上很困困难，，是个个值得得研究究的课课题。。声音质质量的的度量量一般般有客客观质质量度度量和和主观观质量量度量量两种种基本本方法法。声音客客观质质量度度量方方法声声波波的测测量与与分析析，传传统的的方法法是先先用机机电换换能器器把声声波转转换为为相应应的电电信号号，然然后用用电子子仪表表放大大到一一定的的电压压级进进行测测量分分析。。由于于计算算机技技术的的发展展，许许多计计算和和测量量工作作都用用计算算机实实现。。这些些带计计算机机处理理系统统的高高级声声学测测量仪仪器，，能完完成下下列测测量工工作：：13评价值值的测测量响度和和响度度级，，噪音音级，，清晰晰度指指数，，噪音音评价价数。。声源的的测量量频频谱谱的时时间变变化，，声功功率，，指向向性，，效率率，频频谱特特征，，幅值值分布布等。。音质的的测量量混混响响时间间，隔隔音量量，吸吸音量量。声测量量的基基本仪仪器是是声级级计。。声级级计是是一种种能对对声音音作出出类似似人耳耳的反反应的的仪器器，它它能进进行客客观而而可重重复的的声压压和声声级测测量。。声压测测量能能帮助助音乐乐厅提提高音音响效效果；；能对对烦扰扰声音音进行行精密密的、、科学学的分分析。。声级测测量还还能明明确地地告诉诉我们们什么么声音音会引引起听听力损损害，，并提提醒人人们采采用适适当的的听力力保护护措施施。14音频测测试仪仪如图图4-5所示。。图4-5音频测测试仪仪(AUDIOTEST)15度量声声音客客观质质量的的一个个主要要指标标是信信噪比比SNR(SignaltoNoiseRation)，信噪比比是有有用信信号与与噪声声之比比的简简称。。单位位是分分贝(dB)。声音主主观质质量的的度量量采用客客观标标准方方法评评定某某种编编码器器的质质量很很难，，在实实际中中，主主观的的质量量度量量比客客观质质量的的度量量更为为恰当当和合合理。。通常常是对对某编编码器器的输输出的的声音音质量量进行行评价价，例例如播播放一一段音音乐，，记录录一段段话，，然后后重放放给实实验者者听，，再由由实验验者进进行综综合对对比评评定。。可以以说，，人的的感觉觉机理理最具具有决决定意意义。。当然然，可可靠的的主观观度量量值较较难获获得。。16平均判判分MOS(MeanOpinionScore)是召集集一批批实验验者，，请每每个实实验者者对某某个编编解码码器的的输出出进行行质量量判分分，采采用类类似于于考试试的五五级分分制，，不同同的MOS分对应应的质质量级级别和和失真真级别别见表表4.１。表4.1MOS与音频频质量量的关关系MOS质量级别失真级别5优(Excellent)不察觉4良(Good)刚察觉但不可厌3中(Fair)察觉及稍微可厌2差(Poor)可厌(但不令人反感)1劣(Unacceptable)极可厌(令人反感)17声音音质质量量分分级级与与带带宽宽声音音的的质质量量与与它它所所占占用用的的频频带带宽宽度度有有关关，，频频带带越越宽宽，，信信号号强强度度的的相相对对变变化化范范围围就就越越大大，，音音响响效效果果也也就就越越好好。。声声音音质质量量按按带带宽宽可可分分为为4级级：：数字字激激光光唱唱盘盘质质量量，通常常又又称称CD-DA质量量，，这这种种质质量量就就是是常常说说的的超超高高保保真真，，即即SuperHiFi(HighFidelity)。。调频频无无线线电电广广播播，，简简称称FM(FrequencyModulation)质量量。。调幅幅无无线线电电广广播播，，简简称称AM(AmplitudeModulation)质量量。。电话话(Telephone)质量量。。4级级质质量量中中，，CD-DA质量量等等级级最最高高，，其其余余依依次次减减低低。。18图4-64级声声音音质质量量的的频频率率范范围围图4-6所示示为为这这4级声声音音的的频频率率范范围围。。194.2模模拟拟音音频频的的数数字字化化过过程程若用用计计算算机机对对音音频频信信息息进进行行处处理理，，首首先先要要将将模模拟拟音音频频信信号号转转变变成成数数字字信信号号。。现现在在几几乎乎所所有有专专业业化化声声音音录录制制、、编编辑辑器器都都是是数数字字方方式式。。对模模拟拟音音频频数数字字化化涉涉及及到到音音频频的的采采样样、、量量化化和和编编码码。。其过过程程如如图图4-7所示示。。采样样和和量量化化由由A/D转换换器器实实现现。。A/D转换换器器以以固固定定频频率率去去采采样样，，采采样样和和量量化化后后的的声声音音信信号号经经编编码码成成为为数数字字音音频频信信号号，，将将其其以以文文件件形形式式保保存存在在计计算算机机的的存存储储介介质质中中，，称称为为数数字字声声波波文文件件。。图4-7模拟拟信信号号的的数数字字化化过过程程20采采样样早在在20世纪纪40年代代，，信信息息论论奠奠基基者者香香农农(Shannon)指出出：：在一一定定条条件件下下，，用用离离散散的的序序列列可可以以完完全全代代表表一一个个连连续续函函数数。。这这就就是是采采样样定定理理。采采样样定定理理是是数数字字化化技技术术的的基基础础。。把模模拟拟音音频频信信号号波波形形进进行行分分割割，，转转变变成成数数字字信信号号，，这这种种方方法法称称为为采采样样(Sampling)。。采样样是是每每隔隔一一个个时时间间间间隔隔在在模模拟拟声声音音的的波波形形上上取取一一个个幅幅度度值值，，把把时时间间上上的的连连续续信信号号，，变变成成时时间间上上的的离离散散信信号号。。该该时时间间间间隔隔称称为为采采样样周周期期，，其其倒倒数数为为采采样样频频率率。。采采样样频频率率越越高高，，在在单单位位时时间间内内计计算算机机得得到到的的声声音音样样本本数数据据就就越越多多，，对对声声音音波波形形的的表表示示也也越越精精确确。。21采样样频频率率与与声声音音频频率率之之间间有有一一定定的的关关系系，，根据据奈奈奎奎斯斯特特（（Nyquist））理论论，，只只有有采采样样频频率率高高于于声声音音信信号号最最高高频频率率的的两两倍倍时时，，才才能能把把数数字字信信号号表表示示的的声声音音还还原原成成为为原原来来的的声声音音。。例如如电电话话和和CD唱片片。。在在数数字字电电话话系系统统中中，，为为将将人人的的声声音音变变为为数数字字信信号号，，采采用用脉脉冲冲编编码码调调制制PCM方法法，，每每秒秒钟钟进进行行8000次次的的采采样样。。要要想想获获得得CD音质质的的效效果果，，则则要要保保证证采采样样频频率率为为44.1kHz，，也就就是是能能够够捕捕获获频频率率高高达达22050Hz的信号。。22量量化采样解决决了音频频波形信信号在时时间轴(即横轴轴)上把把一个波波形切成成若干个个等分的的数字化化问题，，但每一一等分的的长方形形的高是是多少呢呢?即即需要用用某种数数字化的的方法来来反映某某一瞬间间声波幅幅度的电电压值的的大小。。该值的的大小影影响音量量的高低低。我们把对对声波波波形幅度度的数字字化表示示称为““量化””。量化是将将采样后后的信号号按整个个声波的的幅度划划分成有有限个区区段，把把落入某某个区段段内的样样值归为为一类，，赋于相相同的量量化值。。分割采样样信号的的幅度采采取二进进制的方方式，以以８或16位(bit)划分纵轴轴。8位位记录模模式音效效中，纵纵轴被划划分为2的8次方个量量化等级级(quantizationlevels)以记录其其幅度大大小。以以16位位为记录录模式的的音效中中,其纵轴被被划分为为2的16次方个量量化等级级。23在相同采采样频率率下，量量化位数数愈高，，声音质质量越好好。同理理，相同同量化位位数情况况下，采采样频率率越高，，声音效效果也越越好。表表4.2是不同信信号类型型的采样样率和量量化精度度。表4.2不同信号号类型的的采样率率和量化化精度信号类型频率范围(Hz)采样率(kHz)量化精度(位)电话话音200-340088宽带音频50-70001616调频广播20-15k37.816高质量音频20-22k44.11624采采样与量量化过程程示例以图4-8所示的原原始模拟拟波形为为例进行行采样和和量化。。假设采采样频率率为1000次/秒，即每每1/1000秒A/D转换器采采样一次次。其幅幅度被划划分成09共10个量化等等级，将将采样的的幅度值值取最接接近09之间的一一个数来来表示。。图4-8采样频率率为1000Hz、量化等等级为10的采样量量化过程程25当D/A转换器用用图4-8得到的数数值重构构原来信信号时，，得到图图4-9中蓝色线线所示波波形。从从图4-9看出，蓝蓝色线与与原波形形(红色色线)相相比，波波形的细细节部分分丢失很很多。意意味着重重构后信信号波形形有较大大失真。。图4-9经过D/A转换器得得到的信信号波形形与原波波形对照照26失真在采采样过程程中是不不可避免免的，要要减少失失真，我我们可把把波形划划分成更更细小的的区间，，即采用用更高的的采样频频率。同同时，增增加量化化精度，，以得到到更高的的量化等等级，减减少失真真的程度度。比如如采样率率和量化化等级均均提高一一倍，分分别为2000次/秒秒和20个量化化等级、、采样率率和量化化等级再再提高一一倍，分分别达到到4000次/秒和40个量量化等级级等等。。从图4-10和图4-11可看出，，当用D/A转换器重重构原来来信号时时(图中的的轮廓廓线)，信号号的失失真明明显减减少，，信号号质量量得到到提高高。27图4-10采样率率为2000Hz，量化等等级为为20的采样样量化化图4-11采样率率为4000Hz，，量化等等级为为40的采样样量化化28图4-12采样频频率为为2000Hz和量化化等级级为20时经D/A转换后后得到到的信信号与与原信信号的的对照照图4-12为采样样频率率为2000Hz和量化化等级级为20时经D/A转换后后得到到的信信号与与原信信号的的对照照。。29编编码模拟信信号经经采样样和量量化后后，形形成一一系列列离散散信号号—脉脉冲数数字信信号。。这种种脉冲冲数字字信号号可以以一定定方式式进行行编码码，形形成计计算机机内部部数据据。所谓编编码，，就是是按一一定格格式把把经过过采样样和量量化得得到的的离散散数据据记录录下来来，并并加入入一些些用于于纠错错、同同步和和控制制的数数据。。在数据据回放放时，，可根根据所所记录录的纠纠错数数据判判别读读出的的声音音数据据是否否有错错，若若在一一定范范围内内有错错，可可加以以纠正正。脉冲调调制(PCM)是常用用的编编码方方式。。它是是把连连续输输入的的模拟拟信号号变换换为在在时域域和振振幅上上都离离散的的量，，然后后将其其转化化为代代码形形式传传输或或存储储。PCM的主要要优点点是：：抗干干扰能能力强强，失失真小小，传传输特特性稳稳定，，尤其其是远远距离离信号号再生生中继继时噪噪声不不累积积，且且可采采用压压缩编编码、、纠错错编码码和保保密编编码等等来提提高系系统的的有效效性、、可靠靠性和和保密密性。。30模拟信信号经经过采采样、、量化化，然然后用用有限限个二二进制制码去去代表表量化化后的的幅度度，在在编码码器中中引入入的量量化误误差在在解码码时无无法消消除，，这一一误差差等效效于引引入了了噪声声、降降低了了信噪噪比。。在比比特率率较高高的波波形编编码中中可以以用客客观指指标如如信噪噪比来来衡量量编码码的质质量，，例如如现在在电话话中普普遍使使用的的Ａ律律标准准（ITUG.711标准）），要要求信信噪比比优于于35dB。。除此之之外，，还可可以规规定动动态范范围和和频率率响应应，在在有关关的国国际标标准中中都有有具体体规定定。在在低比比特率率情况况下，，采用用了语语音特特征参参数分分析和和合成成语音音的编编码方方法，，每个个样值值仅１１或0.5比特特。31在ISO红皮书书标准准中，，规定定CD-DA每24字节节双声声道音音频数数据为为一帧帧，对对每一一帧数数据编编码后后要形形成帧帧同步步码、、子码码(用于控控制和和显示示)及纠错错码，，采用用差错错校验验码CIRC，，用来检检测和和纠正正因CD表面划划伤或或灰尘尘产生生的差差错。。其格格式如如表4.3所示。。在CD-DA中，数数据、、控制制码和和纠错错码分分别记记录在在不同同的光光道上上。帧同步子码音频数据（左声道）Q校验音频数据（右声道）P校验41124124表4.3CD-DA帧结构构324.3音音频信信号的的压缩缩编码码与标标准量化后后的数数字声声音信信息直直接存存入计计算机机会占占用大大量的的存储储空间间。在在多媒媒体系系统中中，一一般是是对数数字化化声音音信息息进行行压缩缩和编编码后后再存存入计计算机机，以以减少少数据据量。。音音频信信号压压缩编编码概概述在多媒媒体音音频信信号处处理中中，先先对数数字化化后的的信号号进行行压缩缩编码码，使使其成成为具具有一一定字字长的的二进进制数数字序序列进进行传传输和和存储储。在在播放放这些些声音音时，，经解解码器器将编编码恢恢复成成原来来声音音信号号播放放。33音频信信号处处理过过程如如图4-13所示。。图4-13音频信信号处处理过过程34声音信号能能进行压缩缩编码的基基本依据是是：声音信号中中存在很大大冗余度，，通过识别别和去除这这些冗余，，达到压缩缩目的；音频信息的的最终接收收者是人，，人的听觉觉器官(包包括视觉器器官)具有有某种不敏敏感性，舍舍去人的感感官所不敏敏感的信息息对声音质质量的影响响很小，在在有些情况况下，甚至至可忽略不不计。例如如，人耳听听觉中有一一个重要的的特点，即即听觉的““掩蔽”(一个强音能能抑制一个个同时存在在的弱音的的听觉现象象)。利用该性性质，可以以抑制与信信号同时存存在的量化化噪音。35对声音波形形取样后，，相邻样值值间存在很很强的相关关性。音频数据压压缩和编码码与图像压压缩编码有有很大不同同。图像数数据表达的的是二维空空间，很难难找出固定定的模型来来形式化地地表征它。。音频数据据表达的是是一维随时时间变化的的函数，因因而声音数数据的压缩缩比图像数数据压缩要要容易得多多。从方法上看看，声音信信号的编码码方式大致致可分为三三类：波形形编码、参参数编码和和混合编码码。波形编码的编码信息息是声音的的波形。这这种方法要要求重构的的声音信号号尽可能接接近于原始始声音的采采样值，复复原的声音音质量较高高。波形编编码技术有有脉冲编码码调制PCM、自适应差差分脉冲编编码调制ADPCM和自适应变变换编码ATC等。36参数编码是一种对语语音参数进进行分析合合成的方法法。语音的的基本参数数是基音周周期、共振振峰、语音音谱、声强强等，如能能得到这些些基本参数数，就可不不对语音的的波形进行行编码，而而只记录和和传输这些些参数以实实现声音数数据的压缩缩。这些基基本参数可可由语音生生成机构模模型通过实实验获得。。得到语音音参数后，，就可对其其进行线性性预测编码码LPC(LinearPredictiveCoding)。混合型编码码方法是在保保留参数编编码技术的的基础上，，引用波型型编码准则则去优化激激励源信号号的方案。。混合编码码充分利用用了线性预预测技术和和综合分析析技术，典典型算法有有：码本激激励线性预预测CELP、、多脉冲线性性预测MP-LPC及矢量和激激励线性预预测VSELP等。波形编码在在声音编码码方案中应应用较广，，可以获得得很高的声声音质量。。37PCM编码1939年年法国工程程师AlecReeves发明了将连连续的模拟拟信号变换换成时间和和幅度都离离散的二进进制码代表表的脉冲编编码调制信信号PCM(PulseCodeModulation)，并申请了专专利。PCM首先应用于于电话系统统。到1962年美国Bell实验室为AT＆T研制了国际际上第一套套商用PCM电话系统(T1系统)，标志着通通信开始步步入数字化化。以后的的计算机发发展更促进进了通信的的数字化。。PCM编码是对连连续语音信信号进行空空间采样、、幅度值量量化及用适适当码字将将其编码的的总称。按量化方式式的不同，，PCM分为均匀量量化PCM、非均匀量化化PCM和自适应量量化PCM。38采用相等的的量化间隔隔对采样得得到的信号号量化称为为均匀量化化。也称为为线性量化化。如图4-14。均匀量化化PCM就是直接对对声音信号号作A/D转换，在处处理过程中中没有利用用声音信号号的任何特特性，也没没有进行压压缩。该方方法将输入入的声音信信号的振幅幅分成个等份(B为量化位数数)，落入同一一等份内的的采样值都都编码成相相同的B位二进制码码。只要采采样频率足足够大，量量化位数也也适当，便便能获得较较高的声音音信号数字字化效果。。为满足听听觉上的效效果，均匀匀量化PCM必须使用较多多的量化位数数。这样所记记录和产生的的音乐，可达达到最接近原原声的效果。。当然，这将将引起储存数数据空间的增增大。39图4-14均匀量化40改进PCM编码技术的一一个方法是采采用非均匀量量化，即让量量化级高度随随信号振幅而而变化。信号号振幅小则缩缩小量化级高高度，信号振振幅大时则增增大量化级高高度。这样就就可在满足精精度要求情况况下用较少位位数实现编码码。在声音数数据还原时，，采用相同的的规则。在非均匀量化化中，采样输输入信号幅度度和量化输出出数据之间定定义了两种对对应关系，一一种称为律(-Law)压(缩)扩(展)算法，一种称称为A律(A-Law)压(缩)扩(展)算法。它们主主要用于数字字电话通信中中。律计算公式为为：4142其中是是信号x(n)的最大幅度，，是控制压缩程程序的参数，，图4-15给出了按律压扩算法的的输入输出特特性曲线，为确定压缩量量的参数，它它反映最大量量化间隔和最最小量化间隔隔之比。由图图可见，值越大，压缩缩量越大。由由于律压扩的输入入和输出关系系是对数函数数关系，所以以这种编码又又称为对数PCM。与律压扩相比，，A律压扩的动态态范围略小，，小信号振幅幅时质量比律稍差。无论论是A律还是律算法，它们们的特性在输输入信号振幅幅小时都呈线线性，在输入入信号振幅大大时呈对数压压缩特性。对于采样频率率为8kHz，样本精度为16位的输入入信号，使用用A律压扩或律压扩编码，，经过PCM编码器之后每每个样本精度度为8位，输输出的数据率率为64kb/s。这个数据就是是ITU(国际电话与电电报顾问委员员会)推荐的G.711标准：话音频频率脉冲编码码调制。43图4-15律的压缩特特性44音音频压缩编编码的标准随着多媒体计计算机系统及及数字通信系系统的发展，，数字音频编编码技术日益益受到重视。。为了提高信信号传输和存存储的效率，，人们致力于于信源编码的的研究，力图图在保证声音音质量前提下下，降低信源源编码的数据据速率，并由由此产生了一一系列的国际际区域标准。。国际电报电话话咨询委员会会CCITT先后提出一系系列有关语音音压缩编码建建议。1972年制定了了G.711，，采用律或A律的PCM编码技术，数数据速率64kb/s。1984年年公布G.721标准，采用ADPCM编码技术，数数据速率32kb/s。这两个标准准均适用于3003400Hz窄带语音信号号，也可用于于公用电话网网。针对宽带带语音信号(50Hz7kHz)，，CCITT制定了G.722编码标准，其其数据速率为为64kb/s。用此标准编编码，可在综综合业务数据据网ISDN的B通道上传输音音频数据。45在ISDN中，B通道用于传输输主要数据(字母B代表bearer)。在ISDN中，有两种层层次的服务----基本速率接口口和主要速率率接口。前者者适用于家庭庭与小型企业业，后者适用用于社区和大大型用户。这这两种速率接接口都包含数数条B通道和一条D通道。B通道负责传输输数据、声音音及提供其它它服务，D通道负责传输输控制和信号号消息。基本速率接口口包含两条64Kbps的B通道和一条16Kbps的D通道。因此，，一个基本速速率接口总共共可以提供128Kbps的服务。在美美国，主要速速率接口包含含23条B通道和一条64Kbps的D通道；在欧洲洲，则为30条B通道和一条D通道。46为进一步降低低数据速率，，CCITT从1989年年开始研究16kb/s的短延时高质质量的音频编编码标准。在在AT&TBell实验室16kb/s短延时码激励励(LD-CELP)编码方案的基基础上，又公公布适合于长长途电话网的的新标准。另另外，欧洲数数字移动通信信(GSM)制定了数字移移动通信网的的13kb/s长时预测规则则码激励(RPE-LTP)语音编码标准准。美国1989年也公公布了CTIA标准。它采用用长时延自适适应CELP方案，适应于于更低速率的的语音压缩，，主要应用在在保密话音通通信。ISO也制定了一系系列的相应标标准，运动图图象专家组(MPEG)在制定运动图图象编码标准准的同时，制制定了高保真真立体声音频频压缩标准““MPEG音频”。虽然然MPEG声音标准是MPEG标准的一部分分，但它也可可独立应用。。MPEG声音压缩算法法是第一个高高保真声音数数据压缩的国国际标准。47MPEG音频根据不同同的算法分为为三个层次。。层次1与层层次2具有大大致相同的算算法,如表4.4所示。输入音音频信号的采采样频率为48kHz、44.1kHz或32kHz，经过滤波器组组分成32个个子带。同时时编码器利用用人耳的屏蔽蔽效应，根据据音频信号的的性质计算各各个频率分量量的屏蔽门限限，以控制每每一个子带的的量化参数，，达到数据压压缩的目的。。MPEG音频的层次3进一步引入入了辅助子带带、非均匀量量化和熵编码码等技术，可可进一步提高高压缩率。立立体声信号的的编码也可在在MPEG音频中作为附附加功能实现现。MPEG音频压缩技术术的传输速率率为每声道32kb/s448kb/s。48表中，MUSICAM为自适应声音音掩蔽特性的的通用子带综综合编码和复复合技术。ASPEC表示高质量音音乐信号自适适应谱感知熵熵编码。层次算法压缩率立体声信号对应的比特率(kb/s)1MUSICAM1:43842MUSICAM1:61:82561923ASPEC1:101:12128112表4.4MPEG声音的质量49数数字音频的的文件格式在多媒体技术术中，存储音音频信息的文文件格式主要要有：WAV、VOC和MP3文件等。WAV文件WAV文件又称波形形文件，是微微软公司的音音频文件格式式。自Windows操作系统面世世以来，就将将WAV文件作为其标标准格式使用用。用于保存存Windows平台的音频信信息资源，被被Windows平台及其应用用程序所广泛泛支持。WAV文件来源于对对声音模拟波波形的采样，，并以不同的的量化位数把把这些采样点点的值转换成成二进制数，，然后保存，，形成波形文文件。50WAV声音文件使用用资源交换文文件RIFF(ResourceInterchangeFileFormat)的格式描述，，RIFF格式是一种带带有标记的文文件结构，它它由文件头和和波形音频文文件数据块组组成。文件头头包括标志符符、语音特征征值、声道特特征以及PCM格式类型标志志等。WAV数据块是由数数据子块标记记、数据子块块长度和波形形音频数据3个数据子块块组成。WAV格式支持MSADPCM、A律、μ律和其他压缩缩算法，支持持多种音频位位数、采样频频率和声道，，是最为流行行的声音文件件格式，但文文件尺寸较大大，多用于存存储简短的声声音片断。容量计算公式式：S=R×D×(r/8)×N文件大小采样频率录录音时间量量化位数声道数51VOC文件VOC文件是Creative公司所使用的的标准音频文文件格式，也也是声霸卡(SoundBlaster)使用的音频文文件格式。多多用于保存CreativeSoundBlaster(创新声霸)系列声卡所采采集的声音数数据，被Windows和DOS平台所支持，，支持CCITTA律和μ律等压缩算法。。与WAV格式类似，VOC文件由文件头头块和音频数数据块组成。。文件头包含含标识、版本本号和一个指指向数据块起起始地址的指指针，这个指指针帮助数据据块定位以便便顺利找到第第一个数据块块。数据块分分成各种类型型的子块，如如声音数据、、静音、标记记、ASCII码文件、重复复、重复的结结束及终止标标记等。52MPEG音频文件——.MP1/.MP2/.MP3这里的音频文文件格式指MPEG标准中的音频频部分，即MPEG音频层。MPEG音频文件的压压缩是有损压压缩，根据压压缩质量和编编码复杂程度度的不同分为为三层(MPEGAudioLayer1/2/3),分别对应MP1、MP2和MP3这三种声音文文件；MPEG音频编码有很很高的压缩率率，MP1和MP2的压缩率分别别为4∶1和6∶1～8∶1，MP3的压缩率高达达10∶1～12∶1，同时音质基基本不失真。。MP3的流行得益于于Internet的普及(如图4-16),它用网络代替替传统唱片的的传播途径，，扩大了数字字音乐流传范范围，加速了了数字音乐传传播速度，MP3凭借其优美音音质和高压缩缩比而成为最最为流行的音音乐格式。53图4-16MP3是Internet上流行的音乐乐格式WINAMP是一个功能强强大且小巧玲玲珑的MP3播放器(如图4-17)图4-17MP3播放器WINAMP54MP3格式文件在播播放时需专门门的工具软件件，Winamp是一个集强大大功能和小巧巧灵珑于一体体的MP3播放器。它能能对MP3文件的播放作作全面控制，，支持MMX技术。它内置置的图形化均均衡器，可方方便调节音色色，使之更符符合个人喜好好。应用较为为广泛的MP3播放软件还有有Winplay3和MusicMatch等。RealAudio文件——.RA/.RM/.RAMRealAudio文件是RealNetworks公司开发的新新型流式音频频(StreamingAudio)文件格式；它它包含在RealNetworks所制定的音频频、视频压缩缩规范RealMedia中，主要用于于在低速率的的广域网上实实时传输音频频信息；网络络连接速率不不同，客户端端所获得的声声音质量也不不同：对于28.8kb/s的连接，可达达到广播级的的声音质量；；如果拥有ISDN或更快的线路路连接，则可可获得CD音质声音。55AIFF文件——.AIF/.AIFF音频交换文件件格式AIFF(AudioInterchangeFileFormat),是苹果计算机机公司开发的的一种声音文文件格式；被被Macintosh平台及其应用用程序所支持持，其他专业业音频软件包包也支持这种种格式。564.4声卡卡声卡(声效卡)是多媒体计算算机中不可缺缺少的重要部部件。它直接接决定了MPC对声音数据的的处理能力与与质量。现在在的声卡已不不仅仅作为发发声之用，还还兼备了声音音的采集、编编辑、语音识识别、网络电电话等功用。。57声声卡发展的的历史ADLIB-最早的声卡PC声卡早在1984年问世世，在20世纪90年代得以普及及。英国的ADLIB公司是目前公公认的“声卡卡之父”,虽然他们最初初开发的产品品只能提供简简单的音乐效效果，且无法法处理音频信信号，但在当当时是一个很很大的突破。。由于技术不不够成熟、成成本高昂、当当时计算机的的运算速度不不足以应付大大规模多媒体体处理，因此此这类带有试试验性质的早早期ADLIB音乐卡，未能能普及。58Creative声卡系列把声卡真正带带入个人电脑脑领域的是创创新公司(CREATIVE)。它是世界上上规模最大的的多媒体硬件件生产商和制制造商之一，，其“声霸卡卡”和“视霸霸卡”系列产产品在全球占占有很高的市市场份额。1989年，，创新公司在在美国Comdex展览会上首次次推出自己研研制的适用于于PC机的SoundBlaster而引起轰动，，使声霸卡产产品形成系列列而风靡全球球。第一代SoundBlaster声卡基于ISA总线，具有一一个8位的D/A转换器，只支支持单声道录录放音模式。。它一次为电电脑同时加上上了音乐处理理和音频信号号处理的功能能。此后推出出的SoundBlasterPro加入了对立体体声信号的支支持。第一个个多媒体电脑脑技术标准———MPC1，就把SoundBlasterPro作为声卡设备备的标准配置置。59Creative在成功推出第第一块适用于于ＰＣ机的声声卡后，又推推出了具有16bit、44KHz采样率并支持持立体声的SoundBlaster16系列。它的推推出使多媒体体声卡的录音音和放音第一一次在技术规规格上达到了了CD唱片的品质。。在20世纪纪90年代中中期，代表了了声卡的最高高技术水平。。Creative在1995年年推出了具有有波表合成功功能的SoundBlasterAwe32声卡。SBAwe32具有一个32复音的波表表引擎，并集集成了1MB容量的音色库库，使其MIDI合成效果大大大超越了以前前所有的产品品(以前的产品在在MIDI“电子合成器””方面采用的的是YAMAHA公司研发的FM合成技术)。60在SoundBlaster32的基础上，SoundBlasterAWE64在技术上取得得了巨大的飞飞跃。这里的的32和64不再表示数数字音频的位位数，而是表表示32和64种复音的的波表合成技技术，仍是16位声卡。。SBAWE64采用著名音源源公司的专业业级的波表，，采用了多点点插值算法专专利技术的WaveEffect合成器，提供供平滑的音频频复制和最小小的失真，可可升级到28MB音色采样子系系统，能更好好地支持SoundFont音色库。它提提供了高质真真实乐器感的的64复音的的MIDI合成器，使得得游戏和多媒媒体应用程序序的音响效果果更逼真。高高级的音色库库定制和编辑辑，使用户可可在计算机上上制作音乐，，进行作曲。。61声声卡的工作作原理采用大规模集集成电路，将将音频技术范范围的各类电电路以专用芯芯片形式集成成在声卡上，，直接插入计计算机扩展槽槽使用。声卡卡品牌与型号号各异，功能能不尽相同，，但基本包含含以下功能部部件(如图4-18)。图4-18声卡工作原理理框图62主芯片-数字字信号处理器器声卡音频处理理的主芯片承承担着对声音音信息处理、、特殊音效过过滤与处理、、语音识别、、实时音频压压缩、MIDI合成等重要任任务。对声音音信号的采样样与编码则被被分离出来，，交给被称作作“CODEC”的芯片来完成成。声卡主芯片是是一块具有强强大运算能力力的DSP(如图4-19)。多数情况下下，声卡上最最为硕大的那那块芯片就是是主音频处理理芯片，是声声卡的核心部部件。DSP是一种可编程程芯片，通过过软件安装新新的指令后就就能够升级。。63主芯片将来自自A/D转换器的信号号处理成所需需形式。DSP对输入的数字字声音用PCM、DPCM或ADPCM方式进行编码码和压缩，形形成WAV格式文件存储储。声音输出出时，将磁盘盘中的WAV文件送入DSP芯片，解码后后变成数字声声音信号送至至D/A转换部分。图4-19美国国ESS生产产的的声声卡卡主主芯芯片片64混音音芯芯片片-CODEC多媒媒体体数数字字信信号号““编编解解码码器器””CODEC，简简称称““混混音音芯芯片片””或或““混混音音器器””。。Intel公司司在在AC’’97音频频规规范范文文件件中中建建议议，，为为提提高高声声音音信信号号转转换换过过程程中中的的信信噪噪比比，，减减少少电电磁磁干干扰扰，，应应把把数数模模转转换换和和模模数数转转换换部部分分从从主主芯芯片片中中脱脱离离出出来来，，采采用用独独立立的的处处理理单单元元进进行行声声音音采采样样和和编编码码，，CODEC应运运而而生生。。CODEC芯片片主主要要承承担担对对原原始始声声音音信信号号采采样样、、编编码码和和混混音音处处理理，，由由于于它它肩肩负负采采样样编编解解码码工工作作，，所所以以其其处处理理能能力力和和信信噪噪比比对对最最终终的的声声音音输输出出品品质质有有很很大大影影响响。。混混音音的的声声源源可可以以是是MIDI信号号、、CD音频频、、线线性性输输入入、、话话筒筒等等，，可可选选择择输输入入一一个个声声源源或或将将几几个个不不同同声声源源进进行行混混合合录录音音。。在在对对音音源源处处理理时时，，可可编编程程设设定定采采样样频频率率和和量量化化位位数数。。65混音器通通过I/D(地址/数据)端端口对混混音器的的各种功功能进行行可编程程设置,如图4-20所示：控制数字字化声音音输出的的音量。。控制FM输出音乐乐音量，，设置左左声道或或左右声声道同时时输出以以及静音音(mute)方式(所所有声道道全关闭闭)。控制CD-ROM中播放的的音量。。控制外线线输入和和话筒输输出的音音量。控制总音音量输出出，调整整左、右右及中央央声道输输出，达达到控制制音频媒媒体表现现效果。。选择声音音I/O模式，即即单声道道或立体体声。选择或组组合声音音输入源源。选择I/O滤波器，，低通、、高通或或关闭滤滤波器，，适应输输出要求求。66图4-20SoundBlasterPCI64声卡的混混音器设设置界面面67在多声道道趋于流流行的时时代，CODEC芯片是否否具有多多通道DAC功能显得得尤为重重要。目目前的声声卡已经经普遍可可以支持持四通道道的DAC转换。频响范围围也是非非常重要要的指标标，大部部分CODEC芯片都能能够支持持20Hz～20KHz的频响范范围，这这是人耳耳所能听听到的最最大范围围。合成器多多媒体体PC可通过声声卡的内内部合成成器或主主机MIDI端口的外外部合成成器播放放MIDI文件。MIDI合成器有有两种：：频率调调制合成成器(FM)、波形形表合成成器(WaveTable)。波表表合成器器是将每每一种乐乐器对应应一种或或几种波波形，在在合成音音乐时，，以查表表方式获获取乐器器的波形形，产生生效果逼逼真的合合成音乐乐输出。。68总线接口口和控制制器总线接口口和控制制器由数数据总线线双向驱驱动器、、总线接接口控制制逻辑、、总线中中断逻辑辑和DMA控制逻辑辑组成。。目前声声卡总线线一般采采用PCI接口，并并可设定定基本I/O地址、中中断向量量IRQ和DMA通道三个个参数。。外部输入入输出口口声卡外部部输入输输出口均均为3.5mm规格插口口，常见见的有：：麦克风接接口(MICIN)———连接麦克克风，实实现声音音输入、、外部录录音功能能。69线性输入入口(LINEIN)———连接各种种音频设设备的模模拟输出出，实现现相关设设备的音音源输入入。音频输出出口(LINEOUT)——连接多媒媒体有源源音箱，，实现声声音输出出。扬声器输输出(SPKOUT)———通过声卡卡功放输输出的放放大信号号，用于于连接无无源音箱箱。后置音箱箱输出口口(REAROUT)——四声道声声卡专有有，连接接环绕音音箱。MIDI设备/游游戏手柄柄接口(MIDI/Joystick)———连接MIDI音源、电电子琴或或者游戏戏控制设设备。同轴数码码输出(SPDIFOUT)———连接数字字音频设设备，主主要是AC-3、DTS解码器和和数字音音箱。光纤数码码输入(SPDIFIN)——用于连接接数字音音频设备备的光纤纤输入，，实现无无损录音音。70声声卡录音音与回放放的工作作过程在录音时时，声音音信号通通过麦克克或者Linein通道进入入，先经经过CODEC芯片进行行采样、、A/D转换、混混合等一一系列过过程，随随后经主主芯片处处理，录录制成相相关的波波形音频频文件。。在在放放音时，，数字波波形声音音信号先先通过声声卡主芯芯片进行行处理，，随后被被传输到到CODEC芯片进行行D/A转换，模模拟信号号再经过过放大器器放大，，通过多多媒体音音箱输出出，最终终被用户户耳朵接接收。在播放MIDI时，根据据所指示示的乐器器到波形形查询表表中查询询该乐器器的资料料，经过过D/A转换为模模拟声音音方式，，以达到到令人满满意的音音乐效果果。71声声卡的性性能指标标音频技术术指标声声卡卡的录音音、放音音效果应应该具有有CD唱片的音音质。即即录音采采样频率率达44.1KHz，，用16位位量化指指标记录录声音。。MIDI音频MIDI是计算机机产生声声音的另另一种方方法。MIDI文件记录录产生某某种声音音的指令令。与数数字化声声音文件件(.WAV)相比,同同一首首乐曲.MID文件容量量远小于于.WAV文件。此此外.MID文件易修修改,借借助MIDI制作软件件可在计计算机上上作曲。。计计算机播播放MIDI文件时,有FM合成和波波表合成成两种方方法。FM合成是通通过多个个频率的的声音混混合来模模仿乐器器的声音音,波波表合成成是将乐乐器的声声音样本本存储在在声卡波波形表中中,播播放时从从波形表表中取出出来产生生声音。。采用波波表合成成技术可可产生更更逼真的的声音。。72声道数数声卡所所支持持的声声道数数也是是重要要指标标单单声声道是是原始始的声声音复复制形形式，，它缺缺乏对对声音音的位位置定定位。。立体体声技技术改改变了了这一一状况况。立立体声声声音音在录录制过过程中中被分分配到到两个个独立立声道道，从从而达达到很很好的的声音音定位位效果果。这这种技技术在在音乐乐欣赏赏中尤尤为重重要，，听众众可清清晰地地分辨辨出各各种乐乐器的的方向向，从从而使使音乐乐更富富想象象力和和临场场感。。至今今，立立体声声依然然是许许多产产品遵遵循的的技术术标准准。73立体声声满足足了人人们对对左右右声道道位置置感体体验的的要求求，但但要达达到好好的效效果，，仅依依靠两两个音音箱还还远远远不够够，随随着波波表合合成技技术的的出现现，由由双声声道立立体声声向多多声道道环绕绕声发发展。。一些些家用用音响响设备备已经经基本本转向向多声声道环环绕声声的家家庭影影院系系统。。四声道道环绕绕规定定了4个发发音点点：前前左、、前右右，后后左、、后右右，听听众被被包围围在中中间。。同时时还建建议增增加一一个低低音音音箱，，以加加强对对低频频信号号的回回放处处理(这也也就是是4.1声声道音音箱系系统广广泛流流行的的原因因)。。就整整体效效果而而言，，四声声道系系统可可为听听众带带来来来自多多个不不同方方向的的声音音环绕绕，四四声道道技术术已经经广泛泛融入入各类类中高高档声声卡的的设计计中。。74随着DVD的普及及，回回放DVD影片时时DolbyDigital(AC－3)5.1声道信信号的的解码码也提提上了了日程程。杜比以以5.1声声音系系统为为技术术蓝本本。5.1声音音系统统来源源于4.1环绕绕，不不同之之处在在于它它增加加了一一个中中置单单元。。这个个中

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

多媒体音频信息处理oweroinresen

文档简介

温馨提示

最新文档

评论

多媒体音频信息处理oweroinresen

文档简介

温馨提示

最新文档

评论

相关文档