音频信息的获取与处理_第1页
音频信息的获取与处理_第2页
音频信息的获取与处理_第3页
音频信息的获取与处理_第4页
音频信息的获取与处理_第5页
已阅读5页,还剩120页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

音频信息的获取与处理第1页,课件共125页,创作于2023年2月2.1音频信号及其概念2.1.1声音处理技术历史回顾

语言、音乐和各种自然声是以声波为载体传递信息的基本形式

。人类很早就开始研究声音,并利用当时已掌握了的声音的某些规律来制造乐器、进行建筑设计或传声装置设计,使发出的声音传得更远。可是几千年来,人类只能凭耳朵来辨别声音的高低、强弱,而不能把声音记录和储存起来。所以与其他研究领域相比,声学的研究相对滞后。直到19世纪爱迪生发明了留声机,人们才能用机械的方法把各种声音记录在唱片上。可是声音、机械振动不容易传递,也不容易放大,机械方法很不方便。随着电学、电子学的发展,人们开始尝试记录下这些真实的声音,利用把声的振动转换成电信号的原理,使声音的记录成为可能。最终电声技术获得了迅速发展。

第2页,课件共125页,创作于2023年2月电声技术是研究可听声频率范围内声音的产生、传播、存储、重放和接收的技术。顾名思义,电声技术是依靠“电”来记录并播放声音的,其基本原理是通过电压来产生模拟声波变化的电流信号,并记录下来,灌录成早期的唱片或磁带,这种电流信号便被称之为“模拟信号”。传统的声音记录方式就是将模拟信号直接记录下来,例如磁带录音和密纹唱片就是将声音拾取处理后以磁记录或机械刻度的方式记录下来,此时磁带上磁极的变化或密纹唱片音槽内的纹路起伏变化都是与声音信号的变化相对应、成正比的。这里,密纹唱片、盒式磁带等是记录储存这种模拟声音信号的载体,而能够播放和(或)记录这些软件的信号处理设备,诸如电唱机、磁带录音机等,则称为模拟音响设备。

第3页,课件共125页,创作于2023年2月

电声技术把声信号转换成电信号,经扩声系统直接进行扩声;或者将其信号利用磁带、CD或其他存储形式,使声音可超越时间和空间,通过重放系统将其信号(数字的或模拟的)经过放大,由扬声器或耳机转换成声信号,进入最后的终端---人耳,以实现任何时间和地点的声音重现。电声转换、音频信号的存储、重放技术、加工处理技术以及数字化音频信号的编码、压缩、传输、存取、纠错等技术,是音频技术的主要对象。

第4页,课件共125页,创作于2023年2月随着计算机技术的发展,特别是海量存储设备和大容量内存在计算机上的实现,对音频媒体进行数字化处理便成为可能。数字化处理的核心是对音频信息的采样,通过对采集到的样本进行加工,生成各种效果。音频信息在多媒体中的应用是极为广泛的,当计算机配有声卡和音箱后,就能够发出各种悦耳的声音,尤其是视频图像配以娓娓动听的音乐和语音,使计算机的操作得以藉由视觉以外的听觉加以辅助而成为一种愉快的过程。静态或动态图像配以解说和背景音乐,可使图像充满生气;立体声音乐可增加空间感,使人身临其境;语音电子邮件,听声如见其人,游戏中的音响效果对于渲染气氛则为显得更为重要;此外,在多媒体通信中,可视电话、电视会议、这些都离不开数字化音频处理技术。

第5页,课件共125页,创作于2023年2月2.1.2音频信号的形式

在日常生活中,音频(Audio)信号可分为两类:语音信号和非语音信号。语音是语言的物质载体,是社会交际工具的符号,

它包含了丰富的语言内涵,是人类进行信息交流所特有的形式。非语音信号主要包括音乐和自然界存在的其他声音形式。非语音信号的特点是不具有复杂的语义和语法信息,信息量低、识别简单。

我们之所以能听到日常生活中的各种声音信息,其实就是不同频率的声波通过空气产生震动,刺激人耳的结果。在物理上,声音可用一条连续的曲线来表示。这条连续的曲线无论多复杂,都可分解成一系列正弦波的线性叠加。规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。因声波是在时间和幅度上都连续变化的量,我们称之为模拟量。

第6页,课件共125页,创作于2023年2月

用声音录制软件记录的英文单词“Hello”的语音实际波形

第7页,课件共125页,创作于2023年2月2.1.3模拟音频信号的物理特征

模拟音频信号有两个重要参数:频率和幅度。声音的频率体现音调的高低,声波幅度的大小体现声音的强弱。

一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰所发生的数目称之为信号的频率,单位用赫兹(Hz)或千赫兹(kHz)表示。例如一个声波信号在一秒钟内有5000个波峰,则可将它的频率表示为5000Hz或5kHz。人们在日常说话时的语音信号频率范围在300Hz~3000Hz之间。频率小于20Hz的信号称为亚音(Subsonic);频率范围为20Hz~20kHz的信号称为音频(Audio),高于20kHz的信号称为超音频(Ultrasonic)。

第8页,课件共125页,创作于2023年2月

与频率相关的另一个参数是信号的周期。它是指信号在两个峰点或谷底之间的相对时间。周期和频率之间的关系是互为倒数。

信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音频信号,声音的强度用分贝(dB)表示,分贝的幅度就是音量。

幅度限周期基线第9页,课件共125页,创作于2023年2月2.1.4声音的A/D与D/A转换

模拟信号很容易受到电子干扰,因此随着技术的发展,声音信号就逐渐过渡到了数字存储阶段,A/D转换和D/A转换技术便应运而生。这里,A代表Analog”(类比、模拟),D代表“Digital”(数字、数码),A/D转换就是把模拟信号转换成数字信号的过程,模拟电信号变为了由“0”和“1”组成的Bit信号。这样做的好处是显而易见的,声音存储质量得到了加强,数字化的声音信息使计算机能够进行识别、处理和压缩,这也就是为什么如今磁带逐渐被淘汰,CD唱片却趋于流行的原因。

A/D转换的一个关键步骤是声音的采样和量化,得到数字音频信号,它在时间上是不连续的离散信号。

第10页,课件共125页,创作于2023年2月借助于A/D或D/A转换器,模拟信号和数字信号可以互相转换第11页,课件共125页,创作于2023年2月2.1.5与声音有关的几个术语

音高是人对声波频率的主观属性,它首先与声波的频率有关。声波的振动频率高,我们听到的声音就高,反之亦然,但它们之间并非线性关系。

音色是声波波形的主观属性。不同的发音体所发出的音波都有自己的特异性。声波的类型是多种多样的,一般可分为纯音和复合音两大类。

语音是特殊的复合音。语音由元音和辅音所构成。元音是一种能连续发出的乐音,辅音主要是不能连续发出的短促的噪音,元音与辅音合成汉语音节。

响度是声波振幅的主观属性,它是由声波的振幅引起的。振幅越大则响度越大,但它们之间也不是线性关系。

第12页,课件共125页,创作于2023年2月2.1.6声音质量的评价

我们经常会对某一位歌手的歌声发表意见,并与其他歌手进行比较,这其实是在对声音的质量进行评价。声音质量的评价是一个很困难的问题,也是一个值得研究的课题。目前来看,声音质量的度量有两种基本方法,一种是客观质量度量,另一种是主观质量的度量。声音客观质量的度量方法

声波的测量与分析传统的方法是先用机电换能器把声波转换为相应的电信号,然后用电子仪表放大到一定的电压级进行测量与分析。由于计算技术的发展,使许多计算和测量工作都使用了计算机或程序实现。这些带计算机处理系统的高级声学测量仪器,能完成下列一些测量工作:

第13页,课件共125页,创作于2023年2月评价值的测量

响度和响度级,噪音级,清晰度指数,噪音评价数。声源的测量频谱的时间变化,声功率,指向性,效率,频谱特征,幅值分布等。音质的测量混响时间,隔音量,吸音量。声测量的基本仪器是声级计。声级计是一种能对声音作出类似人耳的反应的仪器,同时,它能进行客观而可重复的声压和声级测量。声压测量的好处很多:它能帮助音乐厅提高音响效果;能对烦扰声音进行精密的、科学的分析。声级测量还能明确地告诉我们什么声音会引起听力损害,并提醒人们采用适当的听力保护措施。因此,声测量是不可少的。

第14页,课件共125页,创作于2023年2月

度量声音客观质量的一个主要指标是信噪比SNR(SignaltoNoiseRation),信噪比是有用信号与噪声之比的简称。其单位是分贝(dB)。声音主观质量的度量

采用客观标准方法很难真正评定某种编码器的质量,在实际评价中,主观的质量度量比客观质量的度量更为恰当和合理。通常是对某编码器的输出的声音质量进行评价,例如播放一段音乐,记录一段话,然后重放给实验者听,再由实验者进行综合评定。可以说,人的感觉机理最具有决定意义。当然,可靠的主观度量值是较难获得的。

第15页,课件共125页,创作于2023年2月

平均判分(MeanOpnionScose-MOS)过程是召集一批实验者,请每个实验者对某个编解码器的输出进行质量判分,采用类似于考试的五级分制,不同的MOS分对应的质量级别和失真级别见表2-1。

MOS质量级别失真级别5优(Excellent)不察觉4良(Good)刚察觉但不可厌3中(Fair)察觉及稍微可厌2差(Poor)可厌(但不令人反感)1劣(Unacceptable)极可厌(令人反感)第16页,课件共125页,创作于2023年2月

声音质量分级与带宽

声音的质量与它所占用的频带宽度有关,频带越宽,信号强度的相对变化范围就越大大,音响效果也就越好。按照带宽可将声音质量分为4级:

数字激光唱盘质量,通常又CD-DA质量,这种质量也就是我们常说的超高保真,即SuperHiFi(HighFidelity)。

调频无线电广播,简称FM(FrequencyModulation)质量。

调幅无线电广播,简称AM(AmplitudeModulation)质量。

电话(Telephone)质量。在这4级质量中,以CD-DA的声音质量等级最高,其余次之。

第17页,课件共125页,创作于2023年2月4级声音质量的频率范围第18页,课件共125页,创作于2023年2月2.2模拟音频的数字化过程

如果要用计算机对音频信息进行处理,则首先要将模拟音频信号(如语音、音乐等)转变成数字信号。数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音频的采样、量化和编码。

采样和量化的过程可由A/D转换器实现。A/D转换器以固定的频率去采样,即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存储介质中,这样的文件一般称为数字声波文件。

第19页,课件共125页,创作于2023年2月2.2.1采样

早在40年代,信息论的奠基者香农(Shannon)指出:在一定条件下,用离散的序列可以完全代表一个连续函数,这是采样定理的基本内容。采样定理看来象是一个数学问题,而实质上它为数字化技术奠定了一个基础。

为实现A/D转换,需要把模拟音频信号波形进行分割,以转变成数字信号,这种方法称为采样(Sampling)。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号,变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。采样频率是指计算机每秒钟采集多少个声音样本。采样频率越高,即采样的间隔时间越短,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确。这和测定每天24小时气温变化是一样的,每小时测定1次气温比每两小时测定1次气温的精度要高一倍。

第20页,课件共125页,创作于2023年2月

采样频率与声音频率之间有一定的关系,根据奈奎斯特(Nyquist)理论,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音。用公式表示如下:

T≤1/2fc

或fc≤1/2T

采样的著名实例就在我们的日常生活中,例如电话和CD唱片。在数字电话系统中,为将人的声音变为数字信号,采用脉冲编码调制PCM方法,每秒钟可进行8000次的采样。PCM提供的数据传输率是56kb/s(b/s表示b/s)或64kb/s。CD唱片存储的是数字信息,要想获得CD音质的效果,则要保证采样频率为44.1kHz,也就是能够捕获频率高达22050Hz的信号。

第21页,课件共125页,创作于2023年2月2.2.2量化

采样只解决了音频波形信号在时间坐标(即横轴)上把一个波形切成若干个等分的数字化问题,但是每一等分的长方形的高是多少呢?即需要用某种数字化的方法来反映某一瞬间声波幅度的电压值的大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为“量化”。

量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。如何分割采样信号的幅度呢?我们还是采取二进制的方式,以8位(bit)或16位(bit)的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中,其纵轴将会被划分为个量化等级(quantizationlevels),用以记录其幅度大小。而一个以16位为采样模式的音效中,它在每一个固定采样的区间内所被采集的声音幅度,将以个不同的量化等级加以记录。

第22页,课件共125页,创作于2023年2月

在相同的采样频率之下,量化位数愈高,声音的质量越好。同理,在相同量化位数的情况下,采样频率越高,声音效果也就越好。这就好比是量一个人的身高,若是以毫米为单位来测量,会比用厘米为单位量更加准确。

下表给出了不同信号类型的采样率和量化精度。

信号类型频率范围(Hz)采样率(kHz)量化精度(位)电话话音200-340088宽带音频50-70001616调频广播20-15k37816高质量音频20-22k44116第23页,课件共125页,创作于2023年2月2.2.3采样与量化过程示例

以图2-1所示的原始模拟波形为例进行采样和量化。假设采样频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被划分成09共10个量化等级,并将其采样的幅度值取最接近09之间的一个数来表示,如图2-2所示。图中每个正方形表示一次采样。

第24页,课件共125页,创作于2023年2月

当D/A转换器从图2-2得到的数值中重构原来信号时,得到图2-3中蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线与原波形(红色线)相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。

第25页,课件共125页,创作于2023年2月

失真在采样过程中是不可避免的,如何减少失真呢?可以直观地看出,我们可以把图2-2中的波形划分成更为细小的区间,即采用更高的采样频率。同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。在图2-4中,采样率和量化等级均提高了一倍,分别为2000次/秒和20个量化等级。在图2-5中,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个量化等级。从图中可以看出,当用D/A转换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。

第26页,课件共125页,创作于2023年2月

图2-4采样率为2000Hz,量化等级为20的采样量化过程

图2-5采样率为4000Hz,量化等级为40的采样量化过程

第27页,课件共125页,创作于2023年2月2.2.4编码

模拟信号量经过采样和量化以后,形成一系列的离散信号——脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码,形成计算机内部运行的数据。所谓编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据。在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如在一定范围内有错,可加以纠正。

编码的形式比较多,常用的编码方式是PCM——脉冲调制。脉冲编码调制(PCM)是把模拟信号变换为数字信号的一种调制方式,既把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储。PCM的主要优点是:抗干扰能力强;失真小;传输特性稳定,尤其是远距离信号再生中继时噪声不累积,而且可以采用压缩编码、纠错编码和保密编码等来提高系统的有效性、可靠性和保密性。

第28页,课件共125页,创作于2023年2月

模拟信号经过采样再经量化,然后用有限个二进制码去代表量化后的幅度,在编码器中引入的量化误差在解码时无法消除,这一误差等效于引入了噪声、降低了信噪比。在比特率较高的波形编码中可以用客观指标如信噪比来衡量编码的质量,例如现在电话中普遍使用的A律标准(ITUG.711标准),要求信噪比优于35dB。除此之外,还可以规定动态范围和频率响应,在有关的国际标准中都有具体规定。在低比特率情况下,采用了语音特征参数分析和合成语音的编码方法,每个样值仅1或0.5比特。在ISO的红皮书(RedBook)标准中,规定CD-DA每24字节双声道音频数据为一帧,对每一帧数据编码后要形成帧同步码、子码(用于控制和显示)及纠错码,采用差错校验码CIRC,用来检测和纠正因CD表面的划伤或灰尘产生的差错。其格式如表2-3所示。第29页,课件共125页,创作于2023年2月

在CD-DA中,数据、控制码和纠错码分别记录在不同的光道上。定义98个音频数据帧为一个扇区。因此每个扇区所含音频数据量为98×24=2352(Byte),它使得一张CD唱盘上可容纳约74分钟的立体声音乐信号。帧同步子码音频数据(左声道)Q校验音频数据(右声道)P校验41124124第30页,课件共125页,创作于2023年2月2.3音频信号的压缩编码与标准

将量化后的数字声音信息直接存入计算机将会占用大量的存储空间。在多媒体系统中,一般是对数字化声音信息进行压缩和编码后再存入计算机,以减少音频的数据量。2.3.1音频信号压缩编码概述

在多媒体音频信号处理中,一般需要对数字化后的声音信号进行压缩编码,使其成为具有一定字长的二进制数字序列,并以这种形式在计算机内传输和存储。在播放这些声音时,需要经解码器将二进制编码恢复成原来的声音信号播放。

第31页,课件共125页,创作于2023年2月音频信号处理过程

声音信号能进行压缩编码的基本依据是:

声音信号中存在着很大的冗余度,通过识别和去除这些冗余度,便能达到压缩的目的;音频信息的最终接收者是人,人的听觉器官(包括视觉器器官)都具有某种不敏感性,舍去人的感官所不敏感的信息对声音质量的影响很小,在有些情况下,甚至可以忽略不计。例如,人耳听觉中有一个重要的特点,即听觉的“掩蔽”。它是指一个强音能抑制一个同时存在的弱音的听觉现象。利用该性质,可以抑制与信号同时存在的量化噪音。

第32页,课件共125页,创作于2023年2月.对声音波形取样后,相邻样值之间存在着很强的相关性。

音频数据压缩和编码与图像压缩编码有着很大的不同。图像数据表达的是二维空间,很难找出固定的模型来形式化地表征它。音频数据表达的是一维随时间变化的函数,因而声音数据的压缩比图像数据压缩要容易得多。从方法上看,声音信号的编码方式大致可分为三类,即波形编码、参数编码和混合编码。

波形编码的编码信息是声音的波形。这种方法要求重构的声音信号的各个样本尽可能地接近于原始声音的采样值,复原的声音质量较高。波形编码技术有PCM(脉冲编码调制)、ADPCM(自适应差分脉冲编码调制)和ATC(自适应变换编码)等。

第33页,课件共125页,创作于2023年2月

参数编码是一种对语音参数进行分析合成的方法。语音的基本参数是基音周期、共振峰、语音谱、声强等,如能得到这些语音基本参数,就可以不对语音的波形进行编码,而只要记录和传输这些参数就能实现声音数据的压缩。这些语音基本参数可以由语音生成机构模型通过实验获得。得到语音参数后,就可以对其进行线性预测编码(LPC-LinearPredictiveCoding)。混合型编码方法是一种在保留参数编码技术的基础上,引用波型编码准则去优化激励源信号的方案。混合编码充分利用了线性预测技术和综合分析技术,其典型算法有:码本激励线性预测(CELP)、多脉冲线性预测(MP-LPC)及矢量和激励线性预测(VSELP)等。总的来说,波形编码在声音编码方案中应用较广,可以获得很高的声音质量。下面我们介绍波形编码方案中常用的PCM编码。

第34页,课件共125页,创作于2023年2月2.3.2PCM编码

1939年法国工程师AlecReeves发明了将连续的模拟信号变换成时间和幅度都离散的二进制码代表的脉冲编码调制信号(PulseCodeModulation-PCM),并申请了专利。PCM首先开始应用于电话系统,但一直到1962年美国Bell实验室才为AT&T制成了国际上第一套商用PCM电话系统(T1系统),这标志了通信开始步入数字化。以后的计算机发展更促进了通信的数字化,并逐步与通信相结合。

PCM编码是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称。PCM方法可以按量化方式的不同,分为均匀量化PCM、非均匀量化PCM和自适应量化PCM等几种。

第35页,课件共125页,创作于2023年2月

如果采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化,如图2-6所示。均匀量化PCM就是直接对声音信号作A/D转换,在处理过程中没有利用声音信号的任何特性,也没有进行压缩。该方法将输入的声音信号的振幅范围分成个等份(B为量化位数),所以落入同一等份数的采样值都编码成相同的B位二进制码。只要采样频率足够大,量化位数也适当,便能获得较高的声音信号数字化效果。为了满足听觉上的效果,均匀量化PCM必须使用较多的量化位数。这样所记录和产生的音乐,可以达到最接近原声的效果。当然提高采样率及分辨率后,将引起储存数据空间的增大。

第36页,课件共125页,创作于2023年2月第37页,课件共125页,创作于2023年2月

改进PCM编码技术的一个方法是采用非均匀量化,即让量化级高度随信号振幅而变化。信号振幅小则缩小量化级高度,信号振幅大时则增大量化级高度。这样就可以在满足精度要求的情况下用较少的位数实现编码。在声音数据还原时,采用相同的规则。在非均匀量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关系,一种称为律(-Law)压(缩)扩(展)算法,另一种称为A律(A-Law)压(缩)扩(展)算法。这两种算法主要用于数字电话通信中。律的计算公式如下:第38页,课件共125页,创作于2023年2月

其中是信号x(n)的最大幅度,u是控制压缩程序的参数,u越大压缩就越厉害图2-7给出了按律压扩算法的输入输出特性曲线,为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比。由图可见,值越大,压缩量越大。由于律压扩的输入和输出关系是对数函数关系,所以这种编码又称为对数PCM。

A律压扩与律压扩相比,则压缩的动态范围略小些,小信号振幅时质量要比律稍差。无论是A律还是律算法,它们的特性在输入信号振幅小时都呈线性,在输入信号振幅大时呈对数压缩特性。对于采样频率为8kHz,样本精度为16位的输入信号,使用A律压扩或律压扩编码,经过PCM编码器之后每个样本的精度为8位,输出的数据率为64kb/s。这个数据就是CCITT,(国际电话与电报顾问委员会)推荐的G.711标准:话音频率脉冲编码调制。

第39页,课件共125页,创作于2023年2月2.3.3音频压缩编码的标准

随着多媒体计算机系统及数字通信系统的发展,数字音频编码技术正日益受到重视。为了提高信号传输和存储的效率,人们多方致力于信源编码的研究,力图在保证声音质量的前提下,降低信源编码的数据速率,并由此产生了一系列的国际的区域的标准。

国际电报电话咨询委员会(CCITT)先后提出了一系列有关语音压缩编码的建议。在1972年制定了G.711,采用的是律或A律的PCM编码技术,数据速率为64kb/s。1984年,公布了G.721标准,它采用的是ADPCM编码技术,数据率为32kb/s。以上两个标准均适用于3003400Hz窄带语音信号,也可用于公用电话网。针对宽带语音信号(50Hz7kHz),CCITT制定了G.722编码标准,它的数据速率为64kb/s。用此标准编码,可在ISDN(综合业务数据网)的B通道上传输音频数据。

第40页,课件共125页,创作于2023年2月

为了进一步降低数据速率,CCITT从1989年开始研究16kb/s的短延时、高质量的音频编码标准。在AT&TBell实验室16kb/s短延时码激励(LD-CELP)编码方案的基础上,又公布适合于进入长途电话网采用的新标准。另外,还有欧洲数字移动通信(GSM)制定了数字移动通信网的13kb/s长时预测规则码激励(RPE-LTP)语音编码标准。美国1989年也公布了CTIA标准。它采用长时延自适应CELP方案,适应于更低速率的语音压缩,主要应用在保密话音通信。

ISO(国际标准化组织)也制定了一系列的相应的标准,其运动图象专业组(MPEG)在制定运动图象编码标准的同时,制定了高保真立体声音频压缩标准“MPEG音频”。虽然MPEG声音标准是MPEG标准的一部分,但它同时也完全可以独立应用。MPEG声音压缩算法是第一个高保真声音数据压缩的国际标准。

第41页,课件共125页,创作于2023年2月MPEG音频根据不同的算法分为三个层次。层次1与层次2具有大致相同的算法,如表2-3所示。输入音频信号的采样频率为48kHz、44.1kHz或32kHz,经过滤波器组分成32个子带。同时编码器利用人耳的屏蔽效应,根据音频信号的性质计算各个频率分量的屏蔽门限,以控制每一个子带的量化参数,达到数据压缩的目的。MPEG音频的层次3进一步引入了辅助子带、非均匀量化和熵编码等技术,可以进一步压缩率。立体声信号的编码也可以在MPEG音频中作为附加功能实现。MPEG音频压缩技术的传输速率为每声道32kb/s448kb/s。

第42页,课件共125页,创作于2023年2月MPEG声音的质量

表中,MUSICAM(MaskingpatternadaptedUniversalSubbandIntegratedCodingAndMultiplexing)为自适应声音掩蔽特性的通用子带综合编码和复合技术。ASPEC(AdaptiveSpectralPerceptualEntropyCodingofhighqualitymusicalsignal)表示高质量音乐信号自适应谱感知熵编码。

层次算法压缩率立体声信号所对应的比特率(kbits/sec)1

MUSICAM1:43842MUSICAM1:61:82561923ASPEC1:101:12128112第43页,课件共125页,创作于2023年2月2.3.4数字音频的文件格式

在多媒体技术中,存储音频信息的文件格式主要有:WAV文件、VOC文件和MP3文件等。

WAV文件

WAV文件又称波形文件,是Microsoft公司的音频文件格式。自从Windows视窗操作系统面世以来,Microsoft就将WAV文件作为其标准格式的文件使用。用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所广泛支持。WAV文件来源于对声音模拟波形的采样,并以不同的量化位数把这些采样点的值轮换成二进制数,然后存入磁盘,这就产生了波形文件。

第44页,课件共125页,创作于2023年2月WAV声音文件是使用RIFF(ResourceInterchangeFileFormat资源交换文件)的格式描述的,RIFF格式文件是一种带有标记的文件结构,它由文件头和波形音频文件数据块组成。文件头包括标志符、语音特征值、声道特征以及PCM格式类型标志等。WAV数据块是由数据子块标记、数据子块长度和波形音频数据3个数据子块组成。

Wave格式支持MSADPCM、CCITTALaw、CCITTμLaw和其他压缩算法,支持多种音频位数、采样频率和声道,是PC机上最为流行的声音文件格式,但其文件尺寸较大,多用于存储简短的声音片断。

第45页,课件共125页,创作于2023年2月VOC文件

VOC文件是Creative公司所使用的标准音频文件格式,也是声霸卡(SoundBlaster)所使用的音频文件格式。Voice文件是CreativeLabs(创新公司)开发的声音文件格式,多用于保存CreativeSoundBlaster(创新声霸)系列声卡所采集的声音数据,被Windows平台和DOS平台所支持,支持CCITTALaw和CCITTμLaw等压缩算法。与WAV格式类似,VOC文件由文件头块和音频数据块组成。文件头包含一个标识、版本号和一个指向数据块起始地址的指针,这个指针帮助数据块定位以便顺利找到第一个数据块。数据块分成各种类型的子块,如声音数据、静音、标记、ASCII码文件、重复、重复的结束及终止标记等。

第46页,课件共125页,创作于2023年2月MPEG音频文件——.MP1/.MP2/.MP3

这里的音频文件格式指的是MPEG标准中的音频部分,即MPEG音频层(MPEGAudioLayer)。MPEG音频文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同可分为三层(MPEGAudioLayer1/2/3),分别对应MP1、MP2和MP3这三种声音文件;

MPEG音频编码具有很高的压缩率,MP1和MP2的压缩率分别为4∶1和6∶1~8∶1,而MP3的压缩率则高达10∶1~12∶1,也就是说一分钟CD音质的音乐,未经压缩需要10MB存储空间,而经过MP3压缩编码后只有1MB左右,同时其音质基本保持不失真。

MP3的流行得益于Internet的推波助澜,它用网络代替了传统唱片的传播途径,扩大了数字音乐的流传范围,加速了数字音乐的传播速度,MP3凭借其优美的音质和高压缩比而成为最为流行的音乐格式。

第47页,课件共125页,创作于2023年2月MP3播放器WinampMP3是Internet上流行的音乐格式

第48页,课件共125页,创作于2023年2月

RealAudio文件——.RA/.RM/.RAM

RealAudio文件是RealNetworks公司开发的一种新型流式音频(StreamingAudio)文件格式;它包含在RealNetworks所制定的音频、视频压缩规范RealMedia中,主要用于在低速率的广域网上实时传输音频信息;网络连接速率不同,客户端所获得的声音质量也不尽相同:对于28.8kb/s的连接,可以达到广播级的声音质量;如果拥有ISDN或更快的线路连接,则可获得CD音质的声音。

第49页,课件共125页,创作于2023年2月AIFF文件——.AIF/.AIFF

AIFF是音频交换文件格式(AudioInterchangeFileFormat)的英文缩写,是苹果计算机公司开发的一种声音文件格式;被Macintosh平台及其应用程序所支持,其他专业音频软件包也同样支持这种格式。第50页,课件共125页,创作于2023年2月2.4.1音频卡(声卡)发展的历史ADLIB-最早的声卡

虽然PC声卡是在90年代才得以普及,但它的问世却早在1984年。英国的ADLIB公司是目前公认的“声卡之父”,虽然他们最初开发的产品只能提供简单的音乐效果,并且无法处理音频信号,但在当时无疑已经是一个很大的突破。由于技术不够成熟、成本又非常高昂,因此这类带有试验品性质的早期ADLIB音乐卡,当时计算机的运算速度也不足以应付大规模的多媒体处理,所以并未能普及。2.4音频卡的工作原理第51页,课件共125页,创作于2023年2月Creative声卡系列

把声卡真正带入个人电脑领域的,是CREATIVE-创新公司。创新科技有限公司是世界上规模最大的多媒体硬件生产商和制造商之一,其“声霸卡”和“视霸卡”系列产品在全球占有很高的市场份额。自1989年,Creative在美国Comdex展览会上首次推出自己研制开发的适用于PC机的SoundBlaster而引起轰动至今,使SB声霸卡产品形成系列而风靡全球。

第一代SoundBlaster声卡基于ISA总线,具有一个8位的D/A转换器,只支持单声道录放音模式。它一次为电脑同时加上了音乐处理和音频信号处理的功能。此后推出的SoundBlasterPro加入了对立体声信号的支持。第一个多媒体电脑技术标准——MPC1,就把SoundBlasterPro作为声卡设备的标准配置。

第52页,课件共125页,创作于2023年2月Creative在成功推出第一块适用于PC机的声音卡SoundBlasterPro后,又推出了具有16bit、44KHz采样率并支持立体声的SoundBlaster16系列。它的推出使多媒体声卡的录音和放音第一次在技术规格上达到了CD唱片的品质。在20世纪90年代中期,16bit、44KHz、立体声D/A转换代表了声卡的最高技术水平。

Creative在1995年的推出了具有波表合成功能的SoundBlasterAwe32声卡。SBAwe32具有一个32复音的波表引擎,并集成了1MB容量的音色库,使其MIDI合成效果大大超越了以前所有的产品(其以前的产品在MIDI“电子合成器”方面采用都是YAMAHA公司研发的FM合成技术)。

第53页,课件共125页,创作于2023年2月

在SoundBlaster32的基础上,SoundBlasterAWE64在技术上取得了巨大的飞跃。这里的32和64不再表示数字音频的位数,而是表示32和64种复音的波表合成技术,它们仍是16位声卡。

SBAWE64采用著名音源公司E-mu的专业级的波表,采用了多点插值算法专利技术的WaveEffect合成器,提供平滑的音频复制和最小的失真,可升级到28MB音色采样子系统能更好地支持SoundFont音色库。它提供了高质真实乐器感的64复音的MIDI合成器,使得游戏和多媒体应用程序的音响效果比以前更为逼真。3D增强定位音响(3DPositionalAudio)技术和空间响应,使每一种声音变得比以前更加令人陶醉。高级的音色库定制和编辑,使用户可以在计算机上制作音乐,进行作曲。

第54页,课件共125页,创作于2023年2月2.4.2音频卡的功能和分类(一)、音频卡的主要功能1、音频的录制与播放2、编辑与合成3、MIDI和音乐合成4、文语转换与语音识别5、CD-ROM接口即游戏接口第55页,课件共125页,创作于2023年2月音频录放采用:采样频率范围:8~44.1kHz

量化位:8位,16位,32位单声道:立体声/单声道编码与采样:基本编码方法:PCM

压缩编码方法:ADPCM(8:4,8:3,8:2,16:4)CCITTA律(13:8)

CCITTμ律(14:8)实时硬件压缩/软件压缩音频录放的自动动态滤波录音声源:麦克风、立体声线路输入、CD输出功率放大器,直接驱动扬声器,音量可调。1.录制与播放第56页,课件共125页,创作于2023年2月2.编辑与合成它是对声音文件进行多种特殊效果处理,包括以下内容:倒播增加回音静噪淡入和淡出往返放声交换声道声音移位第57页,课件共125页,创作于2023年2月3、MIDI和音乐合成

MIDI是乐器数字接口的标准,它规定了电子乐器与计算机之间相互数据通信的协议。音乐合成的功能和性能依赖于合成芯片。波形表音乐合成(详见后续章节)第58页,课件共125页,创作于2023年2月4、文语转换和语音识别文语转换就是把计算机内的文本转换成声音语音识别将语音识别为计算机能理解的文字或命令第59页,课件共125页,创作于2023年2月(二)音频卡的分类(1)音频卡的分类主要是根据采样量化的位数来分类的。通常分为8位,16位,32位等。位数越高,量化精度越高,音质越好。同时形成声音文件所需的容量越大。计算声音文件公式如下:

S=DxRx(r/8)x声道数

D代表采样频率,R代表采样时间以秒计算,

r代表量化位第60页,课件共125页,创作于2023年2月(二)、音频卡的分类(2)一、独立音频卡,插在主板的ISA或PCI槽中。二、主板集成。目前市场上90%以上的主板都集成AC‘97声卡。现在广泛在整合主板上集成的板载声卡采用的音效芯片:创新ES1370/CT5880、C-Media8738、YAMAHAYMF744、傲锐AU8820,一些独立声卡采用的芯片和上面的完全一样。现在已经出现了6声道的板载声卡,板载5.1输出也变为现实。三、USB声卡。普通的性能,过大的体型,还有居高不下的价格,但也有一些产品的价格较低。第61页,课件共125页,创作于2023年2月(一)、音频卡的特性(1)强劲的音频处理引擎(2)环境音效增加现有音频的内容(3)SoundBlasterTMPCI标准(4)多音箱输出(5)256复音音乐合成器(6)环境音效功能扩展集/广泛的软件支持2.4.3音频卡的工作原理第62页,课件共125页,创作于2023年2月(二)工作原理主要组成部分:1、声音的合成与处理:数字音频处理器(DSP)、FM合成器以及MIDI控制器,其任务是完成声波信号的模/数(A/D)、数/模(D/A)转换,调频技术控制声音的音调、音色和幅度,FM音乐合成器具有多种复音操作的功能;2、混合信号处理器:内置数字/模拟混音器、混音器的声源可以是MIDI信号、CD音频、话筒和PC的扬声器等,可以选择不同音源进行混合录音;3、功率放大器:使输出的音频信号有足够的输出功率;4、计算机总线接口和控制器:ISA总线,PCI总线,总线接口和控制器有数据总线双向驱动器、总线接口控制逻辑、总线中断逻辑及DMA逻辑组成。第63页,课件共125页,创作于2023年2月PC总线数据总线驱动器总线接口和控制器游戏接口MIDI接口混合信号处理器数字声音处理器MIC放大器功率放大器音乐合成器音乐合成器地址总线控制总线MIC扬声器CDline音频卡的工作原理图第64页,课件共125页,创作于2023年2月音频卡的工作原理音频卡简称声卡,它将模拟音频进行模数转换送入计算机,进行处理后再经过数模转换,输出加工后的合成音频。DSP:它完成8位或16位单声道/立体声数字声音的记录和播放;完成4:1,3:1和2:1的ADPCM压缩/解压缩,控制取样频率,翻译与声卡兼容的MIDI指令,提供扬声器控制,控制各种直接存取DMA方式。总线接口负责为总线和声卡各部分提供握手信号和数据传输。第65页,课件共125页,创作于2023年2月(三)衡量声卡质量的关键技术总线类型:ISA6Mbit/s,PCI133Mbit/s标准支持即插即用取样能力芯片类型:CODEC芯片合成器:FM和波表合成MIDI音乐音效第66页,课件共125页,创作于2023年2月2.4.4音频编码基础和标准1、时域信息的冗余度(1)幅度的非均匀分布(2)样本间的相关(3)周期之间的相关(4)基音之间的相关浊音清音(5)静止系数(6)长时相关函数第67页,课件共125页,创作于2023年2月2、频域信息的冗余度(1)非均匀的长时功率谱密度(2)语音特有的短时功率谱密度3、人的听觉感知机理第一、人的听觉具有掩蔽效应第二、人耳对不同频段的声音的敏感程度不同,通常对低频端较之对高频段更敏感。第三、人而对语音信号的相位变化不敏感。第68页,课件共125页,创作于2023年2月音频编码的分类(1)基于音频数据的统计特性进行编码,其典型的技术是波形编码。如PCM,DPCM,ADPCM。(2)基于音频的声学参数,进行参数编码,可进一步降低数据率;参数有共振峰、线性预测系数、滤波器组等,如CELP、MPLPC。(3)基于人的听觉特性进行编码,利用掩蔽效应,设计心理学模型,从而实现高效率的数字音频的压缩。如MPEG的高频编码和DolbyAC-3。第69页,课件共125页,创作于2023年2月常用三种波形编码的方法:(1)PCM:直接对语音信号进行模数转换。只要采样频率足够高,量化尾数足够多,就能使编码后恢复的语音信号有较高的质量。(2)DPCM:即只传输语音预测值和样本值的差值,以此降低音频数据的编码率。(3)ADPCM:它是DPCM方法的改进,通过调整量化步长,对不同数模设置不同的量化步长,使数据得到进一步的压缩。第70页,课件共125页,创作于2023年2月2.4.5音频编码标准国际电报电话咨询委员会(CCITT)和国际标准化组织(ISO)先后提出了一系列有关音频编码的标准。具体如下:G.711G.721G.722G.728MPEG中的音频编码AC-3的编码和解码第71页,课件共125页,创作于2023年2月音频编码的算法和标准算法名称数据率标准应用质量波形编码PCM均匀量化公共网ISDN配音4.0~4.5µ(A)µ(A)64kb/sG.711APCM自适应量化DPCM差值量化ADPCM自适应差值量化32kb/sG.721SB-ADPCM子带-自适应差值量化64kb/sG.7225.3kb/sG.7236.3kb/s参数编码LPC线性预测编码2.4kb/s保密电话2.5`3.5混合编码CELPC码激励LPC4.6kb/s移动通信4.0~3.7VSELP矢量和激励LPC8kb/s语音邮件RPE-LTP长时预测规则码激励13.2kb/sISDNLD-CELP低延时码激励16kb/sG.728G.729MPEG多子带感知编码128kb/sCD5.0AC-3感知编码音响5.0第72页,课件共125页,创作于2023年2月ADPCM编码器结构图转化为标准PCM自适应量化器逆自适应量化器自适应预测器S(k)64kb/sA律或µ律PCMSl(k)d(k)I(k)Se(k)dq(k)St(k)32kb/s输出第73页,课件共125页,创作于2023年2月ADPCM解码器结构图转化为PCM同步编码调节逆自适应预测器32kb/s输入64kb/s输出A律或µ律PCM逆自适应量化器第74页,课件共125页,创作于2023年2月CELP(码激励线性预测)编码图矢量缓冲激励VQ码本VQ索引通道增益后向增益自适应最小MSE50阶LPC预测器后向LPC分析感知加权滤波器编码误差输入语音合成语音第75页,课件共125页,创作于2023年2月CELP(码激励线性预测)解码图已编码语音激励VQ码本从通道来的VQ索引增益后向增益自适应50阶LPC预测器后向LPC分析自适应后滤波器后滤波的语音信号输出第76页,课件共125页,创作于2023年2月MPEG中的音频编码

MPEG是运动图像专家组的简称,国际标准化组织(ISO)和国际电工委员会(IEC)所属的W11工作组,制定推荐了MPEG的标准。MPEG标准有MPEG-I,MPEG-II,MPEG-IV,MPEGVII等,MPEG-I中一部分对应于ISO/IEC11172-3及MPE音频。它规定了高质量音频编码方法,存储表示和解码方法。编码器的输入和解码器的输出与现存的PCM标准兼容。第77页,课件共125页,创作于2023年2月MPEG音频编码主要参数(1)编码器

编码器处理数字音频信号,并生成存储所需的数据流。(见结构图)(2)编码层次层I包括将数字音频变成32个子带的基本映射;层II提供了位分配,缩放因子和抽样的附加编码;层III采用混合带通滤波器来提高频率分辨率。(3)存储(4)解码解码器按编码器的定义的语法接受压缩的音频数据流按解码部分的方法解出数据元素,按滤波器的规定,用这些信息产生数字音频的输出(见解码结构图)第78页,课件共125页,创作于2023年2月MPEG音频编码器结构框图映射量化器和编码帧封装心理声学模型辅助数据PCM音频抽样已编码数据流第79页,课件共125页,创作于2023年2月MPEG音频解码器结构框图帧扩展重构逆映射已编码数据流PCM音频抽样辅助数据第80页,课件共125页,创作于2023年2月AC-3编码和解码AC-3是在1992年DOLBY实验室在AC-2(立体声编码标准)的基础上推出的。AC-3提供了5个声道从20HZ到20KHZ的全通带频,即正前方的左(L)中(C)右(R),后边两个独立的环绕立体声通道左后(LS)和右后(RS)。同时还提供了一个100HZ以下的超低音声供用户选择,以弥补低音之不足。也被称为5.1声道。第81页,课件共125页,创作于2023年2月AC-35.1声道图示LCRLSRS100Hz第82页,课件共125页,创作于2023年2月AC-3可编程解码器4声道混合环绕立体声5.1声道AC-3数据流解码器A解码器B解码器C解码器DLCRLSRSSubLTRT逻辑环绕声解码器LCRS5.1声道环绕立体声2声道立体声单声道第83页,课件共125页,创作于2023年2月AC-3编码器框图分析滤波器组频率包络线分析比特分配位数量化AC-3成帧PCM时间采样指数尾数比特分配信息量化尾数编码的AC-3位流编码的频谱包络线第84页,课件共125页,创作于2023年2月AC-3编码流程图耦合策略PCM输入瞬时测试TDAC变换形成耦合声道模型重建确定指数指数策略抖动策略指数编码尾数规格化比特分配成帧尾数量化块开关标志耦合策略重建标志指数策略抖动指针比特分配参数指示信息编码的谱包络线尾数比特分配指针主信息第85页,课件共125页,创作于2023年2月AC-3同步帧结构图音频数据块AUXCRCSIBSIAB0AB2AB3AB4AB5AB1同步帧SIBSI第86页,课件共125页,创作于2023年2月2.5音乐合成与MIDI规范音乐合成的两种技术:调频(FM)音乐合成技术:是使高频振荡的频率按调制信号规律变化的一种调制方式,合成不同频谱分布的波形,再现某些乐器的音色。波形表合成(wavetable)乐音必备的三要素:音高:指声波的基频,基频越低给人感觉越低沉。音色:具有固定音高和相同谐波的乐音。响度:对声音强度的衡量第87页,课件共125页,创作于2023年2月YM3812音乐系统框图微机或微处理器地址数据总线总线控制YM3812DAC音频放大系统时钟第88页,课件共125页,创作于2023年2月MIDI规范(术语)MIDI文件通道(channels)音序器(sequencer)合成器(synthesizer)乐器(instrument)复音(puyphone)音色(tmbre)音轨(tack)合成音色映射器(patchapper)通道映射(channelmapping)第89页,课件共125页,创作于2023年2月2.6乐器数字接口——MIDI

在音乐创作领域,由于MIDI、电子乐器和多媒体计算机的结合,给人们提供了一种快捷、独特的制作方式,它更加强调音色的非常规化、电子化、空间感和对比等,并且日益形成一种崭新的音乐风格。

第90页,课件共125页,创作于2023年2月2.6.1什么是MIDI

MIDI是数字音乐接口(MusicalInstrumentDigitalInterface)的缩写。或者说,MIDI是用来將电子乐器相互连接,或将MIDI设备与电脑连接成系统的一种通信协议。通过它,各种MIDI设备都可以准确传送MIDI信息。

MIDI是由软件部分和硬件部分共同组成的系统规范,这个规范定义了MIDI设备间数字传送时电缆硬件接口和协议。规范的制定的目的是希望各家生产的乐器之间通过统一的MIDI交换信息及控制信号,从而完成音乐的合成。这样,任何电子乐器,只要有处理MIDI信息的处理器和适当的硬件接口都能变成MIDI装置。

第91页,课件共125页,创作于2023年2月

尽管MIDI是多媒体音响制作的一个重要部分,但它不属于数字音响技术的范畴。打个比方,如果数字音响是一盘录了某个人小提琴独奏的磁带,则MIDI就是该独奏的乐谱,尽管乐谱本身并不产生任何实际声音,但它确实定义了演奏的速度、音符及演奏声音的大小。你也许有演奏过某种乐器的经历,只要按照乐谱所标注的要求进行演奏,一段美妙的音乐就在你的指尖流出,而记录这段音乐的乐谱也许只需一两页纸。按照这种思路,MIDI使电脑能够利用“记谱”的方法进行音乐的数字化录音及放音。它把各种乐器的音色记录在声卡的存储器之中,当演奏时,声卡根据被演奏的音符及乐器,合成出音乐,这样就产生了某种音色的器乐声。从一个MIDI设备转送到另一个MIDI设备上去的数据就是MIDI信息。MIDI数据不是数字的音频波形,而是音乐代码或称电子乐谱。

第92页,课件共125页,创作于2023年2月2.6.2MIDI系统的组成

MIDI系统实际就是一个作曲、配器、电子模拟的演奏系统。

基于计算机的MIDI音乐系统有多种构筑方案,但基本上都由以下几部分组成:多媒体计算机、合成器、音序器、音源、MIDI键盘、录音设备和监听设备等。这些设备可以是独立的,也可以是集成的。

如果在计算机上安装了MIDI软件,可将音乐的创作、乐谱的打印、节目编排、音乐的调整、音响的幅度、节奏的速度、各声部之间的协调、混响都可由MIDI软件控制完成。第93页,课件共125页,创作于2023年2月

利用MIDI技术将电子合成器、电子音源与音序器连接在一起即可演奏模拟出音色变化万千的音响效果,又可将演奏中的多种按键数据存储起来,极大的改善了音乐演奏的能力和条件。

基于计算机的MIDI音乐创作系统

第94页,课件共125页,创作于2023年2月合成器

MIDI合成器是能够产生特定声音的电子装置,其数据传送符合MIDI通信约定。合成器自诞生以来,其概念已发生了很多变化。早期的合成器是真正意义上的硬件合成器,它通过人为地调制各种波的参数(如锯齿波,方型波,滤波器,截止频率)等来合成音色。

合成器是通过控制面板上的按钮产生数字信号来控制的。这些数字信号用于“告诉”合成器内部的微处理器键盘上哪个键被击,哪个旋钮被转动。这些数字控制信号还可以同时被记录在合成器内部被称作“音序器”的装置中。第95页,课件共125页,创作于2023年2月具有USB接口的MIDI键盘人工通过控制面板来调制音色的硬件合成器

集音源、音序器、MIDI键盘于一身的合成器第96页,课件共125页,创作于2023年2月

现在,合成器的概念已经不是人为合成音色的设备。它拥有大量真实的采样音色可供演奏使用,它拥有自己的音序器可以录制编辑音乐,它拥有MIDI接口可以与其他设备交换信息。我们可以认为现代的合成器是这样意义上的“合成”,即集音源,音序器,MIDI键盘于一身的设备。

随着软件音序器的普及,合成器的硬件音序器由于它的繁琐而魅力大减,音源,音序器,键盘三位一体的方式受到挑战。人们认识到用电脑制作MIDI是将来的趋势,于是出现了一系列适合为电脑配套的合成器,它们省去了音序器,音序任务由软件完成,合成器只提供键盘和音色,这就降低了合成器的成本。又由于独立的硬件音源和采样技术的普及,人们觉得合成器的音色也是多余的,因为独立音源可以提供更好的音色,于是不带音序器和音色的MIDI控制键盘也随即产生,这类键盘有较强的控制功能,音色用音源的,音序器用软件的,可谓是专物专用,而且只要添加音源或采样器就可以得到更多的音色,更换音序软件就可以使用更强的功能。

第97页,课件共125页,创作于2023年2月音源

由于音乐最终要以声音的形式表现出来,所以做为电脑音乐系统中产生声音的设备,音源音色的数量、品种和质量都将对最终音乐作品的效果产生重要的影响。音源内部有很多不同音色的样本波形,譬如钢琴就有钢琴的音色的真实样本,吉它就有吉它的音色真实样本(即波表)。但是音源只是一个资源库,因为它不知道在什么时候该用什么音色发怎样的声音。至于何时调用资源(使用哪种音色)不是音源的工作,这项任务是由音序器来完成的。

音源也分硬件和软件两种。硬件音源是现在专业MIDI制作不可缺少的设备,因为它们可以提供比任何一块声卡上的波表都要好很多的音色,这些独立音源基本上是专业人士使用的,常见的型号有RolandJV1080和YamahaMU100R等。

第98页,课件共125页,创作于2023年2月

作为一般用户,可以不需要添置硬件音源设备,因为现在任何一块多媒体声卡上都有一个128种音色的GM音色库,即MIDI音源,只不过质量比专用音源设备差一些。但有些声卡(如SoundBlasterLive)的音源质量较好,可达到准专业级。

另外,还可以使用软件音源来代替。软件音源也是随着电脑的高速发展而产生的,它们也必须安装在电脑上才能使用。大家熟悉的软音源有:YamahaS-YXG100,RolandVSC88等,大家平时俗称它们为MIDI播放器,其实它们就是音源,因为它们是提供音色的。软音源的产生为MIDI的大众化作出了很大的贡献,它使人们不需购买专门设备就可以进行MIDI的创作和演奏。

第99页,课件共125页,创作于2023年2月音序器(Sequencer)

音序器是用来记录、编辑和播放MIDI文件的设备。音序器分硬件和软件的两种。最早的是硬件音序器,我们也常称它为“编曲机”。它可以是一个独立的设备,也可以内置于合成器里。这类音序器的编辑和修改必须在它的面板上进行,使用是很不方便的。常见的型号有YamahaQY700等。软件音序器是安装在计算机中的多功能音乐创作、编辑软件,如我们常用的Cakewalk就是一个软件音序器。软件音序器因为其显示界面扩大(使用电脑显示器),功能增强,特别是操作方便获得了绝大多数音乐制作者的认可,大有淘汰硬件音序器之势。其实正是由于软件加入音乐制作的领域才使MIDI音乐和电脑联系起来,不然制作MIDI音乐完全用不着电脑。

第100页,课件共125页,创作于2023年2月

YAMAHAQY700音序器

硬件音源ROLANDJV1080第101页,课件共125页,创作于2023年2月采样器

音乐的表现力是无限的,因此人们对于音色的要求也是无限的。一般的音源均是一种封闭的结构,它们的音色都是固定的,提供的数量和品种都有限,不能满足制作者对新的音色的要求。而采样器则是一种开放式的音源,它可以对任何声音进行取样,并把它们编辑成音色来供电脑音乐系统使用。

使用采样器可以对各种音乐、其他电子乐器和各种自然界声响进行取样,或是通过读取现成磁盘来获取各种音色。到目前为止,使用采样器仍然是满足其对新增音色的最佳手段。其他设备

如录音设备、监听设备、音箱功放等,这里不加赘述。

第102页,课件共125页,创作于2023年2月2.6.3MIDI的工作过程

MIDI电子乐器通过MIDI接口与计算机相连,MIDI靠这个接口来传递消息而进行彼此通信。这样,计算机可通过音序器软件来采集MIDI电子乐器发出的一系列消息或指令。这一系列消息可记录以.MID为扩展名的MIDI文件中。在计算机上音序器可对MIDI文件进行编辑和修改。最后,将MIDI消息送往音乐合成器,由合成器将MIDI消息进行解释并产生波形,然后通过声音发生器送往扬声器播放出来。其过程如图4-11所示。第103页,课件共125页,创作于2023年2月MIDI的工作过程

理解MIDI工作方式的最直接的方法就是看看MIDI消息是什么。MIDI消息实际上是对一段音乐的描述,或理解成是乐谱的数字描述。它包括音符、节拍、乐器种类等。MIDI消息包括两个大的部分:状态信息和数据信息。状态信息用于描述音符被演奏还是声音被加强这样的信息,而数据信息则重点描述哪个音符被演奏了,或被加强的声音的强度如何等可以用量来表示的信息。例如,你在一个具有MIDI功能的电子琴上按下了一个键时,电子琴便产生了一个MIDI信息,通过MIDI接口传送出去。这个信息就包含了状态信息及数据信息两部分。信息的前一部分用于描述你做了什么,这里你按了一个键,产生了一个音符。信息的后一部分描述哪一个键被按下了。

第104页,课件共125页,创作于2023年2月2.6.4FM与波表合成方式

合成器是利用数字信号处理器DSP或其他芯片来产生音乐或声音的电子装置。利用合成器产生MIDI乐音的主要方法是FM合成法和波表合成法。FM合成法

FM合成法是80年代初由美国斯坦福大学的JohnChowning发明的,称为“数字式频率调制合成法”,简称FM合成法。FM合成法生成乐音的基本原理是,用数字信号来表示不同乐音的波形,然后把它们组合起来,再通过数模转换器(DAC)生成乐音播放。第105页,课件共125页,创作于2023年2月波表合成法

使用FM合成法来产生各种逼真的乐音是相当困难的,有些乐音几乎不能产生。为子能真实地再现乐音,目前的声卡一般采用乐音样本合成法,即波表合成法。这种方法就是把真实乐器发出的声音以数字的形式记录下来,播放时根据命令生成各种音阶的音符,产生的声音质量比FM合成方法产生的声音质量要高很多。乐音样本的采集相对比较直观,音乐家在真实乐器上演奏不同的音符,选择44.1kHz的采样频率、16比特的量化位数,这相当于CD-DA的质量,把不同音符的真实声音记录下来,这就完成了乐音样本的采集。

第106页,课件共125页,创作于2023年2月

与FM合成不同,波表合成是采用真实的声音样本进行回放。声音样本记录了各种真实乐器的波形采样,并保存在声卡上的ROM中。例如创新的SoundBlasterAWE32是第一块广

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论