论文注释怎么弄_第1页
论文注释怎么弄_第2页
论文注释怎么弄_第3页
论文注释怎么弄_第4页
论文注释怎么弄_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章音频处理技术(一)西安交通大学计算机教学实验中心2007多媒体技术及应用教学要求论文外文翻译1问题的提出什么是声音?声音有哪些物理特征?音乐1、2、歌曲1、2、3、MIDI1、2、3、乐器伴唱……当我们看到“声音”这个字时,联想到的是什么?……2一.声音的基本特性声音的表现形式有三类:语音是指具有语言内涵和人类约定的特殊媒体;音乐是规范的符号化了的声音;音响指其他自然声音,如动物的叫声、机器的轰鸣声、风雨雷电声等。3声音什么是声音?声波机械振动或气流扰动引起周围弹性媒质发生波动而产生声波。声源产生声波的物体为声源(如人声带、乐器等)。声场声波所及的空间范围称为声场。声音声波传到人耳,经过人类听觉系统的感知就是声音。声音是振动的波,是随时间连续变化的物理量。声音依靠介质的振动进行传播。声源就是振动源。4声波的表示声波可以用一条连续的曲线来表示,它在时间和幅度上都是连续的,称为模拟音频信号。在任一时刻t,声波可以分解成一系列正弦波的线性叠加:An是振幅,表示声音的强弱ω是声波的基频,表示声音音调的高低φn是n次谐波的初相位nω是ω的n次谐波分量,或称为泛音5音频信号的特征声音的物理特性频率、声压和声强、动态范围、频谱声音的心理特性音调、响度、音色、掩蔽效应、方位感、空间感声音的音质频带宽度、信噪比、数据量6声音的物理特性周期/频率/带宽

两个相邻波之间的时间长度为周期T,单位为秒;每秒钟声源振动的次数称为频率f,单位Hz;

f=1/T描述组成复合信号的频率范围,称为带宽。t振幅周期7声音频带示意图高于20kHz频率的声音人耳听不到。人类对声音的感觉是有限的,即只能在一个频带范围内有效。有的音响产品工作频率上限为50kHz,调音台的最高工作频率设计到100kHz。

8声波的频率范围在自然界中,人耳接收的音域:20~20,000Hz次声波(大象):<20Hz超声波(海豚):>20,000Hz9声源的频率范围日常生活中的不同声源频率范围:男声:100~9,000Hz

女声:150~10,000Hz

电话声:200~3,400Hz

收音机AM调幅广播声:50~7,000Hz收音机FM调频广播声:20~15,000Hz

专业级音响放大器声:10~40,000Hz10声压和声强声压P声波在空气传播造成空气中的气压发生变化而产生的压强(相当于在无声波下空气中的气压上叠加一个变化的压强),被称为声压,记作P。单位有帕斯卡(Pa)和微巴(μbar)。声强I描述声音传播所需能量的强度(声波是由能量来维持传播的。如扬声器纸盆的振动是由电能转换而来)。单位时间内通过垂直于声波传播方向的单位面积内的声波能量为声场中某点的声强,记作I,单位为瓦/米2(W/m2)。声强与声压最大值的平方成正比。11在声学中,量级定义为一个量与同类基准量之比的以10为底对数。单位是dB。声压级Lp

为:

Lp=20lgP/P0

声压基准量为P0=2×10-4μbar,声压级为0~120dB。声强级LI为:

LI=10lgI/I0

声强的基准量为I0=10-12W/m2。声压级&声强级12阈阈值是指临界值。可听阈引起人耳刚能听到声音时的声压,与年龄有关。中音频时约为0.0002微巴。痛阈使人耳膜感到疼痛的声压,超过200微巴的声压,能使人耳膜产生疼痛。13分贝(dB)自然现象:扬声器的功率增加一倍发出的声音,人听到的声音强度并不是增加一倍。在声学中用分贝来表示声压或声强的变化程度。人听觉神经的刺激程度不与刺激量大小成正比,而是按刺激量以10为底的对数增长。成对数关系变化。14动态范围指声音最大声压级和最小声压级之间的差值。每种声源的动态范围依据各自的特性有所不同。如女声的动态范围为25~50dB,男声为30~50dB,交响乐队的动态范围大于100dB。动态范围不仅用来表示一个声源产生的最大声压级与最小声压级之间的差值,录音设备或记录声音的载体(磁带、光盘、硬盘)同样可用动态范围表示能够处理信号电平的范围。15动态范围的相对强度动态范围可以用信号的相对强度表示:信号的动态范围=20×lg(信号最大强度/信号最小强度)(dB)其中信号可以用电压或功率衡量。因为是一种比例关系,故只要采用相同的度量单位,其结果都是一致的。

16频谱物体在一定位置的附近作来回往复的运动,称为简谐振动。简谐振动会产生一个特定音调的纯音,听起来感觉单薄。乐器很少产生单一频率的纯音,而是复音。复音的产生基于物体的复杂振动,可以分解为许多不同振幅和不同频率的简谐振动(即看成简谐振动的叠加)。简谐振动的振幅按频率排列的图形称为频谱。频谱可一目了然地看出复杂振动的频率结构。17钢琴的复音频谱钢琴(基频为253Hz)的复音频谱18声音的心理学特性

从声学心理角度分析,声音有三个要素:音调、响度和音色。它们与声波的频率、声压和频谱结构对应。19音调音调代表声音的高低,与频率有关。频率越高,音调越高,反之亦然。人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调与基频的对数(20×lg)成线性关系,单位为美(mei)。基频越低,给人的感觉越低沉。基频频率增加一倍,音乐上称提高了一个八度。在编辑声音时,如果对声音的频率进行调整,其音调也会随之而变;不同声源有自己特定的音调,若改变了声源的音调,声音会发生质的转变。20频率与音调的关系

21响度响度也称音强,是人耳对声音强弱的感觉程度。常说的“音量”也是指响度。响度与声波的振幅成正比,振幅越大,响度越大。唱盘、CD激光盘等播放出来的声音响度是一定的,但通过控制、调整播放设备的音量,可以改变聆听时的响度。22等响度曲线人的耳道会对某段频率产生共鸣,使灵敏度提高。因此人耳听到声音的响度与声音的频率有关。描述响度、声压以及声源频率之间的关系曲线称为等响度曲线。从曲线看出,当音量开到使声压级为80dB时,就可做到高、低频声音丰满。23音色音色是声音的特色,又称音品。通常说法是:声音的音调和响度以外的音质差异叫做音色。影响音色主要因素是复音。所谓“复音”是指不同频率和不同振幅的混合声音,自然声中大部分是复音。在复音中,最低频率的声音是“基音”(声音的基调),其他频率的声音称为“谐音”(也叫泛音)。基音和谐音是构成声音音色的重要因素。各种声源都具有自己独特的音色,例如每种乐器的声音、每个人的声音等,人是根据音色来辨别声源种类的。24音色(续)高次谐波越丰富,音色就越有明亮感和穿透力。此外,音色还与诸多其他因素有关,如听音条件等。音色是一个主观量,常用柔和、刺耳、饱满等词描述。25掩蔽效应称听不到的声音为被掩蔽声,而起掩蔽作用的声音为掩蔽声。掩蔽效应的实质是掩蔽声的出现使人耳听觉的等响度曲线的最小可听阈抬高。掩蔽效应的一般规律是强音压低音、低频率声音压高频率。利用掩蔽效应可以用有用信号去掩蔽无用的声信号,只需要把无用声音的声压级降低到掩蔽阈以下即可。在数字音频处理中,还可以利用掩蔽效应去掉人耳听不到的那部分信号进行声音数据的压缩。26方位感人凭借双耳在一定声学环境内能够对声源定位,这种能力来自于声源发出的声波到达双耳间的强度差、时间差等因素。声源到达听者耳朵的声音有两个,一个声音直接到达,而另一个由于人头部遮蔽,需绕过头部才能到达。称前者为直达声,而后者为绕射声。若有两个声源,增大其中一个声源的强度,由于该声音源发出的直达声或绕射声的声压大于另一个声源,双耳将会产生声压级差。使听者感受的声源(声像)位置向强度较大的声源方向移,使人感受到声音的立体感。27空间感一个声源发出的声音同时向各个方向散开,其发散的角度取决于声源所具有的指向性,发散的声波有一小部分直接传给听者,而大部分会被空间表面反射,然后到达听者。由于直接和经反射到达听者的两个声音途径存在差别(取决于环境)而带来时间差。当时间差超过一定数量时,听者会听到先后到达的两个声音,从而产生回音。经多次反射,造成余声。即使声源已停止发声,但听者仍能听到声音存在。回声与余音的感觉可使听者感受出房间体积大小、房间高低及内表面结构上的差异,这便是空间感。28

音频信号的质量指标

频带宽度动态范围信噪比数据量29(1)频带宽度音频信号所包含的谐波分量越丰富,音色越好。在广播通信和数字音响系统中,以声音信号所包含的谐波分量的频率范围来衡量声音的质量,即带宽。不同质量的声音的频带对比示意图

30动态范围动态范围越大,说明音频信号强度的相对变化范围越大,音响效果越好。动态范围一般用dB为单位来计量。FM(调频)广播的动态范围约60dB,AM(调幅)广播的动态范围约40dB。CD-DA的动态范围约100dB,数字电话约50dB。31信噪比信噪比SNR(SignalNoiseRatio)是有用信号与噪声之比的简称。信噪比大,在一定程度上能够掩蔽噪声,从而获得较好的声音效果。信噪比不仅是声音设备的性能指标,在声音的录制和播放时,也要注意环境噪声。录制时应尽可能减小环境噪音。输出时应使音量适当大,以减少环境噪音对听音的影响。一般话筒和音箱的信噪比在75dB以上。声卡的信噪比在85~95dB。32数据量音质与数据采样频率和数据位数有关:采样频率越低,位数越少,音质越差;采样频率越高,位数越多,音质越好。33二、数字音频声音的数字化

数字化就是将连续信号变成离散信号。对音频信号,首先在时间上离散,取有限个时间点,称为采样。然后在幅度上离散,取有限个幅度值,称为量化。再将得到的数据表示成计算机容易识别的格式,称为编码。34PCM编码

PCM是把模拟信号转换成数字信号的编码方法,它主要包括采样、量化和编码3个过程。采样按时间间隔测量,把时间连续的模拟信号转换成时间离散、幅度连续的采样信号。如果采样时间间隔相等,称为均匀采样;量化是按“四舍五入”等方法将采样得到的数值限定在几个有限的数值中,将采样信号转换成时间离散、幅度离散的数字信号;编码(coding)是将量化后的信号转换成一个二进制码组输出。例如,量化得到的数据中只会出现两个数值51和80,则只用一位二进制数表示即可,用0表示51,用1表示80。这种编码方法称为自然编码。35模拟声音信号的采样和量化过程示意

模拟声音信号的波形采样得到的离散时间信号再量化得到的数字信号36例2.1例2.1设一个连续信号的波形可以表示为:设采样频率为21Hz,[-10,10]内的量化间隔取为1,试计算出该信号0到1秒内的量化数据。在0-1秒内,取21个采样点。在1、1/20、2/20、……19/20、1秒时刻采样,将采样得到的数值取整,即得到量化数据。37表2-1连续波形的数字化

序号采样点采样数据量化值序号采样点采样数据量化值00.009.414219

110.55-9.37474-910.05-7.66754-8120.604.73547520.101.308671130.65-2.56445-330.151.079301140.700.40759040.20-3.46729-3150.756.34915650.258.934339160.80-9.36672-9…………90.45-1.63831-2201.004.400904100.507.89216838举例对于CD-DA,采样频率为44.1kHz,即每秒取44,100个点。幅度的取值范围是限制在216=65,536以内,量化间隔为1,即量化幅度可以取65,536个不同的值,计算机中用16位的存储空间就可以表示一个量化后的数值。动态范围为20×lg(216)≈96dB39PCM编码原理编码的过程:采样。用一组脉冲采样时钟信号乘以输入的模拟音频信号,得到离散时间信号。量化。对采样后的信号幅值进行量化。量化过程由量化器来完成。编码。对经量化器变换后的信号再进行编码,即把量化的信号电平转换成二进制码组,得到离散的二进制数据序列x(n)。数据处理。计算机对量化后的二进制数据可以用文件的形式存储、编辑和处理,并可还原成原始的模拟信号播放。40PCM编码示意图

41

均匀量化和非均匀量化

均匀量化采用相等的量化间隔(“等分尺”)对采样得到的信号作量化,也称为线性量化。缺点:增加的样本位数不能得到充分的利用。42非均匀量化非线性量化思想是大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔;这样就可以在满足精度要求的情况下用较少的位数来表示。声音数据还原时,采用相同的规则。43非均匀量化算法非均匀量化采用两种算法(定义采样输入信号幅度和量化输出数据之间的对应关系):μ律(μ-Law)压扩A律(A-Law)压扩44律压扩

μ律(μ-Law)压扩主要用在北美和日本等地区的数字电话通信中,按下面的公式确定量化输入和输出的关系。

45A律(A-Law)A律(A-Law)压扩主要用在欧洲和中国大陆等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系。46举例对于采样频率为8kHz,样本精度为13位、14位或者16位的输入信号,使用μ律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本需8位二进制存储,输出的数据率为64kb/s。这个数据就是CCITT推荐的G.711标准:话音频率脉冲编码调制。

47数字音频的技术指标采样频率采样精度声道数音频数据传输率编码算法与音频数据压缩比48采样频率采样频率是指一秒钟采样的次数。采样频率越高,单位时间内采集的样本数越多,得到波形越接近于原始波形,音质就越好。

根据奈奎斯特(HarryNyquist)采样理论:如果采样频率高于输入信号最高频率的两倍,重放时就能从采样信号序列无失真地重构原始信号。例如,电话话音的信号频率约为3.4kHz,若采样频率选为8kHz,就能无失真地重放原始声音。49采样的3个常用频率分别为:11.025kHz——AM(调幅)广播22.05kHz——FM(调频)广播44.1kHz——CD高保真音质声音现在声卡的采样频率一般为48kHz甚至96kHz。50采样精度

采样精度用每个声音样本的位数表示,也叫样本精度或量化位数,反映度量声音波形幅度的精度。例如,每个声音样本用16位表示,则量化样本值在0~65535之间,它的精度是输入信号的1/65536。

采样精度决定了模拟信号数字化以后的动态范围。若以8位量化,则其波形的幅值可分为28=256等份,等效的动态范围为20×lg(256)=48dB。若以16位采样,则可分为216=65536等份,等效动态范围为20×lg(65536)=96dB。采样精度影响到声音的质量位数越多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。51声道数

单声道(mono)信号一次产生一组声波数据。双声道或立体声(stereo)一次产生两组声波数据。双声道在硬件中占两条线路,一条是左声道,一条是右声道。立体声不仅音质、音色好,而且能产生逼真的空间感。但立体声数字化后所占空间比单声道多一倍。52其他因素除采样频率、采样精度、声道数影响声音质量外,声音录制时环境噪声、声卡内部噪声以及采样数据丢失等都会造成声音质量的下降。实际收听时,音响(功率放大器、扬声器等)的质量对音质的表现也起很大作用。53音频数据传输率

音频信号数字化后,产生大量数据。产生数据的速度或播放声音时需要传输数据的速度影响声音的播放质量。数据传输率用每秒钟传输的数据位数表示,记为bps(bitpersecond)。未经压缩的数字音频数据传输率为:

数据传输率(bit/s)=采样频率(Hz)×量化位数(bit)×声道数54声音质量和数字化指标

质量采样频率(kHz)样本精度(bit)单道声/立体声数据率(kB/s)(未压缩)频率范围电话*88单道声8200~3400HzAM11.0258单道声11.050~7000HzFM22.05016立体声88.220~15000HzCD44.116立体声176.420~20000HzDAT4816立体声192.020~20000Hz55例2-2例2.2高保真立体声数字音频的量化位数为16,试计算其数据传输率。

解:高保真立体声数字音频采样频率为44.1kHz,双声道,其数据传输率为:数据传输率=44.1(kHz)×16(bit)×2(声道)=1411.2(kbps)

如果采用PCM编码,数字音频文件所占用的空间可用如下的公式计算:

音频数据量(Byte)=数据传输率×持续时间/8(bit/Byte)

其中数据量以字节(Byte)为单位;数据传输率以每秒比特(bps)为单位;持续时间以秒(s)为单位。

56例2-3例2.3计算1分钟未经压缩的高保真立体声数字声音文件的大小。

解:高保真立体声数字音频采样频率为44.1kHz,16位量化,双声道,其数据传输率为:

数据传输率=44.1(kHz)×16(bit)×2(声道)=1411.2(kbps)

1分钟这样的声音文件的大小为:音频数据量=1411.2(kb/s)×60(s)/8(bit/Byte)=10584kB未经压缩的4分钟的歌曲文件约42M数据,128M的MP3播放器只能存放3首这样的歌曲。

57

编码算法与音频数据压缩比

未压缩的音频数据量非常大,因此在编码的时候常采用压缩的方式。实际上,编码的作用一是记录数字数据,二是采用一定的算法来压缩数据以减少存储空间和提高传输效率。压缩编码的基本指标之一就是压缩比,一般为数据压缩前后的数据量之比:58数据压缩说明数字化指标不同反映在采用了不同数据压缩比。如果PCM编码采用4bit量化对CD音质信号压缩,其压缩比为4:1。这种情况下,用来记录幅值的比特位越少,编码后数据量就越小,压缩比越大。但压缩比越大,丢掉的信息就会越多,信号还原后失真就越大。(对有损压缩)压缩算法包括有损压缩和无损压缩:有损压缩解压后数据不能完全复原,要丢失一部分信息。无损压缩不丢失任何信息,能较好地复原原始信号。59数字音频文件格式

数字声音文件格式是数字音频在磁盘文件中的存放形式,相同的数据可以有不同的文件格式,而不同的数据也可以有相同的文件格式。WAVE格式MP3格式RA格式60WAVE文件格式WAVE文件是一种通用的音频数据文件,文件扩展名为“.WAV”,Windows系统和一般的音频卡都支持这种格式文件的生成、编辑和播放。WAVE文件由三部分组成:文件头(标明是WAVE文件、文件结构和数据的总字节数)、数字化参数(如采样率、声道数、编码算法等),最后是实际波形数据。CD激光唱盘中包含的就是WAVE格式的波形数据。一般说来,声音质量与其WAVE格式的文件大小成正比。WAVE文件的特点是易于生成和编辑,但在保证一定音质的前提下压缩比不够,不适合在网络上播放。61MP3文件MP3文件是采用MP3算法压缩生成的数字音频数据文件,以“.MP3”为文件后缀。MP3利用MPEG(MotionPictureExpertGroup,运动图像专家组)制定的MPEG-1Audiolayer3的压缩标准,将音频信息用10:1甚至12:1压缩率变成容量较小的数据文件。MPEG-1压缩主要用于VCD数据的压缩,也用来压缩不包含图像的纯音频数据,音频压缩算法包括MPEGAudioLayer1、MPEGAudioLayer2等,而MPEGAudioLayer3有很高的压缩比。虽然MP3是一种利用了人类心理声学特性的有损压缩,人耳基本不能分辨出失真,音质几乎达到了CD音质标准。按照这种算法,10张CD-DA的内容可以压缩到l张CD-ROM中,而且视听效果相当好。62RA文件

RealAudio是Realnetworks推出的一种音乐压缩格式,它的压缩比可达到96:1,因此在网上比较流行。经过压缩的音乐文件可以在通过速率为14.4kb/s的MODEM上网的计算机中流畅回放。其最大特点是可以采用流媒体的方式实现网上实时播放,即边下载边播放。

63三、电子合成音乐

在多媒体系统中,除了用数字音频的方式以外,还可以用合成的方式产生音乐。音乐合成的方式根据一定的协议标准,使用音乐符号来记录和解释乐谱,并组合成相应的音乐信号,这就是MIDI(MusicalInstrumentDigitalInterface乐器数字接口)。

64电子合成音乐的有关概念

MIDI不是把音乐的波形进行数字化采样和编码,而是将数字式电子乐器的弹奏过程以命令符号的形式记录下来,如按了哪一个键、力度多大、时间多长等。当需要播放这首乐曲时,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。

65电子音乐中的常用术语电子合成器(musicalsynthesizer)是由数字信号处理器和其他集成电路芯片构成的电子设备,用来产生并修改正弦波形,然后通过声音产生器和扬声器发出特定的声音。复调(polyphony)指合成器同时演奏若干音符时发出的声音。如钢琴、吉他等乐器可以同时演奏几种音符,而双簧管就不能。复调着重于同时演奏的音符数,如钢琴的和弦音符。多音色(timbre)指同时演奏几种不同乐器时发出的声音。它着重同时演奏的乐器数。例如,具有6音符复音的4种乐器合成器,可以同时演奏4种不同声音的6个音符,如3个钢琴的合弦音符、1个长笛、1个小提琴和1个萨克斯管的音符。66与MIDI有关的术语(1)MIDI电子乐器它是能产生特定声音的合成器,如电子键盘、吉他、萨克斯管等;它们相互间的数据传送符合MIDI的通信约定。(2)MIDI消息(message)或指令MIDI软件通信协议,实际上是用数字指令描述的音乐乐谱,其中包含音符、强度、定时及乐器的指派等。(3)MIDI接口(interface)MIDI硬件通信协议,可使电子乐器互连或与计算机硬件端口相连,可发送和接收MIDI消息。(4)MIDI通道(channel)MIDI标准提供了16个通道,每种通道对应一种逻辑的合成器,即对应一种乐器的合成。(5)音序器(sequencer)它指可用来记录、编辑和播放MIDI文件的计算机程序。67电脑合成音乐的制作原理

电脑合成音乐需要使用MIDI语言。MIDI语言利用字节传送来告知相应的设备能够做什么和不能做什么。MIDI字节通知乐器、声卡和其他MIDI设备什么时候开始和什么时候结束演奏音符。MIDI自身并不产生和传送声音,只是传送产生声音的控制符号。使用MIDI语言的设备(MIDI设备)可以互联。典型设备是合成器或者MIDI控制键盘,也可以是外挂式音响效果单元、计算机、配备有MIDI接口的吉他等。68

MIDI音乐的产生过程

69MIDI通道

当MIDI设备交流信息时,需要遵循一定的事件序列。例如,两个MIDI设备在建立连接之后首先要做的事情就是在使用相同的MIDI通道方面达成一致。MIDI可以在16个这样的通道上进行操作,这些通道用数字分别标记为0~15。只要两个MIDI设备进行交流,就必须使用相同的通道。对电脑合成音乐,每个逻辑通道可指定一种乐器,音乐键盘可设置在这16个通道之中的任何一个,而MIDI声源或者声音模块可被设置在指定的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论