L06-数字音频技术基础(new)_第1页
L06-数字音频技术基础(new)_第2页
L06-数字音频技术基础(new)_第3页
L06-数字音频技术基础(new)_第4页
L06-数字音频技术基础(new)_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数字音频技术基础陈科文主讲研究生《多媒体技术》公共课程中南大学信息科学与工程学院一、听觉媒体—声音1.1声音分类声音分类语音人的说话声虽是一种特殊的媒体,但也是一种波形,所以和波形声音的文件格式相同。音乐符号化了的声音,乐谱可转变为符号媒体形式。1.1声音分类波形声音包含了所有的声音形式,它可以把任何声音都进行采样量化,并恰当地恢复出来。二、声音心理学2.1声音的量纲一、声音的量纲声音的振动是一种正弦波,声音的变化涉及到三个物理参数:频率(变化的速度)、幅度(产生的压力)、相位(何时开始)。另外一方面,人们可以感觉到声音的强弱,可以感觉到歌唱家音调的高低;听到不同的声音,人们会在心理上产生不同的主观感觉。因此,声音的量纲分为:

物理量纲和心理量纲。2.1声音的量纲

物理量纲可以用精确的值来描述,但对某一具体声音得来的心理印象(心理量纲)却不容易说明白,因为心理印象要由被测者的经验而定。声音的心理属性和物理属性不可等同。首先,这些关系不是线性的;其次,这些关系不是孤立的;第三,这些关系不是不变的。2.1声音的量纲

响度:对声音强弱的主观感觉响度级度量单位:phon(方)或sone(宋)相关物理量:声强(W/cm2,瓦特/平方厘米);声压(dyn/cm2,达因/平方厘米)。频率(Hz)

声音的响度取决于“强度”和“频率”两个因素。显然,强声显得比弱声要响一些。但如果强度相同,过高频率的声音和过低频率的声音似乎比中频的声音听起来都要弱一些。由此可见,响度也依赖于频率,原因是人耳对不同频率的声音的敏感度不同,且能反应的频率范围也是有上、下限的。2.1声音的量纲测量响度时,以1kHz纯音为基准,由主观感觉来确定。音调:又称音高主观音高单位:Mel

(美)客观音高单位:Hz(赫兹)

1Mel=1000·log2(1+f)

测量音高时,以40dB声强为基准,由主观感觉来确定。音高与频率之间也不是线性关系。2.1声音的量纲2.1声音的量纲

心理变量首要的物理变量次要的物理变量响度声强声波频率音调声波频率声强音色声波复合-音量频率和强度-密度频率和强度-谐和(流畅或粗糙)谐波结构音乐技巧噪声强度频率组合,各种时间参量骚扰声强度频率组合,无意义2.2听觉特性(1):等响曲线二、听觉特性等响曲线

由于响度与频率和强度有关,所以主观感觉响度相同的不同频率的声音,其实际强度是不同的。

先设一个音为标准音,给予固定的频率、强度和持续时间,如1000Hz、40分贝、持续0.5秒;再给一个音也持续0.5秒,但频率不同,通过调整使其响度听起来一样,得到的这样一组曲线称之为等响曲线。

等响曲线描述的是响度与频率和强度的关系。从声音心理学考虑,对同一响度的声音在频率上和强度上可以有很大的差别,这对声音表现有重要意义。2.2听觉特性(1)2.2听觉特性(2):掩蔽效应掩蔽(masking)效应各种声音可以互相掩蔽,也就是说一种声音的出现可能使得另一种声音难于听清。声音的掩蔽效果可以欺骗人的听觉。例如,本来是多种频率的声音的复合,但听众以为只是一种声音。由于被掩蔽的声音数据对听觉的影响不大,所以可以尽量消除或压缩。声音掩蔽效应可分为频域掩蔽和时域掩蔽。2.2听觉特性(2)2.2听觉特性(2)2.2听觉特性(2)2.2听觉特性(2)声音高频成分的清晰度较高,但听阈较低;低频成分容易掩盖高频成分;响度高的声音会掩盖响度低的声音;噪音会对纯音产生掩盖效应。2.2听觉特性(3):临界频带临界频带(CriticalBand)它可用来描述噪音对纯音的掩蔽效果。一个纯音处于以它为中心频率、并且具有一定频带宽度的连续噪声中,如果在这个频带内噪声功率等于该纯音的功率,则此纯音可能刚好被掩盖,即处于刚能被听到的临界状态,那么称这一频带为临界频带。

在一个临界频带内,很多心理声学特性都是一样的。在频率的这一临界区里,各种声音是相互作用的,合成声音的响度由这些频率成分共同决定。如果超出临界区,声音的响度不再相互作用,而是随频率的改变而改变。对于临界频带的确定,使得对声音响度的处理能够有的放矢。离散的临界频带临界频带频率(Hz)临界频带频率(Hz)低高宽度低高宽度

0

0

100

100

13

20002320

320

1

100

200

100

14

23202700

380

2

200

300

100

15

27003150

450

3

300

400

100

16

3150

700

550

4

400

510

110

17

37004400

700

5

510

630

120

18

44005300

900

6

630

770

140

19

5300

6400

1100

7

770

920

150

20

6400

7700

1300

8

920

1080

160

21

7700

9500

1800

9

1080

1270

190

22

9500

12000

2500

10

1270

1480

210

23

12000

15500

3500

11

1480

1720

240

24

15500

22050

6550

12

1720

2000

280

2.2听觉特性(4):频谱特性听觉的频谱特性

声音是时间函数,通过傅里叶变换可做出其频谱图。人耳对频谱成分的波峰和波谷是非常敏感的。在语言中,元音很少有频谱快速变化的区域。基频改变,人耳是很敏感的(例如:快进的录像,音调会发生变化)。音色非常复杂,目前尚在研究中。一般认为音色与声音频谱分布有关。音色的处理将使我们能识别音源,音色也代表和声音有关的主观质量。2.2听觉特性(5):时变现象自然声音的时变现象声音的音调分成三个区域:起始区、稳定状态区、延迟区。研究表明,音调的频谱分量随时间改变。在稳定状态区,频谱保持固定。在起始区,振幅频谱随时间变化。因此自然声音的起始部分是非常难识别的。例如刚听了一小节音调后要识别乐器,专家也会觉得较难。时变现象用于数字系统中,说明声音中的某些错误是不太容易发现的,但如果出现停顿,就很容易引起人的注意。2.2听觉特性(6):相位相位

从声音的波形来看,声音的起点和方向也要反映声音的特性,这就是声音的相位。当两个声音频率相同、相位完全相反时,它们将相互抵消;当两个声音频率相同、相位也相同时,声音就会得到加强。相位的确定对于多声道声音系统的设计非常重要,其可以应用在回声的消除、会议系统的声音设计上。2.2听觉特性(7):方位性听觉空间(声音的方位性)人耳可听到来自各个方向的声音,并用不同的因素来判定声源的位置。判断声音方位的线索是各种声音到达两耳的精确时间和强度。声源的位置不论对于增进人们的感受,还是增进对声音的理解,都是非常重要的。通过声音的精确再现,就可以构造出较真实的听觉空间。2.3真实感声音的模拟声音的心理模拟通过人工的方法,可以对视觉空间的景物进行再造或虚构,同样也可以对听觉空间的真实声音进行心理上的模拟,这就是所谓的“可听化”(audiolization)。通过模拟,可以表达出一些声音的效果。

三维真实感声音模拟的研究还处于初级阶段,与三维真实感图形的研究相比,它还显得很不成熟。

(后面将作简要介绍)三、数字音频技术3.1概述音频的数字化和符号化从人与计算机交互的角度看,音频信号的处理包括:人与计算机通信,也就是计算机接收音频信号。包括:

音频获取、语音的识别和理解。计算机与人通信,也就是计算机输出音频。包括:音乐合成、语音合成、声音的定位,以及音频视频的同步。人-计算机-人通信,即人与人借助网络来通话.相关的音频处理有:语音采集、音频的编码和解码、音频的存储、音频的传输、基于内容的检索等。3.2音频的数字化

1.音频的数字化与再现

在计算机中,所有的信息都以数字来表示。声音信号也是由一系列的数字来表示的,称为数字音频。数字音频的特点就是保真度好,动态范围大。数字声音是一个数据序列。它是由外界声音经过采样、量化和编码后得到的。3.2音频的数字化对声音进行采样用奈奎斯特采样定理来决定采样的频率。根据该定理,只要采样频率高于信号中最高频率的两倍,就可以从采样中完全恢复原始信号的波形。因为人耳所能听到的频率范围为20Hz到20KHz,所以实际的采样过程中,为了达到好的效果,就采用44.1KHz作为高质量声音的采样频率。如果达不到这么高的频率,声音恢复的效果就会差一些,例如电话声音的质量等。一般来说,声音恢复和采样频率、信道带宽都有关。

声音的采样以及量化图3.2音频的数字化3.2音频的数字化与数字音频相关的重要特性:采样频率采样频率与声音的质量关系最为紧密。采样频率越高,声音质量越接近原始声音,所需的存储量便越多。标准的采样频率有三个:44.1KHz,22.05kHz,和11.025kHz。采样精度(量化位数)存放一个采样点所需的比特数。一般的采样位数为8位或16位,即把声音采集为256等份或65536等份。3.2音频的数字化声道数有单声道、双声道和多声道。如多种语言音频混存时,需要多声道声音数据量计算:

(采样频率×每点采样位数×声道数)数据量=

8(字节/秒)3.2数字音频技术参数数字声音波形质量的主要技术参数采样频率等于波形被等分的份数,份数越多,质量越好11.025KHZ、22.05KHZ、44.1KHZ采样精度每次采样信息量

8位、16位通道数声音产生的波形数单声道、双声道(立体声)、5.1声道(环绕立体声)数据量计算:(采样频率×采样精度×通道数×时间)/8=字节数多声道环绕立体声3.3音频的符号化

2.音频的符号化波形声音可以把音乐、语音都进行数据化并且表示出来,但是并没有把它看成音乐和语音。对于声音的符号化(也可以称为抽象化)表示包括两种类型:一种是音乐,一种是语音。3.3音频的符号化(1)(1)音乐的符号化-MIDIMIDI是指“乐器数字接口”(MusicInstrumentDigitalInterface)

的国际标准。

MIDI消息,是指乐谱的数字描述。任何电子乐器,只要有处理MIDI消息的微处理器和合适的硬件接口,就构成了一个MIDI设备。当一组MIDI消息通过音乐合成芯片处理时,合成器能解释这些符号并且产生音乐。MIDI的关键是作为媒体能够记录这些音乐的符号,相应的设备能够产生和解释这些符号。它给出了一种得到音乐声音的方法。3.3音频的符号化

MIDI的特点:与波形声音相比,MIDI不是声音数据而是指令,所以数据量要少得多。30分钟的音乐,用MIDI文件记录只需200KB,用16位CD品质的未压缩WAV文件记录需317MBMIDI可以与其他波形声音配合使用,形成伴乐的效果。而两个波形声音一般是不能同时使用的对MIDI的编辑也很灵活,用户可以自由地改变音调、音色等属性,直到自己想要的效果MIDI在音质上还不能与真正的乐器完全相似。无法模拟自然界中其它非乐曲类声音3.3音频的符号化(2)(2)语音的符号化语音与文字是对应的。波形声音可以记录表示语音,它是不是语音取决于听者对声音的理解。对语音的符号化实际上就是对语音的识别,将语音转变为字符,反之也可以将文字合成语音。语音指构成人类语音信号的各种声音。在采集和存储上可以与波形声音一样,但由于语音是由一连串的音素组成。“一句话”中包含许多音节以及上下文过渡过程的连接体等特殊的信息,并且语音本身与语言有关,所以要把它作为一个独立的媒体来看待。四、MIDI音乐合成4.1MIDI简介MIDIMIDI(MusicalInstrumentDigitalInterface)是指乐器数字接口,是数字音乐的国际标准。

MIDI的音乐符号化过程实际上就是产生MIDI协议信息的过程。音乐合成器是电脑音乐系统中最重要的设备之一。

4.2MIDI术语MIDI术语MIDI文件通道Channels音序器Sequencer合成器Synthesizer

乐器Instrument

通道映象ChannelMapping复音Polyphony音色Timbre音轨Track合成音色映射程序PatchMapper4.3MIDI音乐合成器合成器波形表(WaveTable)合成频率调制FM合成4.4MIDI接口规范MIDI接口MIDIIn(输入口)接收从其他MIDI装置传来的消息。MIDIOut(输出口)发送某装置生成的原始MIDI消息。向其他设备发送MIDI消息。MIDIThru(转发口)传送从输人口接收的消息到其他MIDI装置。向其他设备发送MIDI消息。4.4MIDI接口规范MIDI接口五、语音识别5.1语音识别概述概述语音识别是将人发出的声音、字或短语转换成文字、符号,或给出响应,如执行控制、作出回答。语音识别系统的分类按可识别的词汇量多少划分按照语音的输入方式划分按发音人划分说话人识别5.1语音识别概述语音识别系统的最终目标不存在对说话人的限制,即非特定人的。不存在对词汇量的限制,即基于大词汇表的。不存在对发音方式的限制,即可识别连续自然发音的。系统的整体识别率应该相当高,接近于人类对自然语音的识别能力。这也正是听写机系统最终要达到的目标。5.2典型语音识别方法目前,语音的自动识别基本上采用孤立词的模式匹配识别和有限词汇的连续识别。(1)

孤立词的模式是一种认人的识别方式,就是因人而异进行语音识别。实验结果表示,一般识别率都在95%以上。孤立词的模式识别系统的原理如下图所示:(1)孤立词语音识别(2)有限词汇的连续识别实际上,人们更需要计算机能不因人而变,且能识别由大量词汇组成的连续语句。这就要求计算机语音识别系统以音素为识别单元,具有标准的语句切分规则、音调规则、拼音规则、单词库、语法及语义等规则。连续识别系统功能结构如下图所示:连续语音识别原理切分规则拼音规则单词库语法及语义规则音素库音变规则音段切分音素识别音节识别单词识别语句识别连续语音流输入识别结果输出5.3语音识别研究难点语音识别研究的难点很难适应各种年龄、性别、口音、发音速度、语音强度、发音习惯与方式等的差异。系统随着能够识别的词汇量增大,所需要的空间和时间的花销就越多,最终将导致系统的识别性能急剧下降而丧失可用性。尽管连续发音是人们最为自然的发音方式,但是识别系统很难也不可能把连续语音作为一个整体来进行识别。实用的识别系统要求提高语音特征参数的鲁棒性、对不同非高斯噪声的非敏感性,以及对不同用户的适应能力等,这些复杂性的需求的实现是非常困难的。六、语音合成6.1语音合成概述概述实现计算机语音输出有两种方法:录音/重放文–语转换计算机话语输出按其实现的功能来分,可以分为以下两个档次:有限词汇的计算机语音输出基于语音合成技术的文字-语音转换(TTS)6.2TTS系统TTS(文-语转换,Text–To–Speech)TTS系统的最根本问题在于它的语音自然度。为了提高合成语音的自然度,文语转换技术的研究将涉及到语言学、语音学、信号处理、人工智能等许多学科,因此,TTS是一个十分复杂的系统。

一个比较完整的TTS系统模型如下:6.2TTS系统模型语法抽取音素和韵律等信息词典韵律规则韵律控制:(基频、时长、幅度)声谱生成(音色控制)声音合成器声音合成单元语音文本文本分析部分语音合成部分TTS系统方框图6.3语音合成方法合成方法发音器官参数语音合成对人的发音过程进行直接模拟声道模型参数语音合成基于声道截面积函数或声道谐振特性合成语音波形编辑语音合成技术直接把语音波形数据库中的波形相互拼接在一起,输出连续语流。PSOLA(PitchSynchronousOverlapAdd)方法6.4语音基元数据库语音基元数据库的构建基元的选择选择音节选择双音素和三音素语音数据的存储形式波形存储方式存储数字化的语音波形数据参数存储方式存储从语音信号中提取的参数,常用的有LPC参数、LSP(LSF)、共振峰参数等6.5语音韵律模拟韵律模拟自然语言中的韵律特征语调、节奏和重音等能表达说话者的语义和感情,是自然语流的重要组成部分韵律合成及方法超音段特征(音高、音长、音强及频率分布的变化)的修改构成了韵律合成的基础方法:修改基频模式、共振峰模式、PSOLA算法等韵律模拟的问题需解决韵律规则、韵律描述、计算模型和修改算法等问题七、数字立体声

(音频媒体的三维化处理)7.1三维虚拟声空间

1.三维虚拟声空间所谓三维虚拟声空间(ThreeDimensionalVirtualAcoustic,3DVA),是指用一定的声音设备人为地产生出来的具有空间位置信息的声音空间。三维听觉的使用明显地依赖于用户对听觉空间中各种信息源的定位能力。一般说来,三维虚拟声空间要达到以下的一些目标:①在可听的范围内重现频率分辨度和动态范围;②在三维空间中精确地呈现声音的位置信息;③能表达多个静止和移动的声源;④能和头部的动作具有一定的关联;⑤能够支持一定程度的交互。7.13DVA的基本理论

2.3DVA的基本理论人类感知声源位置的最基本的理论是双工理论,该理论基于两种因素:两耳间声音的到达时间差ITD(InterauralTimeDifferences)和两耳间声音的强度差IID(InterauralIntensityDifferences)。

时间差是由于距离的原因造成的,当声音从正面传来时,距离相等,所以没有时间差;但若偏右3o,则到达右耳的时间就要比左耳约早30ms,而正是这30ms,使得我们辨别出了声源的位置。

强度差是由于信号衰减造成的,信号的衰减是因为距离产生的,在很多情况下是因为人的头部遮挡,使声音衰减,产生了强度的差别,使得靠近声源一侧的耳朵听到的声音强度要大于另一耳。7.13DVA的基本理论3DVA理论较形象地说明:人耳对声音定位的特性,通过大脑的综合作用后,对有差别的声音信号进行了相对于空间位置的定位。人耳对声源方位的判定起决定作用的是耳廓。当声波从声源传到听者的耳部时,声波会在耳廓发生不断的反射和折射,然后由内耳道传到耳鼓,使人产生音感。这种反射、折射是依赖于频率的,通过不同频率的变化,使得人耳能够辨别声源的方位。另外,当声音从声源传到人的内耳并形成听觉时,声音信号已经携带了两个很重要的信息,从而形成了空间真实感和环境真实感。声源的本身信号特征、声源的空间三维位置、声源所处的环境这三个因素描述了声源的全部信息。7.2HRTF方法

3.HRTF方法实现空间真实感的关键是建立起耳廓模型,这种方法被称为“双耳相关函数法”,也即HRTF(Head-RelatedTransferFunction,与头部有关的转移函数)。

从理论上利用HRTF产生真实空间声音的算法如下图所示。7.2音频媒体的三维化处理

八、补充资料

声音文件格式8.1典型声音文件类型文件

扩展名说明wav波形(waveform)声音文件存储格式mid标准MIDI音乐文件存储格式rmiWindowsMIDI音乐文件存储格式mp3MPEGLayerIII声音文件存储格式voc声霸卡(SB)的声音文件格式(CreativeVoice)rm./ra流放式声音文件格式(RealMedia/RealAudio)aiff/sndApple机上的声音文件格式(AudioInterchange)常见的声音文件类型8.2WAV文件格式WAVE声音文件格式

波形(Waveform)声音文件(*.wav)是一种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论