数字声音及MIDI简介_第1页
数字声音及MIDI简介_第2页
数字声音及MIDI简介_第3页
数字声音及MIDI简介_第4页
数字声音及MIDI简介_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MMTYANGZHOUDAXUE物理科学与技术学院第二讲数字声音及MIDI简介

声音是携带信息的极其重要的媒体(20%),是多媒体技术研究中的一个重要内容。声音的种类繁多,如人的话音、乐器声、动物发出的声音、机器产生的声音以及自然界的声音等。这些声音有许多共同的特性,也有它们各自的特性。在用计算机处理这些声音时,既要考虑它们的共性,又要利用它们的各自的特性。我们将研究声音的基础知识,掌握声音数字化的两个最基本的概念;了解基本的音频信号编码技术。第1节声音声音是通过空气传播的一种连续的波,叫声波。反射(reflection)、折射(refraction)和衍射(diffraction)声音信号是由许多频率不同的分量信号组成的复合信号。复合信号的频率范围称为带宽。声音的本质带宽为20Hz-20kHz的信号称为音频(audio)信号,可以被人的耳朵感知。话音信号带宽在80Hz~3400Hz。频率决定音调。

响度(音量)表示的是声音能量的强弱程度,主要取决于声波振幅的大小。用声压(达因/平方厘米,牛顿/平方米)或声强(瓦特/平方厘米)来计量。声压的单位为帕(Pa)。人耳对lkHz、10-16W/cm2的纯音刚能听到。声强级表示响度的相对量,它定义为某响度与10-16W/cm2比值的对数值乘以10,单位为dB。正常人听觉的强度范围为0dB—120dB。声音与听觉乐音以小提琴为例,当它的A弦振动时,并不仅仅是整根弦在振动,这根弦的二分之一、三分之一、四分之一、五分之一……处都在振动着。于是,整根弦的振动产生了最主要的频率,我们称之为基音,而弦长的二分之一、三分之一、四分之一等处的振动则产生了一些次要的频率,我们称之为泛音。如果一个物体振动所发出的泛音为基音的整数倍,这个音就会具有清晰可辨的音高,我们称之为乐音,如钢琴,小提琴等发出的都是乐音;如果泛音是基音的非整数倍,这个音就不具备清晰可辨的音高,我们称之为噪音,如汽车发动机、计算机风扇等发出的都是噪音。

基音和混入基音的泛音决定音色。声音的三要素音调、音强、音色为声音的三要素。音强(响度)取决于声音的幅度。音调取决于声音的频率。音色是由混入基音的泛音所决定的。声音的听觉特性声音的方向性人的耳朵对声音强度和频率的反应成对数形式声音的掩蔽特性(时域掩蔽、频域掩蔽)声音质量的度量声音的质量与声音的带宽有关,一般来说频率范围越宽,声音质量也就越高。声音类型带宽电话语音200Hz-3.4kHz调幅广播(AM)50Hz-7kHz调频广播(FM)20Hz-15kHzCD10Hz-20kHz信噪比(SNR)度量指试听者要把语音编码器的输出按质量分为:优(5分)、良(4分)、中(3分)、差(2分)、劣(1分)或分类为:察觉不到(5分),稍稍察觉到但无不适感(4分),能察觉且有不适感(3分),有不适感但还能忍受(2分),很不适且无法忍受(1分)主观平均判分法(MOS,MeanOpinionScore

)第2节声音信号数字化声音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的。声音进入计算机的第一步就是数字化,数字化过程中最重要的步骤就是采样和量化。采样(sampling):将声音信号在时间上离散化,即每隔相等的一段时间抽取一个信号样本。量化(quantization):将连续的信号幅度离散化。如果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。一般紧跟编码过程。

电压范围量化步长量化结果

编码逆量化结果5~723 01163~522 01041~321 0012-1~1200000-3~-12-1 111-2-5~-32-2 110-4-7~-52-3 101-6-9~-72-4 100-8多媒体数据的量化一般通过除以量化步长量化为整数。逆量化就是乘以量化步长。量化步长越长,压缩字节越多,但是误差越大。量化步长越短,压缩字节越少,但是误差越小。量化除了有使幅度离散的作用外,同时:(1)压缩字节(2)产生量化误差(量化误差:逆量化的结果和原始信号幅值之差,也称为量化噪声。

)采样频率奈奎斯特理论指出:采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,称为无损数字化。

fs

>=

2fmax例如话音信号最高频率约为3.4kHz,所以采样频率取为8kHz。采样精度每个声音样本的数字化位数。反映声音波形幅度的采样精度。也直接决定数据率的大小。质量采样频率(kHz)样本精度(bit)单道声/立体声数据率(kb/s)电话88单道声64AM11.0258单道声88.2FM22.05016立体声705.6CD44.116立体声1411.2人-机通信,计算机接收音频信号。获取、语音识别与理解。机-人通信,计算机输出音频。音频合成;声音重构、模拟。产生真实感声音。人-机-人通信,人通过网络进行语音通信,需要的处理包括:语音采集、编码解码、传输、检索,识别。音频信号处理的内容第3节音频处理技术关于音频信号的几个问题奈奎斯特(Nyquist)理论与混迭效应量化信号的时域与频率特征人耳对音频信号的理解信号的表示和编码信号的重构音频信号处理的流程原始声音信号声电信号转换低通滤波模拟数字转换数字信号处理传输存储声音合成功率放大数字模拟转换电声信号转换音频信号处理的重要硬件就是音频卡。音频卡结构第4节WAVE音效和MIDI音乐Wave音效合成与MIDI音乐合成是声卡最主要的功能。WAVE音效合成是由声卡的AD模数转换器和DA数模转换器来完成的。模拟音频信号经AD转换后为数字音频后,以文件形式将数据直接存放在磁盘等介质上,成为声音文件。这类文件我们称之为waveform文件,通常以.wav为扩展名,因此也称为wav文件。缺点:wav文件需要占用很大的贮存空间。为了节省存贮空间,人们使用各种算法对wav文件进行压缩,时下极为流行的MP3就是一种高压缩比低失真的压缩算法。WAVE文件格式

偏移地址字节数数据类型内

文件头42字节00H4char"RIFF"标志04H4longint文件长度-8字节08H4char"WAVE"标志0CH4char"fmt"标志10H4

过渡字节(不定)14H2int格式类别(01H为PCM形式的声音数据)16H2int通道数,单声道为1,双声道为218H2int采样率(每秒样本数),表示每个通道的播放速度,1CH4longint波形音频数据传送速率,其值为通道数×每秒数据位数×每样本的数据位数/8。播放软件利用此值可以估计缓冲区的大小。20H2int数据块的调整数(按字节算的),其值为通道数×每样本的数据位值/8。播放软件需要一次处理多个该值大小的字节数据,以便将其值用于缓冲区的调整。22H2

每样本的数据位数,表示每个声道中各个样本的数据位数。如果有多个声道,对每个声道而言,样本大小都一样。24H4char数据标记符"data"28H4longint语音数据的长度8位单声道0声道0声道0声道0声道8位立体声0(左)声道1(右)声道0(左)声道1(右)声道16位单声道0声道低字节0声道高字节0声道低字节0声道高字节16位立体声0声道低字节0声道高字节1声道低字节1声道高字节PCM数据(WAV文件音频数据)的存放方式

PCM波形样本的数据格式样本大小数据格式最大值最小值8位PCMunsignedint255016位PCMint32767-32767(MIDI)

MusicalinstrumentdigitalinterfaceMIDI,即乐器数字化接口,是一种用于计算机与电子乐器之间进行数据交换的通信标准。MIDI文件(以.mid为文件扩展名)记录了用于合成MIDI音乐的各种控制指令,包括发声乐器、所用通道、音量大小等。由于MIDI文件本身不包含任何数字音频信号,因而所占的贮存空间比wav文件要小得多。从80年代初问世至今,MIDI经历了长时间的发展,现已成为电脑音乐的代名词。MIDI的发展与电子音乐合成密不可分。电子音乐合成使用电子元器件(计算机)生成音乐的技术称为电子音乐合成。电子音乐合成方法分为两类:FM频率调制合成音乐样本合成频率调制(FM)合成法数字式频率调制合成法,简称为FM合成法。FM电子合成器先由震荡器产生一个载波作为基音,然后再产生若干个调制波带着许多泛音加在载波之上,可以对这个组合加以任意调整,然后加上典型的声音包络线(ADSR),再通过数控滤波器和数控放大器送往数字/模拟转换器,从而形成最后的声音。由于一个物体不可能总是一成不变的振动,所以它的频率和振幅都会随着时间的改变而改变,并最终趋于静止。我们把一声音的发展过程分为四个阶段,分别是触发、衰减、保持和消失。这四个阶段我们统称为“包络”。包络的发生时间,也决定了一个乐音的时值。

由以下五部分组成:数字载波器调制器声音包络发生器数字运算器模数转换器频率调制(FM)合成法FM声音合成器的工作原理从理论上讲,FM合成方法可以产生任何乐音,但是,合成出来的声音不够真实。FM合成法的发明人:JohnChowning

20世纪60年代,在斯坦福大学和他的同事研究FM理论和合成技术,1966年研究成功,成为使用FM制作并录音的第一人。之后JohnChowning通过斯坦福大学寻找美国的制造商。被YAMAHA采用。乐音样本合成法乐音样本合成法是把真实乐器发出的声音以数字的形式记录下来,播放时再加以调整、修饰和放大,生成各种音阶的音符。乐音样本通常放在ROM芯片上,播放时以查表的方式给出,所以这种合成器又叫做波表(wavetable)合成器。Wavetable合成器的工作原理Wavetable合成器所需要的输入控制参数比较少,可控的数字音效也不多,大多数采用这种合成方法的声音设备都可以控制声音包络的ADSR参数,产生的声音质量比FM合成方法产生的声音质量要高。乐音样本合成法MIDI实质上是由MIDI控制器(或MIDI文件)产生的指示电子音乐合成器要做什么、怎么做(如演奏某个音符、加大音量、生成音响效果)的一套标准指令。MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是动作指令(MIDI文件)。MIDI设备的简单联接MIDI硬件各个MIDI设备通过专用的串行电缆(MIDI线)连接,并以31.25kb/s(每字节10位)的速度传送着数字音乐信息。MIDIThruOutInMIDI的物理接口标准MIDI通道的概念单个物理MIDI通道分为16个逻辑通道,每个逻辑通道可指定一种乐器。MIDI键盘可设置在这16个通道中的任何一个,MIDI合成器可以被设置在指定的通道上接收MIDI指令。

MIDI设备的复杂连接把MIDI理解成一种局域网,网络各个部分通过专用的串行电缆(MIDI线)连接。指定各声音模块播放某一个通道。音序器规定发声顺序。

输入设备,音序器,音源(声音模块)是MIDI系统重要的三个部分。MIDI指令举例

演奏员按下MIDI键盘中间的一个“C”键时,MIDI键盘就会发送一个三字节组成的消息,用16

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论