第二章多媒体数字音频_第1页
第二章多媒体数字音频_第2页
第二章多媒体数字音频_第3页
第二章多媒体数字音频_第4页
第二章多媒体数字音频_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数字音频处理技术2.1数字音频基础知识2.2数字音频压缩标准2.3声卡与电声设备2.4电子音乐与MIDI2.5音频编辑软件2.6语音识别技术2.7语音合成技术第2章数字音频处理技术学习目标:掌握声音的数字化及其处理方法掌握数字音频的文件格式及其转换了解数字音频压缩方法和压缩标准了解声卡和音箱掌握音频处理软件的使用方法了解MIDI与音乐合成以及语音识别第2章人类从外部世界获取的信息中,约10%是通过听觉获得的。声音是通过传播媒体传播的一种连续的波,叫声波。空气是最常见的声音传播媒体,不存在任何媒体的真空是不能传播声音的。在自然界中。一切能够发出声音的物体都叫做声源。一、声音的基本概念2.1数字音频基础2-4一、声音的基本概念声音是通过一定介质传播的连续的波。声源产生的声波是一种模拟信号,可以用波形来表示。t振幅周期A声波2.1数字音频基础音频参数与声音特性决定声音特性的主要参数有振幅、周期和频率,下面分别介绍这三个重要指标。(1)振幅(Amplitude)。波的高低幅度,表示声音的强弱,常用A表示。(2)周期(Period)。两个相邻的波之间的时间长度,常用T表示,以秒(s)为单位。(3)频率(Frequency)。每秒钟振动的次数,常用f表示,以赫兹(Hz)为单位,1赫兹=1/秒。频率与周期具有互为倒数的关系。

从听觉角度看,声音具有音调、音色和响度(音强)三个要素。(1)音调:在物理学中,把声音的高低叫作音调。[注]音调与声音的频率有关,声源振动的频率越高,声音的音调就越高;声源振动的频率越低,声音的音调就越低。通常把音调高的声音叫高音,音调低的声音叫低音。音调高音调低播放播放播放音频参数与声音特性(2)音色:表示人耳对声音质量的感觉,又称音品,与泛音数有关。[注]一定频率的纯音不存在音色问题,音色是泛音主观属性的反映。声音的音色主要由其泛音的多寡、各泛音的特性所决定。各种乐器奏同样的曲子,即使响度和音调相同,听起来还是不一样,就是由于它们的音色不同。音频参数与声音特性(3)响度(音强):即声音的响亮程度,也就是我们通常说的声音的强弱或大、小,重、轻。[注]响度与振幅有关,取决于声波信号的强弱程度。由于人的听觉响应与声音信号强度不是成线性关系,因此一般用声音信号幅度取对数后再乘20所得值来描述响度,以分贝(dB)为单位,此时称为音量。播放音频参数与声音特性音频参数与声音特性

通常,按人们听觉的频率范围可将声音分为次声波、超声波和音频三类。(1)次声波:频率低于20Hz的信号,也称亚音频。(2)超声波:频率高于20kHz的信号,也称超音频。(3)音频:频率范围是20Hz~20kHz的声音信号,即在次声波和超声波之间的声波是音频,是人耳能听到的声音信号,即属于多媒体音频信息范畴。

声音按频率分类:次声波可听声波超声波20Hz20kHzf(Hz)2.1.2音频参数与声音特性声音信号所占用的频率范围叫做频带宽度,简称带宽。声音的质量与它所占用的频带宽度有关,频带越宽,信号强度的相对变化范围就越大,音响效果也就越好。按照带宽可将声音质量分为典型的四级。图2-1典型声波的频率范围音频参数与声音特性2-12

声音的传播携带了信息,它是人类传播信息的一种主要媒体。根据声音元素的不同,声音的三种类型:语音:不仅是波形声音,而且还有丰富的语言内涵(抽象→提取特征→意义理解)音乐:与语音相比,形式更规范。音响:语音和音乐以外的声音形式音乐是符号化的声音。2.1数字音频基础2-13二、声音的数字化

1.声音信号的类型

模拟信号(自然界、物理)数字信号(计算机)

2.声音数字化过程采样量化编码模拟信号数字信号模拟信号数字信号A/DADCD/ADAC2.1数字音频基础1,声音采样模拟信号的采样

所谓采样就是在某些特定的时刻对模拟信号进行取值,如上图所示。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅值,把时间上的连续信号变成时间上的离散信号。1,声音采样

1.采样周期与采样频率采样时间间隔称为采样周期t,其倒数为采样频率fs=1/t。一般来讲,采样频率越高,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确,声音失真越小,但用于存储音频的数据量越大。

根据奈奎斯特定理(即采样定理),只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原为原来的声音。1,声音采样2.样本大小与样本精度样本大小是每个声音样本在计算机中存储时占的二进制位数,单位用bps

(bitpersample)来表示。人们也常把存储一个样本信号所需的二进制位数叫做样本精度,也叫样本位数、位深。可见,样本大小与样本精度是同一个概念。1,声音采样2.样本大小与样本精度若量化一个样本信号用n位二进制信息表示,其相应量化级数为2n,则量化信号精确度可达1/2n。即1个单位大小的信号,最多引起1/2n数量级的量化误差,与这个量化误差数量级相当的信号强度叫做量化噪声强度。因此,量化位数越多,声音的质量越高,但需要的存储空间也越多。所以,存储一个样本信号所需的二进制位数越多,样本精度越高。1,声音采样3.声道数声道数是指声音通道的个数,即一次采样的声音波形的个数。单声道一次采样一个声音波形;双声道则被人们称为“立体声”,一次采样两个声音波形。除单声道和立体声外,目前经常使用的声道数还有4声道、4.1声道和5.1声道。双声道比单声道多一倍的数据量,多声道的数据量则更大。2,音频信号的量化

采样得到的数据是一些离散时间点的样本值,由于检测器的灵敏度和计算机存储一个数所用的二进制位数有限,又由于传输过程中噪声的干扰,所以没有必要存储和传输一个个样本值的准确大小,只需要将这些离散值用若干二进制位的数来表示即可。这一过程叫做量化。量化精度是指表示每个采样点数据所用的二进制数据位数,例如,256个量化等级的量化精度就是8位。用均匀间隔量化的方法,称为均匀量化或线性量化。如果小信号量化级间宽度小一些,而大信号量化级间宽度大些的话,这样的量化方法法就是“非线性量化法”。3,音频信号的编码

将模拟音频信号的量化值用一组二进制数字代码来表示的过程,叫做音频信号编码。在实际过程中,量化和编码是同时进行的。量化和编码时一般要确定两个因素:①每一个量化值的编码位数(即决定用多少位二进制码来表示一个量化值),它决定了量化的精度。②每一组代码与量化值对应的规则(如,常用自然二进制码,即编码值就是量化值所对应的二进制数)。

当编码位数为k时,对应的量化值数目为2k。音质与数据量

声音的数据率可用下列公式计算:

声音数据率(B/s)

=采样频率(Hz)×量化位数(bit)×声道数/8.

声音数据量=声音数据率×时长.例如,对于采样频率为8kHz、量化位数为8bit的电话音质(单声道),其声音的数据率为:声音数据率=(8×1000)×8×1/8字节/秒=8000B/s≈8(KB/s)上述计算中,最后一步采用了工业近似:1KB≈1000B(工业上常常是这样计算的),而1Byte=8bit。采样频率×量化位数×声道数×声音持续时间假设它的采样频率为44.1kHz,量化位数为16bit,CD格式的音乐通常都是立体声(两个声道),那么CD格式的声音20秒钟的数据量为以CD格式为例:(44.1kHz*16bit*2*20s)/8≈

3.528MB(22.05kHz*16bit*2*20s)/8≈

1.764MB(22.05kHz*4bit*2*20s)/8≈0.441MB若改变它的采样频率为22.05kHz,则若再改变它的量化位数为4bit,则数字化声音的数据量=8音质与数据量音质与数据量声音质量的5个等级,由低到高分别是:电话、调幅广播、调频广播、激光唱盘、数字录音带。声音质量采样频率(kHz)量化位数(bit)声道数(1或2)压缩前数据率(KB/s)频率范围(Hz)电话88单道声18200~3400AM11.0258单道声111.020~15000FM22.05016立体声288.250~7000CD44.116立体声2176.420~20000DAT4816立体声2192.020~200002-244.声音数字化三要素采样频率量化位数声道数每秒钟抽取声波幅度样本的次数每个采样点用多少二进制位表示数据范围使用声音通道的个数采样频率越高声音质量越好数据量也越大量化位数越多音质越好数据量也越大立体声比单声道的表现力丰富,但数据量翻倍11.025kHz22.05kHz44.1kHz8位=25616位=65536单声道立体声2.1数字音频基础2-255.声音数字化的数据量音频数据率=采样频率×量化位数

×声道数/8(字节/秒)采样频率(kHz)量化位数(bit)数据量(KB/s)单声道立体声11.025810.7721.531621.5343.0722.05821.5343.071643.0786.1344.1843.0786.131686.13172.272.1数字音频基础2-26三、音频的文件格式

1.WAV文件

WAV是Microsoft/IBM共同开发的PC波形文件。因未经压缩,文件数据量很大。对存储空间需求太大,不便于交流和传播。

特点:声音层次丰富,还原音质好

2.MP3文件

MP3(MPEGAudiolayer3)是一种按MPEG标准的音频压缩技术制作的音频文件。

特点:高压缩比(11:1),优美音质2.1数字音频基础2-273.RA文件

RealAudio(即时播音系统)是一种新型流式音频文件格式,用于低速广域网:RA、RM、RMX。

特点:流畅声音前提下,较好音质

4.WMA文件

WMA(WindowsMediaAudio)是WindowsMedia格式中的一个子集(音频格式)。

特点:压缩到MP3一半2.1数字音频基础2-28

5.MIDI和RMI文件

MIDI(乐器数字接口)是由一组声音或乐器符号的集合。

特点:数据量很小,缺乏重现自然音

6.VOC文件

VOC多用于保存声卡所采集的声音数据。

特点:由文件头块和音频数据块组成2.1数字音频基础2-292.2数字音频压缩标准2.2.1、音频压缩方法概述编码器传输/存储解码器输入音频信号输出音频信号压缩编码技术是指用某种方法使数字化信息的编码率降低的技术2.2.1数字化声音的压缩1.声音信号压缩编码的依据:声音信号可以压缩编码的主要原因如下:(1)声音信号中存在着很大的冗余度,通过识别和去除这些冗余度,便能达到压缩的目的。(2)音频信息的最终接收者是人,而人耳在听觉方面有一个重要的特点,即听觉的“掩蔽”。它是指一个强音能抑制一个同时存在的弱音的听觉现象。利用该特性,可以抑制与信号同时存在的量化噪声。2.2.1数字化声音的压缩2.无损压缩和有损压缩

(1)无损压缩:压缩后的信息没有损失的压缩方法。该方法可以把数据压缩到原来的1/2或者1/4,即压缩比为2:1或者4:1。其基本方法就是将相同的或者类似的数据进行归类,使用较少的数据量来描述原始数据,达到减少数据量的目的。

(2)有损压缩:压缩后信息有损失的压缩。这种压缩方法在压缩的过程中丢掉一些对原始数据不会产生误解的信息,有针对地化简一些不重要的信息,从而达到数据压缩的目的,大大提高了压缩比。2-32音频信号压缩编码的分类:①无损压缩(熵编码)霍夫曼编码、算术编码、行程编码

②有损压缩波形编码--PCM、DPCM、ADPCM

子带编码、向量量化参数编码--LPC混合编码--MPLPC、CELP2.2数字音频压缩标准2.2.1数字化声音的压缩

3.音频信号的三种编码方式

(1)波形编码。波形编码的编码信息是声音的波形。这种方法要求重构的声音信号的各个样本尽可能地接近于原始声音的采样值,使复原的声音质量较高。

(2)参数编码。参数编码是一种对语音参数进行分析合成的方法。语音的基本参数是基音频率(基频)或基音周期、共振峰、语音谱、音强等,如能得到这些语音的基本参数,就可以不对语音的波形进行编码,而只要记录和传输这些参数就能实现声音数据的压缩。

(3)混合编码。混合编码方法是一种在保留参数编码技术的基础上,引用波形编码准则去优化激励源信号的方案。

2-342.2数字音频压缩标准2.2.2音频压缩技术标准分类标准说明电话语音质量G.711采样8kHz,量化8bit,码率64kbpsG.721采用ADPCM编码,码率32kbpsG.723采用ADPCM有损压缩,码率24kbpsG.728采用LD-CELP压缩技术,码率16kbps调幅广播质量G.722采样16kHz,量化14bit,码率224(64)kbps高保真立体声MPEG音频采样44.1kHz,量化16bit,码率705kbps(MPEG三个压缩层次,384-64kbps)2-352.2数字音频压缩标准2.2.3、音频压缩工具

MP3压缩工具(MP3Resizer)2-362.3声卡与电声设备一、声卡(声音卡、音频卡)1.声卡的主要功能声卡是负责录音、播音和声音合成的一种多媒体板卡。其功能包括:录制、编辑和回放数字音频文件控制和混合各声源的音量记录和回放时进行压缩和解压缩语音合成技术(朗读文本)具有MIDI接口(乐器数字接口)声卡的工作原理工作原理:声卡的工作原理其实很简单,我们知道,麦克风和喇叭所用的都是模拟信号,而电脑所能处理的都是数字信号,两者不能混用,声卡的作用就是实现两者的转换。从结构上分,声卡可分为模数转换电路和数模转换电路两部分,模数转换电路负责将麦克风等声音输入设备采到的模拟声音信号转换为电脑能处理的数字信号;而数模转换电路负责将电脑使用的数字声音信号转换为喇叭等设备能使用的模拟信号。2-392.声卡的组成原理线性输出总线接口芯片数字音频处理芯片音乐合成器A/D和D/AMIDI接口混音器CD接口计算机总线话筒输入线性输入扬声器输出A/D数据处理D/A声波喇叭2.3声卡与音箱2-403.声卡的性能指标

⑴采样和量化能力

衡量音响器材音质好坏。

采样频率:11.025kHz(语音效果)22.05kHz(音乐效果)44.1kHz(高保真效果)

量化等级:8位/256级(语音质量)16位/65536级(高保真质量)2.3声卡与音箱2-41

⑵芯片类型

CODEC芯片(依赖CPU,价格便宜)数字信号处理器DSP(不依赖CPU)

⑶总线类型

ISA总线、PCI总线、USB接口

⑷输出声道数2声道(立体声)、2.1/4.1/5.1声道多通道声卡(营造杜比环绕立体声)2.3声卡与音箱2-424.声卡的外部接口2.3声卡与音箱2-432.3声卡与音箱线路输入接口LineIn用来连接外部音频设备以便进行录音,如录音机、CD唱机和音响等话筒输入接口MicIn用来连接话筒,直接输入现场的声音信号线路输出接口LineOut用来连接外部音频设备的输入口,也可连接大功率有源音响等扬声器输入接口/SpkOut用来连接扬声器,从声卡的内置功率放大器向扬声器输出声音游戏杆MIDI接口用来连接游戏杆或MIDI设备。CD音频连接器用来连接CD-ROM驱动器,可以直接播放CD音乐,而不占用CPU时间2-44二、传声器

1.传声器传声器是一种声信号转换成相应电信号的能量转换器,俗称话筒或麦克风。

传声器历史:电话、液体话筒、碳粒话筒、电感式、电容式。2.3声卡与音箱2-45

2.音箱的分类

换能原理:液体话筒、碳粒话筒、电感式、电容式声学原理:压强式、压差式和复合式指向性原理:全指向型、单向型、双向型……用途:会议传声器、演唱传声器、录音传声器、测量传声器2.3声卡与音箱2-46

3.传声器的工作原理电动式:动圈式、带式,结构简单,使用方便。电容式:灵敏度高、动态范围大。驻极体式:结构简单、体积小、耐振动,价格较低。无线:体积小、重量轻、性能好。2.3声卡与音箱2-473.扬声器的性能指标灵敏度:声电转换效率.频率响应:输出电平与频率的关系。指向性:指声波入射方向的不同相应灵敏度的变化特性。输出阻抗:指传声器的两根输出线之间在1kHz时的阻抗。动态阀:指谐波失真条件下(0.5%),所承受的最大声压级与绝对安静条件下传声器的等效噪声级之差。2.3声卡与音箱2-48三、扬声器

1.扬声器的工作原理最常见的电动式锥形纸盆扬声器。磁路系统:永磁铁、导磁板和圆铁心柱。震动系统:锥形纸盆和音圈。辅助系统:音圈纸架、纸盆铁架和防尘盖等。2.3声卡与音箱2-49

2.扬声器的分类工作原理:电动式、电磁式、静电式和压电式。放声频率:低音扬声器、中音扬声器、高音扬声器、全频带扬声器、3.扬声器的性能指标:输出功率、频率范围、信噪比、谐波失真、灵敏度和额定阻抗等。2.3声卡与音箱2-50四、音箱

1.音箱的工作原理

音箱是一种电声转换的发音设备。

发音过程:声卡输出模拟信号→功率放大器→电流经音箱中金属线圈产生磁场→与永久磁铁相互作用产生吸

引和排斥→带动线圈和簿

膜振动→声波。2.3声卡与音箱2-51

2.音箱的分类

功放:有源音箱、无源音箱

声道:2.0→双声道立体声2.1→双声道+超重低音声道4.1/5.1/7.15.1→五声道+超重低音声道2.3声卡与音箱2-52

3.音箱的性能指标输出功率:额定功能、最大峰值功率。

频率范围:指音箱最低有效回放频率和最高有效回放频率之间的范围。

信噪比:指音箱回放的有效信号与噪声信号的比值。信噪比较低时,噪声严重。信噪比=70-80dB→普通音箱信噪比=80-90dB→高档音箱信噪比>95dB→专业音箱2.3声卡与音箱2-53

3.音箱的性能指标失真度:谐波失真、互调失真、瞬态失真。

灵敏度:指全功率输出时的输入信号。

阻抗:指扬声器输入信号的电压与电流的比值。灵敏度=84dB以下→低灵敏度灵敏度=87dB→中灵敏度灵敏度=90dB以上→高灵敏度2.3声卡与音箱2-54杜比环绕立体声技术2.3声卡与音箱2-552.4MIDI与音乐合成一、MIDI技术概述1.什么是MIDIMIDI(MusicalInstrumentDigitalInterface,乐器数字

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论