多媒体技术(初级)第二章上-国家人才网_第1页
多媒体技术(初级)第二章上-国家人才网_第2页
多媒体技术(初级)第二章上-国家人才网_第3页
多媒体技术(初级)第二章上-国家人才网_第4页
多媒体技术(初级)第二章上-国家人才网_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、PAGE PAGE 18第二章 多媒体音频处理技术本章主要学习:了解声音的基本概念及其属性特征、声音的数字化原理、常见的音频文件及其特点,等等。需要掌握的内容: Cool Edit Pro2.0声音编辑软件的使用方法。第一节 数字音频基础一、声音的基本概念 声音是因为物体的振动而产生的。机械振动或气流扰动引起周围弹性媒介发生波动,产生声波。产生声波的物体称为声源,如乐器、音箱等。声波所及的空间范围称为声场。声波传入到人耳,经过人类听觉系统的感知就是声音。声音主要具有以下3种属性。 1音调 音频信号可分为语音信号和非语音信号两类。语音信号包含清楚、丰富的意义和内涵,是人类进行信息交流特有的形式;

2、非语音信号主要包括音乐和自然界存在的其他声音,非语音信号的特点是不具有复杂的语义和语法信息,识别较简单。 2音色 音色,即声音的特色。声音分纯音和复音两种类型,纯音是指振幅和周期均固定的声音;复音则是指具有不同频率和不同振幅的声音混合。大自然中存在的声音绝大部分是复音。在复音中,最低频率的声音是“基音”,它是声音的基调,其他频率的声音称为“谐音”,也叫泛音。基音和谐音是构成复音音色的重要因素。各种声源都具有自己独特的音色,例如各种乐器的声音、人的话语、动物的叫声等,人们绝大部分情况下是依据音色来辨别声源种类的。 3音强 音强是声音的强度,也称为声音的响度,即常说的“音量”。音强与声波的振幅成正

3、比,振幅越大,强度越大。磁带、CD光盘等声音载体中的声音强度是一定的,但是可以通过播放设备的音量控制来改变聆听时的响度。由于物体在振动的时候并不总是规则的,所以声音又有“乐音”和“噪音”之分。规则振动发出的是乐音,反之则称为噪音。二、声音的质量 有3种常用方法可以衡量声音的质量:一是用声音信号的带宽来度量,二是客观度量,三是主观度量。评价语音质量时,经常采取复合法评估,即采取两种以上的方法综合评估。 1带宽度量图1显示了几种常见的声音带宽,带宽越大,声音的质量越好。其质量等级由高到低依次是CD、FM、AM和电话。图1 几种觉的声音带宽对比 2客观度量 声音客观质量的度量主要用信噪比(Signa

4、l to Noise Ratio,SNR)来度量。信噪比是指声源产生最大不失真声音信号强度与同时发出噪音强度的比率,通常以SN表示,以分贝(dB)为单位,信噪比越高,表示声音的质量越好。 3主观度量 与客观度量相比较,应该说人的感觉更具有决定意义。感觉上的、主观上的印象应该成为评价声音质量不可缺少的部分。有的学者认为,在语音信号编码中使用主观度量比使用客观度量更加直接和恰当,更有意义。三、数字音频压缩标准(1)音频压缩方法概述在多媒体音频处理中,一般需要对数字化后的音频信号进行压缩编码,使其成为具有一定字长的二进制数字序列,并以这种形式在计算机内传输和存储,最后由解码器将二进制编码恢复成原来的

5、音频信号播放,如图2所示。图2 音频压缩处理流程 所谓压缩编码技术,就是指用某种方法使数字化信息的编码率降低的技术。音频信号能进行压缩编码的基本依据有两个:一是声音信号中存在很大的冗余度,通过识别和去除这些冗余度,便能达到压缩编码率的目的;二是人的听觉具有一个强音能抑制一个同时存在的弱音的现象,这样就可以抑制与信号同时存在的量化噪声。另外,人耳对低频端比较敏感,而对高频端不太敏感,由此引出了“子带编码技术”。 一般来说,音频信号的压缩编码主要分为无损压缩编码和有损压缩编码两大类,无损压缩编码包括不引入任何数据失真的各种熵编码;有损压缩编码又分为波形编码、参数编码和混合编码。 1熵编码 这是以信

6、息论变长编码定理为理论基础的编码方法,如霍夫曼编码、算术编码和行程编码等。 2波形编码 波形编码是利用采样和量化过程来表示音频信号的波形,使编码后的音频信号与原始信号的波形尽可能匹配。它主要根据人耳的听觉特性进行量化,以达到压缩数据的目的。波形编码的特点是适应性强,音频质量好,在较高码率的条件下可以获得高质量的音频信号,适合于高质量的音频信号,也适合于高保真语音和音乐信号。由于易受量化噪声影响,进一步降低编码率较困难。 波形编码方法有全频带编码(脉冲编码调制(PCM)、差分脉冲编码调制(DPCM)、自适应差分脉冲编码调制(ADPCM)、子带编码(自适应变换编码(ATC)、心理学模型)和矢量量化

7、编码等。 3参数编码 参数编码是将音频信号以某种模型来表示,利用特征提取的方法抽取必要的模型参数和激励信号的信息,并对这些信息编码,最后在输出端合成原始信号。其目的是重建音频,保持原始音频的特性。参数编码的压缩率很大,但计算量大,保真度不高,适合于语音信号的编码。 参数编码方法有线性预测(LPC)声码器、通道声码器、共振峰声码器等。 4混合编码 混合编码是在参数编码方法的基础上,引用波形编码准则优化激励源信号的一种方案,可以在较低的码率上得到较高的音质。 混合编码方法有多脉冲线性预测编码(MPLPC)、码本激励线性预测编码(CELP)、短延时码本激励线性预测编码(TDCELP)、长延时线性预测

8、规则码激励(RPELTP)等。(2)音频压缩技术标准 1电话质量的音频压缩标准电话质量语音信号的频率范围是2003400Hz,采用标准的脉冲编码调制(PCM),当采样频率为8kHz、量化位数为8位时,对应的数据速率为64kbs。为了压缩音频数据,国际上从CCITT最初的G711标准开始,已制定了一系列的语音压缩编码的标准。表1所列是ITU建议的用于电话质量的语音压缩标准。表1 ITU建议的用于电话质量的语音压缩标准 随着数字移动通信的发展,人们对于低速语音编码有了更迫切的要求。1989年美国公布的数字移动通信标准CTIA,采用矢量和激励线性预测技术(VSELP),速率为8kb/s。为了适应保密

9、通信的要求,美国国家安全局NSA分别于1982年和1989年制定了基于LPC、速率为2.4kb/s和基于CELP、速率为4.8kb/s的编码方案。2调幅广播质量的音频压缩标准调幅广播质量音频信号的频率范围是507 000Hz,当使用16kHz的采样频率和14位的量化位数时,信号速率为224kbs。1988年,ITU制定了G722标准,它可把信号速率压缩成64kbs。G.722标准采用基于子带的ADPCM技术,将现有的带宽分成两个独立的子带信道,使输入信号进入滤波器组分成高子信号和低子信号,然后分别进行ADPCM编码,最后进入混合器形成输出码流。利用G.722标准,可以在窄带ISDN的一个B信道

10、上传输调幅广播质量的音频信号。由于这种压缩方法能够在8kb/s的存储量下给出相当好的音乐信号,因此也适合于需要存储大量高质量音频信号的多媒体系统使用。 3高保真立体声音频压缩标准 高保真立体声音频信号的频率范围是5020000Hz,在441kHz采样频率下用16位量化,信号速率为每声道705khs。目前,世界上第一个高保真立体声音频压缩标准为MPEG音频压缩算法,虽然MPEG音频标准是MPEG标准的一部分,但它也完全可以独立使用。MPEG音频标准提供了3个独立的压缩层次,用户对层次的选择可在复杂性和声音质量之间进行权衡第一层的编码器最为简单,编码器的输出数据率为384kb/s,主要用于小型数字

11、合式磁带(Digital Compact Cassette,DCC);第二层的编码器的复杂程度属于中等,编码器的输出数据率为192256kb/s,其应用包括数字广播音频、数字音乐、CD-I和VCD等;第三层的编码器最为复杂,编码器的输出数据率为64kb/s,主要应用于ISDN上的声音传输。(3)音频压缩工具 MP3、WMA、RA格式都是比较流行的音频压缩文件格式,而Yamaha公司曾推出一款音频压缩文件格式VQF。无论在音频压缩率还是音质上,VQF比起MP3都有很大的优势,但由于推广不得力,加之MP3早已深入人心,VQF格式的音乐文件在Internet上已经逐渐销声匿迹了。下面介绍豪杰公司出品

12、的MP3压缩工具,即豪杰超级解霸3000中的一个实用工具MP3格式转换器。运行MP3格式转换器,出现的界面如图3所示。图3 MP3格式转换器单击【设置】按钮,在弹出的【MP3设置】对话框中可以对压缩层次、位率、频率和输出路径等进行调节。通过【添加目录】、【添加文件】、【删除所选】等操作,可以把需要压缩的各种音频文件(wav、mid、mpg、dat、ra和rm等)添加到左侧的列表框中,右边列表框自动出现相应的MP3文件。单击【开始压缩】按钮,则压缩进度栏会显示当前的进程。压缩完毕后,所压缩的文件即可保存到设置的目录中。总之,MP3压缩工具能方便地将各种音频格式文件转换成MP3文件,也能转换成波形

13、文件。第二节 音频处理软件一、音频处理软件Cool Edit概述(1)Cool Edit Pro 2O简介 Cool Edit Pro 20是一个音频编辑兼多轨音频混音软件,由美国Syntrillium软件公司开发,Cool Edit是一个非常出色的数字音乐编辑器和MP3制作软件,可同时处理多达128个音频文件,轻松地在多个音频文件中进行剪切、粘贴、合并、重叠等操作;它还提供多种特效,对音频进行放大、降低噪音、压缩、扩展、回声、失真、延迟等处理;并可以模拟生成噪音、低音、静音、电话信号等。该软件包含有CD播放器,还包括支持可选的插件、崩溃恢复、自动静音检测和删除、自动节拍查找、录制等功能。另外

14、,它还可以在AIF、AU、MP3、Raw PCM、SAM、VOC、VOX、WAV等文件格式之间进行转换,并且能够保存为RealAudio格式。 Cool Edit的主要特性:128轨增强的音频编辑能力,超过40种音频效果器,mastering和音频分析工具,以及音频降噪、修复工具、音乐CD烧录、实时效果器和EQ32-bit处理精度,支持最高达32bit192kHz精度的编辑、混音,支持视频,多轨状态下支持MIDI输入。(2)Cool Edit 20的基本操作 Cool Edit 20的操作界面如图4所示。其常用菜单命令简介如下。 1File(文件) 此菜单中包含了常用的新建、打开、关闭、保存、

15、另存为等命令。其中需要注意的几个命令是:Close 关闭当前波形文件;Close All(Waves and Session) 关闭所有的波形文件和任务,包括驻留在内存中的未关闭波形文件;Close Only Non-Session Wavefrom关闭当前未使用波形文件,打开的波形多了,可以用这个命令来释放一部分内存;Save Selection 保存任务,如果任务中有未保存的波形也一起保存,但会提示;Free Up Space in Temp Files 删除临时文件,释放部分硬盘空间。图4 Cool Edit2.0的操作界面 2Edit(编辑) 此菜单中包含了常用的拷贝、剪切、粘贴、调整

16、采样速率、转换采样格式等命令,在多轨状态下,还有缩混命令。其中需要注意区分的几个命令是:Zero Crossings 零点穿越,使选中区域的开始和结尾调整到最近的零点位置,方便音轨的对齐、剪切、拼贴等操作;Adjust Sample Rate 调整采样率,这个操作不能改变波形的采样率,而是调节声卡播放该波形时用的采样率;Convert Sample Type 转换采样格式,这个操作可以改变当前波形的采样率,文件大小也会改变。 3View(视图) 此菜单中包含了一些常用视图的选择设置。其中需要注意的几个命令是:Muititrack View 选中则就切换到多轨编辑状态;Waveform View

17、 波形显示;Spectral View 频谱显示;Show Level Meters 显示电平;Status Bars 显示状态条。 4Effect(效果) 此菜单包含了在编辑音频时用的一些功能,如反相、静音、放大、延时、混响、均衡、降噪、失真、变调以及调用Directx的插件。其中需要注意的几个命令是:Reverse 将波形反相,可以制造一些奇妙的音效;Delay Effects 延迟,包括有合唱、延迟、动态、回声、镶边等几个效果器;DirectX 打开DirectX的效果器插件,它支持绝大多数的插件,每次安装新的插件后,要使用refresh this list这个命令,新的插件就可以显示出

18、来了;Filters 滤波器,包括FFT滤波器、图形均衡器、带阻尼滤波器、参量均衡器、快速滤波器等,可用于调整音频的均衡;Noise Reduction 降噪;PanExpand 相位调节和声场扩张;Special 特殊处理;TimePitch 变速变调处理。(3)声音素材数字化与后期处理 在处理音频数据时,经常要用到波形文件,所谓波形文件,就是基于Windows系统所使用的标准数字音频文件,它记录了对实际声音进行采集的数据,支持各种不同音质的单声道或立体声数字声音,文件的扩展名为WAV。 声音素材数字化也就是声音素材电脑采集的过程,原理其实很简单,就是将麦克风、CD、VCD、DVD或其他外部

19、音源输出的模拟音频电流,通过声卡的采样转换成数字序列,然后再使用WAV音频文件格式,将其保存到计算机上。以后我们就可以随时将这些数字声音文件进行编辑或调用到其他应用程序中使用。 数字化声音素材的质量与大小取决于数字化时的采样频率和采样位深度,声音采样频率和采样位深度越高,音质就越好,但声音素材的数据量也越大。通常,CD唱片的音质是指以441kHz的采样频率及16位采样位深度采集的声音文件。 1音频文件的采集与格式转换 在采集前,要将硬件设备进行连接,利用音频线将外部音源(CD、VCD、DVD)的音频输出口(Audio Out)和声卡的线路输入口(Line ln)相连接。如果你需要采集语音,将麦

20、克风插入声卡的麦克风输入孔(Mic In)。 Windows附带的录音机只能采集1min的音频文件,而使用cool Edit软件,可无时间限制地采集音频文件(只要你的硬盘够大),还提供出色的音频编辑功能。 连接了硬件设备和安装了Cool Edit软件,还要进行音量属性设置,不同的声卡其设置可能有所不同。双击windows任务栏的【音量】图标,打开“音量”窗口,执行【选项】【属性】菜单命令,弹出“属性”对话框,如图5所示。在“调整音量”选项中选择【录音】,在“显示下列音量控制”栏中出现多个音量控制选项,在这些选项中选择【线路输入】和【麦克风】,按【确定】按钮退出窗口,出现“主音量”窗口,如图6所

21、示。图5 主音量“属性”对话框 图6 “主音量”窗口在“主音量”窗口,可以通过勾选音量调节按钮下的“选择”项选择要使用的输入方式,即选择“外部音源采集”以进行线路输入,选择“话筒采集”将采用麦克风输入;然后再通过勾选主音量窗口中的有关选项,将栏中声道的音量比例调到合适的位置,关闭窗口,结束录音属性设置。 (1)外部音源的采集 打开Cool Edit程序。执行【File】【New】菜单命令或点取工具条上的Creaet a new Wave(建立一个新波形文件)按钮,将打开一个Newr Waveform(新波形格式)对话框,如图7所示。图7 New Waveform对话框按默认,Sample Ra

22、te(采样频率)为441kHz,Channels(声道)为Stereo(立体声),Resolution(采样深度)为16bit选取,单击【OK】按钮,建立一个空白的波形文件。 单击Cool Edit窗口下面的【Record】(记录)按钮,然后播放外部音源,即开始采集声音文件,单击【Stop】按钮,即可停止采集。 声音录制好后,执行【File】(文件)【SaveAs】菜单命令,打开Save Waveform As对话框,输入文件名然后,单击【保存】按钮,保存采集的声音文件。(2)声音素材CD的抓取 在Cool Edit操作界面下,执行【File】【Opert】菜单命令,将弹出Open a Waveform(打开波形格式)对话框,如图8所示,选择打开后缀名为“cda的CD音频文件格式。就可以直接把CD中的音乐文件打开了,并且可以一次选取打开多个文件,然后可以通过save as(另存为),把它作为wav或者MP3等文件格式保存到硬盘上。图8 Open a Waveform(打开波形格式)对话框 (3)音频文件的批处理格式转换 批处理压缩和格式转换功能,能批量地把CD光盘的磁道文件或wav文件压缩成MP3文件格式,不需一个一个文件的压缩转换,而可以把任务批处理化,极大地提高了转换效率。 下面以批量压缩CD上的*cda歌曲文件成MP3文件为例来说明:在Cool Edit操作界面下

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论