第3讲音频信号的获取与处理

上传人：2*** IP属地：湖北上传时间：2023-02-05 格式：PPTX 页数：61 大小：2.18MB 积分：30 举报 版权申诉

已阅读5页，还剩56页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第3讲音频信号的获取与处理3.1

音频基础知识3.2

音频处理软件Audition的使用3.1

音频基础知识最初的音频是用电信号记录下来进行存储和传输的，在时间上和幅度上都是连续变化的，称之为模拟音频，而计算机只能处理离散的数字信号，因此需对模拟音频进行数字化处理，即将它转变为由0和1表示的在时间和幅度上都是离散的是数字音频。

3.1.1声音信号的基本概念3.1.2声音信号的数字化3.1.3数字音频的获取方式3.1.4数字音频的文件格式3.1.1声音信号的基本概念

声音是通过一定介质（如空气、水等）传播的一种连续的波，声音的主要传播介质是空气，因此，声音的本质是空气振动，由于空气振动引起耳膜的振动，然后被人耳所感知。声音既然是波，它就具有普通波特性：反射、折射、衍射，但这不是多媒体技术要研究的内容，我们需要关注它的两个基本参数：频率和振幅。频率：声波每秒钟变化的次数，它代表声音变化的快慢，决定了声音音调的高低，单位是Hz。振幅：声波振动幅度的大小，它代表了声音能量的强弱，决定了声音音量的大小。

声音的本质是空气振动，但并不是所有的空气振动都能被人耳所感知。人耳所能感觉到空气振动的频率范围大约为20Hz～20kHz（注意，大于20KHz的声音并非感知不到，而是我们不能从中获得有用的信息并且它对人体是有害的）。因此，多媒体技术中所研究的音频（Audio）信号是指频率范围在20Hz～20kHz之间的声波，即人耳能识别的声音。根据声音能否被人耳接收与声音是否是人类所发出的声音，一般将声音信号进行如下划分：声音信号的分类如图3-1所示，根据声音信号的带宽，我们可以将声音信号划分为次声波、音频信号和超声波三个波段，而音频信号又可分为语音（Speech）信号和非语音（Sound）信号两类，其中语音信号特指人类发声器官所发出的声音，其频率约为200-3400Hz。语音信号与非语间信号语音信号特指人的发声器官所发出的声音信号，人的发音器官发出的声音的频率范围大约在80～3400Hz之间，而人说话的信号频率通常在300～3000Hz之间。语言是人类社会的一种特有的信息系统，是社会交际工具的符号，而语音是语言的物质外壳（载体）。语音识别是多媒体技术的一个重要的研究方向，即希望计算机能自由地“听懂”人类的语言。非语音是指语音信号范围外的人耳所能识别的音频信号，主要包括乐音和杂音，非语音信号的特点是不具有复杂的语义和语法信息，信息量比较低，因此识别简单。声音的三要素

声音具有音调、音强和音色3个要素。

（1）音调：由声音信号的频率变化所决定，人对声音频率的感觉表现为音调的高低，在音乐中称为音高。

（2）音强：由声音信号的幅度大小所决定，人对声音振幅的感觉表现为声音有强弱，也就是我们平时常说的音量大小，音量以分贝(dB)为单位。人对声音强弱的听觉响应与声音振幅成对数关系1dB=20log(幅值)。人类能感知的声音的幅度范围在0～120(dB)之间。

（3）音色：由声音的频谱（基音与泛音之间的关系）决定。声波的各阶谐波的比例不同，随着时间衰减的程度不同，音色随之变动。3.1.2声音信号的数字化声音是机械振动，振动越强，声音越大。声波本身难以进行远距离传送，而且也不能存储。为了将声音进行存储和传输，通常是将声音信号转换为电信号，用电压或电流的幅度表示声音强弱。这样声音信号表现为在时间和幅度上都是连续的电信号，如图3-2所示，这样表示的音频信号即模拟音频。模拟音频是连续的，然而计算机只能处理以0和1的形式表示的离散的信号量。在计算机内，所有的信息均以数字表示。各种命令是不同的数字，各种幅度的物理量也是不同的数字。要想在计算机中对音频信号进行存储、传输、播放、处理，就必须进行音频的模/数转换，即把模拟音频信号数字化，形成数字音频，最后通过编码以文件的形式存储于计算机中。数字化将连续的模拟音频信号转换为离散的数字音频信号，通常采用的方法是每隔固定时间间隔对模拟音频信号测定一个幅值（采样），并用给定位数的二进制数表示这个幅值（量化）。（1）采样（Sampling）：在某些特定的时刻对模拟信号进行测量叫做采样，由这些特定时刻采样得到的信号称为离散时间信号，采样的作用是把连续的时间信号变为离散的时间信号。（2）量化（Quantization）：经过采样获得的离散时间信号的幅度值依然是连续的，因此需要对这些幅度值进行量化。把幅度区间划分成n个区间，一个区间对应于一个幅度值，对于所有落入第i个区间的任何幅度值，都用同一个幅度值来表示。这个过程称为量化。采样频率与量化精度音频经过数字化采样和量化得到的时间和幅度都离散的数字信号就称为数字音频信号。由上论述可知，声音数字化也即对连续的模拟声音信号进行离散化，这种离散要进行两方面的离散，即时间的离散和强度的离散。连续时间的离散化通过采样来实现；连续强度的离散通过量化来实现。此时就需要考虑两个问题：一是在哪些时刻对声音进行采样，即每秒钟需要采集多少个声音样本，也就是采样频率是多少；二是每个样本用多少个二进制位来存储，即每个声音样本的位数应该是多少，也就是量化精度。采样频率采样频率一般是由奈奎斯特采样定理决定。奈奎斯特采样理论（Nyquisttheory）指出，采样频率不应低于声音信号最高频率的两倍，这样才能把以数字表达的声音还原成原来的声音。奈奎斯特理论采样定理用公式表示为 fs≥2f或者Ts≤T/2 其中fs为采样频率，Ts为采样周期，f为被采样信号的最高频率，T为被采样信号的最小周期。采样频率的高低是根据奈奎斯特理论和声音信号本身的最高频率决定的。例如，电话话音的信号最高频率约为3.4kHz，采样频率通常选为8kHz。量化精度量化样本的位数由计算机的性能和对声音质量的要求决定，一般有8位量化、16位量化和32位量化，即分别用一个字节、两个字节和四个字节存放一个采样点的幅度值。量化位数越高，需要的存储空间越大，但此时声音细节的丢失比较少，声音的质量较好。编码做完采样和量化以后还需对它们（数字信号）进行编码从而以文件的形式存储于计算机中。编码的作用有两个：一是采用一定的格式来记录数字数据；二是采用一定的算法来压缩数字数据以减少存储空间和提高传输效率。一种最方便、最简单的编码方法是脉冲编码调制，简称PCM编码；这是一种最通用的无压缩编码，其特点是保真度高，解码速度快，但编码后的数据量大。衡量一种编码方法的性能有两个主要指标：●码流速率：音频信号数字化编码后每秒钟产生的数据流量(kbps)●量化噪声：由量化失真引起的噪声，表示为量化后音频信号噪声比数据率定义为每秒比特数(bps)，与信息在计算机中的实时传输有直接关系；数据量定义为每秒字节数(B/s)，与计算机的存储空间有直接关系。未经压缩数字音频数据量(B/s)＝采样频率(Hz)×(量化位数(bit)/8)×声道数数据量与声音质量3.1.3数字音频的获取方式在多媒体应用软件中，经常要使用音频素材。数字音频的获取主要有以下几种方式：（1）使用声卡采集模拟设备上的声音信息，并以文件的形式存储在计算机中。（2）使用声卡录制声音信息，并以文件的形式存储在计算机中。（3）使用声卡及MIDI设备在计算机上创作乐曲。（4）从互联网下载或购买音频光盘。（5）从CD或VCD上截取音频数据。（6）从视频上获取音频数据。3.1.4数字音频的文件格式数字音频数据在计算机中以文件的形式出现。流行的声音文件格式很多，以WAV、MP3、MIDI为扩展名的文件格式比较常见。

1．WAV格式音频文件2．VOC格式音频文件3．MP3格式音频文件4．RA格式音频文件5．MIDI格式音频文件6．WMA格式音频文件1．WAV格式音频文件 WAV格式音频文件是最早出现的数字音频格式，也叫波形声音文件，由Microsoft公司和IBM公司共同开发。它记录了对实际声音采样的数据，被Windows平台及其应用程序广泛支持。WAV格式支持多种音频量化位数、采样频率和声道。采用44.1kHz的采样频率、16位量化位数的WAV文件的音质与CD相差无几。 WAV文件数据的缺点是数据量大，优点是音质较好，而且它还是一种标准数字音频，大多数压缩格式的声音都是在它的基础上经过数据的重新编码来实现的，这些压缩格式的声音信号在压缩前和回放时都要使用WAV格式。2．VOC格式音频文件 VOC格式音频文件是CreativeLab公司开发的声音文件，也是声霸卡使用的音频文件格式，被Windows平台支持。每个VOC文件由文件头块和音频数据块组成。文件头包含一个标识、版本号和一个指向数据块起始的指针。数据块分成各种类型的子块，如声音数据、静音、标记、ASCII文件以及终止标志、扩展块等。3．MP3格式音频文件 MP3的全称是MPEG-1AudioLayer3，是近年来颇为流行的音乐文件，它在1992年被合并至MPEG规范中。MP3文件的音质较好，并且文件的数据量较小。4．RA格式音频文件 RA文件是RealNetwork公司开发的一种流式音频文件，主要应用于网络上进行音频传输，网络连接连率不同，客户端所获得的声音质量也不尽相同。对于传输速率为14.4kbit/s的网络连接可获得调幅（AM）质量的音质；对于传输速率为28.8kbit/s的网络连接，可以达到广播级的声音质量；如果拥有更快的线路连接，则可获得CD音质的声音。5．MIDI格式音频文件 MIDI是MusicalInstrumentDigitalInterface的缩写，又称做乐器数字接口，是数字音乐/电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器及其他电子设备交换音乐信号的方式，规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传输的协议，可以模拟多种乐器的声音MIDI文件就是MIDI格式的文件，在MIDI文件中存储的是一些指令，声卡接收到这些指令后就按照指令将声音合成出来。6．WMA格式音频文件 WMA文件是Microsoft公司开发的一种音频压缩格式，存储容量比MP3小，但音质稍差。

在多媒体的制作领域，音频是不可或缺的部分。音频的处理通常包含声音的编辑、特殊效果的添加及文件格式转换等操作。常见的音频处理软件有Windows操作系统中的SoundRecorder（通常被称做录音机）、SoundBlaster系列音频卡所附带的WaveStudio以及一些专门的多媒体音频处理软件，如GoldWave、Audition等。本节以Audition为例，介绍声音录制和编辑的基本技能以及一些特殊处理方法。3.2

音频编辑软件Audition的使用3.2.1Audition介绍3.2.2Audition基本操作

3.2.3Audition音频处理综合实例3.2.1Audition介绍 Audition的主要功能有录制和采集音频文件；对音频文件进行剪切、粘贴、合并、重叠声音等操作；提供多种特效（如放大、降低噪音、扩展、回声、延迟、失真、调整音调等）；可以生成噪音、低音、静音、电话信号等声音；可以实现自动静音检测和删除、自动节拍查找等功能；可以在多种音频文件格式之间进行转换。1．Audition界面2．Audition功能菜单1．Audition界面 Audition有两种编辑状态，即波形编辑状态和多音轨编辑状态，如后图所示，这两种状态可以通过快捷键【F12】或默认工具栏的第一个按钮进行切换。波形编辑状态主要用来对音频进行编辑，多音轨编辑状态主要用来进行音频合成。

Audition波形编辑状态从上到下共分为标题栏、菜单栏、工具栏、资源管理区、波形显示区、操作区、状态栏显示区六个部分，如图中所示。2．Audition功能菜单

Audition2.1在波形编辑窗口界面共有10个一级菜单，包括File（文件）、Edit（编辑）、View（查看）、Effects（效果）、Generate（生成）、Analyze（分析）、Favorites（偏好）、Options（选项）、Window（窗口）、Help（帮助）和30多个快捷工具，下面进行简单介绍。

（1）File（文件）

（2）Edit（编辑）

（3）View（查看）

（4）Effects（效果）

（5）Generate（生成）

（6）Analyze（分析）

（7）Favorites（偏好）（1）File（文件）

此菜单主要为对音频文件的一些操作，如新建、打开、关闭、存储等，同时包括如下一些专为音频文件设计的操作。● OpenAppend（追加）：将一个音频文件连接在一个已打开的文件的尾部。● ExtractAudiofromVideo（从视频提取声音）：可以从视频文件中把声音提取出来，主要是针对*.avi、*.mpg等格式的视频文件。● SaveSelection（保存选取区域）：允许将当前选中的部分波形文件单独保存下来。● FreeHardDriveSpace（清理硬盘空间）：Audition进行音频编辑时，会随时产生一些临时文件并存储在指定的临时文件夹中，在硬盘中占了很大空间，使用该命令可以清空这些临时文件。（2）Edit（编辑）

此菜单包含了一些常用的剪贴板操作，如复制、粘贴、删除等。其中属于音频文件的特有操作如下。● MixPaste（混合粘贴）：将剪贴板中的波形内容混合到当前波形文件中。● InsertinMultitrack（插入多轨工程）：将当前文件或当前文件被选中部分在多轨窗口中插入一个新轨，要事先在多轨模式下选择好轨道和音频块的开始位置，用鼠标单击即可。● DeleteSilence（删除静音）：删除波形文件中分贝极小的信号，可以使当前文件变短。●ZeroCrossings（零点定位）：将选中区域的开头和结尾自动调节在无声的状态。●FindBeats（确定节拍）：自动查找音乐中一个完整的拍子的起止点。●AdjustSampleRate（调整采样率）：改变声卡播放当前音频文件时所用的采样频率。●ConvertSampleType（转换音频格式）：改变当前文件的采样频率和量化位数等参数。（3）View（查看）

大多为一些打开/关闭各子窗口以及快捷工具栏命令，其中比较常用的和音频操作相关的子菜单如下。●MulititrackView（多轨窗口切换）：切换到多轨编辑状态。●WaveformView（波形编辑窗口）：显示波形。●SpectralView（频谱编辑窗）：显示频谱。（4）Effects（效果）

它是Audition中的主要功能菜单，可以为音频增加很多特效。●Invert（反相）：将波形的上半周和下半周互换。●Reverse（倒置）：将被选中的波形的开头和结尾反相。●Silence（静音）：将被选中的波形变成零振幅的信号。●Amplitude（波形振幅）：对音频信号振幅的处理，即改变声音信号的音量。该菜单下有8个子菜单，可以通过对声音信号音量的改变获得一些特殊效果。●DelayEffects（延迟效果）：对延迟混响效果的处理，有11个子菜单，可以制作出一些场地声音、合唱效果等。●DirectX：列出支持的Direct的效果器插件。●Filters（滤波器）：可以对音频信号进行各种滤波处理。●Special（特殊处理）：产生一些特殊效果。●NoiseReduction（噪音消除）：消除选中音频的噪音。（5）Generate（生成）

可以生成一些特殊的声音●Silence（静音）：生成静音。●Tone（音调）：根据你的选择，生成一些标准信号音。●Noise（噪波）：生成噪音信号。●DTMFSignals：生成类似电话拨号音的信号。（6）Analyze（分析）

自动对声音信号内部信息进行分析，并给出一些可视化的结果。●ShowFrequencyAnalyze：显示音频信号的频谱分析图像。●ShowPhaseAnalyze：显示音频信号的相位分析图像。●Statistics：显示音频信号波形统计数据。（7）Favorites（偏好）

显示曾经使用过的效果编辑命令。3.2.2Audition的基本操作1．声音的录制2．噪音消除3．音频数据编辑4．音量调节功能5．改变播放速度、改变音调高低6．音效添加1．声音的录制

在一个具有声卡的计算机上，使用Audition可以通过麦克风直接录制外界声音，也可以从录音机、CD唱机等外界媒体设备获得声音。

（1）创建音频文件

（2）设置录音音源

（3）打开监视电平，调试录音音量

（4）开始录音，注意录制一段空白的含噪声的信号

（5）试听，如果效果较差可重新录制。创建音频文件

运行Audition程序，执行【File】→【New】命令，弹出新建音频文件对话框，如图所示。设置录音音源在Windows的【开始】菜单中选择【附件】→【娱乐】→【音量控制】命令，打开如图所示的【音量控制】窗口。在【音量控制】窗口中选择【选项】→【属性】命令，打开音频属性对话框，如图所示。在此选择录音音源并调节录音音量。录音

在对话框中选择采样频率、量化位数、声道数后单击【确定】按钮。然后单击功能键中的录音按钮，开始录音，录制完毕单击停止按钮停止录音。按空格键，试听录音效果，再按一次空格键，结束试听。执行【File】→【SaveAs】命令，在出现的保存文件对话框中将录音保存到磁盘中。2．噪音消除功能

通常自己录制的音频由于环境问题往往带有噪音，这种环境噪音一般贯穿整个声音文件始终，可以使用Audition去除这种噪音。

（1）选择一段噪音信号。

（2）在降噪对话框中获得噪音样本信息，必要的时候保存这个样本。

（3）回到波形编辑，选中整个录音波形。

（4）在降噪对话框中执行降噪操作。（1）选中音频开始时的环境噪音（此时人声还没有开始），如图所示，呈现白色的区域即为被选中区域。（2）如图所示，在降噪对话框中执行采样命令即可从刚才选中的噪音信号中提取噪音样本信息。然后单击关闭按钮，回到波形界面。（3）在波形编辑界面中执行【Edit】→【SelectionEntireWave】命令，选中全部音频文件，（4）然后再次执行【Effects】→【NoiseReduction】→【NoiseReduction】命令，打开去除噪音对话框，单击【OK】按钮，完成去除噪音操作。3．音频数据的编辑音频数据的编辑包括声音片段的选择、拷贝、剪切、删除、粘贴等操作。在Audition中，不管进行什么操作，都要首先选择需要处理的区域，如果不选择，Audition默认对整个音频文件进行操作。Audition中提供了三种音频粘贴方式。（1）普通粘贴（2）粘贴到新文件（3）混合粘贴（1）普通粘贴：执行【Edit】→【Paste】命令将内部剪贴板上的数据插入到当前波形插入点位置。这样插入点前的原波形文件和插入点后的原波形文件不变，只是在两个声音间插入了新的内容。（2）粘贴到新文件：执行【Edit】→【PastetoNew】命令可将剪贴板中的波形数据创建一个新文件。

（3）混合粘贴：执行【Edit】→【MixPaste】命令可以弹出一个混合粘贴对话框，如图所示。在对话框左下方的粘贴模式中选择【Overlap】模式，即叠加模式，可以将剪贴板中的音频数据叠加在文件已选中的音频数据中。4．音量调节功能

【Effects】菜单下的【Amplitude】子菜单下有一系列和音频信号振幅相关的选项，可以实现音量调节、淡入淡出效果、去除人声等操作。（1）音量调节：该功能可以实现声音音量的提高或降低。执行【Effects】→【Ampli

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第3讲音频信号的获取与处理

文档简介

温馨提示

最新文档

评论

第3讲音频信号的获取与处理

文档简介

温馨提示

最新文档

评论

相关文档