第2章音频信息处理_第1页
第2章音频信息处理_第2页
第2章音频信息处理_第3页
第2章音频信息处理_第4页
第2章音频信息处理_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第2 2章章 音频信息处理音频信息处理2.1 2.1 音频处理基础音频处理基础本节要点本节要点n声音的基本特征声音的基本特征n音频的数字化音频的数字化n数字音频文件格式数字音频文件格式n数字音频处理技术数字音频处理技术问题问题n 模拟声音与数字声音的区别是什么?模拟声音与数字声音的区别是什么?n 声音的质量由什么来决定?声音的质量由什么来决定?n 声音的音调与音色分别由什么来决定?声音的音调与音色分别由什么来决定?n 常见的声音格式有哪些?各自有什么特点?常见的声音格式有哪些?各自有什么特点?n 单声道与立体声的区别是什么?如何互相转换?单声道与立体声的区别是什么?如何互相转换? 1. 1.

2、 声波声波 (1 1)声波:)声波:由各种机械振动或气流扰动引起周围的弹性媒质发生波动。 (2 2)声源:)声源:产生声波的物体,如人的声带和乐器等。 (3 3)声音:)声音:人的听觉系统所能感知到的声波。 音频的频率范围:20 Hz 20 Hz 20000 Hz20000 Hz 语音的频率范围:300 Hz 300 Hz 3000 Hz3000 Hz 次声波的频率范围: 20 Hz 20 kHz 20 kHz(4 4)声强:)声强:对于一定频率的声音,要能引起听觉,其声强也有一定的范围。 下限:是恰能引起人听觉的最小声强,叫做该频率的可闻阈可闻阈; 上限:是指人耳能听闻的最大声强,高于上限的

3、声强,人耳感觉疼痛,所以叫做该频率的疼痛阈疼痛阈。常见声音的分贝量级分贝数低于20204040606070709090听觉效果能分辨轻声正常交谈声吵闹很吵听力受损2声音的基本特征声音的基本特征(1 1)声波信号的物理特征)声波信号的物理特征 周期(周期(T T):):声波的两个波峰或波谷之间的相对时间。 频率(频率(f f):):周期的倒数(f=1/T),即每秒波峰或波谷出现的次数。 幅度:幅度:从声波信号的基线到波峰的距离,幅度越大声波的强度也越大。通常也用声压、声强或声功率来表示声音的强弱。 人们感知到的声音特征称为心理学特征n 音调:音调:由发声物体的振动频率决定,振动越快(即频率越大)

4、,音调越高,振动越慢,音调越低。n 音色:音色:这是一个主观评价声音的量,声音的音色取决于声音的频谱结构,一般高次谐波越丰富,音色越明亮并具有穿透力。n 响度:响度:人耳对声音强弱的感觉程度,主要取决于振幅和声压。通常振幅越大声音越响,其次人耳距离声源越远,声音越小。(2 2)声音信号的心理学特征)声音信号的心理学特征(3 3)声音质量的评价)声音质量的评价 声音质量与带宽有关,频率范围越宽,声音质量越高。1 1)声音质量分级:)声音质量分级:按照声音信号的频率范围将声音质量分为5级。质量质量频率范围频率范围采样频率采样频率(kHzkHz)采样精度采样精度(bitsbits)声道数声道数数据率

5、(非压缩)数据率(非压缩)(kB/skB/s)电话电话2002003400 Hz3400 Hz8 88 8单道声单道声8 8AMAM1001005500Hz5500Hz11.02511.0258 8单道声单道声11.011.0FMFM202011000Hz11000Hz22.05022.0501616立体声立体声88.288.2CD-DACD-DA5 520000Hz20000Hz44.144.11616立体声立体声176.4176.4DVDDVD0 096000Hz96000Hz19219224246 6声道声道120012002 2)信噪比()信噪比(SNRSNR):即有用信号与噪音信号的

6、强度之比,单位是分贝。3) 3) 声音质量的主观度量:声音质量的主观度量:主观度量就是大多数人对声音质量的感觉。00)sin()(nnntnAtf3音频信号的表示音频信号的表示(1 1)音频信号:)音频信号:通过麦克风等设备转换成的电信号。n规则音频信号规则音频信号:带有语音、音乐和音效的有规律的音频信号,承载了一定的信息。 语音:语音:语言的载体,有丰富的语言内涵,是人类交流的信息载体。 音乐:音乐:是一种规范的符号化的声音。 音效:音效:自然界中各种声音效果,如掌声、雷鸣声,爆破声等。n不规则音频信号不规则音频信号:不包含任何信息的声音,比如噪声。(2 2)音频信号的表示)音频信号的表示

7、1 1)音频信号的数学表示音频信号的数学表示0: 声音的基音,决定了音调的高低声音的基音,决定了音调的高低n0: 声音的泛音,决定了声音的音色声音的泛音,决定了声音的音色An : 声波的振幅,表示声音的强弱声波的振幅,表示声音的强弱2 2)音频信号的波形表示)音频信号的波形表示3 3)音频信号的频谱表示)音频信号的频谱表示 声音信号的频率分布曲线。复杂的声音是由振幅和频率不同的正弦声波叠加而成的,这些正弦波的幅值按频率排列的图形就叫做频谱。 男声的基频较低,低频分量更加丰富,因此听起来会更加低沉、浑厚。1. 1. 音频信号数字化音频信号数字化 声音信号在时间上是连续的,在幅度上也是连续的,属于

8、模拟信号。声音信号在时间上是连续的,在幅度上也是连续的,属于模拟信号。 (1 1)采样)采样 声音信号在时间上的离散化,即每隔一段时间抽取一个信号样本。声音信号在时间上的离散化,即每隔一段时间抽取一个信号样本。n采样频率:采样频率:每秒采样的次数。每秒采样的次数。n奈奎斯特理论(奈奎斯特理论(Nyquist theoryNyquist theory):采样频率不低于声音信号最高频率:采样频率不低于声音信号最高频率的两倍,这样就能把数字声音还原成原来的声音,称为无损数字化。的两倍,这样就能把数字声音还原成原来的声音,称为无损数字化。 f s = 2 f maxf s = 2 f max 电话话音

9、信号的最高频率约为电话话音信号的最高频率约为3.4kHz3.4kHz,所以采样频率取为,所以采样频率取为8kHz8kHz。2.1.2 2.1.2 音频信号的数字化音频信号的数字化 声音信号在幅度上的离散化声音信号在幅度上的离散化 也就是采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。n采样精度:采样精度:即量化的位数,位数越多量化等级数也越多,所能表示的声波幅度的动态范围也越大,当然需要的存储空间也越大。 (2 2) 量化量化(3 3) 编码编码 就是用一组二进制码组来表示每一个有固定电平的量化值,或者说将量化值转换成二进制码组。 典型

10、的音频编码方法:脉冲编码调制法(PCM)。(4 4)数字音频的数据量)数字音频的数据量 数据量数据量 = = 采样频率采样频率* * 采样精度采样精度* * 采样时间采样时间* * 声道数声道数 / 8 / 8 (字节数)(字节数) 单声道:单声道:一次只产生一组声波数据 立体声:立体声:一次产生两组声波数据例例2.12.1 计算一分钟未压缩的高保真立体声数字声音数据的大小。 60 * ( 44100 * 16 * 2 ) / 8 = 10.09 MB 一首未经压缩的4分钟的歌曲文件的大小约为40MB,那么一个容量为4GB的MP3播放器可存放100首这样的歌曲。 2. 数字音频压缩标准数字音频

11、压缩标准(1 1)电话质量的语音压缩标准)电话质量的语音压缩标准(2 2)调幅广播语音压缩标准)调幅广播语音压缩标准 G.722G.722(3)宽带音频压缩标准)宽带音频压缩标准标准标准编码方法编码方法采样频率采样频率采样精度采样精度数据传输率数据传输率G.711G.711PCMPCM8kHz8kHz8 8位位64kb/s64kb/sG.721G.721ADPCMADPCM8kHz8kHz8 8位位32kb/s32kb/sG.723G.723ADPCMADPCM8kHz8kHz8 8位位24kb/s24kb/sG.728G.728LD-CELPLD-CELP8kHz8kHz8 8位位16kb/

12、s16kb/s MPEGMPEG音频:音频:第一个高保真立体声音频压缩的国际标准 MPEG音频压缩标准提供三个独立的压缩层次: 1 1)Layer 1Layer 1:编码器简单,输出数据率为384 kb/s,主要用于小型数字盒式磁带。 2 2)Layer 2Layer 2:编码器较复杂,输出数据率为256 kb/s192kb/s,主要应用于数字广播声音、数字音乐、CD-I和VCD等。3 3)Layer 3Layer 3:编码器复杂,输出数据率为64kb/s,主要用于ISDN(综合业务数字网,一种数字电话网的国际标准)上的声音传输。1WAVWAV文件文件:波形文件,微软开发,需要的存储量大,多用

13、于存储简短的声音片段和旁白。2MIDIMIDI文件文件:记录的是生成音乐的指令,MIDI文件短小。由于MIDI记录的并不是真正的声音,所以不同的声卡,不同软波表,不同硬件音源的音色是不相同的,相同的MIDI文件在不同的设备上播放也会有不同的效果。MIDI文件适合作为背景音乐来播放。3MP3MP3文件文件:是MPEG音频第3层的简称,有损压缩,压缩比达12:1。MP3利用人耳的掩蔽特性,削减音频中人耳听不到的成分,同时尽可能地维持原来的声音质量。4RARA文件文件:属于Real Media的音频部分,采用流式传输方式,可以在非常低的带宽下提供足够好的音质让用户能在线聆听。5WMA WMA 文件文

14、件:Windows Media的音频部分。无损压缩,支持多声道编码。6AC3AC3文件文件:又叫杜比数码环绕立体声,压缩比10:1,提供的环绕声系统由5个全频域声道和1个超低音声道组成,称为5.15.1声道声道,一般作为DVD的伴音。 3. 数字音频文件的格式数字音频文件的格式2 2)语音识别系统分类)语音识别系统分类n对说话人说话方式的要求n孤立字(词)语音识别系统n连接字语音识别系统n连续语音识别系统。n对说话人的依赖程度n特定人语音识别系统n非特定人语音识别系统n词汇量大小n小词汇量语音识别系统n中等词汇量语音识别系统n大词汇量语音识别系统n无限词汇量语音识别系统。(1)语音识别技术)语

15、音识别技术1 1)语音识别的发展)语音识别的发展n 50年代:Bell实验室实现了第一个可识别十个英文数字的语音识别系统Audry系统。n 60年代:提出动态规划(DP)和线性预测分析技术(LP)。n 70年代:提出了动态时间归正技术,实现了特定人孤立语音识别系统。n 90年代:开始进入实用阶段。2.1.3 智能语音处理技术智能语音处理技术 利用计算机合成语音的技术,使计算机具有类似人的说话能力计算机具有类似人的说话能力。n 语音合成的三个层次语音合成的三个层次n 从文字到语音n 从概念到语音n 从意向到语音n 语音合成技术的特点语音合成技术的特点清晰度、自然度、表现力、复杂度n 语音合成的应

16、用语音合成的应用文语转换、语音查询(2) 语音合成技术语音合成技术本小节介绍的本小节介绍的要点要点nAudition软件的功能nAudition界面的组成n声音文件的导入n录音n单轨状态下的编辑2.2 2.2 音频处理软件音频处理软件 Adobe AuditionAdobe Audition n 多轨状态下的编辑n 包络编辑n 效果控制n 消除人声n 多轨合成,混缩输出一一 AuditionAudition软件的界面组成软件的界面组成 n了解界面的各个组成部分及其作用了解界面的各个组成部分及其作用1.1.单轨编辑模式单轨编辑模式2.2.多轨编辑模式多轨编辑模式 问题问题n 无法录音与播放(编辑

17、无法录音与播放(编辑/首选项首选项/常规常规/确定)确定)n Win7或或win8环境下,提示采样频率不一致,无法校环境下,提示采样频率不一致,无法校正怎么办?正怎么办? (麦克风的高级属性设置)(麦克风的高级属性设置)n 声音处理软件中最大音量为什么是声音处理软件中最大音量为什么是0dB? 人耳对声音大小的感知程度与表示声音的电平大小成人耳对声音大小的感知程度与表示声音的电平大小成 对数关系(而非线性关系)对数关系(而非线性关系) dB=20log(vx/v0)n Audition中如何更改音调?如何调节音色?中如何更改音调?如何调节音色?n 如何提取背景音乐?如何提取背景音乐?问题问题 录

18、制旁白需注意哪些方面?录制旁白需注意哪些方面? 录制时说错的地方如何处理?哪个补救方法最好?录制时说错的地方如何处理?哪个补救方法最好? 录制的声音有噪音,用什么方法去解决,哪个效果最好?录制的声音有噪音,用什么方法去解决,哪个效果最好? 旁白的后期加工步骤一般有哪些?旁白的后期加工步骤一般有哪些? 旁白与背景音乐合成时需注意什么?旁白与背景音乐合成时需注意什么? 多段声音切换时需注意什么?多段声音切换时需注意什么? 合成的采样频率与波形的采样频率不一致时会如何处理,需合成的采样频率与波形的采样频率不一致时会如何处理,需要注意什么?要注意什么?二二 音频信号的获取音频信号的获取 1. 1.直接

19、导入文件直接导入文件 2.2.提取视频文件中的音频部分提取视频文件中的音频部分 VCD上的dat文件直接将扩展名改为mpg(2.0版可以直接打开) 将mpg格式的视频利用格式工厂转换成mov格式(CS 5.5) 如何提取CD中的伴奏 “沉默是金” 左声道:伴奏 右声道:原唱 “梁祝” 左声道:原唱 右声道:伴奏 3.3.单轨状态下录音单轨状态下录音(1)录音前声卡的设置 音频硬件设置 注意控制录音电平Windows 7 下麦克风的设置麦克风音量设置麦克风音量设置 Win7下不能录音时,更改该选项,重下不能录音时,更改该选项,重启启Audition,新建音频文件与该设置,新建音频文件与该设置一致

20、即可录音,以后录音则无需一致一致即可录音,以后录音则无需一致(2)“文件|新建音频文件(3)单击“录音”请观察自己录制的人声其左右声道的波形是否一样请观察自己录制的人声其左右声道的波形是否一样? ?(1 1)保存会话文件)保存会话文件 会话文件保存了导入的文件以及添加的效果,在多轨下的编排等信息。 (2 2)导入伴奏)导入伴奏 注意控制伴奏的音量(3 3)按下)按下“R R”,轨道进入录音状态,轨道进入录音状态(4 4)单击)单击“ ”开始录音开始录音4. 多轨状态下录音多轨状态下录音补充:穿插录音补充:穿插录音穿插录音:穿插录音:用于对已经录制好的声音片段进行重新录制。1、首先选定不满意的声

21、音片段;2、按下轨道左边的“R”处于按下状态;3、定位好时间线,点按“录音”按钮,选定的片段自动变成静音,只有选取的片段会进行录音,其他部分的波形不会改变。选择要重新录音的片段,定位时间线,点按录音按钮三三 音频的编辑音频的编辑1. 单轨状态下单轨状态下(1 1)波形的选取)波形的选取 注意:单独选择左声道或右声道(将其中一个声道锁定)(2 2)波形的剪切、复制与粘贴)波形的剪切、复制与粘贴 注意:混合粘贴(3 3)波形的裁剪、删除)波形的裁剪、删除 注意:删除静音区(诊断面板| 删除静默)(4 4)波形的反转与倒转的区别)波形的反转与倒转的区别 反转:波形相位的反转 前后反向(倒转):达到逆

22、向播放的效果2.2.多轨状态下多轨状态下(1 1)音量旋钮)音量旋钮:可提升或降低当前轨道的音量大小 一般降低背景音乐所在轨道的音量,提升旁白所在轨道的音量(2)声相旋钮声相旋钮:可控制声音在左耳与右耳之间的均衡输出(3)输入输入:默认为立体声,如果选择“无”,则该轨道不能进行录音(4)输出输出:默认为主控,如果选择“无”,则该轨道不会发出声音,相当于静音(1)工具的选择)工具的选择 移动工具移动工具:左键:左键用于用于移动选中的波形片段,右键移动选中的波形片段,右键拖移可以拖移可以移动或复制当前波形片段。移动或复制当前波形片段。 剃刀工具剃刀工具:在单击处剪开波形。:在单击处剪开波形。 滑动

23、工具滑动工具:用于滑动选择想要的波形片段:用于滑动选择想要的波形片段。 例如有一个声音录制了例如有一个声音录制了30秒,现在截取了第秒,现在截取了第10秒到第秒到第20秒的声音片段,那么利用滑动秒的声音片段,那么利用滑动工具在该波形片段上拖曳鼠标即可实现往前或往后滑动选择想要的那工具在该波形片段上拖曳鼠标即可实现往前或往后滑动选择想要的那10秒的声音。秒的声音。 时间选择工具时间选择工具:左键:左键选取选取波形波形片段片段,右键移动波形。,右键移动波形。 框选、套索和笔刷工具框选、套索和笔刷工具:在:在单轨状态单轨状态下单击工具栏左边的下单击工具栏左边的 (频谱频率显示)按钮后(频谱频率显示)

24、按钮后将激活这些工具按钮,用于选取所要操作的频谱区域。将激活这些工具按钮,用于选取所要操作的频谱区域。 污点修复工具污点修复工具:用于修复频谱信号:用于修复频谱信号(一般是不到(一般是不到4秒的劣音,如咔哒声,破音等)秒的劣音,如咔哒声,破音等)。(2)时间锁定)时间锁定 锁定音频的绝对时间,只能在上下轨道上移动,不能左右移动(3)波纹删除)波纹删除n “编辑|删除(Del)”:那么可以清除选中的波形片段,不影响该轨道上其他波形的位置;n “编辑|波纹删除”:将选定的波形片段删除,同时该轨道上后续波形后自动前移;n “波纹删除|gap”,把波形之间的空隙删除;四四 包络编辑包络编辑 包络编辑包

25、络编辑: : 其实就是控制声音属性变化的一种手段其实就是控制声音属性变化的一种手段(1 1)音量包络)音量包络 控制音量变化的走势曲线,如控制声音的淡入淡出(2 2)声相包络)声相包络 控制声相变化的走势曲线,控制声音在左耳和右耳的均衡五五 EQ 均衡均衡nEQ均衡器用于调节声音的均衡器用于调节声音的音色音色,不改变声音的,不改变声音的音调音调。调节调节频率范围频率范围效效 果果超低音超低音20Hz 40Hz适当时使声音强而有力,控制雷声、低音鼓等,过度提升会使声音浑浊不清晰。低音低音40Hz 150Hz低音部分是表现音乐风格的主要成分,适当时使声音丰满而柔和,不足时使声音单薄,150Hz处过度提升会使声音发闷,鼻音增强。中低音中低音150Hz 500Hz是人声的主要组成部分,不足时使声音软而无力,适当提升会使声音浑厚有力,提高声音的力度和响度,过度提升则使会声音变得生硬。中音中音500Hz 2KHz包含了大多数乐器的泛音,适当时使声音明亮透彻,不足时使声音变得朦胧,过度提升得到类似电话的声音。中高音中高音2KHz 5KHz这部分是弦乐的特征音,不足时使声音的穿透力降低。高音高

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论