第2章音频信息处理 2012-9

上传人：2*** IP属地：湖北上传时间：2021-06-24 格式：PPT 页数：37 大小：1.65MB 积分：25 举报 版权申诉

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第第2 2章章音频信息处理音频信息处理 2.1 2.1 音频处理基础音频处理基础本节要点本节要点 n 声音的基本特征声音的基本特征 n 音频的数字化音频的数字化 n 数字音频文件格式数字音频文件格式 n 数字音频处理技术数字音频处理技术 1. 1. 声波声波（1 1）声波：）声波：由各种机械振动或气流扰动引起周围的弹性媒质发生波动。（2 2）声源：）声源：产生声波的物体，如人的声带和乐器等。（3 3）声音：）声音：人的听觉系统所能感知到的声波。音频的频率范围：20 Hz 20 Hz 20000 Hz20000 Hz 语音的频率范围：300 Hz 300 Hz 3000 Hz3000

2、 Hz 次声波的频率范围： 20 Hz 20 kHz 20 kHz （4 4）声强：）声强：对于一定频率的声音，要能引起听觉，其声强也有一定的范围。下限：是恰能引起人听觉的最小声强，叫做该频率的可闻阈可闻阈；上限：是指人耳能听闻的最大声强，高于上限的声强，人耳感觉疼痛，所以叫做该频率的疼痛阈疼痛阈。常见声音的分贝量级分贝数低于20 2040 40606070709090 听觉效果能分辨轻声正常交谈声吵闹很吵听力受损 2声音的基本特征声音的基本特征（1 1）声波信号的物理特征）声波信号的物理特征周期（T）：声波的两个波峰或波谷之间的相对时间。频率（f）：周期的倒数（f=1/T），

3、即每秒波峰或波谷出现的次数。幅度：从声波信号的基线到波峰的距离，幅度越大声波的强度也越大。通常也用声压、声强或声功率来表示声音的强弱。人们感知到的声音特征称为心理学特征 n 音调：音调：由发声物体的振动频率决定，振动越快（即频率越大），音调越高，振动越慢，音调越低。 n 音色：音色：这是一个主观评价声音的量，声音的音色取决于声音的频谱结构，一般高次谐波越丰富，音色越明亮并具有穿透力。 n 响度：响度：人耳对声音强弱的感觉程度，主要取决于振幅和声压。通常振幅越大声音越响，其次人耳距离声源越远，声音越小。（2 2）声音信号的心理学特征）声音信号的心理学特征（3 3）声音质量的评价）

4、声音质量的评价声音质量与带宽有关，频率范围越宽，声音质量越高。 1 1）声音质量分级：）声音质量分级：按照声音信号的频率范围将声音质量分为5级。质量质量频率范围频率范围采样频率采样频率（kHzkHz）采样精度采样精度（bitsbits）声道数声道数数据率（非压缩）数据率（非压缩）（kB/skB/s）电话电话2002003400 Hz3400 Hz8 88 8单道声单道声8 8 AMAM1001005500Hz5500Hz11.02511.0258 8单道声单道声11.011.0 FMFM202011000Hz11000Hz22.05022.0501616立体声立体声88.2

5、88.2 CD-DACD-DA5 520000Hz20000Hz44.144.11616立体声立体声176.4176.4 DVDDVD0 096000Hz96000Hz19219224246 6声道声道12001200 2 2）信噪比（）信噪比（SNRSNR）：即有用信号与噪音信号的强度之比，单位是分贝。 3) 3) 声音质量的主观度量：声音质量的主观度量：主观度量就是大多数人对声音质量的感觉。 0 0 )sin()( n nn tnAtf 3音频信号的表示音频信号的表示（1 1）音频信号：）音频信号：通过麦克风等设备转换成的电信号。 n 规则音频信号规则音频信号：带有语音、音乐和音效的有规

6、律的音频信号，承载了一定的信息。语音：语音：语言的载体，有丰富的语言内涵，是人类交流的信息载体。音乐：音乐：是一种规范的符号化的声音。音效：音效：自然界中各种声音效果，如掌声、雷鸣声，爆破声等。 n 不规则音频信号不规则音频信号：不包含任何信息的声音，比如噪声。（2 2）音频信号的表示）音频信号的表示 1 1）音频信号的数学表示音频信号的数学表示 0：声音的基音，决定了音调的高低声音的基音，决定了音调的高低 n0：声音的泛音，决定了声音的音色声音的泛音，决定了声音的音色 An : 声波的振幅，表示声音的强弱声波的振幅，表示声音的强弱 2 2）音频信号的波形表示）音频信号的波形表示

7、 3 3）音频信号的频谱表示）音频信号的频谱表示声音信号的频率分布曲线。复杂的声音是由振幅和频率不同的正弦声波叠加而成的，这些正弦波的幅值按频率排列的图形就叫做频谱。男声的基频较低，低频分量更加丰富，因此听起来会更加低沉、浑厚。 1. 1. 音频信号数字化音频信号数字化声音信号在时间上是连续的，在幅度上也是连续的，属于模拟信号。声音信号在时间上是连续的，在幅度上也是连续的，属于模拟信号。（1 1）采样）采样声音信号在时间上的离散化，即每隔一段时间抽取一个信号样本。声音信号在时间上的离散化，即每隔一段时间抽取一个信号样本。 n 采样频率：采样频率：每秒采样的次数。每秒采样的次数。 n

8、奈奎斯特理论（奈奎斯特理论（Nyquist theoryNyquist theory）：采样频率不低于声音信号最高频率：采样频率不低于声音信号最高频率的两倍，这样就能把数字声音还原成原来的声音，称为无损数字化。的两倍，这样就能把数字声音还原成原来的声音，称为无损数字化。 f s = 2 f maxf s = 2 f max 电话话音信号的最高频率约为电话话音信号的最高频率约为3.4kHz3.4kHz，所以采样频率取为，所以采样频率取为8kHz8kHz。 2.1.2 2.1.2 音频信号的数字化音频信号的数字化声音信号在幅度上的离散化声音信号在幅度上的离散化也就是采样过程中对每一个采样点

9、的幅度值用数字量来表示。如果幅度的划分是等间隔的，称为线性量化，否则为非线性量化。 n 采样精度：采样精度：即量化的位数，位数越多量化等级数也越多，所能表示的声波幅度的动态范围也越大，当然需要的存储空间也越大。（2 2）量化量化（3 3）编码编码就是用一组二进制码组来表示每一个有固定电平的量化值，或者说将量化值转换成二进制码组。典型的音频编码方法：脉冲编码调制法（PCM）。（4 4）数字音频的数据量）数字音频的数据量数据量数据量 = = 采样频率采样频率* * 采样精度采样精度* * 采样时间采样时间* * 声道数声道数 / 8 / 8 （字节数）（字节数）单声道：单声

10、道：一次只产生一组声波数据，立体声：立体声：一次产生两组声波数据。例例2.12.1 计算一分钟未压缩的高保真立体声数字声音数据的大小。 60 * （ 44100 * 16 * 2 ） / 8 = 10.09 MB 一首未经压缩的4分钟的歌曲文件的大小约为40MB，那么一个容量为512MB的 MP3播放器也只能播放12首这样的歌曲。 2. 数字音频压缩标准数字音频压缩标准（1 1）电话质量的语音压缩标准）电话质量的语音压缩标准（2 2）调幅广播语音压缩标准）调幅广播语音压缩标准 G.722G.722 （3）宽带音频压缩标准）宽带音频压缩标准标准标准编码方法编码方法采样频率采样频率采样精

11、度采样精度数据传输率数据传输率 G.711G.711PCMPCM8kHz8kHz8 8位位64kb/s64kb/s G.721G.721ADPCMADPCM8kHz8kHz8 8位位32kb/s32kb/s G.723G.723ADPCMADPCM8kHz8kHz8 8位位24kb/s24kb/s G.728G.728LD-CELPLD-CELP8kHz8kHz8 8位位16kb/s16kb/s MPEG音频：第一个高保真立体声音频压缩的国际标准 MPEG音频压缩标准提供三个独立的压缩层次： 1）Layer 1：编码器简单，输出数据率为384 kb/s，主要用于小型数字盒式磁带。 2）Laye

12、r 2：编码器较复杂，输出数据率为256 kb/s192kb/s，主要应用于数字广播声音、数字音乐、CD-I和VCD等。 3）Layer 3Layer 3：编码器复杂，输出数据率为64kb/s，主要用于ISDN上的声音传输。 1WAVWAV文件文件：波形文件，微软开发，需要的存储量大，多用于存储简短的声音片段和旁白。 2MIDIMIDI文件文件：记录的是生成音乐的指令，MIDI文件短小。由于MIDI记录的并不是真正的声音，所以不同的声卡，不同软波表，不同硬件音源的音色是不相同的，相同的MIDI 文件在不同的设备上播放也会有不同的效果。MIDI文件适合作为背景音乐来播放。 3MP3MP3文件

13、文件：是MPEG音频第3层的简称，有损压缩，压缩比达12:1。MP3利用人耳的掩蔽特性，削减音频中人耳听不到的成分，同时尽可能地维持原来的声音质量。 4RARA文件文件：属于Real Media的音频部分，采用流式传输方式，可以在非常低的带宽下提供足够好的音质让用户能在线聆听。 5WMA WMA 文件文件：Windows Media的音频部分。无损压缩，支持多声道编码。 6AC3AC3文件文件：又叫杜比数码环绕立体声，压缩比10:1，提供的环绕声系统由5个全频域声道和1个超低音声道组成，称为5.1声道，一般作为DVD的伴音。 3. 数字音频文件的格式数字音频文件的格式 2 2）语音识别系

14、统分类）语音识别系统分类 n 对说话人说话方式的要求 n 孤立字（词）语音识别系统 n 连接字语音识别系统 n 连续语音识别系统。 n 对说话人的依赖程度 n 特定人语音识别系统 n 非特定人语音识别系统 n 词汇量大小 n 小词汇量语音识别系统 n 中等词汇量语音识别系统 n 大词汇量语音识别系统 n 无限词汇量语音识别系统。（1）语音识别技术）语音识别技术 1 1）语音识别的发展）语音识别的发展 n 50年代:Bell实验室实现了第一个可识别十个英文数字的语音识别系统Audry系统。 n 60年代：提出动态规划（DP）和线性预测分析技术（LP）。 n 70年代：提出了动态时间归正技术

15、，实现了特定人孤立语音识别系统。 n 90年代：开始进入实用阶段。 2.1.3 智能语音处理技术智能语音处理技术利用计算机合成语音的技术，使计算机具有类似人的说话能力计算机具有类似人的说话能力。 n 语音合成的三个层次语音合成的三个层次 n 从文字到语音 n 从概念到语音 n 从意向到语音 n 语音合成技术的特点语音合成技术的特点清晰度、自然度、表现力、复杂度 n 语音合成的应用语音合成的应用文语转换、语音查询（2）语音合成技术语音合成技术本小节介绍的要点本小节介绍的要点 nAudition的安装 nAudition软件的功能 nAudition界面的组成 n声音文件的导入 n录

16、音 n单轨状态下的编辑 2.2 2.2 音频处理软件音频处理软件 Adobe AuditionAdobe Audition n 多轨状态下的编辑 n 包络编辑 n 效果控制 n 消除人声 n 多轨合成，混缩输出一、一、AuditionAudition软件的界面组成软件的界面组成 n 了解界面的各个组成部分及其作用了解界面的各个组成部分及其作用 n 重点重点 n 声音文件的管理 n 水平和垂直标尺的含义以及如何更改 n 电平显示刻度 -60dB 0dB 补充：为什么数字音量的最大标记为0dB 1 1、单轨编辑模式单轨编辑模式 2 2、多轨编辑模式、多轨编辑模式二、二、音频信号的获取音频信号的

17、获取 1 1、直接导入文件、直接导入文件 2 2、提取视频文件中的音频部分、提取视频文件中的音频部分 VCD上的dat文件直接将扩展名改为mpg（2.0版可以直接打开）将mpg格式的视频利用格式工厂转换成mov格式（CS 5.5）如何提取如何提取 “沉默是金沉默是金.mov”中的伴奏中的伴奏注意：左声道：伴奏（选取后复制到新文件即可提取伴奏）右声道：原唱 3 3、单轨状态下录音、单轨状态下录音（1）录音前声卡的设置音频硬件设置注意控制录音电平（2）“文件|新建音频文件” （3）单击“录音” 请观察自己录制的人声其左右声道的波形是否一样请观察自己录制的人声其左右声道的波形是否一样

18、? ? Windows 7 下麦克风设置麦克风音量设置麦克风音量设置 Win7下不能录音时，更改该选项下不能录音时，更改该选项（1 1）保存会话文件）保存会话文件会话文件保存了导入的文件以及添加的效果，在多轨下的编排等信息。（2 2）导入伴奏）导入伴奏注意控制伴奏的音量（3 3）按下）按下“R R”，轨道进入录音状态，轨道进入录音状态（4 4）单击）单击“ ”开始录音开始录音 4、多轨状态下录音多轨状态下录音三、音频的编辑三、音频的编辑 1、单轨状态下、单轨状态下（1 1）波形的选取）波形的选取注意：单独选择左声道或右声道（将其中一个声道锁定）（2 2）波形的剪切、复制

19、与粘贴）波形的剪切、复制与粘贴注意：混合粘贴（3 3）波形的裁剪、删除）波形的裁剪、删除注意：删除静音区（诊断面板| 删除静默）（4 4）波形的反转与倒转的区别）波形的反转与倒转的区别反转：波形相位的反转前后反向（倒转）：达到逆向播放的效果 2 2、多轨状态下、多轨状态下（1 1）音量旋钮）音量旋钮：可提升或降低当前轨道的音量大小一般降低背景音乐所在轨道的音量，提升旁白所在轨道的音量（2）声相旋钮声相旋钮：可控制声音在左耳与右耳之间的均衡输出（3）输入输入：默认为立体声，如果选择“无”，则该轨道不能进行录音（4）输出输出：默认为主控，如果选择“无”，则该轨道不会发出声音，

20、相当于静音（1）工具的选择）工具的选择移动工具移动工具：左键：左键用于用于移动选中移动选中的波形片段的波形片段，右键，右键拖移可以拖移可以移动移动或复制当前波形片段。或复制当前波形片段。剃刀剃刀工具工具：在：在单击处单击处剪开波形。剪开波形。滑动滑动工具工具：用于滑动选择想要的波形：用于滑动选择想要的波形片段片段。例如例如有一个声音录制了有一个声音录制了30秒，现在截取了第秒，现在截取了第10秒到第秒到第20秒的声音片段，那么利用滑动秒的声音片段，那么利用滑动工具在该波形片段上拖曳鼠标即可实现往前或往后滑动选择想要的那工具在该波形片段上拖曳鼠标即可实现往前或往后滑动选择想要的那10

21、秒的声音。秒的声音。时间时间选择工具选择工具：左键：左键选取选取波形波形片段片段，右键移动波形，右键移动波形。框框选、套索和笔刷工具选、套索和笔刷工具：在：在单轨状态单轨状态下单击工具栏左边的下单击工具栏左边的（频谱频率显示）按钮后（频谱频率显示）按钮后将激活这些工具按钮，用于选取所要操作的频谱区域。将激活这些工具按钮，用于选取所要操作的频谱区域。污点污点修复工具修复工具：用于修复频谱信号：用于修复频谱信号。（2）时间锁定）时间锁定锁定音频的绝对时间，只能在上下轨道上移动，不能左右移动（3）波纹删除）波纹删除 n “编辑|删除（Del）”：那么可以清除选中的波形片段，不影响该

22、轨道上其他波形的位置； n “编辑|波纹删除”：将选定的波形片段删除，同时该轨道上后续波形后自动前移； n “波纹删除|gap”，把波形之间的空隙删除；四包络编辑四包络编辑包络编辑包络编辑: : 其实就是控制声音属性变化的一种手段其实就是控制声音属性变化的一种手段（1 1）音量包络）音量包络控制音量变化的走势曲线，如控制声音的淡入淡出（2 2）声相包络）声相包络控制声相变化的走势曲线，控制声音在左耳和右耳的均衡五、五、EQ 均衡均衡 nEQ均衡器用于调节声音的均衡器用于调节声音的音色音色，不改变声音的，不改变声音的音调音调。调节调节频率范围频率范围效效果果超低音超低音20

23、Hz 40Hz适当时使声音强而有力，控制雷声、低音鼓等，过度提升会使声音浑浊不清晰。低音低音40Hz 150Hz 低音部分是表现音乐风格的主要成分，适当时使声音丰满而柔和，不足时使声音单薄，150Hz处过度提升会使声音发闷，鼻音增强。中低音中低音150Hz 500Hz 是人声的主要组成部分，不足时使声音软而无力，适当提升会使声音浑厚有力，提高声音的力度和响度，过度提升则使会声音变得生硬。中音中音500Hz 2KHz 包含了大多数乐器的泛音，适当时使声音明亮透彻，不足时使声音变得朦胧，过度提升得到类似电话的声音。中高音中高音2KHz 5KHz这部分是弦乐的特征音，不足时使声音的穿透力降低。高音高音5KHz 8KHz过度提升会使语音的齿音加重。极高音极高音8KHz 10KHz过度提升会使声音不自然。不同频率段声音的效果不同频率段声音的效果 n“效果效果|滤波与均衡滤波与均衡” n多轨下，显示多轨下，显示EQ编辑窗口编辑窗口 n改变音调改变音调 “效果效果 | 时间时间/变调变调 |伸缩与变调伸缩与变调” 童声处理：童声处理：Helium 男声男声女声女声 : Raise Pitch 女声女声男声男声: Low Pitch 六、效果器的应用六、效果器的应用 1 1、单轨状态下添加效果、单轨状态下添加

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第2章音频信息处理 2012-9

文档简介

温馨提示

最新文档

评论

第2章音频信息处理 2012-9

文档简介

温馨提示

最新文档

评论

相关文档