音频信息处理

上传人：1*** IP属地：湖北上传时间：2022-05-06 格式：PPT 页数：33 大小：2.36MB 积分：30 举报 版权申诉

已阅读5页，还剩28页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第第2 2章章音频信息处理音频信息处理2 21 1 音频处理基础音频处理基础2 22 2 音频处理软件音频处理软件Adobe AuditionAdobe Audition2 23 3 音频处理综合应用案例音频处理综合应用案例2.1 2.1 音频处理基础音频处理基础 1. 1. 声波声波（1 1）声波：）声波：由各种机械振动或气流扰动引起周围的弹性媒质发生波动。由各种机械振动或气流扰动引起周围的弹性媒质发生波动。（2 2）声源：）声源：产生声波的物体，如人的声带和乐器等。产生声波的物体，如人的声带和乐器等。（3 3）声音：）声音：人的听觉系统所能感知到的声波。人的听觉系统所能感知到的声波

2、。音频的频率范围：音频的频率范围：20 Hz 20 Hz 20000 Hz20000 Hz 语音的频率范围：语音的频率范围：300 Hz 300 Hz 3000 Hz3000 Hz 次声波的频率范围：次声波的频率范围： 20 Hz 20 kHz 20 kHz（4 4）声强：）声强：对于一定频率的声音，要能引起听觉，其声强也有一定的范对于一定频率的声音，要能引起听觉，其声强也有一定的范围。围。下限：是恰能引起人听觉的最小声强，叫做该频率的下限：是恰能引起人听觉的最小声强，叫做该频率的可闻阈可闻阈；上限：是指人耳能听闻的最大声强，高于上限的声强，人耳感觉疼上限：是指人耳能听闻的最大声强，高于

3、上限的声强，人耳感觉疼痛，所以叫做该频率的痛，所以叫做该频率的疼痛阈疼痛阈。常见声音的分贝量级分贝数分贝数低于低于2020202040404040606060607070707090909090听觉效果听觉效果能分辨能分辨轻声轻声正常交谈声正常交谈声吵闹吵闹很吵很吵听力受损听力受损2声音的基本特征声音的基本特征（1）声波信号的物理特征）声波信号的物理特征周期（周期（T T）：）：声波的两个波峰或波谷之间的相对时间。声波的两个波峰或波谷之间的相对时间。频率（频率（f f）：）：周期的倒数周期的倒数（f=1/Tf=1/T），即每秒波峰或波谷出现的次数。，即每秒波峰或波谷出现的次数。幅度幅度：

4、从声波信号的基线到波峰的距离，幅度越大声波的强度也越大。通：从声波信号的基线到波峰的距离，幅度越大声波的强度也越大。通常也用声压、声强或声功率来表示声音的强弱。常也用声压、声强或声功率来表示声音的强弱。人们感知到的声音特征称为心理学特征人们感知到的声音特征称为心理学特征n音调：音调：在音乐中又叫在音乐中又叫音高音高，是由发声物体的振动频率决定，振动越快，是由发声物体的振动频率决定，振动越快（即频率越大），音调越高，振动越慢，音调越低。音调的高低与声音基（即频率越大），音调越高，振动越慢，音调越低。音调的高低与声音基频的对数（频的对数（2020* *loglog）成线性关系。基频越低，给人的感

5、觉是声音越低沉，）成线性关系。基频越低，给人的感觉是声音越低沉，基频频率增加一倍，在音乐上就叫升高了一个八度。基频频率增加一倍，在音乐上就叫升高了一个八度。 n音色：音色：这是一个主观评价声音的量，声音的音色取决于声音的频谱结构，这是一个主观评价声音的量，声音的音色取决于声音的频谱结构，一般高次谐波越丰富，音色越明亮并具有穿透力。一般高次谐波越丰富，音色越明亮并具有穿透力。n响度：响度：人耳对声音强弱的感觉程度，主要取决于振幅和声压。通常振幅人耳对声音强弱的感觉程度，主要取决于振幅和声压。通常振幅越大声音越响，其次人耳距离声源越远，声音越小。越大声音越响，其次人耳距离声源越远，声音越小。（2

6、2）声音信号的心理学特征）声音信号的心理学特征（3 3）声音质量的评价）声音质量的评价声音质量与带宽有关，频率范围越宽，声音质量越高。声音质量与带宽有关，频率范围越宽，声音质量越高。1 1）声音质量分级：）声音质量分级：按照声音信号的频率范围将声音质量分为按照声音信号的频率范围将声音质量分为5 5级。级。质量质量频率范围频率范围采样频率采样频率（kHzkHz）采样精度采样精度（bitsbits）声道数声道数数据率（非压缩）数据率（非压缩）（kB/skB/s）电话电话2002003400 Hz3400 Hz8 88 8单道声单道声8 8AMAM1001005500Hz5500Hz11.02511

7、.0258 8单道声单道声11.011.0FMFM202011000Hz11000Hz22.05022.0501616立体声立体声88.288.2CD-DACD-DA5 520000Hz20000Hz44.144.11616立体声立体声176.4176.4DVDDVD0 096000Hz96000Hz19219224246 6声道声道120012002 2）信噪比（）信噪比（SNRSNR）：即有用信号与噪音信号的强度之比，单位是分贝。：即有用信号与噪音信号的强度之比，单位是分贝。3) 3) 声音主观质量的度量：声音主观质量的度量：主观度量就是大多数人对声音质量的感觉。主观度量就是大多数人对声音

8、质量的感觉。00)sin()(nnntnAtf3音频信号的表示音频信号的表示（1 1）音频信号：）音频信号：通过麦克风等设备转换成的电信号。通过麦克风等设备转换成的电信号。n规则音频信号：规则音频信号：带有语音、音乐和音效的有规律的音频信号，承载了一带有语音、音乐和音效的有规律的音频信号，承载了一定的信息。定的信息。语音：语音：语言的载体，有丰富的语言内涵，是人类交流的信息载体。语言的载体，有丰富的语言内涵，是人类交流的信息载体。音乐：音乐：是一种规范的符号化的声音。是一种规范的符号化的声音。音效：音效：自然界中各种声音效果，如掌声、雷鸣声，爆破声等。自然界中各种声音效果，如掌声、雷鸣声

9、，爆破声等。n不规则音频信号：不规则音频信号：不包含任何信息的声音，比如噪声。不包含任何信息的声音，比如噪声。（2 2）音频信号的表示）音频信号的表示音频信号的数学表示音频信号的数学表示0：声音的基音，决定了音调的高低声音的基音，决定了音调的高低n0：声音的泛音，决定了声音的音色声音的泛音，决定了声音的音色An : 声波的振幅，表示声音的强弱声波的振幅，表示声音的强弱2 2）音频信号的波形表示）音频信号的波形表示3 3）音频信号的频谱表示）音频信号的频谱表示声音信号的频率分布曲线。复杂的声音是由振幅和频率不同的正弦声波叠声音信号的频率分布曲线。复杂的声音是由振幅和频率不同的正弦声波叠加

10、而成的，这些正弦波的幅值按频率排列的图形就叫做频谱。加而成的，这些正弦波的幅值按频率排列的图形就叫做频谱。男声的基频较低，低频分量更加丰富，因此听起来会更加低沉、浑厚。男声的基频较低，低频分量更加丰富，因此听起来会更加低沉、浑厚。1. 1. 音频信号数字化音频信号数字化声音信号在时间上是连续的，在幅度上也是连续的，属于模拟信号。声音信号在时间上是连续的，在幅度上也是连续的，属于模拟信号。（1 1）采样）采样声音信号在时间上的离散化，即每隔一段时间抽取一个信号样本。声音信号在时间上的离散化，即每隔一段时间抽取一个信号样本。n采样频率：采样频率：每秒采样的次数。每秒采样的次数。n奈奎斯特理

11、论（奈奎斯特理论（Nyquist theoryNyquist theory）：采样频率不低于声音信号最高频率：采样频率不低于声音信号最高频率的两倍，这样就能把数字声音还原成原来的声音，称为无损数字化。的两倍，这样就能把数字声音还原成原来的声音，称为无损数字化。 f s = 2 f maxf s = 2 f max 电话话音信号的最高频率约为电话话音信号的最高频率约为3.4kHz3.4kHz，所以采样频率取为，所以采样频率取为8kHz8kHz。2.1.2 2.1.2 音频信号的数字化音频信号的数字化声音信号在幅度上的离散化声音信号在幅度上的离散化也就是采样过程中对每一个采样点的幅度值用数字量

12、来表示。如果也就是采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分是等间隔的，称为线性量化，否则为非线性量化。幅度的划分是等间隔的，称为线性量化，否则为非线性量化。n采样精度：采样精度：即量化的位数，位数越多量化等级数也越多，所能表即量化的位数，位数越多量化等级数也越多，所能表示的声波幅度的动态范围也越大，当然需要的存储空间也越大。示的声波幅度的动态范围也越大，当然需要的存储空间也越大。（2 2）量化量化（3 3）编码编码就是用一组二进制码组来表示每一个有固定电平的量化值，或者说将就是用一组二进制码组来表示每一个有固定电平的量化值，或者说将量化值转换成二进制码组。量化值转

13、换成二进制码组。典型的音频编码方法：脉冲编码调制法（典型的音频编码方法：脉冲编码调制法（PCMPCM）。）。（4 4）数字音频的数据量）数字音频的数据量数据量数据量 = = 采样频率采样频率* * 采样精度采样精度* * 采样时间采样时间* * 声道数声道数 / 8 / 8 （字节数）（字节数）单声道：单声道：一次只产生一组声波数据，立体声：立体声：一次产生两组声波数据。例例2.12.1 计算一分钟未压缩的高保真立体声数字声音数据的大小。 60 * （ 44100 * 16 * 2 ） / 8 = 10.09 MB 一首未经压缩的4分钟的歌曲文件的大小约为40MB，那么一个容量为512

14、MB的MP3播放器也只能播放12首这样的歌曲。 2. 数字音频压缩标准数字音频压缩标准（1 1）电话质量的语音压缩标准）电话质量的语音压缩标准（2 2）调幅广播语音压缩标准）调幅广播语音压缩标准 G.722G.722（3）高保真立体声的宽带音频压缩标准）高保真立体声的宽带音频压缩标准标准标准编码方法编码方法采样频率采样频率采样精度采样精度数据传输率数据传输率G.711G.711PCMPCM8kHz8kHz8 8位位64kb/s64kb/sG.721G.721ADPCMADPCM8kHz8kHz8 8位位32kb/s32kb/sG.723G.723ADPCMADPCM8kHz8kHz8 8位位2

15、4kb/s24kb/sG.728G.728LD-CELPLD-CELP8kHz8kHz8 8位位16kb/s16kb/s电话质量的语音压缩标准电话质量的语音压缩标准 MPEG音频：第一个高保真立体声音频压缩的国际标准 MPEG音频压缩标准提供三个独立的压缩层次： 1）Layer 1：编码器简单，输出数据率为384 kb/s，主要用于小型数字盒式磁带。 2）Layer 2：编码器较复杂，输出数据率为256 kb/s192kb/s，主要应用于数字广播声音、数字音乐、CD-I和VCD等。3）Layer 3：编码器复杂，输出数据率为64kb/s，主要用于ISDN上的声音传输。1 1WAVWAV文件：文

16、件：波形文件，微软开发，需要的存储量大，多用于存储简短的声音片段和旁白。波形文件，微软开发，需要的存储量大，多用于存储简短的声音片段和旁白。2 2MIDIMIDI文件：文件：记录的是生成音乐的指令，记录的是生成音乐的指令，MIDIMIDI文件短小。由于文件短小。由于MIDIMIDI记录的并不是真正的声记录的并不是真正的声音，所以不同的声卡，不同软波表，不同硬件音源的音色是不相同的，相同的音，所以不同的声卡，不同软波表，不同硬件音源的音色是不相同的，相同的MIDIMIDI文件在不同文件在不同的设备上播放也会有不同的效果。的设备上播放也会有不同的效果。MIDIMIDI文件适合作为背景音乐来播放。文

17、件适合作为背景音乐来播放。3 3MP3MP3文件：文件：是是MPEGMPEG音频第音频第3 3层的简称，有损压缩，压缩比达层的简称，有损压缩，压缩比达12:112:1。MP3MP3利用人耳的掩蔽特性，利用人耳的掩蔽特性，削减音频中人耳听不到的成分，同时尽可能地维持原来的声音质量。削减音频中人耳听不到的成分，同时尽可能地维持原来的声音质量。4 4RARA文件：文件：属于属于Real MediaReal Media的音频部分，采用流式传输方式，可以在非常低的带宽下提供的音频部分，采用流式传输方式，可以在非常低的带宽下提供足够好的音质让用户能在线聆听。足够好的音质让用户能在线聆听。5 5WMA WM

18、A 文件文件：Windows MediaWindows Media的音频部分。无损压缩，支持多声道编码。的音频部分。无损压缩，支持多声道编码。6 6AC3AC3文件：文件：又叫杜比数码环绕立体声，压缩比又叫杜比数码环绕立体声，压缩比10:110:1，提供的环绕声系统由，提供的环绕声系统由5 5个全频域声道个全频域声道和和1 1个超低音声道组成，称为个超低音声道组成，称为5.15.1声道，一般作为声道，一般作为DVDDVD的伴音。的伴音。 3. 数字音频文件的格式数字音频文件的格式1. 1. 数字音频技术数字音频技术结合数字技术和计算机技术而实现传统音频处理的技术（1 1）特点特点1 1）

19、处理长样本文件的能力，录音时间只受硬盘本身大小的限制。）处理长样本文件的能力，录音时间只受硬盘本身大小的限制。2 2）随机存取编辑）随机存取编辑3 3）无损编辑）无损编辑（2 2）应用）应用1 1）声音剪辑和）声音剪辑和CDCD刻录。刻录。 2 2）日常音乐录制。）日常音乐录制。 3 3）大规模音乐录音和混音。）大规模音乐录音和混音。 4 4）影视音乐的制作与合成。）影视音乐的制作与合成。 5 5）多媒体音乐制作与合成。）多媒体音乐制作与合成。数字音频工作站 2.1.3 数字音频处理技术数字音频处理技术2 2）语音识别系统分类）语音识别系统分类n对说话人说话方式的要求对说话人说话方式的要求

20、n孤立字（词）语音识别系统孤立字（词）语音识别系统n连接字语音识别系统连接字语音识别系统n连续语音识别系统。连续语音识别系统。n对说话人的依赖程度对说话人的依赖程度n特定人语音识别系统特定人语音识别系统n非特定人语音识别系统非特定人语音识别系统n词汇量大小词汇量大小n小词汇量语音识别系统小词汇量语音识别系统n中等词汇量语音识别系统中等词汇量语音识别系统n大词汇量语音识别系统大词汇量语音识别系统n无限词汇量语音识别系统。无限词汇量语音识别系统。（1）语音识别技术）语音识别技术1 1）语音识别的发展）语音识别的发展n 5050年代年代:AT&T Bell:AT&T Bell实验室实

21、现了第一个可实验室实现了第一个可识别十个英文数字的语音识别系统识别十个英文数字的语音识别系统AudryAudry系统。系统。n 6060年代：提出动态规划（年代：提出动态规划（DPDP）和线性预测分）和线性预测分析技术（析技术（LPLP）。）。n 7070年代：提出了动态时间归正技术（年代：提出了动态时间归正技术（DTWDTW），），矢量量化（矢量量化（VQVQ）和隐马尔可夫模型（）和隐马尔可夫模型（HMMHMM）理论，实现了特定人孤立语音识别系统。理论，实现了特定人孤立语音识别系统。n 9090年代：开始进入实用阶段年代：开始进入实用阶段。2. 智能语音处理技术智能语音处理技术利用计算机合

22、成语音的技术，使计算机具有类似人的说话能力。利用计算机合成语音的技术，使计算机具有类似人的说话能力。n语音合成的三个层次语音合成的三个层次n从文字到语音从文字到语音n从概念到语音从概念到语音n从意向到语音从意向到语音n语音合成技术的特点语音合成技术的特点n清晰度清晰度n自然度自然度n表现力表现力n复杂度复杂度n语音合成的应用语音合成的应用n文语转换文语转换n语音查询语音查询（2）语音合成技术语音合成技术2.2 2.2 音频处理软件音频处理软件 Adobe AuditionAdobe Audition 单轨编辑界面单轨编辑界面2.2.3 Audition2.2.3 Audition界面及基本操

23、作界面及基本操作多轨编辑界面2.2.4 2.2.4 音频信号获取音频信号获取直接读取计算机磁盘上的音频文件；提取视频信息中的音频信号；直接录音。Audition允许同时进行多音轨录音，当然需要有相应的硬件支持，比如多个音频输入接口、多个录音源等。 1 1录音前声卡设置录音前声卡设置 “选项 | Windows 录音控制台 ”2 2建立录音文件建立录音文件3 3导入伴奏音乐导入伴奏音乐4 4控制录音电平控制录音电平5 5录制声音录制声音2.2.5 2.2.5 音频编辑音频编辑n单轨编辑状态：单轨编辑状态：可以进行波形的各种编辑处理和效果的设置，还可以分别对左右声道单独进行编辑处理。n多轨

24、编辑状态多轨编辑状态：适合对多个音频轨道进行编辑、录制和合成处理。最多可以同时处理的轨道数为128个。按钮“R”R”表示录音、表示录音、“S”S”表示独奏、表示独奏、“M”M”表示静音表示静音。 1 1常用编辑常用编辑（1 1）裁剪音频波形）裁剪音频波形n 波形的选择波形的选择n 波形的删除波形的删除n 波形的移动与复制波形的移动与复制n 混合工具混合工具：拖曳左键选中波形，拖曳右键移动波形。n 时间选择工具时间选择工具：拖曳左键选中波形。n 移动移动/复制剪辑工具复制剪辑工具：拖曳左键移动波形，拖曳右键移动或复制。n 刷选工具刷选工具：拖曳左键可以播放选中波形。（2 2）切分和合并音频）切分

25、和合并音频在多轨编辑状态下，可以对活动音轨上的波形进行分割，使其变成多个波形片段，定位播放线，执行“剪辑|分割”或右击鼠标点选“分割”。使两段波形首尾相接，按住Ctrl键将两段波形都选中，执行“剪辑|合并”或右击鼠标点选“合并”即可完成。（3 3）锁定音频波形）锁定音频波形锁定使音频的绝对时间位置不变。（4 4）编组音频波形）编组音频波形编组则可以使多个音频片段的相对位置固定，移动时可整体移动。 2 2包络编辑包络编辑（1 1）音量包络编辑）音量包络编辑音量包络是指音频波形随时间变化而产生的音量变化，也即是音量变化的走势曲线。通过控制音量包络曲线来改变某音轨上音频信号的音量大小，是一

26、个非常直观和简单有效的方法。（2 2）声相包络编辑）声相包络编辑声相就是声音在左右声道中所处的位置。声相包络线处于中间时（0点），声音在左右声道中达到平衡的效果，声相包络线位于上半部，声音偏向左声道，声相包络线位于下半部，声音偏向右声道。（3 3）音量淡化包络编辑）音量淡化包络编辑 Audition提供了简单快速的音量淡化包络。在音乐制作领域，淡化（fade）指音量的逐渐变化，音量由小到大变化称为淡入（fade in），音量由大到小变化称为淡出（fade out）。3 3时间伸缩时间伸缩用于改变声音播放的速度，且不影响音高。“查看|启用剪辑时间伸展” 时间伸缩2.2.6 2.2.6 加载效

27、果器加载效果器加载效果器按照使用方法可分为：n 插入效果器插入效果器：作用的声音范围是一整条音轨；n 波形效果器：波形效果器：作用于音轨中的某一段音频片段；n 总线效果器：总线效果器：加载在总线通道上的效果器，它使所有的音轨加入相同的效果器； 1 1插入效果器插入效果器多轨编辑下多轨编辑下2 2波形效果器波形效果器单轨编辑下，允许多个音频片段分别进行效果设置。 2.2.7 2.2.7 效果器效果器Audition的效果器按照功能分为：n 振幅类效果器振幅类效果器n 滤波类效果器滤波类效果器n 延迟类效果器延迟类效果器n 降噪类效果器降噪类效果器n 波形发生类效果器波形发生类效果器n 声码器声码器

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

音频信息处理

文档简介

温馨提示

最新文档

评论

音频信息处理

文档简介

温馨提示

最新文档

评论

相关文档