版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
音频处理技术与应用第一页,共三十页,编辑于2023年,星期二2.1音频处理基础
2.1.1音频信号概述
1.声波
(1)声波:由各种机械振动或气流的扰动引起周围的弹性媒质发生波动。
(2)声源:产生声波的物体,如人的声带和乐器等。
(3)声音:人的听觉系统所能感知到的声波。
音频的频率范围:20Hz~20000Hz
语音的频率范围:300Hz~3000Hz
次声波的频率范围:<20Hz
超声波的频率范围:>20kHz(4)声强:对于一定频率的声音,要能引起听觉,其声强也有一定的范围。
下限:是恰能引起人听觉的最小声强,叫做该频率的可闻阈;
上限:是指人耳能听闻的最大声强,高于上限的声强,人耳感觉疼痛,所以叫做该频率的疼痛阈。第二页,共三十页,编辑于2023年,星期二2.声音的基本特征(1)声波信号的物理特征
周期(T):声波的两个波峰或波谷之间的相对时间。
频率(f):周期的倒数(f=1/T),即每秒波峰或波谷出现的次数。声波的幅度:从声波信号的基线到波峰的距离,幅度越大声波的强度也越大。通常也用声压、声强或声功率来表示声音的强弱。
常见声音的分贝量级分贝数低于2020~4040~6060~7070~90>90听觉效果能分辨轻声正常交谈声吵闹很吵听力受损第三页,共三十页,编辑于2023年,星期二
(2)声音信号的心理学特征
人们感知到的声音特征称为心理学特征。音调:在音乐中又叫音高,是由发声物体的振动频率决定,振动越快(即频率越大),音调越高,振动越慢,音调越低。音调的高低与声音基频的对数(20*log)成线性关系。基频越低,给人的感觉是声音越低沉,基频频率增加一倍,在音乐上就叫升高了一个八度。音色:这是一个主观评价声音的量,声音的音色取决于声音的频谱结构,一般高次谐波越丰富,音色越明亮并具有穿透力。响度:人耳对声音强弱的感觉程度,主要取决于振幅和声压。通常振幅越大声音越响,其次人耳距离声源越远,声音越小。第四页,共三十页,编辑于2023年,星期二
(3)声音质量的评价 声音质量与带宽有关,频率范围越宽,声音质量越高。1)声音质量分级:按照声音信号的频率范围将声音质量分为5级。质量频率范围采样频率(kHz)采样精度(bits)声道数数据率(非压缩)(kB/s)电话200~3400Hz88单道声8AM100~5500Hz11.0258单道声11.0FM20~11000Hz22.05016立体声88.2CD-DA5~20000Hz44.116立体声176.4DVD0~96000Hz192246声道12002)信噪比(SNR):即有用信号与噪音信号的强度之比,对于声卡或音箱则是其产生的最大不失真声音信号强度与同时发出的噪音强度之比,单位是分贝。3)声音主观质量的度量:主观度量就是大多数人对声音质量的感觉。第五页,共三十页,编辑于2023年,星期二
3.音频信号的表示声音信号通过麦克风等设备转换成电信号以后称之为音频信号。
(1)规则音频信号
规则音频(Audio)是带有语音、音乐和音效的有规律的音频信号,承载了一定的信息。
语音:是语言的载体,有丰富的语言内涵,是人类交流的信息载体。
音乐:是一种规范的符号化的声音。
音效:是指自然界中的其他各种声音效果,如掌声、雷鸣声,爆破声等。
不规则声音:不包含任何信息的声音,比如噪声。(2)音频信号的表示
1)音频信号的数学表示其中:ω0表示声音的基音,决定了音调的高低,nω0是ω0的n次谐波分量,代表了声音的泛音,决定了声音的音色,An
是声波的振幅,表示声音的强弱。第六页,共三十页,编辑于2023年,星期二2)音频信号的波形表示3)音频信号的频谱表示信号频谱即信号频率的分布曲线。复杂的声音可以认为是振幅不同和频率不同的正弦声波叠加而成的,这些正弦声波的幅值按频率排列的图形就叫做频谱。男声的基频较低,低频分量更加丰富,因此听起来会更加低沉、浑厚。第七页,共三十页,编辑于2023年,星期二
声音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的,属于模拟信号。
(1)采样
声音信号在时间轴上的离散化,即每隔相等的一段时间抽取一个信号样本。采样频率:每秒采样的次数。奈奎斯特理论(Nyquisttheory):采样频率不应低于声音信号最高频率的两倍,这样就能把以数字声音还原成原来的声音,称为无损数字化。
fs>=2fmax
电话话音信号的最高频率约为3.4kHz,所以采样频率取为8kHz。2.1.2音频信号的数字化1.音频信号数字化第八页,共三十页,编辑于2023年,星期二
(2)量化
将连续的声音信号的幅度离散化。也就是采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。采样精度:即量化的位数,位数越多量化等级数也越多,所能表示的声波幅度的动态范围也越大,当然需要的存储空间也越大。
第九页,共三十页,编辑于2023年,星期二
(3)编码就是用一组二进制码组来表示每一个有固定电平的量化值,或者说将量化值转换成二进制码组。典型的音频编码方法:脉冲编码调制法(PCM)。
(4)数字音频的数据量
数据量=采样频率*采样精度*采样时间*声道数/8(字节数)
单声道:一次只产生一组声波数据,
立体声:一次产生两组声波数据,分别送往左声道和右声道,根据声音到达人耳的时间差产生空间立体效果,因此立体声声波数据所需存储空间是单声道的一倍。例2.1
计算一分钟未压缩的高保真立体声数字声音数据的大小。
60*(44100*16*2)/8=10.09MB
一首未经压缩的4分钟的歌曲文件的大小约为40MB,那么一个容量为512MB的MP3播放器也只能播放12首这样的歌曲。第十页,共三十页,编辑于2023年,星期二(1)电话质量的语音压缩标准(2)调幅广播语音压缩标准:G.722(3)高保真立体声的宽带音频压缩标准2.数字音频压缩标准标准编码方法采样频率采样精度数据传输率G.711PCM8kHz8位64kb/sG.721ADPCM8kHz8位32kb/sG.723ADPCM8kHz8位24kb/sG.728LD-CELP8kHz8位16kb/s电话质量的语音压缩标准
MPEG音频:是第一个高保真立体声音频压缩的国际标准,MPEG音频压缩标准提供三个独立的压缩层次:1)Layer1:编码器简单,输出数据率为384kb/s,主要用于小型数字盒式磁带。2)Layer2:编码器较复杂,输出数据率为256kb/s~192kb/s,主要应用于数字广播声音、数字音乐、CD-I和VCD等。3)Layer3:编码器复杂,输出数据率为64kb/s,主要用于ISDN上的声音传输。第十一页,共三十页,编辑于2023年,星期二1.WAV文件:波形文件,微软开发,需要的存储量大,多用于存储简短的声音片段和旁白。2.MIDI文件:记录的是生成音乐的指令,MIDI文件短小。由于MIDI记录的并不是真正的声音,所以不同的声卡,不同软波表,不同硬件音源的音色是不相同的,相同的MIDI文件在不同的设备上播放也会有不同的效果。MIDI文件适合作为背景音乐来播放。3.MP3文件:是MPEG音频第3层的简称,有损压缩,压缩比达12:1。MP3利用人耳的掩蔽特性,削减音频中人耳听不到的成分,同时尽可能地维持原来的声音质量。4.RA文件:属于RealMedia的音频部分,采用流式传输方式,可以在非常低的带宽下提供足够好的音质让用户能在线聆听。5.WMA文件:WindowsMedia的音频部分。无损压缩,支持多声道编码。6.AC3文件:又叫杜比数码环绕立体声,压缩比10:1,提供的环绕声系统由5个全频域声道和1个超低音声道组成,称为5.1声道,一般作为DVD的伴音。3.数字音频文件的格式第十二页,共三十页,编辑于2023年,星期二2.1.3数字音频处理技术
1.数字音频技术
是一门结合数字技术和计算机技术而实现传统音频处理的技术。
(1)特点
1)处理长样本文件的能力,录音时间只受硬盘本身大小的限制。
2)随机存取编辑
3)无损编辑
(2)应用1)声音剪辑和CD刻录。2)日常音乐录制。3)大规模音乐录音和混音。4)影视音乐的制作与合成。5)多媒体音乐制作与合成。数字音频工作站
第十三页,共三十页,编辑于2023年,星期二2)语音识别系统分类对说话人说话方式的要求孤立字(词)语音识别系统连接字语音识别系统连续语音识别系统。对说话人的依赖程度特定人语音识别系统非特定人语音识别系统词汇量大小小词汇量语音识别系统中等词汇量语音识别系统大词汇量语音识别系统无限词汇量语音识别系统。2.智能语音处理技术(1)语音识别技术1)语音识别的发展50年代:AT&TBell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。60年代:提出动态规划(DP)和线性预测分析技术(LP)。70年代:提出了动态时间归正技术(DTW),矢量量化(VQ)和隐马尔可夫模型(HMM)理论,实现了特定人孤立语音识别系统。90年代:开始进入实用阶段。第十四页,共三十页,编辑于2023年,星期二语音合成技术:指利用计算机合成语音信号的技术,使计算机能够产生高清晰度和高自然度的连续语音,能够具有类似普通人的说话能力。语音合成的三个层次从文字到语音从概念到语音从意向到语音语音合成技术的特点清晰度自然度表现力复杂度语音合成的应用文语转换语音查询(2)语音合成技术第十五页,共三十页,编辑于2023年,星期二2.2音频处理软件AdobeAudition
单轨编辑界面2.2.3Audition界面及基本操作
第十六页,共三十页,编辑于2023年,星期二多轨编辑界面第十七页,共三十页,编辑于2023年,星期二第十八页,共三十页,编辑于2023年,星期二2.2.4音频信号获取直接读取计算机磁盘上的音频文件;提取视频信息中的音频信号;直接录音。Audition允许同时进行多音轨录音,当然需要有相应的硬件支持,比如多个音频输入接口、多个录音源等。1.录音前声卡设置
“选项|Windows录音控制台”2.建立录音文件3.导入伴奏音乐4.控制录音电平5.录制声音第十九页,共三十页,编辑于2023年,星期二2.2.5音频编辑单轨编辑状态:可以进行波形的各种编辑处理和效果的设置,还可以分别对左右声道单独进行编辑处理。多轨编辑状态:适合对多个音频轨道进行编辑、录制和合成处理。最多可以同时处理的轨道数为128个。按钮“R”表示录音、“S”表示独奏、“M”表示静音。1.常用编辑(1)裁剪音频波形波形的选择波形的删除波形的移动与复制
混合工具:拖曳左键选中波形,拖曳右键移动波形。
时间选择工具:拖曳左键选中波形。移动/复制剪辑工具:拖曳左键移动波形,拖曳右键移动或复制。刷选工具:拖曳左键可以播放选中波形。第二十页,共三十页,编辑于2023年,星期二(2)切分和合并音频
在多轨编辑状态下,可以对活动音轨上的波形进行分割,使其变成多个波形片段,定位播放线,执行“剪辑|分割”或右击鼠标点选“分割”。使两段波形首尾相接,按住Ctrl键将两段波形都选中,执行“剪辑|合并”或右击鼠标点选“合并”即可完成。(3)锁定音频波形锁定使音频的绝对时间位置不变。(4)编组音频波形编组则可以使多个音频片段的相对位置固定,移动时可整体移动。第二十一页,共三十页,编辑于2023年,星期二2.包络编辑(1)音量包络编辑
音量包络是指音频波形随时间变化而产生的音量变化,也即是音量变化的走势曲线。通过控制音量包络曲线来改变某音轨上音频信号的音量大小,是一个非常直观和简单有效的方法。(2)声相包络编辑
声相就是声音在左右声道中所处的位置。声相包络线处于中间时(0点),声音在左右声道中达到平衡的效果,声相包络线位于上半部,声音偏向左声道,声相包络线位于下半部,声音偏向右声道。第二十二页,共三十页,编辑于2023年,星期二(3)音量淡化包络编辑
Audition提供了简单快速的音量淡化包络。在音乐制作领域,淡化(fade)指音量的逐渐变化,音量由小到大变化称为淡入(fadein),音量由大到小变化称为淡出(fadeout)。3.时间伸缩用于改变声音播放的速度,且不影响音高。“查看|启用剪辑时间伸展”时间伸缩第二十三页,共三十页,编辑于2023年,星期二2.2.6加载效果器
加载效果器按照使用方法可分为:
插入效果器:作用的声音范围是一整条音轨;
波形效果器:作用于音轨中的某一段音频片段;
总线效果器
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年03月山西浦发银行太原分行招考笔试历年参考题库附带答案详解
- 个人工作自我鉴定10篇
- 专业求职信集锦6篇
- 2025年上门服务项目规划申请报告模范
- 无偿献血倡议书汇编15篇
- 2025年污水自动采样器项目立项申请报告模范
- 中职毕业学生自我鉴定
- 2022知危险会避险交通安全课观后感(范文10篇)
- 竞选大队委演讲稿模板八篇
- 《小海蒂》读书笔记15篇
- 沪教2011课标版三年级起点五年级下册《Buying Clothes》说课稿
- 幼儿园教职工教代会会议记录
- 《涑水记闻》2021年江苏镇江中考文言文阅读真题(含答案与翻译)
- 花生十三数字推理讲义
- 家庭家教家风·家庭美德·文明家庭主题班会
- 庐山云雾阅读答案千姿百态
- 语文一年级上全册教案
- 2023ESC急性肺栓塞诊断和管理指南中文完整版
- 高中地理学业水平考试知识点总结模版
- 腾讯绩效考核方案设计
- ICU床头交接班规范
评论
0/150
提交评论