版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第5章 音频数据的压缩编码第5章 音频数据的压缩编码 明确人的听觉特性 掌握音频编码的分类及原理 掌握MPEG-1音频编码的原理和特点 了解MPEG-2音频编码学习目标第5章 音频数据的压缩编码本章的主要内容 5.1概述 5.2人的听觉特性 5.3音频信号的数字化 5.4-5.8 5.9MPEG-1音频编码 5.10MPEG-2音频编码 5.12音频压缩编码的国际标准 小结5.1 概述 声音是机械振动在弹性介质中传播的机械波,称为声波。 声音转换为电信号时,声音的电信号在时间和幅度上都是连续的模拟信号。 声音的三要素5.1 概述l 音频压缩编码研究的基本问题 在给定编码速率的条件下,如何能够得
2、到尽量好的重建语音质量; 尽量减少编码延时; 降低算法的复杂程度。l 音频信号分为话音(人的说话声音)和一般声音(如音乐)两类。5.1 概述n 音频编码分类l 按照编码速率来分:高速率(高速率(32kb/s 32kb/s 以上)以上)极低速率极低速率(1.2kb/s(1.2kb/s以下以下) )中高速率(中高速率(16-32kb/s16-32kb/s)中速率(中速率(4.8-16kb/ s4.8-16kb/ s)低速率(低速率(1.2-4.8kb/s1.2-4.8kb/s)l 按照编码方法来分:波形编码波形编码参数编码参数编码混合编码混合编码5.2 人的听觉特性n 声音频率是常用的描述声音的参
3、量,人耳所能感受到的声音的频率范围在16HZ-16KHZ。n 声压及声压级SPL(Sound Pressure Level)也是常用的声音描述参量。简单来说,声压就是声音的压力。5.2.1 响度级和响度n响度响度表征声音的强弱表征声音的强弱n响度的客观测量单位响度的客观测量单位声压声压dyn/cmdyn/cm(达因(达因/ /平方厘米);声强平方厘米);声强W/cmW/cm(瓦特(瓦特/ /平方厘米)平方厘米)n描述主观声音的强弱描述主观声音的强弱响度级:方(响度级:方(phonphon); ;响度:宋(响度:宋(sonesone)225.2.1 响度级和响度人耳的等响度曲线:实验表明,人耳感
4、知的声音强度是频率和声压级的函数,通过比较不同频率和幅度的语音可以得到人耳的等响度曲线。图图5 5-1 -1 等等响响曲曲与与声声强强的的关关系系5.2.2 听觉灵敏度u听阈:听阈:能引起人耳听到声音时的声压称为听阈;能引起人耳听到声音时的声压称为听阈;u听觉灵敏度:听觉灵敏度:在给定频率上,人耳能够听到声音的最小声压级。在给定频率上,人耳能够听到声音的最小声压级。u横轴表示频率,纵横轴表示频率,纵轴表示与这段信号相轴表示与这段信号相比其他频率信号能被比其他频率信号能被听到的强度,用分贝听到的强度,用分贝表示;表示;u从图中看出,人耳从图中看出,人耳对不同频率的敏感程对不同频率的敏感程度差别很
5、大,其中对度差别很大,其中对2-4KHZ2-4KHZ范围的信号最范围的信号最为敏感,这个频段以为敏感,这个频段以外,人耳的听觉灵敏外,人耳的听觉灵敏度逐渐降低度逐渐降低。5.2.3 听觉掩蔽n 人耳听觉的人耳听觉的掩蔽效应掩蔽效应: 一个频率声音的听阈由于另一个声音的存在而上升的现象称为掩蔽。在一个较强的声音附近,相对较弱的声音将不能被人耳察觉,即被强音掩蔽。 n 频域掩蔽(同时掩蔽)频域掩蔽(同时掩蔽) 当音频信号中存在多个信号时,强信号会降低人耳对该信号频域附近其他信号的敏感度,这种现象称为频率掩蔽,也称同时掩蔽,是较强的掩蔽效应。n 时域掩蔽(异时掩蔽)时域掩蔽(异时掩蔽) 人耳听到一个
6、强音后,会经过一个短暂的延时才能听到较弱的声音,称为时域掩蔽,时域掩蔽,也称也称异时掩蔽。异时掩蔽。u 超前掩蔽(超前掩蔽(5-20ms5-20ms)u 滞后掩蔽(滞后掩蔽(50-200ms50-200ms)5.2.4 临界带宽 为了描述窄带噪声对纯音信号的掩蔽效应,引入临界带宽的概念。 临界带宽:一个纯音可以被以它为中心频率,并且有一定宽度的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这是该纯音处于刚好能被听到的临界状态,则称这一带宽为临界带宽。 单位:巴克(Bark) 1 Bark=一个临界带宽5.3 音频信号数字化 模拟信号的数字化过程 100101100011101 5.
7、3 音频信号数字化音音频频信信号号频频率率采采样样频频率率采采样样量量化化保保存存为为声声音音文文件件开开 始始结结 束束p根据声音频带、取样频率和样本精度,通常把声音分为五个等级根据声音频带、取样频率和样本精度,通常把声音分为五个等级(见表(见表5-15-1)。由低到高为:)。由低到高为:电话、调幅(电话、调幅(AMAM)广播、调频()广播、调频(FMFM)广播、激光唱盘()广播、激光唱盘(CDCD)、数字)、数字录音带(录音带(DATDAT)5.4-5.8 音频编码的分类1波形编码波形编码 波形编码波形编码是基于对语音信号波形的数字化处理,试图使处理是基于对语音信号波形的数字化处理,试图使
8、处理后重建的语音信号波形与原语音信号波形保持一致。后重建的语音信号波形与原语音信号波形保持一致。 优点优点是实现简单、语音质量较好、适应性强等。是实现简单、语音质量较好、适应性强等。 缺点缺点是话音信号的压缩程度不是很高,实现的码速率比较高。是话音信号的压缩程度不是很高,实现的码速率比较高。 常见的常见的方法方法有:脉冲编码调制有:脉冲编码调制PCMPCM、差、差分分脉冲编码调制脉冲编码调制DPCMDPCM、自适应差分脉冲编码调制(自适应差分脉冲编码调制(ADPCMADPCM)、子带编码()、子带编码(SBCSBC)等。)等。 波形编码的比特率一般在波形编码的比特率一般在1616至至6464K
9、HZKHZ之间,它有较好的话音之间,它有较好的话音质量与成熟的技术实现方法。质量与成熟的技术实现方法。从第一个音频编码出现到现在,出现了很多压缩编码方法,可以将它们分为三类:波形编码、参数编码、混合编码5.4-5.8 音频编码的分类2参数编码参数编码 参数编码参数编码又称声源编码,它是通过构造一个人发声的模型,以发又称声源编码,它是通过构造一个人发声的模型,以发音机制的模型作为基础,用一套模拟声带频谱特性的滤波器系数和音机制的模型作为基础,用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型,在发送端从模拟语音信号中提取各若干声源参数来描述这个模型,在发送端从模拟语音信号中提取各个特
10、征参量并对这些参量进行量化编码,以实现语音信息的数字化。个特征参量并对这些参量进行量化编码,以实现语音信息的数字化。 优点优点是语音编码速率较低,基本上在是语音编码速率较低,基本上在2kbit2kbits s9.6kbit9.6kbits s之间。之间。 缺点缺点合成语音质量差,清晰度满足要求而自然度不好,难以辨认合成语音质量差,清晰度满足要求而自然度不好,难以辨认说话人;电路实现复杂度比较高说话人;电路实现复杂度比较高。 常见的常见的方法方法有:有:线性预测编码线性预测编码LPCLPC。 3 3混和编码混和编码 混和编码混和编码将波形编码和参量编码结合起来,力图保持波形编码话将波形编码和参量
11、编码结合起来,力图保持波形编码话音的高质量与参量编码的低速率音的高质量与参量编码的低速率。 常见的常见的方法方法有:码激励线性预测编码器有:码激励线性预测编码器(CELP) (CELP) ;感知编码;感知编码。 5.9 MPEG-1音频编码-概述 MPEGMPEG-1-1音频编码是第一个高保真立体声音频压缩标准。音频编码是第一个高保真立体声音频压缩标准。 为了保证其普遍性,为了保证其普遍性,MPEG-1MPEG-1提供了以下压缩模式:提供了以下压缩模式: MPEG-1MPEG-1声音标准规定其音频信号采样频率可以有声音标准规定其音频信号采样频率可以有32kHz32kHz、44.1kHz44.1
12、kHz或或48kHz48kHz三种三种。应用感知编码和子带编码模型来对声音数据进行压缩。应用感知编码和子带编码模型来对声音数据进行压缩。音频编码提供三个独立的压缩层次:音频编码提供三个独立的压缩层次: LaLay yer-1er-1、Layer-2Layer-2和和Layer-3Layer-3,使用户可在复杂性和压缩质量之间权衡选择。使用户可在复杂性和压缩质量之间权衡选择。层次层次压缩比压缩比输出数据率输出数据率算法算法应用应用Layer1Layer14:14:1384kb/s384kb/sMUSICAMMUSICAM简化版简化版小型数字盒式小型数字盒式磁带磁带Layer2Layer26:1-
13、8:16:1-8:1192192256kb/s256kb/sMUSICAMMUSICAM数字广播音频、数字广播音频、数字音乐、数字音乐、VCDVCDLayer3Layer310:1-10:1-12:112:164kb/s64kb/sMUSICAMMUSICAM与与ASPECASPEC结合结合MP3MP3、ISDNISDN上的上的声音传输声音传输5.9.2 MPEG-1的心理声学模型5.9.3 编码层次1.第一层Layer-1的编码Layer-1Layer-1的子带划分采用等带宽划分,分为的子带划分采用等带宽划分,分为3232个子带,每个子带有个子带,每个子带有1212个样本,心理声学模型只使用
14、频域掩蔽特性。个样本,心理声学模型只使用频域掩蔽特性。Layer 1Layer 1和和Layer 2Layer 2编码器的结构基本类似,其差别在于编码器的结构基本类似,其差别在于滤波器子滤波器子带的划分不同和带的划分不同和FFTFFT的运算点数不同。的运算点数不同。 Layer-1Layer-1编码器的组成编码器的组成3232子带滤波器组子带滤波器组512512点点FFTFFT心理声学模型心理声学模型线性量化器线性量化器外部控制外部控制比特流格式的比特流格式的CRC-CRC-检验检验5.9.3 编码层次按照标准的帧格式将声音样本的编码、位分配、比例因子及CRC检验码等编码信息封装成帧,帧结构如
15、下(表5-18a):帧头:帧头:由每帧开始的前由每帧开始的前3232个比特组成,这个比特组成,这3232个比特包含同步信个比特包含同步信息和状态信息,同步码由息和状态信息,同步码由1212bitbit组成。所有的三层音频信息编码组成。所有的三层音频信息编码在这部分都是一样的。在这部分都是一样的。帧校验码:帧校验码:帧校验码占帧校验码占1616比特,用来检测传输后比特流的差错,比特,用来检测传输后比特流的差错,所有三层的这一部分也都是相同的。所有三层的这一部分也都是相同的。音频数据:音频数据:由比特分配表、比例因子选择信息、比例因子和子由比特分配表、比例因子选择信息、比例因子和子带样值组成。其中
16、子带样值是音频数据的最大部分,不同层的带样值组成。其中子带样值是音频数据的最大部分,不同层的音频数据是不同的。音频数据是不同的。辅助数据(辅助数据(ADAD):):用来传输相关的辅助信息。用来传输相关的辅助信息。1.第一层Layer-1的编码5.9.3 编码层次nLayer-2Layer-2编码在编码在Layer-1Layer-1的基础上作了改进。的基础上作了改进。3232个子带,每个子个子带,每个子带分为带分为3 3个个1212样本组,这样每帧共有样本组,这样每帧共有11521152个样本。在掩蔽特性方面个样本。在掩蔽特性方面除保留原有的频域掩蔽外还增加了时域掩蔽。另外在低频、中频除保留原有
17、的频域掩蔽外还增加了时域掩蔽。另外在低频、中频和高频段对比特分配做了一些限制,对比特分配、比例因子和量和高频段对比特分配做了一些限制,对比特分配、比例因子和量化样本值编码也更紧凑。化样本值编码也更紧凑。n考虑到人耳对声音的低频段最为敏感,所以对低频段划分更细,分配更多的比特数,高频段分配较少的比特数。为此就需要较复杂的滤波器组,故FFT增加到1024,提高了频率分辨率。2.第二层Layer-2的编码5.9.3 编码层次nLayer-3Layer-3使用使用不等长子带不等长子带划分。心理声学模型在使用频域掩蔽划分。心理声学模型在使用频域掩蔽和时域掩蔽特性之外又考虑到了和时域掩蔽特性之外又考虑到了
18、立体声信息数据的冗余立体声信息数据的冗余,还增加,还增加了了霍夫曼编码器霍夫曼编码器。滤波器组在原有的基础上增加了。滤波器组在原有的基础上增加了改进离散余弦改进离散余弦变换变换MDCTMDCT,可以部分消除由多相滤波器组引入的混叠效应。,可以部分消除由多相滤波器组引入的混叠效应。nLayer-3Layer-3指定了两种指定了两种MDCTMDCT块长,块长,1818个样本个样本组成的组成的长块长长块长和和8 8个样个样本本组成的组成的短块长短块长。对于平稳信号使用长块可以获得更高的频域分。对于平稳信号使用长块可以获得更高的频域分辨率,对跳变信号使用短块长可以获得更好的时域分辨率辨率,对跳变信号使
19、用短块长可以获得更好的时域分辨率。3.第三层Layer-3的编码5.10 MPEG-2音频编码nMPEG-2定义了两种视频压缩格式: MPEG-2 BC(与MPEG-1声音格式兼容)和MPEG-2 AAC(与MPEG-1声音格式不兼容)。 MPEG-1的基础上发展起来的,是MPEG为多声道声音开发的低码率方案,增加了以下内容: MPEG-2MPEG-2对多声道的扩展方式是通过对多声道的扩展方式是通过可分级的方式可分级的方式来实现来实现的。的。在在编码器端编码器端,5 5个输入的声道信号别向下混合为一路兼容个输入的声道信号别向下混合为一路兼容立体声信号,再按照立体声信号,再按照MPEG-1MPE
20、G-1的编码标准进行编码;的编码标准进行编码;用于在解码端恢复原来用于在解码端恢复原来5 5个声道的相关信息都被安置在个声道的相关信息都被安置在MPEG-MPEG-2 2的扩展区的扩展区里,里,MPEG-1MPEG-1在进行解码的时候可忽略此区在进行解码的时候可忽略此区的数据。的数据。MPEG-2MPEG-2多声道解码器除了对多声道解码器除了对MPEG-1MPEG-1的部分进行解码外,的部分进行解码外,还对附加的信道信息进行解码,根据这些信息来恢复原来还对附加的信道信息进行解码,根据这些信息来恢复原来的的5.15.1声道。(图声道。(图5-225-22)5.10.2 MPEG-2 AAC 编码
21、标准 MPEG-2 AACMPEG-2 AAC(Advanced Audio Advanced Audio CodingCoding) MPEG-2 MPEG-2标准中一种非标准中一种非常灵活的编码标准,采用常灵活的编码标准,采用感知编码感知编码方法,主要是方法,主要是利用听觉系统利用听觉系统的掩蔽特性的掩蔽特性来减少声音编码的数据量;并且通过来减少声音编码的数据量;并且通过子带编码子带编码将量将量化噪声分散到各个子带中,用全局的声音信号将噪声掩蔽掉。化噪声分散到各个子带中,用全局的声音信号将噪声掩蔽掉。 MPEG-2 AAC MPEG-2 AAC 采用采用模块化模块化的编码方法,把整个的编码方法,把整个A AA AC C系统分成一系系统分成一系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2031年中国建筑外墙清洁设备行业投资前景及策略咨询研究报告
- 2025至2030年中国手抄粉画纸数据监测研究报告
- 二零二五年度农业综合开发项目投资合同4篇
- 2025版环境监测调查委托合同范本3篇
- 二零二五版公司员工薪资福利调整协议3篇
- 砖砌体施工安全技术交底(5篇)
- 网约车营运车辆转让合同范文
- 挖掘机施工租赁合同
- 2025年度个人与个人医疗借款合同(保障健康权益)2篇
- 2025-2030全球风机叶片智能监测软件行业调研及趋势分析报告
- 第1课 隋朝统一与灭亡 课件(26张)2024-2025学年部编版七年级历史下册
- 2025-2030年中国糖醇市场运行状况及投资前景趋势分析报告
- 【历史】唐朝建立与“贞观之治”课件-2024-2025学年统编版七年级历史下册
- 冬日暖阳健康守护
- 产业园区招商合作协议书
- 水处理药剂采购项目技术方案(技术方案)
- 2024级高一上期期中测试数学试题含答案
- 盾构标准化施工手册
- 天然气脱硫完整版本
- 山东省2024-2025学年高三上学期新高考联合质量测评10月联考英语试题
- 不间断电源UPS知识培训
评论
0/150
提交评论