音频压缩编码原理以及标准

上传人：农*** IP属地：广东上传时间：2022-08-18 格式：PPT 页数：67 大小：2.67MB 积分：18 举报 版权申诉

已阅读5页，还剩62页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、关于音频压缩编码原理及标准第一张，PPT共六十七页，创作于2022年6月主要内容：音频压缩编码的基本原理MPEG-1音频压缩编码标准杜比AC-3音频压缩算法MPEG-2音频压缩编码标准MPEG-4音频压缩编码标准第二张，PPT共六十七页，创作于2022年6月音频信号的分类：按照对声音质量的要求不同以及使用频带的宽窄，将音频信号分为以下4类：窄带语音：又称电话频带语音，300-3400Hz，用于各类电话通信，数字化时采样频率常用8kHz。宽带语音：用于电话会议，视频会议，50-7000Hz ，数字化时采样频率常用16kHz。数字音频广播：20-15000Hz，数字化时采样频率常用32kHz。高保

2、真立体声音频信号：20-20KHz，用于VCD、DVD、CD等，数字化时采样频率常用44.1kHz 或48kHz。第三张，PPT共六十七页，创作于2022年6月巨大的数据量给存储和传输带来的压力CD唱片Fs=44.1KHz 量化精度 16bit 双声道数码率？1.41Mbit/s1S信号所需存储空间？176.4KB3.1 音频压缩编码的基本原理第四张，PPT共六十七页，创作于2022年6月音频信号压缩的可能性数字音频信号中存在着大量冗余频域冗余：低频成分比高频成分多语音信号的共振峰时域冗余：小幅度样本比大幅度样值出现的概率大。相邻样值间的相关性信号周期的相关性长时自相关话音间隙冗余听觉冗余

3、：利用人耳的感知特性，将听不到的信号压缩掉。第五张，PPT共六十七页，创作于2022年6月声音压缩编码的声学原理声音信号的频率范围？ 20Hz-20KHz声音频谱的特点: 高频段快速下降，高幅值大部分集中在中频段，有的延伸到低频段电平分布特点：声音信号的电平存在冗余第六张，PPT共六十七页，创作于2022年6月声音压缩编码的声学原理第七张，PPT共六十七页，创作于2022年6月掩蔽效应一个较弱的声音（被掩蔽音）的听觉感受被另一个较强的声音（掩蔽音）影响第八张，PPT共六十七页，创作于2022年6月掩蔽量与掩蔽声具有的声压级成正比掩蔽声的声压级越高、掩蔽的频率范围随之加宽被掩蔽声的频率越接近

4、掩蔽声，掩蔽效应越显著、掩蔽量增大掩蔽声对于低于掩蔽声频率的声音掩蔽效果弱，对于高于掩蔽声频率的声音掩蔽效果显著。第九张，PPT共六十七页，创作于2022年6月利用声音的掩蔽效应，可以用有用的信号去掩蔽无用的信号只需把无用信号的声压级降至掩蔽域之下即可，无需消除无用分量第十张，PPT共六十七页，创作于2022年6月噪声对纯音的掩蔽人耳听力系统带通滤波器对某频率的声音信号的拾取会采用中心频率接近此频率的带通滤波器，因此，只有通过该带通滤波器的那部分噪声才会对该信号产生影响第十一张，PPT共六十七页，创作于2022年6月临界带宽描述人耳的滤波特性如果在一频带内噪声的功率等于该纯音的功率，且这时

5、，纯音刚好能被听到（临界状态），此纯音附近的窄带噪声带宽的宽度便称为临界带宽通常认为20Hz20KHz内有24个临界频带第十二张，PPT共六十七页，创作于2022年6月窄带噪声的掩蔽效应要明显于纯音声压级较低时，掩蔽仅局限于中心频率附近较窄的频率范围随着声压级的提高，掩蔽区的频率范围加宽随着声压级的提高，对高于中心频率的声音掩蔽作用加强第十三张，PPT共六十七页，创作于2022年6月时域掩蔽前向掩蔽：20ms，由于人耳的积累效应，被掩蔽声尚未被听到，掩蔽声已经出现，其掩蔽效果很差后向掩蔽：100ms，由于人耳的存储效应，掩蔽声虽已消失，掩蔽效应仍然存在。第十四张，PPT共六十七页，创作于202

6、2年6月心理声学模型生理声学研究听觉器官的构造和听音机理心理声学研究听觉心理，研究主观量与客观量之间的关系。心理声学模型中一个基本概念：听觉系统中存在一个听觉阈值电平，低于这个电平的音频信号就听不到，因此就可以把这部分信号忽略掉，无需对它进行编码，而不影响听觉效果心理声学模型要完成掩蔽阈值的估算，输出信号-掩蔽比率（SMR）第十五张，PPT共六十七页，创作于2022年6月利用人耳的听觉感知特性，使用心理声学模型，将人耳不能感知的声音成分去掉，只保留人耳能感知的声音成分。不为追求最小的量化噪声，只要量化噪声不被人耳感知即可。感知音频编码（MPEG）原理第十六张，PPT共六十七页，创作于202

7、2年6月音频编解码器的性能指标：重建的音频质量、数码率、复杂度和时延。研究的基本问题是：更好的音频质量，并尽可能小的编解码时延和算法复杂度；降低数码率。重建音频质量的评价方法有客观评价和主观评价。第十七张，PPT共六十七页，创作于2022年6月分类方法一：时域编码利用声音信号在时间域内幅度变化经PAM后形成的样本值，对不同样本值实现二进制码替代，从而形成数据码流频域编码将时域中的声音信号进行频率变换，结合声音的相关性及人的感知，选取量化比特数进行编码统计编码依据各个信号幅值出现的概率不同进行概率匹配编码音频压缩编码的方法第十八张，PPT共六十七页，创作于2022年6月分类方法二：波形编

8、码对音频信号的时域或频域波形采样值进行编码。主要利用音频样值的幅度分布规律和相邻样值间的相关性进行压缩。参数编码根据声音形成机理的分析，以重建语音信号具有足够可懂度的原则上，通过建立语音信号的产生模型，提取代表语音信号特征的参数进行编码混合编码上述两种编码的混合音频压缩编码的方法第十九张，PPT共六十七页，创作于2022年6月结合声音幅度的出现概率来选取量化比特数进行编码，在满足一定的量化噪声下压缩数码率，从而降低比特率。时域编码第二十张，PPT共六十七页，创作于2022年6月利用人耳听觉的声掩蔽特性，在满足一定量化噪声下来压缩码率采用滤波和变化，在频域内将其能量较小的分量忽略，从而实

9、现降低比特率频域编码第二十一张，PPT共六十七页，创作于2022年6月频域编码子带编码：通过带通滤波器分成许多频带子带，分析每个子带取样的能量，依据心理声学模型来编码变换编码：变换到频域，根据心理声学模型对变换系数进行量化和编码第二十二张，PPT共六十七页，创作于2022年6月子带编码首先用一组带通滤波器把输入的音频信号分成若干个连续的子带，然后对每个子带中的音频信号单独编码，在接收端将各子带单独译码，然后组合、还原成音频信号。对每个子带的采样值分配不同的比特数。低频分配较多量化比特，高频分配较少量化比特。利用声音信号的频谱特点及人耳的感知模型。第二十三张，PPT共六十七页，创作于2022年6

10、月第二十四张，PPT共六十七页，创作于2022年6月变换编码声音信号从时域变为频域，用频率分量形式表示原信号，再对其频谱系数进行量化编码量化编码过程中，利用心理声学模型，对频谱系数进行优化，来实现对音频数据进行有效的压缩时频变化的方法：离散余弦变换DCT 、改进的离散余弦变换MDCT第二十五张，PPT共六十七页，创作于2022年6月离散余弦变换（DCT）时频变换（DFT）变换时将PCM样值分为N长的一块块进行变换块长：一块中包含的样本数N 窗长：N （1/Fs）频率分辨率：Fs/N 频率轴上的所能得到的最小频率间隔块越长，变化编码的频率分辨率越高，但损失了时域分辨率逆变换第二十六张，

11、PPT共六十七页，创作于2022年6月离散余弦变换（DCT）将原信号沿负方向延拓定义域，并合理选择对称坐标轴，使其正、负轴对称，这样信号变为实轴对称的偶函数，DFT变换后仅有余弦项而不存在正弦项，运算量大为减小。原本的N个样本，经过对称后变为2N个 2N为抽取的样本值总数，为DCT变换的块长度。例：采样为48KHz的PCM样值进行DCT变换，窗长分别为21.33ms（相当于1024个样值），5.33ms（相当于256个样值），则频率分辨率和时间分辨率分别为？时间分辨率：长窗=2N （1/Fs）=42.68ms 短窗= 2N （1/Fs）=10.66ms 频率分辨率：长窗=Fs/2N=2

12、3.43Hz 短窗= Fs/2N=93.75Hz 第二十七张，PPT共六十七页，创作于2022年6月依据各个信号幅值出现的概率不同进行概率匹配编码熵编码是依据声音信号幅度的概率分布特点，通过合理的比特数分配使得信号概率与比特数之间相匹配，以达到降低平均码长的目的统计编码第二十八张，PPT共六十七页，创作于2022年6月可变字长编码第二十九张，PPT共六十七页，创作于2022年6月MPEG Moving Picture coding Experts Group 活动图像专家组1988年由国际标准化组织ISO和国际电工委员会IEC联合成立的专家组，负责开发电视图像数据和声音数据的编码、解码和它们的

13、同步等标准。已经开发和正在开发的MPEG标准有：MPEG-1：数字存储媒体标准，1992年正式发布。MPEG-2：数字电视标准，1993年11月发布。 MPEG-4：多媒体应用标准(1999年发布)。MPEG-7：多媒体内容描述接口标准(1998年10月) MPEG21：开放的多媒体传输和消费的框架。（2002年6月）3.2 MPEG-1音频压缩编码标准第三十张，PPT共六十七页，创作于2022年6月MPEG-1 音频压缩算法的特点世界上第一个高保真音频数据压缩标准输入线性PCM信号，采样频率可以为32kHz，44.1KHz，48KHz，输出数码率32-384kbit/s压缩后的比特流可以是

14、：单声道模式/双-单声道模式/立体声模式/联合立体声模式提供3个独立的压缩层次：第1层（Layer1），第2层，第3层第三十一张，PPT共六十七页，创作于2022年6月MPEG-1 音频压缩算法的特点可预先定义压缩后的数码率编码后的数据流支持循环冗余校验支持数据流中载带附加信息第三十二张，PPT共六十七页，创作于2022年6月MPEG-1 音频压缩编码的基本原理MPEG-1音频压缩的基础是量化MPEG-1使用感知音频编码来达到压缩音频数据又尽可能保证音质的目的。感知音频编码的理论依据是听觉系统的掩蔽特性。基本思想是在编码过程中，保留有用的信息而丢掉被掩蔽的信号。MPEG-1提供3个独立的压缩

15、层次，它们的基本模型相同。层1是最基础的。任何MPEG-1音频码流帧结构的同步头中都有一个2bit的层代码字段用来指出所用的是哪一个层次MPEG-1按规定构成“帧”格式，层1的每帧包含384个采样值码字。384个采样值来自32个子带，每个子带12个采样值。层2和层3每帧包含1152个采样值的码字每个子带包含36个采样值。第三十三张，PPT共六十七页，创作于2022年6月MPEG-1 层1原理方框图第三十四张，PPT共六十七页，创作于2022年6月MPEG-1 层11、子带分析滤波器组将宽频带信号分割成32个子带信号子带为等宽的均匀划分2、标定将每个子带中12个采样值归并成一个块找出12

16、个采样值中绝对值最大的样本值根据其值的大小确定比例因子（查表得到，大于该绝对值的一系列值中的最小值定为比例因子）将12个采样值用比例因子归一化（标定）比例因子用6个bit来表示每12采样值并成的块进行一次比特分配，并记录一个比例因子第三十五张，PPT共六十七页，创作于2022年6月MPEG-1 层13、快速傅里叶变换（FFT）信号从时域变换到频域的过程使信号具有高的频率分辨率，为心理声学模型分析提供信号的频谱特征4、心理声学模型 MPEG-1 层1把音频信号分到频域子带，然后根据每个子带内的量化噪声的大小对每个子带进行量化。为了达到最大的压缩比，应求出每个子带的量化级数使得量化噪

17、声恰好不被听到目标：计算子带的信号掩蔽比（SMR）第三十六张，PPT共六十七页，创作于2022年6月SMR计算过程数字音频信号用傅里叶FFT变时域为频域确定每个子带的声压级确定安静状态的阈值找出声音信号中的纯音和非纯音成分单独掩蔽域值的计算总体掩蔽阈值的计算每个子带最小掩蔽阈值的确定每个子带的信号-掩蔽比率的计算第三十七张，PPT共六十七页，创作于2022年6月MPEG-1 层15、动态比特分配为了满足数码率和掩蔽特性的要求，比特分配器应同时考虑来自分析滤波器的输出样值及来自心理声学模型的信号掩蔽比（SMR），来决定分配给各个子带信号的量化比特数，使量化噪声低于掩蔽阈值。不同的子带信号可

18、分配不同的量化比特数，但对于各个子带信号而言，是线性量化。6、帧结构量化后的采样值和格式标记以及其他附加辅助数据按照规定的帧格式组装成比特流数据第三十八张，PPT共六十七页，创作于2022年6月MPEG-1 层1的帧结构同步头：用于同步和记录帧信息 32bitCRC：用于检验传输差错的循环冗余校验码 16bit比特分配：描述比特分配信息的字段，每个子带4bit比例因子：每个子带6bit采样值码字：同一个子带内的每个采样值用215bit表示可能的附加辅助数据：长度未作规定第三十九张，PPT共六十七页，创作于2022年6月MPEG-1 层2第四十张，PPT共六十七页，创作于2022年6月MPE

19、G-1 层2层2和层1的不同1、使用1024点的FFT，提高频谱分辨率2、每帧包含1152个采样值的码字。每个子带包含36个采样值的码字，按照3个块进行编码，每块12个采样值。3、描述比特分配的字段长度随子带的不同而不同。低频段子带用4bit描述，中频段3个bit，高频段2个bit4、编码器可对一个子带内3块采样值使用3种不同的比例因子，传输时采用比例因子选择信息（SCFSI）描述第四十一张，PPT共六十七页，创作于2022年6月MPEG-1 层2、SCPSI 比例因子选择信息为了降低传送比例因子的码率，信号平稳变化时，只传送其中1个或2个较大的比例因子；对于瞬态变化的信号，3个比例因子都传

20、递。 00 传送所有的3个比例因子 01 传送第1和第3个比例因子 10 传送一个比例因子 11 传送第1和第2个比例因子第四十二张，PPT共六十七页，创作于2022年6月MPEG-1 层1与层2参数比较参数MPEG-1层1MPEG-1层2帧长3841152子带3232子带取样1264FFT5121024比特分配每子带4个24比例因子选择信息无每子带2个比例因子每子带6个每子带618个取样组无每子带3个第四十三张，PPT共六十七页，创作于2022年6月MPEG-1 层3 （MP3）第四十四张，PPT共六十七页，创作于2022年6月MPEG-1 层31、将PCM样本分割成不等带宽的子带，子带送至

21、MDCT，对子带进行再采样，其样本经MDCT映射到频域，建立信号的频域样本。2、使用MDCT，指定两种MDCT的块长：长块18个采样值，短块6个采样值，相邻变换窗口之间有50%的重叠。所以窗长大小分别为36和12个采样值。对于给定的一帧音频信号MDCT可全部采用长块或全部采用短块，也可以长、短块混合使用。因为低频段的分辨率对音质的影响大，所以在混合模式下，MDCT对最低频的2个子带用长块，而其余30个子带用短块。这样既能保证低频的频率分辨率，也不牺牲高频的时间分辨率。3、熵编码(哈弗曼编码)第四十五张，PPT共六十七页，创作于2022年6月3.3 杜比AC-3音频压缩算法立体声重放 L、

22、R两个声道利用人耳的双耳效应感受声音的纵深感和宽度第四十六张，PPT共六十七页，创作于2022年6月多声道环绕声重放三声道重放第四十七张，PPT共六十七页，创作于2022年6月4声道环绕声重放第四十八张，PPT共六十七页，创作于2022年6月5声道环绕声重放第四十九张，PPT共六十七页，创作于2022年6月多声道格式还可以附加低频增强（LFE）声道。LFE声道包含15-120Hz的信息，称为0.1声道，与5声道构成5.1声道。0.1声道的采样频率是主声道采样频率的1/96目前主要的环绕声编码方案有： MUSICAM环绕声 MPEG-2音频编码的核心，是基于人耳听觉感知特性的子带编码算法杜比

23、AC-3 美国HDTV伴音采用的算法第五十张，PPT共六十七页，创作于2022年6月Dolby AC-3 特点统一编码：将5个分立的全频带声道和1个低音声道的信号实行统一编码，成为单一的复合数据流采样频率支持32、44.1、48KHz两个环绕声道相互独立辅助低音声道的音量可独立调整使用基于MDCT的自适应变换编码兼容性：解码重放时，对单声道、双声道及多声道系统有兼容性第五十一张，PPT共六十七页，创作于2022年6月Dolby AC-3 编码器原理图第五十二张，PPT共六十七页，创作于2022年6月分析滤波器组将PCM采样数据变换成频域内的一系列变换系数。数据分组成块，每块包含512个采

24、样值，其中256个采样值是新的，另外256个采样值与上一块相同。每个音频的采样值会出现在两个块中，采样值数加倍。稳态信号，可选用块长为512个采样值；瞬态信号，可选用块长为256个采样值。谱包络编码从变换得到的频域变换系数被转换为浮点数。所有变换系数的值都定标为小于1.0。最后指数编码的结果根据频率分辨率的需要选择一种频谱包络。第五十三张，PPT共六十七页，创作于2022年6月比特分配按照谱包络编码输出的信息确定尾数编码所需要的比特数，将可分配的比特按最佳的方式分配给各个尾数。尾数量化按照比特分配程序确定的比特数对尾数进行量化。可查表得到。声道组合利用人耳对高频定位的特性。重组矩

25、阵左右声道具有相关性，利用“和”“差”的方法产生中间和边声道来代替左右声道。第五十四张，PPT共六十七页，创作于2022年6月动态范围控制每个音频块传送一个动态控制字。在信号响度高于对话电平时降低增益，在信号响度低于对话电平时提高增益，信号接近对话电平时不需调节增益。第五十五张，PPT共六十七页，创作于2022年6月Dolby AC-3 编码器AC-3帧格式 SI：同步头，包含获取和保持同步的信息 BSI：比特流信息头，包含描述编码的音频业务的参数 AB：音频块，6个编码音频块，每块由256个采样值的码字构成。 AUX：辅助数据字段 CRC：循环冗余校验码第五十六张，PPT共六十七页，

26、创作于2022年6月MPEG-2 音频压缩编码标准MPEG-2BC 后向兼容多声道音频编码（与MPEG-1兼容）MPEG-2 AAC MPEG-2高级音频编码（与MPEG-1不兼容）第五十七张，PPT共六十七页，创作于2022年6月MPEG-2 BC 后向兼容多声道音频编码标准增加采样率16KHz、22.05KHz、24KHz增加5.1声道和7.1声道环绕声输出码率为8-640kbit/s第五十八张，PPT共六十七页，创作于2022年6月 MPEG-2 AAC 是MPEG-2标准中的一种非常灵活的声音感知编码标准。就像所有感知编码一样，MPEG-2 AAC主要使用听觉系统的掩蔽特性来减少声音的数据量，并且通过把量化噪声分散到各个子带中，用全局信号把噪声掩蔽掉。与MPEG-1音频算法不兼容采样频率支持从8KHz96KHz可支持48个主声道，16个LFE声道，16个多语言声道，16个数据流数据率比MP3低，但音质更高。第五十九张，PPT共六十七页，创作于2022年6月MPEG-2 AAC增益控制把输入信号划分到4个等带宽的子带中。分析滤波器组输入信号从时域变换到频域。采用MDCT。听觉系

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

音频压缩编码原理以及标准

文档简介

温馨提示

最新文档

评论

音频压缩编码原理以及标准

文档简介

温馨提示

最新文档

评论

相关文档