第8章数字音频技术1_第1页
第8章数字音频技术1_第2页
第8章数字音频技术1_第3页
第8章数字音频技术1_第4页
第8章数字音频技术1_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数字电视原理第八章数字音频技术2/6/20231信息工程系8.2MPEG音频压缩技术8.2.1音频特性及其编码

研究听觉系统对声音的感知特性,下面介绍已经用在MPEGAudio压缩编码算法中的三个特性:响度、音高和掩蔽效应,听觉感知编码。

1.对响度的感知 声音的响度就是声音音频弱。在物理上(客观),声音的响度使用客观测量单位来度量,即dyn/cm2(达因/平方厘米)(声压)或W/cm2(瓦特/平方厘米)(声强)。在心理上(主观),主观感觉的声音强弱使用响音频“方(phon)”或者“宋(sone)”来度量2/6/20232信息工程系8.2MPEG音频压缩技术这两种感知音频强弱的计量单位是完全不同的两种概念,但是它们之间又有一定的联系当音频弱到人的耳朵刚刚可以听见时,我们称此时的音频强度为“听阈”。例如,1kHz纯音的声强达到10-16w/cm2(定义成零dB声强级)时,人耳刚能听到,此时的主观响度级定为零方实验表明,听阈是随频率变化的。测出的“听阈—频率”曲线如图所示。图中最靠下面的一根曲线叫做“零方等响度级”曲线,也称“绝对听阈”曲线,即在安静环境中,能被人耳听到的纯音的最小值另一种极端的情况是音频强到使人耳感到疼痛。实验表明,如果频率为1kHz的纯音的声强级达到120dB左右时,人的耳朵就感到疼痛,这个阈值称为“痛阈”2/6/20233信息工程系8.2MPEG音频压缩技术“听阈—频率”曲线2/6/20234信息工程系8.2MPEG音频压缩技术人耳对不同频率的敏感程度差别很大,其中对2kHz~4kHz范围的信号最为敏感,幅度很低的信号都能被人耳听到。而在低频区和高频区,能被人耳听到的信号幅度要高得多2/6/20235信息工程系8.2MPEG音频压缩技术2.对音高的感知客观上用频率来表示声音的音高,其单位是Hz主观感觉的音高单位则是“美(Mel)”,主观音高与客观音高的关系是:

其中f的单位为Hz这也是两个既不相同又有联系的单位人耳对频率的感觉也有一个范围。人耳可以听到的最低频率约20Hz,最高频率约20000Hz2/6/20236信息工程系8.2MPEG音频压缩技术音高—频率曲线2/6/20237信息工程系8.2MPEG音频压缩技术3.掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(maskingtone),后者称为被掩蔽声音(maskedtone)掩蔽可分成频域掩蔽和时域掩蔽(1).频域掩蔽 一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽(simultaneousmasking)2/6/20238信息工程系8.2MPEG音频压缩技术声强为60dB、频率为1000Hz纯音的掩蔽效应2/6/20239信息工程系8.2MPEG音频压缩技术频率为250Hz、1kHz、4kHz和8kHz纯音的掩蔽效应,它们的声强均为60dB①在250Hz、1kHz、4kHz和8kHz纯音附近,对其他纯音的掩蔽效果最明显②低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显2/6/202310信息工程系8.2MPEG音频压缩技术2.时域掩蔽时间上相邻的声音之间也有掩蔽现象,并且称为时域掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking)超前掩蔽较短,只有大约5~20ms,而滞后掩蔽可以持续50~200ms2/6/202311信息工程系8.2MPEG音频压缩技术时域掩蔽2/6/202312信息工程系8.2MPEG音频压缩技术听觉感知编码的编码思路:1.根据听觉域度对可闻信号进行编码听觉域度对编码的作用

2/6/202313信息工程系8.2MPEG音频压缩技术2.根据掩蔽效应,只对幅度强的掩蔽信号进行编码2/6/202314信息工程系8.2MPEG音频压缩技术3.量化噪声使得不必全部编码原始信号2/6/202315信息工程系8.2MPEG音频压缩技术4.通过子带分割来进行优化、编码子带编码、优化

2/6/202316信息工程系8.2MPEG音频压缩技术8.2.2MPEG-1音频压缩技术MPEG音频压缩的的主要依据是人耳朵的听觉特性,使用“心理声学模型(psychoacousticmodel)”来达到压缩声音数据的目的心理声学模型听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到,因此就可以把这部分信号去掉听觉阈值的大小随声音频率的改变而改变,各个人的听觉阈值也不同。大多数人的听觉系统对2kHz~5kHz之间的声音最敏感。一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值2/6/202317信息工程系8.2MPEG音频压缩技术听觉系统存在掩蔽特性,听觉阈值电平是自适应的,即听觉阈值电平会随听到的不同频率的音频而发生变化例如,同时有两种频率的音频存在,一种是1000Hz的音频,另一种是1100Hz的音频,但它的强度比前者低18分贝,在这种情况下,1100Hz的音频就听不到2/6/202318信息工程系8.2MPEG音频压缩技术MPEG音频压缩算法框图2/6/202319信息工程系8.2MPEG音频压缩技术MPEG-1音频压缩标准的主要性能:(1)输入信号为线性PCM信号,采样率为32,44.1或48kHz,输出为32kb/s~384kb/s(2)MPEG-1音频压缩标准提供三个独立的压缩层次①层1的编码器最为简单,编码器的输出数据率为384kb/s,主要用于小型数字盒式磁带(digitalcompactcassette,DCC)②层2的编码器的复杂程度属中等,编码器的输出数据率为256kb/s~192kb/s,其应用包括数字广播声音(DAB)、数字音乐、CD-I(compactdisc-interactive)和VCD(videocompactdisc)等③层3的编码器最为复杂,编码器的输出数据率为64kb/s,主要应用于网络音乐2/6/202320信息工程系8.2MPEG音频压缩技术1.子带编码滤波器组的划分

MPEG-1音频编码器把输入信号变换到32个频域子带中去。子带的划分方法有两种,一种是线性划分,另一种是非线性划分2/6/202321信息工程系8.2MPEG音频压缩技术2.子带编码SNR(signalnoiseratio) ——信号噪声比SMR(signal-to-maskratio) ——信号掩蔽比NMR(noise-to-maskratio) ——噪声掩蔽比2/6/202322信息工程系8.2MPEG音频压缩技术3.编码层MPEG音频压缩定义了3个层次,它们的基本模型是相同的。层1是最基础的,层2和层3都在层1的基础上有所提高。每个后继的层次都有更高的压缩比,但需要更复杂的编码解码器MPEG的音频数据分成帧(frame),层1每帧包含384个样本的数据,每帧由32个子带分别输出的12个样本组成。层2和层3每帧为1152个样本2/6/202323信息工程系8.2MPEG音频压缩技术层1、2和层3的子带样本2/6/202324信息工程系8.2MPEG音频压缩技术MPEG编码层简介层1:采用均匀子带划分,心理声学模型仅使用频域掩蔽特性层2:采用均匀子带划分,心理声学模型除使用频域掩蔽特性外还利用了时域掩蔽特性,并且在低、中和高频段对比特分配作了一些限制,对比特分配,比例因子和量化样本值的编码也更紧凑层3:采用非均匀子带划分,即临界频带划分,心理声学模型使用频域和时域掩蔽,同时还考虑了立体声数据冗余,并且使用了Huffman编码2/6/202325信息工程系8.2MPEG音频压缩技术MPEG-1数字音频的参数概述(1)MPEG-1音频取样频率

fs:32kHz,44.1kHz,48kHz(2)MPEG-1音频码率

32~192kHz单声道,64~384kHz立体声PCM如按高保真立体声:50Hz~20kHz,取fs=44.1KHz,n=16bit;则不压缩时速率:44.1×16=705.6Kbit/s(每声道)(3)MPEG-1音频压缩算法①自适应频谱心理声学熵编码ASPEC(AdaptiveSpectralPerceptualEntropyCoding);②自适应变换声音编码ATAC(AdaptiveTransformAudioCoding)③掩蔽型自适应子带编码和复用MUSICAM(Masking-PatternAdaptedUniversalSubbandIntegratedCodingAndMultiplexing)④子带/自差分脉冲编码SB/ADPCMASPEC和MUSICAM主观评价几乎相同。在64kbit/s时APESC音质略好,而MUSICAM较简单,解码延时较好;所以MUSICAM作为MPEGLayerI,结合ASPEC优点为LayerII,LayerIII。2/6/202326信息工程系8.2MPEG音频压缩技术MPEG-1音频信号数据压缩过程(a)时间/频率映射(滤波器组)用以将输入的信号转化为亚取样的频谱分量分为子带(b)频域滤波器组或并行变换的输出,根据心理声学模型求出时变的掩蔽门限估值(c)按量化噪声不超过掩蔽门限的原则将子带量化编码以使量化噪声不可听到(d)按帧打包成码流(包括比特分配信息)2/6/202327信息工程系8.2MPEG音频压缩技术LayerⅠ,Ⅱ音频编码方框图

2/6/202328信息工程系8.2MPEG音频压缩技术LayerⅠ,Ⅱ音频解码方框图2/6/202329信息工程系8.2MPEG音频压缩技术LayerIII音频编码方框图2/6/202330信息工程系8.2MPEG音频压缩技术LayerIII音频解码方框图2/6/202331信息工程系8.2MPEG音频压缩技术

MPEG-1音频编码帧结构2/6/202332信息工程系8.2MPEG音频压缩技术MPEG-2音频压缩MPEG-2声音编码标准是MPEG为多声道声音开发的低码率编码方案,它是在MPEG-1声音标准基础上发展而来的。和MPEG-1相比,MPEG-2声音主要增加了三个方面的内容(1)支持5.1路环绕声。它能提供5个全带宽声道(左、右、中和两个环绕声道),外加一个低频效果增强声道,统称为5.1声道(2)支持多达8种语言或解说(3)增加了低取样和低码率。在保持MPEG-1声音的单声道和立体声的原有取样率的情况下,MPEG-2又增加了三种取样率,即把MPEG-1的取样率降低了一半,(16kHz,22.05kHz,24kHz)以便提高码率低于64kbit/s时的每个声道的声音质量2/6/202333信息工程系8.2MPEG音频压缩技术MPEG-2声音多声道扩展部分的数据结构

MPEG-2多声道声音编码标准和现有的MPEG-1声音标准保持后向兼容。在对原有的MPEG-1两声道增加独立的环绕声道时,MPEG-2尽量保特和MPEG-1声音语法的兼容性,MPEG-2中的主声道(左、右)仍然保持后向兼容,而环饶声道采用新的编码方法和语法2/6/202334信息工程系8.2MPEG音频压缩技术MPEG-2的两种音频数据压缩格式MPEG-2Audio,或者称为MPEG-2多通道(Multichannel)音频,与MPEG-1Audio兼容,所以又称为MPEG-2BC(BackwardCompatible)MPEG-2AAC(AdvancedAudioCoding),与MPEG-1声音格式不兼容,因此通常称为非后向兼容MPEG-2NBC(Non-Backward-Compatible)标准2/6/202335信息工程系8.2MPEG音频压缩技术MPEG-2AudioMPEG-2Audio(ISO/IEC13818-3)和MPEG-1Audio(ISO/IEC1117-3)标准都使用相同种类的编译码器,LayerⅠ,LayerⅡ和LayerⅢ的结构也相同MPEG-2音频标准与MPEG-1标准相比,MPEG-2做了如下扩充:①增加了16kHz,22.05kHz和24kHz采样频率②扩展了编码器的输出速率范围,由32~384kbit/s扩展到8~640kbit/s③增加了声道数,支持5.1声道和7.1声道的环绕声。此外MPEG-2还支持LinearPCM(线性PCM)和DolbyAC-3(AudioCodeNumber3)编码

2/6/202336信息工程系8.2MPEG音频压缩技术MPEG-1和MPEG-2的声音数据规格2/6/202337信息工程系8.2MPEG音频压缩技术MPEG-2Audio的“5.1环绕声”MPEG-2Audio的“5.1环绕声”也称为“3/2/.1立体声加LFE”,其中的“.1”就是指LFE声道。它的含义是播音现场的前面可有3个喇叭声道(左、中、右),后面可有2个环绕声喇叭声道,LFE(lowfrequencyeffects)是低频音效的加强声道2/6/202338信息工程系8.2MPEG音频压缩技术5.1声道最佳效果放置5个全频带的重放扬声器分为前置扬声器(包括L、R、C)和后置扬声器(也称环绕扬声器,包括Ls、Rs),分别位于一个圆的边界上,其中L、R扬声器与C扬声器分别呈30度夹角,Ls、Rs扬声器与C扬声器分别呈110度夹角低频增强声道,称之为LFE,它的频率范围在200Hz以下,大约是全频带倍频程的10%左右,因此也称点一声道。它的放置没有特殊的要求,一般放置在前面2/6/202339信息工程系8.2MPEG音频压缩技术7.1声道环绕立体声2/6/202340信息工程系8.2MPEG音频压缩技术MPEG-1、MPEG-2音频参数的比较2/6/202341信息工程系8.2MPEG音频压缩技术MPEG-2中的AAC编码AAC:AdvancedAudioCoding先进音频编码,不向下兼容MPEG-2AAC是声音感知编码标准,MPEG-2AAC主要使用听觉系统的掩蔽特性来减少声音的数据量,并且通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉。AAC支持的采样频率可从8kHz到96kHzAAC编码器的音源可以是单声道的、立体声的和多声道的声音。AAC标准可支持48个主声道、16个低频音效加强通道LFE(lowfrequencyeffects)、16个配音声道(overdubchannel)或者叫做多语言声道(multilingualchannel)和16个数据流2/6/202342信息工程系8.2MPEG音频压缩技术MPEG-2AAC压缩比为11:1,即每个声道的数据率为(44.1×16)/11=64kbit/s,而5个声道的总数据率为320kbit/s的情况下,很难区分还原后的声音与原始声音之间的差别与MPEG的LagerⅡ相比,MPEG-2AAC的压缩率可提高1倍,而且质量更高,与MPEG的LagerⅢ相比,在质量相同的条件下数据率是它的70%。2/6/202343信息工程系8.2MPEG音频压缩技术MPEG-2AAC的配置开发MPEG-2AAC标准采用的方法与开发MPEGAudio标准采用的方法不同。后者采用的方法是对整个系统进行标准化,而前者采用的方法是模块化的方法,把整个AAC系统分解成一系列模块,用标准化的AAC工具(advancedaudiocodingtools)对模块进行定义AAC标准定义了三种配置:基本配置、低复杂性配置和可变采样率配置:2/6/202344信息工程系8.3美国HDTVAC-3音频压缩技术1.杜比AC-3环绕声系统AC(AudioCoding)-3是一种播放高音质和效果的环绕声系统杜比AC-3系统利用心理声学原理对音频信号进行压缩编码其取样频率有32KHz、44.1KHz、48KHz对音频声道采用独立方式编码,将每个声道的频率范围扩展到20Hz~20kHz全频域杜比AC-3的基本声道有5个,即前方左、右、中声道,后方环绕左和环绕右声道,另外还有一个超重低音声道,共有6个声道。其中超重低音声道的最高频率为120Hz,不能算一个完整的声道,因此又称为0.1声道,这样加起来便称为5.1声道2/6/202345信息工程系8.3美国HDTVAC-3音频压缩技术杜比AC-3环绕声播放系统2/6/202346信息工程系8.3美国HDTVAC-3音频压缩技术其特点有:

(1)全音频声道。AC-3系统播放的音质清晰,声场动态范围广,声象重现逼真,具有真实现场感

(2)立体环绕声。AC-3系统具有左和右后方环绕声道,其环绕包围感很强,烘托现场气氛逼真,可使视听者进入出神入化的境界

(3)声道之间分离度高从家庭影院的应用和发展来看,杜比AC-3环绕声系统将可能成为主流(1)美国已确定杜比AC-3环绕声系统为HDTV(高清晰度电视)音频信号的编码和解码标准

(2)数字视盘机(DVD)的音频也采用AC-3音频标准

(3)美国几乎所有著名的电影公司制作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论