版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、语音与音频编码论文Huaqiaouniversity语音鸟音频编鸣锦程曲题目:MP3编码原理与实现院(系)信息科学与工程学院班级11级通信工程2班学号1115107007姓名指导老师目录MP3编码原理与实现错误!未定义书签。1、摘要32、MP3简介32.1MP3音频格式32.2MP3压缩编码原理43、人体听觉心理学模型53.1 最小听觉门槛判定53.2 人耳的遮蔽效应53.3 人耳的空间响应54、VBR技术65、编码器工作原理65.1 滤波器段65.2 人体听觉心理模型75.3 量化与编码86、总结与心得97、参考文献101、摘要:在目前的信息社会,需要应用和传输大量的语音信息,这些信息中存在
2、着大量的冗余,如果不去除掉这些冗余,在其传输和存储的过程中,将会占用大量的资源,因此,语音压缩技术受到了人们的普遍关注。在此基础上,对MP3编码器的基本原理和基本结构进行了研究,并对其中几个关键模块包括心理声学模型,VBR技术等进行了分析,结果表明MP3要具有良好的编码质量,需要对其算法进行改进和优化。关键词:MP3编码器、音频、算法2、MP3简介MP3是今天一种常见的音乐格式,但恐怕除了工作要求之外,有兴趣对此进行研究的人恐怕不多。所以,当我打算写MP3编码方面的论文时,在找资料时也颇费了一番周折,同时也觉得很有趣。MP3是MPEG-1AudioLayer3的简称,是当今比较流行的一种数字音
3、频编码和有损压缩格式(有Layer3,也必然有Layerl和Layer2,也就是MP1和MP2,但不在本文讨论范围之内)。MP3技术的应该可以用来大幅度的降低音频文件存储所需要的空间。它丢掉脉冲编码调制(PCM)音频数据中对人类听觉不重要得数据,从而达到了较高的压缩比(高达12:1-10:l)o简单地说,MP3在编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成有较高压缩比的MP3文件,并使压缩后的文件在回放时也能够达到比较接近原音源的效果。MP3的音频质量取决于它的Bitrate和Samplingfrequency,以及编码器质量。M
4、P3的典型速度介于每秒128到320kb之间。采样频率也有44.1,48和32kHz三种频率,比较常见的是采用CD采样频率一44.1kHz。常用的编码器是LAME,它完全遵循LGPL的MP3编码器,有着良好的速度和音质。2.1 MP3音频格式MP3(MPEGAudioLayerDI)音频格式诞生于20世纪80年代,是伴随着MPEG”而开发的。在MPEG-1标准中,音频压缩标准按复杂性和压缩质量分为三个独立层次:(l)MPEGAudioLayerI,它最为简单,码流为每通道384kb/s,主要用于数字卡座(DigitalCompactCassette,DCC)。(2)MPEGAudioLayer
5、D,它具有中等复杂度,码流为每通道192kb/s,主要用于数字音频广播、数字演播室和VCD等方面数字音频的制作、交流、存储和传送。(3)MPEGAudioLayerHI,它最为复杂,是综合了MPEGAudioLayerII和ASPEC优点的一种血合压缩技术,其音频质量最好,主要用于MP3音凝压缩,码流为每通道64kb/s0MP3编码虽不适用于实时传送,但能在低编码速率下提供较高的音质,所以成为网上音乐的宠儿。2.2 MP3压缩编码原理音频压缩由编码和解码两个部分组成。把波形文件里的数字音频数据转换为高度压缩的形式(称为比特流)即为编码;要解码则把比特流重建为波形文件。在MPEG”的音频压缩中,
6、采样频率可为32kHz、44.1kHz和48kHz,可支持单声道(Monophonic)、双单声道(DualNIonophonic)、立体声模式(StereoMode)、联合立体声(JohitStereo)等。常见的MP3大多采用联合立体声模式。音频压缩可以分为无损(lossless)压缩和有损压缩。无损压缩就是尽量降低音频数据的冗余度,以减小其体积音频信号经过编码和解码之后,必须要和原来的信号一致。无损压缩的压缩率是比较有限的;有损压缩就是用尽一切手段,包括无损压缩用到的方法,丢掉一切能丢掉的数据,以减小体积。而音频压缩后解码听起来起码是要跟原来差不多的,有损压缩的压缩比能大幅提高,MP3就
7、是属于有损压缩,压缩比是12:l(128kbps)0实验表明,人类能听到的声音频率范围(音频)是20Hz20kHz,但人耳对整个音频频段声音的反应不是平直的,25kHz是人耳最灵敏的频段。依其特性将整个音频频段分成多个临界频带,因为人类听觉系统是依据频率来分辨声音能量的,任何频率的细小声音都会因掩蔽效应而被临界频带内音量较高的声音所覆盖。MP3对其不作量化处理,从而去掉那些人类听觉系统所无法察觉的声音,达到压缩的目的。MP3文件是由帧(frame)构成的,帧是MP3文件最小的组成单位。什么是帧?还记得最初的动画是怎么做的吗?不同的连续画面切换以达到动态效果,每幅画面就是一个“帧”,不同的是MP
8、3里面的帧记录的是音频数据而不是图形数据。MP3的帧速度大概是30帧/秒。每个帧又由帧头和帧数据组成,帧头记录着该帧的基本信息,包括位率索引和采样率索引(这对理解ABR和VBR编码方式很重要)。帧数据,顾名思义就是记录着主体音频数据。上面说的都是MP3编码的基础,但事实上,早期的编码器都非常不完善,压缩算法近于粗暴,音质很不理想。MP3的音质达到现在的水平有两次飞跃:人体听觉心理学模型(PerceptualModel)的导入和VBR技术的应用。3、人体听觉心理学模型下面将简要介绍一下几个重要原理:3.1最小听觉门槛判定(Theminimalauditionthreshold)人耳的听力范围是2
9、0Hz-20kHz的频率范围,但是人耳对不同的频率声音的灵敏度是不同的,不同频率的声音要达到能被人耳听到的水平所需要的强度是不一样。那么通过计算,可以把音乐文件中存在但不能被人耳听到的声音去掉。通过这原理,我们还可以建立模型,把大部分数据空间分配到人耳最灵敏的2kHz到5kHz范围,其余频率分配比较少的空间;3. 2人耳的遮蔽效应(TheMaskingeffect)蔽效应表现在强信号会遮蔽邻近频率的弱信号。用生活经验来说,在安静的房间中,一根针掉到地上都能听见,可到了大街上,就算手机音量调到最大,来电时也未必能听见,而手机的声音确确实实是存在的,原因就是被周围更大的声音遮蔽了。有了对遮蔽效应的
10、研究成果,编码器就能根据己建立的数学模型,计算强信号对附近弱信号的遮蔽,把能引起人们注意的声音才保留。人耳还有前遮蔽效应和后遮蔽效应:因为人需要一定的时间来处理声音信号,在强信号之前或之后的弱信号,会被遮蔽掉。前遮蔽效应的时间约只有2-5ms,而后遮蔽的时间比较长,大约有100ms。利用这,我们能减小强信号之前和之后的分辨率;3.3人耳的空间响应:人耳对某些高频的声音的空间感很差,辨别不了声源的方向。联合立体声(JointStere。)应运而生:在某些频率上采用“单声道”(事实上并非真正意义上的单声道),以减小流量。4、VBR技术正如上面所说,MP3是由帧构成的,MP3能象动画那样读到哪放到哪
11、,播放器不必预读整个文件的内容,即使部分数据损坏也不会对播放效果有太大影响(实际上这就是流媒体所具有的特性)。而每个帧的帧头里都包含这该帧的码率(bitrate,单位是kbps)等信息,所以,我们可以对每一段音乐甚至每一个帧定义独立的码率,这就是VBR(Variablebitrate,动态码率)技术。与VBR向对应的是CBR(Constantbitrate)。一支交响曲,合奏大动态部分的数据量显然大于引子部分,如果用128kbps的CBR编码方式来编码,在引子部分可能有多余的数据流量,而在合奏部分却又不够,VBR就是解决这个问题的。把在不影响音质的情况下,对流量需求小的部分分配较小的码率,把冗
12、余字节缓存起来留给有需要的部分,在短时间内提供更高的码率,以保证音乐的质量。所以说,VBR的作用是更合理的分配流量,在不增大文件体积的条件下提高声音的质量。不过VBR在应用初期带给过MP3随生听不少麻烦。因为早期大多数MP3播放器都是针对CBR设计的,其根据文件大小来获得时长的算法对VBR失效了,因为VBRMP3的bitrate可能每时每刻都在变化。不过现在这个问题基本上不用担心了,市场上的播放器基本上都解决这问题了。除了上面说的两方面,MP3编码还有很重要的一招:Huffman编码(Huffman是个科学家的名字),Huffman编码广泛应用于无损压缩领域,比如我们常用的WINZIP,WIN
13、RAR等压缩软件就是以此为基础的(只能说是基础,因为这些用到的编码方法不只是Huffman编码Huffman编码用途就是降低数据的冗余度,可节省大约20%的空间。用WINZIP来再压缩MP3文件每什么效果就因为MP3编码的时候已经应用到采用Huffman编码。5、编码器工作原理5.1 滤波器段(filterbank)数字音频信号以脉冲的形式送进编码器,首先会经过一滤波器段(filterbank),它由两个串联的滤波器段组成:一个多相分析滤波器段和一个MDCT(ModifiedDiscreteCosineTransform,经改良的离散余弦转换),前者也应用到layer-1和layer-2中,后
14、者是MP3独有的。输入的音频信号在20Hz-20kHz的频率范围内,通过第一个滤波器段后,把信号按频率分成32个小频带,称为子带(Subband)。20000Hz/32=625Hz,那么每个子带的宽度就是625Hz。人耳对不同频段的灵敏度是不同的,编码器可对不同的子带进行不同的量化分层。不过等宽的子带并没有准确反映人耳的听觉特性,这样进行等宽划分并没有考虑到不同信号的临界宽度,也就是该信号的影响范围,以及不同信号的相互影响,所以这样会产生大量的信号重叠。MDCT转换就是为了解决这问题,它能对子带进行细分,清楚重叠部分,得到更高的频谱解析度。5. 2人体听觉心理学模型(PerceptualMod
15、el)上面已经谈到过人体听觉心理学模型,心理学模型可以说是感受编码的重中之中,它决定着编码器的编码质量(后面谈到的LAME就拥有着大量优秀的人体精神听觉模型和数学模型)。下面将深入分析两个重要原理:最小听觉门槛判定和遮蔽效应。最小听觉门槛判定声音其实是传播在介质中的能量波,人耳对声音能量强弱的直接感受就是听到音量的大小,也就是响度,单位是分贝(dB)。下面是人耳可听最小响度曲线:响族dB11310D9080706953403029100a。%4二,1.n/*.9ij0.020Q4C.10.20,412461020频率(kHz)OdB是听觉灵敏度的极限,而120dB是痛苦灵敏度的极限。人耳在20
16、00Hz到5000Hz范围内的灵敏度最高,两端就迅速下降。所以人耳对中频的灵敏度远高于高低频。遮蔽效应不同频率的声音有不同的遮蔽宽度,这叫临界宽度。可以想象,弱信号越接近强信号的中心,遮蔽效应会越严重。临界宽度跟声音频率成正比。下面是临界宽度列表:频率(Hz)临界带宽(Hz)频率(Hz)临界带宽(Hz)5080185028015010021503203501002500380450110340055057012040007007001404800900840150580011001000160700013001170190850018001370210105002500160024013500
17、3500感受编码机制可以分为两个部分:知觉噪音成型(perceptualnoiseshaping)和知觉边带/变换编码(perceptualsubband/transformcoding)o编码器通过分析滤波器段(filterbank)分析音频信号的频谱组成并应用听觉心理学模型来估计仅仅可以注意得到的噪音电平。在后面的量化和编码阶段,编码器会提高强信号附近的噪音电平,也就是减少量化位数,这样就能达到节省流量,压缩数据的目的。如果所有量化噪音都能控制在屏蔽临界曲线以下,那么处理后人耳就区别不出哪个才是原音。5. 3量化和编码(QuantizationandCoding)当PCM讯号被分成好几个频
18、段并经过一系列的处理后,最后经过MDCT,将波型转换为一连串的系数。这些系数就由Huffman编码器会选择最合适的Huffman表来做最后的压缩。Huffman编码一般是双路工作的,但是在某些需要精密编码的情况下,它会进行四路工作。编码器一般会有很多的Huffman编码表,很多时候为了更好的声音质量和更有效屏蔽量化噪音,编码器甚至能为每一个频段选择最合适的Huffman编码表。不过编码不是一次就能成功的,要采取TryandError的方式循环进行。因为编码器一方面要削减量化噪音,让它在人耳遮蔽曲线以下;另一方面要保证bitrate满足要求。实际上这里就是要确定两个数值:一个是确定bitrate
19、的步进值(gainvalue),另一个是削减量化噪音的增益因子(ScaleFactor),这两个系数会在正式编码之前确定下来,确定过程由两个嵌套的迭代回路完成:失真控制回路(DistortionControlLoop)和量化速率控制回路(NonuniformQuantizationRateControlLoop)内部迭代回路(RateLoop)量化以后的数据送进Huffman编码器,当发现比特数大于可用流量时,编码器会返回信息,让RateLoop调整步进值以增大量化步长,从而让数据流量减小。循环会一直进行,尝试不同的量化步长,直到Huffman编码以后的数据流量足够小。因为这个回路是用来控制码率的,所以叫做RateLoopo外部迭代回路(noisecontrolloop)显然,这个回路的作用就是控制量化噪音(quantizationnoise),让其保持在听觉心理学提供的屏蔽临界线(maskingthreshold)以下。每一个频段都会有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年科技赋能下的房地产融资新思路
- 2026春招:药明康德试题及答案
- 2026年桥梁设计中的数据驱动优化技术
- 2026春招:小米真题及答案
- 2026年工程技术变革对安全管理的影响
- 智能影像诊断系统
- 货物破损安全培训总结课件
- 护理团队凝聚力与团队精神建设
- 医疗保险理赔人员服务礼仪
- 心理科心理咨询与治疗实践总结
- 2025土地使用权转让合同范本
- 2026年日历表全年表(含农历、周数、节假日及调休-A4纸可直接打印)-
- LY/T 3416-2024栓皮采集技术规程
- 卒中的诊断与治疗
- DB51-T 1959-2022 中小学校学生宿舍(公寓)管理服务规范
- 教育机构安全生产举报奖励制度
- GB/T 4706.11-2024家用和类似用途电器的安全第11部分:快热式热水器的特殊要求
- FZ∕T 61002-2019 化纤仿毛毛毯
- 《公输》课文文言知识点归纳
- 碎石技术供应保障方案
- 23秋国家开放大学《机电一体化系统设计基础》形考作业1-3+专题报告参考答案
评论
0/150
提交评论