多媒体技术基础3版章MPEG声音课件_第1页
多媒体技术基础3版章MPEG声音课件_第2页
多媒体技术基础3版章MPEG声音课件_第3页
多媒体技术基础3版章MPEG声音课件_第4页
多媒体技术基础3版章MPEG声音课件_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多媒体技术基础(第3版)第11章 MPEG声音 张奇复旦大学 计算机科学技术学院qz 2011年4月2022年9月22日第11章 MPEG声音2/42第11章 MPEG声音目录 11.1 听觉系统的感知特性11.1.1. 对响度的感知11.1.2. 对音高的感知11.1.3. 掩蔽效应11.2 感知声音编码11.2.1 MPEG声音的压缩依据11.2.2 感知子带编码11.2.3 杜比数字编码11.3 MPEG-1 Audio11.3.1 声音编码11.3.2 声音的性能11.3.3 子带编码11.3.4 多相滤波器组11.3.5 编码层11.4 MPEG-2 Audio11.4.1 MPEG

2、-2 Audio简介11.4.2 MPEG-2 Audio使用的环绕声11.4.3 MPEG-2 Audio的后向兼容结构11.5 MPEG-2 AAC11.5.1 MPEG-2 AAC是什么11.5.2 MPEG-2 AAC编解码器的结构11.5.3 MPEG-2 AAC的类型11.6 MPEG-4 Audio11.6.1 MPEG-4 Audio是什么11.6.2 MPEG-4 Audio工具与文档11.6.3 MPEG-4话音(speech)编码11.6.4 MPEG-4声音(audio)编码11.6.5 MPEG-4 声音无损压缩2022年9月22日第11章 MPEG声音3/42第11

3、章 MPEG声音 前言MPEG声音的数据压缩和编码不是依据波形本身的相关性和模拟人的发音器官的特性,而是利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为感知声音编码进入20世纪80年代,人类在利用自身的听觉系统的特性来压缩声音数据方面取得了很大的进展,先后制定了MPEG-1 Audio, MPEG-2 Audio,MPEG-2 AAC和MPEG-4 Audio等标准1234,并把它们统称为MPEG声音。本章涉及的许多具体算法已经超出本教材的要求。为给需要深入研究和具体开发产品的读者提供方便,本章提供了大量宝贵的参考文件和站点地址 2022年9月22日第11章 MPEG声音4/4

4、211.1 听觉系统的感知特性对响度的感知声音的响度就是声音的强弱在物理上,用dyn/cm2(达因/平方厘米)(声压)或W/cm2(瓦特/平方厘米)(声强)度量在心理上,主观感觉的声音强弱使用响度级“方(phon)”或“宋(sone)”来度量这两种计量单位完全不同,但它们之间有一定的联系人耳的听觉范围听阈:当声音弱到人耳朵刚可听见时的声音强度痛域:声音强到使人耳感到疼痛时的声音强度听觉范围:位于听阈和痛域之间,见图11-1 2022年9月22日第11章 MPEG声音6/4211.1 听觉系统的感知特性(续2)对音高(频率)的感知客观上用频率表示声音的音高,其单位是Hz。而主观感觉的音高单位则是

5、“美(Mel)”。主观音高与客观音高的关系为其中,f 的单位为Hz,Hz和Mel不同但有联系人耳对频率的感知范围,可以听到最低频率约20 Hz最高频率约20000 Hz 2022年9月22日第11章 MPEG声音7/4211.1 听觉系统的感知特性(续3)音高-频率曲线测量主观音高时,让实验者听两个声强级为40 dB的纯音,固定其中一个纯音的频率,调节另一个纯音的频率,直到他感到后者的音高为前者的两倍,就标定这两个声音的音高差为两倍。测出的“音高频率”曲线见图11-2 图11-2 “音高频率”曲线2022年9月22日第11章 MPEG声音9/4211.1 听觉系统的感知特性(续5)图11-3

6、频域掩蔽2022年9月22日第11章 MPEG声音10/4211.1 听觉系统的感知特性(续6)图11-4中的一组曲线表示为250 Hz,1 kHz和4 kHz纯音的掩蔽效应,它们的声强均为60 dB250 Hz,1 kHz和4 kHz附近,对其他纯音的掩蔽效果最明显低频纯音可有效地掩蔽高频纯音,相反则不明显 图11-4 不同纯音的掩蔽效应曲线2022年9月22日第11章 MPEG声音11/4211.1 听觉系统的感知特性(续7)临界频带(critical band)人耳刚可感知两种频率的声音有差别的频率范围通常认为声音(audio)有25个临界频带,见表11-1临界频带的宽度随声音频率的变化

7、而变化在低频端,宽度小于100 Hz,可认为接近于常数在高频端,宽度近似线性增加,宽度可大到4 kHz临界频带的单位为Bark(巴克)1 Bark等于一个临界频带的宽度2022年9月22日第11章 MPEG声音12/4211.1 听觉系统的感知特性(续8)2022年9月22日第11章 MPEG声音13/4211.1 听觉系统的感知特性(续9)时域掩蔽在时间上相邻的声音之间的掩蔽现象 67一个强掩蔽音出现前、同时存在时或消失后的掩蔽效果见图11-5同时掩蔽(simultaneous masking):信号和掩蔽音同时产生的现象滞后掩蔽(post-masking):信号出现在掩蔽音消失后出现的现象

8、,可以持续50200 ms 超前掩蔽(pre-masking):信号出现在掩蔽音出现之前产生的现象。虽然对超前掩蔽有许多研究报告,但这种现象依然令人费解9 7。超前掩蔽很短,通常只有大约220 ms,产生时域掩蔽的主要原因人的大脑处理信息需要花费一定的时间2022年9月22日第11章 MPEG声音14/4211.1 听觉系统的感知特性(续10)图11-5 时域掩蔽2022年9月22日第11章 MPEG声音16/4211.2 感知声音编码(续1)MPEG声音的压缩依据听觉系统存在听觉阈值电平低于阈值电平的信号听不到,因此可把这部分信号去掉听觉阈值的大小随声音频率的改变而改变大多数人的听觉系统对2

9、5 kHz之间的声音最敏感听觉掩饰特性听觉阈值电平会随听到的不同频率的声音而发生变化例如,1000 Hz和1100 Hz的声音同时存在,前者的强度大于后者18dB,在这种情况下,1100 Hz的声音就听不到体验:在一个安静房间里的普通谈话可以听得很清楚,但在播放摇滚乐的环境下,同样的普通谈话就听不清楚了2022年9月22日第11章 MPEG声音17/4211.2 感知声音编码(续2)感知子带编码简化算法框图见图11-6输入信号通过“滤波器组(filter bank)”进行滤波之后被分割成许多子带每个子带信号对应一个“编码器”,然后根据心理声学模型对每个子带信号进行量化和编码,输出量化信息和经过

10、编码的子带样本通过“多路复合器”把每个子带的编码输出按照传输或者存储格式的要求复合成数据位流(bit stream)解码过程与编码过程相反 2022年9月22日第11章 MPEG声音19/4211.2 感知声音编码(续4)杜比数字(Dolby Digital)前称为Dolby AC-3,简称AC-31992年杜比实验室开发的数字声音编码系统,采用了感知编码技术多声道环绕声格式,现已作为国际标准杜比数字可提供6个声音通道,称为5.1声道,即左、中、右、后左、后右5个主声道和1个低音加强声道声音数据的位速率通常为64448 kbps立体声的位速率通常为192 kbps5.1声道的位速率通常为384

11、 kbps,但可高达640 kbps已用在DVD影视盘、DTV(数字电视)、HDTV和其他娱乐产品中 2022年9月22日第11章 MPEG声音20/4211.2 感知声音编码(续5)图11-7 Dolby AC-3压缩编码算法框图10编码器框图见图11-7输入是未被压缩的PCM样本,而PCM样本的采样频率必须是32, 44.1或48 kHz,样本精度可多到20位获得高压缩比的基本方法是对用频域表示的声音信号进行量化,详细计算请看文献1011 12 2022年9月22日第11章 MPEG声音21/4211.2 感知声音编码(续6)各部分的功能简述如下分析滤波器组(analysis filter

12、 bank):把用PCM时间样本表示的声音信号变换成用频率系数块(frequencies coefficients block)表示的声音信号。单个频率系数用二进制的指数(exponent)和尾数(mantissa)表示频谱包络编码(spectral envelope encoding):对“分析滤波器组”输出的指数进行编码。指数代表粗糙的信号频谱,因此称为(频)“谱包络编码”位分配(bit allocation):使用“谱包络编码”输出的信息确定尾数编码所需要的位数尾数量化(mantissa quantization):按照“位分配”输出的位分配信息对尾数进行量化AC-3帧格式(AC-3 f

13、rame formatting):把“尾数量化”输出的量化尾数和“谱包络编码”输出的频谱包络组成AC-3帧一帧由6个声音块(1536个声音样本)组成。“AC-3帧格式”输出的是AC-3编码位流,它的位速率为32640 kbps 2022年9月22日第11章 MPEG声音22/4211.3 MPEG-1 AudioMPEG-1 Audio编码器MPEG-1 Audio (ISO/IEC 11172-3) 是世界上第一个高保真声音数据压缩标准,得到极其广泛的应用 编码器的输入信号为线性PCM信号采样率为32, 44.1或48 kHz编码器的输出信号为32384 kbps图11-8 MPEG-1 A

14、udio编码器的输入/输出2022年9月22日第11章 MPEG声音23/4211.3 MPEG-1 Audio(续1)MPEG-1 Audio定义了三个独立压缩层次第1层MP1(MPEG Audio Layer 1)仅利用频域掩蔽特性,典型的压缩比为1:4,相应的数据率为384 kbps算法复杂度最低第2层MP2(MPEG Audio Layer 2)利用频域掩蔽特性和时间掩蔽特性,典型的压缩比为1:61:8,数据率为256192 kbps算法复杂度中等第3层MP3(MPEGAudio Layer 3)利用频域掩蔽特性、时间掩蔽特性和临界频带特性,典型的压缩比为1:101:12,相应的数据率

15、为128112 kbps,声音质量接近CD-DA 算法复杂度最高2022年9月22日第11章 MPEG声音24/4211.3 MPEG-1 Audio(续2)MPEG-1 Audio的压缩率在保持接近CD音质的前提条件下,MPEG-1 Audio标准一般所能达到的压缩率见表11-22022年9月22日第11章 MPEG声音26/4211.4 MPEG-2 AudioMPEG-2 Audio简介MPEG-2标准委员会定义了两种声音数据压缩标准MPEG-2 Audio (ISO/IEC 13818-3)12也称MPEG-2 Multichannel Audio (多通道声音)因为它与MPEG-1

16、Audio是兼容的,所以又称为MPEG-2 BC (Backward Compatible)标准MPEG-2 AAC (ISO/IEC 13818-7)22因为它与MPEG-1 Audio格式不兼容,因此通常把它称为非后向兼容MPEG-2 NBC(Non-Backward-Compatible)标准2022年9月22日第11章 MPEG声音27/4211.4 MPEG-2 Audio(续1)MPEG-2 Audio和MPEG-1 Audio相比较都使用相同的编译码器,3个编码层的编码结构也相同MPEG2声音标准做了如下扩充增加了16 kHz, 22.05 kHz和24 kHz采样频率扩展了输出

17、速率范围,由32384 kbps扩展到8640 kbps增加了声道数,支持5.1声道和7.1声道的环绕声支持Linear PCM(线性PCM)和Dolby AC-3(Audio Code Number 3)编码它们的差别见表11-52022年9月22日第11章 MPEG声音29/4211.5 MPEG-2 AAC MPEG-2 AAC是什么MPEG-2 Advanced Audio Coding的缩写,声音感知编码标准像其他感知编码标准那样,使用听觉系统的掩蔽特性来减少声音的数据量,把量化噪声分散到各个子带并用全局信号来掩蔽噪声采样频率可从8 kHz到96 kHz,编码器的输入可来自单声道、立

18、体声或多声道音源的声音可支持48个声道、16个低频音效加强通道(LFE)、16个配音声道(overdub channel)或称多语言声道(multilingual channel)和16个数据流在压缩比为11:1时,很难区分压缩前和压缩还原后的声音11:1即每个声道的数据率为(44.116 )/11=64 kbps,5个声道的总数据率为320 kbps在声音质量相同的前提下与MPEG-1/-2 Audio 的第2层相比,AAC的压缩率可提高1倍与MPEG-1/-2 Audio 的第3层相比,AAC的数据率是它的70 2022年9月22日第11章 MPEG声音30/4211.6 MPEG-4 A

19、udioMPEG-4 Audio是什么包罗万象的声音对象编码标准(ISO-IEC 14496-3) ,从话音、声音到合成语音的编码。企图达到的数据速率和应用目标见图11-23该标准为每个声道规定的数据速率为264 kbps,并为此定义了三种类型的编码器,称为“编码工具(coding tool)”在数据速率为26 kbps范围内,可使用参数编码(parametric coding),声音信号的采样频率使用8 kHz在数据速率为624 kbps的范围内,可使用码激励线性预测技术(code excited linear prediction,CELP),声音信号的采样频率使用8kHz或16 kHz在

20、数据速率为1664 kbps范围内,可使用时间/频率编码(time/frequency coding)或称为“基于变换的普通声音编码(transform-based general audio coding)”技术,如用MPEG-2 AAC经过改进的MPEG-4 AAC,支持896 kHz的声音信号采样频率 2022年9月22日第11章 MPEG声音31/4211.6 MPEG-4 Audio(续1)图11-23 MPEG-4 Audio数据速率和应用目标(引自ISO/IEC 14496-3 Subpart 1:1998)2022年9月22日第11章 MPEG声音32/4211.6 MPEG-

21、4 Audio(续2)关于MPEG-4 Audio的标准文档从20世纪90年代中期以来已有多个版本,见图11-24,前后版本的差别也比较大原因之一是这个时期的技术发展比较快,MPEG-4 Audio标准不断采纳当时还不够成熟的新技术,例如正弦波编码(SSC)和谱带复制(SBR)编码的有损压缩技术声音无损编码(ALS)和直接数据流传输(DST)的无损压缩技术 2022年9月22日第11章 MPEG声音33/4211.6 MPEG-4 Audio(续3)MC/LSF: multi-channel and low sampling frequencyAAC: advanced audio coder

22、SBR: spectral band replicationSSC: sinusoidal codingSLS: scalable losslessDST: direct stream transfer图11-24 MPEG-4 Audio概要242022年9月22日第11章 MPEG声音34/4211.6 MPEG-4 Audio(续4)MPEG-4 Audio工具与文档提供的声音工具可分成8种类型(1) 话音编码工具(speech coding tools)(2) 声音编码工具(audio coding tools)(3) 无损声音编码工具(lossless audio coding to

23、ols)(4) 声音合成工具(synthesis tools)(5) 编排工具(composition tools)(6) 性能可变工具(scalability tools)(7) 上行数据流控制工具(upstream)(8) 抗错工具(error robustness facilities) 2022年9月22日第11章 MPEG声音35/4211.6 MPEG-4 Audio(续5)描述各种工具的文档(ISO-IEC 14496-3)有10部分Subpart 1: MainSubpart 2: Speech coding HVXCSubpart 3: Speech coding CELPS

24、ubpart 4: General Audio coding (GA) AAC, TwinVQ, BSACSubpart 5: Structured Audio (SA)Subpart 6: Text To Speech Interface (TTSI)Subpart 7: Parametric Audio Coding HILNSubpart 8: Parametric coding for high quality audio SSCSubpart 9: MPEG-1/2 Audio in MPEG-4Subpart 10: Lossless coding of over sampled

25、audio DST 2022年9月22日第11章 MPEG声音36/42第11章 MPEG声音(参考文献)参考文献和站点The MPEG Home Page, /mpeg/MPEG Industry Forum, /resources.phpMPEG Audio Resources and Software, /MPEG/audio.htmlThe MPEG Audio Web Page, /mpeg4/audio/ J. S. Tobias, Ed., Foundations of Modern Auditory Theory, Vol. 1, Academic Press, New Yor

26、k, 1970Hugo Fastl and Eberhard Zwicker, Psychoacoustics: Facts and Models (Springer Series in Information Sciences), 3rd ed. 2007. pp149-173Ted Painter and Andreas Spanias, Perceptual Coding of Digital Audio, Proceedings of the IEEE, VOL. 88, NO. 4, April 2000. /spanias/papers/paper-audio-tedspanias

27、-00.pdf 2022年9月22日第11章 MPEG声音37/42第11章 MPEG声音(参考文献 续1)Miroslava Raspopovic, Charles Thompson, Donn Clark, Design of Perception Based Audio Codec - Final Report, May 25th, 2001. /mira/Research/Codec.pdfTeddy Surya Gunawan, Eliathamby Ambikairajah, Audio Compression and Speech Enhancement using Tempor

28、al Masking Models, thesis submitted for the degree of Doctor of Philosophy, 2007. .au/thesis/adt-NUN/uploads/approved/adt-NUN20070226.040348/public/01front.pdfAdvanced Television Systems Committee, Inc., Digital Audio Compression Standard (AC-3, E-AC-3), Revision B, Document A/52B, 14 June 2005. /st

29、andards.htmlITU Radio communication Study Groups, A guide to digital terrestrial television broadcasting in the VHF/UHF bands, 1998. http:/happy.emu.id.au/lab/tut/dttb/dttbtuti.htmISO/IEC 13818-3,ISO/IEC JTC1/SC29/WG11 NO803,Information Technology - Generic Coding of Moving Pictures and Associated A

30、udio: Audio,11/November/1994P. U. Y. Dehery, M. Lever, A MUSICAM source codec for digital audio broadcasting and storage, in Proceedings of Int. Conf. Acoustic, Speech, Signal Processing, pp. 3605-3608, IEEE, 19912022年9月22日第11章 MPEG声音38/42第11章 MPEG声音(参考文献 续2)K. Brandenburg, J. Herre, J. D. Johnston,

31、 Y. Mahieux, and E. Schroeder, ASPEC: Adaptive spectral entropy coding of high quality music signals, in Proc. 90th Convention. Aud. Eng. Soc., Feb. 1991P. Noll, Wideband Speech and Audio Coding, IEEE Comm. Mag., pp.34-44, Nov. 1993. /iel1/35/6505/00256878.pdfDavis Pan. A Tutorial on MPEG/Audio Comp

32、ression. IEEE Multimedia, 1995, pp60-74. /dpwe/e6820/papers/Pan95-mpega.pdfKarlheinz Brandenburg, OCF-A New Coding Algorithm for High Quality Sound Signals, 1987. /iel6/8363/26345/01169893.pdf. Princen J, Bradley, A. Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation. I

33、EEE Transactions, ASSP-34, No.5, Oct 1986, pp 1153-1161, /iel6/29/26200/01164954.pdf2022年9月22日第11章 MPEG声音39/42第11章 MPEG声音(参考文献 续3)Ye Wang and Miikka Vilermo,The Modified Discrete Cosine Transform: Its Implications for Audio Coding and Error Concealment, AES 22nd International Conference on Virtual,

34、Synthetic and Entertainment Audio, 2002. .sg/wangye/papers/00027_aes22.pdf. Hossein Najafzadeh-Azghandi,Perceptual Coding of Narrowband Audio Signals, April 2000. http:/www-mmsp.ece.mcgill.ca/MMSP/Theses/T1999-2001.htmlISO/IEC 11172-3, Coding of moving pictures and associated audio for digital stora

35、ge media at up to about 1.5 mbit/s,3-Annex C (informative) The encoding process. 1993ISO/IEC 13818-7:2004(E), Information technology Generic coding of moving pictures and associated audio information Part 7: Advanced Audio Coding (AAC)Bosi Metal, ISO/IEC MPEG-2 Advanced Audio Coding. Journal of the

36、Audio Engineering Society, No.10, pp. 789-813, October 1997.Takehiro Moriya, Noboru Harada, Yutaka Kamamoto, and Hiroshi Sekigawa,MPEG-4 ALSInternational Standard for Lossless Audio Coding , NTT Technical Review,pp40-45, Vol. 4 No. 8, Aug. 2006. 2022年9月22日第11章 MPEG声音40/42第11章 MPEG声音(参考文献 续4)ISO/IEC

37、14496-3, Third edition, 2005-12-01, Information technology Coding of audio-visual objects Part 3: Audio. Dennis H. Klatt. Review of text-to-speech conversion for English. J. Acoustical. Soc. Am. 82(3), September 1987. /iel6/8370/26352/01171431.pdfStefan Meltzer and Gerald Moser, MPEG-4 HE-AAC v2 - audio coding for todays media world, EBU Technical Review January 2006,/Tilman Liebchen, Takehiro Moriya, Noboru Harada, Yutaka Kamamoto, and Yuriy A. Reznik, The MPEG-4 Audio Lossless Coding (ALS

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论