lecture11-音频压缩II_第1页
lecture11-音频压缩II_第2页
lecture11-音频压缩II_第3页
lecture11-音频压缩II_第4页
lecture11-音频压缩II_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多媒体技术基础音频压缩向辉山东大学计算机学院2009年秋季多媒体技术基础数据压缩2本章内容n数据压缩概念n无损压缩算法n数字音频压缩数字音频压缩n数字图象压缩nMPEG系列标准多媒体技术基础数据压缩3听觉系统的感知特性听觉系统的感知特性n基于心理声学模型npsychoacoustic modelnonly the features that are perceptible to the ear are transmittedn感知特性的三个方面n响度n音高n掩蔽效应多媒体技术基础数据压缩6 掩蔽效应(Masking)n一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应n掩蔽声音(

2、masking tone)n被掩蔽声音(masked tone)n掩蔽可分成两种形式n频域掩蔽n时域掩蔽多媒体技术基础数据压缩7 频域掩蔽nFrequency Maskingn同时掩蔽(simultaneous masking)n强纯音会掩蔽在其附近同时发声的弱纯音n弱纯音离强纯音越近就越容易被掩蔽n低频纯音可以有效地掩蔽高频纯音n高频纯音对低频纯音的掩蔽作用则不明显n噪音对纯音的掩蔽噪音是由多种纯音组成频域掩蔽频域掩蔽多媒体技术基础数据压缩9频域掩蔽频域掩蔽多媒体技术基础数据压缩10频域掩蔽临界频带频域掩蔽临界频带n位于被掩蔽音附近的由纯音分量组成的窄带噪声即临界频带的掩蔽作用最明显。n所谓

3、临界频带是指当某个纯音被以它为中心频率,且具有一定带宽的连续噪声所掩蔽时,如果该纯音刚好能被听到时的功率等于这一频带内噪声的功率,那么这一带宽称为临界频带宽度。n(critical band) 多媒体技术基础数据压缩11频域掩蔽临界频带频域掩蔽临界频带n临界频带的单位叫巴克(Bark),1Bark一个临界频带宽度。n频率小于500Hz时,1Bark约等于freq100n频率大于500Hz时,1Bark约等于9+41og(freq1000) n通常认为,20Hz-16kHz范围内有24个子临界频带。n而当某个纯音位于掩蔽声的临界频带之外时,掩蔽效应仍然存在。多媒体技术基础数据压缩12 时域掩蔽n

4、Temporal Maskingn在时间上相邻的声音之间的掩蔽现象n超前掩蔽(pre-masking):约520 msn滞后掩蔽(post-masking):约50200 msn产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间多媒体技术基础数据压缩13 时域掩蔽多媒体技术基础数据压缩14MPEG AudionMPEG Audio(MPEG声音)标准主要指:nMPEG-1 Audio、MPEG-2 AudionMPEG-2 AAC,MPEG4n数据压缩的主要依据是人耳朵的听觉特性n心理声学模型(psychoacoustic model)n两种感知编码:n感知子带编码(perceptua

5、l subband coding )n由杜比实验室(Dolby Laboratories)开发的Dolby AC-3 (Audio Code number 3)编码,简称AC-3多媒体技术基础数据压缩15MPEG AudionMPEG-1: 共1.5 Mbps for audio and video 约1.2Mbps for video, 0.3 Mbps for audion压缩比大约在 2.7 to 24n支持以下形式的1或2个声道的组合nMonophonic 单声道nDual-monophonic 两个独立声道nStereo 立体声nJoint-stereo 利用立体声道间的相关性多媒体

6、技术基础数据压缩16MPEG Audio 编码层nMPEG声音标准提供三个独立的压缩层次:n层1(Layer 1) :sub-band codingn层2(Layer 2) :sub-band coding (longer frames)n层3(Layer 3) :Uses both sub-band coding and transform codingnMP3:Thomson Multimedia and Fraunhofer IIS-An http:/ Audio编码过程编码过程n32个频带:子带滤波n根据心理声学模型确定每一频带的masking值n如果频带的power低于masking

7、阈值,不编码n否则确定表示系数所需的bit数目,使得由于量化引入的noise低于masking效果,约每少一bit位引入6db噪声多媒体技术基础数据压缩18MPEG Audio多媒体技术基础数据压缩19MPEG Audio解码解码多媒体技术基础数据压缩20MPEG Audio实例实例n根据心理声学模型,第8频带的level为60db,对于第7,9频带的mask分为12db,15dbn第7频带level为10db15db,需要处理n可以少用2bit(引入误差12db6x215db)多媒体技术基础数据压缩21MPEG Audio实例实例多媒体技术基础数据压缩22MPEG Audio多媒体技术基础数

8、据压缩23MPEG Audio多媒体技术基础数据压缩24MPEG Audio5 = perfect, 4 = just noticeable, 3 = slightly annoying, 2 = annoying, 1 = very annoyingraw data rate per audio channel: 48 kHz sample/s * 16 bits/sample = 768 kbps多媒体技术基础数据压缩25MPEG-2 AudionMPEG-2定义了两种声音数据压缩格式nMPEG-2 Audio,或MPEG-2多通道(Multichannel)声音,与MPEG-1 Audi

9、o是兼容的,又称为MPEG-2 BC (Backward Compatible)nMPEG-2 AAC (Advanced Audio Coding),因为它与MPEG-1声音格式不兼容,因此通常称为非后向兼容MPEG-2 NBC(Non-Backward-Compatible)标准多媒体技术基础数据压缩26MPEG-2 Audion增加了16 kHz, 22.05 kHz和24 kHz采样频率n扩展了编码器的输出速率范围,由32384 kb/s扩展到8640 kb/sn增加了声道数,支持5.1声道和7.1声道的环绕声。n支持Linear PCM(线性PCM)nDolby AC-3(Audio

10、 Code Number 3)编码 多媒体技术基础数据压缩27MPEG Audio-AC-3多媒体技术基础数据压缩28MPEG Audio-多声道多声道多媒体技术基础数据压缩29MPEG 2 AACnAdvanced Audio Coding nMPEG-2标准中的一种非常灵活的声音感知编码标准n主要使用听觉系统的掩蔽特性来减少声音的数据量,并且通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉多媒体技术基础数据压缩31MPEG-2 AAC的基本模块 n增益控制(Gain control)增益控制模块用在可变采样率配置中,它由多相正交滤波器PQF(polyphase quadrature

11、filter)、增益检测器(gain detector)和增益修正器(gain modifier)组成。这个模块把输入信号分离到4个相等带宽的频带中。在解码器中也有增益控制模块,通过忽略PQF的高子带信号获得低采样率输出信号。多媒体技术基础数据压缩32MPEG-2 AAC的基本模块 n滤波器组(Filter Bank)n滤波器组是把输入信号从时域变换到频域的转换模块,它是MPEG-2 AAC系统的基本模块n采用了改进离散余弦变换MDCT,它是一种线性正交交迭变换,使用了一种称为时域混迭取消TDAC(time domain aliasing cancellation)技术多媒体技术基础数据压缩3

12、3MPEG-2 AAC的基本模块 n瞬时噪声定形TNSn控制量化噪声的瞬时形状n联合立体声编码(joint stereo coding) n空间编码技术 n预测(Prediction)n量化器(Quantizer)n使用了非均匀量化器n无噪声编码(Noiseless coding)n霍夫曼编码 多媒体技术基础数据压缩34MPEG-4 AudionMPEG-4 Audio标准集成从话音到高质量的多通道声音,从自然声音到合成声音n编码方法包括很多种:n参数编码(parametric coding)n码激励线性预测(CELP)编码n时间/频率T/F(time/frequency)编码n结构化声音SA(structured audio)编码n文本-语音TTS(text-to-speech) 合成语音等多媒体技术基础数据压缩35Reference

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论