L11-2)宽带音频压缩编码

上传人：1*** IP属地：湖北上传时间：2021-10-10 格式：PPT 页数：32 大小：836KB 积分：30 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、多媒体技术公共课程中南大学信息科学与工程学院第十一讲 (续) 宽带音频压缩技术及标准多媒体技术公共课程中南大学信息科学与工程学院一、概述多媒体技术：宽带音频压缩技术及标准陈科文1.1 宽带音频编码特点宽带音频编码特点宽带音频覆盖了人类听力所能接受的频率范围： 20Hz20 k Hz ; 并且通常具有环绕立体声效果，这种高质量声音信号能给人一种身处其境的真实感觉。为了能够比较真实地再现自然界的各种声音，在对宽带音频数据进行压缩时，必须研究和利用人的听觉系统的特性，建立心理声学模型 ( psycho-acoustic model )，即采用所谓的“感知声音编码”（perceptual aud

2、io coding ）技术。自 20世纪 80 年代以来，人们在这方面已取得了很大进展，先后制定了一系列宽带音频压缩编码标准。多媒体技术：宽带音频压缩技术及标准陈科文1.2 宽带音频编码标准宽带音频编码标准目前国际上比较成熟的高质量声音压缩标准为 MPEG 音频，此外，还有美国杜比(Dolby)公司制定的高保真立体声音频压缩系列标准，如AC-3。 MPEG 音频编码标准主要包括： MPEG 1 Audio 、 MPEG 2 Audio 、 MPEG 2 AAC、MPEG-4 Audio等，它们处理 10 20000Hz 范围内的声音数据，并且根据人耳的听觉特性，使用“心理声学模型”（psy

3、cho acoustic model）来达到压缩声音数据的目的。多媒体技术：宽带音频压缩技术及标准陈科文1.3 MPEG 音频编码音频编码MPEG Audio 采纳了两种感知编码：1. 感知子带编码 (perceptual subband coding)2. Dolby AC 3 编码感知子带编码基于心理声学模型，该模型涉及到两个基本概念：听觉阈值电平听觉掩蔽特性多媒体技术：宽带音频压缩技术及标准陈科文1.4 杜比杜比 AC-3 编码编码分析滤波器组谱包络编码尾数量化位分配AC-3帧格式封装 PCM样本指数尾数编码比特流Dolby AC 3 压缩编码算法的原理图压缩编码算法的原理图T F多媒

4、体技术公共课程中南大学信息科学与工程学院二、MPEG 1 音频编码多媒体技术：宽带音频压缩技术及标准陈科文2.1 简介简介 MPEGl Audio 简介简介 MPEGl Audio ( ISO/IEC 111723 )压缩算法是世界上第一个高保真声音压缩国际标准。 MPEG编码器输入为线性 PCM 信号、采样率为32、44.1 或 48 kHz；输出速率为 32 384 kbps。 MPEGl Audio标准不是一种压缩算法，而是包含 3 种音频压缩编码方案，分为：层1、层2、层3。多媒体技术：宽带音频压缩技术及标准陈科文2.2 编码层次编码层次MPEG-1的三种编码方案：随着层数的增加，

5、算法的复杂度也增大。各层性能不同：压缩率不同，解压缩恢复后的音质也有差别。注：注：MP3 就是指采用 MPEG-1音频编码的第3层方案进行压缩的数字化宽带波形音频，其压缩率大、而音质又好。所有3层都分级兼容；最复杂的层3 音频解码器也可对层l或层2的码流进行解码。多媒体技术：宽带音频压缩技术及标准陈科文2.2 编码层次编码层次MPEG 1 音频编码层次：音频编码层次：层 1: 每帧 12 x 32 = 384 样本, 压缩率为 4:1, 输出数据率为 384 kbps，主要用于小型数字盒式磁带。层 2: 每帧 36 x 32 = 1152 样本, 压缩率为 8-6:1, 输出数据率为 256

6、 - 192 kbps，主要用于数字音乐、数字声音广播、CD-I 和 VCD 等。层 3: 每帧 36 x 32 = 1152 样本, 压缩率为 12-10:1, 输出数据率为 128 - 112 kbps，甚至更低; 其中,64kb/s可用于在 ISDN 上传输声音。多媒体技术：宽带音频压缩技术及标准陈科文2.3 MPEG-1音频编码原理音频编码原理 MPEGl Audio 编码原理编码原理所有3层都运用同一原理：变换编码变换编码和子带编子带编码。码。输入声音信号由时域变换到频域；声音频谱被分为 32 个子带；用心理声学模型确定各子带样本的量化精度。子带编码 (SBC) 的理论依

7、据是：听觉系统的掩蔽特性 (主要是频域掩蔽特性)。层 l、2 和 3主要在子带分割与量化方式上有所区别，各层的算法复杂度不同。多媒体技术：宽带音频压缩技术及标准陈科文2.3.1 编解码基本原理编解码基本原理PCM声音样本 32、44.1、48k Hz多相分析滤波器组( TF )量化编码心理声学模型( 计算掩蔽特性 )数据流帧包装辅助数据位数据流编码器编码器PCM声音样本 32、44.1、48k Hz多相合成滤波器组( T- F )逆量化、声音重构数据流帧拆包辅助数据位数据流解码器解码器多媒体技术：宽带音频压缩技术及标准陈科文2.3.2 子带分割方法子带分割方法子带分割：有两种方法（线性 / 非

8、线性）; 用多相滤波器来划分（线性）: 层1、层2 以“临界频带”来划分 (非线性) : 层3多媒体技术：宽带音频压缩技术及标准陈科文2.3.3 心理声学模型心理声学模型心理声学模型心理声学模型：计算以频率为自变量的噪声掩蔽阈值；查看输入信号和各子带信号，以确定每个子带中的信号能量与掩蔽阈值的比率，简称信掩比（SMR）再由SMR决定分配给各子带信号的量化位数，使量化噪声低于掩蔽阈值。多媒体技术：宽带音频压缩技术及标准陈科文2.3.3 心理声学模型心理声学模型多媒体技术：宽带音频压缩技术及标准陈科文2.3.3 心理声学模型心理声学模型多媒体技术：宽带音频压缩技术及标准陈科文2.3.4 层层

9、1/2编解码原理编解码原理分析滤波器组FFT掩蔽阈值缩放因子和量化位数分配器与编码器缩放器 /量化器PCM输入复合SMR合成滤波器组缩放因子和量化位数解码器与分配器反缩放 /逆量化器分解PCM输出数字信道MPEG 1 Audio 层层1、层、层2编码器和解码器的结构编码器和解码器的结构多媒体技术：宽带音频压缩技术及标准陈科文2.3.5 层层3编解码原理编解码原理速率和失真控制环分析滤波器组FFT掩蔽阈值附加信息编码器缩放 /量化器PCM输入复合SMR合成滤波器组附加信息解码器反缩放 /逆量化器分解PCM输出数字信道MPEG 1 Audio 层层3编码器和解码器的结构编码器和解码器

10、的结构动态窗口MDCT霍夫曼编码器霍夫曼解码器动态窗口逆MDCT多媒体技术：宽带音频压缩技术及标准陈科文2.4 数据流格式数据流格式MPEG 1 音频编码数据流格式音频编码数据流格式 (略略)多媒体技术公共课程中南大学信息科学与工程学院三、MPEG 2 音频编码多媒体技术：宽带音频压缩技术及标准陈科文3.1 简介简介一、一、MPEG 2 音频标准简介音频标准简介 MPEG 2 定义了两种声音压缩格式： MPEG 2 Audio ( ISO/IEC 13818 3 )，与 MPEG 1 Audio 兼容，两者都使用同类编解码器，层1、层2和层3的结构也相同; MPEG 2 AAC ( Adva

11、nced Audio Coding， ISO/IEC 13818 7 ), 包含非后向兼容的标准。多媒体技术：宽带音频压缩技术及标准陈科文3.1 简介简介二、二、MPEG 2 Audio （后向兼容 BC）与 MPEG 1 Audio 标准相比，MPEG 2 Audio 作了如下扩充：1.增加了三种采样率 (16、22.05、24 kHz);2.扩展了编码器输出速率范围 ( 8 640 kbps)；3.增加了声道数 ( 5.1或 7.1 声道);4.支持 Linear PCM 和 Dolby AC3 编码。三、MPEG 2 Audio 编码数据流格式 (略)多媒体技术：宽带音频压缩技术及标

12、准陈科文3.1 简介简介多媒体技术：宽带音频压缩技术及标准陈科文3.2 AAC一、一、MPEG 2 AAC 简介简介主要使用听觉系统的掩蔽特性来压缩声音数据；把整个AAC系统分解成一系列模块，提供了多种标准化的编码工具供选择。定义了三种编解码器的配置: (1)基本配置、(2) 低复杂度配置、(3)可变采样率配置。多媒体技术：宽带音频压缩技术及标准陈科文3.2 AAC二、AAC 主要性能：采样频率：8 96 kHz ; 单声道、立体声、多声道 ( 可支持 48个主声道、16 个LFE加强声道、16个配音声道和16个数据流) 压缩率高、音质好（在压缩比为11:1时，还原后的5声道的声音与原始声

13、音之间的差别很难区分。）多媒体技术公共课程中南大学信息科学与工程学院四、MPEG 4 音频编码多媒体技术：宽带音频压缩技术及标准陈科文4.1 简介简介 MPEG 4 Audio 标准引入了“声音对象”(AO)的概念，可集成各种声音（从话音到高保真多声道立体声，从自然声音到合成声音）和多种编码方法。自然声音编码： MPEG 4 Audio 定义了三种类型的编码器，分别用于不同类型的声音，输出数据速率介于2 64 kbps 之间。合成声音：包括 MIDI合成音乐和 TTS 合成话音。多媒体技术：宽带音频压缩技术及标准陈科文4.1 简介简介多媒体技术：宽带音频压缩技术及标准陈科文4.2 TTSTTS（文-语转换，Text To Speech ） TTS 系统的最根本问题在于它的语音自然度。为了提高合成语音的自然度，文语转换技术的研究将涉及到语言学、语音学、信号处理、人工智能、等许多学科，因此，TTS 是一个十分复杂的系统。一个比较完整的 TTS 系统模型如下：多媒体技术：宽带音频压缩技

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

L11-2)宽带音频压缩编码

文档简介

温馨提示

最新文档

评论

L11-2)宽带音频压缩编码

文档简介

温馨提示

最新文档

评论

相关文档