第5章音频数据的压缩编码_第1页
第5章音频数据的压缩编码_第2页
第5章音频数据的压缩编码_第3页
第5章音频数据的压缩编码_第4页
第5章音频数据的压缩编码_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章音频数据的压缩编码第5章音频数据的压缩编码

明确人的听觉特性掌握音频编码的分类及原理

掌握MPEG-1音频编码的原理和特点

了解MPEG-2音频编码学习目标第5章音频数据的压缩编码本章的主要内容5.1概述5.2人的听觉特性5.3音频信号的数字化5.4-5.85.9MPEG-1音频编码5.10MPEG-2音频编码5.12音频压缩编码的国际标准小结5.1概述声音是机械振动在弹性介质中传播的机械波,称为声波。声音转换为电信号时,声音的电信号在时间和幅度上都是连续的模拟信号。振幅周期●振幅—波的高低幅度,表示声音的强弱●周期—两个相邻波之间的时间长度●频率—每秒钟波振动的次数,单位是Hz●

声音特性空气、液体、固体●认识声音声音的强度(响度或音量),与声波振幅成正比;唱盘、CD盘等声音载体中的音强不变,通过播放设备的音量控制可改变聆听时强度;音频处理软件可提高声源音强声音的特色,主要影响因素是复音;复音指具有不同频率和不同振幅的混合声音,其中最低频率是“基音”,是声音的基调,其他频率的声音为“谐音(泛音)”代表声音的高低,与频率有关;使用音频处理软件对声音的频率进行调整时,其音调也会随之发生变化●声音的三要素●音调——(高低)(高)(低)●音强——(强弱)(弱)(强)(停)●音色——(特质)钢琴吉他小号小提琴5.1概述音频压缩编码研究的基本问题在给定编码速率的条件下,如何能够得到尽量好的重建语音质量;尽量减少编码延时;降低算法的复杂程度。音频信号分为话音(人的说话声音)和一般声音(如音乐)两类。5.1概述音频编码分类按照编码速率来分:高速率(32kb/s以上)极低速率(1.2kb/s以下)中高速率(16-32kb/s)中速率(4.8-16kb/s)低速率(1.2-4.8kb/s)按照编码方法来分:波形编码参数编码混合编码5.2人的听觉特性声音频率是常用的描述声音的参量,人耳所能感受到的声音的频率范围在16HZ-16KHZ。声压及声压级SPL(SoundPressureLevel)也是常用的声音描述参量。简单来说,声压就是声音的压力。5.2.1响度级和响度响度表征声音的强弱响度的客观测量单位声压dyn/cm(达因/平方厘米);声强W/cm(瓦特/平方厘米)描述主观声音的强弱响度级:方(phon);响度:宋(sone)225.2.1响度级和响度

人耳的等响度曲线:实验表明,人耳感知的声音强度是频率和声压级的函数,通过比较不同频率和幅度的语音可以得到人耳的等响度曲线。图5-1等响曲与声强的关系5.2.2听觉灵敏度听阈:能引起人耳听到声音时的声压称为听阈;听觉灵敏度:在给定频率上,人耳能够听到声音的最小声压级。横轴表示频率,纵轴表示与这段信号相比其他频率信号能被听到的强度,用分贝表示;从图中看出,人耳对不同频率的敏感程度差别很大,其中对2-4KHZ范围的信号最为敏感,这个频段以外,人耳的听觉灵敏度逐渐降低。5.2.3听觉掩蔽人耳听觉的掩蔽效应:

一个频率声音的听阈由于另一个声音的存在而上升的现象称为掩蔽。在一个较强的声音附近,相对较弱的声音将不能被人耳察觉,即被强音掩蔽。频域掩蔽(同时掩蔽)当音频信号中存在多个信号时,强信号会降低人耳对该信号频域附近其他信号的敏感度,这种现象称为频率掩蔽,也称同时掩蔽,是较强的掩蔽效应。时域掩蔽(异时掩蔽)人耳听到一个强音后,会经过一个短暂的延时才能听到较弱的声音,称为时域掩蔽,也称异时掩蔽。超前掩蔽(5-20ms)滞后掩蔽(50-200ms)5.2.4临界带宽为了描述窄带噪声对纯音信号的掩蔽效应,引入临界带宽的概念。临界带宽:一个纯音可以被以它为中心频率,并且有一定宽度的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这是该纯音处于刚好能被听到的临界状态,则称这一带宽为临界带宽。

单位:巴克(Bark)1Bark=一个临界带宽5.3音频信号数字化

转换模拟信号数字信号采样、量化、编码5.3音频信号数字化音频信号频率采样频率采样量化保存为声音文件开始结束根据声音频带、取样频率和样本精度,通常把声音分为五个等级(见表5-1)。由低到高为:电话、调幅(AM)广播、调频(FM)广播、激光唱盘(CD)、数字录音带(DAT)5.4-5.8音频编码的分类1.波形编码

波形编码是基于对语音信号波形的数字化处理,试图使处理后重建的语音信号波形与原语音信号波形保持一致。

优点是实现简单、语音质量较好、适应性强等。缺点是话音信号的压缩程度不是很高,实现的码速率比较高。常见的方法有:脉冲编码调制PCM、差分脉冲编码调制DPCM、自适应差分脉冲编码调制(ADPCM)、子带编码(SBC)等。波形编码的比特率一般在16至64KHZ之间,它有较好的话音质量与成熟的技术实现方法。从第一个音频编码出现到现在,出现了很多压缩编码方法,可以将它们分为三类:波形编码、参数编码、混合编码5.4-5.8音频编码的分类2.参数编码参数编码又称声源编码,它是通过构造一个人发声的模型,以发音机制的模型作为基础,用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型,在发送端从模拟语音信号中提取各个特征参量并对这些参量进行量化编码,以实现语音信息的数字化。

优点是语音编码速率较低,基本上在2kbit/s~9.6kbit/s之间。缺点合成语音质量差,清晰度满足要求而自然度不好,难以辨认说话人;电路实现复杂度比较高。常见的方法有:线性预测编码LPC。

3.混和编码

混和编码将波形编码和参量编码结合起来,力图保持波形编码话音的高质量与参量编码的低速率。

常见的方法有:码激励线性预测编码器(CELP);感知编码。

5.9MPEG-1音频编码--概述

MPEG-1音频编码是第一个高保真立体声音频压缩标准。

为了保证其普遍性,MPEG-1提供了以下压缩模式:

MPEG-1声音标准规定其音频信号采样频率可以有32kHz、44.1kHz或48kHz三种。应用感知编码和子带编码模型来对声音数据进行压缩。音频编码提供三个独立的压缩层次:

Layer-1、Layer-2和Layer-3,使用户可在复杂性和压缩质量之间权衡选择。层次压缩比输出数据率算法应用Layer14:1384kb/sMUSICAM简化版小型数字盒式磁带Layer26:1-8:1192~256kb/sMUSICAM数字广播音频、数字音乐、VCDLayer310:1-12:164kb/sMUSICAM与ASPEC结合MP3、ISDN上的声音传输5.9.2MPEG-1的心理声学模型

5.9.3编码层次1.第一层Layer-1的编码Layer

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论