《多媒体通信》第2章音频信息处理技术_第1页
《多媒体通信》第2章音频信息处理技术_第2页
《多媒体通信》第2章音频信息处理技术_第3页
《多媒体通信》第2章音频信息处理技术_第4页
《多媒体通信》第2章音频信息处理技术_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多媒体通信西安电子科技大学 通信工程学院第二章 音频信息处理技术声学基础知识数字音频技术音频信号压缩编码数字音频压缩标准第二章 音频处理技术声学基础知识数字音频技术音频信号压缩编码数字音频压缩标准一、声音基础知识41. 声学基础知识 声音声音是通过空气传播的一种连续的波由许多频率不同的分量信号组成的复合信号带宽范围在20Hz 20kHz,称为音频(Audio)信号51. 声学基础知识 声音的性质声音是时基类媒体声音三个要素:音调、音强和音色声音具有连续谱特性声音有方向感音色与失真特性61. 声学基础知识 信号冗余采样数据之间的相关8kHz速率时,相邻样值相关系数高达0.85周期相关浊音的准周期

2、性幅度的非均与分布小幅度概率高,信息集中在低功率存在语音间隙声道的形状及其变化速率有限71. 声学基础知识 人耳听觉特性人耳对声音强弱的感觉特性:掩蔽效应人耳对不同频段的声音敏感度不同强音抑制弱音低频比高频更敏感人耳对语音信号的相位不敏感81. 声学基础知识 声音带宽声音的质量与声音的带宽有关一般来说频率范围越宽,声音质量也就越高20502003.4k7k15k20k电话语音调幅广播(AM)调频广播(FM)CD频率(Hz)91. 声学基础知识 声道单声道(Monophonic)双声道(Stereo) 声音的三个属性幅值(Amplitude)相位(Phase)时序(Timing)声学基础知识数字

3、音频技术音频信号压缩编码数字音频压缩标准二、数字音频技术112. 数字音频技术 采样频率如果采样频率高于输入信号最高频率的两倍,重放时就能从采样信号序列无失真地重构原始信号2.1 音频数字化采样频率越高,单位时间内采集的样本数越多,得到波形越接近原始波形,音质就越好,奈奎斯特(Harry Nyquist)采样定理:常用的几个采样频率:8KHz话音11.025kHzAM广播22.05kHzFM广播44.1kHzCD122. 数字音频技术 采样精度采样精度用每个声音样本的位数表示,也叫样本精度或量化位数。它反映度量声音波形幅度的精度。采样精度决定了模拟信号数字化以后的动态范围。采样精度影响到声音的

4、质量位数越多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。132. 数字音频技术 声道数记录声音时,如果一次记录一组声波数据,称为单声道(mono);如果每次记录两组声波数据,则称其为双声道或立体声(stereo)。双声道在硬件中占两条线路,一条是左声道,一条是右声道。立体声不仅音质、音色好,而且能产生逼真的空间感。但立体声数字化后所占空间比单声道多一倍。除采样频率、采样精度、声道数影响声音质量外,声音录制时环境噪声、声卡内部噪声以及采样数据丢失等都会造成声音质量的下降。实际收听时,音响(功率放大器、扬声器等)的质量对音质的表现也起很大作用。142.

5、数字音频技术 音频数据传输率数据传输率(bps) = 采样频率(Hz) 量化位数(bit) 声道数质量采样频率(kHz)量化精度(bit)声道数据率(kbps)频率范围电话88Mono64200-3400AM11.0258Mono88.250-7000FM22.05016Stereo705.620-15000CD44.116Stereo1411.220-20000DTS4816Stereo153620-20000152. 数字音频技术一分钟的CD高保真音频数据:数据传输率(bps) = 44.1kHz 16bit 2声道 = 1411.2kbps一分钟数据量 = 1411.2kbps 60s

6、/ 8 = 10.584MByte162. 数字音频技术 压缩压缩比:有损压缩和无损压缩:有损压缩:解压后数据不能恢复,要丢失一部分信息无损压缩:不丢失任何信息172. 数字音频技术2.2 数字音频文件格式通用的音频数据文件,扩展名为 .wav WAVE文件格式数据未经压缩,直接对声音波形进行采样记录的数据音质好,存储体积大CD中就是这种格式182. 数字音频技术MPEG (Motion Picture Expert Group, 运动图像专家组)制定的视频压缩算法中的音频压缩部分 MPEG文件MPEG-1音频压缩算法提供3个独立的压缩层次:Layer1、Layer2、Layer3,压缩后的声

7、音文件后缀分别对应为:MP1 / MP2 / MP3MP3的压缩比在 10:1 左右(与压缩后的码率有关)体积小、音质接近CD、便于交换192. 数字音频技术RealAudio是Real Networks推出的一种音乐压缩格式,压缩比可达到 96:1 RealAudio文件最大特点是可以采用流媒体的方式实现网上实时播放文件扩展名有 .ra 和 .rm 两种。202. 数字音频技术WMA (Windows Media Audio) 格式是Microsoft开发的流式音频文件格式,可兼顾高保真度和网上传输的需求 WMA文件采用WMA格式的音频文件比MP3要小得多,音质不减,其压缩比可达到18:1。

8、WMA的另一个优点是内容提供商可以通过数字版权管理方案加入防复制保护,限制播放时间、播放次数和播放机器等,有效防止盗版。212. 数字音频技术AAC (Advanced Audio Coding) 格式是基于MPEG-2的音频编码技术。2000年,MPEG-4标准出现后,AAC重新集成了其特性,加入了SBR技术和PS技术,为了区别于传统的MPEG-2 AAC又称为MPEG-4 AAC。 AAC文件比mp3压缩率更高,可达到18:1;AAC格式在96Kbps码率的表现超过了128Kbps的MP3格式;支持多声道、高采样率222. 数字音频技术AMR (Adaptive Multi-Rate) 格

9、式是3GPP选定为GSM和3G WCDMA应用的窄带语音编解标准。由欧洲通信标准化委员会提出,是在移动通信系统中使用最广泛的语音标准。 AMR文件可变比特率:4.75 12.2 kbps232. 数字音频技术MIDI文件并不是一段录制好的声音,而是记录声音的信息,然后再告诉声卡如何再现音乐的一组指令。由于MIDI文件是一系列指 令,而不是波形,它需要的磁盘空间非常少,一个MIDI文件每存1分钟的音乐只用大约510KB MIDI文件对MIDI数据的编辑和修改非常灵活,可以方便地增加或删除某个音符,或者改变音符的属性MIDI文件主要用于原始乐器作品,流行歌曲的业余表演,游戏音轨以及电子贺卡等。MI

10、DI的最大用处是在电脑作曲领域声学基础知识数字音频技术音频信号压缩编码数字音频压缩标准三、音频信号 压缩编码253. 音频信号压缩编码3.1 数据压缩的基本原理信息论用概率来描述不确定性。事件出现的概率小,不确定性就越多,信息量越大 信息和熵如果将信息源所有可能事件的信息量进行平均,得到信息的熵(Entropy)p(xi)表示事件xi发生的概率,I(xi)表示xi发生所含的信息量如果对数取以2为底,则所得的信息量为比特(b)263. 音频信号压缩编码某信源有8种符号,其出现概率如下:符号符号ABCDEFGH出现概率0.30.250.150.150.070.040.030.01求该信息源的熵。解

11、:= -(0.3*log0.3+0.25*log0.25+0.15*log0.15 )= 2.51273. 音频信号压缩编码信源中含有自然冗余度,这些冗余度既来自于信源本身的相关性,又来自于信源概率分布的不均匀性,只要找到去除相关性或改变概率分布不均匀性的手段和方法,也就找到了信息熵编码的方法。信源所含有的平均信息量(熵)是进行无失真编码的理论的极限,只要不低于此极限,就能找到某种适宜的编码方法,去逼近信息熵,实现数据压缩。 283. 音频信号压缩编码 信息冗余多媒体数据中大的数据量并不完全等于它们所携带的信息量。在信息论中,称为冗余。数据冗余的类型空间冗余时间冗余信息熵冗余结构冗余视觉冗余听

12、觉冗余知识冗余293. 音频信号压缩编码 压缩算法的分类可逆编码:减少数据中的冗余度,而不损失任何信息。常用于文本、数据的压缩。如Huffman编码、算术编码和行程编码等不可逆编码:压缩了熵,会减少信息而不能再恢复。常用于图像、声音、动态视频等数据的压缩。如用混合编码的JPEG标准定长编码:数存储数字信息的编码系统采用定长码。如ASCII码、汉字国标码不定长编码:码长不固定,以节省存储空间。如Huffman编码303. 音频信号压缩编码预测编码:根据某一数据模型,利用以往的样本值对新样本值进行预测,然后将样本实际值与预测值的差进行编码。常用于语音、图像编码中变换编码:先把要压缩的数据变换到某个

13、变换域中,然后再进行编码矢量量化编码:利用相邻数据间的相关性,将数据序列分组进行量化的一种压缩方法子带编码:首先让原始数据分别通过若干个具有不同频带的滤波器,将信号分成多个子带信号输出,然后分别对各个滤波器的输出进行编码熵编码:根据信息熵的原理,用短码表示出现概率大的数据,用长码表示出现概率小的数据。在语音和图像编码中常常和其它有损压缩编码方法结合使用313. 音频信号压缩编码3.2 音频信号压缩编码 编码(压缩)的重要性编码、传输、存储和译码是语音数字传输和数字存储的必要过程压缩语音信号的传输带宽,降低信道的传输速率,一直是人们追求的目标。语音编码在实现这一目标的过程中担当重要的角色323.

14、 音频信号压缩编码数字传输系统噪声语音编码应用(IP电话)333. 音频信号压缩编码 音频压缩依据冗余度时域样点之间相关(短时、长时)频域谱的非平坦性(谱包络、谱离散)统计特性(去除可恢复)人耳听觉特性人耳对不同频段声音的敏感程度不同,通常对低频比对高频更敏感人耳对语音信号的相位不敏感人耳掩蔽效应(Masking Effect)对人耳听不到或感知极不灵敏的声音分量都可视为冗余343. 音频信号压缩编码 语音编码的极限速率语音最基本元素-音素:大约128256个通常说话速度:每秒平均发10个音素信息率: I=log2(256)10bps=80bps语音编码的极限速率为80bps353. 音频信号

15、压缩编码 音频信息编码技术可分为三类:波形编译码器 (Waveform Coder)发送端:在时间轴上对模拟话音信号按照一定的速率来抽样,然后将幅度样本分层量化接收端:将收到的数字序列经过解码恢复到原模拟信号,保持原始语音的波形形状编码速率:通常 16kbps特点:编码速率高,延时小,运算、存储量小,强健性好如PCM、ADPCM等363. 音频信号压缩编码参数编译码器 (vocoder)发送端:从话音波形信号中,提取话音信号特征参数,针对这些参数进行编码接收端:将特征参数,结合数学模型,恢复语音,力图使重建语音保持尽可能高的可懂度,重建语音信号的波形同原始语音信号的波形可能会有相当大的区别又称

16、声码器编码速率:通常 2-9.6kbps特点:编码速率低,延时大,运算量大,强健性差如LPC373. 音频信号压缩编码混合编译码器 (Hybrid coder)综合使用上述两种技术。混合编码包括若干语音特征参量又包括部分波形编码信息,以达到波形编码的高质量和参量编码的低速率的优点编码速率:通常 4-16kbps特点:介于波形编码和参数编码之间如MPE-LPC(多脉冲激励线性预测编码器)、RPE-LPT(规则脉冲激励线性预测编码器)383. 音频信号压缩编码 语音编码性能评价编码速率 (bit/s)重建语音质量客观评价信噪比(SNR)ITU-T P.862 PESQ主观评价MOS分可懂度评价DR

17、T(Diagnostic Rhymer Test)编解码延时(ms)算法复杂度运算量(MIPS)存储量(RAM、ROM)强健性抗随机误码和突发误码,抗丢包和丢帧的能力对不同信号编码能力,级联或转接能力393. 音频信号压缩编码MOS: (Mean Opinion Score, 主观平均判分法)MOS质量等级质量等级主观感觉主观感觉5极好觉察不到4好觉察得到,但不难听3一般有点难听2差难听,但不反感1极差难以忍受MOS是一种主观评价指标。听众根据系统质量的好坏,使用N分制给系统打分。403. 音频信号压缩编码三种压缩编码的性能比较413. 音频信号压缩编码3.2.1 波形编码 PCM(Pulse

18、 Code Modulation)采样(Sampling)量化(Quantization)编码(Coding)423. 音频信号压缩编码均匀量化采用相等的量化间隔,对采样得到的信号做量化。缺点:弱信号时量化信噪比小,所以一般都采用非均匀量化433. 音频信号压缩编码非均匀量化大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,这样就可以在满足精度要求的情况下用较少的位数来表示443. 音频信号压缩编码律压扩律(-Law)压扩主要用在北美和日本等地区的数字电话通信中,按下面的公式确定量化输入和输出的关系:式中,x为输入信号幅度,归一化为-1x 1,sgn(x)为x的符号,为确定压缩量之比

19、,取100500。国际现在的标准是=255。由于率压扩的输入与输出是对数关系,因此这种编码又称为对数PCM453. 音频信号压缩编码A律压扩A律(A-Law)压扩主要用在欧洲和中国大陆等地区的数字电话通信中,按下面的公式确定量化输入和输出的关系:式中, x为输入信号幅度,归一化为-1 x 1 ,sgn(x)为x的符号,A为确定压缩量的参数,一般取87.56。1sgn( ), 01ln1ln1sgn( ),11lnA xxxAAyA xxxAA 463. 音频信号压缩编码对于采样频率为8kHz,样本精度为13位、14位或者16位的输入信号,使用律压扩编码或者使用A律压扩编码,经过PCM编码器之后

20、每个样本用8位二进制存储,输出的数据率为64 kb/s。这个数据就是CCITT推荐的G.711标准473. 音频信号压缩编码 语音信号的特点语音信号是非平稳随机过程时变性短时平稳性(10-20ms,分帧处理)3.2.2 参数编码483. 音频信号压缩编码 发声机构声源:声带共鸣机构:声道(鼻腔、口腔与舌头)放射机构:嘴唇和鼻孔493. 音频信号压缩编码 清音和浊音浊音:气流通过声门时,声带的张力刚好使声带产生张弛振荡式振动,产生一股准周期脉冲气流,激励声道产生浊音浊音波形具有明显准周期性。声带振动的频率称为基音频率fb,周期为基音周期Tp,基音频率fb一般在70300 Hz的范围内,相当于Tp

21、为315 ms。基音周期Tp是语音信号的主要特征之一清音:声带不振动,而在某处收缩,迫使气流高速通过这一收缩部分产生湍流就产生清音发清音时声带不振动,此时是由湍流建立的宽带噪声源激励着声道。清音波形类似于噪声503. 音频信号压缩编码050100150200清 音 语音浊 音 语音振 幅时 间 (样 点)513. 音频信号压缩编码 语音信号的统计特性短时平稳段分类无话(信息最少)清音(信息较少)浊音(信息较多)起始(信息最多)65%35%有声有声/无声段分布无声段分布无声有声5%30%65%有声段类型分布有声段类型分布起始清音浊音523. 音频信号压缩编码 参数编码的特点参数编码是针对语音信号

22、的特征参数,所以与波形编码不同,只是适用于语音信号。常用的编码器为线性预测编码器 参数编码的应用移动通信卫星通信短波保密通信等533. 音频信号压缩编码 LPC(Linear Predictive Coding,线性预测编码)时间(样点)时间(样点)x(n)x(n-1)x(n-p)p p个点个点线性预测线性预测:pkkknxanx1)()(543. 音频信号压缩编码 LPC语音合成图LPC系数增益G清/浊开关基音周期u(n)输出语音 s(n)553. 音频信号压缩编码语音输语音输出出x x( (n)n)线性线性预测预测分析分析基音频率基音频率清清/ /浊音判别浊音判别参数参数合成合成a a2

23、2a ap p 基音频率基音频率输入语输入语音音x(n)x(n)清清/ /浊音标志浊音标志G G)()()(1knxanuGnxqkka a1 1563. 音频信号压缩编码 模型中的参数清浊音判决增益常数G数字滤波器参数ai基音周期时变滤波器能够用线性预测分析方法对滤波器参数ai和增益常数G进行非常直接和高效的计算573. 音频信号压缩编码 LPC-10编码器美国确定LPC-10作为2.4kb/s速率上的推荐编码形式,用于第三代保密电话中发送端,原始语音信号采用8kHz采样,然后每180个采样值分为一帧(22.5ms),提取语音特征参数并加以编码传送每帧总共编码为54bits,每秒传输44.4

24、帧,因此总传输速率为2.4kb/s583. 音频信号压缩编码3.2.3 混合编码 特点混合编码的思想是试图填补波形编码和参数编码之间的间隔波形编码:数据率低于16kbit/s时,音质变差参数编码:音质不能与自然话音相提并论混合编码在保留参数编码技术的基础上,引用波形编码准则优化激励信号的方案。目前以CELP(Code Excited Linear Prediction, 码激励线性预测编码)为基础的多种算法已经成为国际标准声学基础知识数字音频技术音频信号压缩编码数字音频压缩标准四、数字音频 压缩标准604. 数字音频压缩标准4.1 标准在电话传输系统中应用的电话质量的音频压缩编码技术标准,如PCM(ITU G.711)、ADPCM(ITU G.721)等 在窄带综合服务数据网传送中应用的调幅广播质量的音频压缩编码技术标准,如G.722

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论