版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、音频编码技术组员:王剑博 刘 遥 1目录123 传统音频编码音频编码标准Dolby Digital & DTS2传统音频编码12音频编码技术简介常见音频编码技术3音频编码技术简介声音的基本特征数字音频处理技术4音频编码技术简介物理学中的声音通过一定介质(如空气、水等)传播的连续的波根据不同声音的特性,通常我们将其分为两类:不规则声音和规则声音规则的声音通常分为语音、音乐和音效语音是指具有语言内涵和人类约定俗成的特殊媒体音乐是规范的、符号化的声音音效是指人类熟悉的其他声音,如动物和机器产生的声音等声音的三要素音调:人对声音频率的感觉音色:声音信号中的高次谐波分量音强: 又称响度,用来描述声音的强
2、度,取决于声音的幅度5数字音频编码技术简介数字音频是指用一系列的数字来表示音频符号,即把模拟音频信号转换成有限个数字表示的离散序列,从而实现音频数字化。把模拟信号转换成数字信号的过程称为模/数转换,它主要包括:采样:在时间轴上对信号数字化量化:在幅度轴上对信号数字化编码:按一定格式记录采样和量化后的数字数据声音数字化过程示意图6数字音频编码技术简介语音通信中的信息量越来越大,为了节约带宽和有利于传输(相对)使得语音在链路产生误码、网络抖动和突发传输时具有鲁棒性。用于军用的保密功能音频编码器的目的:7数字音频编码技术简介音频编码器的类型:波形编码器声码器混合编码器感知编码器8数字音频编码技术简介
3、音频编码器的类型:波形编码器 波形编码器是将时间域信号直接变换为数字代码,力图使重建语音波形保持原语音信号的波形形状。波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样,然后将幅度样本分层量化,并用代码表示。 特点:具有适应能力强、语音质量好 所用的编码速率高,数据量大 举例:脉冲编码调制(PCM)和增量调制(M),以及它们的各种改进型自适应增量调制(ADM),自适应差分编码(ADPCM)等9数字音频编码技术简介声码器工作原理及过程: 频谱分析,利用其周期性提取参数进行线性预测 鉴别清浊音,测定浊音基频,进而选取清-浊判断、浊音基频和频谱包络作为特征参量 提取特征参量,编码、加密和信道匹
4、配 经信道传递到接受端,根据特征参量恢复原始波形特点: 对话音存储和话音加密处理很有利,有算法,速度快 质量好且结构简单,适合于窄带、昂贵和劣质信道条件下的数字电话通信 工作过程复杂,价格高,音质有点差,对噪声敏感 10数字音频编码技术简介声码器 声码器工作原理示意图11数字音频编码技术简介音频编码器的类型:混合编码器 目前常用的语音编码器是混合编码器,它融合了波形编码器和声码器的长处。它的另一特点是它工作在非常低的比特率(416 kbps)。混合编码器采用合成分析(AbS)技术。 举例: 1、线性预测合成分析编码器 2、参数语音编码器12数字音频编码技术简介音频编码器的类型:感知编码器基本原
5、理: 以上三种编码器都是基于信息论,利用信号的统计特性进行压缩 人类听觉系统存在局限性,不能感知到所接受的声音中的所有信号成分,感知编码器的基本思想是去除音频信号中所不能感知到的成分,从而大大提高编码增益,且不会损耗信号的感知质量基本特点: 压缩率高,感知质量好 结构相比其他编码器复杂得多 13数字音频编码技术简介音频编码器的类型:感知编码器 感知音频编解码器基本框图14常见数字编码处理技术音频编码器的标准:音频编码标准各参数对照 15常见数字音频编码技术PCM(脉冲编码调制)采样: 均匀采样 PCM在通信中主要用于时分多路复用和频分多路复用.模拟信号低通防失真滤波器波形编码器量化器PCM样本
6、16常见数字音频编码技术PCM(脉冲编码调制) 脉冲编码调制就是把一个时间连续,取值连续的模拟信号变换成时间离散,取值离散的数字信号后在信道中传输。脉冲编码调制就是对模拟信号先抽样,再对样值幅度量化,编码的过程17常见数字音频编码技术PCM的主要问题:1、任何脉冲编码调制数字音频系统需要在其输入端设置急剧升降的滤波器,仅让20Hz-22.05kHz的频率通过2、PCM是无损压缩,数据量大,冗余量大18常见数字音频编码技术APCM(自适应编码调制):产生背景: PCM精度越高,样本位数越大音频数据量越大 大信号出现的机会并不多,为提高精度增加的样本位数没有充分利用基本原理: 根据输入信号幅度大小
7、来自适应的改变量化阶大小两种方法: 前向自适应:根据未量化的样本值来估算输入信号电平,来确定量化阶大小 后向自适应: 从量化器刚输出的过去样本中提取量化阶信息 19常见数字音频编码技术DPCM(差值编码): 工作原理: 语音信号的相邻抽样点具有一定的幅度相关性,故可根据以前时刻的样值来预测现时刻的样值,只需传预测值和实际值之差,不需要每个样值都传。 特点: 都是无损压缩 成倍的降低了编码大小 20常见数字音频编码技术ADPCM(自适应差分PCM) 该算法利用了语音信号样点间的相关性,并针对语音信号的非平稳特点,使用了自适应预测和自适应量化,综合了APCM的自适应特性和DPCM系统的差分特性,是
8、一种性能比较好的波形编码。核心思想: 1、利用自适应的思想改变量化阶的大小,即使用小的量化阶去编码小的差值,使用大的量化阶去编码大的差值; 2、使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。优点:算法复杂度低,压缩比小(CD音质400kbps),编解码延时最短(相对其它技术)缺点:声音质量一般 21常见数字音频编码技术CELP (码激励线性预估) CELP是近10年来最成功的语音编码算法,用线性预测提取声道参数,用一个包含许多典型的激励矢量的码本作为激励参数,每次编码时都在这个码本中搜索一个最佳的激励矢量,这个激励矢量的编码值就是这个序列的码本中的序号。特
9、性: 1、对误差信号进行感觉加权,利用人类听觉的掩蔽特性来提高语音的主观质量 2、用分数延迟改进基音预测,使浊音的表达更为准确,尤其改善了女性语音的质量; 3、使用修正的MSPE准则(最小平方预测误差)来寻找 “最佳”的延迟,使得基音周期延迟的外形更为平滑; 4、使用基于信道错误率估计的自适应平滑器,在信道误码率较高的情况下也能合成自然度较高的语音。22常见数字音频编码技术杜比数字音频技术: 在全世界上千家影院和数百万家庭中,总体上,杜比数字是环绕声技术,特别是5.1声道环绕声技术的主宰性标准。杜比数字技术能传输单声道、立体声、或者多达5.1声道的环绕声(分离式多声道音频)。5.1声道: 19
10、92年DOLBY实验室在AC-2的基础上,又开发了DOLBY AC-3的数字音频编码技术。AC-3提供了五个声道的从20Hz的全通带频响,即正前方的左(L)、中(C)和右(R),后边的两个独立的环绕声通道左后(LS)和右后(RS)。AC-3同时还提供了一个100Hz以下的超低音声道供用户选用,以弥补低音之不足。因为此声道仅为辅助而已,故定为0.1声道。所以AC-3被称为5.1声道。23二、音频编码格式与标准21音频编码标准2音频文件格式2411.音频编码标准根据音频质量来区分,可以分为以下三类标准:1.1电话质量的音频压缩标准1.2调幅广播质量的音频压缩标准1.3高保真立体声音频压缩标准252
11、电话质量语音信号的频率范围是2003400HZ,采用脉冲编码调制(PCM)方法,当采样频率为8Khz,量化位数为8位时,对应的码率为64Kbps为了压缩音频数据,国际上从ITU-T最初的G.711标准开始,已制定了一系列的语音压缩编码的标准。1.1电话质量的音频压缩标准2631989年美国公布的数字移动信息标准CTIA,采用矢量和激励线性预测技术(VSELP),速率为8Kbps。为了适应保密通信的要求,美国国家安全局NSA分别于1982年和1989年制定了基于LPC,速率为2.4Kbps和基于CELP,速率为4.8Kbps的编码方案。1983年欧洲电信管理局(European Telecomm
12、unication Administration)下属的一个工作小组CEPT-CCH-GSM(Group Special Mobile)推出了欧洲移动电话的压缩标准GSM,GSM采用的算法为长时预测规则码激励(RPE-LTP,Regular-Pulse Excitation/Long Term Prediction),采样频率为8KHz,运行速率13Kbps。欧美国家语音通信标准274ITU建议的用于电话质量的语音压缩标准标准编码类型码率(Kbps)平均音质MOS复杂性时延(ms)G.711PCM644.310.125G.721ADPCM324.0100.125G.723.1ACPLP6.33
13、.82537.5G.728LD-CELP164.0500.625G.729CSA-CELP84.030、1515GSMRPE-LPT133.7520285调幅广播质量音频信号的频率范围是507000Hz,1988年ITU制定了G.722标准,G.722标准使用16KHz的采样频率和16位的量化位数时,信号速率为224Kbps。,他可把信号速率压缩成64Kbps。1.2调幅广播质量的音频编码标准G.722标准采用基于子带ADPCM技术,将现有的带宽分成两个独立的子带信道,使输入信号进入滤波器组分成高子带信号和低子带信号。然后分别进行ADPCM编码,最后进入混合器形成输出码流。利用G.722标准可
14、以在窄带ISDN的一个B信道上传输调幅广播质量的音频信号。由于这种压缩方法能够在8Kbps的存储量下给出相当好的音乐信号,因此也适合于需要存储大量高质量音频信号的多媒体系统使用。2961.3高保真立体声音频压缩编码标准高保真立体声音频信号的频率范围是1022000Hz,在44.1KHz采样频率下用16位量化,信号速率为每声道705Kb/s。目前,世界上第一个高保真立体声音频压缩标准为MPEG音频压缩算法,虽然MPEG音频标准是MPEG标准的一部分,但它也完全可以独立适用。307MPEG音频不是单个一种压缩算法,而是三种音频编码和压缩方案的一个系列,称为MPEG声音Layer 1,Layer 2
15、,Layer 3。随着层数的增加,算法的复杂度也增大,所有三层都分级兼容。MPEG声音标准规定其音频采样率可选择为32KHz、44.1KHz或48KHz;音频带宽可选择15KHz和20KHz,其中15KHz对应的采样频率为32KHz,20KHz对应的采样频率为44.1KHz和48KHz;压缩码率可选择从32320kbps的一些特定比特率。它支持单声道、双声道、立体声和联合立体声四种声音模式。318MPEG-2也定义了音频标准,由两部分组成,即MPEG-2音频(Audio,ISO/IEC 13818-3)和MPEG-2 AAC(先进的音频编码,ISO/IEC 13818-3)。MPEG-2 音频
16、编码标准是对MPEG-1后向兼容的、支持二至五声道的后继版本。主要考虑到高质量的 5+1 声道、低比特率和后向兼容性,以保证现存的两声道解码器能从5+1 个多声道信号中解出相应的立体声。MPEG-2 AAC除后向兼容MPEG-1音频外,还有非后向兼容的音频标准。MPEG-4 Audio标准(ISO/IEC 14496-3)可集成从话音到高质量的多通道声音,从自然声音到合成声音,编码方法还包括参数编码(parametric coding),码激励线性预测(CELP ,code excited linear predictive)编码,时间/频率(T/F,time/frequency)编码,结构化
17、声音(SA,structured audio)编码,文语转换(TTS,text-to-speech)的合成声音,和MIDI合成声音等。329MPEG音频标准33102、音频文件格式无损音频格式: CD、 WAV、 FLAC、 APE有损音频格式: MP3、 MP3pro、 WMA、 AAC、 Dolby-AC3、DTS有两类主要的音频文件格式:3411格式名:.cda类型:Audio制定者: Sony 和 Philip采样率:44.1KHz码率:1.38Mbps (双声道) 特性: CD音轨可以说是近似无损的,因此它的声音基本上是忠于原声的,但是它们占用的带宽很高,需要1.38Mbps。优点:
18、音质最好缺点:占用的带宽很高,数据量很大可交换性:很差应用领域:voip版税方式:FreeCD3512格式名:.wav类型:Audio发布时间:1991制定者:microsoft采样率:11KHz码率: 176.4kbps (单声道) 特性: “.wav”格式支持MSADPCM、CCITT A LAW等多种压缩算法,支持多种音频位数、采样频率和声道。优点:符合 PIFF(Resource Interchange )文件规范,便于交换播放;支持编码算法较多;音质与CD相差无几缺点:数据量大(PCM)可交换性:良好应用领域:voip版税方式:FreeWAV3613格式名:.mp3类型:Audio发
19、布时间:1995制定者:MPEG采样率: 32KHz、44.1KHz、48KHz码率:112kbps-128kbps 特性:是一种有损压缩,具有10:112:1的高压缩率,同时基本保持低音频部分不失真,但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸优点:高压缩率,音质较好缺点:丢失高频信息可交换性:良好应用领域:voip版税方式:FreeMP33714格式名:.mp3类型:Audio 发布时间:2001.6制定者: Thomson 和 Faunhofe IIS 采样率:44.1KHz码率: 64Kbps 特性:采用MP3+SB频段复制技术混合编码,在低位率的时候,
20、压缩效率非常高,且与原MP3兼容优点:在一般音质下,压缩率高于MP3和WMA,三者之中音质最好缺点:编码算法较复杂,专利费高昂,未流行开可交换性:仅适用于播放MP3pro的专用播放器应用领域:voip版税方式:一次性付费MP3pro3815格式名:.wma类型:Audio发布时间:1999制定者:microsoft码率:64Kbps 特性:以减少数据流量但保持音质的方法来达到比MP3压缩率更高的目的,WMA的压缩率一般都可以达到1:18左右优点:压缩率高、可加入安全保护措施,支持流技术缺点:随着码率升高,音质提升并不明显可交换性:较好应用领域:voip版税方式:FreeWMA3916格式名:.
21、AAC类型:Audio发布时间:1997制定者:Dolby& Fraunhofer IIS& AT&T& Sony码率:96-128kbps 特性: AAC可以支持1到48路之间任意数目的音频声道组合,具有48 个主要音频通道,16 个低频增强通道,16 个集成数据流, 16 个配音,16 种编排。优点:在保持音质的条件下有较高的压缩率,遵循MPEG-2缺点:可交换性:较好应用领域:voip版税方式:一次性收费备 注: AAC主要可能的应用范围集中在因特网网络传播、数字音频广播,包括卫星直播和数字AM、以及数字电视及影院系统等方面。AAC4017格式名:.AC3类型:Audio发布时间:199
22、4制定者:Dolby码率: 64-640Kbps 特性:提供的环绕立体声系统由5个全频带声道加一个超低音声道组成,6个声道的信息在制作和还原过程中全部数字化,压缩比为12:1优点:环绕立体声,信息损失很少,细节丰富,具有真正的立体声效果 缺点:可交换性:较好应用领域:voip版税方式:按个收取 Dolby AC-34118格式名:.DTS类型:Audio制定者:DTS码率:768Kbps/1536Kbps 特性: DTS同AC3一样具有全音域的5.1声道,属于利用心理声学原理来对声轨进行编码的有损的数字压缩技术,压缩比为34:1优点:保留更多的音频信息,使得声场的层次性、细腻性好缺点:数据量大
23、可交换性:较差应用领域:voip版税方式:DTS4219格式名:.APE类型:Audio制定者: MonkeysAudio特性:对压缩后的音频可以进行无损的恢复,文件大小为CD一半优点:令人满意的压缩比以及飞快的压缩速度,无损的音质缺点:要求较大的带宽可交换性:较好应用领域:voip版税方式:备 注:广泛成为音乐发烧友的最佳选择APE4320格式名:.flac类型:Audio发布时间:2001制定者: Xiphophorus码率: 特性:无损压缩,可还原CD音质,开源优点:类似于MP3被广泛支持,可实时播放,FLAC可自由选择压缩率及压缩时间缺点:可交换性:很好应用领域:voip版税方式:Fr
24、ee备 注:可作为很好的保存音频于电脑的最佳方法之一FLAC44Dolby Digital & DTS3Dolby DigitalDTS45Dolby Digital杜比实验室著名的有损数据压缩的多媒体存储格式杜比数字(AC-3)共有5.1个声道:前左、前右、中间、左后环绕、右后环绕5个声道,“.1”是指分离的低频效果声道(20-120赫兹)46AC-3编码原理Dolby Digital分析滤波器:把音频表达式从一个PCM时间样本的序列变换为一个频率系数样本块的序列接下来的浮点数变换过程将转换系数集分成指数与尾数对。频谱包络编码:指数的集合被编码为信号频谱的粗略表达式,称作频谱包络。47AC-
25、3编码原理Dolby Digital比特指派:核心的比特指派例行程序用这个频谱包络,确定每个单独尾数需要多少比特进行编码。尾数量化:将频谱包络和6个音频样本块粗略量化的尾数,格式化成一个AC-3数据帧。48AC-3编码原理Dolby DigitalAC-3位分配的模型按照心理声学掩蔽效应来确定给定频带内的尾数位数的多少。根据掩蔽效应的程度,某些尾数只需要极少量的位,甚至无需任何位。全局数位集合,高频耦合技术49AC-3帧结构Dolby DigitalSYNC、SI:同步信息CRC:误码检测BSI:各种参数AUDIO BLOCK:每个编码声道包含256个PCM取样AUX:辅助数据50AC-3解码
26、原理Dolby DigitalLo,Ro立体声信号:Lo=1.0L+clevC+slevLsRo=1.0R+clevC+slevRs51Dolby Digital杜比数字环绕EX6.1声道:加入第三个环绕声道,位置在原来左环绕和右环绕中间国内首档采用杜比数字环绕声播出的综艺节目52Dolby Digital杜比数字Plus(E-AC-3)最高码率提升至6Mbps支持多达16.1声道53Dolby Digital杜比TrueHD100%无损的编码技术支持多达八个分离式24比特/96 kHz全频带声道96 kHz上采样技术杜比耳机不是一个耳机,而是一种信号处理系统使用杜比耳机技术后,立体声耳机能够产生逼真的模拟五只扬声器回放系统所产生的音响效果54DTSDTS(Digital Theatre System)采用CAC(Coherent Acoustics Coding,相干声学编码),属于利用心理声学原理来对声轨进行编码的有损的数字压
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江师范大学《规范字与书法》2023-2024学年第一学期期末试卷
- 郑州体育职业学院《视频传播实务》2023-2024学年第一学期期末试卷
- 长春师范大学《社会治理》2023-2024学年第一学期期末试卷
- 榆林职业技术学院《户外拓展与定向运动》2023-2024学年第一学期期末试卷
- 食用菌栽培基质废弃物降解
- 硕士职场竞争力
- 秋分节气与粮食安全
- 农业创新路演
- 学校文化建设上墙标语
- 会计辞职报告范文
- 公司费用预算表格模板(详细版)
- 华为经营管理-华为市场营销体系(6版)
- 2023年中国育龄女性生殖健康研究报告
- 钢结构加工厂考察报告
- 发电机检修作业指导书
- 薪酬与福利管理实务-习题答案 第五版
- 废旧物资处置申请表
- GB/T 37234-2018文件鉴定通用规范
- GB/T 31888-2015中小学生校服
- 质量检查考核办法
- 云南省普通初中学生成长记录-基本素质发展初一-初三
评论
0/150
提交评论