多媒体第六讲_第1页
多媒体第六讲_第2页
多媒体第六讲_第3页
多媒体第六讲_第4页
多媒体第六讲_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、3.1 3.1 音频编码技术音频编码技术 2 音频的分类 音频频率范围 低频声音(Infra-sound): 0Hz20Hz 人类听觉频率范围的声音:20Hz20kHz 高频(Ultrasound): 20kHz1GHz 超声波(Hypersound): 1GHz10THz 不同音频的带宽 电话语音: 200Hz3.4kHz 调幅广播: 50Hz7kHz 调频广播: 20Hz15kHz 宽带音响: 20Hz20kHz 3 声音信号的数字化声音信号的数字化 对模拟信号的处理比较复杂,难于精确 控制,成本高。将模拟信号转换成数字 信号,处理简单,精确。 模拟信号与数字信号模拟信号与数字信号 在时间

2、和幅度上都是连续的信号称为模 拟信号 在时间和幅度上都是用离散的数字表示 的信号称为数字信号 4 声音信号的数字化声音信号的数字化 声音信号的数字化声音信号的数字化 采样采样 在某特定时刻对模拟信号进行测量叫在某特定时刻对模拟信号进行测量叫采样采样。 采样的时间间隔称为采样的时间间隔称为采样周期采样周期,采样可分为均匀采样,采样可分为均匀采样 (每隔相等的一段时间进行采样)和非均匀采样,每秒(每隔相等的一段时间进行采样)和非均匀采样,每秒 钟采样的次数称为钟采样的次数称为采样频率采样频率。 量化量化 把信号幅度划分成若干小段,若每段都是相等的,称为把信号幅度划分成若干小段,若每段都是相等的,称

3、为 线性量化,否则称为非线性量化。线性量化,否则称为非线性量化。 编码编码 按照一定的格式把经过采样和量化得到的离散数据记录按照一定的格式把经过采样和量化得到的离散数据记录 下来,并在有效的数据中加入一些用于纠错、同步和控下来,并在有效的数据中加入一些用于纠错、同步和控 制的信息。制的信息。 5 声音信号的数字化声音信号的数字化 采样频率采样频率 根据奈奎斯特理论,采样频率不低于声音信号最高根据奈奎斯特理论,采样频率不低于声音信号最高 频率的两倍。这样就能把数字表达的声音还原成原频率的两倍。这样就能把数字表达的声音还原成原 来的声音,称为无损数字化。来的声音,称为无损数字化。 采样精度采样精度

4、 用样本值的二进制位数来表示。位数越多精度越高,用样本值的二进制位数来表示。位数越多精度越高, 数据量也越大。数据量也越大。 6 音频编码的目的在于压缩数据。在进行压缩时,要在音频质量、音频编码的目的在于压缩数据。在进行压缩时,要在音频质量、 数据量、计算复杂度三方面进行考虑。数据量、计算复杂度三方面进行考虑。音频编码的分类:音频编码的分类: 基于人的听觉特性进行编码(波形编译码器) 其目标是使重建语音波形保持原波形的形状。适应性强, 音频质量高,但压缩比不大。如:PCM、DPCM、APCM、ADPCM 基于音频的声学参数进行参数编码(音源编译码器) 这类编码数据率低,但质量清晰度低。 混合编

5、码 如,码本激励线性预测编码(CELP) 数据的压缩必然引起音频质量的降低。评价编码/解码器一 般根据以下几个参数:音频质量、数据率、编码/解码延时和算 法复杂度。 3.1.1 3.1.1 音频编码基础音频编码基础 7 音频编码基础音频编码基础 对于音频质量的评价分为客观评定和主观评定。客观评对于音频质量的评价分为客观评定和主观评定。客观评 定是通过测量一些特性来评价,如定是通过测量一些特性来评价,如信噪比信噪比SNR。广泛使用的广泛使用的 是主观评定,以主观意见打分(是主观评定,以主观意见打分(Mean Opinion Score -MOS) 来度量:来度量:5 5 优;优;4 4 良;良;

6、3 3 中;中;2 2 差;差;1 1 劣劣 数字音频的质量与采样频率和量化精度有关。数字音频数字音频的质量与采样频率和量化精度有关。数字音频 可分以下几个等级:可分以下几个等级: 信号类型信号类型频率范围(频率范围(Hz)采样率(采样率(KHz)量化精度(位)量化精度(位) 电话话音电话话音200340088 宽带音频宽带音频5070001616 调频广播调频广播2015 00037.816 高质量音频高质量音频2020 00044.116 SNR 10 log (Vsignal)2 / (Vnoise)2 20 log (Vsignal / Vnoise) 8 音频编码基础音频编码基础 音

7、 质 与 数 据 率 2 4 8 16 32 64 kbits/S 5 4 3 2 1 PCM 波形编码 LPC 混合编码 研究目标 质量 其中混合编码其中混合编码 是指波形编码是指波形编码 与音源编码方与音源编码方 法的混合。法的混合。 9 音频压缩编码的基本方法 音频压缩方法 无失真压缩有失真压缩 Huffman编码 行程编码 波形编码参数编码 矢 量 和 激 励 线 性 预 测 VSELP 多脉冲线 性预测 MP-LPC 码本激励 线性预测 CELP 线性预 测LPC 矢量量化 子带编码 自适应变换编码ATC 心理学模型 全频带编码 PCM DPCM ADPCM 混合编码 10 脉冲编码

8、调制脉冲编码调制(Pulse Code Modulation PCM) 波形编码波形编码 AF为低通滤波器为低通滤波器,滤除声音频带以外的信号;滤除声音频带以外的信号;WC为采样为采样 器;器;SS为量化间隔生成器。在量化中将量化值表示成:为量化间隔生成器。在量化中将量化值表示成: x(n)=x(n)+e(n), e(n)为量化误差(量化噪声)为量化误差(量化噪声) 11 PCM的量化方式 均匀量化又称线性量化均匀量化又称线性量化,用相,用相 等的量化间隔对采样得到的信等的量化间隔对采样得到的信 号作量化。这种方法对大号作量化。这种方法对大/小输小输 入信号都用相同的量化间隔。入信号都用相同的

9、量化间隔。 为了满足幅度大的输入信为了满足幅度大的输入信 号,同时又满足精度的要求,号,同时又满足精度的要求, 就需要增加样本位数。话音信就需要增加样本位数。话音信 号出现大信号的机会不多,增号出现大信号的机会不多,增 加的样本位数没有充分利用。加的样本位数没有充分利用。 12 PCM的量化方式 非均匀量化非均匀量化是对大的输入信号是对大的输入信号 采用大的量化间隔,小的输入采用大的量化间隔,小的输入 信号采用小的量化间隔,这样信号采用小的量化间隔,这样 在满足精度的情况下,样本数在满足精度的情况下,样本数 据用较少的位数来表示。据用较少的位数来表示。 瞬时压扩瞬时压扩:根据:根据CCITT的

10、的G.711 标准,对非均匀量化有标准,对非均匀量化有律压扩律压扩 和和A律压扩。量化前用对数函数律压扩。量化前用对数函数 将幅度压缩,解码后再用指数将幅度压缩,解码后再用指数 函数进行幅度扩张。函数进行幅度扩张。 13 瞬时压扩 律压扩律压扩 用于北美和日本等地的数字电话通信中,量化输入/输出 关系为: 为确定压缩量的参数,反映最大与最小量化间隔之比。 A A律压扩律压扩 用于欧洲和中国等地的数字电话通信中,量化输入/输出 关系为: 11x500100 , )1ln( )1ln( )sgn()( x xxF 11 )1ln( )1ln( )sgn()( 10 )1ln( ) )sgn()(

11、xA A xA xxF Ax A xA xxF A A 65.87A 11x 14 PCM在通信中应用在通信中应用 在电信网中, 传输媒体费用约占总成本的65%,设备费用占总成本的 35%。提高线路利用率的两种方法: (1)频分多路复用()频分多路复用(FDM) Frequency-division multiplexing,即把传输信道的频带 分成好几个窄带,每个窄带传送一路信号。为确保各信道 不相互干扰,相邻子信道中留一定间隔,这是模拟载波通 信的主要手段。 (2 2)时分多路复用(时分多路复用(TDM) Time-division multiplexing,即把传输信道按时间分割, 每个

12、用户一个时间间隔,每间隔传输部分信号,多用户共 用一传输线路,这是数字通信的主要手段。 15 话音的采样频率话音的采样频率f=8000Hz,其采样周期为其采样周期为125s,这个时间这个时间 称为一帧。在该时间内的话路数有称为一帧。在该时间内的话路数有24路制和路制和30路制。路制。 每秒传输每秒传输8000帧,每帧有帧,每帧有24个时间片和一个同步位,在一个个时间片和一个同步位,在一个 时间片内传输时间片内传输8位数据,故一帧有位数据,故一帧有24*8+1=193位,数据传输率为:位,数据传输率为: R=8000*193=1544Kb/s 每个话路的传输率为:每个话路的传输率为:8000*8

13、=64Kb/s 对对30话路的传输率可用相同方法计算话路的传输率可用相同方法计算 121110987654321 23222143210 76543210 帧 每帧24信道 每信道8位 12帧一复帧 16 TMD已广泛地应用在数字电话网中。通常用已广泛地应用在数字电话网中。通常用“群(群(Group)”来表示来表示 PCM信号的复用程度。一次群(基群)信号的复用程度。一次群(基群)30或或24路,二次群路,二次群120路或路或96路,三路,三 次群次群480路或路或384路。路。 一次 PCM 多路 复用 电话 电话 一次 PCM 多路 复用 电话 电话 二 次 多 路 复 用 二 次 多 路

14、 复 用 一次 PCM 多路 复用 电话 电话 一次 PCM 多路 复用 电话 电话 国家和地区国家和地区数字网络等级数字网络等级T1/E1T2/E2T3/E3T4/E4T5/E5 美国(T1远距 离数字通信线) 64KB/s话路数24966724032 总传输率(Mb/s) 1.5446.31244.736274.176 数字网络等级12345 欧洲(E1) (中国) 64KB/s话路数3012048019207680 总传输率(Mb/s) 2.0488.44834.368139.264560 日本(T1)64KB/s话路数24964801440 总传输率(Mb/s) 1.5446.3123

15、2.06497.728 17 增量调制增量调制(Delta Modulation-DM) 增量调制又称调制,是一种预测编码技术。增量调制又称调制,是一种预测编码技术。 PCM是对实际的采样信号的整个幅度进行量化编码,是对实际的采样信号的整个幅度进行量化编码, 它具有对任意波形进行编码的能力。它具有对任意波形进行编码的能力。 DM是对实际的采样信号值与预测值之差的极性进行编是对实际的采样信号值与预测值之差的极性进行编 码。正用码。正用1表示,负用表示,负用0表示。表示。DM编码只需一位,故称编码只需一位,故称“1 位系统位系统”。 输入信号的实际值用输入信号的实际值用yi表示,输入信号的预测值用

16、表示,输入信号的预测值用 yi = yi-1 表示。表示。 为量化阶大小,假设为均匀量化。为量化阶大小,假设为均匀量化。 Xi表示在表示在i i点的编码输出。点的编码输出。 在开始位置,输入信号在开始位置,输入信号y0=0,预测值预测值y0=0,x0=1。 18 斜率过载斜率过载:增量大小不能跟上输入信号的快速变化,这种现象增量大小不能跟上输入信号的快速变化,这种现象 称为增量调制器的斜率过载。称为增量调制器的斜率过载。 粒状噪声粒状噪声:在输入信号的缓慢变化部分,也即输入信号与预测在输入信号的缓慢变化部分,也即输入信号与预测 值接近值接近0 0的区域,增量调制器的输出出现交变的的区域,增量调

17、制器的输出出现交变的0和和1,这种现,这种现 象称为增量调制器的粒状噪声。象称为增量调制器的粒状噪声。 在采样点在采样点i=1处,预处,预 测值测值y1=,由于实,由于实 际输入信号大于预测际输入信号大于预测 值,因此值,因此x1=1; ; 其他情况依此类推其他情况依此类推. . 增量调制增量调制(Delta Modulation-DM) 19 自适应增量调制(ADM) 使增量调制的量化阶能自适应,也就是根据输入使增量调制的量化阶能自适应,也就是根据输入 信号斜率的变化信号斜率的变化自动调整量化阶自动调整量化阶的大小,以使斜率过的大小,以使斜率过 载和粒状噪声减到最小。载和粒状噪声减到最小。

18、宋宋Song( (1971):):当当DM输出值不变时,量化阶增输出值不变时,量化阶增 大大50%,使预测器的输出跟上输入信号的变化;当输,使预测器的输出跟上输入信号的变化;当输 出值改变时,量化阶减小出值改变时,量化阶减小50%,使粒状噪声减到最小。,使粒状噪声减到最小。 Greefkes于于19701970年提出的连续可变斜率增量调制年提出的连续可变斜率增量调制 (CVSD):):如果输出连续出现如果输出连续出现3个相同的值,量化个相同的值,量化 阶就加一个大的增量,反之就加一个小的增量。阶就加一个大的增量,反之就加一个小的增量。 20 自适应脉冲编码调制自适应脉冲编码调制(APCM) A

19、PCM (Adaptive Pulse Code Modulation)是一种根据输入信号是一种根据输入信号 幅度大小来改变量化阶大小的幅度大小来改变量化阶大小的 PCM方法。方法。 改变量化阶大小的方法有两种:改变量化阶大小的方法有两种: 前向自适应和后向自适应。前向自适应和后向自适应。 前向自适应前向自适应是根据未量化的样本是根据未量化的样本 值的均方根值来估计输入信号的值的均方根值来估计输入信号的 电平,以此来确定量化阶的大小,电平,以此来确定量化阶的大小, 并对其电平进行编号作为边信息并对其电平进行编号作为边信息 传输到接受端。传输到接受端。 后向自适应后向自适应是从量化器刚输出的是从

20、量化器刚输出的 过去样本中提取量化阶信息。过去样本中提取量化阶信息。 21 差分脉冲编码-DPCM DPCM(Differential Pulse Code Modulation, 差分脉冲编码调制)与差分脉冲编码调制)与PCM不同,它编码的不不同,它编码的不 是采样样本值,而是样本值及其预测值的差分,是采样样本值,而是样本值及其预测值的差分, 即量化的是已知的样本值与预测值之间的差值。即量化的是已知的样本值与预测值之间的差值。 DPCM是从过去的几个采样值的线性组合来预是从过去的几个采样值的线性组合来预 测推断现在的采样值,进而用实际采样值与预测推断现在的采样值,进而用实际采样值与预 测采样

21、值之差(称作预测误差)进行编码,从测采样值之差(称作预测误差)进行编码,从 而达到信息压缩的一种方法。而达到信息压缩的一种方法。 22 差分脉冲编码调制(DPCM) 差分脉冲编码调制是对实际样本值与预测值之差进行编码,差分脉冲编码调制是对实际样本值与预测值之差进行编码, 从而在一定程度上减少量化的位数。从而在一定程度上减少量化的位数。 预测值是根据过去的样本值去估算的下一个样本的幅度值。预测值是根据过去的样本值去估算的下一个样本的幅度值。 d(k)是输入信号是输入信号S(k)和预和预 测器输出的估算值测器输出的估算值Se(k-1) 之差。之差。Se(k-1)是是S(k) )的的 预测值。预测值

22、。Sr(k)是差分信是差分信 号号dq(k)与过去的样本信与过去的样本信 号的估算值求和得到。号的估算值求和得到。 DPCM的工作示意图的工作示意图 23 差分脉冲编码差分脉冲编码 差分脉冲编码调制的概念如图。差分信号差分脉冲编码调制的概念如图。差分信号 是离散输入是离散输入 信号信号 和预测器输出的估算值和预测器输出的估算值 之差。注意,之差。注意, 是对是是对是 预测值,而不是过去样本的实际值。预测值,而不是过去样本的实际值。DPCMDPCM系统系统 实际上就是对这个差值实际上就是对这个差值 进行量化编码,用来补偿过去进行量化编码,用来补偿过去 编码中产生的量化误差。它实际上是一个负反馈系

23、统,编码中产生的量化误差。它实际上是一个负反馈系统, 采用这种结构可以避免量化误差的积累。采用这种结构可以避免量化误差的积累。重构信号重构信号 是由逆量化器产生的量化差分信号是由逆量化器产生的量化差分信号 ,与对过去样本,与对过去样本 信号的估算值信号的估算值 求和得到。它们的和,即求和得到。它们的和,即 作为预作为预 测器确定下一个信号估算值的输入信号。由于在发送端测器确定下一个信号估算值的输入信号。由于在发送端 和接收端都使用相同的逆量化器和预测器,所以收发两和接收端都使用相同的逆量化器和预测器,所以收发两 端可以从同一个传送信号端可以从同一个传送信号 获得相同的量化差分信号获得相同的量化

24、差分信号 和重构信号和重构信号 。 )(kd )(kS) 1( kSe) 1( kSe )(kS )(kd )(kSr )(kd q ) 1( kSe)(kSr )(kSr)(kI )(kd q 24 ADPCM综合了综合了APCM的自适应特性和的自适应特性和DPCM特性。特性。 自适应差分脉冲编码调制(ADPCM) 25 子带编码子带编码 (SBC) 子带编码的主要过程是:子带编码的主要过程是: 使用一组滤波器(使用一组滤波器(BPFBPF)把输入音频信号的频带分成若把输入音频信号的频带分成若 干个连续的频段。干个连续的频段。 对每个子带中的音频信号采用单独编码方案去编码。可对每个子带中的音

25、频信号采用单独编码方案去编码。可 用用PCMPCM、APCMAPCM和和ADPCMADPCM等。等。 在信道上传输时,每个子带上的信息复合起来。在信道上传输时,每个子带上的信息复合起来。 在接受端,每个子带上的信息单独译码,然后把它们组在接受端,每个子带上的信息单独译码,然后把它们组 合起来,还原成原来的音频信号。合起来,还原成原来的音频信号。 26 子带编码子带编码(SBC)的好处的好处 每个子带分别自适应控制,高能量电平的每个子带分别自适应控制,高能量电平的 子带可用大的量化阶去量化,以减少总的子带可用大的量化阶去量化,以减少总的 量化噪声;量化噪声; 可根据每个子带信号在感觉上的重要性,

26、可根据每个子带信号在感觉上的重要性, 为每个子带分配不同的位数。为每个子带分配不同的位数。 27 SB-ADPCM编码 u在在子带自适应差分脉冲编码调制子带自适应差分脉冲编码调制( (sub-band adaptive differential pulse code modulation,SB- ADPCM) )技术中,用正交镜像滤波器技术中,用正交镜像滤波器( (QMF) )把频把频 带分割成两个等带宽的子带,分别是高频子带和低带分割成两个等带宽的子带,分别是高频子带和低 频子带。频子带。 u在每个子带中的信号都用在每个子带中的信号都用ADPCM进行编码,低频进行编码,低频 带宽略大于常规的

27、电话话音带宽。对高子带分配带宽略大于常规的电话话音带宽。对高子带分配2 位表示每个样本值,而低子带分配位表示每个样本值,而低子带分配6 6位。因为位。因为64 kb/s的的G.722标准主要还是针对宽带话音,其次才标准主要还是针对宽带话音,其次才 是音乐。是音乐。 28 音源编码 音源编译码的思想是从话音波形信号中提取音源编译码的思想是从话音波形信号中提取 生成话音的参数,使用这些参数通过话音生成生成话音的参数,使用这些参数通过话音生成 模型重构出话音。模型重构出话音。 原始音频原始音频重建音频重建音频参数参数 音源编码原理示意图音源编码原理示意图 29 音源编码 针对话音的音源编译码器叫做针

28、对话音的音源编译码器叫做声码器声码器。 声码器的原理是模仿人类声码器的原理是模仿人类发音器官发音器官喉、嘴、舌喉、嘴、舌 的组合,将该组合的组合,将该组合看作一个滤波器看作一个滤波器,人发出的声音,人发出的声音 使使声带振动就成为激励脉冲声带振动就成为激励脉冲。当然。当然“滤波器滤波器” 脉脉 冲频率在不断地变换,但在很短的时间(冲频率在不断地变换,但在很短的时间(10ms 30ms)内观察它,则发音器官是没有变换的,因内观察它,则发音器官是没有变换的,因 此此声码器声码器要做的事是将话音信号分成要做的事是将话音信号分成2020msms的段,然的段,然 后后分析分析这一时间段内所对应的这一时间

29、段内所对应的滤波器的参数滤波器的参数,并,并提提 取此时的脉冲串频率取此时的脉冲串频率,输出其激励脉冲序列。,输出其激励脉冲序列。 30 线性预测编码(LPC) u线性预测编码(线性预测编码(linear predictive coding, LPC)是音源编码(参数编码)的一种。是音源编码(参数编码)的一种。 u LPC通过分析话音波形产生声道激励和转移通过分析话音波形产生声道激励和转移 函数的参数,其实质就是对这些参数进行编函数的参数,其实质就是对这些参数进行编 码;接收端根据这些参数通过语音合成器重码;接收端根据这些参数通过语音合成器重 构话音。构话音。 u合成器是一个离散的随时间变化的

30、时变线性合成器是一个离散的随时间变化的时变线性 滤波器。滤波器。LPCLPC要编码的就是这滤波器的系数要编码的就是这滤波器的系数。 31 线性预测编码(LPC) u滤波器又是预测器,它描述为过去滤波器又是预测器,它描述为过去P P个样本的线个样本的线 性组合。性组合。 uLPCLPC假定由无声话音段假定由无声话音段( (白噪声白噪声) )激励激励 或有声话音或有声话音 段段( (脉冲串脉冲串) )激励。解码时,需知道滤波器参数外,激励。解码时,需知道滤波器参数外, 还需知道采用何种激励及其特征如何。还需知道采用何种激励及其特征如何。 32 音源编码 简化的声音生成模型简化的声音生成模型 声道模

31、型声道模型 12 1 (12) prep p k k xa x na x na x np a x nk 0 ( )( )( )() p prei k e nx nxna x nk 33 混合编译码 混合编译码的想法是企图填补波形混合编译码的想法是企图填补波形 编译码和音源编译码之间的间隔。波形编译码和音源编译码之间的间隔。波形 编译码器虽然可提供高话音的质量,但编译码器虽然可提供高话音的质量,但 数据率低于数据率低于16 kb/s的情况下,在技术上的情况下,在技术上 还没有解决音质的问题;声码器的数据还没有解决音质的问题;声码器的数据 率虽然可降到率虽然可降到2.4 kb/s甚至更低,但它的甚

32、至更低,但它的 音质根本不能与自然话音相提并论。音质根本不能与自然话音相提并论。 34 混合编译码 为了得到音质高而数据率又低的编译码器,为了得到音质高而数据率又低的编译码器, 历史上出现过很多形式的混合编译码器,但最成历史上出现过很多形式的混合编译码器,但最成 功并且普遍使用的编译码器是时域合成功并且普遍使用的编译码器是时域合成- -分析分析 ( (analysis-by-synthesis, AbS) )编译码器。编译码器。 这种编译码器使用的声道线性预测滤波器模这种编译码器使用的声道线性预测滤波器模 型与线性预测编码型与线性预测编码( (linear predictive coding,

33、 LPC) )使用的模型相同,不使用两个状态使用的模型相同,不使用两个状态( (有声有声/ / 无声无声) )的模型来寻找滤波器的输入激励信号,而的模型来寻找滤波器的输入激励信号,而 是企图寻找一种激励信号,使用这种信号激励产是企图寻找一种激励信号,使用这种信号激励产 生的波形尽可能接近于原始话音的波形。生的波形尽可能接近于原始话音的波形。 35 混合编码 AbS AbS通过调节激励信号通过调节激励信号 u, ,使话音输入使话音输入s与重构信与重构信 号之差为最小。它通过合号之差为最小。它通过合 成许多不同的近似值来分成许多不同的近似值来分 析输入话音信号,这正是析输入话音信号,这正是 其名称

34、的由来。其名称的由来。 译码器端根据滤波器的译码器端根据滤波器的 参数和激励信号,通过合参数和激励信号,通过合 成滤波器重构话音。成滤波器重构话音。 36 混合编码 AbS编译码器由Atal和Remde在1982年首次提 出,并命名为多脉冲激励(multi-pulse excited, MPE)编译码器,在此基础上随后出现的是等间隔 脉冲激励(regular-pulse excited,RPE)编译码器、 码激励线性预测CELP(code excited linear predictive) 编译码器和混合激励线性预测(mixed excitation linear prediction,ME

35、LP)等编译码器。 MPE,RPE和CELP编译码器之间的差别在于 所使用的激励信号的表示方法。 37 CCITT和和ISO先后提出了一系列有关音频先后提出了一系列有关音频 的编码建议。的编码建议。 分别应用于窄带话音信号、宽带话音信号、分别应用于窄带话音信号、宽带话音信号、 图像伴音信号、数字移动通信图像伴音信号、数字移动通信GSM信号等等。信号等等。 3.1.2 编码标准介绍编码标准介绍 38 音频编码算法和标准一览音频编码算法和标准一览 算法算法名称名称数据率数据率标准标准应用应用质量质量 波波 形形 编编 码码 PCM均匀量化均匀量化 公用网公用网 ISDN配音配音 4.04.5 (A

36、)(A)(A) 64kb/sG.711 APCM自适应量化自适应量化 DPCM差值量化差值量化 ADPCM自适应差值量化自适应差值量化 32kb/sG.721 SB-ADPCM子带子带- -自适应差自适应差 值量化值量化 64kb/sG.722 参数编码参数编码 LPC线性预测编码线性预测编码 2.4kb/s 保密话声保密话声 2.53.5 混混 合合 编编 码码 CELPC码激励码激励LPCLPC 4.8kb/s 移动通信移动通信 4.03.7 VSELP矢量和激励矢量和激励LPCLPC 8kb/s 语音邮件语音邮件 RPE-LTP长时预测规则码长时预测规则码 激励激励 13.2kb/s I

37、SDN LD-CELP低延时码激励低延时码激励 LPCLPC 16kb/sG.728 G.729 MPEG多子带感知编码多子带感知编码 128kb/s CD 5.0 AC-3感知编码感知编码音响音响 5.0 39 电话质量的语音压缩标准 ITUTS建议的语音压缩的标准建议的语音压缩的标准 G.711:采用采用PCM编码,采样速率为编码,采样速率为8kHz, 量化位数为量化位数为8bit,对应的比特流速率为对应的比特流速率为64 kbit/s。 G.721: ITU建议的建议的G.721将将64Kbps的比特的比特 流转换为流转换为32Kbps的流,它是基于的流,它是基于ADPCM技术。技术。

38、每个数值差分用每个数值差分用4位编码,其采样率为位编码,其采样率为8kHz。 40 电话质量的语音压缩标准 G.723: G.723是是ITU制定的适用于制定的适用于IP电话的语音编码电话的语音编码, 因其高质量、低码率而得到广泛应用。因其高质量、低码率而得到广泛应用。G.723为双速为双速 率语音编码器,有率语音编码器,有5.3和和6.4 kbps两种工作状态,可随两种工作状态,可随 时切换,分别采用代数码线性预测激励(时切换,分别采用代数码线性预测激励(ACELP) 和多脉冲最大似然量化(和多脉冲最大似然量化(MP-MLQ)激励的编码器。)激励的编码器。 其音质不如非压缩的其音质不如非压缩

39、的 G.711PCM 标准以及基于标准以及基于 SB- ADPCM 的的 G.722标准。标准。G.723.1和和G.723.2用于用于H.324 标准。标准。 G.728:它的比特率为它的比特率为16Kbps,带宽限于带宽限于3.4kHz。其其 音质与音质与32Kbps的的G.721标准相当。它基于一种称为低标准相当。它基于一种称为低 延迟代码激励线性预测延迟代码激励线性预测(LDCELP)的向量量化技术。的向量量化技术。 41 G.721 ADPCM编译码器 G.711标准是标准是CCITT为话音信号频率为为话音信号频率为3003400 Hz制定的编译码标准,其采样率为制定的编译码标准,其

40、采样率为8 kHz、8位位/ /样本、样本、 数据率为数据率为64 kb/s,属于窄带音频信号编码。现代的话,属于窄带音频信号编码。现代的话 音编码技术已经可以减少数据率,而又不致于显著降音编码技术已经可以减少数据率,而又不致于显著降 低音质。低音质。 CCITT又制定了又制定了8 kHz采样率、采样率、4位位/ /样本、样本、32 kb/s的的G.721标准标准,以及,以及G.721的扩充标准的扩充标准G.723。 CCITT推荐的推荐的G.721 ADPCM标准是一个代码转换标准是一个代码转换 系统。它使用系统。它使用ADPCMADPCM转换技术,实现转换技术,实现64 kb/s A律或律

41、或律律 PCM速率和速率和32 kb/s速率之间的相互转换速率之间的相互转换。 42 图中,图中,A律或律或律律PCM输入信号转换成均匀输入信号转换成均匀PCM。差分信号等于均匀差分信号等于均匀 PCM输入信号与预测信号之差。输入信号与预测信号之差。“自适应量化器自适应量化器”用用4 4位二进制数表示差位二进制数表示差 分信号,但只用分信号,但只用1515个数个数( (即即1515个量级个量级) )来表示差分信号,以防止出现全来表示差分信号,以防止出现全“0 0” 信号。信号。“逆自适应量化器逆自适应量化器”从这从这4位相同的代码中产生量化差分信号。预测位相同的代码中产生量化差分信号。预测 信

42、号和这个量化差分信号相加产生重构信号。信号和这个量化差分信号相加产生重构信号。“自适应预测器自适应预测器”根据重构根据重构 信号和量化差分信号产生输入信号的预测信号,这样就构成了一个负反馈信号和量化差分信号产生输入信号的预测信号,这样就构成了一个负反馈 回路。回路。 G.721 ADPCM编译码器的输入信号是编译码器的输入信号是G.711 PCM代码代码,采样率是,采样率是8 kHz,每个代码用每个代码用8位表示,因此它的数据率为位表示,因此它的数据率为64 kb/s。而而G.721 ADPCM的的 输出代码是输出代码是“自适应量化器自适应量化器”的输出,该的输出,该输出是用输出是用4位表示的

43、差分信号,它位表示的差分信号,它 的采样率仍然是的采样率仍然是8 kHz,它的数据率为它的数据率为32 kb/s,这样就获得了这样就获得了2 1的数据压的数据压 缩。缩。 43 电话质量的语音压缩标准 CELP( (码本激励线性预测码本激励线性预测) )是一种常用的语是一种常用的语 音压缩技术。它用于美国联邦标准音压缩技术。它用于美国联邦标准1016,可将语,可将语 音压缩至音压缩至4.8Kbps。美国联邦标准美国联邦标准1015使用使用 CELP的一个简本,称为线性预测编码的一个简本,称为线性预测编码( (LPC) )。 LPC10E标准可以运行于标准可以运行于2.4Kbps。采用了一种采用

44、了一种 向量量化方法。声音听起来有点象机器在说话,向量量化方法。声音听起来有点象机器在说话, 但但4.8Kbps与电话差不多。与电话差不多。 这两种标准主要用于这两种标准主要用于保密话音通信保密话音通信。 44 调幅广播质量的音频压缩标准 调幅广播质量:调幅广播质量:50Hz7kHz,称称“7kHz音频信号音频信号”。 若使用若使用16Khz的采样频率和的采样频率和14位的量化位数,则调幅位的量化位数,则调幅 广播的信号速率为广播的信号速率为224kbps,1988年年ITU制定了制定了G.722标准标准 把信号速率压缩成把信号速率压缩成64kpbs。 G.722标准的数据率保持标准的数据率保

45、持64kb/s,但音频信号采样频,但音频信号采样频 率由率由8kHz提高到提高到16kHz,是是G.711PCM采样率的采样率的2倍,因倍,因 而被编码信号的频率由原来的而被编码信号的频率由原来的3.4 kHz扩展到扩展到7 kHz。这就这就 使音频信号的质量有很大改善,由数字电话的话音质量提使音频信号的质量有很大改善,由数字电话的话音质量提 高到调幅高到调幅( (AM) )无线电广播的质量。对话音信号质量来说,无线电广播的质量。对话音信号质量来说, 提高采样率并无多大改善,但对音乐一类信号来说,其质提高采样率并无多大改善,但对音乐一类信号来说,其质 量却有很大提高。量却有很大提高。 45 G

46、.722 SB-ADPCM标准标准 G.722编译码系统采用子带自适应差分脉冲编编译码系统采用子带自适应差分脉冲编 码调制码调制( (sub-band adaptive differential pulse code modulation,SB-ADPCM) )技术。在技术。在G.722编译码编译码 系统中,用正交镜像滤波器将频带分为高、低两系统中,用正交镜像滤波器将频带分为高、低两 个独立的子带信道分别采用差分脉码调制算法编个独立的子带信道分别采用差分脉码调制算法编 码,再混合形成输出码流。高、低两子带编译码码,再混合形成输出码流。高、低两子带编译码 器都采用器都采用8KHZ采样频率,但分别

47、分配采样频率,但分别分配2位和位和6位位 表示样本值,最终传输数率为表示样本值,最终传输数率为64KBPS。 46 G.722 SB-ADPCM标准标准 在某些应用场合中,也许希望从在某些应用场合中,也许希望从64 kb/s信道中让出信道中让出 一部分信道用来传送其它的数据。因此,一部分信道用来传送其它的数据。因此,G.722定了三定了三 种音频信号传送方式。北美洲的信息限制音频信号速种音频信号传送方式。北美洲的信息限制音频信号速 率为率为56 kb/s,因此有因此有8 kb/s的数据率用来传送附加数据。的数据率用来传送附加数据。 方方 式式7kHz音频信号编码位速率音频信号编码位速率附加数据

48、信道位速度附加数据信道位速度 164 kb/s0 kb/s 256 kb/s8 kb/s 348 kb/s16 kb/s 47 高保真立体声音频压缩标准 高质量的声音信号频率范围:高质量的声音信号频率范围: 50Hz20kHz 目前国际上比较成熟的高质量声音压缩标准为目前国际上比较成熟的高质量声音压缩标准为 MPEG音频。音频。 MPEG标准由标准由ISO/IEC标准组织的标准组织的MPEG(活(活 动图像专家组)制定。动图像专家组)制定。 MPEG小组负责比较和评估几种低码速率数小组负责比较和评估几种低码速率数 字声音编码技术,以产生一套国际标准,用于活字声音编码技术,以产生一套国际标准,用于活 动图像、相关声音信息及其结合,和用数字存储动图像、相关声音信息及其结合,和用数字

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论