第3章 音频信息处理技术课件_第1页
第3章 音频信息处理技术课件_第2页
第3章 音频信息处理技术课件_第3页
第3章 音频信息处理技术课件_第4页
第3章 音频信息处理技术课件_第5页
已阅读5页,还剩205页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多媒体通信技术第3章 音频信息处理技术邓晓衡中南大学信息科学与工程学院通信工程系2第3章 音频信息处理技术 n3.1 3.1 基本概念基本概念 n3.2 3.2 音频信号数字化音频信号数字化 n3.3 3.3 音频信号压缩编码音频信号压缩编码 n3.4 3.4 语音压缩编码标准语音压缩编码标准 n3.5 3.5 常见多媒体应用的语音编码常见多媒体应用的语音编码器的选择器的选择n3.6 IP3.6 IP电话技术电话技术 n练习与思考题练习与思考题 3 3.1 基 本 概 念 1 听觉掩蔽n在人类听觉系统中, 一个声音的存在会影响人们对其他声音的听觉能力, 使一个声音在听觉上掩蔽了另一个声音, 即

2、所谓的“掩蔽效应”。n由于掩蔽声的存在, 使被掩蔽声的闻域(人刚好可听到声音的响度)必须提高的分贝数被定义为一个声音对另一个声音的掩蔽值。 掩蔽效应受四种要素的影响: 时间、 频率、 声压级、 声音品质(例如, 纯音和噪音)。 42 频谱掩蔽n频谱掩蔽发生在高电平音调使附近频率的低电平声音不能被人耳听到的情况下。 当频率离掩蔽音调越远时, 掩蔽效应减弱的速度就越快。 可以这样来解释这种效应, 雪橇上的铃声可以掩蔽高音碰撞的声音, 但不能掩蔽低音鼓的声音。 n53 瞬态掩蔽n声音有一个冲击时间(即幅值随时间推移而增大的时间段)和一个衰退时间(即幅值随时间推移而减小的时间段)。 拨小提琴所产生声音

3、的冲击和衰退都很快, 而拉小提琴所产生声音的冲击和衰退都很慢。n在冲击前和衰退后, 声音都有掩蔽效应。 前掩蔽时间为50200 ms, 而后掩蔽时间约为该范围的1/10。6 4 失真n失真用来描述重现声音和原来声音的相差程度n表示失真两种方法(1) 失真的主观度量。 n失真的一个主观评价指标称为平均观点分(Mean Opinion Score, MOS)。 听众根据系统质量的好坏使用N分制给系统打分。 nHDTV选择音频压缩方案时就使用主观评价指标表3.1-1给出了一种常见的5分制系统7表3.1-1 5分制平均观点分举例 平均观点分 质量等级 主观感觉 5 极好 觉察不到 4 好觉察得到,但不

4、难听 3 一般 有点难听 2 差 难听,但不反感 1 极差 难以忍受8n 一方面, MOS确实是度量音频重现的最低限度: 听起来感觉怎么样?n另外一方面, 度量的结果随听众、 测试位置和原材料的不同而不同,很难将一组结果和另一组结果相比较。 9(2) 失真的客观度量。 n失真的客观度量是一种可以校准和重现的测试, 它可对原始信号和重现信号之间的差别进行度量。n问题:失真的绝对大小也许和失真声音使人厌烦的程度没有多大关系。 现实生活中有一个失真的例子, 我们几乎每天都会碰到, 但它并不是那么令人厌烦 n削波:如果一个纯音(正弦波)通过一个动态范围不足的放大器, 那么, 放大器也许会将该正弦波的波

5、峰和波谷拉平, 这样就产生了一组奇谐波。 对于这种类型的失真, 原始(或基波)信号和失真之间有一种一致的对应关系, 因此, 这种失真并不一定使你感到烦躁。10 5 声道n单声道(Monophonic)意味着单个声源, 而立体声并不表示有两个声源, 立体声(Stereophonic)指的是三维听觉效果。n 为了确定声源位置, 大脑要将每个耳朵所听到声音的三个属性进行比较, 这三个属性分别是:(1) 幅值(Amplitude): 如果左耳听到的声音比右耳的大, 那么我们就认为声音在左边。 11(2) 相位(Phase): 如果人的两耳听到的信号具有相同的相位, 那么大脑就认为声音在中部; 如果两耳

6、听到信号有180的相位差, 那么声音就不包含方向信息了。 (3) 时序(Timing): 声音的传播速度为1英尺每毫秒; 如果声音到达右耳的时间比到达左耳的早, 我们就认为声源就在右边。 n如果听众所处的位置刚好是两个声源(例如两个扬声器)的中轴线上, 则听众就可以享受三维立体声的效果; 否则听众就会失去完全的立体声效果, 因为他距离其中一个声源的距离更短。 12n声源位置可以通过添加一个中央通道的方法来确定。 Dolby公司在上个世纪70年代就实现了由四个声道产生三维立体声的效果, 这四个声道分别是:n左声道n右声道n中央声道n环绕声道n为了使声音更加丰富, 现在的立体声剧院(包括家庭剧院)

7、都增加了一个超低音声道, 主要目的是增强低音。 13 3.2 音频信号数字化 n音频信息处理主要包括音频信号的数字化和音频信息的压缩n音频信息的压缩是音频信息处理的关键技术, 而音频信号的数字化是为音频信息的压缩作准备的。n音频信号的数字化过程就是将模拟音频信号转换成有限个数字表示的离散序列, 即数字音频序列, 在这一处理过程中涉及到模拟音频信号的采样、 量化和编码。 n对同一音频信号采用不同的采样、 量化和编码方式就可形成多种形式的数字化音频。 14图3.2-1 音频信息处理框图 模 拟 音频 信 号音 频 信 号 数 字 化采 样量 化编 码按 不 同 应 用 目 标进 行 数 字 压 缩

8、信信源源噪声源噪声源信源信源编码编码信道信道编码编码信信道道数字数字调制调制信源信源译码译码信道信道译码译码数字数字解调解调收信收信者者15n(1) 采样过程。 模拟音频信号是一个在时间上和幅值上都连续的信号。 采样过程就是在时间上将连续信号离散化的过程, 采样一般是按均匀的时间间隔进行的。n常见的音频信号的频率范围如图3.2-2所示电话信号的频带为200 Hz3.4 kHz调幅广播(AM)信号的频带为50 Hz7 kHz调频广播(FM)信号的频带为20 Hz15 kHz高保真音频信号的频带为10 Hz20 kHz根据不同的音频信源和应用目标, 可采用不同的采样频率, 如8 kHz、 11.0

9、25 kHz、 22.05 kHz、 16 kHz、 37.8 kHz、 44.1 kHz或48 kHz等都是典型的采样频率值。 16图3.2-2 常见音频应用带宽示意图 数字激光唱盘CD10 205020034007 k 15 k 20 k 频率 / HzFM无线电广播AM无线电广播电 话17n(2) 量化过程。 量化过程是指将每个采样值在幅度上再进行离散化处理。 量化可分为均匀量化(量化值的分布是均匀的或者说每个量化阶距是相同的)和非均匀量化。 量化会引入失真, 并且量化失真是一种不可逆失真, 这就是通常所说的量化噪声。 n(3) 编码过程。 编码过程是指用二进制数来表示每个采样的量化值。

10、nPCM 如果量化是均匀的, 又采用自然二进制数表示, 这种编码方法就是脉冲编码调制(Pulse Code Modulation, PCM), 这是一种最简单、 最方便的编码方法。 18 3.3 音频信号压缩编码 n从20世纪30年代提出PCM(脉冲编码调制)原理以及声码器的概念 n音频信息压缩编码技术主要是向基于波形和基于参数两个方向发展n音频信息编码技术可分为三类: 19(1) 波形编码n主要基于语音波形预测, 它力图使重建的语音波形保持原信号的波形状态n的优点是编码方法简单、 易于实现、 适应能力强、 语音质量好等n缺点是压缩比相对来说较低, 需要较高的编码速率n常用波形法编码技术增量调

11、制(DM)自适应差分脉冲编码调制(ADPCM)子带编码(SBC)矢量量化编码(VQ)20(2) 参数编码n基于参数的编码方法。与波形编码不同的是, 这类编码方法通过语音信号的数学模型对语音信号特征参数(主要是指表征声门振动的激励参数和表征声道特性的声道参数)进行提取及编码, 力图使重建的语音信号尽可能保持原信号的语意, 而重建的语音信号波形同原信号的波形可能会有较大的区别。 基于这种编码技术的编码系统一般称为声码器, 它主要用于在窄带信道上提供4.8 kb/s以下的低速语音通信和一些对延时要求较宽的应用场合(如卫星通信等)。 最常用的参数编码法为线性预测编码(LPC)。 21(3) 混合编码n

12、克服原有波形编码与参数编码的弱点, 并且结合了波形编码的高质量和参数编码的低数据率, 取得了比较好的效果n混合编码是指同时使用两种或两种以上的编码方法进行编码的过程。 由于每种编码方法都有自己的优势和不足, 若是用两种, 甚至两种以上的编码方法进行编码, 可以优势互补, 克服各自的不足, 从而达到高效数据压缩的目的。 无论是在音频信号的数据压缩中,还是图像信号的数据压缩中, 混合编码均被广泛采用。 223.3.1 增量调制1 一般增量调制n增量调制(DM)是一种比较简单且有数据压缩功能的波形编码方法 n 在编码端, 由前一个输入信号的编码值经解码器解码可得到下一个信号的预测值。 输入的模拟音频

13、信号与预测值在比较器上相减, 从而得到差值。 差值的极性可以是正也可以是负。 若为正, 则编码输出为1; 若为负, 则编码输出为0在增量调制的输出端可以得到一串1位编码的DM码23图3.3-1 增量调制的系统结构框图 输 入信 号比 较 器极 性 判 别)(ty译 码 器调 制 器脉 冲发 生 器信 道24图3.3-2 增量调制编码过程示意图 1 1 1 1 1 110 0 0 0 1 100 0 1 0 0010u(模拟输入)输出码25n纵坐标表示输入的模拟电压, 横坐标表示随时间增加而顺序产生的DM码。 图中虚线表示输入的音频模拟信号。n斜率过载当输入信号变化比较快时, 编码器的输出无法跟

14、上信号的变化, 从而会使重建的模拟信号发生畸变, 这就是“斜率过载”可以看出, 当输入模拟信号的变化速度超过了经解码器输出的预测信号的最大变化速度时, 就会发生斜率过载。 增加采样速度, 可以避免斜率过载的发生。 但采样速度的增加又会使数据的压缩效率降低。 26n散粒噪声当输入信号没有变化时, 预测信号和输入信号的差会十分接近, 则编码器的输出是0和1交替出现的, 这种现象就叫做增量调制的“散粒噪声”。 为减少散粒噪声, 就希望使输出编码1位所表示的模拟电压 (又叫量化阶距)小一些 减少量化阶距 会使在固定采样速度下产生更严重的斜率过载。 为了解决这些矛盾, 促使人们研究出了自适应增量调制(A

15、DM)方法。 272. 自适应增量调制(ADM)n为减少斜率过载, 希望增加阶距n为减少散粒噪声, 又希望减少阶距n 于是人们就想, 若是能使DM的量化阶距 适应信号变化的要求, 必须是既降低了斜率过载又减少了散粒噪声的影响。 当发现信号变化快时, 增加阶距当发现信号变化缓慢时, 减少阶距这是自适应增量调制的基本出发点28n在ADM中, 常用的规则有两种: 一种是控制可变因子 M, 使量化阶距在一定范围内变化。 对于每一个新的采样, 其量化阶距为其前面数值的M倍。 而M的值则由输入信号的变化率来决定。 如果出现连续相同的编码, 则说明有发生过载的危险, 这时就要加大M。 当0, 1信号交替出现

16、时, 说明信号变化很慢, 会产生散粒噪声, 这时就要减少M 值。 其典型的规则为) 1()(2/1) 1()(2kykykykyM(3.3-1) 29另一类使用较多的自适应增量调制称为连续可变斜率增量(CVSD)调制。 其工作原理如下: 如果调制器(CVSD)连续输出三个相同的码, 则量化阶距加上一个大的增量, 也就是说, 因为三个连续相同的码表示有过载发生。 反之, 则量化阶距增加一个小的增量。 CVSD的自适应规则为n 式中, 可在01之间取值。 可以看到, 的大小可以通过调节增量调制来适应输入信号变化所需时间的长短。 P和Q为增量, 而且P要大于等于Q。 QkkykykyPkk) 1()

17、2() 1()() 1()(其他 (3.3-2) 303.3.2 自适应差分脉冲编码调制1. 非均匀PCM(律压扩方法)n脉冲编码调制(PCM)若输入的音频信号是话音信号, 使用8 kHz采样频率进行均匀采样, 而后再将每个样本编码为8位二进制数字信号, 则我们就可以得到数据率为64 kb/s的PCM信号, 这是典型的脉冲编码调制 编码方式对输入的音频信号进行均匀量化, 不管输入的信号是大还是小, 均采用同样的量化间隔。 但是, 对音频信号而言, 大多数情况下信号幅度都很小, 出现大幅度信号的概率很小。 31为了适应这种很少出现的大信号, 在均匀量化时不得不增加二进制码位。 对大量的小信号来说

18、, 这样多的码位是一种浪费。 因此, 均匀量化PCM效率不高, 有必要进行改进。 采用非均匀量化编码的实质在于减少表示采样的位数, 从而达到数据压缩的目的基本思路:n当输入信号幅度小时, 采用较小的量化间隔; n当输入信号幅度大时, 采用较大的量化间隔。 n可以做到在一定的精度下, 用更少的二进制码位来表示采样值n这种对小信号扩展、 大信号压缩的特性可用下式表示: 32n式中:x为输入电压与A/D变换器满刻度电压之比, 其取值范围为11; sgn(x)为x 的极性; 为压扩参数, 其取值范围为100500, 越大, 压扩越厉害。 n该压扩规则的特性如图3.3-3所示, 通常将此曲线叫做律压扩特

19、性。 )1ln()1ln()sgn(xxy(3.3-3) 33图3.3-4 律压扩数据格式 b7b6b5b4b3b2b1b0折线编号数据位符号位34n在实际应用中, 规定某个值, 采用数段折线来逼近图3.3-3所示的压扩特性。 这样就大大地简化了计算并保证了一定的精度。 n例如, 当选择255时, 压扩特性用8段折线来代替。 当用8位二进制表示一个采样时, 可以得到无压扩的13位二进制数码的音频质量。 这8位二进制数中, 最高位表示符号位, 其后3位用来表示折线编号, 最后4位用来表示数据位。 律压扩数据格式如图3.3-4所示。 35n在解码恢复数据时, 根据符号和折线即可通过预先做好的表恢复

20、原始数据。 n另外一种常用的压扩特性为A律13折线, 它实际上是将律压扩特性曲线以13段直线代替而成的。 n我国和欧洲采用的是A律13折线压扩法n美国和日本采用的是律。 n对于A律13折线, 一个信号样值的编码由两部分构成: 段落码(信号属于13折线哪一段)和段内码。 36n在非均匀PCM编码中, 存在着大量的冗余信息。 这是因为音频信号邻近样本间的相关性很强。 若采用某种措施, 便可以去掉那些冗余的信息n差分脉冲编码调制(DPCM)是常用的一种方法。 372. 差分脉冲编码调制(DPCM)n差分脉冲编码调制的中心思想是对信号的差值而不是对信号本身进行编码。 这个差值是指信号值与预测值的差值。

21、 n预测值可以由过去的采样值进行预测, 其计算公式如下所示: iiNiNNyayayayay122110(3.3-4)38n 式中,ai 为预测系数。 因此, 利用若干个前面的采样值可以预测当前值。 当前值与预测值的差为000yye(3.3-5) 39n差分脉冲编码调制就是将上述每个样点的差值量化编码, 而后用于存储或传送。 由于相邻采样点有较大的相关性, 预测值常接近真实值, 故差值一般都比较小, 从而可以用较少的数据位来表示, 这样就减少了数据量。 n 在接收端或数据回放时, 可用类似的过程重建原始数据。 差分脉冲调制系统的方框图如图3.3-5所示。 40图3.3-5 差分脉冲调制系统的方

22、框图 (a) 编码器; (b) 解码器 量 化 器输 出输 入信 号信 号y0采 样预 测 器0y (a)预 测 器滤 波(b)41n由图3.3-5可见, 只要求出预测值 , 则实现这种方法就不困难了, 而要得到 , 关键的问题是确定预测系数a i。 如何求a i呢?我们定义a i就是使估值的均方差最小的a i。 估值的均方差可由下式决定: 0y0y)()(222110200NNyayayayEyyE(3.3-6) 42n为了求得均方差最小, 就需对式(3.3-6)中各个a求导数并使方程等于0, 最后解联立方程可以求出ai。 n预测系数与输入信号特性有关, 也就是说, 采样点同其前面采样点的相

23、关性有关。 只要预测系数确定, 问题便可迎刃而解。 通常一阶预测系数ai的取值范围为0.81。 433. 自适应差分脉冲编码调制(ADPCM)n为了进一步提高编码的性能, 人们将自适应量化器和自适应预测器结合在一起用于DPCM之中, 从而实现了自适应差分脉冲编码调制(ADPCM)。如图3.3-6n自适应量化器首先检测差分信号的变化率和差分信号的幅度大小, 而后决定量化器的量化阶距。 自适应预测器能够更好地跟踪语音信号的变化。 因此, 将两种技术组合起来使用, 从而可以提高系统性能。 n编码器框图中, 实际上也包含着解码器框图, 两者的算法是一样的44 图3.3-6 ADPCM编解码框图(a)

24、ADPCM编码器; (b) ADPCM解码器 量化器自适应预测器量化阶自适应逆量化器(a)逆量化器量化阶自适应自适应预测器(b)453.3.3 子带编码n声音信号对人耳的听觉贡献与信号频率有关人耳对1 kHz附近频率成分尤其敏感实验发现, 如果讲话人发出无意义的音节, 则听话人在保留400 Hz6 kHz频率范围的语音情况下, 就可听清此音节; 而上限频率降低至1.7 kHz时可听清约一半如果讲话人发出的是连续有意义的句子, 那么只保留频率范围为400 Hz3 kHz的语音就可完全听懂了 46与人耳听觉特性在频率上分布不均匀相对应, 人所发出的语音信号的频谱也不是平坦的多数人的语音信号能量主要

25、集中在频率为500 Hz1 kHz范围内, 并随着频率的升高很快衰减n根据上述特点, 可以设想将输入信号用某种方法划分成不同频段上的子信号, 然后区别对待, 根据各子信号的特性, 分别编码对语音信号中能量较大, 对听觉有重要影响的部分(如500800 Hz频段内的信号)分配较多的码字对次要信号(如话带中大于3 kHz的信号)则分配较少的码字47各子信号分别编码后的码字在接收方被分别解码, 最后再合成出解码语音。 n子带编码过程首先用一组带通滤波器, 将输入的音频信号分成若干个连续的频段, 并将这些频段称为子带然后, 再分别对这些子带中的音频分量进行采样和编码最后, 再将各子带的编码信号组织到一

26、起进行存储或送到信道上传送。带通滤波1综合器信号输入输入输 出信号输出带通滤波2带通滤波n编码器编码器编码器分配器译码器译码器译码器带通滤波1带通滤波2带通滤波n48n子带解码过程在信道的接收端(或在回放时)得到各子带编码的混合信号, 将各子带的编码取出来, 对它们分别进行解码, 产生各子带的音频分量再将各子带的音频分量组合在一起, 恢复原始的音频信号带通滤波1综合器信号输入输入输 出信号输出带通滤波2带通滤波n编码器编码器编码器分配器译码器译码器译码器带通滤波1带通滤波2带通滤波n49n子带编码能够实现较高的压缩比, 而且具有较高的质量n子带编码常常与其他一些编码混合使用, 以实现混合编码5

27、03.3.4 变换域编码n在子带编码中, 划分子带的方法是通过带通滤波器来完成n另外一种方法就是通过变换域编码方法, 将输入信号直接转换到频域, 然后在频域划分各频段, 根据不同的频段能量大小分配码字然后编码, 收方解码后再用相应的反变换转换成时域信号。 51n与子带编码类似, 变换域编码也是一种“频域”编码 n事实上, 只有采用离散傅里叶变换(FFT)或离散余弦变换(DCT), 变换后的各系数才真正代表频率分量n由于DCT接近最佳变换Karhunen-Loeve变换(KLT), 因而语音变换域编码基本上都采用DCT, 在这个意义上可以称语音变换域编码为频域编码nKLT:以矢量信号X的协方差矩

28、阵的归一化正交特征矢量q所构成的正交矩阵Q,来对该矢量信号X做正交变换Y=QX,则称此变换为K-L变换(K-LT或KLT) 52n在语音子带编码中, 常用的子带数目为24, 宽带音频编码也只不过用32个子带。 语音的变换域编码, 其变换系数, 或称频率分量数目则要大得多, 通常取在123256之间n变换域编码将连续8个输入语音样点块, 经线性变换后再进行量化处理, 因此变换域编码也称块编码。 量化的方法可以采用标量量化, 也可以采用矢量量化。 53nKLT变换能够使变换域编码性能充分发挥, 但在使用KLT时, 需要对每个信号输入块都求出N个特征矢量, 并以边信息(Side Informatio

29、n, 或称为“辅助信息”)的方式传送到接收端。 n另外, KLT在进行变换时需要做N2次乘法加法运算, 不存在快速算法, 因此在实际中并没有得到应用n它只给出一些次优而实用的算法在性能上的界限, 在理论研究上起参照作用。 n在实际应用中, 离散Hadamard变换(DHT)、 离散Walsh Hadamard变换(DWHD)、 离散傅里叶变换(DFT)以及离散余弦变换(DCT)等都得到了应用。 n DCT在语音及图像的变换域编码中, 由于其性能非常接近于KLT, 又有快速算法, 因此得到了广泛的应用。 54nDCT的优点真正代表了频域变换, 因此可以很容易根据人耳的特性来控制各频率分量的量化误

30、差, 使得在数码率一定的条件下, 获得最好的主观编码质量对于自回归(AR)输入过程, 并且相邻样点有较高的相关性时, 其性能非常接近KLT。 不仅仅对于语音信号, 其他许多信号都能够用AR模型来描述。 它可以借助FFT进行快速计算。 这对具体应用, 特别是当N比较大时, 是至关重要的55n自适应变换编解码在语音编码系统中, 为了适应语音信号的非平稳性, 通常都要采用自适应处理技术变换域编码将输入信号块分解成不同的频率分量, 去除了大部分样点之间的相关性, 自适应技术主要使用了自适应比特分配和自适应量化n自适应比特分配用来适应短时谱形状的变化, 而自适应量化主要用来适应短时谱能量的变化n在更一般

31、的概念中, 变换的矩阵也可以自适应, 由于实现上的困难,在实际应用中几乎都采用固定变换矩阵n因此, 自适应变换域编码(ATC)一词通常指自适应比特分配和自适应量化, 特别是指自适应比特分配56n由于分块处理, 前向自适应更适合变换域编码, 自适应信息需要以边信息的形式传送给接收端, 以供解码用n由于边信息占用一部分速率, 因此需要研究高效率的自适应方法, 尽量少用一些比特来传送边信息, 以省下更多的比特用来对系数进行量化n自适应变换域编解码的框图, 其中包含了边信息支路, 它们用来提供自适应量阶及自适应比特分配信息。 57图3.3-8 自适应变换编解码原理框图 (a) 编码; (b)解码 输

32、入缓 冲比 特 分 配量 阶 尺 寸谱 插 值编 码输 出信 号输 入变 换量 化编 码边 信 息提 取合路分路(a)编 码输 入解 码反 变 换输 出缓 冲重 建输 出比 特 分 配量 阶 尺 寸谱 插 值(b)583.3.5 矢量量化n矢量量化VQ(Vector Quantization)是一种有损的编码方案n其主要思想是将输入的语音信号按一定方式分组, 把这些分组数据看成一个矢量, 对它进行量化n不同于直接对一个个数据作量化的标量量化方法 59图3.3-9 矢量量化编码及解码原理框图 信 号 序列 输 入构 成矢 量传 送下 标矢 量输 出接 收下 标搜 索矢 量码 本查 表矢 量码 本

33、60n假定将语音数据分组, 每组有 k个数据。 这样, 一组就是一个k 维的矢量。 把每一个组形成的矢量看成一个元素, 又叫码字, 那么, 语音所分成的组就形成了各自的码字。 n码字排列起来, 就构成了一个表, 人们将此表叫做码本或码书n码书类似于汉字的电报号码本电报号码本里面是复杂的汉字, 而在这里是一组原始的语音数据电报号码本里每个汉字旁边标有只用4位阿拉伯数字表示的号码, 而在矢量量化方法里就是每组数据所对应的下标 61n系统工作原理先将待编码的序列划分成一个个等长的段, 每段含有若干个样点, 这一段段样点就构成一个个矢量。n 编码对象可以是直接的语音输入序列也可以是参数编码中语音模型对

34、应的激励序列或者是准平稳期内的语音经线性预测分析产生的一组自回归(AR)模型参数n每一个矢量与已预先训练(是指某种算法计算)好的一个矢量码本(Codebook)中的每一个码字(Codeword, 它与输入矢量一样, 也是同维数的矢量)按某种失真准则进行比较, 求出误差。 62n码本中每一个码字都与输入矢量产生一个相应的误差, 其中误差最小的矢量可用来代替输入矢量, 即输入的最佳量化值n只需对码本中每一个码字的位置进行编码即可, 即传送的不是码本中对应的码字本身(这对数据压缩毫无意义), 而是它的下标n传送下标所用的数据量比传送原始的 k维数据要小得多, 从而达到了数据压缩的目的n在接收端, 也

35、有同样的码本, 当接收到对方传来的矢量下标时, 即可根据此下标, 在码本中查出相应的码字作为重建的语音数据。 63n如果码本的长度为N , 则下标可用lbN二进制位来表示, 而 k 个数据构成一个码字。 所以, 矢量量化编码的比特压缩量可达到1/ k lbN。 n矢量量化编码的关键技术设计一个优良的码本, 即矢量码本的构造问题n一般可通过反复迭代、 不断修正的方法完成, 目前最常用的是一种称为LBG的算法n算法由三位学者Y.Linde、 A. Buzo和R.M.Gray共同提出的, 故以它们的名字命名64nLGB算法的步骤 (1) 采集用于构造码本的训练数据。 数据越多, 采集对象越广泛, 则

36、训练出的码本越好。 当然, 数据越多, 训练时间越长, 因而必须在性能和训练代价之间寻求一个折衷。 (2) 构造初始码本。 它有许多方法, 例如, 常用的随机码本、 白噪声码本等。 (3) 训练数据对已有的码本进行矢量量化编码, 对每个码字形成数据聚类。 (4) 根据量化得到的聚类结果修正码字, 即寻找每一类的新的代表性码字。(5) 判断(3)中量化编码误差是否小于规定数值, 或者迭代次数是否超过规定值, 若是, 训练结束。 否则转(3)继续。 65量化编码准则问题-重要因素n依赖编码对象特性n举例来说, 若直接对输入语音波形进行矢量量化, 则多用最小均方误差MSE(Mean-Squared-

37、Error)准则:nYi是码本中第i个码字, 每个码字有m维; wj 是权函数; d是误差值。 21)(),(ijjmjiyjsYSd(3.3-7) 66量化编码准则问题n若矢量量化编码的对象是语音模型参数, 则MSE(最小均方误差)准则就不合适 因为模型参数反映的是语音的频谱特性, 参数量化误差最小, 代表语音频谱量化误差最小(除非参数间无误差)n在这种场合, 将多数由参数来表示的语音频谱失真作为误差准则。 最常用的是I-S(Itakura-Saito)准则:X(ejw), Y(ejw) 分别为矢量X, Y代表的语音频谱函数deYeXeYeXYXdjijjiji1)()()()(ln21),

38、(22(3.3-8) 67n矢量量化编码可大大压缩码率, 在中低速语音编码领域得到广泛应用,如G.723.1/.728/.729n矢量量化编码的缺点编码过程中,在最优码字的搜索中需要很大的计算量,需要开发高效算法,减少计算量二进码树算法就是代表之一n码字排列在一棵“树”的节点上,而不是普通码本中随意放置n一共有 m 级, 第一级有2 1个码字, 第二级有2 2个码字, 第 m级有2 m 个码字68n输入矢量首先与第一级两个码字比较, 如果图中上面一个的码字量化误差小, 则再与它对应的第二级的两个码字(如图中虚线箭头所指)进行比较, 依次类推, 每次仅与某级的两个码字进行比较, 一直到最后一级的

39、第 j个, 即为量化结果n 搜索的过程只与2m个码字进行比较, 而不是普通矢量量化与2 m 个码字的比较, 计算量大大减少n当然, 码本的构造也是先构造一个码字, 再构造两个, 两个再构造四个, 依此类推。 69图3.3-10 二进码树编码原理 第m级第三级第二级第一级第j个70n G.723.1和G.729标准中采用的代数结构码本, 是使其码本呈现某种预先规定的排列特征(等间隔的脉冲串、 不同码矢量可以通过别的码字的移位得到), 另外, 每个码字中非零元素很少, 可以大大降低求解合成语音时的计算量n矢量量化编码不一定是对语音样值进行处理, 也可以对语音的其他特征进行编码, 比如G.723.1

40、标准中, 合成滤波器系数转化为线谱对(Linear Spectrum Pair, LSP)系数后采用的就是矢量编码法。 因此, 矢量量化的用途是很广的。 71 3.3.6 线性预测编码n线性预测编码(LPC)方法为参数编码方式参数编码的基础是人类语音的生成模型, 通过这个模型, 提取语音的特征参数, 然后对特征参数进行编码传输预测方程 预测误差n在DPCM中只用低阶进行预测, 有时甚至取 ai=1 , 即只用前面一个采样来代替(预测)当前样值n在LPC中, 对输入的音频信号进行分帧(例如, 每10 ms为一帧)提取参数。 发送这些参数以达到数据压缩的目的。 在接收端, 利用所得的参数进行合成,

41、 重建语音。 iiNiNNyayayayay122110000yye72n在提取的参数中, 最重要的是预测系数 ai 。 求取线性预测系数的依据就是式(3.3-5)的 e20为最小。 也就是说, 要提取在一帧数据中使e20为最小的ai。 n在实际应用中, 通常要取10阶或12阶预测系数, 这就需要求出各ai下的e20的最小值。 通过解联立方程的方法求出ai 来。 实际上求10阶(或12阶)预测系数需要计算本帧语音信号的协方差或自相关, 使求取的预测值尽可能地接近实际值。 除了预测系数外, 其他要提取的参数有音调、 清音/浊音以及信号的幅度。 73nLPC系统将预测系数及其他有关参数进行编码并传

42、送。 在接收端, 利用收到的线性预测系数以及其他参数, 使用语音合成器重建原始语音。 n一个典型的例子是美国使用的LPC-10算法 LPC-10与其他LPC的区别在于它采用了平均幅值差分函数(AMDF)间隔提取方法和采用协方差计算短时预测器系数, 而不是用自相关方法。 语音的采样率为8 kHz, 样本编码字长为12位。 以180个采样值为一帧。 LPC-10对每帧信号采样值进行处理, 分别计算出10阶预测系数、 音调、 幅度及清音或浊音。利用迭代法计算协方差矩阵, 求得10阶预测系数。n 前4个系数用5 bit表示; 第5到第8个系数用4 bit表示; 第9个系数为3 bit; 第10个系数为

43、2 bitn10个线性预测系数共用41 bit来表示。 用7 bit传送音调和清音/浊音, 再用5 bit表示幅度, 另外还要加1位同步位n原来一帧(180个采样值)数据可用54 bit来传送, 从而使系统的传送率为8000/180542.4 kb/s 74图3.3-11 LPC-10算法的编码原理框图 预增强反射系数(RC)语音信号编码输出V/UV间隔RMSRCs半间隔同步调相预测器分析缓冲区矩阵加载RMS测试矩阵求逆双帧缓冲区参数编码间隔和声音校正声音/无声音(V/UV)检测器AMDF间隔提 取并/串变换和同步生成器低通滤波间隔分析缓冲区75 3.4 语音压缩编码标准 n经过近二三十年的努

44、力, 人们已在语音信号压缩编码方面取得了很大进展, 开发出了许多压缩方法, 其中的一些已成为了国际或地区的编码标准, 表3.4-1所示是按波形编码、 参数编码和混合编码三类编码方法分类的具有代表性的标准。 76表3.4-1 数字音频编码算法、 标准简表 773.4.1 常见音频编码标准1 G.711标准nG.711标准是1972年制定的电话质量的PCM语音压缩标准, 采样频率为8 kHz, 每个样值采用8位二进制编码, 因此其速率为64 kb/s。 n推荐使用A律或律的非线性压扩技术, 将13位的PCM按A律, 14位的PCM按律转换成8位编码, 其质量相当于12比特线形量化。 n标准规定选用

45、不同解码规则的国家之间, 数据通路传送按A律解码的信号。 使用律的国家应进行转换, 标准给出了A编码的对应表。 标准还规定, 在物理介质上连续传输时, 符号位在前, 最低有效位在后。n本标准广泛用于数字语音编码。 782 G.721标准nG.721标准是ITU-T于1984年制定的, 主要目的是用于64 kb/s的A律和律PCM与32 kb/s的ADPCM之间的转换n基于ADPCM技术, 采样频率为8 kHz, 每个样值与预测值的差值用4位编码, 其编码速率为32 kb/snADPCM是一种对中等质量音频信号进行高效编码的有效算法之一, 它不仅适用于语音压缩, 而且也适用于调幅广播质量的音频压

46、缩和CD-I音频压缩等应用。 793 G.722标准nG.722标准旨在提供比G.711或G.721标准压缩技术更高的音质n G.722编码采用了高低两个子带内的ADPCM方案, 即使用子带ADPCM(SB-ADPCM)编码方案n高低子带的划分以4 kHz为界, 然后再对每个子带内采用类似G.721标准的ADPCM编码n它是1988年ITU-T为调幅广播质量的音频信号压缩制定的标准。 G.722能将224 kb/s的调幅广播质量的音频信号压缩为64 kb/s, 主要用于视听多媒体和会议电视等n G.722压缩信号的带宽范围为50 Hz7 kHz, 比特率为48 kb/s、 56 kb/s、 6

47、4 kb/s。 在标准模式下, 采样频率为16 kHz, 幅度深度为14 bit。 804 G.728标准nG.728标准是一个追求低比特率的标准n速率为16 kb/s, 其质量与32 kb/s的 G.721 标准相当n使用了LD-CELP(低延时码激励线性预测)算法n该算法考虑了人耳的听觉特性, 具有以块为单位的后向自适应高阶预测、 后向自适应型增益量化、 以矢量为单位的激励信号量化等特点n语音输入为5个取样值,附加上激励信号的波形与增益表达信息10比特,编码时延在2 ms以内n与每一帧取160个样值, 附加有除激励信号和波形与增益表达信息外还包括线性预测系数、 音调预测系数、 音调增益辅助

48、信息等信息, 这些信息的基本CELP结构不同。 nG.721方案是对每个取样值进行预测并自适应量化, 而本方案则是对所有取样值以矢量为单位处理, 并且应用了线性预测和增益自适应的最新理论与成果。n编码时将事先准备好的激励矢量的所有组合合成语音, 然后将其结果与被编码的输入信号相比较, 选出听觉加权后距离最小的码元作为信息传递n而合成器则将发送端编码传送所制定的激励矢量、 3比特增益码和自身合成过的语音波形一起合成为语音。 ITU-T G.728标准的LD-CELP编码原理框图如图3.4-1所示。 81图3.4-1 G.728标准的LD-CELP编码原理框图 增益输入语音信 道编 码激 励VQ码

49、本后向增益自适应矢量缓存50阶LPC预测器后向LPC分析感觉加权滤波器均方误差最小化82nG.728是低速率(56128 kb/s)ISDN可视电话的推荐语音编码器, 由于它具有反向自适应特性, 可实现低时延, 被认为复杂度较高n由于自适应反向滤波器, 因而G.728具有帧或包丢失隐藏措施, 对随机比特差错有相当强的承受力, 超出任何其他语音编码器n一个码字中的全部10个比特对比特差错的敏感度基本相同 835 G.729标准nG.729标准是ITU-T为低码率应用设计而制定的语音压缩标准, 其码率为8 kb/s, 算法相对比较复杂, 采用码激励线性预测(CELP, Code Excitatio

50、n Linear Prediction)技术n为了提高合成语音质量, 采取为共轭结构代数码激励线性预测(CS-ACELP, Conjugate Structure Algebraic Code Excited Linear Prediction) 84图3.4-2 G.729标准语音编码系统的原理框图 预处理固定码本输入语音固定码本增益自适应码本增益LPC信息LPC信息LPC信息传输比特流自适应码本线性预测分析量化和内插合 成滤波器感觉加权滤波基音分析固定码本搜索增益量化参数编码85nG.729标准的编码过程如下: (1) 预处理。 它可对输入信号进行高通滤波和按一定比例缩小, 以防溢出。 (

51、2) 对10 ms帧长语音段采用Levinson-Durbin算法进行LPC分析(阶数10阶), 并将LP系数转换成线谱对LSP参数, 用VQ技术量化编码。 (3) 将10 ms帧分成两个5 ms的子帧, 分别求子帧语音模型对应的激励信号。 (4) 第二子帧的信号, 合成滤波器系数取自第二步运算的结果, 而第一子帧合成滤波器系数是通过第二子帧系数与前一帧系数内插得到的(这样, 第一子帧合成滤波器系数不必传输了)。(5) 开环基音估计。 即根据短时预测产生的预测误差, 直接进行估计。 (6) 进行自适应码书搜索, 得到语音中具有准周期特性的激励。 根据第(5)步的结果, 搜索范围可以很小。 G.

52、729标准采取了一些措施, 使得基音周期还可以取分数值(1/3样值精度), 提高了合成语音质量。 (7) 具有代数结构的固定码书搜索, 从而得到语音模型的随机激励信号。 (8) 两个码书的增益(固定码本增益和自适应码本增益)采用具有共轭结构的两级码书进行矢量量化。86 表3.4-2 8 kb/s CS-ACELP算法比特分配方案 876 G.723.1标准nITU-T颁布的语音压缩标准中码率最低nG.723.1标准主要是用于各种网络环境中的多媒体通信的n基于分析合成(A/S)编码原理n与G.729标准的主要区别:(1) 分析帧长是30 ms, 且分成4个子帧。 每个子帧分别进行LPC分析, 但

53、仅仅最后一个子帧的LPC系数量化编码; 基音估计每两个子帧进行一次。 G.729中分析帧长为10 ms, 分成两个子帧。 所以, G.723.1编解码时延更大。 (2) 自适应码书和固定码书增益量化是分别进行的, 前者采用矢量量化, 后者用标量量化, 没有像G.729那样, 两个增益都采用共轭结构码书。 (3) 激励有两种, 分别为多脉冲激励(高速率时)和代数码激励(低速率时), 而G.729只有代数码激励。 所以G.723.1可以有多速率选择, 能适应网络资源情况变化。88图3.4-3 G.723.1标准语音编码系统原理框图 存储状态更 新仿真解码信号输入分帧高通滤波线性预测分析共振峰感觉加

54、权基音估计谐波噪声成形脉冲响应计 算线谱对量 化线谱对解 码线谱对内 插零输入响应求解基音预测激励编码基音解码激励解码89nG.723.1具体编码过程的步骤如下: (1) 输入为16 bit线性PCM信号。(2) 编码器每次处理一帧240个语音样点, 在抽样频率为8 kHz时等于30 ms时长。(3) 每帧语音首先高通滤波, 然后被分成4个等长子帧, 每子帧含60个样值。(4) 每个子帧用Levinson-Durbin法, 求取10阶LPC滤波器系数。(5) 4个子帧中最后一个子帧的LPC系数, 经7.5 Hz带宽扩展, 再转换成LSP系数。 LSP系数用预测分裂矢量量化器进行量化编码n具体做

55、法是首先去除LSP系数中直流分量再与前一帧解码的LSP矢量做预测, 以减小动态范围。每个预测误差矢量(10维)分裂成3个维数为3、 3、 4的子矢量, 分别用8 bit VQ码书进行量化编码。(6) 4个子帧的前三个子帧, 其量化后LSP(从而LPC)系数的获得, 是通过对前一帧的解码LSP系数, 与第四帧解码LSP系数的线性内插得到。(7) 各子帧得到解码LPC系数后, 构成合成滤波器。(8) 各子帧用未量化的LPC系数, 组成感觉加权滤波器, 其传递函数为式(3.4-1), 并对输入语音滤波得加权语音信号:iiipiiiipiZarZarZH211111)(3.4-1) 其中, p是共振峰

56、模型阶数, ai是共振峰模型系数, r1为0.9, r2 为0.590(9) 对(8)的输出, 每二个子帧做一次开环基音估计。 所以一帧语音的240个样点产生二个基音估计值。(10) 为改进语音各质量, 对加权语音, 进行一次谐波噪声形成滤波。(11) 计算(7)中合成滤波器、 (8)中感觉加权滤波器和(10)中谐波噪声滤波器三者的组合滤波器的脉冲响应。 这是经过感觉加权处理的合成滤波器。(12) 考虑到前后两帧间滤波器的影响, 去除(11)中组合滤波器的零输入响应。(13) 先进行CELP系统中自适应码书的量化, 此处叫基音预测器, 它是5阶的FIR系统。 根据步骤(9)中求得的开环基音值,

57、 进行精细的闭环基音分析, 求得的结果进行VQ编码。(14) 量化编码的最后一个对象是固定码书的编码。 高速率采用多脉冲最大似然量化, 与普通多脉冲方案不同的是, 各脉冲幅度是一样的, 符号可以不同, 且所有脉冲位置, 要么全在偶数号序列处, 要么全在奇数号序列位置处, 所以它与ACELP的码本有相似之处。 低速率时的固定码书的编码, 即是ACELP, 比之高速率方案, 脉冲个数减少了, 且位置限制更严, 不同码字间存在简单代数移位关系。在所有编码工作完成后, 进行各固定码书的编码的状态更新, 为下一次编码作好准备。 91 表3.4-3 G.723.1标准中6.3 kb/s速率编码算法的码字分

58、配 92 表3.4-4 G.723.1标准中5.3 kb/s速率编码算法的码字分配 7GSM音频编码标准nGSM是欧洲电信管理局(European Telecommunication Administration)下属的一个工作小组CEPT-CCH-GSM(Group Special Mobile)的缩写。 GSM是欧洲采用的移动电话的压缩标准, GSM所采用的RPE-LTP算法编码器原理框图如图3.4-4所示。 它采用的算法为长时预测规则码激励(RPE-LTP, Regular-Pulse Excitation/Long Term Prediction), 采样频率为8 kHz, 运行速率为

59、13 kb/s。 nGSM在参数编码过程中采用了主观加权最小均方误差准则逼近原始波形, 具有原始波形的特点, 因此有较好的自然度, 并对噪声及多人讲话环境不敏感。 同时它采用了长时预测、 对数面积比(LAR)量化等一系列措施, 使其具有较好的语音质量, 其主观评分(MOS)达3.8。 图3.4-4 GSM所采用的RPE-LTP算法编码器原理框图 预加重语音信号编码输出感知加权滤波器NNcMcxMcxmaxcLARc预处理LPC分析短时分析预测长时预测RPE编码McNc直流失调补偿分帧自相关Schur迭代算法对数面积 比LAR编码器LPC分析滤波器反射系数插值LAR解码器LTP分析长时参数编码器

60、长时参数解码器Z NbcRPE相位选择APCM量化器APCM逆量化器RPE相位恢复xMcxmaxcbcLARcnGSM的编码主要有下列五个步骤: (1) 预处理: 包括采样、 去除直流分量以及利用滤波器对高频进行预加重等处理。 (2) LPC分析: 对160个样点(20 ms)一帧的信号采用Schur迭代算法计算出8个LPC反射系数, 并转换成对数面积比(LAR)参数, 进行编码。 (3) 短时分析预测: 经过格形短时分析滤波器求短时预测系统的预测误差。 (4) 长时预测: 利用长时预测对第(3)步的误差信号进行去除多余度, 并求出每个子帧的最佳长时预测延时样点数 N c和相应的长时预测系数b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论