数字通信原理 第3章_第1页
数字通信原理 第3章_第2页
数字通信原理 第3章_第3页
数字通信原理 第3章_第4页
数字通信原理 第3章_第5页
已阅读5页,还剩169页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章第三章 语言信号压缩编码语言信号压缩编码3.1 语言信号压缩编码的基本概念3.2 自适应差值脉冲编码调制3.3 参量编码3.4 混合编码3.5 低速率语言压缩编码的应用一.压缩编码原因语音信号的压缩编码是研究如何降低语音信号编码速率的问题。以语音信号为例,模拟形式下带宽一般不到以语音信号为例,模拟形式下带宽一般不到4KHz4KHz,经过调制后,所需传输带宽不会超过经过调制后,所需传输带宽不会超过8KHz8KHz。 但是以但是以8KHz8KHz抽样,并且每个样值用抽样,并且每个样值用8 8位二进制代码表位二进制代码表示时,即采用示时,即采用A A率率1313折线折线PCMPCM数字语音信号

2、时,信息速率数字语音信号时,信息速率为为64Kbit/s64Kbit/s。利用二进制理想基带传输系统传输利用二进制理想基带传输系统传输一路这样的数字语音信号。所占一路这样的数字语音信号。所占系统的最小频带宽度为系统的最小频带宽度为32KHz32KHz。频带利用率频带利用率=传输速率传输速率/带宽带宽二.什么是语音压缩编码? 把数码率低于64Kbit/s64Kbit/s的语音编码方法称为语音压缩编码技术三. .语音编码分类根据编码器的实现机理,分成三大类波形编码波形编码参数编码参数编码混合编码混合编码了解语音信号数字化的目的和要求;理解语音信号的波形编码、参数编码、混合编码的定义;掌握对语音编码

3、信号性能的评价方法。理解标量量化和矢量量化的原理及异同点。了解语音信号的参数模型;掌握线性预测的概念、线性预测声码器的工作原理。掌握参数编码中合成分析算法的基本原理和优缺点;了解常用的语音信号的混合编码方法。 要求语音编码方法的分类:波形编码参数编码混合编码一、语音编码的方法1. 语音信号的波形编码原理: 从语音信号波形的特点出发,在时间轴上对模拟语音按一定的速率抽样,对波形的采样值,或其预测值,或其预测的误差值进行量化并编码,编码后的信号为二进制数字序列。解码是其反过程,将收到的数字序列经过解码和滤波恢复成模拟信号。一、语音编码的方法特点:以重构语音波形为目的,力图使重建语音波形保持原语音信

4、号的波形形状。适应能力强、语音质量好。编码速率高。在16至64kbit/s的速率上获得较高的编码质量,当速率进一步下降时,其性能会下降较快。一、语音编码的方法常见的波形编码方式:脉冲编码调制(PCM)、增量调制(M)自适应增量调制(ADM)、自适应预测编码(APC)、自适应差分编码(ADPCM)子带编码(SBC)一、语音编码的方法2. 语音信号的参量编码原理:从语音信号的产生机理出发,构造语音信号的模型,提取描述语音信号的特征参数,对模型参数或其预测值进行编码。在收端,根据特征参数通过模型重构语音信号。 一、语音编码的方法特点:编码速率低,可压缩到2kbit/s-800bit/s;合成的话音质

5、量差,只能达到中等,自然度较低;不以重构语音波形为目的,在解码端重构一个新的有相似声音但波形不尽相同的语音信号。常见的方式: 线性预测编码(LPC),及其各种改进型,如MBE等。一、语音编码的方法3. 语音信号的混合编码原理: 混合编码将波形编码和参量编码组合起来,克服了原有波形编码和参量编码的弱点,结合各自的长处,力图保持波形编码的高质量和参量编码的低速率,目前在1.2-16Kbit/s速率上能够得到高质量的合成语音。特点: 低速率、高质量一、语音编码的方法常见混合编码方式: 多脉冲激励线性预测编码(MPLPC) 规则脉冲激励线性预测编码(RPELPC) 码本激励线性预测编码(CELP) 矢

6、量和激励线性预测编码(VSELP) 多带激励(MBE)及改进型IMBE(Improved MBE)和AMBE(Advanced MBE) 混合激励线性预测(MELP)一、语音编码的方法说明上述语音编码器的分类方法只是一种较通用的方法,并非十分严格。除了传统的波形编码器和参数编码器以外,许多新型的语音编码技术都比较复杂,很难严格分类。基于分析合成技术的线性预测编码器则既可以视为参量编码,也可以视为混合编码。一、语音编码的方法 1、语音编码质量、语音编码质量 2、编码速率、编码速率 3、编解码的复杂度、编解码的复杂度 4、编解码延时、编解码延时 在给定编码速率的条件下,用尽量小的编解码延时和在给定

7、编码速率的条件下,用尽量小的编解码延时和复杂度,得到尽量好的重建语音质量复杂度,得到尽量好的重建语音质量。二、语音编码性能的评价1 1、语音编码质量、语音编码质量 语音编码质量是衡量语音编码算法优劣的关键性能语音编码质量是衡量语音编码算法优劣的关键性能之一,在数字通信中常把语音质量分为四级:之一,在数字通信中常把语音质量分为四级: 广播级质量广播级质量 长途电话质量长途电话质量 通信质量通信质量 合成语音质量合成语音质量二、语音编码性能的评价语音编码质量用质量评估指标衡量,分为以客观评定语音编码质量用质量评估指标衡量,分为以客观评定方法和主观评定方法两大类。方法和主观评定方法两大类。 是以人类

8、听话时对语音质量的感觉来评是以人类听话时对语音质量的感觉来评定。国际上常用的主观评定标准主要有:定。国际上常用的主观评定标准主要有: 平均意见得分平均意见得分MOSMOS(Mean Opinion ScoreMean Opinion Score) 判断韵字测试判断韵字测试DRTDRT(Diagnostic Rhyme TestDiagnostic Rhyme Test) 判断满意度测量判断满意度测量DAMDAM(Diagnostic Acceptability Diagnostic Acceptability MeasureMeasure) 可懂度指数可懂度指数AI (Articulation

9、 Index)AI (Articulation Index)二、语音编码性能的评价 由于语音质量高低的直接感受者是听众的主观感觉,由于语音质量高低的直接感受者是听众的主观感觉,因此目前广泛采用的评定方法是因此目前广泛采用的评定方法是MOS。获取。获取MOS的方法是,的方法是,由数十名试听者在不同的信道环境中试听并给予评分,然由数十名试听者在不同的信道环境中试听并给予评分,然后求出统计平均分。后求出统计平均分。 采用采用5级分制:级分制:5分为优,分为优,4分为良,分为良,3分为中,分为中,2分为差,分为差,1分为不可接受。分为不可接受。4分以及分以及4分以上为高质量语音编码,达到分以上为高质量

10、语音编码,达到长途电话质量,长途电话质量, 3.5分左右为通信级质量,分左右为通信级质量,3分以及分以及3分以下分以下为合成语音质量。为合成语音质量。二、语音编码性能的评价对应于主观评定等级,还有一个收听注意力等级对应于主观评定等级,还有一个收听注意力等级(Listening Effort ScaleListening Effort Scale)。表)。表2.12.1给出了主观评定等级制给出了主观评定等级制的质量等级、分数和相应的收听注意力等级。的质量等级、分数和相应的收听注意力等级。二、语音编码性能的评价时域:信噪比、加权信噪比、平均分段信噪比等时域:信噪比、加权信噪比、平均分段信噪比等频域

11、:谱失真测度、频域:谱失真测度、LPC倒谱距离测度等倒谱距离测度等 以上方法都建立在度量均方误差的基础上,其特点是以上方法都建立在度量均方误差的基础上,其特点是计算简单,但不能完全反映人对语音质量的感觉,对于计算简单,但不能完全反映人对语音质量的感觉,对于速率为速率为16kb/s以下的中低速率语音编码尤为突出。主要以下的中低速率语音编码尤为突出。主要适用于速率较高的波形编码的质量测量。适用于速率较高的波形编码的质量测量。二、语音编码性能的评价2. 编码速率 语言编码后的速率用“比特/秒”度量或用“比特/样点”度量。后者表示平均每个样点所需的编码比特数。 通常编码速率高,则编码后的语音质量高,但

12、所需的传输带宽就宽。 二、语音编码性能的评价好的语音编码方法,是在保持语音质量的前提下好的语音编码方法,是在保持语音质量的前提下降低速率。降低速率。3. 编解码的复杂程度 编解码的复杂度与算法有关。 通常算法复杂,则话音质量好,编码速率低,但实现复杂,且体积大、功耗高、成本高,甚至编解码延时大。二、语音编码性能的评价二、语音编码性能的评价4. 编解码延时编解码延时也与算法有关。 通常算法复杂,则编解码延时大。也有专为减小延时的短延时算法。不过,质量好、延时短的算法,相应的编码速率也高。5. 5. 对语音编码的要求对语音编码的要求在满足用户对语音质量要求的前提下,编码速率在满足用户对语音质量要求

13、的前提下,编码速率尽可能低。尽可能低。 在强噪声环境中,算法应有较好的抗误码性在强噪声环境中,算法应有较好的抗误码性能,也就是说,当误码率较低时(例如为能,也就是说,当误码率较低时(例如为10-2)仍能保持良好的话音质量。仍能保持良好的话音质量。 编、解码延迟应控制在几十毫秒之内,越短越编、解码延迟应控制在几十毫秒之内,越短越好。好。 复杂性要适度,以便于使用大规模集成器件。复杂性要适度,以便于使用大规模集成器件。二、语音编码性能的评价二、语音编码性能的评价6. 6. 几种语音编码的质量比较几种语音编码的质量比较LD-CELP:低时延:低时延-码激励线性预测码激励线性预测MP-MLQ:多脉冲最

14、大似然量化:多脉冲最大似然量化ACELP:代数码激励线性预测:代数码激励线性预测CS-ACELP:共轭结构:共轭结构-代数码激励线性预测代数码激励线性预测三、语音编码的标准ETSI:欧洲电信标准协会:欧洲电信标准协会TIA:(北美)电信工业协会:(北美)电信工业协会RCR:(日本)无线通信系统研究发展中心:(日本)无线通信系统研究发展中心DVSI:数字声音系统公司:数字声音系统公司三、语音编码的标准保密电话语音编码标准保密电话语音编码标准三、语音编码的标准 窄带保密电话应用于带宽受限信道,目前只有美国公窄带保密电话应用于带宽受限信道,目前只有美国公布了所用保密电话的标准。布了所用保密电话的标准

15、。 FS-1015FS-1015标准:标准:2.4kb/s2.4kb/s的的LPCLPC声码器,声码器,DRTDRT为为90%90% FS-1016 FS-1016标准:标准:4.8kb/s4.8kb/s的的CELPCELP声码器,比声码器,比FS-1015FS-1015具具有好得多的自然度及环境噪声能力。有好得多的自然度及环境噪声能力。 混合激励线性预测(混合激励线性预测(MELPMELP)标准:编码速率为)标准:编码速率为2.4kb/s2.4kb/s,语音质量优于,语音质量优于FS-1016FS-1016。各种语音编码标准的相对效果各种语音编码标准的相对效果三、语音编码的标准第三章第三章

16、语言信号压缩编码语言信号压缩编码3.1 语言信号压缩编码的基本概念3.2 自适应差值脉冲编码调制3.3 参量编码3.4 混合编码3.5 低速率语言压缩编码的应用自适应差值脉冲编码调制原理(ADPCMADPCM)3.1.1差值脉冲编码(DPCM)v1.编码思想编码思想提高通信质量提高通信质量必须必须减小量化误差减小量化误差减小量化级减小量化级当抽样值范围确定时当抽样值范围确定时增加编码增加编码位数位数N增加编码位数可获得大的信噪比在编码位数固定时,减小抽样值的变化在编码位数固定时,减小抽样值的变化范围,也同样可以提高信噪比范围,也同样可以提高信噪比即:若缩小抽样值(被编码信号)的即:若缩小抽样值

17、(被编码信号)的变化范围,就可以在保证信噪比不变变化范围,就可以在保证信噪比不变的情况下,减小编码的位数。这就是的情况下,减小编码的位数。这就是差值编码的中心思想差值编码的中心思想 二、差值编码模型图在原来的抽样值中减去某一个值,然后在原来的抽样值中减去某一个值,然后对两者之差进行编码。在接收端将解码对两者之差进行编码。在接收端将解码值再加上发送端所减去的值便可恢复出值再加上发送端所减去的值便可恢复出原始值。原始值。 x(n) + d(n) c(n) d(n) x(n) - x(n) x(n) 差值编码模型译码译码+编码编码+图中:x(n)是原始样值(n时刻的抽样值)x(n)为减去量d(n)=

18、x(n)-x(n) 为差值可以看出:可以看出:(1)、)、d(n)越小,在相同的编码位数时越小,在相同的编码位数时信噪比越大信噪比越大(2)、收发端必须有相同的减去量)、收发端必须有相同的减去量x(n)根据前些时刻的样值来预测现时刻的样值,只要传递预测值和实际值之差,而不需要每个样值的编码都传。这种方法就称为DPCMDPCM编码。三、DPCM系统1、DPCM系统的概念:系统的概念:举例来说,设以1/Ts1/Ts的速率对信号S S(t t)抽样,在 时刻前可得到 , 等一组样值.以前面N N个样值作为基础对 的预测值是snTt sSTnTSsSTnTS2sSNTnTSSnTSSSNiiSiTnT

19、SWnTS1不同时刻样值的加权系数:根据相关性情况,可设根据相关性情况,可设 为常量或变量为常量或变量iWiW2 2、实现预测的横向滤波器(NN阶预测器)在每个抽样时刻到来时,滤波器输出将会给出下一个样值的预测值。SnTS一般来说,在抽样时刻一般来说,在抽样时刻 t=nTs 时所得的预测时所得的预测值值 与真正的样值与真正的样值 并不相同。并不相同。SnTSSSNiiSiTnTSWnTS1N阶预测器输出:阶预测器输出:差值脉冲编码就是对真正的样值 与过去的样值为基础得到的估值 之间的差值进行量化和编码。SnTSSnTS3 3、DPCMDPCM系统模型框图量化器量化器预测器预测器预测器预测器下张

20、图中:x(n)为抽样信号的实际值d(n)=x(n)-x(n)图x(n)=x(n)+d(n)该系统的量化误差可以表示为:e(n)=x(n)-x(n) =d(n)+x(n)-x(n)+d(n) =d(n)-d(n)上式表明:系统的传输误差就是差值()的量化误差4 4、DPCMDPCM系统的抗噪声性能分析系统信噪比定义为:)()(22neEnxE=)()()()(2222neEndEndEnxE=qPSNRG 预测器增益预测器增益量化器的量化量化器的量化信噪比信噪比GP1预测器有预测器有增益增益加预测器后加预测器后反而不利反而不利2x2d2eGP : DPCM系统相对于PCM系统而言的信噪比增益。量

21、化器产生的信噪比qSNR即非预测的PCM系统的量化信噪比提高系统信噪比采取的措施)()()()(2222neEndEndEnxE)(2ndE)(2neE减小 x(n)精确)(2ndEd(n)d(n)=x(n)-x(n)最佳预测)(2neE量化误差最佳量化小结一.压缩编码的原因二.什么是语音压缩编码三.语音编码分类3.1ADPCM系统3.3.1DPCM一.差值编码思想二.差值编码系统模型图三.DPCM系统1.概念2.预测器模型图3.DPCM系统模型4.DPCM系统的抗噪声性能分析自适应差值脉冲编码调制(ADPCMADPCM)1、实质:DPCM+自适应量化和自适应预测固定预测固定预测 固定量化固定

22、量化2 2、定义能够实现自适应预测功能,或者自适应量化功能或者同时实现两种自适应功能的DPCMDPCM系统称为ADPCMADPCM系统。3.3.设计的目的ADPCM充分利用了语音波形的统计特征和人耳听觉特性,其设计思路主要瞄准了两个目标:a: 尽可能去掉语音信号中的冗余信号b:以有效的方式将可用比特分配给语音信号对消除冗余后的信号对消除冗余后的信号,从自适应角度从自适应角度进行最佳编码进行最佳编码1.11.1预测的自适应(1).极点预测器1.预测器的结构(用重建信号x(n)进行的预测)+量化器量化器预测器预测器+X(n)X(n)d(n)d(n)编码编码X(n)P(Z)X(n)a:极点预测器的方

23、框图极点预测器的方框图b:b:预测器传递函数P(z)P(z) )()()(ZXZXZPN阶预测器公式:X(n)=)(1jnxaNjj进行Z变换后得:jNjjzzxazx)()(1则预测器的传递函数为:)()()(ZXZXZPjNjjza1为预测系数为预测系数jac:c:重建滤波器+预测器预测器x(n)x(n)X(n)d(n)H(Z)重建滤波器重建滤波器=)1 ( 2 12Px2d2x=E x(n)+Ex(n-1)-2Ex(n)x(n-1)22=2E x(n)-2Ex(n)x(n-1)2分析:分析:)()(22ndEnxEPG=)1 ( 211p()一阶()一阶最佳最佳线性预测线性预测求最佳预测

24、系数求最佳预测系数h1N=1时;时;X(n)=h1x(n-1)则差值信号为:则差值信号为:d(n)=x(n)-h1x(n-1)+ +Ed (n)=2d2=Ex(n)- h1x(n-1) 2=E x(n)+h1Ex(n-1)-2h1Ex(n)x(n-1)22=2x2d21xh2- -2112xPh=)21 (1112Phhx2求使求使最小的最小的h1的值的值2012hdmin2)(d221)1 (xp令令得最佳预测系数得最佳预测系数h1opt=p1当当N=1时的最大预测增益为:时的最大预测增益为:)1 (121maxpGpb.b.二阶线性预测(N=2N=2)d(n)=x(n)-h1x(n-1)-

25、h2x(n-2)2d=Ed (n)2=Ex(n)- h1x(n-1)-h2(n-2) 2令令012hd022hd得最佳得最佳h1,h2212111)1 (ppphopt2121221 ppphopt2212222121min21)(1 )(xdpppp大于或者大于或者等于零等于零故二阶预测器总是优于一阶预测器第三章第三章 语言信号压缩编码语言信号压缩编码3.1 语言信号压缩编码的基本概念3.2 自适应差值脉冲编码调制3.3 参量编码3.4 混合编码3.5 低速率语言压缩编码的应用波形编码的语音质量较高,实现简单,但速率较高占频带较宽,因而将影响通信系统的容量。寻求低速高质的语音编码方法一直是数

26、字通信领域的一个重要研究课题。一个重要概念:对反映语音信号特征的参量进行编码与传输而不是对信号的时域波形本身,即所谓参量编码。可大大降低编码信号的速率。参量编码的基础是语音信号特征参数的提取与语音信号的恢复,这将涉及到语音产生的物理模型。一、语音信号产生模型及其特征参数 人的发音系统由声带、声道及次声门系统构成。声道从声带的开口即声门处开始,直至嘴唇,包括咽喉、口、舌等。声道的截面积是可变化的,它取决于舌、唇等器官的位置。次声门系统由肺、气管等级联,是产生语音的能量来源。简化的发音系统如图所示。 浊音与清音浊音又称为有声音:气流通过声门时,如果声带振动并产生一个准周期的空气脉冲激励声道,就得到

27、浊音。典型的浊音波形如图所示,其中(a)为声门处的气流速度,(b)为通过声道后在唇口处形成的声压波形,浊音波形具有明显准周期性。声带振动的频率称为基音频率fb,周期为基音周期Tp,基音频率fb一般在70300 Hz的范围内,相当于Tp为315 ms。基音周期Tp是语音信号的主要特征之一。清音又称无声音:声道在某处发生收缩,同时迫使空气以高速冲过一收缩部位而产生湍流,就得到清音。发清音时声带不振动,此时是由湍流建立的宽带噪声源激励着声道。清音波形类似于噪声,如图(c)所示。 声道的无损声管模型声道包括口腔和鼻腔,相当于一个非均匀截面的管道。当产生声音的气流顺着这个管道传播时,其频谱特征就由管道的

28、选择性所改变声道的谐振频率称为共振峰频率,简称共振峰,其中第一共振峰就是上面提到的基音频率fb。声道截面面积与声道长度方向之间的依赖关系称为声道的面积函数,声道谐振特性主要取决于其面积函数。实际声道可以用一个级联的无损声管来表示。当选用较多数量的短管级联,使得各管的截面积逼近声道的面积函数时,就可以期望级联声管的谐振频率接近于声道的谐振频率。 由N个等长无损声管级联的系统的传递函数为: 1( )1NkkkGV zz70一、语音信号的基本特性语音信号的基本特性语音信号是非稳态信号,特征随时间变化;但在一个很短的时间段内(约5ms-50ms)具有相对稳定的特征,称为准平稳信号。语音信号通常可以分为

29、浊音、清音和混合音。浊音在时域上具有准周期性,在频域上,精细谱具有周期性起伏的谐波特性,谱包络具有共振峰结构。清音类似于随机噪声,其频带较宽。浊音段的信号能量要比清音段的能量高,这一特点可用于判断区分清、浊音。语音产生模型无损声管模型等效为时变线性数字滤波器,滤波器极点对应声道振峰频率,增益参数G和滤波器系数都随时间而变化,且依赖于面积函数。终端等效的概念:当线性系统的一组参数被控制之后其输出就具有所希望的语音特征,而这组参量是和实际语音产生过程有关的。语音信号具有慢变化特征:其激励和声道的特征在1020 ms时间内保持不变。语音产生模型包括激励源、声道和反映嘴唇处声辐射影响的部分,如图所示。

30、 语音特征参数激励源分为浊音激励和清音激励,用浊音/清音开关进行控制。在浊音段,激励由冲激序列发生器和声门脉冲模型G(z)级联构成,前者产生周期为Tp的单位冲激响应,后者为波形成形系统。在清音段,激励模型为一个随机噪声源及控制清音激励强度的增益参数。声道模型为一个时变线性系统,辐射模型为R(z)。语音特征参数有:基音周期、共振峰频率、语音强度、清音/浊音判决及时变滤波器参数等。 特征参量的提取提取方法是基于数字信号处理的理论和技术。语音信号的准平稳特性,即在1020 ms的短时间内认为语音的特征参数不变。这样,可将实际语音信号分成短的时间段,在各个段内分别进行参量提取。简单介绍一下基音提取问题

31、:包括两个方面:首先进行浊音/清音判决,然后再确定浊音段语音波形的周期Tp。浊音/清音判决或称基音检测,就是判决一个时间段是浊音段还是清音段,这就要利用浊音和清音在时域和频域上的差别。浊音信号具有准周期性,频谱有峰值,即基音及其谐波。浊音信号有较强的相关性。清音信号的波形近似于噪声,没有准周期性,其频谱没有明显的峰值,时域中也不存在相关性。基音提取的方法很多,可分为三类。 利用语音信号的时域特征,如自相关函数法; 利用语音信号的频域特征,主要是利用浊音频谱的峰值特征; 综合利用语音信号频域与时域特征,如线性预测技术等。 76一、语音信号的基本特性语音信号的基本特性语音信号是非稳态信号,特征随时

32、间变化;但在一个很短的时间段内(约5ms-50ms)具有相对稳定的特征,称为准平稳信号。语音信号通常可以分为浊音、清音和混合音。浊音在时域上具有准周期性,在频域上,精细谱具有周期性起伏的谐波特性,谱包络具有共振峰结构。清音类似于随机噪声,其频带较宽。浊音段的信号能量要比清音段的能量高,这一特点可用于判断区分清、浊音。77pjjjzaGzH11)(全极点数字滤波器时变数字滤波器-线性预测(LP)综合滤波器pjjjnsanGxns1)()()(全极点数字滤波器的输出(LPC差分方程) 输出值s(n)可以用当前的输入值Gx(n)和过去输出样值的加权和来表示二、语音信号的产生模型78 清/浊音类型;

33、基音周期TP; 代表声道的时变滤波器的系数aj及滤波器阶数p; 增益系数G;说明:根据语音信号慢变化的特点,可以每隔10-30ms左右预测一次上述各参数的值。即以每10-30ms为一帧传送一次参数样值的编码,并不传送话音样值的编码,因此比特速率低得多。二、语音信号的产生模型79清浊音判决滤 波 器参 数 分析Ga1ap量 化 编 码 器U/V解 码 器Ga1apTPU/V激 励 信号产生合 成 滤波器信道基 音 周期提取TPs(n)预加重加窗s(n)LPC声码器的原理框图三、LPCLPC声码器的工作原理801、全极点数字滤波器参数的确定 模型阶数P的选择,应该从频谱估计精度、计算量、存储量等多

34、方面综合进行考虑。 P取很大值时,可以获得很好的信号谱估计,但增加的计算量和存储量代价太大。语音谱估计时主要关心的是声道的谐振特性,P值过大,估计的谱中保留许多信号谱细节,反而使共振峰分析效果变坏。阶数P的经验值在8-12之间。通常采用10个极点的滤波器,模型就能正确描述共振峰特性和谱的基本形状。三、LPCLPC声码器的工作原理81三、LPCLPC声码器的工作原理 )()()(212pjjjnsansEneEE 设计的滤波器系数 aj就是使得误差e(n)在某个预定的准则下最小,通常是根据最小均方误差准则求解ajpjjjnsansne1)()()(在LPC模型中,信号s(n)的估计误差e(n)

35、为:82三、LPCLPC声码器的工作原理 在语音信号保持平稳的短时段内,令E对aj的偏导数为零,得到:piinsjnsansEpjj, 10)( )()(1即:piijianpjnj, 1)0 ,(),(1其中:)()(),(jnsinsEjin 根据最小均方误差准则通过求解P个方程来得到P个未知数aj83三、LPCLPC声码器的工作原理2、 基音检测根据语音信号的特性检测基音周期的方法有: 利用时域特性检测; 利用频域特性检测; 同时利用时域和频域特性检测; 这里只介绍利用时域特性检测84 基本原理:利用语音信号的时域波形的相似性,通过比较原始信号和它的移位信号的相似程度来寻找基音周期。如果

36、移位的距离等于基音周期,则两个信号之间将具有最大的相似性。 常用方法:短时自相关函数和短时平均幅度差函数AMDF。三、LPCLPC声码器的工作原理85 设sw(n)是一段加窗的语音信号,它的非零区域为:n = 0N-1。 )()()(nwnsnsw s(n)语音输入信号,w(n)是加权窗,一般取矩形窗或哈明窗。三、LPCLPC声码器的工作原理86三、LPCLPC声码器的工作原理 sw(n)的自相关函数称为语音信号s(n)的短时自相关函数,用Rw(l)表示。)()()()()(10lnslslnslslRwlNnwwnww 如果s(n)是浊音,其短时自相关函数Rw(l)呈现出明显的周期性,其周期

37、等于s(n)的基音周期。基音周期就是第一个峰值点到零点之间的距离。87其它值哈明窗其它值矩形窗nNnNnnwnNnnw0) 1(012cos46. 054. 0)(0) 1(01)(三、LPCLPC声码器的工作原理88 设sw(n)是一段加窗的语音信号,它的非零区域为:n = 0 N-1。 sw(n)的短时平均幅度差函数rw(l)定义为:10)()()()()(lNnwwnwwwnslnsnslnslr三、LPCLPC声码器的工作原理89三、LPCLPC声码器的工作原理如果s(n)是浊音,其AMDF也呈现出明显的周期性,其周期等于s(n)的基音周期。与Rw(l)不同的是在基音周期的各个整数倍点

38、上,rw(l)具有谷值而非峰值,要通过寻找最深谷值点的位置来确定基音周期。 90周期性语音信号短时自相关函数和AMDF示例三、LPCLPC声码器的工作原理91AMDF方法计算简单,只需减法和取幅度运算,不需要乘法运算。AMDF的动态范围较小,易于算法的定点实现。AMDF在基音周期点上,它的谷点锐度较之短时自相关函数的峰点锐度更尖锐,估值精度更高、更稳健。但信号不够平稳时,这个特点不明显。短时自相关函数法的特点是对相位不敏感,在信号有相位失真时能较好地检测基音。三、LPCLPC声码器的工作原理92 窗长 为了使较好地反映sw(n)的周期性,窗长 N 至少应大于两个基音周期,一般取长度为10-30

39、ms。 克服共振峰特性造成的干扰 由于共振峰的干扰,会出现Rw(l)的第一最大峰值点或rw(l)的第一最深谷值点与基音周期不一致的情况,当基音周期性和共振峰周期性混在一起时,检测出来的周期可能是NpNf(Np是基音周期, Nf是第一共振峰的周期)。 三、LPCLPC声码器的工作原理93a. 用低通滤波器(60Hz900Hz)对语音信号进行滤波,去除大部分共振峰的影响,基音频率最高约450Hz,滤波后可以保留其一、二次谐波。b. 先对语音信号进行非线性变换(例如“中心削波”),然后再求Rw(l)或rw(l),这样可以明显地改善基音估计的效果,基音周期点上,峰值点或深谷值点比削波前得到的要尖锐、突

40、出。 三、LPCLPC声码器的工作原理94 清/浊音类型; 基音周期TP; 代表声道的时变滤波器的系数aj及滤波器阶数p; 增益系数G;说明:根据语音信号慢变化的特点,可以每隔10-30ms左右预测一次上述各参数的值。即以每10-30ms为一帧传送一次参数样值的编码,并不传送话音样值的编码,因此比特速率低得多。二、语音信号的产生模型95清浊音判决滤 波 器参 数 分析Ga1ap量 化 编 码 器U/V解 码 器Ga1apTPU/V激 励 信号产生合 成 滤波器信道基 音 周期提取TPs(n)预加重加窗s(n)LPC声码器的原理框图三、LPCLPC声码器的工作原理96 对于加窗的语音信号sw(n

41、),当窗的起点 n = 0 时,语音信号sw(n)的短时能量用E 表示,短时平均幅度用M 表示,计算公式如下:102)(NnwnsE10)(NnnsM三、LPCLPC声码器的工作原理 3、浊音、清音及无声的判别 根据语音信号的短时能量、短时平均幅度和短时过零率来判断当前帧的语音信号是浊音、清音,还是无声。97 语音信号的过零率用Z 表示,它表示一帧语音信号中波形穿过横轴(零电平)的次数。它可以用相邻两个取样改变符号的次数来计算:10)1(sgn)(sgn21NnwwnsnsZ三、LPCLPC声码器的工作原理98 浊音(V)的M 最大而Z 最低,当采样率为8kHz,帧长为 20ms 时, Z 的

42、平均值约为20; 清音(U)的M 居中而Z 最高,当采样率为8kHz,帧长为20ms时, Z 的平均值约为70; 无声(S)的M 最低而Z 居中。三、LPCLPC声码器的工作原理99三、LPCLPC声码器的工作原理 在S、U、V三种情况下,短时平均幅度M 和短时过零率Z 的条件概率密度函数示意图通道声码器通道声码器发送端通过若干个并联的通道对语音信号进行粗略的频谱估计接收端产生的信号其频谱与发送端所规定的频谱相匹配。滤波器组队频带的划分不均匀,低频带的带宽窄,高频段的带宽宽主要缺点:需要进行基音检查和清浊音的判决,精确性较差。通道数量有限,造成信号频谱畸变共振峰声码器共振峰声码器对整体的语音信

43、号进行分析,提取信号中的共振峰的位置、幅度、带宽等参数,构成对应清音和浊音的两个声道滤波器。与通道声码器相比,共振峰声码器合成的语音质量较好,而且比特率可以压缩的更低104四、LPC10LPC10声码器清浊音判决滤波器参数分析Ga1ap量 化 编 码 器U/V解 码 器Ga1apTPU/V激 励 信号产生合成滤波器信道基音周期提取TPs(n)预加重加窗s(n)1051、LPC10声码器概况 LPC-10声码器采用10阶线性预测分析滤波器,编码速率为2.4kb/s,被美国在1981年作为联邦标准FS-1015用于窄带保密通信。其语音质量清晰可懂,但抗噪声的能力和自然度尚有欠缺。 四、LPC10L

44、PC10声码器106四、LPC10LPC10声码器2、 LPC10编码器低通滤波A/D变换预加重计算分析相位基音分析存储器低通滤波器清/浊检测基音及清/浊校正2阶逆滤波AMDF基音提取V/UV数字语音出并变串及同步产生误差校正的映射参数编码基音周期预测器分析存储器计算RMS计算预测参数2帧参数存储器2帧参数存储器RMSRC107 采样率8kHz,每个样本量化为12bit得到数字化语音,每180个样点分为一帧(22.5ms ),以帧为处理单元。四、LPC10LPC10声码器预加重的目的是加强语音谱中的高频共振峰,使语音短时谱以及线性预测分析中的余数(残差)频谱变得更为平坦,从而提高了谱参数估值的

45、精确性。19375. 01)(zzHpw 在提取声道参数之前,先进行预加重(高频提升)处理,预加重滤波器的传输函数Hpw(z)为:108传输函数Hpw(z)的幅频和相频特性四、LPC10LPC10声码器010002000300040005000600070008000-100-50050100Frequency (Hertz)Phase (degrees)010002000300040005000600070008000-30-20-10010Frequency (Hertz)Magnitude Response (dB)109 该编码方案中采用协方差法计算预测系数ai,i = 1, , P,

46、P=10。预测系数不适于直接量化,因为它的微小变化会导致LP综合滤波器极点位置很大的变化,很可能造成滤波器不稳定,为了保证滤波器的稳定性,要求有相当高的量化精度(每个系数需要810bits )。 四、LPC10LPC10声码器110四、LPC10LPC10声码器 为了降低量化比特数,采用了在数学上完全等价的P个反射系数(RC:Reflection Coefficient) ki, i = 1, , P代替预测系数进行量化编码。滤波器稳定的条件是参数ki满足下式:1ik 此条件在量化时容易保证。可以通过Levinson-Durbin算法求得部分相关系数(Partial Correlation),

47、部分相关系数与RC在理论上是互为相反数。111 增益RMS由下式计算:21121NiiSNRMSSi是经过预加重后的数字语音信号样本,N是分析帧长度。对于浊音帧,其分析帧长取为130个样本以内的基音周 期整数倍值;对于清音帧,其分析帧长取为长度为22.5ms的整个帧的中点为中心的130个样点。四、LPC10LPC10声码器112 清/浊音判决是利用模式匹配技术,基于低带能量、AMDF函数的最大值与最小值之比、过零率三个因素判别。最后对基音值、清浊音判决结果用动态规划算法,在三帧范围内进行平滑和错误校正,从而给出当前帧的基音周期、清浊音判决参数V/U。 采用基于短时平均幅度差函数(AMDF)法提

48、取基音周期。四、LPC10LPC10声码器113 对10个反射系数RC、增益RMS、基音周期、U/V判决标志以及同步信号共编码成每帧54bits,帧长22.5ms,因此编码速率为2.4kb/s。各比特分配如下表:四、LPC10LPC10声码器114四、LPC10LPC10声码器浊音清音浊音清音基音周期/清浊音77K(6)4RMS55K(7)4同步11K(8)4K(1)55K(9)3K(2)55K(10)2K(3)555433K(4)55误差校正020K(5)4115四、LPC10LPC10声码器3、 LPC10译码器串/并变换同步检测误差检测校正编码参数解码帧块到基音块转换与插值输出存储器计算

49、增益综合器清/浊音开关去加重D/A低通滤波合成语音出RMSRC基音周期V/UV反射系数转换成预测系数基音产生噪音产生116(1)采用过分简化的二元激励,合成的语音自然度较低;(2)稳健性(Robustness)差。(3)LPC-10的语音谱共振峰的位置以及带宽估值有时会产生很大的失真,从而影响语音的质量。当浊音的基音频率接近谱包络中的第一共振峰时,LPC谱估计在共振峰位置上出现极其尖锐的峰值(估计失真),使得相应得在合成语音中会出现尖峰或较大的毛刺,影响语音质量。四、LPC10LPC10声码器117 采用混合激励代替简单的二元激励,使合成语音的质量得到改善。激励脉冲加抖动:对每个基音周期的长度

50、乘上一个0.751.25之间均匀分布的随机数以改善语音的自然度。4、 LPC-10e声码器 LPC-10e声码器采用针对LPC-10声码器的缺点加以改进的算法,并能与LPC-10声码器兼容,用于美国第三代保密电话。四、LPC10LPC10声码器118LPC-10提取基音采用的是AMDF,它的显著特点是不需要乘法,计算较小。 LPC-10e中采用LPC的残差信号或语音信号的短时自相关函数,利用动态规划的平滑算法来更准确地提取基音周期。四、LPC10LPC10声码器119 线谱频率LSF(Line Spectrum Frequency),或称为线谱对(Line Spectrum Pair)是数学上

51、与线性预测系数ai(i = 1, , P)和反射系数ki(i = 1, , P)完全等价的另一种表示方式。LSF参数集i(i = 1, , P)都在单位圆上,它们在频域描述全极点滤波器H(Z)。LSF在数学上有良好的量化特性。 四、LPC10LPC10声码器120四、LPC10LPC10声码器在求取LSF参数及量化过程中,如果保持LSF参数的有序有界性质,即:就可以保证全极点滤波器H(Z)是稳定的。pp 1210a.LSF参数有序有界性121b. LSF误差相对独立性某个频率点的LSF偏差只对该频率附近的语音频谱产生影响,而对其它LSF频率上的语音频谱影响不大,这有利于LSF的参数量化和插值。

52、四、LPC10LPC10声码器122c. LSF参数的量化 在标量量化时,通过设计最佳的LSF参数的非均匀标量量化器,可以用较少的量化比特达到较高的量化精度。例如:对10个LSF参数,根据每个参数所起的作用,分配的量化比特数为:3、4、4、4、4、3、3、3、3、3,共34bits。所得的合成语音质量与用41bits对反射系数k参数量化得到的合成语音质量相比较,在听觉上没有任何差别,两者的波形完全吻合,计算量化畸变约为1dB。四、LPC10LPC10声码器123四、LPC10LPC10声码器c. LSF参数的量化(续)在矢量量化时,将10个LSF合并成(4,6)两个矢量,每个矢量量化为12bi

53、ts,共24bits,可以得到平均谱畸变为1dB的“透明”矢量量化。第三章第三章 语言信号压缩编码语言信号压缩编码3.1 语言信号压缩编码的基本概念3.2 自适应差值脉冲编码调制3.3 参量编码3.4 混合编码3.5 低速率语言压缩编码的应用3.4.1 3.4.1 混合编码混合编码结合了波形编码和参量编码的优点,采用线性技术构成声道模型。不止传输预测参数和清浊音信息,而且也同时传输预测误差信息。实现混合编码基本方法是以参量编码特别是线性预测编码LPC为基础的, (AbSAbS,Analysis-By-SynthesisAnalysis-By-Synthesis)的基本)的基本思想:用合成来指导

54、分析。思想:用合成来指导分析。 将合成器引入编码系统,使之与分析器相结合,在编码将合成器引入编码系统,使之与分析器相结合,在编码器中产生与译码器完全一致的合成语音,将此合成语音与原器中产生与译码器完全一致的合成语音,将此合成语音与原始语音相比较,根据一定的误差准则调整计算分析器的各个始语音相比较,根据一定的误差准则调整计算分析器的各个参数,使两者之间的误差达到最小。然后将误差最小时的语参数,使两者之间的误差达到最小。然后将误差最小时的语音参数传送到接收端,得到高质量的合成语音。音参数传送到接收端,得到高质量的合成语音。合成分析法在在LPCLPC基础上采用基础上采用AbSAbS的编码方法。的编码

55、方法。AbS-LPCAbS-LPC编码器包编码器包括三个基本部分:括三个基本部分: 时变滤波器(包括时变滤波器(包括LPCLPC和基音滤波器)和基音滤波器) 基于感知的最小化处理;基于感知的最小化处理; 激励信号;激励信号; AbS-LPCAbS-LPC编码器AbS-LPC编码器与译码器编码器与译码器AbS-LPCAbS-LPC编码器激励信号激励信号产生产生编码端编码端基音合成基音合成滤波器滤波器LPCLPC合成合成滤波器滤波器解码端解码端输出输出语音语音误差最小误差最小优化的优化的激励激励基音合成基音合成滤波器滤波器LPCLPC合成合成滤波器滤波器( )e n误差误差- -+ +原始原始语音

56、语音( )s n( )s n( )s nAbS-LPCAbS-LPC编码器合成分析编码方法的特点:合成分析编码方法的特点: 发端是一个闭环系统;发端是一个闭环系统; 对激励信号没有明显的分类,由闭环系统选择与对激励信号没有明显的分类,由闭环系统选择与原始语音误差最小的激励信号,使得合成语音质量原始语音误差最小的激励信号,使得合成语音质量比传统的比传统的LPCLPC声码器好得多。声码器好得多。1 1、 时变滤波器时变滤波器时变滤波器由时变滤波器由LPCLPC合成滤波器和基音合成滤波器合成滤波器和基音合成滤波器级连组成。级连组成。 LPCLPC合成滤波器实现语音的短时预测;合成滤波器实现语音的短时

57、预测; 基音合成滤波器实现语音的长时预测。基音合成滤波器实现语音的长时预测。AbS-LPCAbS-LPC编码器 在语音谱中,能量较高的频段(如共振峰处)的噪声相在语音谱中,能量较高的频段(如共振峰处)的噪声相对于能量较低频段的噪声不易被感知,在度量原始语音与合对于能量较低频段的噪声不易被感知,在度量原始语音与合成语音之间的误差时可以计入这一因素,在语音能量高的频成语音之间的误差时可以计入这一因素,在语音能量高的频段,允许二者的误差大一些,反之则小一些,为此在计算二段,允许二者的误差大一些,反之则小一些,为此在计算二者误差时,引入频域感觉加权滤波器者误差时,引入频域感觉加权滤波器W W(f)(f

58、)。 2 2、感觉加权滤波器、感觉加权滤波器是根据人的听觉特性对预测残差信是根据人的听觉特性对预测残差信号进行处理,以产生较好的主观听觉效果。号进行处理,以产生较好的主观听觉效果。AbS-LPCAbS-LPC编码器3 3、激励信号源、激励信号源 激励信号是激励信号是AbS-LPCAbS-LPC模型的输入,包含不能由时变滤模型的输入,包含不能由时变滤波器谱模型表征的残差结构,如超出长时线性预测范围波器谱模型表征的残差结构,如超出长时线性预测范围的相关性就不能由长时线性预测包含,激励信号还包括的相关性就不能由长时线性预测包含,激励信号还包括不能用确定方法有效表征的随机结构。采用不能用确定方法有效表

59、征的随机结构。采用AbSAbS方法的声方法的声码器都用激励信号源的种类命名。例如:码器都用激励信号源的种类命名。例如: (1 1)多脉冲线性预测编码()多脉冲线性预测编码(MP-LPCMP-LPC) (2 2)规则脉冲激励)规则脉冲激励长时预测编码(长时预测编码(RPE-LTP-LPCRPE-LTP-LPC) (3 3)码本激励线性预测编码()码本激励线性预测编码(CELPCELP) AbS-LPCAbS-LPC编码器 语音的合成分析编码语音的合成分析编码 合成分析法(合成分析法(ABSABS)的基本思想是用合成来指导分)的基本思想是用合成来指导分析。析。将合成器引入编码瑞,使之与分析器相结台

60、,在编将合成器引入编码瑞,使之与分析器相结台,在编码器中产生与译码器端完全一致的合成语音,将此码器中产生与译码器端完全一致的合成语音,将此合成语音与原始语音相比较,根据一定的误差准则合成语音与原始语音相比较,根据一定的误差准则调整计算各个参数,使得二者之间的误差达到最小。调整计算各个参数,使得二者之间的误差达到最小。将误差最小时的系统参数传送到接收端,可以合成将误差最小时的系统参数传送到接收端,可以合成较高质量的语音。较高质量的语音。 AbSLPCAbSLPC编码方法编码方法(1)(1)缓存一帧语音采样值通道缓存一帧语音采样值通道LPCLPC分析得到一组分析得到一组LPCLPC系数。系数。(2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论