数字通信原理 第3章_第1页
数字通信原理 第3章_第2页
数字通信原理 第3章_第3页
数字通信原理 第3章_第4页
数字通信原理 第3章_第5页
已阅读5页,还剩169页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章语言信号压缩编码3.1语言信号压缩编码的基本概念3.2自适应差值脉冲编码调制3.3参量编码3.4混合编码3.5低速率语言压缩编码的应用一.压缩编码原因语音信号的压缩编码是研究如何降低语音信号编码速率的问题。以语音信号为例,模拟形式下带宽一般不到4KHz,经过调制后,所需传输带宽不会超过8KHz。

但是以8KHz抽样,并且每个样值用8位二进制代码表示时,即采用A率13折线PCM数字语音信号时,信息速率为64Kbit/s。利用二进制理想基带传输系统传输一路这样的数字语音信号。所占系统的最小频带宽度为32KHz。频带利用率=传输速率/带宽二.什么是语音压缩编码?

把数码率低于64Kbit/s的语音编码方法称为语音压缩编码技术三.语音编码分类根据编码器的实现机理,分成三大类波形编码参数编码混合编码了解语音信号数字化的目的和要求;理解语音信号的波形编码、参数编码、混合编码的定义;掌握对语音编码信号性能的评价方法。理解标量量化和矢量量化的原理及异同点。了解语音信号的参数模型;掌握线性预测的概念、线性预测声码器的工作原理。掌握参数编码中合成分析算法的基本原理和优缺点;了解常用的语音信号的混合编码方法。要求语音编码方法的分类:波形编码参数编码混合编码一、语音编码的方法1.语音信号的波形编码原理:从语音信号波形的特点出发,在时间轴上对模拟语音按一定的速率抽样,对波形的采样值,或其预测值,或其预测的误差值进行量化并编码,编码后的信号为二进制数字序列。解码是其反过程,将收到的数字序列经过解码和滤波恢复成模拟信号。一、语音编码的方法特点:以重构语音波形为目的,力图使重建语音波形保持原语音信号的波形形状。适应能力强、语音质量好。编码速率高。在16至64kbit/s的速率上获得较高的编码质量,当速率进一步下降时,其性能会下降较快。一、语音编码的方法常见的波形编码方式:脉冲编码调制(PCM)、增量调制(△M)自适应增量调制(ADM)、自适应预测编码(APC)、自适应差分编码(ADPCM)子带编码(SBC)

一、语音编码的方法2.语音信号的参量编码原理:

从语音信号的产生机理出发,构造语音信号的模型,提取描述语音信号的特征参数,对模型参数或其预测值进行编码。在收端,根据特征参数通过模型重构语音信号。

一、语音编码的方法特点:编码速率低,可压缩到2kbit/s-800bit/s;合成的话音质量差,只能达到中等,自然度较低;不以重构语音波形为目的,在解码端重构一个新的有相似声音但波形不尽相同的语音信号。常见的方式:线性预测编码(LPC),及其各种改进型,如MBE等。一、语音编码的方法3.语音信号的混合编码原理:

混合编码将波形编码和参量编码组合起来,克服了原有波形编码和参量编码的弱点,结合各自的长处,力图保持波形编码的高质量和参量编码的低速率,目前在1.2-16Kbit/s速率上能够得到高质量的合成语音。特点:

低速率、高质量一、语音编码的方法常见混合编码方式:多脉冲激励线性预测编码(MPLPC)规则脉冲激励线性预测编码(RPELPC)码本激励线性预测编码(CELP)矢量和激励线性预测编码(VSELP)多带激励(MBE)及改进型IMBE(ImprovedMBE)和AMBE(AdvancedMBE)混合激励线性预测(MELP)一、语音编码的方法说明上述语音编码器的分类方法只是一种较通用的方法,并非十分严格。除了传统的波形编码器和参数编码器以外,许多新型的语音编码技术都比较复杂,很难严格分类。基于分析合成技术的线性预测编码器则既可以视为参量编码,也可以视为混合编码。一、语音编码的方法语音编码性能评价的参量:

1、语音编码质量

2、编码速率

3、编解码的复杂度

4、编解码延时语音编码的基本目标:在给定编码速率的条件下,用尽量小的编解码延时和复杂度,得到尽量好的重建语音质量。二、语音编码性能的评价1、语音编码质量

语音编码质量是衡量语音编码算法优劣的关键性能之一,在数字通信中常把语音质量分为四级:广播级质量长途电话质量通信质量合成语音质量二、语音编码性能的评价

语音编码质量用质量评估指标衡量,分为以客观评定方法和主观评定方法两大类。

主观评定方法是以人类听话时对语音质量的感觉来评定。国际上常用的主观评定标准主要有:

平均意见得分MOS(MeanOpinionScore)判断韵字测试DRT(DiagnosticRhymeTest)判断满意度测量DAM(DiagnosticAcceptabilityMeasure)可懂度指数AI(ArticulationIndex)二、语音编码性能的评价MOS评定方法

由于语音质量高低的直接感受者是听众的主观感觉,因此目前广泛采用的评定方法是MOS。获取MOS的方法是,由数十名试听者在不同的信道环境中试听并给予评分,然后求出统计平均分。

分数等级采用5级分制:5分为优,4分为良,3分为中,2分为差,1分为不可接受。4分以及4分以上为高质量语音编码,达到长途电话质量,3.5分左右为通信级质量,3分以及3分以下为合成语音质量。二、语音编码性能的评价

对应于主观评定等级,还有一个收听注意力等级(ListeningEffortScale)。表2.1给出了主观评定等级制的质量等级、分数和相应的收听注意力等级。二、语音编码性能的评价客观评价的方法:

时域:信噪比、加权信噪比、平均分段信噪比等 频域:谱失真测度、LPC倒谱距离测度等说明:以上方法都建立在度量均方误差的基础上,其特点是计算简单,但不能完全反映人对语音质量的感觉,对于速率为16kb/s以下的中低速率语音编码尤为突出。主要适用于速率较高的波形编码的质量测量。二、语音编码性能的评价2.编码速率语言编码后的速率用“比特/秒”度量或用“比特/样点”度量。后者表示平均每个样点所需的编码比特数。通常编码速率高,则编码后的语音质量高,但所需的传输带宽就宽。

二、语音编码性能的评价

好的语音编码方法,是在保持语音质量的前提下降低速率。3.编解码的复杂程度编解码的复杂度与算法有关。

通常算法复杂,则话音质量好,编码速率低,但实现复杂,且体积大、功耗高、成本高,甚至编解码延时大。二、语音编码性能的评价二、语音编码性能的评价4.编解码延时编解码延时也与算法有关。

通常算法复杂,则编解码延时大。也有专为减小延时的短延时算法。不过,质量好、延时短的算法,相应的编码速率也高。5.对语音编码的要求在满足用户对语音质量要求的前提下,编码速率 尽可能低。在强噪声环境中,算法应有较好的抗误码性 能,也就是说,当误码率较低时(例如为10-2) 仍能保持良好的话音质量。编、解码延迟应控制在几十毫秒之内,越短越 好。复杂性要适度,以便于使用大规模集成器件。二、语音编码性能的评价二、语音编码性能的评价6.几种语音编码的质量比较LD-CELP:低时延-码激励线性预测MP-MLQ:多脉冲最大似然量化ACELP:代数码激励线性预测CS-ACELP:共轭结构-代数码激励线性预测三、语音编码的标准ETSI:欧洲电信标准协会TIA:(北美)电信工业协会RCR:(日本)无线通信系统研究发展中心DVSI:数字声音系统公司三、语音编码的标准保密电话语音编码标准三、语音编码的标准

窄带保密电话应用于带宽受限信道,目前只有美国公布了所用保密电话的标准。

FS-1015标准:2.4kb/s的LPC声码器,DRT为90%FS-1016标准:4.8kb/s的CELP声码器,比FS-1015具 有好得多的自然度及环境噪声能力。混合激励线性预测(MELP)标准:编码速率为 2.4kb/s,语音质量优于FS-1016。各种语音编码标准的相对效果三、语音编码的标准第三章语言信号压缩编码3.1语言信号压缩编码的基本概念3.2自适应差值脉冲编码调制3.3参量编码3.4混合编码3.5低速率语言压缩编码的应用自适应差值脉冲编码调制原理(ADPCM)3.1.1差值脉冲编码(DPCM)1.编码思想提高通信质量必须减小量化误差减小量化级当抽样值范围确定时增加编码位数N增加编码位数可获得大的信噪比在编码位数固定时,减小抽样值的变化范围,也同样可以提高信噪比即:若缩小抽样值(被编码信号)的变化范围,就可以在保证信噪比不变的情况下,减小编码的位数。这就是差值编码的中心思想

二、差值编码模型图在原来的抽样值中减去某一个值,然后对两者之差进行编码。在接收端将解码值再加上发送端所减去的值便可恢复出原始值。

x(n)

+

d(n)

c(n)

d(n)

x(n)

-

x(n)

x(n)

差值编码模型译码+编码+图中:x(n)是原始样值(n时刻的抽样值)x(n)为减去量d(n)=x(n)-x(n)为差值可以看出:(1)、d(n)越小,在相同的编码位数时信噪比越大(2)、收发端必须有相同的减去量x(n)根据前些时刻的样值来预测现时刻的样值,只要传递预测值和实际值之差,而不需要每个样值的编码都传。这种方法就称为DPCM编码。三、DPCM系统1、DPCM系统的概念:举例来说,设以1/Ts的速率对信号S(t)抽样,在时刻前可得到,,

等一组样值.以前面N个样值作为基础对的预测值是不同时刻样值的加权系数:根据相关性情况,可设为常量或变量2、实现预测的横向滤波器(N阶预测器)在每个抽样时刻到来时,滤波器输出将会给出下一个样值的预测值。一般来说,在抽样时刻t=nTs时所得的预测值与真正的样值并不相同。N阶预测器输出:差值脉冲编码就是对真正的样值与过去的样值为基础得到的估值

之间的差值进行量化和编码。3、DPCM系统模型框图量化器预测器预测器下张22图中:x(n)为抽样信号的实际值d(n)=x(n)-x(n)图x(n)=x(n)+d(n)该系统的量化误差可以表示为:e(n)=x(n)-x(n)

=[d(n)+x(n)]-[x(n)+d(n)]

=d(n)-d(n)上式表明:DPCM系统的传输误差就是差值d(n)的量化误差.4、DPCM系统的抗噪声性能分析系统信噪比定义为:SNR===预测器增益量化器的量化信噪比GP<1GP>1预测器有增益加预测器后反而不利GP:DPCM系统相对于PCM系统而言的信噪比增益。量化器产生的信噪比即非预测的PCM系统的量化信噪比提高系统信噪比采取的措施SNR=减小x(n)精确d(n)d(n)=x(n)-x(n)最佳预测量化误差最佳量化小结一.压缩编码的原因二.什么是语音压缩编码三.语音编码分类3.1ADPCM系统3.3.1DPCM一.差值编码思想二.差值编码系统模型图三.DPCM系统1.概念2.预测器模型图3.DPCM系统模型4.DPCM系统的抗噪声性能分析自适应差值脉冲编码调制(ADPCM)1、实质:DPCM+自适应量化和自适应预测固定预测固定量化2、定义能够实现自适应预测功能,或者自适应量化功能或者同时实现两种自适应功能的DPCM系统称为ADPCM系统。3.设计的目的

ADPCM充分利用了语音波形的统计特征和人耳听觉特性,其设计思路主要瞄准了两个目标:a:尽可能去掉语音信号中的冗余信号b:以有效的方式将可用比特分配给语音信号对消除冗余后的信号,从自适应角度进行最佳编码1.1预测的自适应(1).极点预测器1.预测器的结构(用重建信号x(n)进行的预测)+量化器预测器+X(n)X(n)d(n)d(n)编码X(n)P(Z)X(n)a:极点预测器的DPCM方框图b:预测器传递函数P(z)

N阶预测器公式:X(n)=进行Z变换后得:则预测器的传递函数为:为预测系数c:重建滤波器+预测器x(n)x(n)X(n)d(n)H(Z)重建滤波器==E[x(n)]+E[x(n-1)]-2E[x(n)x(n-1)]22=2E[x(n)]-2E[x(n)x(n-1)]2分析:==(2)一阶最佳线性预测求最佳预测系数h1N=1时;X(n)=h1x(n-1)则差值信号为:d(n)=x(n)-h1x(n-1)+E[d(n)]=2=E{[x(n)-h1x(n-1)]}2=E[x(n)]+h1E[x(n-1)]-2h1E[x(n)x(n-1)]22=2-=2求使最小的h1的值2令得最佳预测系数h1opt=p1当N=1时的最大预测增益为:b.二阶线性预测(N=2)d(n)=x(n)-h1x(n-1)-h2x(n-2)=E[d(n)]2=E{[x(n)-h1x(n-1)-h2(n-2)]}2令得最佳h1,h2大于或者等于零故二阶预测器总是优于一阶预测器第三章语言信号压缩编码3.1语言信号压缩编码的基本概念3.2自适应差值脉冲编码调制3.3参量编码3.4混合编码3.5低速率语言压缩编码的应用波形编码的语音质量较高,实现简单,但速率较高占频带较宽,因而将影响通信系统的容量。寻求低速高质的语音编码方法一直是数字通信领域的一个重要研究课题。一个重要概念:对反映语音信号特征的参量进行编码与传输而不是对信号的时域波形本身,即所谓参量编码。可大大降低编码信号的速率。参量编码的基础是语音信号特征参数的提取与语音信号的恢复,这将涉及到语音产生的物理模型。一、语音信号产生模型及其特征参数

人的发音系统由声带、声道及次声门系统构成。声道从声带的开口即声门处开始,直至嘴唇,包括咽喉、口、舌等。声道的截面积是可变化的,它取决于舌、唇等器官的位置。次声门系统由肺、气管等级联,是产生语音的能量来源。简化的发音系统如图所示。

浊音与清音浊音又称为有声音:气流通过声门时,如果声带振动并产生一个准周期的空气脉冲激励声道,就得到浊音。典型的浊音波形如图所示,其中(a)为声门处的气流速度,(b)为通过声道后在唇口处形成的声压波形,浊音波形具有明显准周期性。声带振动的频率称为基音频率fb,周期为基音周期Tp,基音频率fb一般在70~300Hz的范围内,相当于Tp为3~15ms。基音周期Tp是语音信号的主要特征之一。清音又称无声音:声道在某处发生收缩,同时迫使空气以高速冲过一收缩部位而产生湍流,就得到清音。发清音时声带不振动,此时是由湍流建立的宽带噪声源激励着声道。清音波形类似于噪声,如图(c)所示。声道的无损声管模型声道包括口腔和鼻腔,相当于一个非均匀截面的管道。当产生声音的气流顺着这个管道传播时,其频谱特征就由管道的选择性所改变声道的谐振频率称为共振峰频率,简称共振峰,其中第一共振峰就是上面提到的基音频率fb。声道截面面积与声道长度方向之间的依赖关系称为声道的面积函数,声道谐振特性主要取决于其面积函数。实际声道可以用一个级联的无损声管来表示。当选用较多数量的短管级联,使得各管的截面积逼近声道的面积函数时,就可以期望级联声管的谐振频率接近于声道的谐振频率。

由N个等长无损声管级联的系统的传递函数为:70一、语音信号的基本特性语音信号的基本特性语音信号是非稳态信号,特征随时间变化;但在一个很短的时间段内(约5ms--50ms)具有相对稳定的特征,称为准平稳信号。语音信号通常可以分为浊音、清音和混合音。浊音在时域上具有准周期性,在频域上,精细谱具有周期性起伏的谐波特性,谱包络具有共振峰结构。清音类似于随机噪声,其频带较宽。浊音段的信号能量要比清音段的能量高,这一特点可用于判断区分清、浊音。语音产生模型无损声管模型等效为时变线性数字滤波器,滤波器极点对应声道振峰频率,增益参数G和滤波器系数都随时间而变化,且依赖于面积函数。终端等效的概念:当线性系统的一组参数被控制之后其输出就具有所希望的语音特征,而这组参量是和实际语音产生过程有关的。语音信号具有慢变化特征:其激励和声道的特征在10~20ms时间内保持不变。语音产生模型包括激励源、声道和反映嘴唇处声辐射影响的部分,如图所示。

语音特征参数激励源分为浊音激励和清音激励,用浊音/清音开关进行控制。在浊音段,激励由冲激序列发生器和声门脉冲模型G(z)级联构成,前者产生周期为Tp的单位冲激响应,后者为波形成形系统。在清音段,激励模型为一个随机噪声源及控制清音激励强度的增益参数。声道模型为一个时变线性系统,辐射模型为R(z)。语音特征参数有:基音周期、共振峰频率、语音强度、清音/浊音判决及时变滤波器参数等。

特征参量的提取提取方法是基于数字信号处理的理论和技术。语音信号的准平稳特性,即在10~20ms的短时间内认为语音的特征参数不变。这样,可将实际语音信号分成短的时间段,在各个段内分别进行参量提取。简单介绍一下基音提取问题:包括两个方面:首先进行浊音/清音判决,然后再确定浊音段语音波形的周期Tp。浊音/清音判决或称基音检测,就是判决一个时间段是浊音段还是清音段,这就要利用浊音和清音在时域和频域上的差别。浊音信号具有准周期性,频谱有峰值,即基音及其谐波。浊音信号有较强的相关性。清音信号的波形近似于噪声,没有准周期性,其频谱没有明显的峰值,时域中也不存在相关性。基音提取的方法很多,可分为三类。

利用语音信号的时域特征,如自相关函数法;

利用语音信号的频域特征,主要是利用浊音频谱的峰值特征;

综合利用语音信号频域与时域特征,如线性预测技术等。

76一、语音信号的基本特性语音信号的基本特性语音信号是非稳态信号,特征随时间变化;但在一个很短的时间段内(约5ms--50ms)具有相对稳定的特征,称为准平稳信号。语音信号通常可以分为浊音、清音和混合音。浊音在时域上具有准周期性,在频域上,精细谱具有周期性起伏的谐波特性,谱包络具有共振峰结构。清音类似于随机噪声,其频带较宽。浊音段的信号能量要比清音段的能量高,这一特点可用于判断区分清、浊音。77全极点数字滤波器时变数字滤波器---线性预测(LP)综合滤波器全极点数字滤波器的输出(LPC差分方程)

输出值s(n)可以用当前的输入值Gx(n)和过去输出样值的加权和来表示二、语音信号的产生模型78产生语音信号s(n)的参量

清/浊音类型;基音周期TP;代表声道的时变滤波器的系数{aj}及滤波器阶数p;增益系数G;说明:根据语音信号慢变化的特点,可以每隔10-30ms左右预测一次上述各参数的值。即以每10-30ms为一帧传送一次参数样值的编码,并不传送话音样值的编码,因此比特速率低得多。二、语音信号的产生模型79清浊音判决滤波器参数分析Ga1ap量化编码器U/V解码器Ga1apTPU/V激励信号产生合成滤波器信道基音周期提取TPs(n)预加重加窗s(n)LPC声码器的原理框图三、LPC声码器的工作原理801、全极点数字滤波器参数的确定阶数P

模型阶数P的选择,应该从频谱估计精度、计算量、存 储量等多方面综合进行考虑。

P取很大值时,可以获得很好的信号谱估计,但增加 的计算量和存储量代价太大。语音谱估计时主要关心 的是声道的谐振特性,P值过大,估计的谱中保留许 多信号谱细节,反而使共振峰分析效果变坏。阶数P的经验值在8--12之间。通常采用10个极点的滤 波器,模型就能正确描述共振峰特性和谱的基本形状。三、LPC声码器的工作原理81滤波器系数{aj}三、LPC声码器的工作原理

设计的滤波器系数{aj}就是使得误差e(n)在某个预定的准则下最小,通常是根据最小均方误差准则求解{aj}在LPC模型中,信号s(n)的估计误差e(n)为:82三、LPC声码器的工作原理

在语音信号保持平稳的短时段内,令E对aj的偏导数为零,得到:即:其中:根据最小均方误差准则通过求解P个方程来得到P个未知数aj83三、LPC声码器的工作原理2、基音检测 根据语音信号的特性检测基音周期的方法有:利用时域特性检测;利用频域特性检测;同时利用时域和频域特性检测;这里只介绍利用时域特性检测84

基本原理:利用语音信号的时域波形的相似性,通过比较原始信号和它的移位信号的相似程度来寻找基音周期。如果移位的距离等于基音周期,则两个信号之间将具有最大的相似性。常用方法:短时自相关函数和短时平均幅度差函数AMDF。利用时域特性检测三、LPC声码器的工作原理85

设sw(n)是一段加窗的语音信号,它的非零区域为:n=0N-1。

s(n)语音输入信号,w(n)是加权窗,一般取矩形窗或哈明窗。三、LPC声码器的工作原理基于求短时自相关函数的基音周期估计86三、LPC声码器的工作原理

sw(n)的自相关函数称为语音信号s(n)的短时自相关函数,用Rw(l)表示。

如果s(n)是浊音,其短时自相关函数Rw(l)呈现出明显的周期性,其周期等于s(n)的基音周期。基音周期就是第一个峰值点到零点之间的距离。87三、LPC声码器的工作原理88设sw(n)是一段加窗的语音信号,它的非零区域为:n=0N-1。

sw(n)的短时平均幅度差函数rw(l)定义为:三、LPC声码器的工作原理基于短时平均幅度差函数(AMDF)的基音周期估计89三、LPC声码器的工作原理 如果s(n)是浊音,其AMDF也呈现出明显的周期性,其周期等于s(n)的基音周期。 与Rw(l)不同的是在基音周期的各个整数倍点上,rw(l)具有谷值而非峰值,要通过寻找最深谷值点的位置来确定基音周期。90周期性语音信号短时自相关函数和AMDF示例三、LPC声码器的工作原理91两种基音周期估计方法比较AMDF方法计算简单,只需减法和取幅度运算,不需要乘法运算。AMDF的动态范围较小,易于算法的定点实现。AMDF在基音周期点上,它的谷点锐度较之短时自相关函数的峰点锐度更尖锐,估值精度更高、更稳健。但信号不够平稳时,这个特点不明显。短时自相关函数法的特点是对相位不敏感,在信号有相位失真时能较好地检测基音。三、LPC声码器的工作原理92

窗长

为了使较好地反映sw(n)的周期性,窗长N至少应大 于两个基音周期,一般取长度为10-30ms。

克服共振峰特性造成的干扰

由于共振峰的干扰,会出现Rw(l)的第一最大峰值点或 rw(l)的第一最深谷值点与基音周期不一致的情况,当 基音周期性和共振峰周期性混在一起时,检测出来的 周期可能是NpNf(Np是基音周期,Nf是第一共振峰的 周期)。三、LPC声码器的工作原理讨论93克服上述干扰有两种方法:用低通滤波器(60Hz900Hz)对语音信号进行滤波,去除大部分共振峰的影响,基音频率最高约450Hz,滤波后可以保留其一、二次谐波。先对语音信号进行非线性变换(例如“中心削波”),然后再求Rw(l)或rw(l),这样可以明显地改善基音估计的效果,基音周期点上,峰值点或深谷值点比削波前得到的要尖锐、突出。三、LPC声码器的工作原理94产生语音信号s(n)的参量

清/浊音类型;基音周期TP;代表声道的时变滤波器的系数{aj}及滤波器阶数p;增益系数G;说明:根据语音信号慢变化的特点,可以每隔10-30ms左右预测一次上述各参数的值。即以每10-30ms为一帧传送一次参数样值的编码,并不传送话音样值的编码,因此比特速率低得多。二、语音信号的产生模型95清浊音判决滤波器参数分析Ga1ap量化编码器U/V解码器Ga1apTPU/V激励信号产生合成滤波器信道基音周期提取TPs(n)预加重加窗s(n)LPC声码器的原理框图三、LPC声码器的工作原理96

对于加窗的语音信号sw(n),当窗的起点n=0时,语音信号sw(n)的短时能量用E

表示,短时平均幅度用M

表示,计算公式如下:三、LPC声码器的工作原理3、浊音、清音及无声的判别

根据语音信号的短时能量、短时平均幅度和短时过零率来判断当前帧的语音信号是浊音、清音,还是无声。97

语音信号的过零率用Z

表示,它表示一帧语音信号中波形穿过横轴(零电平)的次数。它可以用相邻两个取样改变符号的次数来计算:三、LPC声码器的工作原理98

浊音(V)的M最大而Z

最低,当采样率为8kHz,帧长为20ms时,Z

的平均值约为20;清音(U)的M

居中而Z

最高,当采样率为8kHz,帧长为20ms时,Z

的平均值约为70;无声(S)的M

最低而Z

居中。判断当前帧是浊音、清音、无声的依据如下:三、LPC声码器的工作原理99三、LPC声码器的工作原理

在S、U、V三种情况下,短时平均幅度M和短时过零率Z的条件概率密度函数示意图通道声码器通道声码器发送端通过若干个并联的通道对语音信号进行粗略的频谱估计接收端产生的信号其频谱与发送端所规定的频谱相匹配。滤波器组队频带的划分不均匀,低频带的带宽窄,高频段的带宽宽主要缺点:需要进行基音检查和清浊音的判决,精确性较差。通道数量有限,造成信号频谱畸变共振峰声码器共振峰声码器对整体的语音信号进行分析,提取信号中的共振峰的位置、幅度、带宽等参数,构成对应清音和浊音的两个声道滤波器。与通道声码器相比,共振峰声码器合成的语音质量较好,而且比特率可以压缩的更低104四、LPC10声码器复习:LPC声码器的工作原理清浊音判决滤波器参数分析Ga1ap量化编码器U/V解码器Ga1apTPU/V激励信号产生合成滤波器信道基音周期提取TPs(n)预加重加窗s(n)1051、LPC10声码器概况

LPC-10声码器采用10阶线性预测分析滤波器,编码速率为2.4kb/s,被美国在1981年作为联邦标准FS-1015用于窄带保密通信。其语音质量清晰可懂,但抗噪声的能力和自然度尚有欠缺。四、LPC10声码器106四、LPC10声码器2、LPC10编码器低通滤波A/D变换预加重计算分析相位基音分析存储器低通滤波器清/浊检测基音及清/浊校正2阶逆滤波AMDF基音提取V/UV数字语音出并变串及同步产生误差校正的映射参数编码基音周期预测器分析存储器计算RMS计算预测参数2帧参数存储器2帧参数存储器RMSRC107LPC-10编码器的特点(1)采样采样率8kHz,每个样本量化为12bit得到数字化语音,每180个样点分为一帧(22.5ms),以帧为处理单元。四、LPC10声码器 预加重的目的是加强语音谱中的高频共振峰,使语音短时谱以及线性预测分析中的余数(残差)频谱变得更为平坦,从而提高了谱参数估值的精确性。(2)预加重在提取声道参数之前,先进行预加重(高频提升)处理,预加重滤波器的传输函数Hpw(z)为:108传输函数Hpw(z)的幅频和相频特性四、LPC10声码器010002000300040005000600070008000-100-50050100Frequency(Hertz)Phase(degrees)010002000300040005000600070008000-30-20-10010Frequency(Hertz)MagnitudeResponse(dB)109

(3)声道滤滤器参数RC

该编码方案中采用协方差法计算预测系数{ai},i=1,,P,P=10。预测系数不适于直接量化,因为它的微小变化会导致LP综合滤波器极点位置很大的变化,很可能造成滤波器不稳定,为了保证滤波器的稳定性,要求有相当高的量化精度(每个系数需要8—10bits)。

四、LPC10声码器110四、LPC10声码器

为了降低量化比特数,采用了在数学上完全等价的P个反射系数(RC:ReflectionCoefficient){ki},i=1,,P代替预测系数进行量化编码。滤波器稳定的条件是参数ki满足下式:

此条件在量化时容易保证。可以通过Levinson-Durbin算法求得部分相关系数(PartialCorrelation),部分相关系数与RC在理论上是互为相反数。111

(4)增益RMS

增益RMS由下式计算:Si是经过预加重后的数字语音信号样本,N是分析帧长度。对于浊音帧,其分析帧长取为130个样本以内的基音周期整数倍值;对于清音帧,其分析帧长取为长度为22.5ms的整个帧的中点为中心的130个样点。四、LPC10声码器112清/浊音判决是利用模式匹配技术,基于低带能量、AMDF函数的最大值与最小值之比、过零率三个因素判别。最后对基音值、清浊音判决结果用动态规划算法,在三帧范围内进行平滑和错误校正,从而给出当前帧的基音周期、清浊音判决参数V/U。(5)提取基音周期和检测清/浊音采用基于短时平均幅度差函数(AMDF)法提取基音周期。四、LPC10声码器113

(6)参数编码

对10个反射系数RC、增益RMS、基音周期、U/V判决标志以及同步信号共编码成每帧54bits,帧长22.5ms,因此编码速率为2.4kb/s。各比特分配如下表:四、LPC10声码器114四、LPC10声码器浊音清音浊音清音基音周期/清浊音77K(6)4RMS55K(7)4同步11K(8)4K(1)55K(9)3K(2)55K(10)2K(3)555433K(4)55误差校正020K(5)4115四、LPC10声码器3、LPC10译码器串/并变换同步检测误差检测校正编码参数解码帧块到基音块转换与插值输出存储器计算增益综合器清/浊音开关去加重D/A低通滤波合成语音出RMSRC基音周期V/UV反射系数转换成预测系数基音产生噪音产生116LPC-10声码器的缺点(1)采用过分简化的二元激励,合成的语音自然度较低;(2)稳健性(Robustness)差。(3)LPC-10的语音谱共振峰的位置以及带宽估值有时会产生很大的失真,从而影响语音的质量。当浊音的基音频率接近谱包络中的第一共振峰时,LPC谱估计在共振峰位置上出现极其尖锐的峰值(估计失真),使得相应得在合成语音中会出现尖峰或较大的毛刺,影响语音质量。四、LPC10声码器117

采用混合激励代替简单的二元激励,使合成语音的质量得到改善。激励脉冲加抖动:对每个基音周期的长度乘上一个0.75~1.25之间均匀分布的随机数以改善语音的自然度。4、LPC-10e声码器

LPC-10e声码器采用针对LPC-10声码器的缺点加以改进的算法,并能与LPC-10声码器兼容,用于美国第三代保密电话。四、LPC10声码器(1)激励源的改善118(2)基音提取方法的改进

LPC-10提取基音采用的是AMDF,它的显著特点是不需要乘法,计算较小。

LPC-10e中采用LPC的残差信号或语音信号的短时自相关函数,利用动态规划的平滑算法来更准确地提取基音周期。四、LPC10声码器119(3)声道滤波器参数量化的改进

线谱频率LSF(LineSpectrumFrequency),或称为线谱对(LineSpectrumPair)是数学上与线性预测系数{ai}(i=1,,P)和反射系数{ki}(i=1,,P)完全等价的另一种表示方式。LSF参数集{i}(i=1,,P)都在单位圆上,它们在频域描述全极点滤波器H(Z)。LSF在数学上有良好的量化特性。

四、LPC10声码器120四、LPC10声码器在求取LSF参数及量化过程中,如果保持LSF参数的有序有界性质,即:就可以保证全极点滤波器H(Z)是稳定的。LSF参数有序有界性121

LSF误差相对独立性 某个频率点的LSF偏差只对该频率附近的语音频谱产生影响,而对其它LSF频率上的语音频谱影响不大,这有利于LSF的参数量化和插值。四、LPC10声码器122LSF参数的量化在标量量化时,通过设计最佳的LSF参数的非均匀标量量化器,可以用较少的量化比特达到较高的量化精度。例如:对10个LSF参数,根据每个参数所起的作用,分配的量化比特数为:3、4、4、4、4、3、3、3、3、3,共34bits。所得的合成语音质量与用41bits对反射系数k参数量化得到的合成语音质量相比较,在听觉上没有任何差别,两者的波形完全吻合,计算量化畸变约为1dB。四、LPC10声码器123四、LPC10声码器LSF参数的量化(续)

在矢量量化时,将10个LSF合并成(4,6)两个矢量,每个矢量量化为12bits,共24bits,可以得到平均谱畸变为1dB的“透明”矢量量化。第三章语言信号压缩编码3.1语言信号压缩编码的基本概念3.2自适应差值脉冲编码调制3.3参量编码3.4混合编码3.5低速率语言压缩编码的应用3.4.1混合编码混合编码结合了波形编码和参量编码的优点,采用线性技术构成声道模型。不止传输预测参数和清浊音信息,而且也同时传输预测误差信息。实现混合编码基本方法是以参量编码特别是线性预测编码LPC为基础的,

合成分析法(AbS,Analysis-By-Synthesis)的基本思想:用合成来指导分析。

将合成器引入编码系统,使之与分析器相结合,在编码器中产生与译码器完全一致的合成语音,将此合成语音与原始语音相比较,根据一定的误差准则调整计算分析器的各个参数,使两者之间的误差达到最小。然后将误差最小时的语音参数传送到接收端,得到高质量的合成语音。合成分析法在LPC基础上采用AbS的编码方法。AbS-LPC编码器包括三个基本部分:

时变滤波器(包括LPC和基音滤波器)

基于感知的最小化处理;

激励信号;

AbS-LPC编码器AbS-LPC编码器与译码器AbS-LPC编码器激励信号产生编码端基音合成滤波器LPC合成滤波器解码端输出语音误差最小优化的激励基音合成滤波器LPC合成滤波器+误差-+原始语音AbS-LPC编码器合成分析编码方法的特点:

发端是一个闭环系统;

对激励信号没有明显的分类,由闭环系统选择与 原始语音误差最小的激励信号,使得合成语音质量 比传统的LPC声码器好得多。1、时变滤波器 时变滤波器由LPC合成滤波器和基音合成滤波器级连组成。

LPC合成滤波器实现语音的短时预测;基音合成滤波器实现语音的长时预测。AbS-LPC编码器

在语音谱中,能量较高的频段(如共振峰处)的噪声相对于能量较低频段的噪声不易被感知,在度量原始语音与合成语音之间的误差时可以计入这一因素,在语音能量高的频段,允许二者的误差大一些,反之则小一些,为此在计算二者误差时,引入频域感觉加权滤波器W(f)。

2、感觉加权滤波器

感觉加权滤波器:是根据人的听觉特性对预测残差信号进行处理,以产生较好的主观听觉效果。AbS-LPC编码器3、激励信号源

激励信号是AbS-LPC模型的输入,包含不能由时变滤波器谱模型表征的残差结构,如超出长时线性预测范围的相关性就不能由长时线性预测包含,激励信号还包括不能用确定方法有效表征的随机结构。采用AbS方法的声码器都用激励信号源的种类命名。例如:(1)多脉冲线性预测编码(MP-LPC)(2)规则脉冲激励—长时预测编码(RPE-LTP-LPC)(3)码本激励线性预测编码(CELP)

AbS-LPC编码器语音的合成分析编码合成分析法(ABS)的基本思想是用合成来指导分析。将合成器引入编码瑞,使之与分析器相结台,在编码器中产生与译码器端完全一致的合成语音,将此合成语音与原始语音相比较,根据一定的误差准则调整计算各个参数,使得二者之间的误差达到最小。将误差最小时的系统参数传送到接收端,可以合成较高质量的语音。★

AbS—LPC编码方法(1)缓存一帧语音采样值.通道LPC分析得到一组LPC系数。(2)通过LPC逆滤波计算不量化的残差信号。(3)由于LPC分析帧通常较长,确定激励信号时需要把一帧分成几个子帧。(4)对每个子帧计算基音滤波器(长时预测器)参数。(5)将基音和LPC合成滤波器级联起来,选择最佳激励信号。(6)接收端根据收到的码字或数据求得最佳激励信号,通过级联滤波器产生与原始语音误差最小的合成语音。

多带激励(MBE)和混合激励线性预测(MELP)编码多带激励(MBE)语音编码

混合激励线性预测(MELP)编码

★多带激励(MBE)语音编码MBE编码算法首先由美国的MIT大学林肯实验室的P.W.Griffin和J.S.Lim于1984年提出的。算法的关键是提出了一种基于频域的、新的语音信号产生模型——多带激励模型,进而提高了合成语音的自然度。★

MBE语音模型

MBE模型与传统的声码器模型的突出区别在激励模型的表示上。传统的声码器模型.整个频带不是清音就是浊音.激励谱由全频带的清浊音判决并由基音周期表示。这种描述方法不能反映语音的复杂构成,合成语音自然度差。MBE模型,将整个频带以基音谐波为中心.以基音频率为带宽划分为若干频带,在每个频带根据频谱特征进行清浊音判决,形成多带激励谱。整个激励谱由基音频率和它的谐波以及一组清浊音判决参数表示,能较好地反映语音特征。★混合激励线性预测(MELP)编码MELP算法的基本特点:采用了混合激励的形式代替基本LPC模型的二元激励形式.将周期脉冲激励源和白噪声源混合作为激励信号解决了二元激励模式不能准确描述过渡帧和弱浊音帧的问题使合成激励信号谱与残差信号谱更加匹配吸取MBE模型的思想,对激励信号进行分带处理MELP声码器的质量大大超过LPC—10声码器,是一种较理想的低速率语音编码算法

MELP简要框图1.分析部分●基音提取分为几个步骤:首先是用自相关法进行整数基音初估,得到整数基音初值;然后利用内插公式提高输入基音值的准确度。●分带话音分析首先将输入语音信号滤成5个子频带的信号,计算5个子带的分带话音强度井以此为依据进行分带清/浊音判决。●线性预测分析用L—D算法进行自相关分析。对线性预测系数的量化使用多级矢量量化技术。●计算残差谐波谱时,首先使用量化后的LSF参数计算线性预测系数,并用它产生残差信号,对其进行FFT变换。利用频谱峰点检测算法找到与前10次谐波对应的傅里叶系数输出。2.合成部分●合成部分仍然采取LPC合成的形式,不同的是激励信号的合成方式和后处理。●MELP算法中,混合激励为合成分带滤波后的脉冲与噪声激励之和。●脉冲激励是用长度为—个基音周期的残差谱博里叶系数的离散博里叶反变换计算出来。●噪声激励是首先产[0,1]间均匀分布的白噪声源,再对其进行电平调整和限幅。●脉冲和噪声源各自滤波后加在一起合成混合激励。●混合激励信号合成后经自适应谱增强滤波器处理,用于改善共振峰的形状。●随后,激励信号进行LPC合成得到合成语音。3.参数量化编码部分MELP算法的参数包括LPC参数、基音周期、模式分类参数、分带混合比例、残差谐波谱参数和增益。MPLPCRPELPCCELP★数字音频编码标准★话音音频编码标准

1.G.711标准

CCITT(国际电报电话咨询委员会)于1972年对话音频谱的模拟信号用脉冲编码调制(PCM)编码时的特性进行了规范●速率为64kb/s●适合于电话质量的语言信号编码(频率范围300Hz~3.4kHz)2.G.721标准●

G.721标准是CCITT1988年制订的●速率为32kb/s●采用自适应差分脉码调制(ADPCM)算法●适合于中等质量音频信号编码,同时也应用于调幅广播质量的音频信号编码3.G.722标准

●G.722标准是CCITT1988年制订的,●该标准规范了一种音频(50~7000Hz)编码系统的特性●速率为64kb/s●采用子带自适应差分脉码制(SB-ADPCM)算法●具有数据插入的功能●适合于调幅广播质量的音频信号编码,也适合于需要存储大量高质量音频信号的多媒体系统●例如视听多媒体、会议电视等具有调幅广播质量的音频G.722编/解码器原理框图(a)发端编码器;(b)收端解码器4.G.728标准

●速率为16kb/s●采用短时码本激励线性预测编码(LD-CELP)算法●适合于高质量的语音信号编码5.G.729标准

●G.729标准提出了一种采用共轭结构代数码激励线性预测(CS―ACELP)方法●是以8kb/s速率对语音信号编码的算法●它是由ITU―T于1995年制订的●该算法应用在多媒体通信和IP电话等领域

CS―ACELP编码器原理★

GSM标准由欧洲数字移动特别工作组制订速率为13kb/s采用长时线性预测规则码本激励(RPE-LTP)算法适合于移动通信的低速语音编码编码净比特率为13Kb/s,加上信道抗干扰编码后为22.8Kb/s,再加上管理信息等,信道传送速率为24.7Kb/sRPE-LTP方案由预处理、LPC分析、短时分析滤波、长时预测和规则激励码编码五大部分构成GSM标准的长时线性预测规则码本激励(RPE-LTP)编码原理图●

方案由预处理、LPC分析、短时分析滤波、长时预测和规则激励码编码五大部分构成GSM的RPE-LTP方案的一帧中各参数编码比特分配如表,每帧20ms,共260bit量化编码,所以净编码速率为13kb/s★

CTIA标准●美国数字移动通信标准●速率为8kb/s●

采用矢量和激励线性预测(VSELP)算法,压缩率大,计算量适中●同GSM的13kb/s标准一样,应用在低速语音编码领域★

NSA标准●美国国家安全局标准●速率为4.8kb/s和2.4kb/s●分别采用码本激励(CELP)和线性预测(LPC)编码方案。★高保真立体声音频编码标准

1.MPEG―1音频编码标准●是国际上第一个高保真立体声音频编码标准●以MUSICAM(MaskingPatternUniversalSubbandIntegratedCodingAndMultiplexing)为基础的三层编码结构●根据不同的应用要求,使用不同的层来构成其音频编码器2.MPEG―2音频编码标准●在MPEG―1音频编码方案,MUSICAM只能传送左、右两个声道●MP

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论