版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章语音编码语音编码概述波形编码参数编码混合编码21.语音编码概述
语音编码又分信源编码和信道编码。本章主要介绍信源编码。 语音信号编码(信源编码)与语音信号压缩,实际上是同一技术两个名称。其目的是在给定编码速率条件下,得到尽量好的重建语音质量(或称编码质量),同时应减小编解码延时以及算法的复杂程度。其中,编码质量、编码速率、编解码算法的复杂程度、编解码延时是相互关联的四个主要因素。3语音信号编码系统的应用编码-存储-回放系统(数字语音录放)编码-传输-解码系统(数字语音通信)
4语音信号压缩(编码)方法分类有损压缩,又分成如下三类:波形编码全频带编码(如PCM、ADPCM)、子带编码(简写SBC)、变换域编码等。参数编码(声码器)在语音信号发送端提取语音的特征参数,在接收端以某种最小的失真合成原始信号。如线性预测声码器(简写LPC)。混合编码波形编码参数编码的结合。如如矢量和激励线性预测(简写VSELP)、多脉冲激励线性预测(简写MP-LPC)、码本激励线性预测(简写CELP)、多带激励(简写MBE)等。无损压缩:如统计编码(霍夫曼编码、算术编码)、游程编码等。5衡量语音编码性能的主要因素
A.编码质量客观评定方法。如信噪比、加权信噪比、平均分段信噪比等。适用于速率较高的波形编码类型的算法。主观评定方法。常采用平均意见得分(MeanOpinionScore,简称MOS得分),判断韵字测试(DiagnosticRhymeTest,简称DRT得分),判断满意度测量(DiagnosticAcceptabilityMeasure,简称DAM得分)等。主观评定方法因符合人类听觉对语音质量的感觉,目前得到广泛应用。6平均意见得分(MOS)评分质量尺度妨碍尺度5
优不察觉4
良好刚察觉但不可厌3
一般察觉及稍微可厌2
差可厌(但不令人反感)1
很差极可厌(令人反感)
在数字语音通信中,MOS分4.0~4.5为高质量数字化语音,达到长途电话网的要求,接近于透明信道的编码,也称为网络质量。MOS分3.5分左右称为通信质量,这时重建话音质量有所下降,但不妨碍正常通话,可以满足多数话音通信系统的使用要求。MOS分为3.0分以下常称为合成语音质量,是指一些声码器合成语音所能达到的质量,一般具有足够高的可懂度,但是自然度以及讲话人的确认方面不是很好。7判断韵字测试(DRT)判断韵字测试是反映话音清晰度或者可懂度的一种测试方法,主要用于低速率语音编码的质量测试。这种测试方法使用若干对同韵母进行测试,测试中,让受试者每次听到一对韵母中的某个音,然后让其判断听到的音是哪个字,全体试验者判断正确的百分比就是DRT得分。通常认为DRT为95%以上时清晰度为优,85%-95%为良,75%-85%为中,65%-75%为差,65%以下为不可接受。实际通话中,由于整句中有较多的冗余度,即使个别字听不清楚,也能理解整句话的原因,当清晰度为90%时,整句话的可懂度接近于100%。测试满意度测量(DAM)
测试满意度测量(DAM)是对话音质量的综合评估,它是在多种条件下对话音质量可接受程度的一种度量,也是采用百分比评分。8提高语音编码质量的主要途径利用语音信号的冗余度语音信号样点间的相关性幅度分布的不均匀性
利用人耳的听觉特性听觉的掩蔽效应听觉对幅度和频率的感知特性9衡量语音编码性能的主要因素
B.编码速率
单位为“比特/秒”(b/s),一般以I
表示;或单位为“比特/样点”,一般以R
表示。I
和R
通过采样速率fs
联系起来。即
I=R·fs
式中,R
越高,语音质量越高,但对传输带宽的要求也越高。
在波形编码中,为了取得高质量的重建话音,一般取R>=2
在参数编码中R可以低到0.25甚至0.1以下。信号类型采样频率(KHz)编码速率(Kbps)频率范围(Hz)电话82.4-64300-3400激光唱盘CD44.1>70020-20000数字广播及数字磁带48>70020-2000010根据编码速率,语音编码可以分成如下几类:高速率32Kbps以上中高速率16Kbps——32Kbps中速率4.8Kbps——16Kbps低速率1.2Kbps——4.8Kbps极低速率1.2Kbps以下11衡量语音编码性能的主要因素
C.编解码的复杂程度
与语音编码的话音质量及硬件实现成本有关,一般来说,增加编码算法的复杂度会增加话音的质量。
D.编解码延时
在实时通信中引起延时和回声,必须考虑。当延时超过100ms时,说话者就会听到自己的回声。122.语音波形编码
脉冲调制编码(PulseCodingModulation,PCM)
均匀量化PCM
非均匀量化PCM
自适应量化PCM(AdaptivePCM,APCM)
差分脉冲编码(DifferencePCM,DPCM)自适应差分脉冲编码(ADPCM)
增量调制(DeltaModulation,DM)和自适应增量调制子带编码(Sub-bandcoding,SBC)
变换域编码13脉冲调制编码(PCM)PCM是最简单的波形编码方法,它仅仅是对输入信号进行采样和量化典型的窄带话音带宽限制在4kHz以下,采样频率是8kHz
量化有均匀量化和非均匀量化两种方式PCM编码原理图采样14均匀量化的信噪比当语音信号的采样率为8KHz,采用12bit/样本(B=12)量化,SNR≈65dB,编码速率为8*12=96Kbps均匀量化采样输入样本值x(n)量化输出数据y(n)非均匀量化采样输入样本值x(n)量化输出数据y(n)15非均匀量化的基本思想对小信号采用小的量化间隔,对大信号采用大的量化间隔,这样可以用较少的位数编码。对大信号来说,虽然绝对量化误差较大,但是因为:大信号出现的机会不多;信噪比(相对误差)与小信号是一致的;人耳对信号幅度的感知灵敏度是成对数关系所以对总的话音质量影响不大16µ律压扩(µ-lawcompand)与A律压扩 µ律(µ-Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中。x(n)
为输入信号,一般规格化为-1<=x(n)<=1,则Xmax=1μ为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比,μ=0则不压缩,一般取100<=μ<=500。17原始语音µ=50µ=200µ=500µ-law语音编码结果18xy=lin2mu(x)z=mu2lin(y)x-z19A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中对于采样频率为8kHz,样本精度为13位、14位或者16位的输入信号,使用μ律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本的精度为8位,输出的数据率为64kb/s。这个数据就是CCITT推荐的G.711标准(A=87.6)。设Xmax=120自适应脉冲编码调制是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。改变量化阶大小的方法有两种:一种称为前向自适应(forwardadaptation),另一种称为后向自适应(backwardadaptation)。APCM比一般的非均匀量化PCM能提高信噪比4-6dB自适应脉冲调制编码(APCM)21前向APCM前向自适应是根据未量化的样本值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息(sideinformation)传送到接收端。后向APCM后向自适应是从量化器刚输出的过去样本中来提取量化阶信息。由于后向自适应能在发收两端自动生成量化阶,所以它不需要传送边信息。22DPCM采用预测编码的方式传输信号,所谓预测编码就是根据过去的信号样值来预测下一个信号样值,并仅把预测值与现实样值的差值加以量化,编码后进行数字信号传输。在接收端经过和发送端相同的预测操作,低通滤波器便可恢复出与原始信号相近的波形。其依据是语音信号相邻样本间有很强的相关性(冗余度高),因此相邻样本的差值远小于样本值本身。DPCM是采用固定预测器与固定量化器的差值脉冲调制,它是分析ADPCM工作原理的基础。 差分脉冲编码(DPCM)23DPCM的原理图误差信号会逐渐累积,导致可能语音出现严重失真24实际DPCM的结构图误差信号不再累积25采用LPC编码的DPCM的结构图编码器P(z)解码器P(z)对于相同的量化比特,DPCM可以获得比PCM更高的信噪比,1阶DPCM信噪比提高约5dB.在相同的信噪比情况下,DPCM的比特率比PCM小,1阶DPCM减少1bit,3阶DPCM减少2bit,编码速率由64Kbps降到48Kbps26ADPCM综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。它的核心思想是:用过去的样本值估算下一个输入样本的预测值,线性预测P(z)的系数ai可变,预测误差d(n)更小,量化的电平间隔可以更小,从而减小量化误差使实际样本值和预测值之间的差值。利用自适应的思想改变量化阶的大小,即用小的量化阶去编码小的差值,使用大的量化阶去编码大的差值;自适应量化可以进一步减小量化误差。接收端的译码器使用与发送端相同的算法,利用传送来的信号来确定量化器和逆量化器中的量化阶大小,并且用它来预测下一个接收信号的预测值。ADPCM已经形成国际标准:如G.721、G.723,以及G.726G.726提供4种码率:40、32、24、16Kbps,其语音质量相当于64Kbps的PCM编码 自适应差分脉冲编码(ADPCM)27ADPCM系统编码器原理图每接收到一个语音信号,它根据语音信号的PCM编码按照一定算法得到下次信号的预测值。把本次的语音信号的PCM编码值与上次的预测值进行对比,得到一个信号的差值,这个差值可以用很少的位长来表示。通过自适应量化技术,根据不同的编码信号自动调整量化的步长,减小量化误差。28G.72632kb/sADPCM-编码器在编码器中先将输入的8位PCM码转换为14位线性码同预测信号相减产生差值信号对差值信号进行自适应量化产生4比特的ADPCM代码c(n)一方面把c(n)送给解码器,另一方面利用c(n)进行本地解码,得到量化后的差值信号,同预测信号相加得到重建信号。自适应预测器采用二阶极点,六阶零点的零极点预测器为了使量化能适应语音、带内数据以及信令等具有不同统计特性以及不同幅度的输入信号,自适应要依据输入信号的特性自动改变自适应数据参数来控制量阶,这一功能由量化器定标因子自适应、自适应速度控制、音信号和转换检测等功能单元完成。音信号和转换检测器
xi(n)c(n)xr(n)xe(n)k2(n)k1(n).目的:在不显著损失语音质量的前提下,将数码率由64Kbps降到32Kbps29G.72632kb/sADPCM-解码器解码器的解码过程实际已经包含在编码过程中,但是增加了线性码到PCM码的转换和同步编码调整单元。同步编码调整的作用是防止多级同步级联编码工作时产生误差积累,以保持较高的转换质量。c(n)xr(n)xp(n)xd(n)xc(n)
k1(n)y(n)30G.726ADPCM编译码器的输入信号是G.711PCM代码。G.711PCM码采样率是8kHz,每个代码用8位表示,因此它的数据率为64kb/s。而G.726ADPCM的输出代码是“自适应量化器”的输出,该输出是用4位表示的差分信号,它的采样率仍然是8kHz,它的数据率为32kb/s,这样就获得了2∶1的数据压缩。313.语音参数编码与混合编码
波形编码的目标是再现语音信号的时域波形,在32Kbps或之上的编码速率下能够得到非常好的语音质量,也可以在24Kbps或16Kbps速率下得到可接受的通话质量。但是很难进一步降低编码速率。参数编码的目标是构造语音的生成模型,发送端传送该模型的参数,在接收端通过该模型来合成还原语音。可以实现很低的编码速率(低至2.4Kbps)。混合编码综合利用了参数编码速率低和波形编码音质好的优点,实现了在中低速率下的较高质量的合成语音。32参数编码的基本思想是利用语音信号生成的声学模型,通过信号分析技术获得关于该模型的频谱包络、基音周期、清浊音判断等的相关信息,在接收端通过这些信息来合成还原语音信号三种参数编码器通道声码器共振峰声码器
线性预测(LPC)声码器33线性预测(LPC)声码器输入语音线性预测分析器编码器基音检测器解码器线性预测合成器激励信号产生器合成语音LPC声码器原理图发送端接收端基于全极点模型的LPC分析编码参数:LPC参数、基音周期、增益、清浊判断不对预测残差信号进行量化和传输(因此无法得到原来的波形)34LPC参数的编码10阶的全极点模型LPC分析LPC参数的选择预测系数ai
量化误差容易导致系统不稳定(合成滤波器的极点在单位圆外)
一般不直接对预测参数编码传输
反射系数ki
可以保证合成器的稳定,但是不同的ki值对量化误差的敏感度不一样,需要采用非均匀量化用于LPC-10声码器线谱对参数LSP
是最常用的LPC编码参数量化误差相对独立,即单个LSP参数的量化误差只会影响其所对应的共振峰的频谱包络,不会影响真个频谱ki和LSP都可以从ai中很容易求得35LPC声码器的相关标准1976年美国军方确定LPC-10作为2.4Kbps速率编码器的推荐编码方式1985年美国官方接受LPC-10作为联邦标准(FS-15)
速率极低合成语音质量很差、很不自然,主要是因为在清浊音的判断以及基音周期的提取上不够准确,合成激励源信号和原来的LPC预测误差信号相差较大1986年美国第三代保密电话装置(STU-III)采用了LPC-10的增强型,LPC-10e
改善了激励源:混合激励代替LPC-10中的二元激励;激励脉冲加抖动处理;多脉冲激励改进基音提取算法采用LSP代替ki36原始语音低通滤波100~3600HzA/D变换8KHz,12bits预加重计算分析相位基音分析存储器低通滤波器清/浊音检测2阶逆滤波AMDF基音提取基音及清/浊音校正预测器分析存储器计算RMS计算预测系数2帧参数存储器2帧参数存储器参数编码误差校正和映射并变串及同步产生编码语音输出pitchV/UVRMSRCLPC-10的编码器框图原始语音经过一低通滤波器之后,输入A/D转换器中,以8KHz速率采样得到数字化语音,然后每180个采样分为一帧(22.5ms),以帧为处理单元,提取语音特征参数并加以编码传送。A/D变换后输出的数字化语音,经低通滤波,2阶逆滤波后,再用平均幅度差函数(AMDF)计算基音周期,经过平滑、校正得到该帧的基音周期。同时对低通滤波后输出的数字语音进行清/浊音检测,经平滑、校正后得到改正的该帧的清/浊音标志。37编码语音输入并变串及同步检测误差检测校正解码参数解码帧块到基音块的转换与插值反射系数转换成预测系数基音产生噪音产生清/浊音开关综合器计算增益输出存储器去加重D/A变换低通滤波3600Hz合成语音输出RMSRCpitchV/UV在收端首先通过查表,对码流进行检错、纠错,经过纠错译码后即可得到基音周期、清/浊音标志、增益以及反射系数的数值。译码结果延时一帧输出,使得输出数据可以在过去一帧、现在一帧、将来一帧三帧内进行平滑。由于每帧语音只传输一组参数,考虑一帧内可能有不止一个基音周期,因此要对接收数值进行帧块到基音块的转换和插值。LPC-10的解码器框图38浊音清音Pitching/voicing77RMS55sync11k155k255k355k455k54k64k74k84k93k102误差校正020总计5453LPC-10的码本设计39LPC-10声码器合成语音与原始语音的比较 LPC系统中,全部参数量化为2.4kb/s,如果不考虑信道误码,可懂度得分:3.6KHz原始语音LPC-10合成语音DRT高于95%90%正确DRT(有噪声)92%~93%高于82%正确DAM高于654840语音混合编码LPC声码器的主要问题:过于简化的二元激励源(周期脉冲或随机噪声)是导致合成语音质量较差的根本原因混合编码的基本方法就是在LPC声码器的基础上,采用更高质量的波形编码算法来优化激励源信号激励源采取周期脉冲和噪声信号的混合体(语音的长时相关模型)闭环搜索算法—合成分析法(analysis-by-synthesis)来选择最佳激励源信号最佳激励源选择标准:采用感觉加权均方误差最小判决准则41语音信号的短时-长时预测
(short-termandlong-termprediction)语音信号样本间的短时相关特性
p取值很小,10-12,一般在一个基音周期以内由声道共振峰调制产生语音信号样本间的长时相关特性
P为基音周期不计长时相关的线性预测合成模型计入长时相关的线性预测合成模型激励发生器1/A(Z)语音激励发生器1/A(Z)1/P(Z)语音42短时预测<经典的线性预测>去除了信号的短时相关性,残差信号近似于声门波激励信号长时预测去除信号中相邻基音周期间的相关性,残差信号类似于噪声信号语音信号的短时-长时预测
(short-termandlong-termprediction)
s(n)å=--piiiza1+å-=+--11)(kkPkzb+__u(n)v(n)
短时预测
长时预测43语音信号的短时-长时预测
(short-termandlong-termprediction)
u(n)中还有比较明显的周期脉冲,需要较多的量化比特v(n)中脉冲不再明显,信号更接近于白噪声信号,易于量化LPC参数谱44在混合编码算法中,需要对短时预测(LPC)参数、长时预测参数b,基音周期P,以及预测残差信号v(n)进行量化编码。算法的重点在v(n)的编码
v(n)类似白噪声信号不是直接对v(n)的每个样本点编码(编码速率太高)一种作法是设定一个矢量码本,其中的每一个矢量代表一种可能 的v(n),对每一帧语音,都是从这个矢量码本中选择其中一个最佳 矢量作为v(n)的替代品进行合成语音
假定一帧语音有256个样点,如果直接对每个v(n)的样点用8bit量化,需要256*8bit。假定我们选择的矢量码本中有256个矢量,每一帧语音选择其中一个矢量作为v(n)的近似,则只需要8个bit就可以量化一帧语音的v(n)。现在问题的关键是如何从这256个矢量的码本中选择跟当前语音的v(n)最接近的一个矢量?合成分析法(Analysis-by-synthesis)
45基于感觉加权滤波器(perceptuallyweightedfilter)和合成分析法(analysis-by-synthesis)的码字矢量选择算法激励发生器线性预测综合滤波器合成器均方误差最小估值感觉加权滤波LPC分析原始语音信号LPC参数、P、b+合成语音误差信号激励发生器是从码本里依次选择一个码字矢量,将所得的合成语音与原始语音相比较,得到一个误差信号,该误差信号经过听觉感知加权后,可以计算其均方误差。比较码本里每一个码字矢量所对应的均方误差,选择误差最小的一个码字适量作为v(n)的近似矢量。46感觉加权滤波器感觉加权滤波器的依据是人耳的听觉掩蔽效应。在语音频谱中能量较高的频段的噪声相对于能量较低频段的噪声不易被感知,在度量原始语音与合成语音之间的误差时记入此因素,语音能量高的频段允许误差大一些,能量低的频段允许误差小一些。引入频域感觉加权滤波器来计算二者的误差并使其达到最小:47感觉加权滤波器取感觉加权滤波器在z域的表达式为:感觉加权滤波器的特性由预测系数和加权因子确定。r=1,W(z)=1,没有加权r=0,W(z)=A(z),加权系数和语音的共振峰(频谱包络)成反比在8KHz采样频率下,一般取r=0.8W(z)的实际作用就是使得实际误差信号的谱不再平坦,而是有着与语音信号谱相似的包络形状。48感觉加权滤波器A(z)1/A(z),信号频谱包络A(z/0.8)W(z)(r=0.8)可见,加权滤波器跟信号的频谱包络大至成反比关系,也就是说,在信号能量大的地方,误差对整体误差的贡献较小(因为人耳对这些误差不太敏感),信号能量小的地方,误差对整体误差的贡献较大。这样,可以使得所选择的激励源码字矢量合成的语音听觉上效果最好。49多脉冲激励线性预测声码器(Multi-pulselinearpredictivecoding,MPLPC)规则脉冲激励线性预测声码器(Regularpulseexcitationlinearpredictivecoding,RPELPC)码激励线性预测声码
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 现代办公事务处理任务十一拟写洽谈接待计划
- 一背肌二胸肌三膈四腹肌五盆部肌第三节躯干
- 土壤三普分析培训
- 《咨询行业研究》课件
- 团队凝聚力培训
- MBA领导力培训课程
- 《女子体育卫生》课件
- 《电工基本知识》课件
- 《光电发射器件》课件
- 妊娠糖尿病护理知识
- 餐饮业月度收入支出费用报表
- 可随意编辑【封面+简历+自荐信】淡雅欧美花纹古典求职个人简历
- 部编版四年级上册语文第二十六课《西门豹治邺》课文原文及练习题
- 卫生院紫外线消毒登记表
- 2023江苏“小高考”(化学)(2023江苏省普通高中学业水平测试-化学)
- 混凝土结构设计原理课程设计报告报告
- 财经应用文写作教案
- 发动机的构造知识课件
- 干细胞治疗讲稿
- 孤独症精品课件
- DB13T 1349-2010 超贫磁铁矿勘查技术规范
评论
0/150
提交评论