《语音与音频编码》课件第2章_第1页
《语音与音频编码》课件第2章_第2页
《语音与音频编码》课件第2章_第3页
《语音与音频编码》课件第2章_第4页
《语音与音频编码》课件第2章_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2.1概述

2.2语音的发音机理

2.3语音信号的数字模型

2.4短时时域分析方法

2.5小结

习题二第二章语音信号数字模型及短时时域分析二元激励模型是一种经典的模拟语音信号产生过程的模型,它简单实用,是学习语音编码理论的基础。建立起语音信号的数字模型后,我们就可以用以前学过的时域或频域信号处理知识对其进行分析和处理。本章我们只介绍语音信号的短时时域分析方法。2.1概述2.2.1人的发音器官

人类的语音是由人的发音器官在大脑控制下的生理运动产生的。人的发音器官由三部分组成:肺和气管产生气源;喉和声带组成声门;咽腔、口腔、鼻腔组成声道。其发音器官机理模型见图2.1。2.2语音的发音机理图2.1发音器官机理模型喉是控制声带运动的软骨和肌肉的复杂系统,它主要包括:环状软骨、甲状软骨、杓状软骨和声带。其中,声带是重要的发音器官,它是伸展在喉前、后端之间的褶肉。如图2.2所示,喉的前端由甲状软骨支撑,后端由杓状软骨支撑,而杓状软骨又与环状软骨的较高部分相联。

这些软骨在环状软骨上肌肉的控制下,能将两片声带合拢或分离。声带之间的间隙称为声门。声带的声学功能主要是产生激励。位于喉前端呈圆形的甲状软骨称为喉结。图2.2喉的平面解剖示意图2.2.2语音生成

1.浊音

空气流经过声带时,如果声带是崩紧的,声带将产生张弛振动,即声带将周期性地启开和闭合。声带启开时,空气流从声门喷射出来,形成一个脉冲,声带闭合时相应于脉冲序列的间隙期。

2.清音

空气流经过声带时,如果声带是完全舒展开来的,则肺部发出的空气流将不受影响地通过声门。空气流通过声门后,会遇到两种不同情况。一种情况是,如果声道的某个部位发生收缩形成了一个狭窄的通道,当空气流到达此处时被迫以高速冲过收缩区,并在附近产生出空气湍流,这种空气湍流通过声道后便形成了所谓摩擦音或清音;另一种情况是,如果声道的某个部位完全闭合在一起,当空气流到达时便在此处建立起空气压力,闭合点突然开启便会让气压快速释放,经过声道后便形成了所谓爆破音。这两种情况下发出的音均称为清音。由2.2节介绍的发音机理和发音机理模型图可知,语音生成系统包含三部分:由声门产生的激励函数G(z)、由声道产生的调制函数V(z)和由嘴唇产生的辐射函数R(z)。语音生成系统的传递函数由这三个函数级联而成,即

H(z)=G(z)V(z)R(z)

(2-1)2.3语音信号的数字模型2.3.1激励模型

发浊音时,由于声门不断开启或关闭,从而产生间隙的脉冲。经仪器测试,它类似于斜三角形的脉冲。也就是说,这时的激励波是一个以基音周期为周期的斜三角脉冲串。斜三角波及其频谱如图2.3所示。图2.3斜三角波及其频谱单个三角形波的数学表达式为

式中,N1为斜三角波的上升时间,N2为其下降时间。由图2.3可以看出单个斜三角波的频谱G(ejω)表现出一个低通滤波器的特性,可以把它表示成z变换的全极点形式,即

(2-3)(2-2)其中,c是一个常数,T=N1+N2,显然上式表示一个两极点模型。因此,作为激励的斜三角波串可以用一串加了权的单位脉冲序列去激励上述单位斜三角波模型实现。单位脉冲串序列和幅值因子可以表示为e(n)-e(n-1)=Av,e(n)为离散阶跃函数,它的z变换形式为

所以整个激励模型可表示为

(2-4)(2-5)2.3.2声道模型

典型的声道模型有两种,即无损声管模型和共振峰模型。这两种数字模型本质上没有区别。无损声管模型比较复杂,故本节只介绍共振峰模型。

当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,一般把它叫做共振峰,如图2.4所示。图2.4语音信号的频谱一个二阶谐振器的传输函数可以写成

实践表明,用前三个共振峰代表一个元音就足够了。对于较复杂的辅音或鼻音,共振峰的个数要达到五个以上。多个Vi叠加可以得到声道的共振峰模型为

(2-6)(2-7)2.3.3辐射模型

从声道模型输出的是速度波,而语音信号是声压波。二者的倒比称为辐射阻抗Zl,它表征口唇的辐射效应。如果认为口唇张开的面积远远小于头部的表面积,则利用单板开槽辐射的处理方法,可以得到辐射阻抗为

(2-8)式中:

(2-9)2.3.4语音信号数字模型

前面我们分别得到了语音信号激励模型G(z)、辐射模型R(z)和声道模型V(z),并且知道它们的级联组合形式为ARMA模型。这说明语音信号数字模型的传递函数为

(2-10)一般情况下,极点个数取8~12个,零点个数取3~5个,在采样率为8kHz或10kHz时,H(z)在10~20ms范围内可以很好地反映语音信号的特征。

根据随机过程理论,一个零点可以用若干极点来近似。因此,适当选取极点个数p,可以用全极点模型即AR(p)过程来表达语音信号,即

(2-11)语音信号产生的二元激励模型图如图2.5所示。为简单起见,将图中的冲激序列发生器和声门波模型合并为周期脉冲发生器,将声道模型和辐射模型合并在一起成为时变数字滤波器,清音和浊音的振幅统一起来用G表示,这样就成为图2.6所示的简化数字模型图,这就是经典的语音信号数字模型图。图2.5二元激励的语音生成模型图2.6语音信号数字模型简化图2.4.1语音信号的预加重处理

对输入的数字语音信号进行预加重,通常是对语音的高频部分进行加重,以去除口唇辐射的影响。一般通过传递函数为H(z)=1-αz-1的一阶FIR高通数字滤波器来实现预加重,其中α为预加重系数,0.9<α<1.0。设n时刻的语音采样值为x(n),经过预加重处理后的结果为y(n)=x(n)-αx(n-1),这里取α=0.98。图2.7中分别给出了预加重前和预加重后的一段浊音信号及频谱,可以看出,预加重后的频谱在高频部分的幅度得到了提升。2.4短时时域分析方法图2.7预加重前和预加重后的一段语音信号及频谱2.4.2语音信号的加窗处理

常用的窗有两种,一种是矩形窗,窗函数如下:

另一种是汉明(Hamming)窗,窗函数如下:

图2.8和图2.9分别为矩形窗和汉明窗的时域波形和幅度特性图。(2-12)(2-13)图2.8矩形窗及其频谱图2.9汉明窗及其频谱图2.10说明了加窗方法,其中窗序列沿着语音样点值序列x(m)逐帧从左向右移动,窗w(n)长度为N。图2.10加窗方法示意图2.4.3短时平均能量

由于语音信号的能量随时间而变化,清音和浊音之间的能量差别相当显著,因此对短时能量和短时平均幅度进行分析,可以描述语音的这种特征变化情况。

定义n时刻某语音信号的短时平均能量En为

式中,N为窗长,可见短时能量为一帧样点值的加权平方和。特殊地,当窗函数为矩形窗时,有

(2-14)(2-15)也可以从另外一个角度来解释短时平均能量En。令

h(n)=w2(n)(2-16)

则式(2-14)可以表示为

式(2-17)可以理解为:首先语音信号各个样点值平方,然后通过一个冲激响应为h(n)的滤波器,输出为由短时能量构成的时间序列,如图2.11所示。(2-17)图2.11语音信号的短时平均能量实现方框图图2.12画出了一段实际语音(女声“我到北京去”)的短时能量函数随矩形窗长的变化曲线,横坐标为帧数,帧间无交叠。图中的四幅图分别对应序列长度N=50,N=100,N=400,N=800。从图中可以看到,N=50和N=100的短时平均能量曲线不够平滑;而N=800的曲线又过于平滑,将个别的细节变化平滑掉了;N=400的曲线就比较合适。图2.12不同矩形窗长N时的短时能量函数2.4.4短时平均幅度函数

短时能量的一个主要问题是En对信号电平值过于敏感。由于需要计算信号样值的平方和,在定点实现时很容易产生溢出。为了克服这个缺点,可以定义一个短时平均幅度函数Mn来衡量语音幅度的变化:

式(2-18)可以理解为w(n)对|x(n)|的线性滤波运算,实现框图如图2.13所示。与短时能量比较,短时平均幅度相当于用绝对值之和代替了平方和,从而简化了运算。(2-18)图2.13短时平均幅度平均框图图2.14不同矩形窗长N时的短时平均幅度函数2.4.5短时平均过零率

短时平均过零率的定义为

其中,sgn[·]为符号函数,即

(2-19)(2-20)

w(n)为窗函数,计算时常采用矩形窗,窗长为N。可以这样理解:当相邻两个样点符号相同时,|sgn[x(m)]-sgn[x(m-1)]|=0,没有产生过零;当相邻两个样点符号相反时,|sgn[x(m)]-sgn[x(m-1)]|=2,为过零次数的2倍。因此在统计一帧(N点)的短时平均过零率时,求和后必须要除以2N。这样的话,我们就可以将窗函数w(n)表示为

(2-21)在矩形窗条件下,式(2-19)可以简化为下式

按照式(2-22),可得出实现短时平均过零率的运算图,如图2.15所示。(2-22)图2.15语音信号的短时平均过零率图2.16画出了语音(女声“我到北京去”)的短时平均过零次数的变化曲线,图中窗长N=220,帧重叠50%。图2.16一句语音的短时平均过零率2.4.6短时自相关函数

由以前学过的信号处理知识可知,自相关函数R(k)具有下述性质:

(1)对称性R(k)=R(-k);

(2)在k=0处,R(k)为最大值,即对于所有k来说,|R(k)|≤R(0);

(3)对于确定信号,值R(0)对应于能量,而对于随机信号,R(0)对应于平均功率。定义语音信号的短时自相关函数为

因为Rn(-k)=Rn(k),所以

(2-23)

(2-24)定义

hk(n)=w(n)w(n+k)

(2-25)

那么式(2-24)可以写成:

(2-26)

上式表明,序列x(n)x(n-k)经过一个冲激响应为hk(n)的数字滤波器滤波即得到短时自相关函数Rn(k),如图2.17所示。图2.17短时自相关函数的方框图表示也可采用直接运算的方法。令m=n+m′,代入式(2-27)中,且令w(-m)=w′(m),则

注意:当0≤m≤N-1时,w′(m)为非零值;当0≤k+m≤N-1或-k≤m≤N-1-k时,w′(k+m)为非零值,故w′(m)和w′(k+m)均为非零值时,为0≤m≤N-1-k,故式(2-28)可以写成:

(2-27)(2-28)图2.18和图2.19分别给出了浊音和清音的短时自相关函数曲线,分别画出了时域波形、加矩形窗和加汉明窗后用式(2-28)计算短时自相关归一化后的结果。语音的抽样频率为

8kHz,窗长为320。图2.18浊音的短时自相关函数图2.19清音的短时自相关函数从图2.20也可看到,采用式(2-29)计算出的短时自相关函数,其幅度是一个逐渐衰减的曲线。这是由于在计算短时自相关时,窗选语音段为有限长度N,而求和上限为N-1-k,因此当k增加时,可用于计算的数据就越来越少了,从而导致k增加时自相关函数的幅度减小。图2.20不同矩形窗长时的短时自相关函数2.4.7修正的短时自相关函数

修正的短时自相关函数定义如下:

若令m=n+m′,代入式(2-29)中,可得

(2-29)(2-30)定义

则有

(2-31)(2-32)由式(2-32)可知,要使为非零值,必须使m+k≤N-1+K,考虑到k≤K,可得m=N-1,故式(2-31)可以写成

(2-33)

与图2.20对应的修正自相关函数示于图2.21中,可以看到,自相关函数相关峰值下降很小。图2.21不同矩形窗长时的修正短时自相关函数2.4.8短时平均幅度差函数

对一个周期为P的周期信号x(n),在k=0,±P,±2P…时,d(n)=x(n)-x(n-k)=0(k=0,±P,±2P,…)。

对于浊音语音,在基音周期的整数倍上,d(n)总是很小,但不是零。因此,定义短时平均幅度差函数(AMDF)为

(2-34)使用矩形窗时,短时平均幅度差函数可写成

(2-35)

rn(k)与之间的关系为

(2-36)2.4.9基于短时自相关法的基音周期估值

中心削波函数如下

(2-37)其中,xL为削波电平,一般取本帧语音最大幅度的60%~70%。将削波后的序列f(x)用短时自相关函数估计基音周期,位于基音周期位置的峰值更加尖锐,有利于检出基音周期。图2.22和图2.23分别给出了削波前后语音信号对比图及修正自相关对比图。可以看到,削波后的语音信号峰值更加突出,零值点增多,有利于减小自相关的计算量。图2.22中心削波前后语音信号对比图图2.23中心削波前后修正自相关对比图本章主要讲述了语音信号数字模型及短时时域分析。首先从语音的发音器官以及它们的功能得到语音的生成机理,即空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。2.5小结其次导出语音信号的数字模型,包括三部分,即由声门产生的激励函数G(z)、由声道产生的调制函数V(z)和由嘴唇产生的辐射函数R(z),语音生成系统的传递函数由这三个函数级联而成,由此得到语音信号的二元激励模型。最后根据语音的发音惯性,在短时间内的特性保持稳定,详细介绍了语音信号的时域分析,包括对短时能量、短时平均过零率、

短时自相关以及修正自相关这些时域特征参数的定义和作用说明,通过对它们分别加不同的窗长进行讨论和比较,并给出实际波形图,可以直观地看到结果,便于加强理解。

1. 简述语音的发音机理,并介绍它们的功能。

2.解释下列名词的定义:浊音,清音,基音周期,共振峰,预加重技术。

3.画出语音信号的二元激励

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论