第三讲语音信号处理第3.1~3.4章_第1页
第三讲语音信号处理第3.1~3.4章_第2页
第三讲语音信号处理第3.1~3.4章_第3页
第三讲语音信号处理第3.1~3.4章_第4页
第三讲语音信号处理第3.1~3.4章_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、3.13.1概述概述3.23.2语音信号的数字化和预处理语音信号的数字化和预处理3.33.3语音信号的时域分析语音信号的时域分析3.43.4语音信号的频域分析语音信号的频域分析3.53.5语音信号的倒谱分析语音信号的倒谱分析3.63.6语音信号的线性预测分析语音信号的线性预测分析3.7 3.7 语音信号的小波分析语音信号的小波分析3.8 3.8 基音周期估计基音周期估计3.93.9共振峰估计共振峰估计3.13.1概述概述3.23.2语音信号的数字化和预处理语音信号的数字化和预处理3.33.3语音信号的时域分析语音信号的时域分析3.43.4语音信号的频域分析语音信号的频域分析3.53.5语音信号

2、的倒谱分析语音信号的倒谱分析3.1 3.1 概述概述v语音信号分析语音信号分析 分析出可表示语音信号特征参数分析出可表示语音信号特征参数进行高效的语音通信、语音合成和语音识别的基础进行高效的语音通信、语音合成和语音识别的基础时域特征时域特征频率特征频率特征v贯穿于语音分析全过程的是贯穿于语音分析全过程的是“短时分析技术短时分析技术” 语音信号从整体来看其特征及表征其本质特征的参数均语音信号从整体来看其特征及表征其本质特征的参数均是随时间而变化的,所以它是一个是随时间而变化的,所以它是一个非平衡态过程非平衡态过程,不能用处,不能用处理平衡信号的数字信号处理技术对其进行分析处理。理平衡信号的数字信

3、号处理技术对其进行分析处理。 但是在一个短时间范围内(一般认为在但是在一个短时间范围内(一般认为在10-30ms10-30ms的短时的短时间内),其特性基本保持不变即相对稳定,因而可以将其看间内),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有作是一个准稳态过程,即语音信号具有短时平稳性短时平稳性。 3.1 3.1 概述概述v分析方法:模型分析方法和非模型分析方法分析方法:模型分析方法和非模型分析方法v不论是分析怎么样的参数以及彩什么分析方法,在不论是分析怎么样的参数以及彩什么分析方法,在按帧进行语音分析,提取语音参数之前,有一些经按帧进行语音分析,提取语音参数

4、之前,有一些经常使用的、共同的短时分析技术必须预先进行,如常使用的、共同的短时分析技术必须预先进行,如语音信号的数字化、语音信号的端点检测、预加重、语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧加窗和分帧等,这些也是不可忽视的语音信号分析等,这些也是不可忽视的语音信号分析的关键技术。的关键技术。 3.2 3.2 语音信号的数字化和预处理语音信号的数字化和预处理v语音信号的语音信号的数字化数字化一般包括放大及增益控制、反混一般包括放大及增益控制、反混叠滤波、采样、叠滤波、采样、A/DA/D变换及编码(一般就是变换及编码(一般就是PCMPCM码)码)v预处理预处理一般包括预加重、加窗和分

5、帧等一般包括预加重、加窗和分帧等。带通滤波器自 动 增 益 控 制(AGC)模 / 数 转 换(A/D)脉冲编码调制(PCM)语音信号存入计算机 预滤波预滤波、采样、采样、A/DA/D变换变换预滤波的目的有两个:预滤波的目的有两个:v抑制输入信号各频域分量中频率超出抑制输入信号各频域分量中频率超出f fs s/2/2的所有分量,以防的所有分量,以防止止混叠干扰混叠干扰。v抑制抑制50Hz50Hz的的电源工频干扰电源工频干扰。v这样,预滤波器必须是一个这样,预滤波器必须是一个带通滤波器带通滤波器,设其上、下截止频,设其上、下截止频率分别是率分别是f fH H和和f fL L: 绝大多数语音编译码

6、器:绝大多数语音编译码器: f fH H=3400Hz=3400Hz,f fL L=60-100Hz=60-100Hz,f fS S=8kHz=8kHz 预滤波、预滤波、采样、采样、A/DA/D变换变换v量化不可避免地会产生误差。量化后的信号值与原信号值之量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为间的差值称为量化误差量化误差,又称为,又称为量化噪声量化噪声。v若信号波形的变化足够大,或量化间隔若信号波形的变化足够大,或量化间隔足够小时,可以证足够小时,可以证明量化噪声符合具有下列特征的统计模型:明量化噪声符合具有下列特征的统计模型: 它是平稳的白噪声过程它是平稳的白噪声过

7、程 量化噪声与输入信号不相关量化噪声与输入信号不相关 量化噪声在量化间隔内均匀分布,即具有等概率密度分量化噪声在量化间隔内均匀分布,即具有等概率密度分布布 预滤波、预滤波、采样、采样、A/DA/D变换变换v若用若用x x2 2表示输入语音信号的方差表示输入语音信号的方差,2X,2Xmaxmax表示信号的峰值表示信号的峰值,B,B表表示量化字长示量化字长, , e e2 2表示噪声序列的方差表示噪声序列的方差, ,可以证明量化信噪比可以证明量化信噪比SNRSNR(信号与量化噪声的功率比)为:(信号与量化噪声的功率比)为:v假设语音信号的幅度符合假设语音信号的幅度符合LaplacianLaplac

8、ian分布分布, ,此时信号幅度超过此时信号幅度超过44x x的概率很小,只有的概率很小,只有0.35%0.35%,因而可取,因而可取X Xmaxmax=4=4x x,则则v上式表明量化器中的每上式表明量化器中的每bitbit字长对字长对SNRSNR的贡献为的贡献为6dB6dB。xexXBdBSNRmax22lg2077. 402. 6lg10)(2 . 702. 6)(BdBSNR预加重(预加重(PreemphasisPreemphasis)处理)处理v语音信号的平均功率谱受声门激励和口鼻辐语音信号的平均功率谱受声门激励和口鼻辐射影响,射影响,800Hz800Hz以上按以上按6dB/6dB/

9、倍频程跌落倍频程跌落v目的是提升高频部分,使信号的频谱变得平目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声同样的信噪比求频谱,以便于频谱分析或声道参数分析道参数分析 11zzH 预处理:分帧预处理:分帧v进行过预加重数字滤波处理后,接下来就要进行进行过预加重数字滤波处理后,接下来就要进行加加窗分帧处理窗分帧处理。一般每秒的帧数约为。一般每秒的帧数约为33-10033-100帧,视实帧,视实际情况而定。际情况而定。v分帧虽然可以采用连续分段的方法,但一般要采用分帧虽然可以采用连续分段的方法,

10、但一般要采用如图如图3-23-2所示的交叠分段的方法,这是为了使帧与所示的交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。帧之间平滑过渡,保持其连续性。v帧移:前一帧和后一帧的非交叠部分。帧移与帧长帧移:前一帧和后一帧的非交叠部分。帧移与帧长的比值一般取为的比值一般取为1/3-1/21/3-1/2 预处理预处理: :分帧示意图分帧示意图 预处理:加窗预处理:加窗v分帧是用可移动的有限长度窗口进行加权的方法来实现的,分帧是用可移动的有限长度窗口进行加权的方法来实现的,这就是用一定的这就是用一定的窗函数窗函数(n)(n)来乘来乘s(n)s(n),v加窗语音信号加窗语音信号s s(n)=

11、s(n)(n)=s(n)* * (n) (n)。v在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等,在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等,它们的表达式如下(其中它们的表达式如下(其中N N为帧长):为帧长):v矩形窗:矩形窗:v汉明窗:汉明窗:elsenNnn, 0) 1(0, 1)(elsenNnNnn, 0) 1(0),1/(2cos46. 054. 0)( 预处理预处理: :窗口的形状窗口的形状v不同的短时分析方法不同的短时分析方法( (时域、频域、倒频域分时域、频域、倒频域分析析) ) 对窗函数的要求不尽一样对窗函数的要求不尽一样v选择窗的标准选择窗的标准在在时域时域要

12、减小时间窗两端的坡度,使窗口边缘两端要减小时间窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以使截取不引起急剧变化而平滑过渡到零,这样可以使截取出的语音波形缓慢降为零,减小语音帧的截断效应;出的语音波形缓慢降为零,减小语音帧的截断效应;在在频域频域要有较宽的要有较宽的3dB3dB带宽以及较小的边带最大值带宽以及较小的边带最大值矩形窗与汉明窗的比较矩形窗与汉明窗的比较窗类型旁瓣峰值主瓣宽度最小阻带衰减矩形窗-134/N-21汉明窗-418/N-53汉明窗的主瓣宽度比矩形窗大一倍,即带宽汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,同时其带外衰减也比矩形窗大约增加一倍,同时其

13、带外衰减也比矩形窗大一倍多。矩形窗的谱平滑性能较好,但损失一倍多。矩形窗的谱平滑性能较好,但损失了高频成分,使波形细节丢失;而汉明窗则了高频成分,使波形细节丢失;而汉明窗则相反,从这一方面来看,汉明窗比矩形窗更相反,从这一方面来看,汉明窗比矩形窗更为合适。为合适。窗频谱响应00.10.20.30.40.50.60.70.80.91-400-300-200-1000100Normalized Frequency ( rad/sample)Phase (degrees)00.10.20.30.40.50.60.70.80.91-150-100-50050Normalized Frequency (

14、 rad/sample)Magnitude (dB)00.10.20.30.40.50.60.70.80.91-400-300-200-1000Normalized Frequency ( rad/sample)Phase (degrees)00.10.20.30.40.50.60.70.80.91-150-100-50050Normalized Frequency ( rad/sample)Magnitude (dB)02040608010012014000.10.20.30.40.50.60.70.80.9102040608010012014000.10.20.30.40.50.60.70

15、.80.91汉明窗的时域、频域的幅度响应特性汉宁窗的时域、频域的幅度响应特性 预处理:预处理:窗口的长度窗口的长度v采样周期采样周期T Ts s=1/f=1/fs s,窗口长度,窗口长度N N和频率分辨率和频率分辨率ff之间存在下列之间存在下列关系:关系:f=1/NTf=1/NTs sv可见,采样周期一定时,可见,采样周期一定时,ff随窗口宽度随窗口宽度N N的增加而减小,即的增加而减小,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是口取短,频率分辨率下降,而时间分辨率提高,因而二者

16、是矛盾的。应该根据不同的需要选择合适的窗口长度。矛盾的。应该根据不同的需要选择合适的窗口长度。 预处理:窗长预处理:窗长v有时窗口长度的选择,更重要的是要考虑语音信号的有时窗口长度的选择,更重要的是要考虑语音信号的基音周基音周期期。通常认为在一个语音帧内应包含。通常认为在一个语音帧内应包含1 17 7个基音周期。然而个基音周期。然而不同人的基音周期变化很大,从女性和儿童的不同人的基音周期变化很大,从女性和儿童的2ms2ms到老年男到老年男子的子的14ms(14ms(即基音频率的变化范围为即基音频率的变化范围为50050070Hz)70Hz),所以,所以N N的选的选择比较困难。通常在择比较困难

17、。通常在10kHz10kHz取样频率下,取样频率下,N N折中选择为折中选择为100100200200点为宜点为宜( (即即101020ms20ms持续时间持续时间) )。v这样,经过上面介绍的处理过程,语音信号就已经被分割成这样,经过上面介绍的处理过程,语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时语一帧一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据,处音特征参数。在进行处理时,按帧从数据区中取出数据,处理完成后再

18、取下一帧,等等,最后得到由每一帧参数组成的理完成后再取下一帧,等等,最后得到由每一帧参数组成的语音特征参数的时间序列。语音特征参数的时间序列。3.3 3.3 语音信号的时域分析语音信号的时域分析v语音信号的语音信号的时域分析时域分析就是分析和提取语音信号的时域参数。就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且也是最直观的是它的时域进行语音分析时,最先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析是最早使波形。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语用,也是应用最广泛的一种分析方法,这种方

19、法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及音信号的时域波形。时域分析通常用于最基本的参数分析及应用,如语音的分割、预处理、大分类等。这种分析方法的应用,如语音的分割、预处理、大分类等。这种分析方法的特点是:特点是:表示语音信号比较直观、物理意义明确。表示语音信号比较直观、物理意义明确。实现起来比较简单、运算量少。实现起来比较简单、运算量少。可以得到语音的一些重要的参数。可以得到语音的一些重要的参数。只使用示波器等通用设备,使用较为简单等。只使用示波器等通用设备,使用较为简单等。 短时能量及短时平均幅度分析短时能量及短时平均幅度分析v 如图如图3-23-2所示,设语音波形时

20、域信号为所示,设语音波形时域信号为x(t)x(t)、加窗分帧处理、加窗分帧处理后得到的第后得到的第n n帧语音信号为帧语音信号为x xn n(m),(m),则则x xn n(m)(m)满足下式:满足下式:x xn n(m)=(m)x(n+m)(m)=(m)x(n+m)v其中,其中,n=0,1T,2T,n=0,1T,2T,并且并且N N为帧长,为帧长,T T为帧移长度。为帧移长度。v设第设第n n帧语音信号帧语音信号x xn n(m)(m)的的短时能量短时能量用用E En n表示,则其计算公式表示,则其计算公式如下:如下:其它值mNmm, 0) 1(0, 1)(102)(NmnnmxE 短时能量

21、及短时平均幅度分析短时能量及短时平均幅度分析vE En n是一个度量语音信号幅度值变化的函数,但它有一个缺陷,是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即它对高电平非常敏感(因为它计算时用的是信号的平方即它对高电平非常敏感(因为它计算时用的是信号的平方) )。为此,可采用另一个度量语音信号幅度值变化的函数,即为此,可采用另一个度量语音信号幅度值变化的函数,即短短时平均幅度函数时平均幅度函数M Mn n,它定义为:,它定义为:vM Mn n也是一帧语音信号能量大小的表征,它与也是一帧语音信号能量大小的表征,它与E En n的区别在于计的区别在于计算时小取样值和大取样值不会因取平方而造成

22、较大差异,在算时小取样值和大取样值不会因取平方而造成较大差异,在某些应用领域中会带来一些好处。某些应用领域中会带来一些好处。10)(NmnnmxM 短时过零率分析短时过零率分析v短时过零率表示一帧语音中语音信号波形穿过横轴短时过零率表示一帧语音中语音信号波形穿过横轴( (零电平零电平) )的次数。过零分析是语音时域分析中最简单的一种。对于连的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零即意味着时域波形通过时间轴;而对于离续语音信号,过零即意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号则称为过零。过零率就散信号,如果相邻的取样值改变符号则称为过零。过零率

23、就是样本改变符号的次数。是样本改变符号的次数。v定义语音信号定义语音信号x xn n(m)(m)的的短时过零率短时过零率Z Zn n为:为:v式中,式中,sgnsgn是符号函数,即是符号函数,即10)1(sgn)(sgn21NmnnnmxmxZ) 0(, 1) 0(, 1sgnxxx短时过零率分析由定义可以看出,短时过零率对噪音噪音的存在非常敏感敏感,如果背景中有反复穿越坐标轴的随机噪声,那么会产生大量的“虚假”的过零,影响计算结果。门限过零率为了提高过零率计算的鲁棒鲁棒性性(Robustness),除了对原始信号进行带通滤波,一种有效的方法是修正过零率的定义,加入门限门限的定义如图所示。6.

24、门限过零率设一个门限值T,将过零的定义修正为穿越正负门限穿越正负门限,带门限的过零率计算公式为这样噪音信号的振荡只要不超过门限间的区域,就不会对真实的过零率产生影响。一般说来,短时过零率的最主要用处是分辨清音清音和浊音浊音、有声有声与无无声声。101sgn( )sgn(1)sgn( )sgn(1)2NnnnnnmZx mTx mTx mTx mT7.端点检测背景背景噪音噪音辅音辅音元音元音如何区分?能量?过零率?语音语音“三三”的波形图的波形图背景背景噪音噪音辅音辅音7.端点检测如何区分?能量?过零率? 短时相关分析短时相关分析v相关分析是一种常用的时域波形分析方法,并有自相关分析是一种常用的

25、时域波形分析方法,并有自相关和互相关之分。这里主要讨论自相关函数。相关和互相关之分。这里主要讨论自相关函数。v自相关函数的自相关函数的性质:偶函数;性质:偶函数;v假设序列具有周期性,则其自相关函数也是同周期假设序列具有周期性,则其自相关函数也是同周期的周期函数等。我们可以把自相关函数的这些性质的周期函数等。我们可以把自相关函数的这些性质应用于语音信号的时域分析中。例如,对浊音语音应用于语音信号的时域分析中。例如,对浊音语音可以用自相关函数求出语音波形序列的基音周期。可以用自相关函数求出语音波形序列的基音周期。此外,在进行语信号的线性预测分析时,也要用到此外,在进行语信号的线性预测分析时,也要

26、用到自相关函数。和其他语音参数一样,在语音信号分自相关函数。和其他语音参数一样,在语音信号分析中,我们分析的是析中,我们分析的是短时自相关函数短时自相关函数。 1 1短时自相关函数短时自相关函数v定义语音信号定义语音信号x xn n(m)(m)的的短时自相关函数短时自相关函数R Rn n(k)(k)的计算式如下:的计算式如下:v这里这里K K是最大的延迟点数。是最大的延迟点数。v短时自相关函数具有以下短时自相关函数具有以下性质性质:(1)(1)如果如果x xn n(m)(m)是周期的是周期的( (设周期为设周期为N)N),则自相关函数是同,则自相关函数是同周期的周期函数,即周期的周期函数,即R

27、 Rn n(k)=R(k)=Rn n(k+N(k+Np p) )。(2)R(2)Rn n(k)(k)是偶函数,即是偶函数,即R Rn n(k)=R(k)=Rn n(-k)(-k)。(3)(3)当当k=0k=0时,自相关函数具有最大值,即时,自相关函数具有最大值,即R Rn n(0)|R(0)|Rn n(k)|(k)|,并且并且R Rn n(0)(0)等于确定性信号序列的能量或随机性序列的平等于确定性信号序列的能量或随机性序列的平均功率。均功率。KkkmxmxkRkNmnnn0 , )()()(10 2.2.修正的短时自相关函数修正的短时自相关函数v修正的短时自相关函数是用两个长度不同的窗口,截

28、取两个修正的短时自相关函数是用两个长度不同的窗口,截取两个不等长的序列进行乘积和,两个窗口的长度相差最大的延迟不等长的序列进行乘积和,两个窗口的长度相差最大的延迟点数点数K K。这样就能始终保持乘积和的项数不变,即始终为短。这样就能始终保持乘积和的项数不变,即始终为短窗的长度。窗的长度。修正的短时自相关函数修正的短时自相关函数定义为:定义为: 其中,其中,KkkmxmxkRNmnnn0 , )()()(10其它值mNmm, 0) 1(0, 1)()0(),()()(Kkmnxmmxn)10(),()( )(KNkmnxmmxn其它值mKNmm, 0)1(0, 1)( 2 2修正的短时自相关函数

29、修正的短时自相关函数图3-7 修正短时自相关函数计算中窗口长度的说明 短时平均幅度差函数短时平均幅度差函数v计算自相关函数的运算量很大,其原因是乘法运算所需要的计算自相关函数的运算量很大,其原因是乘法运算所需要的时间较长。利用快速傅里叶变换时间较长。利用快速傅里叶变换(FFT)(FFT)等简化计算方法都无等简化计算方法都无法避免乘法运算。为了避免乘法,一个简单的方法就是利用法避免乘法运算。为了避免乘法,一个简单的方法就是利用差值。为此常常采用另一种与自相关函数有类似作用的参量,差值。为此常常采用另一种与自相关函数有类似作用的参量,即即短时平均幅度差函数短时平均幅度差函数(AMDF)(AMDF)

30、。v平均幅度差函数能够代替自相关函数进行语音分析,是基于平均幅度差函数能够代替自相关函数进行语音分析,是基于这样一个事实:如果信号是这样一个事实:如果信号是完全的周期信号完全的周期信号( (设周期为设周期为N Np p) ),则相距为周期的整数倍的样点上的幅值是相等的,则相距为周期的整数倍的样点上的幅值是相等的,差值为零差值为零。,.)2, 0( , 0)()()(ppNNkknxnxnd 短时平均幅度差函数短时平均幅度差函数v对于实际的语音信号,对于实际的语音信号,d(n)d(n)虽不为零,但其值很小。这些极虽不为零,但其值很小。这些极小值将出现在整数倍周期的位置上。为此,可定义小值将出现在

31、整数倍周期的位置上。为此,可定义短时平均短时平均幅度差函数幅度差函数:v可以证明平均幅度差函数和自相关函数有密切的关系,两者可以证明平均幅度差函数和自相关函数有密切的关系,两者之间的关系可由下式表达:之间的关系可由下式表达:kNmnnnkmxmxkF10)()()(2/1)()0()(2)(kRRkkFnnn 短时平均幅度差函数短时平均幅度差函数图3-9 AMDF 的例子3.4 3.4 语音信号的频域分析语音信号的频域分析v从广义上讲,语音信号的频域分析包括语音信号的频谱、功从广义上讲,语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等,常用的频域分析方法有率谱、倒频谱、频谱

32、包络分析等,常用的频域分析方法有带通滤波器组法带通滤波器组法傅里叶变换法傅里叶变换法线性预测法线性预测法v本节介绍本节介绍傅里叶分析法傅里叶分析法。因为语音波是一个非平稳过程,因。因为语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号,而应该用短时傅里叶变换对语音信用来直接表示语音信号,而应该用短时傅里叶变换对语音信号的频谱进行分析,相应的频谱称为号的频谱进行分析,相应的频谱称为“短时谱短时谱”。 利用语音的短时傅里叶变换求语音的短时谱利用语音的短时傅里叶变换求语音的短时谱v对第对第n n帧语音

33、信号帧语音信号x xn n(m)(m)进行傅里叶变换进行傅里叶变换( (离散时域傅里叶变离散时域傅里叶变换,换,DTFT)DTFT),可得到,可得到短时傅里叶变换短时傅里叶变换,其定义如下:,其定义如下:v由定义可知,短时傅里叶变换实际就是窗选语音信号的标准由定义可知,短时傅里叶变换实际就是窗选语音信号的标准傅里叶变换。这里,窗傅里叶变换。这里,窗(n)(n)是一个是一个“滑动的滑动的”窗口,它随窗口,它随n n的变化而沿着序列的变化而沿着序列x(m)x(m)滑动。由于窗口是有限长度的,满足滑动。由于窗口是有限长度的,满足绝对可和条件,所以这个变换是存在的。当然窗口函数不同,绝对可和条件,所以

34、这个变换是存在的。当然窗口函数不同,傅里叶变换的结果也将不同。傅里叶变换的结果也将不同。10)()(NmmjnjnemxeXv我们还可以将式我们还可以将式(3-27)(3-27)写成另一种形式。设语音信号序列和写成另一种形式。设语音信号序列和窗口序列的标准傅里叶变换均存在。当窗口序列的标准傅里叶变换均存在。当n n取固定值时,取固定值时,(n-(n-m)m)的傅里叶变换为:的傅里叶变换为:v根据卷积定理有根据卷积定理有:v因为上式右边两个卷积项均为关于角频率因为上式右边两个卷积项均为关于角频率的以的以22为周期为周期的连续函数,所以也可将其写成以下的卷积积分形式:的连续函数,所以也可将其写成以

35、下的卷积积分形式:v即,假设即,假设x(m)x(m)的的DTFTDTFT是是X(eX(ejj) ),且且(m)(m)的的DTFTDTFT是是X(eX(ejj) ),那么那么X Xn n(e(ejj)是是X(eX(ejj) )和和W(eW(ejj) )的周期卷积。的周期卷积。)()(jmjmmjeWeemn)()()(jnjjjneWeeXeXdeXeeWeXjjnjjn)()(21)()(v功率谱:根据功率谱定义,可以写出短时功率谱与短时傅里功率谱:根据功率谱定义,可以写出短时功率谱与短时傅里叶变换之间的关系:叶变换之间的关系:v或者或者:v功率谱功率谱S Sn n(e(ejj) )是短时自相

36、关函数是短时自相关函数R Rn n(k)(k)的傅里叶变的傅里叶变换。换。2*)()()()(jnjnjnjneXeXeXeS2*)()()()(kXkXkXkSnnnn112)()()(NNkkjnjnjnekReXeS3.5 3.5 语音信号的倒谱分析语音信号的倒谱分析v语音信号的语音信号的倒谱倒谱分析就是求取语音倒谱特征参数的分析就是求取语音倒谱特征参数的过程,它可以通过同态处理来实现。过程,它可以通过同态处理来实现。v同态信号处理也称为同态滤波,它实现了将卷积关同态信号处理也称为同态滤波,它实现了将卷积关系变换为求和关系的分离处理,即解卷。系变换为求和关系的分离处理,即解卷。v对语音信

37、号进行解卷,可将语音信号的声门激励信对语音信号进行解卷,可将语音信号的声门激励信息及声道响应信息分离开来,从而求得声道共振特息及声道响应信息分离开来,从而求得声道共振特征和基音周期,用于语音编码、合成、识别等。征和基音周期,用于语音编码、合成、识别等。v求倒谱特征参数的方法有两种,一种是线性预测分求倒谱特征参数的方法有两种,一种是线性预测分析,一种是同态分析处理。析,一种是同态分析处理。 同态信号处理的基本原理同态信号处理的基本原理v我们日常生活中遇到的许多信号,它们并不是加性我们日常生活中遇到的许多信号,它们并不是加性信号信号( (即组成各分量按加法原则组合起来即组成各分量按加法原则组合起来

38、) )而是乘积而是乘积性信号或卷积性信号,如语音信号、图像信号、通性信号或卷积性信号,如语音信号、图像信号、通信中的衰落信号、调制信号等。这些信号要用非线信中的衰落信号、调制信号等。这些信号要用非线性系统来处理。性系统来处理。v同态信号处理同态信号处理就是将非线性问题转化为线性问题的就是将非线性问题转化为线性问题的处理方法。按被处理的信号来分类,大体分为乘积处理方法。按被处理的信号来分类,大体分为乘积同态处理和卷积同态处理两种。由于语音信号可视同态处理和卷积同态处理两种。由于语音信号可视为声门激励信号和声道冲击响应的卷积,所以这里为声门激励信号和声道冲击响应的卷积,所以这里仅讨论卷积同态信号处

39、理。仅讨论卷积同态信号处理。 同态信号处理的基本原理同态信号处理的基本原理v卷积同态系统的模型(图卷积同态系统的模型(图3-10a3-10a),该系统的输人卷积信号),该系统的输人卷积信号经过系统变换后的输出是一个处理过的卷积信号。经过系统变换后的输出是一个处理过的卷积信号。v同态系统可分解为三个子系统,如图同态系统可分解为三个子系统,如图3-10b3-10b所示,即两个特所示,即两个特征子系统征子系统( (它们只取决于信号的组合规则它们只取决于信号的组合规则) )和一个线性子系统和一个线性子系统( (它仅取决于处理的要求它仅取决于处理的要求) )。v第一个子系统,如图第一个子系统,如图3-1

40、0c3-10c所示,它完成将卷积性信号转化所示,它完成将卷积性信号转化为加性信号的运算;第二个子系统是一个普通线性系统,满为加性信号的运算;第二个子系统是一个普通线性系统,满足线性叠加原理,用于对加性信号进行线性变换;第三个子足线性叠加原理,用于对加性信号进行线性变换;第三个子系统是第一个子系统的逆变换,它将加性信号反变换为卷积系统是第一个子系统的逆变换,它将加性信号反变换为卷积性信号,如图性信号,如图3-10d3-10d所示。所示。 同态信号处理的基本原理同态信号处理的基本原理 同态信号处理的基本原理同态信号处理的基本原理v第一个子系统第一个子系统D D* * 完成将卷积性信号转化为加性信号

41、的完成将卷积性信号转化为加性信号的运算,即对于信号运算,即对于信号x(n)=xx(n)=xl l(n)(n)* *x x2 2(n)(n)进行了如下运算处理:进行了如下运算处理:)()()()() 1 (21zXzXzXnxZ)()()()(ln)(ln)(ln)2(2121zXzXzXzXzXzX)( )()()()()()3(212111nxnxnxzXzXZzXZ 同态信号处理的基本原理同态信号处理的基本原理v由于由于x x (n)(n)为加性信号,所以第二个子系统可对其进行需要为加性信号,所以第二个子系统可对其进行需要的线性处理得到的线性处理得到y y (n)(n)。第三个子系统是逆特

42、征系统。第三个子系统是逆特征系统D D* *-1-1 ,它对它对y y (n)=(n)= y y1 1 (n)+y(n)+y2 2 (n)(n)进行逆变换,使其恢复为卷积性进行逆变换,使其恢复为卷积性v信号,即进行了如下处理:信号,即进行了如下处理:v从而得到卷积性的恢复信号。从而得到卷积性的恢复信号。)()()()( ) 1 (21zYzYzYnyZ)()()()(exp)2(21zYzYzYzY)(*)()()()()3(21211nynyzYzYZny 复倒谱和倒谱复倒谱和倒谱v虽然虽然D D* * 与与D D* *-1-1 系统中的系统中的x x (n)(n)和和y y (n)(n)信

43、号也信号也均是时域序列,但它们所处的离散时域显然不同于均是时域序列,但它们所处的离散时域显然不同于x(n)x(n)和和y(n)y(n)所处的离散时域,所以我们把它称之为所处的离散时域,所以我们把它称之为“复倒频谱域复倒频谱域”。 x x (n)(n)是是x(n)x(n)的的“复倒频谱复倒频谱”,简称为简称为“复倒谱复倒谱”,有时也称作对数复倒谱。其英,有时也称作对数复倒谱。其英文原文为文原文为“Complex Cepstrum”Complex Cepstrum”,CepstrumCepstrum是一个是一个新造的英文词,它是由新造的英文词,它是由SpectrumSpectrum这个词的前四个字

44、这个词的前四个字母倒置而构成的。同样,序列母倒置而构成的。同样,序列y y (n)(n)也是也是y(n)y(n)的复倒的复倒谱。谱。 复倒谱和倒谱复倒谱和倒谱v在绝大多数数字信号处理中,在绝大多数数字信号处理中,X(z)X(z),X X (z)(z),Y(z)Y(z),Y Y (z)(z)的的收敛域均包含单位圆,因而收敛域均包含单位圆,因而D D* * 与与D D* *-1-1 系统有如下形系统有如下形式:式:vD D* * = =vD D* *-1-1 = =)()(jneXxF)(ln)(jjeXeX)()( 1jeXFnx)()(nyFeYj)(exp)(jjeYeY)()(1jeYFn

45、yv设设: :v则取其对数得则取其对数得: :v即复数的对数仍是复数,它包含实部和虚部。注意,这时对即复数的对数仍是复数,它包含实部和虚部。注意,这时对数的虚部数的虚部argX(eargX(ejj)由于是由于是X(eX(ejj) )的相位的相位, ,所以将产生不一所以将产生不一致性。如果,我们只考虑致性。如果,我们只考虑X X (e(ejj) )的实部,令:的实部,令:v显然显然c(n)c(n)是序列是序列x(n)x(n)对数幅度谱的傅里叶逆变换。对数幅度谱的傅里叶逆变换。c(n)c(n)称为称为“倒频谱倒频谱”或简称为或简称为“倒谱倒谱”,有时也称,有时也称“对数倒频谱对数倒频谱”。倒谱对应

46、的量纲是倒谱对应的量纲是“Quefrency”Quefrency”,它也是一个新造的英文,它也是一个新造的英文词,是由词,是由“Frequency”Frequency”转变而来的,因此也称为转变而来的,因此也称为“倒频倒频”,它的量纲是时间。它的量纲是时间。c(n)c(n)实际上就是我们要求取的语音信号倒实际上就是我们要求取的语音信号倒谱特征。谱特征。)(arg)(ln)(jjjeXjeXeX)(arg)()(jeXjjjeeXeX)(ln)(1jeXFncv下面我们根据上面的讨论来分析一下下面我们根据上面的讨论来分析一下复倒谱和倒谱特点和关复倒谱和倒谱特点和关系系。v(1)(1)复倒谱要进行

47、复对数运算,而倒谱只进行实对数运算。复倒谱要进行复对数运算,而倒谱只进行实对数运算。v(2)(2)在倒谱情况下一个序列经过正逆两个特征系统变换后,在倒谱情况下一个序列经过正逆两个特征系统变换后,不能还原成自身,因为在计算倒谱的过程中将序列的相位信不能还原成自身,因为在计算倒谱的过程中将序列的相位信息丢失了。息丢失了。v(3)(3)与复倒谱类似,如果与复倒谱类似,如果c c1 1(n)(n)和和c c2 2(n)(n)分别是分别是x x1 1(n)(n)和和x x2 2(n)(n)的的倒谱,并且倒谱,并且x(n)= xx(n)= x1 1(n)(n)* *x x2 2(n)(n),则,则x(n)

48、x(n)的倒谱的倒谱c(n)= c(n)= c c1 1(n)+c(n)+c2 2(n) (n) 。v(4)(4)已知一个实数序列已知一个实数序列x(n)x(n)的复倒谱的复倒谱x x (n)(n),可以由,可以由x x (n)(n)求出求出它的倒谱它的倒谱c(n)c(n)。v(5)(5)已知一个实数序列已知一个实数序列x(n)x(n)的倒谱的倒谱c(n)c(n),能否用它来求出复,能否用它来求出复倒谱倒谱x x (n)?(n)? 语音信号两个卷积分量的复倒谱语音信号两个卷积分量的复倒谱v语音信号可看做是语音信号可看做是声门激励信号声门激励信号和和声道冲激响应声道冲激响应两两信号的卷积,因此下

49、面将分别讨论这两个信号的复信号的卷积,因此下面将分别讨论这两个信号的复倒谱的性质。倒谱的性质。1.1.声门激励信号声门激励信号v 我们知道,发我们知道,发清音清音时,声门激励是能量较小,频谱均匀分时,声门激励是能量较小,频谱均匀分布的白噪声;发布的白噪声;发浊音浊音时,声门激励是以基音为周期的冲激序时,声门激励是以基音为周期的冲激序列:列:v其中,其中,M M、r r均为正整数,且均为正整数,且0r0rM M,r r为幅度因子,为幅度因子,N Np p为为用样点数表示的基音周期。用样点数表示的基音周期。v由上面的分析我们可得以下结论:一个有限长度的周期冲激由上面的分析我们可得以下结论:一个有限

50、长度的周期冲激序列,其复倒谱也是一个周期冲激序列,且周期不变,只是序列,其复倒谱也是一个周期冲激序列,且周期不变,只是序列变为无限长序列。同时其振幅随着序列变为无限长序列。同时其振幅随着k k的增大而衰减,衰的增大而衰减,衰减速度比原序列要快。把这种性质应用于语音信号分析中,减速度比原序列要快。把这种性质应用于语音信号分析中,就意味着除原点外,可以用就意味着除原点外,可以用“高时窗高时窗”从语音信号的频谱中从语音信号的频谱中提取浊音激励信号的倒谱,从而提取出基音信号。提取浊音激励信号的倒谱,从而提取出基音信号。MrprrNnnx0)()(010)()()(ln)( kpkkpkrNnrNnnn

51、x2.2.声道冲激响应序列声道冲激响应序列v如果用最严格如果用最严格( (也是最普遍的也是最普遍的) )极零点模型来描述声道响应极零点模型来描述声道响应x(n)x(n),则有:,则有:v求对数可得:求对数可得:00111111)1 ()1 ()1 ()1 ()(pkkpkkmkkmkkzdzczbzaAzXii000ln)( 001111nndnbnnancnAnxmkpknknkpkmknknkii2.2.声道冲激响应序列声道冲激响应序列由此可得由此可得声道响应序列复倒谱的性质声道响应序列复倒谱的性质为:为:(1)x(1)x (n)(n)是双边序列。是双边序列。(2)(2)由于由于|a|ak

52、 k| |、|b|bk k| |、|c|ck k| |、|d|dk k| |均小于均小于1 1,所以,所以x x (n)(n)是衰减序是衰减序列,即列,即|x|x (n)|(n)|随随|n|n|的增大而减小。的增大而减小。(3)|x(3)|x (n)|(n)|随随|n|n|增大而衰减的速度至少比增大而衰减的速度至少比1/|n|1/|n|快。快。(4)(4)如果如果x(n)x(n)是最小相位序列(极零点均在是最小相位序列(极零点均在z z平面单位圆内),平面单位圆内),即即b bk k=0=0、d dk k=0=0,则则x x (n)(n)只在只在n n0 0时有值,且由时有值,且由X X (z

53、)(z)的表达的表达示可知示可知x x (n)(n)是稳定的,即是稳定的,即x x (n)(n)为稳定因果序列。也就是说,为稳定因果序列。也就是说,最小相位信号序列的复倒谱是稳定因果序列。最小相位信号序列的复倒谱是稳定因果序列。(5)(5)与与(4)(4)相反,最大相位信号序列相反,最大相位信号序列( (极零点均在极零点均在z z平面单位圆外平面单位圆外) )的复倒谱是稳定反因果序列。的复倒谱是稳定反因果序列。 复倒谱分析中的相位卷绕及避免相位卷绕的复倒谱分析中的相位卷绕及避免相位卷绕的方法方法v在复倒谱分析中,在复倒谱分析中,z z变换后得到的是复数,所以取对数时进变换后得到的是复数,所以取

54、对数时进行的是复对数运算。这时存在相位多值性问题,称为行的是复对数运算。这时存在相位多值性问题,称为“相位相位卷绕卷绕”。相位卷绕使得求语音的复倒谱,以及从复倒谱中恢。相位卷绕使得求语音的复倒谱,以及从复倒谱中恢复语音等运算都会由于不确定性而产生错误。下面来分析复复语音等运算都会由于不确定性而产生错误。下面来分析复倒谱分析中相位卷绕是怎样产生的。倒谱分析中相位卷绕是怎样产生的。)(ln)(ln)(ln21jjjeXeXeX)(arg)(arg)(arg21jjjeXeXeXv上式的相位也可表示为:上式的相位也可表示为:v式中,虽然式中,虽然l l()()和和2 2()()的范围均在的范围均在(

55、0(0,2)2)内,但内,但 ()()的值可能不在的值可能不在(0(0,2)2)之内,而计算机处理时总相位值之内,而计算机处理时总相位值只能用主值只能用主值()()(在在(0(0,2)2)内内) )来表示。所以可能存在下来表示。所以可能存在下面的情况:面的情况: (k k为整数)为整数)v 此时即产生了此时即产生了相位卷绕相位卷绕。显然,相位卷绕的产生是由于。显然,相位卷绕的产生是由于相位的多值性问题。它会使后面求复倒谱以及由复倒谱恢复相位的多值性问题。它会使后面求复倒谱以及由复倒谱恢复语音等运算存在不确定性而产生错误。求复倒谱时避免相位语音等运算存在不确定性而产生错误。求复倒谱时避免相位卷绕

56、的方法有限制法、微分法、最小相位信号法等。其中,卷绕的方法有限制法、微分法、最小相位信号法等。其中,限制法的思想是将复倒谱的相位限制在限制法的思想是将复倒谱的相位限制在- () () 的的范围内,从而有范围内,从而有()=()()=()。但对于语音信号来讲,由。但对于语音信号来讲,由于语音信号是随机的,所以这种限制是不科学的。下面介绍于语音信号是随机的,所以这种限制是不科学的。下面介绍其他两种求复倒谱时避免相位卷绕的方法。其他两种求复倒谱时避免相位卷绕的方法。k2)()()()()(211.1.微分法微分法v这是一种利用傅里叶变换的微分特性和对数微分特性来避开这是一种利用傅里叶变换的微分特性和

57、对数微分特性来避开求复对数而又可求出复倒谱的方法。求复对数而又可求出复倒谱的方法。v虽然,这种方法避免了求复倒谱的问题,但其缺点是会产生虽然,这种方法避免了求复倒谱的问题,但其缺点是会产生严重的混叠。这是因为严重的混叠。这是因为nx(n)nx(n)的频谱中的高频分量比的频谱中的高频分量比x(n)x(n)多,多,所以仍使用所以仍使用x(n)x(n)原来的取样率将引起混叠。因而这不是一种原来的取样率将引起混叠。因而这不是一种理想方法。理想方法。2.2.最小相位信号法最小相位信号法v这就是上面介绍的由倒谱这就是上面介绍的由倒谱c(n)c(n)求复倒谱求复倒谱x x (n)(n)的方法。最小的方法。最

58、小相位信号法是由最小相位信号序列的复倒谱性质及相位信号法是由最小相位信号序列的复倒谱性质及HilbertHilbert变换的性质推导出来的。这是一种较好的解决相位卷绕的方变换的性质推导出来的。这是一种较好的解决相位卷绕的方法。但它仅适用于最小相位信号序列。法。但它仅适用于最小相位信号序列。 语音信号倒谱分析实例语音信号倒谱分析实例1 1由同态分析求出的语音信号倒谱实例由同态分析求出的语音信号倒谱实例v一个信号的倒谱定义为信号频谱模的自然对数的逆傅里叶变一个信号的倒谱定义为信号频谱模的自然对数的逆傅里叶变换换( (即设相位恒定为零即设相位恒定为零) )。设信号为。设信号为s(n)s(n),则其倒

59、谱为:则其倒谱为:v根据语音信号产生模型,语音信号根据语音信号产生模型,语音信号s(n)s(n)是由声门脉冲激励是由声门脉冲激励e(n)e(n)经声道响应经声道响应v(n)v(n)滤波而得到,即:滤波而得到,即:v设三者的倒谱分别为设三者的倒谱分别为s s (n)(n)、e e (n)(n)及及v v (n)(n),则有:,则有:)(ln)( nsDFTIDFTns)(*)()(nvnens)( )( )( nvnens 语音信号倒谱分析实例语音信号倒谱分析实例 语音信号倒谱分析实例语音信号倒谱分析实例倒谱分析实例:倒谱分析实例:MELMEL频率倒谱参数频率倒谱参数(MFCCMFCC)vMFC

60、CMFCC(Mel-Frequency Cepstral Coefficents Mel-Frequency Cepstral Coefficents MFCCMFCC)v分析着眼于人耳的听觉特性,因为,人耳所听到的分析着眼于人耳的听觉特性,因为,人耳所听到的声音的高低与声音的频率并不成线性正比关系,而声音的高低与声音的频率并不成线性正比关系,而用用MelMel频率尺度则更符合人耳的听觉特性。所谓频率尺度则更符合人耳的听觉特性。所谓MelMel频率尺度,它的值大体上对应于实际频率的对数分频率尺度,它的值大体上对应于实际频率的对数分布关系。布关系。MelMel频率与实际频率的具体关系频率与实际频

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论