语音信号处理第3章语音信号分析_第1页
语音信号处理第3章语音信号分析_第2页
语音信号处理第3章语音信号分析_第3页
语音信号处理第3章语音信号分析_第4页
语音信号处理第3章语音信号分析_第5页
已阅读5页,还剩106页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、概述语音信号的数字化和预处理语音信号的时域分析语音信号的频域分析基间周期估计共振峰估计第三章 语音信号分析3.1 概述语音信号分析(提取表示语音信号特征的参数):短时分析技术特征参数均是随时间而变化的-非平衡态过程在短时间范围内(10-30ms),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。3.1 概述参数性质的不同:时域分析频域分析(倒频域分析、线性预测分析)分析方法的不同:模型分析方法非模型分析方法3.2 语音信号的数字化和预处理语音信号分析的两个步骤语音信号数字化:反混叠滤波、增益控制、采样、A/D变换及编码(PCM码)预处理:一般包括预加重

2、、加窗和分帧等。带通滤波器自动增益控制 (AGC)模/数转换(A/D)脉冲编码调制(PCM)语音信号存入计算机数字化:预滤波 抑制语音信号中频率超出fs/2的频谱分量(fs为采样频率),防止混叠干扰。抑制50Hz的电源工频干扰。预滤波器必须是一个带通滤波器,设其上、下截止频率分别是fH和fL:fH =3400Hz, fL=60-100Hz, fS=8kHz数字化:采样、A/D变换数字化:采样、A/D变换语音信号经过预滤波和采样后,由A/D变换器变换为二进制数字码。A/D要对信号进行量化,不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差,又称为量化噪声。若信号波形的变化足够大

3、,或量化间隔足够小时,量化噪声符合具有下列特征: 是平稳的白噪声过程 量化噪声与输入信号不相关 量化噪声在量化间隔内均匀分布,即具有等概率密度分布数字化:采样、A/D变换量化信噪比SNR(信号与量化噪声的功率比):其中x2表示语音方差,2Xmax表示信号的峰值,B表示量化字长, e2表示噪声方差。通常语音信号的幅度符合Laplacian分布,则表明量化器中的每bit字长对SNR的贡献为6dB。预处理:预加重语音信号的平均功率谱受声门激励和口鼻辐射影响,预处理中要进行预加重(Preemphasis)处理。其目的是提升高频部分,使信号频谱变得平坦,以便于频谱分析或声道参数分析。 预处理:分帧语音信

4、号预加重后,进行加窗分帧处理。一般33-100s/帧。分帧可以采用连续分段,但一般要采用如交叠分段,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0-1/2。预处理:分帧 预处理:加窗分帧加窗的过程:在时域用窗函数(n)对语音信号s(n)进行截断,从而形成加窗信号s(n)=s(n)* (n)常用的窗函数是矩形窗和汉明窗(其中N为帧长):矩形窗:汉明窗:预处理:加窗窗函数的形状和长度对短时参数特征影响很大1.窗口形状时域:要减小时间窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以使截取出的语音波形缓慢降为零,减小语音帧的截

5、断效应;频域:要有较窄的3dB带宽以及较大的旁瓣衰减(较小的边带最大值)。这里只以典型的矩形窗和汉明窗为例进行比较。预处理:加窗矩形窗与汉明窗的比较汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,同时其带外衰减也比矩形窗大一倍多,汉明窗比矩形窗更为合适。因此,对语音信号的短时分析来说,窗口的形状是至关重要的。窗类型旁瓣峰值主瓣宽度最小阻带衰减矩形窗-134/N-21汉明窗-418/N-53预处理:加窗预处理:加窗矩形窗、Hamming窗下信号功率谱的比较预处理:加窗预处理:加窗 2.窗口的长度 采样周期Ts=1/fs,窗口长度N和频率分辨率f之间存在下列关系:采样率一定时,f 随窗口宽度N的

6、增加而减小,即频率分辨率相应得到提高窗口长,频率分辨率高,时域分辨率降低窗口短,频率分辨率低,时间分辨率提高预处理:加窗窗口长度的选择,更重要的是要考虑语音信号的基音周期。通常认为在一个语音帧内应包含17个基音周期。不同人的基音周期变化很大,从女性和儿童的2ms到老年男子的14ms(即基音频率的变化范围为50070Hz),所以N的选择比较困难。通常在10kHz取样频率下,N折中选择为100200点为宜(即1020ms持续时间)。数字化和预处理经过数字化和预处理过程,语音信号就已经被分割成一帧一帧的加过窗函数的短时平稳信号对每一个短时语音帧,利用数字信号处理技术来提取语音特征参数。3.3 语音信

7、号的时域分析时域分析就是分析和提取语音信号的时域参数,通常用于最基本的分析及应用,如语音的分割、预处理、分类等,其特点表示语音信号比较直观、物理意义明确。实现起来比较简单、运算量少。可以得到语音的一些重要的参数。只使用示波器等通用设备,使用较为简单等 1.短时能量及短时平均幅度分析语音波形时域信号为x(t)加窗分帧后的第n帧语音信号为xn(m)设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式如下:1.短时能量及短时平均幅度分析En用于度量语音信号幅度值变化,其缺点是对高电平非常敏感(采用信号的平方)。可采用另一个度量语音信号幅度值变化的函数,即短时平均幅度函数Mn:Mn用于表征一帧

8、语音信号能量大小,与En的区别在于计算时不会因为取平方而造成较大差异。2.短时过零率分析短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。连续语音信号,过零即意味着时域波形通过时间轴离散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。定义语音信号xn(m)的短时过零率Zn为:式中,sgn是符号函数,即2.短时过零率分析Zn可以从背景噪声中找出语音信号,可用于判断寂静无声段和有声段的起点和终点位置。在背景噪声较小时用平均能量识别语音起止位置较为有效,而在背景噪声较大时用平均过零率识别较为有效。对于一些特殊发音,只用其中一个参量来判别语音的起点和终点是有困难的,

9、必须同时使用这两个参数。 3.短时相关分析相关分析有自相关和互相关之分。这里主要讨论自相关函数。自相关函数的作用:浊音语音的基音周期估计。线性预测分析 3.短时相关分析1.短时自相关函数定义语音信号xn(m)的短时自相关函数Rn(k) :这里K是最大的延迟点数。短时自相关函数的性质:(1)如果xn(m)是周期的,则自相关函数是同周期(2)Rn(k)是偶函数(3) Rn(0)是最大值,且为确定信号的能量或随机信号的功率。 3.短时相关分析 2.修正的短时自相关函数修正的短时自相关函数是用两个长度不同的信号进行乘积和,修正的短时自相关函数定义为 其中, 3.短时相关分析 2修正的短时自相关函数 4

10、.短时平均幅度差函数短时自相关函数是重要参量,其缺点是运算量很大,其原因是乘法运算所需要的时间较长。为了避免乘法,一个简单的方法就是利用差值。为此常常采用另一种与自相关函数有类似作用的参量,即短时平均幅度差函数(AMDF)。平均幅度差函数能够代替自相关函数进行语音分析,是基于这样一个事实:如果信号是完全的周期信号(设周期为Np),则相距为周期的整数倍的样点上的幅值是相等的,差值为零。 4.短时平均幅度差函数对于实际的语音信号,差值不为零,但其值很小,这些极小值将出现在整数倍周期的位置上。为此,可定义短时平均幅度差函数: 4.短时平均幅度差函数3.4 语音信号的频域分析频域分析就是分析语音信号的

11、频域特征:语音信号的频谱功率谱倒频谱频谱包络分析常用的频域分析方法:带通滤波器组法傅里叶变换法线性预测法1.短时傅里叶变换对第n帧语音信号xn(m)进行傅里叶变换(离散时域傅里叶变换,DTFT):语音信号的傅里叶变换,窗口函数不同,傅里叶变换的结果也将不同。1.短时傅里叶变换根据功率谱定义,短时功率谱与短时傅里叶变换之间的关系:或者:式中*表示复共轭运算。并且功率谱Sn(ej)是短时自相关函数Rn(k)的傅里叶变换。2.倒谱分析语音信号的倒谱分析:求取语音倒谱特征参数的过程语音信号的解卷线性预测分析同态分析同态分析:也称为同态滤波,将卷积关系变换为求和关系的分离处理。2.倒谱分析-同态处理许多

12、信号是乘积性信号或卷积性信号,如语音信号、图像信号、通信中的衰落信号、调制信号等,即非线性系统。同态信号处理就是将非线性问题转化为线性问题的处理方法乘积同态处理卷积同态处理由于语音信号为声门激励和声道冲击响应的卷积,这里仅讨论卷积同态信号处理。2.倒谱分析-同态处理同态系统可分解为三个子系统,即两个特征子系统(只取决于信号的组合规则)和一个线性子系统(仅取决于处理的要求)。对于语音信号,主要是第一个子系统D,完成将卷积性信号转化为加性信号的运算。2.倒谱分析-同态处理2.倒谱分析-同态处理第一个子系统D* 将卷积性信号转化为加性信号的运算,即对于信号x(n)=xl(n)*x2(n)进行了如下运

13、算处理:2.倒谱分析-同态处理复倒谱和倒谱D* 系统中的x(n)信号是时域序列,但其离散时域不同于x(n)的离散时域,称之为“复倒频谱域”。 x(n)是x(n)的“复倒频谱”,简称为“复倒谱”,其英文原文为“Complex Cepstrum”,Cepstrum是一个新造的英文词,是由Spectrum这个词的前四个字母倒置而构成的。2.倒谱分析-同态处理复倒谱和倒谱绝大多数信号系统而言,X(z),X(z) 的收敛域均包含单位圆,因而D*系统有如下形式:2.倒谱分析-同态处理X(n)傅里叶变换的对数形式为:即复数的对数仍是复数。注意,对数的虚部argX(ej)由于是X(ej)的相位,所以将产生不一

14、致性。2.倒谱分析-同态处理只考虑实部:显然c(n)是x(n)对数幅度谱的傅里叶逆变换。c(n)称为“倒频谱”或简称为“倒谱”,量纲是时间。c(n)实际上就是语音信号倒谱特征。2.倒谱分析-同态处理复倒谱和倒谱特点和关系。复倒谱要进行复对数运算,而倒谱只进行实对数运算对于倒谱,一个序列经过正逆两个系统变换后,不能还原成自身,因为序列的相位信息丢失。与复倒谱类似,如果c1(n)和c2(n)分别是x1(n)和x2(n)的倒谱,并且x(n)= x1(n)*x2(n),则x(n)的倒谱c(n)= c1(n)+c2(n) 。已知实数序列x(n)的复倒谱x(n),可以由x(n)求出倒谱c(n)。已知实数序

15、列x(n)的倒谱c(n),能否用它来求出复倒谱x(n)?2.倒谱分析-同态处理语音信号两个卷积分量的复倒谱语音信号可看做是激励信号和声道响应信号的卷积,因此下面将分别讨论这两个信号的复倒谱的性质。2.倒谱分析-同态处理1.激励信号清音的激励是能量较小,频谱均匀分布的白噪声;浊音的门激励是以基音为周期的冲激序列:其中M、r均为正整数,r为幅度因子,Np为基音周期有限长的周期脉冲序列,其倒谱也是一个周期脉冲序列,且周期不变,只是序列变为无限长序列。倒谱振幅的衰减速度比原激励信号快2.倒谱分析-同态处理2.声道响应序列倒谱是衰减序列。声道脉冲的倒谱随n增大而衰减的速度至少比1/n快。结论对于语音信号

16、而言,可以用“高时窗”从倒谱中提取浊音激励信号的倒谱,从而提取出基音信号。2.倒谱分析-同态处理 1由同态分析求出的语音信号倒谱倒谱为频谱模的自然对数的逆傅里叶变换(即设相位恒定为零)。设信号为s(n),则其倒谱为:语音信号s(n)是由声门脉冲激励e(n)经声道响应v(n)滤波而得到:则在倒谱域有:2.倒谱分析-同态处理2.倒谱分析-同态处理 浊音倒谱2.倒谱分析-同态处理 清音倒谱2.倒谱分析-同态处理 2MEL频率倒谱参数(MFCC)MFCC(Mel-Frequency Cepstral Coefficents,简称MFCC)的分析着眼于人耳的听觉特性,因为,人耳所听到的声音的高低与声音的

17、频率并不成线性正比关系,而用Mel频率尺度则更符合人耳的听觉特性。Mel频率尺度,对应于实际频率的对数分布:2.倒谱分析-同态处理2.倒谱分析-同态处理浊音MFCC倒谱2.倒谱分析-同态处理清音MFCC倒谱3.线性预测分析线性预测分析的基本思想是:由于语音样点之间存在相关性,可以用过去的样点值来预测现在或未来的样点值,即一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。这组预测系数就反映了语音信号的特性,可以作为语音信号特征参数用于语音识别、语音合成等。3.线性预测分析线性预测与语音数字模型关

18、系s(n)是生成的语音信号,e(n)是激励信号,H(z)是生成模型:3.线性预测分析根据第二章关于语音信号的生成模型,声道模型采用级联(浊音-全极点)、并联(清音-零极点)、混合型(浊音、清音)实际应用中,浊音、清音均用全极点模型零极点模型可以用全极点模型进行近似极点模型参数求解利用线性方程,计算复杂度低;而零极点模型参数求解采用非线性方程。3.线性预测分析全极点模型:时域形式:3.线性预测分析浊音,e(n)是周期性脉冲;清音,e(n)是白噪声信号全极点模型就是估计参数ai,通常将下式称为预测器:3.线性预测分析基本思想是:用过去p个样点值来预测现在样点值:预测误差(n)为:3.线性预测分析通

19、常采用最小均方误差准则,即使预测误差 (n)达到最小值的方法来决定线性预测系数ai(i=1,2,p)。3.线性预测分析均方误差对aj求偏导,并令其为零,有:3.线性预测分析 上式为Yule-Walker方程,等式左侧是Toeplitz矩阵,可用莱文逊-杜宾Levinson-Durbin递推算法来高效地求解。3.线性预测分析 LPC谱估计利用预测器系数,就可以得到语音信号生成模型的频率响应:在共振峰频率上其频率响应特性会出现峰值,因此线性预测分析法又可以看做是一种短时谱估计法,其频率响应H(ej)即称为LPC谱。3.线性预测分析LPC谱估计的特征:在谱峰值处,LPC谱和信号谱很接近谱谷底位置,则

20、相差比较大。对于谐波结构的浊音语音谱来说,就是在谐波成分处LPC谱匹配信号谱的效果要远比谐波之间好得多。这一特点实际上来自均方误差最小准则。3.线性预测分析LPC谱估计的特征如果p选得很大,|H(ej)|精确地匹配于|S(ej)|,且极零模型也可用全极点模型来代替,但增加了计算量和存储量p增加到一定程度以后,平方误差的改善就很不明显了,因此在语音信号处理中,p一般选在814之间。 3.线性预测分析线谱对(LSP)分析也是一种线性预测分析方法,只是它求解的模型参数是“线谱对”(Line Spectrum Pair,简称为LSP)。根据线性预测分析的ak系数构成多项式,其多项式的零点频率wi即为L

21、SP。LSP系数在构成合成滤波器H(z)时容易保证其稳定性,合成语音的数码率也比用格型法求解时要低。 3.线性预测分析 3.线性预测分析浊音 3.线性预测分析浊音自相关和残差信号自相关比较 3.线性预测分析清音 3.线性预测分析清音自相关和残差信号自相关比较3.5 基音周期估计基音是指发浊音时声带振动所引起的周期性,而基音周期是指声带振动频率的倒数基音周期是语音信号最重要的参数之一,它描述了语音激励源的一个重要特征。汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息基音的提取和估计对汉语更是一个十分重要的问题。3.5 基音周期估计基音检测算法:自相关函数(ACF)

22、法、峰值提取算法(PPA)、平均度差函数(AMDF)法倒谱法SIFT谱图法小波法自相关法语音信号s(m)经窗长为N的窗口截取为一段加窗信号Sn(m)后,定义Sn(m)的自相关函数为:Rn(k)不为零的范围为是k=(-N+1)(N-1),且为偶函数。浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;清音的自相关函数没有明显的峰值出现。因此检测是否有峰值就可判断是清音或浊音,检测峰值的位置就可提取基音周期值。平均幅度差函数法(AMDF)语音信号的短时平均幅度差函数(AMDF) Fn(k)定义为:与短时自相关函数一样,对周期性的浊音语音,Fn(k)也呈现与浊音语音周期相一致的周期特性,不过不同的

23、是Fn(k)在周期的各个整数倍点上具有谷值特性而不是峰值特性,因而通过Fn(k)的计算同样可以来确定基音周期。倒谱(CEP)法语音s(n)是由声门脉冲激励e(n)经声道响应v(n)滤波而得,即:在倒谱域中则有:倒谱域中基音信息与声道信息可以认为是相对分离的。采取简单的倒滤波方法可以分离并恢复出e(n)和v(n),根据激励e(n)及其倒谱的特征可以求出基音周期。倒谱(CEP)法倒谱峰在过渡音和含噪语音中将变得不清晰甚至完全消失过渡音中周期激励信号能量降低和类噪激励信号干扰或含噪语音中的噪声干扰所致。典型浊音语音的倒谱,其倒谱域中基音信息与声道信息并不是完全分离的,在周期激励信号能量较低的情况下,

24、声道响应(特别是其共振峰)对基音倒谱峰的影响就不可忽略。如果设法除去语音信号中的声道响应信息,对类噪激励和噪声加以适当抑制,倒谱基音检测算法的检测结果将有所改善,特别对过渡语音的检测结果将有明显改善。 简化逆滤波法(SIFT)简化逆滤波跟踪(SIFT)的基本思想是:语音信号进行LPC分析和逆滤波,获得语音信号的预测残差,残差信号通过自相关滤波器滤波,再作峰值检测,进而获得基音周期。预测误差是自相关器的输入,通过与门限的比较可以确定浊音,通过辅助信息可以减少误差。 简化逆滤波法(SIFT)其工作过程为:语音信号经过10kHz取样后,通过0-900Hz的数字低通滤波,其目的是滤除声道谱中声道响应部

25、分的影响,使峰值检测更加容易。然后降低取样率5倍(因为激励序列的宽度小于1 kHz,所以用2kHz取样就足够了);当然,后面要进行内插。提取降低取样率后的信号模型参数(LPC参数),检测出峰值及其位置就得到基音周期值。最后进行有/无声判别。此处与倒谱法类似,有一个无声检测器,以减少运算量。 简化逆滤波法(SIFT) 小波变换法一个信号的小波变换具有这样的性质:信号小波变换的极值点对应于信号的锐变点或不连续点。浊音语是由气流冲击声门,使声门发生周期性的开启或闭合。声门的这种开启与闭合,在语音信号中引起一个锐变。对语音信号作小波变换则其极值点对应于声门的开启或闭合点,相邻极值点之距离就对应着基音周

26、期。小波变换法 基音检测的后处理无论采用哪一种基音检测算法都可能产生基音检测错误,使求得的基音周期轨迹中有一个或几个基音周期估值偏离了正常轨迹(通常是偏离到正常值的2倍或1/2),并称这种偏离点为基音轨迹的“野点”。 基音检测的后处理为了去除野点,采用平滑算法,其中最常用的是中值平滑算法和线性平滑算法。1中值平滑处理在n0点的左右各取L个样点,共同构成一组信号采样值(共(2L+1)个样值),然后将这(2L+1)个样值按大小次序排成一队,取此队列中的中间者作为平滑器的输出。L值一般取为1或2,即中值平滑的“窗口”一般套住3或5个样值,称为3点或5点中值平滑。中值平滑的优点是既可以有效地去除少量的

27、野点,又不会破坏基音周期轨迹中两个平滑段之间的阶跃性变化。 基音检测的后处理2.线性平滑处理线性平滑是用滑动窗进行线性滤波处理,即:其中(m),m = -L,-L+1,0,1,2,L为2L+1点平滑窗,满足:例如三点窗的权值可取为,0.25。线性平滑在纠正输入信号中不平滑处样点值的同时,也使附近各样点的值做了修改。所以窗的长度加大虽然可以增强平滑的效果,但是也可能导致两个平滑段之间阶跃的模糊程度加重。以上两种平滑技术可以结合起来使用。 基音检测的后处理3组合平滑处理为了改善平滑的效果可以将两个中值平滑串接,图3-29a所示是将一个5点中值平滑和一个3点中值平滑串接.另一种方法是将中值平滑和线性平滑组合,如图3-29b所示。为了使平滑的基音轨迹更贴近,还可以采用二次平滑的算法,全部算法的框图如图3-29

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论