




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三章 语音信号的时域分析 引言1.语音信号的短时处理方法2.短时能量和短时平均幅度3.短时平均过零率4.短时自相关函数5.短时时域处理技术应用举例引言l语音信号处理语音信号处理包括语音通信、语音合成、语音识别、说话人识别和语音增强等方面,但其前提和基础是对语音信号的分析。l语音信号分析语音信号分析可分为时域、频域、倒谱域等方法。在分析处理之前必须把要分析的语音信号部分从输人信号中找出来,这项工作叫语音信号的端点检测。l语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码);l预处理预处理一般包括预加重、加窗和分帧等。l语音分析语音分析分为模型分析法和非
2、模型分析法两种。l模型分析法是指依据语音产生的数学模型,来分析和提取表征这些模型的特征参数;共振峰模型分析及声管模型(即线性预测模型)分析即属于这种分析方法。l非模型分析法,包括上面提到的时域分析法、频域分析法及同态分析法等。引言l时域分析通常用于最基本的参数分析及用于语音的分割、预处理和大分类等。其特点为:l 表示语音信号比较直观、物理意义明确。l 实现起来比较简单、运算量少。l 可以得到语音的一些重要参数。引言l短时分析技术:语音信号有时变特性,是一个非平稳的随机过程。但在一个短时间范围内其特性基本保持不变。即语音的“短时平稳性”。l “短时分析”,即对语音信号流采用分段处理。将其分为一段
3、一段来分析,其中每一段称为一“帧”,由于语音通常在1030 ms之内是保持相对平稳的,因而帧长一般取为1030 ms。l注:对于某些要求较高的研究领域或应用场合(如语音识别),应该考虑语音信号是时变或非平稳的,此时应采用“隐马尔可夫模型”3.1 语音信号的短时处理方法 语音信号的波形在时间上是连续变化的,所以是一个连续时间信号,它的电位振幅可以是在一个电压范围内的任何电位,是一个连续值,这个电位信号我们叫它模拟信号。我们在处理语音信号时,通常是一小段一小段地观察语音信号的变化,也就是以音窗也可称作语音帧为单位,对每一语音帧内的信号,抽取出代表语音的特征参数,这就是短时语音处理。 在本章中,我们
4、先介绍如何将语音信号作取样与数字化,然后介绍基本的数字编码,即脉冲编码调制 (PCM)。将语音信号变成数字信号之后,我们可以计算短时段的信号能量、过零率、自相关函数等时域参数,以及在下一章将一个音窗内的信号作傅里叶转换,得到频域中的参数。3.1 语音信号的短时处理方法离散时间信号现在许多设备都是在数字系统中处理信号,所以模拟信号(analog signal)要经过一个模拟到数字转换器(analog-to-digital converter , ADC),转换成数字信号(digital signal),才能在数字系统(digital system)中储存或是让计算机处理。在数字系统中处理后的数字
5、信号,要经过数字到模拟转换器(digital-to-analog converter, DAC),转换成模拟信号之后,才作为输出。将模拟信号转换成数字信号的过程,就叫做模拟到数字的转换。它需经过两个步骤,就是取样(sampling)与量化(quantization)。3.1 语音信号的短时处理方法取样所谓取样,就是以固定的时间间隔,将模拟信号的振幅记录下来。从数学上看,就是将模拟信号乘上一个周期性的脉冲信号,得到一序列的脉冲,其脉冲的大小就是在该取样的时间点上模拟信号的振幅。如果以时间函数xa(t)表示一个模拟信号,取样周期为Ts,则取样后的信号变成xp(t),它等于xa(t)乘上一序列的脉冲
6、,)()()(tptxtxap(3-1)(3-2)p(t)是一个脉冲序列信号,表示如下式kskTttp)()(3.1 语音信号的短时处理方法图3-1语音信号波形及其取样3.1 语音信号的短时处理方法如果我们对一个信号取样,而未对信号事先作低通滤波即反混叠滤波,取样频率又太低,这样得到的离散时间信号就不正确,取样得到的数字信号是不能用的。转换到频域看,若是取样频率太低,它的信号频谱就会发生重叠,用低通滤波器无法取出原来的频谱,因此就不可能完整地复原。这种取样之后使得频域上频谱重叠的现象,叫做信号混叠(aliasing)。信号频宽取样频率电话的语音3.5 kHz8 kHz计算机上麦克风接口信号7
7、kHz16 kHz音响,人耳听觉的上限20 kHz44.1 kHz3.1 语音信号的短时处理方法 脉冲编码调制一个模拟信号取样之后,变成离散时间信号,接下来就是要用数字方式来表示这个离散时间信号上的每个取样值。一个电位波形会有固定的电压范围,一个取样值可以是在此电压范围内的任何电位。如果只能用固定数目的位来表示这些取样值,那么这些二进数字就只能代表固定的几个电位值,这个转换就是量化(quantization),而转换之后只允许存在的几个电位值就是量化阶数(quantization level)。执行量化转换的硬件电路,就是量化器(quantizer)。以二进数字表示的信号就是数字信号(digi
8、tal signal),而这种将信号波形转变成二进数字的方法,就叫脉冲编码调制(pulse code modulation, PCM)。3.1 语音信号的短时处理方法 脉冲编码调制图3-3等间距量化的例子在 -2V到 +2V的电压范围内,用三个位代表的二进数字作量化3.1 语音信号的短时处理方法 脉冲编码调制如果有一个取样的电位为 +0.65V,落在 +0.5V到 +1.0V的格子中,我们就知道它的对应二进数字是101,于是这个离散时间信号被转换成101所代表的数字信号。当要将数字信号还原成离散时间信号时,每三个位就组成一个数字,代表一个离散时间信号值,但是作为代表的电位,是该格子的中间值,以
9、101为例,其代表的电位是+0.75V,所以还原之后的离散时间信号值是+0.75V,与原来的+0.65V相差0.10V,这个差值就是量化误差(quantization error) 。对于每一格宽度为0.5V的量化方式,其误差值在 -0.25V到 +0.25V之间,也就是格子宽度的一半。3.1 语音信号的短时处理方法 脉冲编码调制将量化误差d(n)看成是一个随机变数(random variable),其值就在 -/2到 +/2之间作均匀分布(uniform distribution),其概率密度函数(probability density function, pdf)写成下式,22,1)(df
10、(3-8)平均值(mean)为0,方差(variance)为2max2223212xBd(3-9)3.1 语音信号的短时处理方法 脉冲编码调制对于平均值为0的信号,其强度(intensity)即能量就等于其方差。我们计算其信号能量对量化误差引起的噪音能量的比值,就叫做量化信噪比(signal-to-noise ratio, SNR) ,2max222223xSNRxBdx(3-10)以分贝(decibel, dB)来表示信噪比,)(log2077. 402. 6max10 xBSNRxdB(3-11)3.1 语音信号的短时处理方法 脉冲编码调制若是xmax取为4倍方差(x)27. 702. 6
11、BSNRdB(3-12)取样之位数数字信号的信噪比841 dB1689 dB24137 dBl取样率经常取10 kHz。l某些现代语音处理系统语音频率高端扩展到79 kHz,相应的取样率也提高到1520 kHz。3.1 语音信号的短时处理方法取样率和量化字长的选择 l(a)是一段语音信号400个取样值的包络曲线,l(b)3 bit量化器的量化噪声与被量化信号之间存在着一定的相关性l(c)8 bit量化噪声几乎已经看不出这种相关性了。3.1 语音信号的短时处理方法取样率和量化字长的选择 l(d)3 bit量化器的噪声与“平稳白噪声过程”的假设不大相符l(e)8 bit量化器的噪声的自相关函数的估
12、计几乎是一个冲激函数,这与“白噪声过程”的假设相一致。l(f) 3 bit量化噪声谱和语音信号谱的性质有某些相似,也是随着频率的升高而下降l(g) 8 bit时,其量化噪声谱就比较平坦了,这是典型的白噪声谱的形状。3.1 语音信号的短时处理方法取样率和量化字长的选择 lSNR(dB)6.02B-7.2 l每bit字长对SNR贡献为6dB。l当B7bit时, SNR35 dB。此时量化后的语音质量能满足一般通信系统的要求。l语音波形的动态范围可达55 dB,故B应取10 bit以上。为了在语音信号变化的范围内保持35 dB的信噪比,一般要求B11,实际常用12 bit来量化,其中附加的5bit用
13、于补偿30 dB左右的语音波形的动态范围变化。3.1 语音信号的短时处理方法取样率和量化字长的选择 3.1 语音信号的短时处理方法预处理 图3-4语音信号处理系统框图l反混叠滤波器:为了防止混叠失真和噪声干扰,必须在取样前用一个具有良好截止特性的模拟低通滤波器对语音信号进行滤波,该滤波器称为反混叠滤波器。有时为了防止50 Hz市电频率干扰,该低通滤波器实际上做成一个从100 Hz到3.4kHz的带通滤波器。对该滤波器的要求是其带内波动和带外衰减特性应尽可能好。3.1 语音信号的短时处理方法预处理 l平滑滤波器:D/A后面的低通滤波器是平滑滤波器,对重构的语音波形的高次谐波起平滑作用,以去除高次
14、谐波失真。l预加重:l现象:由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800 Hz以上按6dB/倍频程跌落,为此要在预处理中进行预加重。l目的:提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。l位置:预加重可在A/D变换前的反混叠滤波之前进行,这样不仅能够进行预加重,而且可以压缩信号的动态范围,有效地提高信噪比。3.1 语音信号的短时处理方法预处理 3.1 语音信号的短时处理方法 加窗加窗取语音帧取语音帧对于一段语音的离散时间信号x(m),用一个固定长度的窗口(window)套上去,只看窗口内的信号,对这些信号做计算,用以求出在这窗口内的语音特征(s
15、peech features)。这样的处理方式,就叫加窗(windowing),而套上去的这一段语音即称为语音帧(frame)。通常窗口的长度是取1030 毫秒 (ms),这样一段语音信号,足以计算出语音的特征参数(feature parameters)。窗口的移动距离,大约会取520 ms,让前后的语音帧有部分重叠,这样能观察到语音特征改变的延续性以保证分析的准确性。3.1 语音信号的短时处理方法 加窗加窗取语音帧取语音帧3.1 语音信号的短时处理方法 加窗加窗取语音帧取语音帧3.1 语音信号的短时处理方法 加窗加窗取语音帧取语音帧假设加窗的长度为N,在时域中可以写成(3-13)将窗函数w(
16、m)乘在语音信号中的某一个时间点上,otherwiseNmmsmww, 010),()()()()(mnwmxmxn(3-14)n是加窗位置标示,可以看出只有当当m m在在n-N+1mnn-N+1mn之间之间, 才不会是0,也就是x(m)在n-N+1mn这一时段中被取出,作为一个语音帧。)(mxn3.1 语音信号的短时处理方法 加窗加窗取语音帧取语音帧在语音处理中最常用的两种窗函数是矩形窗(rectangular window)与海明窗(Hamming window)。矩形窗的数学式如下:otherwiseNnnw, 010, 1)(3-15)otherwiseNnNnnw, 010),12c
17、os(46. 054. 0)(海明窗数学式如下:(3-16)3.1 语音信号的短时处理方法 加窗加窗取语音帧取语音帧图3-4常用的窗函数3.1 语音信号的短时处理方法l语音信号短时处理的一般表示:其中T 为某种运算关系,Qn为运算后的结果)()(mnwmxTQn( )( ) ()nx mx m w nm3.2 短时能量和短时平均幅度l语音信号的能量分析是基于语音信号能量随时间有相当大的变化,l清音段的能量一般比浊音段的小得多。l能量分析包括能量和幅度两个方面。l对语音信号采用短时分析时,信号流的处理用分段或分帧来实现。l一般每秒的帧数约为33100,视实际情况而定。l分帧既可连续,也可采用交叠
18、分段的方法,使相邻帧有部分相重叠。3.2 短时能量和短时平均幅度l振幅越大则能量越大,通常用以下方式计算语音能量l短时平均能量函数 变换T 是指平方和运算; 两种计算方法: (3-17) mnmnwmxE2)()(3.2 短时能量和短时平均幅度l振幅越大则能量越大,通常用以下方式计算语音能量l短时平均能量函数 变换T 是指平方和运算; 两种计算方法: (3-18) h(n)是无限冲激响应滤波器时,短时能量可递推计算得到mnmnhmxE)()(2l直角窗时lh(n)1, 0nN-1lh(n)0, 其他 l对应于该单位函数响应的数字滤波器的频率响应为 l它具有线性的相位频率特性,其频率响应中第一个
19、零值所对应的频率为这里,fs为取样频率,而T1/fs为取样周期。2/ )1(10)2/sin()2/sin()(NjNnnTjTjeTTNeeHNTNffs1013.2 短时能量和短时平均幅度矩形窗与海明窗的频率响应: 海明窗的第一个零值频率位置比直角窗要大1倍左右,即带宽约增加1倍; 同时其带外衰减也比直角窗大得多。3.2 短时能量和短时平均幅度l对语音信号的时域分析来说:l窗口的形状窗口的形状是重要的,选用不同的窗口,将使能量的平均结果不同:直角窗的谱平滑较好,但波形细节丢失(高频分量);而海明窗则相反。l窗的长度窗的长度对于能否反映语音信号的幅度变化,将起决定作用。如果N很大,它等效于带
20、宽很窄的低通滤波器,此时En随时间的变化很小,不能反映语音信号的幅度变化,波形的变化细节就看不出来;反之,N太小时,滤波器的通带变宽,短时能量随时间有急剧的变化,不能得到平滑的能量函数。因此,窗口长度选择应合适。l窗口长度选择应合适。这里所谓窗口的长与短,都是相对于语音信号的基音周期而言的。通常认为在一个语音帧内,应含有17个基音周期。然而不同人的基音周期变化范围很大,从女性儿童的2 ms到老年男子的14 ms(即基音频率为500 Hz70 Hz),所以N的选择比较困难。通常在10 kHz取样频率下,N折衷选择为折衷选择为100200(即即1020 ms持续时间持续时间)。3.2 短时能量和短
21、时平均幅度lN51时,窗选得较窄,En随语音信号波形变化而很快起伏;lN401时,窗选得太宽,En随语音信号波形的变化而很缓慢地变化;lN101或N201时,En随语音信号波形的变化而快速变化,从而充分反映出此信号的特征。3.2 短时能量和短时平均幅度En的作用:反映出语音的能量或语音振幅随时间缓慢变 化的规律。(浊音段能量比清音段大的多)En的应用:1)区分清音段和浊音段 2)区分声母和韵母3)区分无声和有声的分界(信噪比较高的信号)4) 区分连字的边界 5)用于语音识别 En的缺点:对高电平过于敏感,给加窗宽度的选择带来了困难。扩大了振幅不相等的任何两个相邻取样值(此处的取样值是指某语帧的
22、短时平均能量值)之间的幅度差别,必须用较宽的窗函数才能平滑能量幅度的起伏。l为了使En能准确反映语音能量的时变规律: 数据窗w(n)或滤波器h(n)函数形式和宽度的选择相当重要。)3.2 短时能量和短时平均幅度图3-6 语音信号的短时平均能量曲线3.2 短时能量和短时平均幅度短时平均幅度 变换T 是取绝对值求和运算; 两种计算方法: 即:)(* | )(|)(| )(|nhnxmnhmxMmn)(| )(|mnwmxMmn3.2 短时能量和短时平均幅度l窗口长度N对平均幅度函数的影响与短时平均能量的分析结果相同。l短时平均幅度的动态范围(最大值与最小值之比)比短时平均能量要小,实际上短时平均幅
23、度的动态范围接近于短时平均能量的平方根。l同样可以区分出清音和浊音,但二者的电平差不如短时能量那样明显。l在清音的范围内,Mn和En二者的区别特别显著。 3.3 短时平均过零率计算一个语音帧内单位时间越过零线的平均次数,可以得出其短时平均过零率(zero crossing rate)或短时平均过零数。声带振动时,是在发浊音,所以过零率低,声带不振动时,是在发清音,所以过零率就高,没有声音时若有噪音存在,也会有较高的过零率。过零:信号波形穿越时间轴或零值线;对于离散时间信号而言就是相邻的取样值符号改变。平均过零率:单位时间(或单位样本)内过零的次数。3.3 短时平均过零率l变换T 相当于平均过零
24、率计算;l短时平均过零率的计算方法:0)(, 10)(,00)(, 1)(sgn,010 ,21)()(*|)1(sgn)(sgn|)(|)1(sgn)(sgn|nxnxnxnxnNnNnwnwnxnxmnwmxmxZmn值其余3.3 短时平均过零率图3-7 语音信号的短时平均过零率曲线3.3 短时平均过零率实际应用区分清、浊音3.3 短时平均过零率l在背景噪声较大的情况下,从噪声信号中找出语音信号,判断出语音的起点和终点。注意:对于弱摩擦音f、h,弱爆破音p、t、k,鼻音ng、n、m,只用En(Mn)或Zn中一个参量判断语音的起点和终点是有困难的,必须同时用En和Zn或Mn和Zn。3.3 短
25、时平均过零率语音的端点检测利用短时平均能量函数曲线与短时平均过零率曲线,我们可以做语音的端点检测(end-point detection)。在语音未开始之前,会取到一段背景噪音的信号,在语音结束之后也会取到一段背景噪音。语音端点检测就是要找出语音从第几个语音帧开始,到第几个语音帧结束。语音端点侦测程序如下:(1) 取到的一段声音以固定语音帧长度及固定语音帧帧移,转成一序列的语音帧。然后计算每一语音帧的短时平均能量函数En,l 与短时平均过零率Zn, l 其中l是语音帧的序号,l = 1, 2,3, .,语音帧能量以对数值表示(2) 最前面的若干个语音帧视为噪音部分,求其所有语音帧短时平均能量与
26、短时平均过零率的分布,即计算其平均值与方差。bnNllnbnbnENE1,1bnNllnbnbnZNZ1,1bnNlbnlnbnEbnEEN12,2)(1bnNlbnlnbnZbnZZN12,2)(1(3) 设定两个能量门限值及一个过零率门限值。EbnbnELET1212,EbnbnEUETZbnbnZZT33.3 短时平均过零率语音的端点检测(4) 沿着语音帧序列,标注第一个短时平均能量超过TEL 的语音帧,注记为NV。如果其后连续的B个语音帧,其短时平均能量大于TEL,而且B个语音帧之后,短时平均能量更是大于TEU,则NV视为可能的语音起点。反之,在NV之后的B个语音帧内,有小于TEL的,
27、或是B个语音帧之后不会大于TEU,则可能只是短暂的噪音造成的现象。因此放弃此NV点,继续往下找。(5) 找到NV之后,往回检查,看其前个语音帧短时平均过零率,是否大于TZ,若是就继续往回找,直到短时平均过零率小于TZ为止。这时候的语音帧视为真正语音的起点,将此语音帧订为N0。如果在NV之前,C个语音帧内没有短时平均过零率大于TZ者,就将NV作为真正的语音起点,这表示没有低能量的辅音在前面。3.3 短时平均过零率语音的端点检测(6) 从NV之后应该是元音,以后的语音帧能量大于TEL,就是语音存在,一直到能量小于TEL,就视为语音结束,语音终点的语音帧标注为NE。(7) 从N0或NV到NE之间,就
28、是语音存在的区域。如果只是要找元音存在的语音帧,也可以用整句语音中的最大短时平均能量来估计,如:max3 . 0 ETE3.3 短时平均过零率语音的端点检测图3-8语音端点的检测3.3 短时平均过零率语音的端点检测3.4 短时自相关函数相关分析:1)自相关 2) 互相关语音信号处理的相关分析:短时自相关函数短时自相关函数应用: 分析语音信号的同步性和周期性。回顾确定性信号序列自相关函数:( )( ) ()mR kx m x mk3.4 短时自相关函数l序列自相关函数的性质:1) 若此序列是周期的(周期为Np),则 R (k)=R (k + Np) 2) R (k)= R (-k)3) R (0
29、)R (k)4) R(0)等于确定性信号序列的能量或随机序列的平均功率l由性质1)、3)可知浊音的自相关函数周期性出现峰值点,且周期为基音周期。3.4 短时自相关函数l短时自相关函数的定义l计算方法: 优点:在只需计算少数几个滞后时间的自相关值时;窗函数选择适当时,可得到递推计算方法 )()()()()()(,, )()()()()()(mnnmnnkmnwkmxmnwmxkRkR。kmnwkmxmnwmxmxTkR利用自相关函数的性质式应用于窗选语音段然后把自相关函数定义段首先乘以窗来选择语音lRn(k)x(n)x(n-k) * hk(n) l短时自相关函数可看做序列x(n)x(n-k)通过单位脉冲响应为hk(n)的数字滤波器的输出。 3.4 短时自相关函数l由图3-18(a)、(b)可见:l对应于浊音语音的自相关函数,具有一定的周期性。在相隔一定的取样后,自相关函数达到最大值。l图3-18(c)上自相关函数没有很强的周期峰值,表明在信号中缺乏周期性,这种清音语音的自相关函数有一个类似噪声的高频波形,有点像清音信号。3.4 短时自相关函数3.4 短时自相关函数修正的短时自相关函数l在语音信号处理中l N值至少要大于基音周期的二倍,否则将找不到第二个最大值点。lN值也要尽可能地小;因为语音信号的特性是变化的,如N过大将影响短时性。l由于语音信号的最小
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 甘肃省张掖市高台县一中2025年物理高一下期末达标检测模拟试题含解析
- 2025年广东省广州市番禺区番禺中学物理高一下期末综合测试试题含解析
- 2025届福建省宁德市普通高中物理高二下期末学业质量监测模拟试题含解析
- 2025届河南省许昌平顶山物理高一下期末检测模拟试题含解析
- 断绝父子关系协议模板
- 二零二五版北京个人汽车租赁应急响应服务合同
- 二零二五年度北仑区老年活动中心租赁合同(含健康讲座)
- 2025年高性能复合材料采购与应用合作协议
- 2025版广州知识产权许可使用合同样本
- 2025版敏感信息保密协议示范文本
- 无人机撒肥协议书
- 2025年航天知识竞赛题库及答案
- 《国际贸易理论与实务》考试复习题库(含答案)
- 公路工程标准施工招标文件第八章-工程量清单计量规则(2018年版)
- 看场工作合同协议
- 工艺验证检查指南2025
- 安徽亳州谯城在建风电场项目“9.5”较大高处坠落事故调查报告警示教育专题学习
- 预防给药错误
- 石化公司安全生产管理制度汇编
- 支气管激发试验临床应用中国专家共识(2024版)
- DB4401∕T 11-2018 建筑废弃物运输 车辆标志与监控终端、车厢规格与密闭
评论
0/150
提交评论