版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 第三章 语音信号分析3.2 语音信号的数字化和预处理 3.3 语音信号的时域分析3.4 语音信号的频域分析3.5 语音信号的倒谱分析3.6 语音信号的线性预测分析A Av v冲激序列冲激序列发生器发生器声门脉冲声门脉冲模型模型G(z)G(z)随机噪声随机噪声发生器发生器基音周期基音周期T TP PA AN N线性系统线性系统声道声道V V( (z z) )辐射模型辐射模型R R( (z z) )清清/ /浊音浊音开关开关)()()()(zRzVzGzH 语音信号的分析,就是找出语音产生模型的各种语音信号的分析,就是找出语音产生模型的各种参数(语音的特征参数),应用于语音的编码、识参数(语音的
2、特征参数),应用于语音的编码、识别和合成等。别和合成等。3.2 语音信号的数字化和预处理一、预滤波、采样和A/D转换二、预处理 1.预滤波的作用:抑制输入信号中频率超出抑制输入信号中频率超出f fs s/2/2的的所有分量,防止混叠;抑制所有分量,防止混叠;抑制50Hz50Hz的电源工频干扰。的电源工频干扰。 预滤波器是一个带通滤波器,一般情况下,上、预滤波器是一个带通滤波器,一般情况下,上、下截止频率为:下截止频率为: f fH H=3400Hz=3400Hz, f fL L=60=60100Hz100Hz。一、预滤波、采样和A/D转换tnxa(nT)xa(t) 2.采样: 将时间连续信号将
3、时间连续信号变成时间离散信号。变成时间离散信号。 采样频率通常为采样频率通常为f fs s8kHz8kHz。 Ideal sampling and real sampling 对离散时间信号进行量化,对离散时间信号进行量化,在每一时刻对在每一时刻对x xa a(nT(nT) )独立进行量化,把给定的幅度连续的信号变成为有独立进行量化,把给定的幅度连续的信号变成为有限多个幅度的集合中某个幅度值的过程。限多个幅度的集合中某个幅度值的过程。3. A/D转换采样采样量化量化x xa a(t)(t)x xa a(nT(nT) )x(n)x(n)x xa1a1x x1 1x xk kx xakakx xa
4、k+1ak+1x xk+1k+1x xL Lx xaLaLx xaL+1aL+1x(n)=Qxx(n)=Qxa a(nT(nT) 000001010011111110101100 /2/2量化误差量化误差( (噪声噪声) ) e(n)=x(n)- xe(n)=x(n)- xa a(nT(nT) ) - - /2/2 e(n) e(n) /2/22 m=00 其他其他(1 1)假设量化噪声是平稳的白噪声过程,有)假设量化噪声是平稳的白噪声过程,有 Ee(n)e(n+m)=Ee(n)e(n+m)=(2 2)假设量化噪声与输入信号不相关,有)假设量化噪声与输入信号不相关,有 Ee(n)x(n+m)=
5、0 mEe(n)x(n+m)=0 m为任意值为任意值(3 3)在每个量化间隔上,量化噪声均匀分布,有)在每个量化间隔上,量化噪声均匀分布,有 P Pe e(e(n)=(e(n)=1 |e(n)| 1 |e(n)| /2/2 0 其他其他量化信噪比量化信噪比量化噪声的信噪比:量化噪声的信噪比:SNR=SNR= x x2 2/ / e e2 2 x x2 2语音信号序列的方差,语音信号序列的方差, e e2 2噪声序列的方差,噪声序列的方差, 用分贝表示,用分贝表示,SNR=10log(SNR=10log( x x2 2/ / e e2 2) SNR = signals energy / nois
6、es energySNR=6.02B+4.77SNR=6.02B+4.7720log(X20log(Xmaxmax/ / x x) )6.02B6.02B7.277.27 X Xmaxmax表示其峰值表示其峰值 B B为量化的比特数为量化的比特数当语音信号的幅度服从拉普拉斯分布时,当语音信号的幅度服从拉普拉斯分布时,X Xmaxmax4 4 x x 量化器每增加一个比特,量化器每增加一个比特,SNRSNR提高约提高约6dB6dB。当。当B=8,SNR=40dBB=8,SNR=40dB,满足一般通信系统的要求。当量化,满足一般通信系统的要求。当量化噪声的信噪比达到噪声的信噪比达到 606070d
7、B70dB,才能保障有高水平,才能保障有高水平通话质量,这时要求量化为通话质量,这时要求量化为 111113bits13bits。一般的。一般的音频音频A/DA/D、D/AD/A转换芯片,量化为转换芯片,量化为12bits12bits。 A/D of some common audio signals Frequency Frequency scopescopeSampling Sampling frequencyfrequencyQuantizatiQuantization bitson bitsTelephoneTelephone200-3400200-34008 khz8 khz8 bi
8、ts8 bitsWide bandWide band50-700050-700016 khz16 khz16 bits16 bitsBroadcastiBroadcastingng20-15khz20-15khz37.8 khz37.8 khz16 bits16 bitsCDCD20-20khz20-20khz44.1 khz44.1 khz16 bits16 bits1.存储方式: 已量化好的语音信号序列按已量化好的语音信号序列按先入先出的顺序存入数据区。先入先出的顺序存入数据区。以便一个有限容量的数据区来以便一个有限容量的数据区来应付数量极大的语音数据。应付数量极大的语音数据。二、预处理2
9、.预加重: 在求语音信号频谱时,频率越高,相应的成在求语音信号频谱时,频率越高,相应的成分越小。预加重的目的是提升高频部分,使信号分越小。预加重的目的是提升高频部分,使信号的频谱变得平坦。以便于频谱分析和声道参数分的频谱变得平坦。以便于频谱分析和声道参数分析。析。 一般在语音信号数字化后,通过一个一阶一般在语音信号数字化后,通过一个一阶数字滤波器:数字滤波器:H(z)=1-H(z)=1- z z-1-1, , 接近接近1 1。x(n)x(n)x x (n)(n)H(z)=1-H(z)=1- z z-1-12. 加窗分帧处理: 第第n n帧帧第第n+1n+1帧帧第第n+2n+2帧帧t第n帧第n+
10、1帧第n+2帧第n+3帧 第n+4帧 帧长帧长N N帧移帧移T TotherwiseNnNnnwotherwiseNnNnnwotherwiseNnnw100)12cos(46. 054. 0)(100)12cos(5 . 05 . 0)(0101)(汉宁窗汉宁窗 hanning海明窗海明窗 hamming矩形窗矩形窗(rectangular)Window shapesT T为帧移为帧移长度长度N N为帧长为帧长,.,T2 ,T1 , 00101)(10)()()(nothersNmmwNmmnxmwmxnx0(m)0N-1x1(m)TT+N-1第第1 1帧帧第第2 2帧帧0 0N-1N-1N
11、 N2N-12N-1 第第1 1帧帧第第2 2帧帧0 0N-1N-1N/2N/2N+(N/2)-1N+(N/2)-1x x0 0(m)(m)x x1 1(m)(m)x x0 0(m)(m)x x1 1(m)(m)帧移帧移T=0帧移帧移T= N/2512512点的点的Long window: frequency resolution Long window: frequency resolution time resolution time resolutionShort window: frequency resolutionShort window: frequency resolution
12、 time resolution time resolution 基音频率为基音频率为200Hz200Hz,采样频率为,采样频率为8kHz, 8kHz, 窗长:窗长: 80008000 (1/200)(1/200) 7=2567=256Windowing (frame) In short-term, non-stationary-stationary Non-linear-linear (10ms-25ms) 经过处理,语音信号就已经被分割成一帧一经过处理,语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号
13、,利用数字信号处时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。在进行处理时,按理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据,处理完后再取下一帧。帧从数据区中取出数据,处理完后再取下一帧。最后得到由每一帧参数组成的语音特征参数的时最后得到由每一帧参数组成的语音特征参数的时间序列。间序列。x0(m)0N-1x1(m)TT+N-1y0(m)0N-1y1(m)TT+N-13.3 语音信号的时域分析一、短时能量及短时平均幅度分析二、短时过零率分析三、短时相关分析四、短时平均幅度差函数1.1.幅度分析的依据幅度分析的依据:是基于语音信号幅度随时间:是基于语音信号幅度
14、随时间变化。清音段幅度小,其能量集中于高频段;浊变化。清音段幅度小,其能量集中于高频段;浊音段幅度较大,其能量集中于低频段。音段幅度较大,其能量集中于低频段。2.2.短时能量函数和短时平均幅度函数短时能量函数和短时平均幅度函数一、短时能量及短时平均幅度分析102)(NmnnmxE10)(NmnnmxMT T为帧移长度为帧移长度N N为帧长为帧长,.,T2 ,T1 , 00101)(10)()()(nothersNmmwNmmnxmwmxn 男声男声“深圳深圳 广州广州 珠海珠海”的短时幅度统的短时幅度统计。在采样频率为计。在采样频率为22050Hz22050Hz的情况下,取的情况下,取20ms
15、20ms作作为一帧,帧长为为一帧,帧长为441441点,一共统计了点,一共统计了180180帧。帧。短时平均幅度短时平均幅度原始原始语音语音3.短时平均幅度函数和能量函数的作用短时平均幅度函数和能量函数的作用(1)(1)区分清区分清/ /浊音:浊音: E En n、M Mn n大,对应浊音;大,对应浊音; E En n、M Mn n小,对应清音。小,对应清音。(2)(2)在信噪比高的情况下,能进行有声在信噪比高的情况下,能进行有声/ /无声判决无声判决 无声时,背景噪声的无声时,背景噪声的E En n、M Mn n小;小; 有声时,有声时,E En n、M Mn n显著增大。判决时可设置一个门
16、限。显著增大。判决时可设置一个门限。(3)(3)大致能定出浊音变为清音的时刻,或反之。大致能定出浊音变为清音的时刻,或反之。050100150200250300350400450-1-0.8-0.6-0.4-0.200.20.40.60.81 女声汉语拼音女声汉语拼音a a的一帧信号(在采样频的一帧信号(在采样频率为率为22050Hz22050Hz的情况下,取的情况下,取20ms20ms作为一帧),作为一帧),浊音的浊音的短时能量短时能量78.6178.61050100150200250300350400450-0.4-0.3-0.2-0.100.10.20.3 男声汉语拼音男声汉语拼音s s
17、的一帧信号(在采样频率为的一帧信号(在采样频率为22050Hz22050Hz的情况下,取的情况下,取20ms20ms作为一帧),作为一帧),清音的清音的短时能量短时能量3.883.88。静音检测(静音检测(VADVAD)和舒适噪声)和舒适噪声(CNG)(CNG)的生成的生成VAD: Voice Activity DetectionVAD: Voice Activity DetectionCNG: Comfort Noise Generator CNG: Comfort Noise Generator 测试表明,人在正常谈话时,有测试表明,人在正常谈话时,有5050左右是静左右是静音。音。VAD
18、VAD是用来检测输入的信号是实际语音还是背是用来检测输入的信号是实际语音还是背景噪声,若检测是实际语音信号进行固定编码;如景噪声,若检测是实际语音信号进行固定编码;如果是背景噪声,则采用更低的速率进行编码。果是背景噪声,则采用更低的速率进行编码。VADVAD检测的结果传送给检测的结果传送给CNGCNG则是接收端,重构背景噪声。则是接收端,重构背景噪声。VADVAD可通过能量检测来实现。可通过能量检测来实现。 短时能量函数一个主要的问题是短时能量函数一个主要的问题是E En n对信号电平对信号电平值过于敏感。由于需要计算信号样值的平方和,在值过于敏感。由于需要计算信号样值的平方和,在实际应用中(
19、如定点设备)很容易溢出。因此,一实际应用中(如定点设备)很容易溢出。因此,一般用平均幅度函数般用平均幅度函数M Mn n来代替来代替E En n。但这时,清音和浊。但这时,清音和浊音、有声和无声的幅度差不如短时能量明显。音、有声和无声的幅度差不如短时能量明显。存在的问题存在的问题1.1.过零率定义过零率定义:信号跨越横轴的情况。:信号跨越横轴的情况。对于连续信号,观察语音时域波形通过横轴的情况;对于连续信号,观察语音时域波形通过横轴的情况;对于离散信号,相邻的采样值具有不同的代数符号,对于离散信号,相邻的采样值具有不同的代数符号,也就是样点改变符号的次数。也就是样点改变符号的次数。t tn n
20、二、短时过零率分析 ZCR 对于语音信号,是宽带非平稳信号,应考察其对于语音信号,是宽带非平稳信号,应考察其短时平均过零率。短时平均过零率。10)1(sgn)(sgn21NmnnnmxmxZsgnsgn( (x x( (n n)=1 )=1 x x( (n n) ) 0 0 sgnsgn( (x x( (n n)= -1 )= -1 x x( (n n)0)0 sgnsgn.为符号函数为符号函数3 3、短时平均过零的作用、短时平均过零的作用1.1.区分清区分清/ /浊音:浊音: 浊音平均过零率低,集中在低频端;浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。清音平均过零率高,
21、集中在高频端。2.2.从背景噪声中找出是否有语音,以及语音从背景噪声中找出是否有语音,以及语音的起点。的起点。050100150200250300350400450-1-0.8-0.6-0.4-0.200.20.40.60.81 女声汉语拼音女声汉语拼音a a的一帧信号(在采样频的一帧信号(在采样频率为率为22050Hz22050Hz的情况下,取的情况下,取20ms20ms作为一帧),作为一帧),短时过零率为短时过零率为4646。 男声汉语拼音男声汉语拼音s s的一帧信号(在采样频的一帧信号(在采样频率为率为22050Hz22050Hz的情况下,取的情况下,取20ms20ms作为一帧),作为一
22、帧),短时过零率为短时过零率为183183。050100150200250300350400450-0.4-0.3-0.2-0.100.10.20.3 在实际应用中,短时平均过零率容易受到在实际应用中,短时平均过零率容易受到A/DA/D转转换是的直流偏移、换是的直流偏移、50Hz50Hz交流电源的干扰以及噪声的影交流电源的干扰以及噪声的影响。响。 减少这些干扰可以有两种方法:一种是采用带通减少这些干扰可以有两种方法:一种是采用带通滤波器消除信号中的直流和滤波器消除信号中的直流和50Hz50Hz低频分量;低频分量;Bandpass filte HbwHb(ejw)x(n)x(n)y(n)y(n)
23、 另一种是用过门限率来修改过零率,减少随机噪另一种是用过门限率来修改过零率,减少随机噪声的影响。声的影响。 过门限率反映了穿过正负门限的次数,如果存在过门限率反映了穿过正负门限的次数,如果存在随机噪声,只要信号没有超过随机噪声,只要信号没有超过-T,T-T,T的范围,就没有的范围,就没有有过零率产生。有过零率产生。T-T三、短时相关分析1.相关分析的依据: 用于确定两个信号在时域内的相似性。常用的用于确定两个信号在时域内的相似性。常用的物理量为自相关函数和互相关函数。当两个信号物理量为自相关函数和互相关函数。当两个信号的互相关函数大时,则说明一个信号可能是另一的互相关函数大时,则说明一个信号可
24、能是另一个信号的时间滞后或提前;当互相关函数为个信号的时间滞后或提前;当互相关函数为0 0时,时,则两个信号完全不同。则两个信号完全不同。 自相关函数用于研究信号本身,如波形的同步自相关函数用于研究信号本身,如波形的同步性和周期性。性和周期性。 主信号主信号s+n0s+n0,为有用信号,为有用信号s s(来自信号源)和一(来自信号源)和一个与它不相关的噪声信号的混合而成。个与它不相关的噪声信号的混合而成。 n1n1为另外拾取的噪声参考信号,与为另外拾取的噪声参考信号,与n0n0相关相关。主输入信号主输入信号x=s+n0 + x=s+n0 + 输出输出ss参考输入参考输入n1n1自适应自适应滤波
25、器滤波器+ +nn- -利用信号的相关性达到消除噪声的目的利用信号的相关性达到消除噪声的目的2.2.短时自相关函数的定义短时自相关函数的定义KkkmxmxkRkNmnnn0)()()(10(1)(1)说明当时域信号为周期信号时,自相关函数说明当时域信号为周期信号时,自相关函数也是周期性函数,两者具有同样的周期。也是周期性函数,两者具有同样的周期。(2)R(2)Rn n(k)(k)为偶函数,为偶函数, R Rn n(k)(k)R Rn n( (k)k)(3)R(3)Rn n(0)(0)最大,最大, R Rn n(0)(0) |R |Rn n(k)|, R(k)|, Rn n(0)=E(0)=En
26、 n, ,对于对于确定信号,确定信号, R Rn n(0)(0)是信号能量;对于随机信号或是信号能量;对于随机信号或周期信号,周期信号, R Rn n(0)(0)是平均功率。是平均功率。0100020003000400050006000-1-0.500.510100020003000400050006000-3000-2000-10000100020003000正弦波周期信号正弦波周期信号 正弦波周期信号的自相关函数波形正弦波周期信号的自相关函数波形0100020003000400050006000-3000-2000-10000100020003000 正弦波周期信号和其自相关函数叠加正弦波
27、周期信号和其自相关函数叠加3 3、相关函数的作用、相关函数的作用1.1.区分清区分清/ /浊音。浊音。 浊音语音的自相关函数具有一定的周期性。浊音语音的自相关函数具有一定的周期性。 清音语音的自相关函数不具有周期性,类似噪声,清音语音的自相关函数不具有周期性,类似噪声,有点如语音信号本身。有点如语音信号本身。2.2.估计浊音语音信号的周期,即估计基音周期。估计浊音语音信号的周期,即估计基音周期。 女声汉语拼音女声汉语拼音a a的一帧信号(在采样频率为的一帧信号(在采样频率为22050Hz22050Hz的情况下,取的情况下,取20ms20ms作为一帧),自相关作为一帧),自相关波形图。说明波形图
28、。说明浊音的自相关函数具有一定的周期浊音的自相关函数具有一定的周期性。性。050100150200250300350400450-1-0.500.51050100150200250300350400450-100-50050100原始语音信号原始语音信号自相关函数波形自相关函数波形050100150200250300350400450500-60-40-20020406080 原始语音信号和其自相关函数波形原始语音信号和其自相关函数波形 Auto-correlation peaks050100150200250300350400450-0.4-0.200.20.4050100150200250
29、300350400450-2-10123 男声汉语拼音男声汉语拼音s s的一帧信号(在采样频率为的一帧信号(在采样频率为22050Hz的情况下,取的情况下,取20ms作为一帧),自相关作为一帧),自相关波形图。波形图。原始语音信号原始语音信号自相关函数波形自相关函数波形 男声汉语拼音男声汉语拼音s s的一帧信号(在采样频率为的一帧信号(在采样频率为22050Hz的情况下,取的情况下,取10ms作为一帧),自相作为一帧),自相关波形图。关波形图。原始语音信号原始语音信号修改坐标的自相关函数波形修改坐标的自相关函数波形 用用MATLABMATLAB的函数的函数randnrandn,产生一帧高斯白,
30、产生一帧高斯白噪声,其自相关函数图。说明清音是噪声激励噪声,其自相关函数图。说明清音是噪声激励的正确性。的正确性。白噪声信号白噪声信号修改坐标的自相关函数波形修改坐标的自相关函数波形 声道的共振峰特性对基音周期的估计造成干扰,声道的共振峰特性对基音周期的估计造成干扰,这是因为语音信号包含丰富的谐波分量。基音频率的这是因为语音信号包含丰富的谐波分量。基音频率的范围分布在范围分布在5050450Hz450Hz左右。同时,第一共振峰通常左右。同时,第一共振峰通常在在2002001000Hz1000Hz的范围内,这样可能导致语音的谐波的范围内,这样可能导致语音的谐波分量高于基频分量,对基音周期的估计造
31、成错误。分量高于基频分量,对基音周期的估计造成错误。 采用中心削波法:采用中心削波法: TnxTnxTnxTnxTnxncny| )(|0)()()()()()(KkkmymykRkNmnnn0)()()(10Center-clipping techniqueCn三、短时平均幅度差函数(AMDF)1.短时平均幅度差函数的意义: 短时自相关函数是语音信号时域分析的重要参短时自相关函数是语音信号时域分析的重要参量,但由于乘法运算所需要的时间长。为了避免量,但由于乘法运算所需要的时间长。为了避免乘法,一个简单的方法就是利用差值,为此常常乘法,一个简单的方法就是利用差值,为此常常采用另一种与自相关函数
32、有类似作用的参量,短采用另一种与自相关函数有类似作用的参量,短时平均幅度差函数。时平均幅度差函数。 短时平均幅度差函数能够代替自相关函数的短时平均幅度差函数能够代替自相关函数的原理是:如果信号是完全的周期信号(设周期为原理是:如果信号是完全的周期信号(设周期为N Np p), ,则相距为周期的整数倍的样点上的幅值相等,则相距为周期的整数倍的样点上的幅值相等,差值为零:差值为零:d(n)=x(n)-x(n-k)=0d(n)=x(n)-x(n-k)=0,短时平均幅度,短时平均幅度差函数定义为:差函数定义为:KkkmxmxkFkNmnnn0| )()(|)(10 对于周期性的对于周期性的x(n)x(n),F Fn n(k)(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44788-2024太阳能光热发电站并网调度运行技术要求
- 2024年影视作品制作发行合同
- 电子商务平台股权转让及2024年度财务审计合同:确保转让的真实性
- 2024年设备租赁与购买期权合同3篇
- 2024年度工程设计居间合作合同2篇
- 人教版九年级化学第十二单元2化学元素与人体健康分层作业课件
- 建筑材料供销合作的合同范本
- 诊所医疗设施建设2024年度合同2篇
- 2024年度智能硬件研发与销售合同3篇
- 抗抑郁焦虑日常护理
- 人民群众是历史的创造者教学设计
- 《基础阿拉伯语1》课程教学大纲
- 小学语文人教五年级上册第六单元群文课件
- 思想政治教育学原理课后答案
- 人教部编版八年级历史上册教学课件第五单元全套
- 新高考选科-专业解读课件
- 九种体质调理课件
- 一年级上学期期中家长会(语文老师)
- 口腔急诊处理课件
- 白鹭学情分析方案五年级语文
- 四川省建设工程量清单计价定额
评论
0/150
提交评论