第3章 语音信号的短时时域分析_第1页
第3章 语音信号的短时时域分析_第2页
第3章 语音信号的短时时域分析_第3页
第3章 语音信号的短时时域分析_第4页
第3章 语音信号的短时时域分析_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 “十二五”普通高等教育本科国家级规划教材 第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 2 3 3.1 .1 概述概述 3 3.2 .2 语音信号的预处理语音信号的预处理 3 3.3 .3 短时平均能量短时平均能量 3 3.4 .4 短时平均幅度函数短时平均幅度函数 3 3.5 .5 短时平均过零率短时平均过零率 3 3.6 .6 短时自相关分析短时自相关分析 “十二五”普通高等教育本科国家级规划教材 第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 3 3. .7 7 基于能量和过零率的语音端点检测基于能

2、量和过零率的语音端点检测 3 3. .8 8 基音周期估值基音周期估值 3 3.1 概述 “十二五”普通高等教育本科国家级规划教材 第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 4 3.1 概述 “十二五”普通高等教育本科国家级规划教材 语音信号是一种非平稳的时变信号,它携带着各种信息。 在语音编码、语音合成、语音识别和语音增强等语音处理中 都需要提取语音中包含的各种信息。 语音处 理目的 对语音信 号进行分 析,提取 特征参数, 用于后续 处理 加工语音 信号,如 语音增强 和语音合 成中的应 用 5 “十二五”普通高等教育本科国家级规划教材 3.1 概述 根据所分析的参数类型

3、,语音信号分析可以分成时 域分析和变换域(频域、倒谱域)分析。 6 3.2 语音信号的预 处理 “十二五”普通高等教育本科国家级规划教材 第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 7 3. 2 语音信号的预处理 “十二五”普通高等教育本科国家级规划教材 大公司或语音研究机构发布的被大家认可的语 音数据库 模拟语音信号s(t) 离散化为s(n) 数字处理 研究者个人用录音软件或硬件电路加麦克风随 时随地录制的一些发音或语句 获得数字语音的途径 正式 非正式 8 3. 2 语音信号的预处理 “十二五”普通高等教育本科国家级规划教材 语音信号的频率范围通常 是300 3400Hz,

4、一般情况下取 采样率为8kHz。本书的数字语 音处理对象为语音数据文件, 是已数字化的语音。 对语音的预处理包括:预 加重、加窗分帧等。 9 3. 2 语音信号的预处理 “十二五”普通高等教育本科国家级规划教材 目的:对语音的高频部分进行加重,去除口唇辐 射的影响,增加语音的高频分辨率。 实现:通过一阶FIR高通数字滤波器来实现。 1 ( )1H zz 设 时刻的语音采样值为 ,经过预加重处理 后的结果为 。 n( )x n ( )( )(1)y nx nax n 3.2.1 3.2.1 语音信号的预加重处理语音信号的预加重处理 (3.1) 10 3. 2 语音信号的预处理 “十二五”普通高等

5、教育本科国家级规划教材 高通滤波器的幅频特性和相频特性 11 3. 2 语音信号的预处理 “十二五”普通高等教育本科国家级规划教材 一段语音信号在预加重前后的时域波形和频谱图 12 3. 2 语音信号的预处理 “十二五”普通高等教育本科国家级规划教材 3.2.3.2.2 2 语音信号的加窗处理语音信号的加窗处理 语音信号具有短时平稳性,可把语音信号分帧进行 处理。采用可移动的有限长度窗口进行加权实现分帧。 帧长 帧移 第K+1帧 帧长 帧移与帧长示意图 13 3. 2 语音信号的预处理 “十二五”普通高等教育本科国家级规划教材 常用的两种窗 矩形窗 窗函数如下: 汉明(Hamming)窗 窗函

6、数如下: 其它 0 10 1 )( Nn nw 0.54 0.46 cos 2 /1 0 ( ) 0 n Nn N wn , , else 14 3. 2 语音信号的预处理 “十二五”普通高等教育本科国家级规划教材 汉明窗及其频谱 矩形窗及其频谱 思考:两 种窗效果 有何异同? 15 3. 2 语音信号的预处理 “十二五”普通高等教育本科国家级规划教材 窗长一般选取100200。原因如下: 当窗较宽时,平滑作用大,能量变化不大, 故反映不出能量的变化。 当窗较窄时,没有平滑作用,反映了能量的 快变细节,而看不出包络的变化。 1 2 加窗方法示意图 16 3. 2 语音信号的预处理 “十二五”普

7、通高等教育本科国家级规划教材 语音信号的分帧处理,实际上就是对各帧进行某种变 换或运算。设这种变换或运算用T 表示,x(n)为输入语音 信号,w(n)为窗序列,h(n)是与w(n)有关的滤波器,则各帧 经处理后的输出可以表示为: ( ) () n m QT x m h nm (3.2) 17 3. 2 语音信号的预处理 “十二五”普通高等教育本科国家级规划教材 几种常见的短时处理方法:几种常见的短时处理方法: 2. ( )sgn ( ) sgn (1)( )( )T x mx mx mh nw n, , n Q 对应于平均过零率; ( )( ) () T x mx m x m kh nw n

8、w n k,3. n Q对应于自相关函数 ; 22 ( )( )( )( )T x mxmh nw n,1. 对应于能量; n Q 18 3.3 短时平均能量 “十二五”普通高等教育本科国家级规划教材 第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 19 3. 3 短时平均能量 “十二五”普通高等教育本科国家级规划教材 短时平均能量定义短时平均能量定义 定义n时刻某语音信号的短时平均能量En为: )()( )()( )1( 22 n Nnmm n mnwmxmnwmxE 当窗函数为矩形窗时: )( ) 1( 2 n Nnm n mxE (3.3) (3.4) 20 3. 3 短时平

9、均能量 “十二五”普通高等教育本科国家级规划教材 若令 则短时平均能量可以写成: )()( 2 nwnh )()()()( 22 nhnxmnhmxE m n x ( n ) x 2 ( n ) E n h ( n ) ( . ) 2 语音信号的短时平均能量实现框图 (3.5) (3.6) 21 3. 3 短时平均能量 “十二五”普通高等教育本科国家级规划教材 n E 反映语音信号的幅度或能量随时间缓慢变化的规律。 窗的长短对于能否由短时能量反映语音信号的幅度变 化,起着决定性影响。 不同矩形窗长N时的短时能量函数 22 3. 3 短时平均能量 “十二五”普通高等教育本科国家级规划教材 1)作

10、为区分清音和浊音的特征参数。 2)在信噪比较高的情况下,作为区分有声和无声 的依据。 3)作为辅助的特征参数用于语音识别中。 短时平均能量的主要用途短时平均能量的主要用途 23 3.4 短时平均幅度 函数 “十二五”普通高等教育本科国家级规划教材 第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 24 3. 4 短时平均幅度函数 “十二五”普通高等教育本科国家级规划教材 为了克服短时能量函数计算x2 ( m ) 的缺点,定义了短 时平均幅度函数: 1 | ( )|()=( )() n n mm n N Mx mw nmx n w nm x ( n ) Mn w ( n ) 短时平均幅

11、度实现框图 |x ( n )| | . | (3.7) 25 3. 4 短时平均幅度函数 “十二五”普通高等教育本科国家级规划教材 Mn与与En的比较的比较: 1)Mn能较好地反映清 音范围内的幅度变化; 2)Mn所能反映幅度变 化的动态范围比En好; 3)Mn反映清音和浊音 之间的电平差次于En。 短时平均幅度函数随矩形窗窗长N变化的情况 26 3.5 短时平均过零 率 “十二五”普通高等教育本科国家级规划教材 第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 27 3. 5 短时平均过零率 “十二五”普通高等教育本科国家级规划教材 在离散时间语音信号情况下,如果相邻的采样具有不同

12、 的代数符号就称为发生了过零。单位时间内过零的次数就 称为过零率。短时平均过零率的定义为 sgnsgn1 sgnsgn1* n m Zx mx mw nm x nx nw n 1 1( )001 , sgn( )2 1( )0 0 x n nN w nx n N - x n 其它 其中, (3.8) 28 3. 5 短时平均过零率 “十二五”普通高等教育本科国家级规划教材 另外:考虑到w(n-m)的非零值范围为n-m0,即 mn,以及 n-mN-1,故mn-N+1,因此短时平均过零率 可以改写为: n Nnm n mxmx N Z )1( |1-sgnsgn| 2 1 用1/2N 作为幅值,考

13、虑了对该窗口范围内的过零数 取平均。 (3.9) 29 3. 5 短时平均过零率 “十二五”普通高等教育本科国家级规划教材 Nn x(n) Sgnx(n) 1 一阶差分 sgnxn -sgnxn-1 低通滤波 h(n)=w(n) -1 +1 语音信号的短时平均跨零数实现框图 Sgn . 取绝 对值 . . 女声“我到北京去”的短时平均过零次数的变化曲线 30 3. 5 短时平均过零率 “十二五”普通高等教育本科国家级规划教材 清音 浊音 0 10 20 30 40 50 60 70 80 每 10ms 内的过零数 过零率概率分布 清音过零率高, 浊音过零率低。 局限性:浊音和清音重 叠区域只根

14、据短时平均 过零率不可能明确地判 别清、浊音。 端点检测可以从包含语音的一段信号中确定出语音的 起点及结束点。 31 3.6 短时自相关分析 “十二五”普通高等教育本科国家级规划教材 第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 32 3. 6 短时自相关分析 “十二五”普通高等教育本科国家级规划教材 3.6.1 3.6.1 短时自相关函数短时自相关函数 时域离散确定信号的自相关函数定义为: 时域离散随机信号的自相关函数定义为: 周期为P的周期信号满足: m kmxmxkR )( N Nm N kmxmx N kR 12 1 lim PkRkR (3.10) (3.11) (3.

15、12) 33 (2) 在k = 0处为最大值,即对于所有k来说,|R(k)|R(0) (3) 对于确定信号,R(0)对应于能量 对于随机信号,R(0)对应于平均功率 (1) 对称性 R(k)= R(-k) 3. 6 短时自相关分析 “十二五”普通高等教育本科国家级规划教材 自相关函数具有下述性质: 34 3. 6 短时自相关分析 “十二五”普通高等教育本科国家级规划教材 3.6.2 3.6.2 语音信号的短时自相关函数语音信号的短时自相关函数 采用短时分析方法,定义语音信号短时自相关函数为 m n mknwkmxmnwmxkR 因为 nn RkRk 所以 nn m R kRkx m x m k

16、 w n m w n m k (3.13) (3.14) (3.15) 35 3. 6 短时自相关分析 “十二五”普通高等教育本科国家级规划教材 定义 那么短时自相关函数可以写成: knwnwnhk mnhkmxmxkR m kn )()(knxnx)(nhk )(kR n 上式表明,序列经过一个冲激响应为 的数字滤波器滤波即得到短时自相关函数 mnhkmxmxkR m kn (3.16) (3.17) (3.18) 36 3. 6 短时自相关分析 “十二五”普通高等教育本科国家级规划教材 Z-K H k(n) X(n-k) x(n) 短时自相关函数的实现框图 也可采用直接运算的方法得到 kN

17、 m n mkwkmnxmwmnxkR 1 0 )(kR n (3.19) 37 3. 6 短时自相关分析 “十二五”普通高等教育本科国家级规划教材 清音的短时自相关函数 浊音的短时自相关函数 38 3. 6 短时自相关分析 “十二五”普通高等教育本科国家级规划教材 1)短时自相关函数可以很明显的反映出浊音信号的周 期性。 2)清音的短时自相关函数没有周期性,也不具有明显 突出的峰值,其性质类似于噪声。 3)不同的窗对短时自相关函数结果有一定的影响。 浊音和清音的短时自相关函数特点:浊音和清音的短时自相关函数特点: 39 3. 6 短时自相关分析 “十二五”普通高等教育本科国家级规划教材 不同

18、矩形窗长时的短时自相关函数 40 3. 6 短时自相关分析 “十二五”普通高等教育本科国家级规划教材 3.6.3 3.6.3 修正的短时自相关函数修正的短时自相关函数 修正的短时自相关函数,其定义如下 kmnwkmxmnwmxkRn 2 -m 1 )(-)()(- 21 -kmwkmnxmwmnxkR m n 11 22 w mwm wmwm 若令mn m ,代入上式可得: 定义 (3.20) (3.21) 41 3. 6 短时自相关分析 “十二五”普通高等教育本科国家级规划教材 kmwkmnxmwmnxkRn 2 -m 1 )()( 则有 1 2 1 0-1 0 1 0-1 0 nN wm

19、nNK wm 其它 其它 , , , , 式中,K为k的最大值,即0kK。 )( 2 kmwKNkm+1-+ Kk 1- Nm 要使为非零值,必须使 考虑到,可得 其中 (3.22) 42 3. 6 短时自相关分析 “十二五”普通高等教育本科国家级规划教材 kmwkmnxmwmnxkRn 2 -m 1 )()( 则有 1 2 1 0-1 0 1 0-1 0 nN wm nNK wm 其它 其它 , , , , 式中,K为k的最大值,即0kK。 )( 2 kmwKNkm+1-+ Kk 1- Nm 要使为非零值,必须使 考虑到,可得 其中 (3.23) (3.24) 43 3. 6 短时自相关分析

20、 “十二五”普通高等教育本科国家级规划教材 因为求和上限是N-1,与k无关,故当k增加时, 值不下降 。 )( kRn 1 - 0 )()()( N m n kmnxmnxkR 修正的短时自相关函数可以写成: (3.25) 44 3. 6 短时自相关分析 “十二五”普通高等教育本科国家级规划教材 3.6.4 3.6.4 短时平均幅度差函数短时平均幅度差函数 一个周期为P的周期信号,在k=0,P, 2P, 时, -0 02. d nx nx n kkPP, , 12 ( )| ()( )()()| n m r kx nm w mx nm k w m k 对于浊音语音,在基音周期的整数倍上,d(n

21、)总 是很小,但不是零,因此,我们可以定义短时平 均幅度差函数AMDF为: (3.26) (3.27) 45 3. 6 短时自相关分析 “十二五”普通高等教育本科国家级规划教材 使用矩形窗时,短时平均幅度差函数可写成: 1 0 1-,0,1, |,)()(|)( N n n Nkknxnxkr 1/2 ( )2( )(0)( ) nnn rkkRRk ( ) n r k ( ) n R k与之间的关系为: (3.28) (3.29) 46 3.7 基于能量和过零 率的语音端点检测 “十二五”普通高等教育本科国家级规划教材 第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 47 3.

22、7 基于能量和过零率的语音端点检测 “十二五”普通高等教育本科国家级规划教材 正确的端点检测对于语音识别和语音编码系统都有 重要的意义。 本节介绍基于能量和过零率的语音端点检测方法 两级判决法及程序实现。 语音端点检测就是指从包含语音的一段信号中确 定出语音的起始点和结束点。 48 3. 7 基于能量和过零率的语音端点检测 “十二五”普通高等教育本科国家级规划教材 两级判决法示意图 49 3. 7 基于能量和过零率的语音端点检测 “十二五”普通高等教育本科国家级规划教材 采用双门限比较法的两级判决法,具体如下 第一级判决: 1. 先根据语音短时能量的轮廓选取一个较高的门限T1, 进行一次粗判:

23、语音起止点位于该门限与短时能量包络 交点所对应的时间间隔之外(即AB段之外)。 2. 根据背景噪声的平均能量确定一个较低的门限T2 , 并从A点往左、从B点往右搜索,分别找到短时能量包 络与门限T2相交的两个点C和D,于是CD段就是用双门 限方法根据短时能量所判定的语音段。 50 3. 7 基于能量和过零率的语音端点检测 “十二五”普通高等教育本科国家级规划教材 第二级判决: 以短时平均过零率为标准,从C点往左和从D点往右搜索, 找到短时平均过零率低于某个门限T3的两点E和F,这便 是语音段的起止点。门限T3是由背景噪声的平均过零率 所确定的。 注意:门限T2,T3都是由背景噪声特性确定的,因

24、此, 在进行起止点判决前,T1,T2,T3,三个门限值的确定 还应当通过多次实验。 51 3.8 基音周期估值 “十二五”普通高等教育本科国家级规划教材 第三章第三章 语音信号的短时时域分析语音信号的短时时域分析 52 3. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材 基音周期估值在语音信号处理应用中具有十分重要 的作用。本节介绍语音信号基音周期估值最基本的两种 方法: 基于短时自相关法的基音周期估值 基于短时平均幅度差函数法的基音周期估值 53 3. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材 3.8.1 3.8.1 基于短时自相关法的基音周期估值基于短时自相

25、关法的基音周期估值 语音的浊音信号具有准周期性,其自相关函数在基 音周期的整数倍处取最大值。 计算两相邻最大峰值间的距离,可估计出基音周期。 为了减小运算量,需要对语音信号进行适当预处理。 预处理的两种方法: 1.先对语音信号进行低通滤波,再进行自相关计算。 2.先对语音信号进行中心削波处理,再进行自相关计算。 54 3. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材 1.中心削波 () ( )0() () LL LL LL xxxx f xxxx xxxx f(x) x xL -xL O 削波后的序列用短时自相关函数估计基音周期, 在基音周期处峰值更加尖锐,可减少倍频或半频错误

26、。 中心削波函数为: (3.30) 55 3. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材 削波前后语音信号对比图 56 3. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材 削波前后修正自相关对比图 57 3. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材 2三电平削波 1 ( )0 1 L LL L xx f xxxx xx 为了克服短时自相关函数计算量大的问题,在中 心削波法的基础上,还可以采用三电平削波法,削波 函数为: f(x) x xL -xL O -1 1 (3.31) 58 3. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教

27、材 三电平削波前后语音信号对比图 59 3. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材 三电平削波前后修正自相关对比图 60 3. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材 3.8.2 3.8.2 基于短时平均幅度差函数基于短时平均幅度差函数AMDFAMDF法的基音周期估值法的基音周期估值 对于浊音语音,在基音周期的整数倍上的幅度差值 不是零,但总是很小。 因此,可以通过计算短时平均幅度差函数中两相邻 谷值间的距离来进行基音周期估值。 这里使用修正的短时平均幅度差函数并加矩形窗, 得到: 1 0 1-,0,1, |,)()(|)( N n n Nkknxnx

28、kr(3.32) 61 3. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材 1.自相关函数进行基音周期估计时寻找的是最大峰自相关函数进行基音周期估计时寻找的是最大峰 值点的位置值点的位置。 2.AMDF寻找的是它的最小谷值点的位置寻找的是它的最小谷值点的位置。 3.由于清音没有周期性,所以它的自相关函数和平均由于清音没有周期性,所以它的自相关函数和平均 幅度差函数均不具有准周期性的峰值或谷值。幅度差函数均不具有准周期性的峰值或谷值。 AMDF函数与短时自相关函数的不同是: 62 3. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材 一段浊音信号及其AMDF函数 63

29、3. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材 3.8.3 3.8.3 基音周期估值的后处理基音周期估值的后处理 在提取基音时,提取的基音频率轨迹与真实的基音 频率轨迹不可能完全吻合。通常在实际基音频率的倍频 或分频处发生偏离,产生“野点”。 为了去除 “野点”,常用的平滑技术主要有:中值 滤波平滑处理、线性平滑、动态规划平滑处理。 64 3. 8 基音周期估值 “十二五”普通高等教育本科国家级规划教材 1. 中值平滑处理 基本原理:设x(n)为输入信号,y(n)为中值滤波器的输出, 采用一滑动窗,则n0处的输出值y(n0)就是将窗的中心移到n0 处时窗内输入样点的中值。即在n0点的左右各取L个样点。 连同被平滑点共同构成一组信号采样值(共(2L+1)个样值), 然后将这(2L+1)个样值按

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论