语音信号处理第6讲_第1页
语音信号处理第6讲_第2页
语音信号处理第6讲_第3页
语音信号处理第6讲_第4页
语音信号处理第6讲_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、5.1 概述5.2端点检测5.3基音周期估计5.4共振峰估计 语音信号是一种短时平稳信号时变,复杂且携带包含语义、个人特征等有用信息 特征参数应该能够比较准确地表达语音信号的特征,具有准确性和唯一性,是语音识别的基础 20世纪40年代,提出的语谱图,对语音信号有很强的描述能力,形成最早的语音特征 后来,人们发现利用语音信号的时域特征可以从语音波形中提取反映语音特性的参数,如短时幅度,短时帧平均能量,短时帧过零率,短时自相关系数、平均幅度差函数等不仅能减小模板数目,运算量和存储量,还能消除冗余信息 语音信号分帧提取,每帧构成一个矢量,即语音信号特征是一个矢量序列 端点检测:一段语音信号中准确地找

2、出语音信号的起始点和结束点 目的:把有效的语音信号好无用的噪声信号分离 在语音识别,语音增强,语音编码,回声抵消等系统中应用广泛 语音端点检测方法分类(1)基于阈值的方法:根据语音信号和噪声信号的不同特征,提取每一段语音信号的特征并与设定的阈值进行比较(2)基于模式识别的方法,需要估计语音信号和噪声信号的模型参数来进行比较,鉴于模式识别方法自身复杂度高,运算量大,很难应用到实时语音信号中 端点检测本质上是根据语音和噪声的相同参数所表现出的不同特征来进行区分。 传统的短时能量和过零率相结合的语音端点检测算法,短时过零率来检测清音,用短时能量来检测浊音,两者相配合实现了信号信噪比较大情况下的端点检

3、测(以短时能量检测为主,短时过零率检测为辅) 短时能量法(已讲)可以较好地区分出浊音和静音 短时过零率(已讲)对于清音,其能量较小,会因为低于能量门限而被误判为静音,短时过零率可以区分静音和清音 双门限法:基于短时能量(高门限)和过零率(低门限)的双门限端点检测算法(当低门限被超过时,有可能是噪声引起的,未必是语音的开始,当高门限被超过并在接下来的时间段内一直超过低门限时,意味着语音信号的开始) 双门限法步骤:(1)计算短时能量(高门限) 和过零率(低门限)(2)选取一个较高的门限 ,语音信号的能量包络大部分都在此门限之上,进行一次初判,语音起止点位于该门限与短时能量包络交点所对应的时间间隔之

4、外(3)根据噪声能量,确定一个较低的门限 并从初判起点往左,从初判终点往右搜索,分别找到能零比曲线 第一次与门限 ,相交的两个点,两点之间段就是用双门限方法所判定的语音段(4)以短时平均过零率为准,从低门限点往左右搜索,找到短时平均过零率低于某阈值的两点,为语音的起止点注:门限值要通过多次实验来确定2T1T1T 自相关法:(1)短时自相关(已讲)(2)由于两种信号的自相关函数存在极大的差异,可以利用这种差别来提取语音端点。根据噪声的情况,设置两个阈值 和 ,当相关函数最大值大于 时,便判定是语音;当相关函数最大值大于或小于 时,则判定为语音信号的端点。 谱熵法u熵表示信息的有序程度,语音的熵和

5、噪声的熵存在较大的差异,可以体现语音和噪声在整个信号段中的分布概率u谱熵语音端点检测方法是通过检测谱的平坦程度,达到语音端点检测的目的。2T1T1T2T 谱熵定义:设语音信号时域波形为 ,加窗分帧处理后得到的第n帧语音信号为 ,其FFT表示为 ,k表示为第k条谱线。该语音帧在频域中的短时能量为:某一谱线k的能量谱为则每个频率分量的归一化谱概率密度函数为该语音帧的短时谱熵为:( )nXk2*0( )( )NnnnkEXk Xk( )x i( )nx m*( )( )nnnYXk Xk20( )( )( )nnnNnnlY kY kpEY l20( )ln( )NnnnlHp lp l 基于谱熵的

6、端点检测:基于谱熵语音端点检测方法是通过检测谱的平坦程度,来进行语音端点检测的,为了更好地进行语音端点检测,采用语音信号的短时功率谱构造语音信息谱熵,从而对语音段和噪声段进行区分。检测思路:对语音信号进行分帧加窗,取FFT的点数计算每一帧的谱能量计算出每一帧中每个样本点的概率密度函数计算出每一帧的谱熵值设置判决门限 根据各帧的谱熵值进行端点检测20( )( )( )nnnNnnlY kY kpEY l20( )ln( )NnnnlHp lp l 比例法(1)能零比的端点检测在噪声情况下,信号的短时能量和短时过零率会发生一定变化,严重时会影响端点检测。如右图所示,语音信号的说话区间能量是向上凸起

7、的,而过零率相反,是下凹的,这说明说话区间能量值大,过零率小,噪声区间能量值小,过零率大,从而可以检测语音端点 比例法(1)能零比的端点检测为此,提出改进式能量 ,a为常数,适当的取值有助于区分噪声和清音进行限幅之后的过零率故能零比表示为 ,b为较小的常数,用于防止分母为零(2)能熵比的端点检测谱熵值类似于过零率,能熵比的表示为 对数频谱距离法(自学)lg 1nnELEa( )( )( )0( )nnnnx mx mx mx mnnnLEEZRZCRb1nnnLEEEFH 基音:一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动,由它发出的音就

8、是基音基音,其余为泛音泛音。 基音周期是指声带振动频率的倒数。 基音周期是语音信号最重要的参数之一,它描述了语音激励源的一个重要特征。 基音周期信息在多个领域有着广泛的应用,如:语音识别、说话人识别、语音分析与综合以及低码率语音编码、发音系统疾病诊断、听觉残障者的语言指导等。 由于汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 基音检测的主要困难在于:声门激励信号并不是一个完整周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过度帧是很难准确地判断是周期还是非周期性

9、的;在许多情况下,清音语音和低电平浊音语音段之间的过渡段是非常细微的,确定它是极其困难的;从语音信号中去除声道影响,直接取出仅和声带振动有关的激励信号的信息并不容易,例如声道的共振峰有时会严重影响激励信号的谐波结构。这种影响在发音器官快速动作而共振峰也快速改变时,对对基音检测是最具危害性的。 尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题。 为此提出了各种各样的基音检测算法,如u自相关函数(ACF)法、u峰值提取算法(PPA)、u平均幅度差函数(AMDF)法、u并行处理技术、u倒谱法、u简化逆滤波法(SIFT)u谱图法、u小波法u这一节将介绍几种常用的基音提取方法

10、。语音信号是非平稳的信号,所以对信号的处理都使用短时自相关函数。短时自相关函数是在信号的第N个样本点附近用短时窗截取一段信号,做自相关计算所得的结果m表示窗函数是从第m点开始加入10)()()(kNmnnnkmSmSkR 自相关法自相关法语音信号s(m)经窗长为N的窗口截取为一段加窗语音信号Sn(m)后,定义Sn(m)的自相关函数(ACF),Rn(k)(亦即语音信号s(m)的短时自相关函数)为:Rn(k)不为零的范围为是k=(-N+1)(N1),且为偶函数。由4章的分析可知,浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;而清音的自相关函数没有明显的峰值出现。因此检测是否有峰值就可判断是

11、清音或浊音,检测峰值的位置就可提取基音周期值。10)()()(kNmnnnkmSmSkRclcclear all x= wavread(C:UsersDesktopbearings.wav);figure(1); stem(x,.); n=160; %取20ms的声音片段,即160个样点 for m=1:length(x)/n; %对每一帧求短时自相关函数 for k=1:n; Rm(k)=0; for i=(k+1):n; Rm(k)=Rm(k)+x(i+(m-1)*n)*x(i-k+(m-1)*n); end end p=Rm(10:n); %防止误判,去掉前边10个数值较大的点 Rmax

12、,N(m)=max(p); %读取第一个自相关函数的最大值 end %补回前边去掉的10个点 N=N+10; T=N/8; %计算出对应的周期 figure(2);stem(T,.);axis(0 length(T) 0 10); xlabel(帧数(n);ylabel(周期(ms);title(各帧基音周期); 平均幅度差函数法(平均幅度差函数法(AMDFAMDF) 语音信号的短时平均幅度差函数(AMDF) Fn(k)定义为: 与短时自相关函数一样,对周期性的浊音语音,Fn(k)也呈现与浊音语音周期相一致的周期特性,不过不同的是Fn(k)在周期的各个整数倍点上具有谷值特性而不是峰值特性 因而

13、通过Fn(k)的计算同样可以来确定基音周期。而对于清音语音信号,Fn(k)却没有这种周期特性。利用Fn(k)的这种特性,可以判定一段语音是浊音还是清音,并估计出浊音语音的基音周期。 但是,短时平均幅度差函数来估计基音周期时,要求窗长取得足够长。可以采用LPC逆滤波和中心削波处理等方法来减少输入语音中声道特性或共振峰的影响,提供基音周期估计效果10)()()(kNmnnnmSkmSkF 无论是利用自相关函数还是平均幅度差函数,语音帧应使用矩形窗窗长的选择要合适,一般认为窗长至少应该大于两个基音周期,而为了改善估计结果,窗长应选的更长一些,是帧信号包含足够多个语音周期平均幅度差的计算无需乘法运算,

14、其计算复杂度较小,且基音周期点处的平均幅度差的谷点锐度比自相关函数的峰点锐度更尖锐,估值精度更高(原因:平均幅度差与语音信号幅度的快速变化比较敏感,影响估计的精度)( ) ( )nnR kand F k 倒谱(倒谱(CEPCEP)法)法倒谱法是传统的基音周期检测算法之一,它利用语音信号的倒频谱特征,检测出表征声门激励周期的基音信息。原因:浊音语音的复倒谱中存在峰值,其出现时间等于基因周期;而清音语音段的复倒谱则不出现这种峰值。利用这一性质可以进行清/浊音判断并估计浊音的基音周期。步骤:计算复倒谱解卷提取出声门激励信息,在预期的基音周期附近寻找峰值 如果峰值超过了预先设定的门限,则语音断定为浊音

15、,而峰的位置就是基音周期的估值 如果不存在超出门限的峰值,则语音断定为清音 如果计算的是依赖于时间的复倒谱,则可估计出激励源模型及基音周期随时间的变化 倒谱(倒谱(CEPCEP)法)法如前面所述,语音s(n)是由声门脉冲激励e(n)经声道响应v(n)滤波而得。即:s(n)=e(n)*v(n)设三者的倒谱分别为 及 ,则有:可见,倒谱域中基音信息与声道信息可以认为是相对分离的。采取简单的倒滤波方法可以分离并恢复出e(n)和v(n),根据激励e(n)及其倒谱的特征可以求出基音周期。估计基音周期时,没有必要对语音波形完全解卷,所以用倒谱c(n)就完全可以,这样可以从复杂的相位计算中解脱出来;对于人耳

16、而言,对语音信号的相位不很敏感,可以假定输入语音信号是最小相位序列,这样可由最小相位信号法计算c(n)( ), ( )s n e n( )v n( )( )( )s ne nv n 倒谱(倒谱(CEPCEP)法)法 反应信息的倒谱峰,在过渡音和含噪语音中将会变得不清晰甚至完全消失。其原因当然主要是因为过渡音中周期激励信号能量降低和类噪激励信号干扰或含噪语音中的噪声干扰所致。 对于一帧典型的浊音语音的倒谱,其倒谱域中基音信息与声道信息并不是完全分离的,在周期激励信号能量较低的情况下,声道响应(特别是其共振峰)对基音倒谱峰的影响就不可忽略。 如果设法除去语音信号中的声道响应信息,对类噪激励和噪声加

17、以适当抑制,倒谱基音检测算法的检测结果将有所改善,特别对过渡语音的检测结果将有明显改善。 倒谱(倒谱(CEPCEP)法)法 除去语音信号中的声道响应信息可以采用LPC方法,此时语音信号可以表示为: 在预测分析之后,可构成逆滤波器A(z)原始语音 逆滤波器A(z)进行逆滤波 获得预测余量信号 基音信息 倒谱分析1( )()( )piis na s niGe n 00( ),1piiiA za za理想情况下不包含声道响应信息( )( )nGe n( )n低通滤波抑制噪声干扰注:倒谱法一般采用汉明窗 简化逆滤波法(简化逆滤波法(SIFTSIFT)简化的逆滤波跟踪(SIFT)算法是相关处理法进行基音

18、提取的一种现代化的版本。该方法的基本思想是:先对语音信号进行LPC分析和逆滤波,获得语音信号的预测残差,然后将残差信号通过自相关滤波器滤波,再作峰值检测,进而获得基音周期。语音信号通过线性预测逆滤波器后达到频谱的平坦化,因为逆滤波器是一个使频谱子坦化的滤波器,所以它提供了一个简化的(亦即廉价的)频谱平滑器。预测误差是自相关器的输入,通过与门限的比较可以确定浊音,通过辅助信息可以减少误差。作用:将频谱包络逐渐平坦下去。得到的线性预测误差信号只包含有激励的信息,去除了声道影响。所以SIFT提供了一个简化的(廉价的)频谱平滑器。 简化逆滤波法(简化逆滤波法(SIFTSIFT)简化逆滤波器的原理框图如

19、图所示。其工作过程为:语音信号经过8kHz取样后,通过0-900Hz的数字低通滤器,其目的是滤除声道谱中声道响应部分的影响,使峰值检测更加容易。然后降低取样率为原来的1/4(因为激励序列的宽度小于1 kHz,所以用2kHz取样就足够了) 提取降低取样率后的信号模型参数(LPC参数)内插提高采样率,恢复到8kHz检测出峰值及其位置就得到基音周期值。一帧语音信号低通/带通滤波4:1降采样LPC分析逆滤波求预测误差计算预测误差自相关函数1:4曾采样峰值检测基音周期值 基音检测的后处理基音检测的后处理无论采用哪一种基音检测算法都可能产生基音检测错误,使求得的基音周期轨迹中有一个或几个基音周期估值偏离了

20、正常轨迹(通常是偏离到正常值的2倍或1/2),此情况如图所示。并称这种偏离点为基音轨迹的“野点”。基音周期轨迹以及轨迹中的“野点”为了去除这些野点,可以采用各种平滑算法,其中最常用的是中值平滑算法和线性平滑算法。1 1中值平滑处理 中值平滑处理的基本原理是:设x(n)为输入信号,y(n)为中值滤波器的输出,采用一滑动窗,则n0处的输出值y(n0)就是将窗的中心移到n0处时窗内输入样点的中值。即在n0点的左右各取L个样点。连同被平滑点共同构成一组信号采样值(共(2L+1)个样值),然后将这(2L+1)个样值按大小次序排成一队,取此队列中的中间者作为平滑器的输出。 L值一般取为1或2,即中值平滑的

21、“窗口”一般套住3或5个样值,称为3点或5点中值平滑。 中值平滑的优点是既可以有效地去除少量的野点,又不会破坏基音周期轨迹中两个平滑段之间的阶跃性变化。2.2.线性平滑处理线性平滑是用滑动窗进行线性滤波处理,即:其中(m),m = -L,-L+1,0,1,2,L为2L+1点平滑窗,满足:例如三点窗的权值可取为0.25,0.5,0.25。线性平滑在纠正输入信号中不平滑处样点值的同时,也使附近各样点的值做了修改。所以窗的长度加大虽然可以增强平滑的效果,但是也可能导致两个平滑段之间阶跃的模糊程度加重。为了改善平滑的效果,可以将中值平滑处理和线性平滑处理两种平滑技术结合起来使用。( )1LmLmLLm

22、mmnsny)()()(3 3组合平滑处理为了改善平滑的效果可以将两个中值平滑串接,图a所示是将一个5点中值平滑和一个3点中值平滑串接.另一种方法是将中值平滑和线性平滑组合,如图b所示。为了使平滑的基音轨迹更贴近,还可以采用二次平滑的算法,全部算法的框图如图所示。由于中值平滑和线性平滑都会引入延时,所以在实现上述方案时应考虑到它的影响。d是一个采用裣延时的可实现二次平滑方案。其中的延时大小可由中值平滑的点数和线性平滑的点数来决定。声道可以看成是一根具有非均匀截面的声管,在发音时起共鸣器的作用。当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。共振峰参数包括

23、共振峰频率和频带宽度,它是区别不同韵母的重要参数。共振峰信息包含在语音频谱包络中,因此共振峰参数提取的关键是估计自然语音频谱包络,并认为谱包络中的最大值就是共振峰。提取共振峰特性最简便的手段是使用语谱仪。分析共振峰参数也可采用数字信号处理的方法,它可获得与语谱图相同的信息。但精确的共振峰估值是很困难的(原因:虚假峰值、共振峰合并、高音调语音)为此,下面讨论常用的几种解决方法。 带通滤波器组法带通滤波器组法这种方法类似于语谱仪,但由于使用了计算机,使滤波器特性的选取更具灵活性,实现框图如图所示。这是共振峰提取的最早形式,与线性预测法相比,滤波器组法有些逊色。但通过滤波器组的设计可以使估计的共振峰

24、频率同人耳的灵敏度相匹配,其匹配的程度比线性预测法要好。带通滤波器组法提取共振峰 带通滤波器组法带通滤波器组法滤波器的中心频率有两种分布方法:等间距地分布在分析频段上,则所有带通滤波器的带宽可设计成相同,从而保证了各通道的群延时相同。是非均匀地分布,例如为了获得类似于人耳的频率分辨特性,在低频端间距小,高频端间距大,带宽也随之增加,这时滤波器的阶数必须设计成与带宽成正比,使得它们输出的群延时相同,不会产生波形失真。缺点:p由于滤波器组中的滤波器数目有限,估计的共振峰频率不可避免地存在误差;p而且对共振峰带宽不易确定;p由于无法去除声门激励的影响,可能会造成虚假峰值。 倒谱法倒谱法共振峰估计虽然

25、可以直接对语音信号求离散傅里叶变换(DFT),通过DFT谱来提取信号的共振峰参数,但是,直接DFT的谱要爱基频谐波的影响,最大值只能出现在谐波频率上,因而共振峰测定误差较大。为了消除基频谐波的影响,可以采用同态解卷技术,经过同态滤波后得到平滑的谱,这样简单地检测峰值就可以直接提取共振峰参数,这种方法更为有效和精确。倒谱运用对数运算和二次变换将基音谐波和声道的频谱包络分离开来。因此用低时窗l(n)从语音信号倒谱c(n)中所截取出来的冲激响应h(n),能更精确地反映声道响应。由h(n)经DFT得到的 ,就是声道的离散谱曲线。用 代替直接DFT的频谱,去除了激励引起的谐波波动,可以更精确地得到共振峰

26、参数。( )H k( )H k 倒谱法倒谱法如图所示,倒谱法求取语音频谱包络。倒谱法因为其频谱曲线的波动比较小,所以估计共振峰参数的效果是较好的,但其运算量太大。 111( )ln()ln()ln()jjjc nFS eFU eFH e声门激励序列的倒谱,是以基音周期为周期的冲激序列声道冲激响应序列的倒谱,集中在n=0附近的低倒谱 倒谱法倒谱法 111( )ln()ln()ln()jjjc nFS eFU eFH e声门激励序列的倒谱,是以基音周期为周期的冲激序列声道冲激响应序列的倒谱,集中在n=0附近的低倒谱可在倒谱域用一个滤波器(倒滤波器)消除声门激励的影响21101( )ln()ln()

27、,01NjknjjNkc nFH eH eenNN利用逆傅立叶变换求c(n)时,为避免发生混叠,需要将N取得足够大 倒谱法倒谱法对于浊音和清音,倒谱法的检测效果不同:p浊音时,若频谱包络的变换和基音峰值的变换在倒谱中的间隔足够大,则频谱包络的变换很容易识别。而声道冲激响应h(n)的倒谱的特性取决于声道传递函数H(z)的极零点分布。当H(z)的极零点的模不是很接近于1时,将随n的增加而迅速减小。p清音时,声门激励序列具有噪声特性,其倒谱没有明显峰值,且分布于从低倒谱域到高倒谱域的很宽的范围内,因而在低倒谱域对声道响应的信息产生了影响。注意:求得的声道模型对数谱与实际的声道对数谱之间将存在一定差别 倒谱法倒谱法倒谱法存在的缺陷:并不是所有的谱峰都为共振峰;带宽的计算。 原因:当两个共振峰很靠近时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论