版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于经验模态分解和Teager峭度的语音端点检测第31卷第3期2010年3月仪器仪表ChineseJournalofScientificInstrumentV0l_31No.3Mar.201O基于经验模态分解和Teager峭度的语音端点检测木张德祥,吴小培,吕钊,郭晓静(安徽大学计算智能与信号处理重点实验室合肥230039)摘要:采用经验模态分解和Teager峭度的统计特性对噪声环境下的语音信号端点进行检测.利用经验模态分解获得语音信号的本征模态函数,用Teager能量算子计算每个本征模态函数的瞬时能量,并对本征模态函数进行系数一峭度计算,提取信号期望的统计特征信息实现语音端点的检测.通过自适
2、应EMD分解和Teager能量算子的处理,这种方法可以有效地消除白噪声或有色高斯噪声的影响.通过仿真例子说明这种方法可以取得良好的端点检测效果,仿真研究结果表明用经验模态分解和Teager峭度对噪声环境下的语音端点检测是可行的和有效的,提高了检测的可靠性.关键词:端点检测;经验模态分解;本征模态函数;Teager峭度中图分类号:TN912.3文献标识码:A国家标准学科分类代码:510.4040EndpointdetectionofspeechsignalbasedonempiricalmodedecompositionandTeagerkurtosisZhangDexiang,WuXiaope
3、i,LvZhao,GuoXiaojing(KeyLab.ofIntelligentComputingandSignalProcessing,AnhuiUniversity,Hefei230039,China)Abstract:Anewalgorithmforendpointdetectionofspeechsignalsinnoisyenvironmentsbasedonempiricalmodedecomposition(EMD)andstatisticalpropertiesofTeagerkurtosisisproposed.Thespeechsignalisfirstlydecompo
4、sedintointrinsicmodefunction(IMF)usingempiricalmodedecompositionmethod.ThenTeagerenergyoperatorisusedtotrackthemodulationenergyofeachIMF.Thedesiredfeatureofstatisticalpropertiesofspeechsignalscanbeextractedfromthecoefficientkurtosisvalueoftheintrinsicmodefunction.Throughself-adaptivedecompositionwit
5、hEMDandTeagerenergyoperatorprocessing,theproposedmethodcaneffectivelyeliminatethedisturbanceofadditivewhiteorcoloredGaussiannoises.Inordertoshowtheeffectivenessoftheproposedmethod,wepresentexamplesshowingthatthenewmethodismoreeffectivethantraditionalmethods.Experimentresultsshowthefeasibilityandeffi
6、ciencyoftheEMDandTeagerkurtosismethodinendpointdetectionofspeechsignalsinnoisyenviron-ment;additionally,thealgorithmisveryreliabletobeimplementedforendpointdetection.Keywords:endpontdetection;empiricalmodedecomposition;intrinsicmodefunction;Teagerkurtosis1引言在语音信号处理中,对语音信号的浊音段进行准确的定位和提取是非常重要的,特别是在噪声环
7、境下的语音信号端点提取的准确度对于高质量的语音分析与合成,语音压缩编码,语音识别和说话者确认等方面具有重要的意义.在早期的语音端点检测中,常用的端点提取方法多采用语音信号的短时能量,短时平均过零率,倒谱法以及线性预测编码参数等来提取浊音段.这些方法都假设语音信号在短的时段内是平稳信号,而实际上,语音信号收稿日期:2009-07ReceivedDate:2009-07基金项目:安徽省教育厅自然科学基金(KJ2008B094),国家自然科学基金(60771033)资助项目494仪器仪表第31卷是典型的非平稳信号,并且在实际应用中要处理的是各种噪声背景下的语音信号,上述方法提取浊音段有时效果并不好.
8、因此,目前频谱分析法和时频分析法是端点检测常用的分析方法.传统的分析方法如Fourier变换可以把信号映射在频域内加以分析,但这种变换分析的结果只有频域信息,不提供任何时域信息.小波分析虽然在时域和频域都具有很好的局部化性质,但本质上仍是一种窗口可调的Fourier变换,在小波窗内的信号必须是平稳的,因而没有根本摆脱Fourier分析的局限.另外,一旦选择了小波基和分解尺度,所得到的是对某一固定频段信号的分析结果,而且这一频段只与信号的采样频率有关而与信号本身无关,无法反映信号的本质特征.同时,传统信号处理方法通常受到不确定原理的限制,不能在时间域与频率域同时给出信号较高的分辨率,无法正确分析
9、随时问变化的振幅和频率.经验模态分解(empiricalmodedecomposition,EMD)方法是近年来发展起来的一种新的非线性,非平稳信号分析方法,被认为是近年来的以Fourier变换为基础对线性和稳态谱分析的一个重大突破.它是利用经验模态分解方法将复杂信号分解成有限数本征模态函数(intrinsicmodefunction,IMF),EMD分解出来的IMF分量包含了信号从高到低不同频率段的成分,每个频率段包含的频率分辨率都随信号本身是变化的,具有自适应多分辨分析特性,是一种自适应信号处理方法.在语音识别中,噪音和语音通常被认为是相互独立且带噪声语音是语音与噪音相加的结果,此外噪音往
10、往假设是高斯分布的.由于是否接近高斯分布是绝大部分噪音和语音在信号域的根本区别,所以由高阶累计量变换得来的高阶谱特征对于噪音有广泛的鲁棒性.归一化峰值即峭度(kurtosis)是一个四阶统计量,常常被用来度量一个信号的非高斯性,语音信号无声段对应的峭度值较小,而浊音段对应的峭度较大.本文就是利用EMD方法对含噪声的语音信号进行分解,再根据不同频带内信号所包含语音信息的高阶统计量对浊音分析检测,通过系数一峭度变化实现语音端点的检测和定位.2EMD分解的原理经验模态分解(EMD)方法是假设任何非线性,非平稳信号都可分解成一组相互独立的具有稳态特性的本征模态函数(IMF)数集.与其他信号处理方法相比
11、,EMD方法是直观的,直接的,后验的以及自适应的,其分解所用的基是源自于原始信号的本身.该方法的实质是通过特征时间尺度来识别信号中所内涵的本征振动模态,然后对其进行分解.其分解过程如下:1)首先找出原始信号S(t)所有的极大值点和极小值点,并用三次样条函数拟合原始数据数列的上下包络线.2)计算上下包络线的均值,记为m(t);并将原始数据序列S(t)减去该均值可得到一个去掉低频的新数据序列h.(t),即h(t)=S(t)一m,(t)(1)3)判断h(t)是否满足IMF条件,否则对h,(t)信号重复上述两过程,直到均值趋进于零为止,这样可得到第一个IMF分量C(t),它代表信号S(t)中最高频率的
12、分量.4)将原始信号与第一个IMF分量C.(t)相减,得到原始信号中不包含最高频频分量的剩余信号r,(t),即:rl(t)=S(t)一C(t)(2)将r(t)作为原始信号重复上述三个过程,得到其他的IMF分量C(t)i=2,3,n,直到残余函数(t)为单调函数为止.r2(t)=r1(t)一C2(t)r3(t)=r2(t)一G(t)(t)=一(t)一C(t)(3)根据有限次分解之后,可以得到原始信号所包含的不同频率分量的信号,则原始信号S(t)可以描述为:s()=Cj(t)+r(f)(4)EMD分解出来的IMF分量分别包含了信号不同时间特征尺度大小的成分,其尺度依次由小到大.因此,每个IMF包含
13、了从高到低不同频率段的信号成分,且随信号本身的变化而变化.3四阶累积量的峭度计算若(n)是零均值的离散随机信号,则(n)的k阶累积量可以根据其阶矩来进行计算川,特别地,随机信号(n)的四阶累积量可以表示为:c4x(mi,m2,m3)=Ex(n)x(n+mI)x(n+m2)x(n+m3)一Ex(n)x(n十mI)?E(n+)(n+m3)一Ex(n)x(n)?Ex(It+m1)x(n+,)一E(n)(n+m3)?Etx(n+rn2)x(n+m.)(5)对于式(5)的累积量估计常用集合平均来进行计算,则随机信号(n)的四阶累积量可以用下式进行估算:1NC(.,m,m)=(n)(+m,)x(It+1N
14、?Nm)(n+)(n)(n+m)1n(n+T=1=1第3期张德祥等:基于KPCAHSMM设备退化状态识别与故障预测方法研究495m)(n+m)(n)(n+mz)(n+1lm)(n+m3)一(n)(n+m3)(n+,n2)(n+,n1)(6)若随机信号(/7,)的均值不为零,可以通过去除均值的处理,即:1(n)=(n)一1(n)(7)然后可以利用式(6)来计算信号(n)的四阶累积量.对于含噪声语音信号Y(n)=(n)+(n),其中s(n)为语音信号,(n)为高斯噪声,且S(n)与(n)独立,由于累积量具有半不变性,故有:C4(m1,m2,m3):C4(m1,m2,m3)+c4(ml,m2,m3)
15、(8)式中:c4(ml,m2,m3),C4(ml,m2,m3)与c4(m1,m2,m)分别为),(n),s(n)与(n)的四阶累积量.若(n)为零均值的高斯噪声,由于三阶以上的累积量对高斯噪声是盲的,即c(m.,m:,m,)=0,因此有:C4(ml,m2,m3):C4(m1,m2,m3)(9)由式(9)可知,含噪声语音信号的四阶累积量与浊音语音的四阶累积量相等,因此,只要能估计出观察语音信号y(n)的四阶累积量(m.,m,m)周期就能得到语音信号的端点.若将延迟时间都定义为0,即m.=m=m=0,则得到峭度的定义:c4(0)=E()一3(E(n)(10)在特征提取中常采用归一化峭度度量的方法:
16、=axmlILIU,f,4Teager峭度Teager能量算子(TEO)是由Kaiser提出的一种非线性算子,它能有效提取信号的能量.在连续时间信号(t)中,TEO定义为:(t)=(t)一(t)星(t)(12)式中:(t)=dx(t)/d.TeagerKaiser能量算子可以表达信号的瞬时能量值.对于离散时间信号,式(12)可以近似表达为:I(n):(n)一(n+1)(n一1)(13)Teager能量算子不仅可以反映幅值的变化,也可以反映频率的变化.幅值变化得越快,或频率变化得越快,能量算子的输出值就越大,并且针对不同类别的信号时,Teager能量算子的输出也反映出不同的特性,因此,可以根据这
17、个特性以Teager能量算子来计算能量并作为输出特征参与峭度的计算,实现语音端点的检测.利用非线性Teager能量算子计算能量并代人式(10)所表达的峭度公式,可以得到Teager峭度计算公式:C(0)=E(n)一3(E(n)(14)5EMD和Teager峭度实现语音端点检测语音信号可以看成是由若干个不同频率的频率族分量组成,而每一个频率族的分量所对应的幅值可以看成是调幅信号.EMD分解在每一时刻首先分解出尺度最小的IMF,然后分解出尺度较大的IMF,然后再分解出尺度更大的IMF.尺度越低,其含有的高频成分越多,通过基于固有模态函数的信号展开,幅度与频率调制也被清楚地分开.从而打破了固定幅度与
18、固定频率的Fourier变换的限制,得到了一个可变幅度与可变频率的信号描述方法.首先将语音信号进行分解,然后用式(13)和(14)计算第个IMF的Teager峭度:;(0)=E,(n)一3(E(n)(15)对于含噪声语音信号进行分解,由于每个IMF都代表不同的高斯特性,其峭度也不同,所以可以将真实语音信号从噪声中分离出来.一般尺度大的IMF分量幅值较小,其峭度也较小,在实际计算中可以取尺度小的部分IMF分量进行处理.其算法可以用下列步骤进行处理:1)用EMD算法对语音信号进行分解得到有限个本征模态分量IMFs.2)选择需要处理的(n)=1,2,m分量.3)计算每个(n)=1,2,m分量的Tea
19、ger能量.4)对每个,(n)=1,2,m分量采用Hamming窗进行分帧处理.5)分别计算每个(n)=1,2,m分量的第Jj个分帧段(n)的Teager峭度:c(0)=E,(n)一3(E,(n)(16)式中:=1,2,为,(n)分量的分帧数.6)最后得到整个语音信号的峭度并归一化处理:1mc(0):(o)(17)1式中:m是所选取的IMF分量的个数.496仪器仪表第31卷6实验和结果分析为了验证本文提出算法的有效性,采用两类实验数据进行说明,一类采用TIMIT语料库中随机抽取的句子进行测试,其中男女各占一半,输入语音信号的采样率为16kHz,量化位数为16b.为了获得不同噪声和不同信噪比的含
20、噪声语音信号,采用标准噪声库NOISEX-92中的白噪声,F.16噪声,Babble噪声和工厂噪声来进行测试.另一类数据采用在实验室的真实环境下采集的语音信号.图1表示的是一段纯净语音信号以及加入白噪声,F一16噪声,Babble噪声和工厂噪声等不同噪声形成的含噪语音信号,信噪比SNR=0dB.f,图1纯净语音以及含不同噪声的语音信号(SNR=0dB)Fig.1Cleanspeechsignalandcorruptedspeechsignalsbydifferentnoises(SNR:0dB)00.2o4060.8l121.4time/s图2纯净语音信号端点检测结果Fig.2Endpoint
21、detectionresultsofcleanspeechsignal首先,对纯净的语音信号进行语音端点检测,主要计算短时过零率,短时能量和短时峭度,在进行端点检测时主要采用峭度公式对语音信号进行端点检测定位,其结果如图2所示.对于纯净的语音信号,通常采用过零率和短时能量结合的双门限检测方法可以取得良好的端点检测,通过实验可知,采用短时过零率和短时峭度结合的双门限检测也可以获得良好的语音端点检测和定位.下面对含噪声语音信号进行端点检测处理,采用EMD分解和Teager峭度相结合的计算方法.图3所示的是含Babble噪声且信噪比SNR=0dB的一段语音进行EMD分解结果.图中EMD分解后的残余项
22、未显示.专蔷00.511.星莹n莹寸莹ln星星卜皇莹time/s图3语音信号以及EMD分解后的各IMF分量Fig.3SpeechsignalandIMFcomponentsafterEMD计算每个IMFs的Teager能量,从计算的结果可以知道,对于分解的IMFs分量,随着分解尺度的增加,信号变化趋于平缓,语音端点处的变化不是非常强烈,因此计算出的Teager能量相对就比较小.图4所示的只是IMFs所有分量中的前8个部分分量的Teager能量图.利用公式(15)对各IMF分量的Teager能量算子处理后的分量计算Teager峭度,并进行归一化处理.由于尺度较大的IMFs分量的Teager峭度很
23、小,对端点检测的影响很小,所以只取图4所示的IMFs所有分量中的前8第3期张德祥等:基于KPCAHSMM设备退化状态识agerenergyofpartialIMFcomponents_1s厂人堇.必§o-sI.必il.莹.1.一凸一一.一.02040.608lI.21.4图5部分IMFs分量的Teager峭度Fig.5NormalizedTeagerkurtosisofpartialIMFcomponents最后根据式(17)来确定整个语音信号的Teager峭度,并根据Teager峭度的大小来确定语音信号的端点位置.图6所示的就是含Babble噪声的语音信号端点检测的结果.从图6可以
24、看出,基于EMD分解和Teager峭度的端点检测可以取得良好的效果.比较图2和图6可以看出,含噪声语音信号的短时过零率和短时能量图形和纯净语音信号的短时过零率和短时能量图形相比发生了较大的变化,但Teager峭度的图形和纯净语音信号的峭度相比没有太大的变化,具有一定的鲁棒性,可以较好地实现语音端点检测.Otime/s图6基于Teager峭度的噪声语音信号端点检测结果Fig.6EndpointdetectionresultsofnoisyspeechsignalbasedTeagerkurtosis为了说明本文方法的有效性,对图1所示的含各种不同噪声的语音信号进行Teager峭度计算,以观察各自
25、Teager峭度的变化,图7所示的就是图1所示每个语音信号的Teager峭度图.time/s图7图l所示不同语音信号的Teager峭度Fig.7TeagerkurtosisofdifferentspeechsignalsshowninFig.1从图7所示的结果看,对于不同噪声污染的语音信号,利用EMD分解和Teager能量算子相结合来计算的Teager峭度具有相似的图形表达,可以获得良好的语音端点检测.7结论本文介绍了基于经验模态分解和Teager能量算子相啦.茸8器498仪器仪表第31卷结合来计算语音信号峭度的算法研究,并将Teager能量算子与峭度相结合形成Teager峭度来实现语音端点检
26、测.通过仿真研究和实验研究表明,经验模态分解是一种自适应多分辨率分解方法,而各尺度本征模态函数的Teager峭度具有抑制噪声的作用,表明Teager峭度在噪声环境下语音信号的端点检测方面具有良好的稳定和适应性参考文献1HARSHABV.ANoiserobustspeechactivitydetectionalgorithmC.Proceedingsof2004InternationalSymposlumonIntelligentMuhimedia,VideoandSpeechProcessing,2004:32232.2MAKB,JUNQUAJC,REAVESB.Arobustspeechno
27、nspeechdetectionalgorithmusingtimeandfrequencybasedfeaturesC.ProceedingsoftheIEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing,1992,1:269272.3TANYERSG,OZERH.VoiceactivitydetectioninnonstationarynoiseJ.IEEETrans.SpeechAudioProcessing,2000,8(4):478482.4FLANDRINP,RILLINGG,GONCALVESP.Emp
28、iricalmodedecompositionasafilterbankJ.IEEESignalProcessingLetters,2004,11(2):112114.5HUANGNE,SHENZ,LONGSR.TheempiricalmodedecompositionandHilbertspectrumfornonlinearandnonstationarytimeseriesanalysisJ.Proc.Roy.Soc.London.A,1998,454:903-995.6行鸿彦,许瑞庆,王长松.基于经验模态分解的脉搏信号特征研究J.仪器仪表,2009,30(3):596-602.XING
29、HY,XURQ,WANGCHS.PulsesignalfeatureresearchbasedonempiricalnlodedecompositionJ.ChineseJournalofScientificInstrument,2009,30(3):596-602.7NEMERE,GOUBRANR,MAHMOUDS.SpeechenhancementusingfourthordercumulantsandoptimalfiltersinthesubbanddomainJ.SpeechCommunication,2002,36(4):219246.8WUZH,HUANGNE.Astudyoft
30、hecharacteristicsofwhitenoiseusingtheempiricalmodedecompositionmeth一0dJ1.Proc.R.Soc.London.A,2004,460:15971611.9秦鹏,蔡萍.改进经验模态分解在动平衡信号提取中的应用J.仪器仪表,2008,28(1):103107.QINP,CAIP.Extractingdynamicbalancingsignal1012131415basedonimprovedempiricalmodedecompositionJ.ChineseJournalofScientificInstrument,2008,
31、28(1):l03107.NEMERE,GOUBRANR,MAHMOUDS.Speechenhancementusingfourth-ordercumulantsandoptimumfil?tersinthesubbanddomainJ.SpeechCommunication,2002,36(3):219246.NEMERE,GOUBRANR,MAHMOUDS.RobustvoiceactivitydetectionusinghigherorderstatisticsintheLPCresidualdomainJ.SpeechandAudioProcessing,2001,9(3):21723
32、1.KAISERjF.OnasimplealgorithmtocalculatetheenergyofasignalC.Albuquerque,USA:ProceedingsofIEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing,1990:381-384.黄姣英,袁海文,崔勇.基于EMD和自相关分析的轮胎音频信号处理J.电子测量与仪器,2009,23(9):3337.HUANGJY,YUANHW,CUIY.TireaudiosignalprocessingbasedonEMDandautocorrelationana
33、lysisJ.JournalofElectronicMeasurementandInstrument,2009,23(9):3337.KEL,SWAMYMNS,AHMADMO.AnimprovedvoiceactivitydetectionusinghigherorderstatisticsJ.IEEETransactionsonSpeechandAudioProcessing,2005,13(5):965974.WRIGLEYSN,BROWNGJ,WANV,eta1.SpeechanderosstalkdetectioninmuhichannelaudioJ1.IEEETransaction
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论