有色噪声下基于Unscented粒子滤波的语音增强方法_第1页
有色噪声下基于Unscented粒子滤波的语音增强方法_第2页
有色噪声下基于Unscented粒子滤波的语音增强方法_第3页
有色噪声下基于Unscented粒子滤波的语音增强方法_第4页
有色噪声下基于Unscented粒子滤波的语音增强方法_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第24卷第3期电波科学学报Vol.24,No.32009年6月CHINESEJOURNALOFRADIOSCIENCEJune,2009文章编号100520388(2009)0320476206有色噪声下基于Unscented粒子滤波的语音增强方法3尹伟1易本顺1沈小丰2(1.武汉大学电子信息学院,湖北武汉430079;2.湖北大学物理学与电子技术学院,湖北武汉430062)摘要针对含有色噪声的语音,提出了一种基于Unscented粒子滤波的单通道语音增强方法。采用时变自回归模型(TVAR)对干净语音建模,通过Unscented粒子滤波器估计AR模型的参数并滤除有色噪声。与大多数常用的粒子滤波选择的建议分布不同,Unscented粒子滤波器采用Unscented卡尔曼滤波器生成粒子滤波的建议分布。由于在粒子的更新过程中考虑了最近的观测值,Unscented粒子滤波器能够在粒子数少于传统粒子滤波算法所需粒子数目的基础上改善估计的性能。仿真实验结果表明,在有色噪声背景下该算法具有良好的语音增强效果。关键词语音增强;Unscented粒子滤波;中图分类号TN912.3文献标志码Afilter2gaussiannoisesYINWei1YIBenΟshun1SHENXiaoΟfeng2(1.SchoolofElectronicInformation,WuhanUniversity,WuhanHubei430079,China;2.SchoolofPhysics&Eleetronics,HubeiUniversity,WuhanHubei430062,China)AbstractConsideringspeechsignalswithcolornoises,anovelspeechenhance2menttechniqueisproposedbasedonunscentedparticlefilter(UPF).Thetech2niquemodelsspeechsignalswithtimeΟvaryingautoregressive(TVAR)models.UnscentedparticlefilterisappliedtoestimatetheparametersofARmodelandfil2tercolornoises.Insteadofmostpopularchoiceofproposaldistribution,UnscentedparticlefilterusesanUnscentedKalmanfilter(UKF)togeneratetheimportanceproposaldistribution.Itallowstheparticlefiltertoincorporatethelatestobserva2tionsintoapriorupdatingroutinesoastoimproveestimationperformancegreatlywithfewerparticles.Simulationresultsdemonstratethattheproposedalgorithmpossessesgoodperformancewithcolornoises.Keywordsspeechenhancement;Unscentedparticlefilter;timeΟvaryingautore2gressivemodels;UnscentedKalmanfilter收稿日期:2008209201.基金项目:中国博士后基金(No.20070411054);江苏省博士后基金(No.0701017B);国家自然科学基金(No.60871013,No.60701005);高等学校博士学科点专项科研基金(No.20070288043)联系人:沈小丰E2mail:sxfcn@126.com4763第3期尹伟等:有色噪声下基于Unscented粒子滤波的语音增强方法477引言语音增强技术无论是在复杂环境下的语音通信还是在语音编码或语音识别的预处理中都有着很广泛的应用。它通过对带噪语音进行语音增强处理来改善语音质量、提高语音可懂度,因而具有非常重要的意义。在众多语音增强方法中,谱减法[1,2]是最常用的。但是其处理后的语音会产生音乐噪声,而且在信噪比较低时残留噪声较大,不能得到很好的增强效果。另一类常见的语音增强算法是基于语音生成模型的方法,如卡尔曼滤波[3]。卡尔曼滤波的语音增强方法通过线性预测系数获得干净语音参数,并通过无语音帧获得噪声特性。当噪声是高斯过程时,卡尔曼滤波给出了对干净语音的最小均方差估计。但是卡尔曼滤波假设语音满足高斯分布,因此在对实际非高斯分布的语音的建模方面有其局限性。近年来一种新的非线性滤波方法———结合贝叶斯原理和蒙特卡罗的粒子滤波器,获得成功的应用。问题,音增强。]模型(TVAR),提出一种基于RaoΟBlack2wellized粒子滤波的语音增强方法。金乃高等人在Vermaak算法的基础上通过子带分解降低了Rao-Blackwellized粒子滤波中采样空间的维数,达到减x(n)可以描述为一个由白噪声信号驱动、全极点线性自回归过程,即px(n)=i=1∑a(i)x(n-i)+u(n)(1)式中,p为AR模型的阶数;{a(i)}ip=1为AR模型的系数;{u(n)}为零均值且方差为σu的高斯白噪声。激励源参数和声道模型参数即使在短时间间隔内仍然是时变的,因此,为了更有效地描述语音信号的非平稳特性将式(1)改写为TVAR模型,即pxt=i=1∑a(i)xtt-i+ut(2)在此引入一个对数域偏差<ut=log(σut),并假设其变化规律满足高斯随机移动模型,则激励噪声的似然函数为22μσ(3)p(<ut|<ut-1,σ<u)=B(<u,<u)2σ在此μ<u=log(αut-1),α是小于1的系数。对TVAR系数a(i)pat|a1)at-1,a)(4),就是确保TVAR模型所有瞬时极点位于单位圆内。为了确保系统模型的稳定,文中采用另一种参数建模的方法,对TVAR模型采用时变反射系数(TVΟPARCOR)[6]来重新参数化。采用TVΟPARCOR模型原因在于其能更容易地验证模型的少计算量的目的。上述的两种方法在语音增强上获得了不错效果,但是它们在建立语音的TVAR模型时未考虑模型的稳定性。此外,将附加噪声假设为高斯白噪声,采用对数域偏差来模拟噪声的时变特性,这样的设定对于高斯白噪声能有比较好的效果,但是对有色噪声就不一定。而且在选择重要性采样时将状态的先验分布作为建议分布进行状态估计,不能很好地逼近实际的后验分布,影响了估计精度,同时也导致粒子的退化。为此,文中采用Unscent2ed粒子算法来进行语音增强,通过TVAR模型对语音建模,为了确保模型的稳定,对TVAR模型采用TVΟPARCOR系数来重新参数化,引入Un2scented卡尔曼滤波器方法来产生建议分布。仿真稳定性和对模型进行评估,而且其对语音信号的特性有很好的描述。采用标准的Levinson递归式可以将at转换成时变反射系数ρPARCOR模t。TVΟ型的稳定性可以通过每个反射系数ρt保证。当系数ρt的值在(-1,+1)范围内时表明系统稳定,则时变ρt的受限的移动模型为2σN(ρmax{|ρt,aI)t,i|}<12iσp(ρt|ρt-1,a)∝0,otherwise(5)Tρ在此ρPARCORt=[t(1),…,ρt(p)]。文中TVΟ模型设定前向反射和后向反射系数定相同。这是考虑到人的声道形状由于物理特性的限制是随时间缓慢变化的,前向反射系数可以近似认为等于后向反射系数。则AR系数ai和反射系数ρi可用如下的实验表明,针对有色噪声,在计算量相近时文中算法能在采用少量粒子数的情况下获得更好的性能。1语音和噪声模型假设语音和噪声信号相互无关,干净语音信号非线性可逆的映射关系进行转换(aj=1(i)-ρaj(i)=j+1aj+1(j-i+1))21-ρj+1j=p-1,…,1i=1,…,j(6)在这个递归式中ρp=ap(p)且ρj=aj(j)。478电波科学学报N第24卷在只考虑加性噪声的条件下,带噪语音yt的模型可以表示为yt=xt+vt(7)i=1∑wt=1i(15)在此vt为与干净语音无关的附加噪声。为了描述附加噪声对vt采用AR过程来建模有q而X0:t=(Xj,j=0,…,t)表示到t时刻系统所有状态的集合,所以t时刻的后验密度可以近似表示为Np(Xt|y1:t)≈(8)i=1t-i∑wδ(Xitt-Xt)i(16)vt=i=1∑b(i)v+et2式中,et是方差为σ对b(i)采用高e的高斯白噪声。斯随机移动模型,则有2p(bt|bt-1)=N(bt-1,σbI)(9)在此引入一个已知分布且容易采样的重要性分布函数q(Xt|y1:t),通过对重要性函数的采样粒子点进行加权来近似p(Xt|y1:t)。对系统的转态转移函数f(Xt)有N由此干净语音和带噪信号的模型可以通过一个参数向量θt来描述,θt=(at,<ut,bt)。式(1)与式(2)描述的语音信号TVAR转化为依赖于参数θtE(f(Xt))=i=1∑if(X)q(Xt|y1:t)p(y1:t)iti(17)的状态空间的描述形式,即θxt=At(θt)xt-1+Bt(t)utθθyt=Ct(θt)xt+Dt(t)vt+Et(t)et式中,At(θt)=atIp-10p-1式中,iiw∝iq(Xt|y1:t)it(10)(11)(18)θ,Bt(t)=ut0p-1×若在t-1时刻已经得到t-1pi(X0:t-|y1:t-1),且语音参数,itw∝witit-1Ct(θt)=101Dt(θt)t10q-1,t(θt)e0q-1×iiq(Xt|Xt-1,yt)iii(19)式中,q(Xt|Xt-1,yt)=q(Xt|X0:t-1,y1:t)=q(X0:t-1|y1:t-1)(20)2基于粒子滤波器的语音增强算法粒子滤波算法是求解贝叶斯概率的实用算法,通过非参数化的蒙特卡罗模拟方法来实现贝叶斯滤波。而贝叶斯滤波原理的实质是用所有已知信息来构造系统状态变量的后验概率密度。选取语音模型状态为(12)Xt=(xt:t+p-1,θt)=(xt:t+p-1,at,<ut,bt)假设语音参数满足一阶马尔可夫随机过程p(Xt|Xt-1,Xt-2,…,X0)=p(Xt|Xt-1)(13)[7]由权值wit即可得到t时刻的后验概率密度p(Xt|y1:t)。状态Xt包含了对纯净语音xt的估计,直接提取Xt中的xt可获得语音增强的结果。由于粒子的选取和估计重要性权值wit与q(Xt|y1:t)的选取密切相关。为获得较好的估计效果,重要性分布应接近真实状态后验分布,且应包含大部分最近的观测值。但是为了方便实现大多数算法,在重要性分布的选择上采用重要性分布为系统的先验演化模型,即q(Xt|Xt-1,yt)=p(Xt|Xt-1)(21)则状态变量的转移概率密度为σp(Xt|Xt-1)=p(xt|xt-1:t-p,at,σu)p(at|at-1,a)・σp(<ut|<ut-1,σ<u)p(bt|bt-1,b)(14)2222采用粒子滤波算法进行语音增强的核心在于从带噪语音y1:t中估计t时刻语音的后验概率密度p(Xt|y1:t)。由于直接得到真实的后验概率密度很困难,则式(19)简化为(22)wit∝wit-1p(yt|Xit)这样的简化不能合并大部分最近的观测值,因此估计的效果并不理想。为此构造一个基于样本的后验概率密度函数,用{Xt,wt}i=1表示系统后验概率密度函数p{Xt|y1:t}iiN3基于Unscented粒子语音增强算法基本粒子滤波算法的一个主要问题是退化问题,即经过几步迭代以后,除了极少数粒子外,其他粒子的权值小到可以忽略不计的程度。在粒子滤波的粒子集合。其中{X:i=1,…,N}是支持样本集,相应的权值为{wit:i=1,…,N},且满足it第3期尹伟等:有色噪声下基于Unscented粒子滤波的语音增强方法算法中抑制粒子退化的一般方法是增加粒子数和再采样。但是再采样会降低粒子的多样性;而大量增加粒子数,将大大增加计算量。为了解决粒子退化及算法中没有合并大部分最近的观测值的问题,文中采用Unscented粒子算法[8]来进行语音增强,通过Unscented卡尔曼滤波器(UKF)方法引入最新观测值来产生建议分布。使用Unscented卡尔曼滤波器方法产生建议分布的原因在于语音信号实际具有非线性的特征,用传统卡尔曼滤波不合适。推广卡尔曼滤波(EKF)将卡尔曼滤波应用到非线性情况,但EKF不能说是卡尔曼滤波的完全推广,它只是一个用线性去近似非线性的粗糙方法,不能很好地描述系统的非线性性质,且只能得到一阶的精度。UKF也是一种递归式贝叶斯估计方法,它利用Un2scented变换(UT)方法,用一组确定的取样点来近似后验概率。但是UKF不必线性化非线性状态方程和观测方程,它直接利用非线性状态方程来估算状态向量的概率密度函数,对任何非线性系统都可精确到泰勒级数展开的二阶精度,由它产生的支撑集更加逼近后验分布,的信息,更容易,UT性变换后的概率密度分布。对于L维的随机变量x,其均值和方差分别为^x和Px。为了得到^y和Pyy,将x用2L+1个加权sigma点χ表示χ(23)x0=^χx+(i=^L+λ)Px)ii=1,…,LL+λ)Px)j-L479ξ用来合并x分布的先验知识。式中,i=1,…,2L。这些sigma点俘获到的均值和协方差不会因不同的平方根方法而改变。因此可以采用效率高、数值稳定的Cholesky方法,用标准的向量和矩阵运算来计算均值和协方差,实现速度很快。由此,将基于Unscented粒子滤波的语音增强方法的具体步骤描述如下:(1)初始化:t=0时刻,设置粒子总数N,指定N个初始权重,从p(X0)中抽取粒子X0,其中222μσσp(X0)=N(a0,σaI)N(<u,<u)N(b0,bI)(29)(i)由式(30)求出计算增广状态变量的均值X0ia和方差P0i()a()X0=E(X0)iiiiiiiT)(X0)]P0=E[(X0-X0-X0X0P0i,ai,a=E[X0]=[(X0),0,0]=E[(X0i,ai,aiTT(30)i,ai,ai,aT)(X0)]-X0X0i=ag((t=2,…)KF更新粒子状态,先对粒子由UT变换(i)a生成sigma点χt-1,然后通过时间和测量更新得到(i)各个粒子的均值Xt(i)和方差^Pt。由此将建议分布定义为q(XtX^t(i)(i)(i)()(i)|X0:t-1,y1:t)=N(Xti,^Pt)(31)从建议分布中抽取粒子()()()(i)~q(Xti|X0i:t-1,y1:t)=N(Xti,^Pt)(24)(25)χj=^x-(2(32)j=L+1,…,2L2)计算粒子的权值w(i)t()(i)(i)i∝(i)(i)q(Xt|X0:t-1,y1:t)λ=α(L+κ)-L是一个比例参数。常数α决式中,-4α定^x周围sigma点的分布范围,一般来说取e≤≤1。另一比例参数κ用来调节高阶矩的作用减小预测误差,且当L+κ=E[(x-^x)]时,预测误差最)Px)i是矩阵(L+λ)Px的平方根的第小。(L+λ)后得到i列。这些sigma点经过非线性函数f(・一系列变换点,这些变换点的均值和方差如下2L(33)3)对权值归一化Nw(i)t=w(i)ti=1∑wt(i)-1(34)4)重采样消除权值较小的粒子,复制权值较大的粒子,获i得N个随机样本X0:t,近似服从分布p(X0:t|y1:t),^y≈2Li=0∑WiyiTm(26)为每个再采样之后的样本粒子赋以相同的权值,对i=1,…,N,有wt=1/N。iPyy≈i=0W∑ci(yi-^y)(yi-^y)(27)5)马尔可夫链蒙特卡罗(MCMC)计算式中,加权系数Wi为(m))W0=λ/(L+λW0Wi(c)(m)为了增加粒子的多样性,由固定不变的分布p(i)(i)(i)(X0:t|y1:t)采用马尔可夫转换核获得(X0:t,P0:t)。2)+(1-α)=λ/(L+λ+ξ(28)6)输出=Wi(c))]=1/[2(L+λ用采样值近似后验分布480p(X0:t|y1:t)≈^p(X0:t|y1:t)=电波科学学报NN第24卷i=1δ∑X0:t(i)(dX0:t)(35)4实验仿真为了验证文中算法的有效性,文中采用2种不同的干扰噪声测试算法的增强效果。实验语音数据来自国外著名TIMIT语料库的时长为2s、采样率为16kHz语音,通过软件CoolEditPro重采样为8kHz。加入的噪声类型包括有色噪声和类似语音的Babble噪声。在MATLAB中将语音与噪声按比例线性相加,生成不同信噪比的带噪语音,其信噪比(SNR)范围为0dB至10dB。在实验中,TVAR模型的阶数p为10,噪声的AR模型的阶数q为5。UT参数设置为α=1,κ=0,ξ=2。为了验证文中提出算法的语音增强效果,将文中算法与文献[4]中算法进行比较。考虑到Unscented粒子滤波算法中由于Unscented卡尔曼滤波器的引入大大增加了计算量。非常大。,,实验时30,文献[4]中算法的粒子数为200。此时两种算法的运算量基本接近。1)有色噪声下语音增强实验文中有色噪声取自噪声库NOISEXΟ92B。图1所示为有色噪声下两种算法语音增强效果的语谱图对比。横坐标表示时间,单位为秒;纵坐标表示频率,其单位为赫兹。图1(a)中为原始的干净语音的语谱图;图1(b)为含噪语音信号混入了很强的有色噪声干扰,其语谱特征很模糊;图1(c)为文献[4]中算法处理后语音的语谱图,可以可看到背景噪声得到很大程度的抑制;图1(d)为文中算法处理后语音,其语谱图相对于图1(c)语谱特征更加清晰。在不同输入信噪比下,文中方法与文献[4]语音增强方法的比较结果,如表1所示。可以看出对有色噪声,文中算法相对于文献[4]中算法性能有一定程度提高。表1有色噪声下不同信噪比的增强效果比较输入信噪比/62NOISEX292B。,其能量集中在低频段,也可视作是一类有色噪声。如图2所示为Bab2ble噪声下两种算法语音增强效果的语谱图对比。文献[4]输出5.567.218.72文中算法输出6.328.139.34图2(a)中为原始的干净语音的语谱图;图2(b)为含噪语音信号混入了Babble噪声干扰;图2(c)为文献[4]中算法处理后语音的语谱图;图2(d)为文中算法处理后语谱图。通过比较图2(c)和图2(d)第3期尹伟等:有色噪声下基于Unscented粒子滤波的语音增强方法的语谱图可以很清楚地看出,对于含Babble噪声的语音去噪,文中的算法要好于文献[4]中的算法。表2为文中方法与文献[4]语音增强方法的Babble噪声下不同信噪比的增强效果比较结果,同样可以看出对Babble噪声文中算法效果好于文献[4]中算法。表2Babble噪声下不同信噪比的增强效果比较输入信噪比/dB0.233.746.048.31481[4]VERMAAKJ,ANDRIEUC,DOUCETA.Particlemethodsforbayesianmodelingandenhancementofspeechsignals[J].IEEETransactionsonSpeechandAudioProcessing,2002,10(3):1732185.[5]金乃高,殷福亮,等.基于子带粒子滤波的一种语音增强方法[J].通信学报,2006,27(4):23228.JINNaigao,YINFuliang,etal.Subbandparticlefil2teringforspeechenhancement[J].JournalonCommu2nications,2006,27(4):23228.(inChinese)[6]DOUCETA,GODSILLSJ,WESTM.MonteCarlofilteringandsmoothingwithapplicationtotime2var2yingspectralestimation[C]//IEEEInt.Conf.Acoust.,Speech,SignalProcess,2000:7012704.[7]CAPPEO,GODSILLSJ,MOULINESE.Anover2viewofexistingmethodsandrecentadvancesinse2quentialMonteCarlo[J].ProceedingsoftheIEEE,2007,99(5):8992924.[8]MERWEVDR,DOUCEA,ND,etal.Univer2[]JULIERSJ,UHLMANNJK.Anewmethodforthenonlineartransformationofmeansandcovariancesinfiltersandestimators[J].IEEETrans.A.C.,2000,45(3):4772482.[10]JULIERSJ,UHLMANNJK.Unscentedfilteringandnonlinearestimation[J].IEEE,2004,92(3):4012HYPERLINK"/retype/zoom/64c18cd9ad51f01dc281f1ad?pn=6&x=0&y=474&raww=278&rawh=393&o=pn

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论