基于子带粒子滤波的一种语音增强方法_第1页
基于子带粒子滤波的一种语音增强方法_第2页
基于子带粒子滤波的一种语音增强方法_第3页
基于子带粒子滤波的一种语音增强方法_第4页
基于子带粒子滤波的一种语音增强方法_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第27卷第4期2006年4月 通 信 学 报 Vol.27 No.4Journal on Communications April 2006基于子带粒子滤波的一种语音增强方法金乃高, 殷福亮, 王冬霞, 陈喆(大连理工大学 电子与信息工程学院,辽宁 大连 116024)摘 要:结合多采样率系统理论中的子带技术与贝叶斯估计理论中的粒子滤波技术,提出了一种基于子带粒子滤波的语音增强方法。该方法首先将语音信号分解成子带信号,建立各子带信号的低阶时变AR模型;然后利用R-B粒子滤波估计时变AR模型参数,对子带信号进行滤波处理;最后根据滤波后的子带信号重构语音信号,实现语音增强。该方法通过子带分解降低了

2、R-B粒子滤波中采样空间的维数,在降低计算量的同时,提高了语音增强系统的性能。计算机仿真结果验证了该方法的有效性。关键词:语音增强;R-B粒子滤波;子带分解;余弦调制滤波器组中图分类号:TN911 文献标识码:A 文章编号:1000-436X(2006)04-0023-06Subband particle filtering for speech enhancementJIN Nai-gao, YIN Fu-liang, WANG Dong-xia, CHEN Zhe(School of Electronic and Information Engineering, Dalian Univer

3、sity of Technology, Dalian 116024, China)Abstract: Rao-Blackwellised particle filtering provided an effective solution for speech enhancement. A novel methodwas proposed for speech enhancement based on rao-blackwellised particle filters and subband decomposition. Inrao-blackwellised particle filters

4、, the dimension of sampling space was reduced by subband decomposition. Subbandspeech signals were obtained by subband decomposition, then modeled as low-order time-varying AR processes.Rao-blackwellised particle filters were applied to estimate the parameters of AR model and filter the subband spee

5、ch sig-nals. The enhanced fullband speech signals were finally reconstructed by synthesizing the enhanced subband speech sig-nals. Simulation results show that the proposed method not only has lower computational complexity, but also gives bet-ter speech enhancement performance.Key words: speech enh

6、ancement; rao-blackwellised particle filter; subband decomposition; cosine modulated filter banks1 引言语音增强是语音信号处理中一个重要的研究领域,其目的是从各种背景噪声中尽可能提取出纯净语音。语音增强在语音通信与语音识别等领域具有广泛的应用前景。例如在语音通信中,语音信号不可避免要受到来自背景噪声、传输信道噪声以及通信设备内部噪声的干扰,导致通话质量下降。另外,语音识别系统、说话人识别系统中也存在背景噪声干扰问题。因此,需要对带噪语音进行语音增强,以改进语音质量,提高识别系统的识别率。 多年来,

7、国内外学者对语音增强进行了深入的研究,提出了一些有效的算法。根据是否利用语音生成模型信息,语音增强方法可分为基于短时谱幅度(STSA)的非参数方法和基于语音生成模型的参数化方法两大类。本文主要研究基于语音生成模型收稿日期:2005-09-23;修回日期:2006-01-06基金项目:国家自然科学基金资助项目(60372082,60172073)Foundation Item: The National Natural Science Foundation of China (60372082, 60172073)·24· 通 信 学 报 第27卷的参数化语音增强方法。Lim

8、与Oppenheim1提出一种基于全极点模型的迭代维纳滤波器语音增强方法,采用最大似然方法估计纯净语音的AR模型参数,并由此构造维纳滤波器对带噪语音进行滤波。该方法的不足之处在于相邻帧间的模型参数不连续,影响了语音的自然度。Ephraim2使用隐马尔可夫模型(HMM)对纯净语音信号进行建模,通过引入帧间相关信息解决了相邻帧间的模型参数不连续问题,提高了语音增强效果。Paliwal等3采用卡尔曼滤波解决了非平稳噪声干扰下的语音增强问题。该方法需要纯净语音与噪声的统计信息,然而在实际中通常仅有带噪语音可用。为此,Gannot等4采用期望最大化(EM)算法,从带噪语音中估计模型参数,然后通过卡尔曼平

9、滑算法实现语音增强。Vermaak等5提出一种基于R-B粒子滤波的语音增强方法,采用时变AR模型对语音进行建模,更准确地描述了语音的非平稳特性,但其较大的计算量限制了该方法的实际应用。本文将子带技术与粒子滤波技术相结合,提出一种基于子带粒子滤波的语音增强方法。该方法首先将语音信号分解成子带信号,然后建立子带信号的低阶时变AR模型,通过粒子滤波器估计模型参数,并对子带语音信号进行滤波处理,最后根据滤波后的子带信号重构语音信号,实现语音增强。仿真结果表明,本文方法既可以降低计算量,又能提高语音增强系统的性能。其中,ai,n为时变AR模型系数,un与vn均是零均22值、单位方差的高斯白噪声;u与v分

10、别为激励nn噪声与观测噪声的时变方差。设sn (sn, snp+1)T为状态向量,an (a1,n, ap,n)是时变AR模型系数,则有22p(sn|sn1,an,u)=N(s;as,) (3) nnnu1nn其中,N(x;µ,2)指变量x服从均值为µ、方差为2的高斯分布。设n an,un,n为未知参数向量,un22log(u)与 log()分别为激励噪声与观测噪nnn声的对数域方差。观测值yn的似然函数p(yn|sn,n)可以用均值为sn,方差为2n的正态分布加以描述p(yn|sn,n)=N(yn;sn,2n) (4) atun=设An(n)=B();nn00 p1

11、15;1p1×1p1Cn(n)=1 01×p1;Dn(n)=vn。定义yn (yn)为观测向量,将式(1)与式(2)描述的语音信号时变AR模型转化为依赖于参数n的线性状态空间的描述形式sn=An(n)sn1+Bn(n)un (5)yn=Cn(n)sn+Dn(n)vn (6)假设模型参数n为一阶马尔可夫过程,其状态转移概率为2 基于粒子滤波的语音增强方法2.1 语音信号的时变AR模型语音信号可视为线性时变系统在随机噪声或准周期脉冲序列激励下的输出。在语音信号的时不变AR模型中,通常认为语音信号在1030ms间隔内是随机平稳的,模型参数保持不变。严格来讲,激励源参数和声道模型参

12、数即使在短时间隔内仍然是时变的, 因此,语音的时变AR模型可以更有效地描述语音信号的非平稳特性6。语音信号sn可用P阶时变AR模型进行建模,带噪语音信号yn则可以描述为原始语音信号sn与具有时变方差的高斯噪声之和,即pp(n|n1)=p(an|an1)p(un|un1)p(n|n1) (7)2222令a=diaga,a, a,用高斯随机游走12p(random walking)模型7描述参数n的时变特性,则有p(un|un1)=N(un;un1,) (8) un2p(an|an1)=N(an;an1,a) (9) 2p(vn|vn1)=N(vn;vn1,) (10) vnsn=i=1于是,式(

13、5)与式(6)可视为参数服从一阶马尔可夫模型的跳转马尔可夫线性系统(JMLS)。 2.2 基于R-B粒子滤波的语音增强方法ai,nsni + unun (1) 基于语音参数模型的语音增强问题可归结为1:n1,n从带噪语音y1:n=y1, yn中估计纯净语音yn=sn+vnvn (2) s=s s的贝叶斯滤波问题,即从带噪语音第4期 金乃高等:基于子带粒子滤波的一种语音增强方法 ·25·y1:n中递推估计出语音状态s1:n与模型参数n的联合后验概率密度函数p(s1:n,1:n|y1:n),或联合滤波概率密度函数p(sn,n|y1:n),进而计算模型参数与语音状态。粒子滤波8将

14、贝叶斯理论与蒙特卡罗方法相结合,使用非参数化的序贯蒙特卡罗方法实现递推贝叶斯滤波。在基于粒子滤波的语音增强方法中9,状态变模型的扩展状态空间可表示为xn=sn,n,量的转移概率密度为22p(xn|xn1)=p(sn|sn1,an,u)p(an|an1,a)n22p(un|un1,)p(|,)vvunn1vnnwi=1N(i)np(sn(i)|n,y1:n) (15)与直接在扩展状态空间采样的粒子滤波语音增强方法相比,R-B粒子滤波语音增强方法仅在模因此降低了粒子采型参数n所在的空间进行采样,样空间的维数,进而加快了运算速度,提高了语音增强系统的性能。3 基于子带粒子滤波的语音增强方法在R-B粒

15、子滤波语音增强方法中,对语音信号进行精确建模需要高阶的时变AR模型,此时,粒子采样空间的维数仍然较高。为了进一步降低采样维数以提高算法的计算速度,本文在R-B粒子滤波语音增强方法基础上,结合子带技术,提出一种基于子带粒子滤波的语音增强方法,其系统框图如图1所示。子带粒子滤波语音增强方法首先通过分析滤波器组将语音信号yn分解成M个子带信号myn(m=1, M),可用低阶时变AR模型对其进行(11)若选取状态转移概率作为重要性概率密度函数,则需要从高维扩展状态空间xn中采样,只有使用较多的粒子才能获得理想的增强效果。而粒子滤波算法的计算量与粒子数成正比,且描述后验概率密度或滤波概率密度所需的粒子数

16、随状态空间的增大而指数增加10。因此,减少粒子采样空间的维数是降低计算量的有效方法。R-B粒子滤波为跳转马尔可夫线性系统的状态估计问题提供一种可行的解决方案11。在式(5)与式(6)描述的状态空间模型中,联合滤波概率密度p(sn,n|y1:n)可分解为建模,接着利用R-B粒子滤波器对子带语音信号进行滤波,最后根据滤波后的子带信号sn重构语音信号sn,实现语音增强。mp(sn,n|y1:n)=p(sn|n,y1:n)p(n|y1:n) (12)R-B粒子滤波语音增强方法5通过粒子滤波计算滤波概率密度p(n|y1:n),然后利用一组卡尔曼滤波器估计语音状态sn,实现语音增强。首先,R-B粒子滤波利

17、用粒子滤波方法计算p(n|y1:n)。选取参数的状态转移概率作为重要性概率密度函数,即(i)根据p(n|n1)生成N个独立同分布的采样粒子(i)n(i),用粒子n(i)及其对应的权值wn图1 基于子带粒子滤波语音增强方法来离散逼近参数n的滤波概率密度p(n|y1:n),即本文采用余弦调制滤波器组12进行子带分解。N在M通道的余弦调制滤波器组中,原型滤波器是阶(i)(i)p(n|y1:n)wn(nn) (13)截止频率为/(2M)的低通FIR滤波器。分数为L、i=1析和综合滤波器组都是通过对原型滤波器进行余(i)(i)wnp(yn|1:,y) (14) 1:n1n弦调制得到。分析滤波器与综合滤波

18、器的滤波器系然后通过一组卡尔曼滤波器计算语音状态的数hlm与flm分别为 滤波概率密度p(sn|y1:n)N1hlm=2glcos(l)(2m+1)+(1)m (16)p(sn|y1:n)=p(sn,n|y1:n)dn 2M24 =p(sn|n,y1:n)dp(n|y1:n)flm=2glcosN1(l)(2m+1)(1)m (17) 2M24·26· 通 信 学 报 第27卷(i)(i)(i)TTm(i)yn=Cn|n1|n1;Rn=CPn|n1C+DD; (i)(i)对n、5) 粒子重采样:根据归一化权值wn其中0lL,0mM,gl是原型滤波器的冲激响应。全带信号yn经

19、过分析滤波器hlm处理后,输出m为 的子带信号ynL1l=0(i)(i)n|n、Pn|n进行重采样,用重要性权值较大的样本myn=hmlynMl替代重要性权值较小的样本,并将样本集映射为等权重的样本集; (18)m(i)(i)m|n,y1:6) 粒子更新:将p(snn)用均值为(i)(i)n|n、方差为Pn|n的正态分布描述,即m可以用低阶的时变AR模型子带语音信号yn建模。在每个子带中,采用R-B粒子滤波器估计子带语音信号的AR模型参数,并对子带语音信号进m。然后行滤波处理,得到滤波后的子带语音信号snm通过补零恢复原抽样率 将这些增强的子带信号snm(i)(i)mm(i)(i)(i)p(s

20、n|n,y1:;nn)=N(sn|n,Pn|n)(i)(i)(i)T1mm(i)其中,nn|n= |n=n|n1+Pn|n1CR(ynyn|n1);Pmsn/M,n/MZ(19) 7) 输出滤波后的子带信号: 0,n/MZN(i)m(i)mn= swnsn,i=1, N;m=1, M。 最后通过综合滤波器组fm进行信号重建,得mns=lPn(|in)1(ICTR1CPn(|in)1);i=1到增强后的语音信号sn,即M1L1mn进行M内(3) 按式(19)将滤波后的子带信号smmnlssn=m=0l=0fln。 插,然后根据式(20)重建语音信号s (20)与在全频带进行语音建模的R-B粒子滤

21、波语音增强方法相比,本文提出的子带粒子滤波语音增强方法通过子带分解进一步降低了粒子采样空间的维数,可以采用较少的粒子来逼近滤波概率密度,从而降低了R-B粒子滤波算法的计算量,并获得了较好的语音增强效果。下面分析本文方法的计算复杂度。设粒子数为N,粒子采样空间的维数为D。L阶M子带的余弦调制滤波器组可以通过多相分解实现,其计算复杂2L(M1)22L+M次乘法与+度为次加法。MMM粒子滤波算法中的粒子采样子过程需要DN次加法。对于P阶时变AR模型,采用Kalman滤波估计均值与方差需(3P2+2)次加法、(3P2+2P)次乘根据均值与方差计算粒子权值法以及P次除法13。需要N次加法、4N次乘法、2

22、N次除法、N次开方权值归一化的计算量为N次加以及N次指数运算;法与N次除法运算。残差系统重采样(RSR)子过程需要3N次加法和N次乘法14,随后更新粒子集需要2N次赋值运算。输出子过程需要N次加法与N次乘法。在R-B粒子滤波语音增强方法中,全频带语音粒子采样空间维数为信号的AR模型阶数为10阶,12;本文将语音分解为8个子带,子带信号AR模根据以上的推导,将基于子带粒子滤波的语音增强方法的具体步骤总结如下:(1) 设计余弦调制滤波器组,利用式(18)将带噪m。 语音信号yn分解成M个子带信号ynm进(2) 利用R-B粒子滤波对每个子带信号ynmn。 行滤波处理,得到滤波后的子带信号s1) 初始

23、化:令p(1)=p(1|0),初始化状态均值1|0与方差P1|0;(i)(i)p(n|n2) 生成粒子集:n1), i=1, N; (i),使用Kalman滤波计3) 对于每一个粒子n算对应的状态(i)sn的预测概率密度函数m(i)(i)m(i)p(sn|n1|n,y1:n1),它们用均值为n|n1、方差为Pn(|in)1的正态分布表示为:m(i)(i)mm(i)(i)(i)p(sn|n1|n,y1:n1)=N(sn|n1;n|n1,Pn|n1)(i)(i)(i)(i)TT其中,n|n1=An1|n1;Pn|n1=APn|n1A+BB;4) 计算粒子的归一化权值:(i)wn=mm(i)(i)N

24、(yn;yn|n1,Rn) (i)n,w=(i)wn/wi=1N(i)n,i=1, N(i)m(i)其中yn|n1与Rn分别为预测值与预测方差:第4期 金乃高等:基于子带粒子滤波的一种语音增强方法 ·27·型阶数为2阶,粒子采样空间的维数为4,两种方余弦调制滤波器组的阶法采样的粒子数都为1 000。数为256,语音信号分解与重构的计算量与粒子滤波算法相比可忽略不计。与R-B粒子滤波语音增强方法相比,本文方法从两个方面降低了计算量:粒子采样空间的维数降低使得生成采样粒子所需的计算量下降;用低阶的时变AR模型对子带语音信号进行建模,Kalman滤波的运算量可以明显降低。表1给出

25、两种增强方法中粒子采样及Kalman滤波的运算量比较结果。从表中可以看出,本文方法有效降低了计算复杂度。表1 计算复杂度比较结果 粒子数N=1 000方法 文献5方法运算种类 粒子采样 Kalman滤波本文方法粒子采样 Kalman滤波加法 12N乘法除法表2干扰噪声种类白噪声Babble噪声F16噪声不同噪声下仿真结果比较输入信噪比(dB)4.43.75.5文献5方法输出信噪比本文方法输出信噪比8.2 8.45.9 7.27.1 7.9仿真结果表明,本文方法在不同的干扰噪声、不同的输入信噪比下,均得到优于文献5方法的增强效果。本文方法对子带语音信号进行建模,可以降低时变AR模型的阶数,从而降

26、低了粒子采样空间维数。于是,本文方法可以采用相对较少的粒子来逼近滤波概率密度,从而在保证语音增强效果的同时,有效降低了计算复杂度。综上所述,本文方法既降低了计算复杂度,又取得了较好的语音增强效果。302N 320N 10N 4N2N14N 16N4 实验结果为了验证本文方法的有效性,本文给出3种不同干扰噪声下的语音增强结果。将持续约1s的男生发音“第一课”作为纯净的语音信号。噪声来自Noisex92噪声库,加入的噪声类型包括白噪声、类似语音的Babble噪声以及F-16驾驶舱噪声。语音将语音与噪声按比例与噪声信号均以16kHz采样,线性相加,生成不同信噪比的带噪语音。本文使用Matlab在PC

27、机上进行仿真实验,通过比较带噪语音增强前后的波形图以及信噪比,来R-B客观评价语音增强方法的性能。在对比实验中,粒子滤波语音增强方法取粒子数为1 000,AR模型的阶数为10;本文方法采用256阶、8个子带的余弦调制滤波器组,粒子数为100,子带信号的AR模型的阶数为2。在混入高斯白噪声、Babble噪声以及F16噪声干扰时,在不同输入信噪比下,本文方法与文献5的R-B粒子滤波语音增强方法的比较结果,如表2所示。图2给出了白噪声干扰下,文献5方法与本文方法的语音增强结果。图2(a)与图2(b)分别为纯净语音与干扰噪声,混合信号的输入信噪比为0.1dB。图2(c)是文献5的R-B粒子滤波语音增强

28、方法的一次增强处理结果,输出信噪比为5.1dB。图2(d)为本文方法的处理结果,输出信噪比为5.6dB。图2 语音增强仿真实验结果5 结论本文结合多采样率系统理论中的子带技术与贝叶斯估计理论中的粒子滤波技术,提出一种基于子带粒子滤波的语音增强方法。该方法使用低阶时变AR模型对子带语音信号进行建模,进而降低了R-B粒子滤波算法中粒子采样空间的维数,在减少算法运算量的同时,提高了语音增强系统的性能。随着大规模集成电路以及并行计算机的快速发展,该方法可以为实际环境中的语音增强问题提供一种可行的解决方案。 参考文献:1 LIM J, OPPENHEIM A. All-pole modeling of

29、degraded speechJ.IEEE Transactions on Acoustics,Speech and Signal Processing,·28·1978 ,26(3): 197-210.通 信 学 报 第27卷mentJ. IEEE Transactions on Circuits and Systems II: Analog and Digital Signal Processing, 1998,45(8): 1072-1083.2 EPHRAIM Y. A bayesian estimation approach for speech enhancem

30、entusing hidden Markov modelsJ. IEEE Transactions on Signal Proc-essing, 1992,40( 4): 725-735.3 PALIWAL K, BASU A. A speech enhancement method based onKalman filteringA. IEEE ICASSP1987C. Dallas, Texas, USA ,1987. 177-180.4 GANNOT S, BURSHTEN D, WEINSTEIN E. Iterative and sequentialKalman filter-bas

31、ed speech enhancement algorithmsJ. IEEE Transac-tions on Speech and Audio Processing, 1998,6(4): 373-385.5 VERMAAK J, ANDRIEU C, DOUCET A. Particle methods forbayesian modeling and enhancement of speech signalsJ. IEEE Transactions on Speech and Audio Processing, 2002,10(3): 173-185. 6 王宏禹. 非平稳随机信号处理

32、M. 北京:国防工业出版社, 1999.WANG H Y. Nonstationary Random Signal Analysis and Process-ingM. Beijing: National Defence Industry Press, 1999.7 PAPOULIS A, PILLAI S. Probability, Random Variables and Stochas-tic ProcessesM. McGraw-Hill, 2002.8 ARULAMPALAM M S, MASKELL S, GORDON N, et al. A tutorialon particle filters for online nonlinear/non-Gaussian Bayesian trackingJ. IEEE Transactions on Signal Processing,2002,50(2): 174-188.9 石鸿凌, 姜琳峰, 孙洪. 基于TVAR模型的语音增强技术J. 武汉大学学报(工学版),2004,37(2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论