强背景噪声环境下语音增强算法的研究及应用毕业论文_第1页
强背景噪声环境下语音增强算法的研究及应用毕业论文_第2页
强背景噪声环境下语音增强算法的研究及应用毕业论文_第3页
强背景噪声环境下语音增强算法的研究及应用毕业论文_第4页
强背景噪声环境下语音增强算法的研究及应用毕业论文_第5页
已阅读5页,还剩102页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、密级:内部 2 年强背景噪声环境下语音增强算法的研究及应用research and application of speech enhancement in strong noise environment(申请清华大学工学硕士学位论文)培 养 单 位:学 科:研 究 生:指 导 教 师:关于学位论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定,即:清华大学拥有在著作权法规定范围内学位论文的使用权,其中包括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为教学和科研目的,学校可以将公开的学位论文作为资料在

2、图书馆、资料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内容;(3)根据中华人民共和国学位条例暂行实施办法,向国家图书馆报送可以公开的学位论文。本人保证遵守上述规定。(保密的论文在解密后遵守此规定)作者签名: 导师签名: 日 期: 日 期: 摘 要人们在语音通信过程中不可避免地会受到各种噪声的干扰,影响了通信质量。同时,噪声的存在也使低速率语音编码以及语音识别等语音处理系统的性能下降。语音增强作为一种预处理手段,不失为解决噪声污染的一种有效途径。在各类语音增强技术中,基于短时谱幅度估计的语音增强算法处于主流位置,得到广泛应用。本文针对短时谱幅度估计在低输入信噪比以及非平稳噪声环境下,

3、性能不够理想这一不足加以研究改进,完成稳健的语音增强算法设计和实时实现。根据对短时谱幅度估计算法进行分析,指出了影响其性能的关键技术:噪声统计特性的估计、语音激活检测算法、先验信噪比估计、增益函数的修正等,为算法改进指明了研究方向。首先, 提出了一种快速估计噪声统计特性的算法,减小了噪声估计的跟踪延时,在一定程度上改善了噪声过估计的现象,因而能够在低输入信噪比以及非平稳噪声干扰环境下快速准确地跟踪噪声特性。其次,研究了一种基于高斯模型和一致最大势检验的语音激活检测算法,由于检测门限与噪声估计相适应,因而提高了检测性能,尤其在非平稳噪声干扰环境下得到了良好的检测效果。同时,利用语音激活检测算法中

4、傅里叶变换得到的频谱信息,方便地实现了双音多频信号的检测和生成。再次,对先验信噪比估计的反馈因子进行最优化调整,引入与长时统计信息相关的自适应下限,有效地协调了先验信噪比估计的稳定性和快速跟踪能力。同时,利用软判决信息,即有关语音存在的概率信息,修正增益函数表达式中的先验/后验信噪比,有效地消除了“音乐”噪声,使去噪后的语音更加平滑、自然、易于接受。最后,相关算法已用c语言和tms320c55x dsp汇编语言在pc机和dsp硬件平台上实现。仿真实验和实时测试均表明改进的语音增强算法在不明显损伤语音可懂度的同时,可以有效地抑制背景噪声、提高信噪比,在低输入信噪比和非平稳噪声环境下性能提高尤为显

5、著。关键词:语音增强 非平稳噪声 短时谱幅度估计 噪声估计 语音激活检测 先验信噪比abstractin voice communications, speech signals can be contaminated by various noises inevitably, which affects the communication quality. furthermore, noise interference degrades the performance of speech processing systems, such as low bit-rate vocoder and

6、 speech recognition. speech enhancement is an effective preprocessing method to reduce the disturbance of noise.among the speech enhancement techniques, the methods based on short-time spectral amplitude(stsa) estimation have been well investigated and brought into wide use. in this dissertation, a

7、lot of research work has been done to improve the performance of stsa estimation against the environments of low signal-to-noise ratio(snr) input and non-stationary noise. the proposed robust approach of speech enhancement has been implemented on the tms320c55x dsp platform. according to the analysi

8、s of the stsa-based speech enhancement algorithm, the key techniques are summarized, including the estimation of noise statistic characteristics, voice activity detection(vad) algorithm, the estimation of a priori snr, and the modification of gain function,etc.firstly, a fast estimation method of no

9、ise statistic characteristics is proposed. the method decreases the adaptation time of tracking noise, avoids the over-estimation phenomenon to some extent, thus can track the noise characteristics with higher accuracy and less time in low snr input and non-stationary noise environments.secondly, a

10、voice activity detector based on gaussian model and uniformly most powerful(ump) test is designed. because of detection threshold related to the noise estimation, the algorithm provides higher detection perfomance, especially in non-stationary noise environments. furthermore, utilizing the spectral

11、information of dft in the vad algorithm, the dual tone multiple frequency(dtmf) signal detector and generator are realized conveniently.thirdly,to balance the stability and the tracking ability in the estimation of a priori snr, the feedback factor of a priori snr estimation is optimally adjusted an

12、d the estimation result is limited above an adaptive threshold related to long time statistic information. moreover, the soft-decision modified gain function is obtained by introducing speech presence probability to a priori snr and a priori snr. these methods effectively eliminate the“musical” nois

13、e and make the enhanced speech smooth, natural and acceptable.finally, the algorithm mentioned above has been implemented in both c language and assembler language on the pc and tms320c55 dsp hardware platform. both simulation experiments and real-time tests show that the improved speech enhancement

14、 algorithm is effective in suppressing background noise and increasing the snr without apparently impairing the intelligibility of speech .the perfomance is significantly enhanced in low snr input and non-stationary noise environments. keywords: speech enhancement non-stationary noise stsa noise est

15、imation voice activity detection a priori snr 目 录第1章 引言11.1语音增强课题背景11.2带噪语音模型21.2.1 语音的主要特性21.2.2 噪声的主要特性31.2.3 人耳的感知特性41.2.4 背景噪声对于语音的影响41.3语音增强的发展历史51.4语音增强算法分类51.5论文研究工作71.6论文内容组织71.7本章小结7第2章 基于短时谱幅度估计的语音增强算法概述82.1本章引论82.2语音增强算法概述82.2.1 自适应噪声对消法82.2.2 谐波增强法92.2.3 基于语音生成模型的语音增强算法102.2.4 基于短时谱幅度估计的

16、语音增强算法102.2.5 其他几种形式的语音增强算法112.3基于短时谱幅度估计的语音增强算法112.3.1 谱减法的一般形式122.3.2 谱减法的改进形式142.3.3 维纳滤波法152.3.4 mmse估计法162.4基于短时谱幅度估计的语音增强算法的关键技术172.5本章小结19第3章 噪声统计特性估计的研究203.1本章引论203.2基于语音激活检测的噪声统计特性估计203.3直接形式的噪声统计特性估计213.3.1 简单的直接噪声统计特性估计213.3.2 基于最小统计的噪声统计特性估计223.4噪声功率谱的快速估计253.4.1 自适应最优短时谱平滑263.4.2 不依赖窗长的

17、最小值搜索283.4.3 引入语音存在概率283.4.4 噪声功率谱更新293.4.5 语音存在概率的准确估计以及噪声功率谱的迭代更新293.4.6 测试结果及结论303.5本章小结34第4章 语音激活检测算法研究354.1本章引论354.2传统语音激活检测算法354.2.1 g.729 annex b标准的语音激活检测算法354.2.2 g.723.1 annex a标准的语音激活检测算法374.2.3 gsm标准的语音激活检测算法394.3基于高斯模型和一致最大势检验的语音激活检测算法404.3.1 基于高斯模型的似然比检测414.3.2 一致最大势检验准则414.3.3 短时谱最优化平滑

18、以及自适应门限平滑434.3.4 拖尾延迟保护444.3.5 基于高斯模型和ump检验的vad算法流程454.3.6 测试结果以及结论464.4双音多频信号的生成与检测484.4.1 双音多频信号的生成494.4.2 双音多频信号的检测504.4.3 测试结果534.5本章小结55第5章 语音增强算法的研究与实现565.1本章引论565.2本文语音增强算法流程565.2.1 分帧和加窗575.2.2 先验/后验信噪比估计595.2.3 长时信噪比估计615.2.4 增益函数的计算615.3语音增强算法评测标准645.3.1 增强语音的主观评测645.3.2 增强语音的客观评测655.4语音增强

19、算法测试675.4.1 测试环境675.4.2 测试结果675.5本章小结73第6章 基于tms320c55x dsp硬件平台的实时实现746.1本章引论746.2tms320c55x dsp的体系结构746.2.1 tms320c55x内部结构756.2.2 tms320c55x总线结构766.2.3 tms320c55x流水线操作776.3语音增强算法的dsp实现和优化786.3.1 c代码定点化786.3.2 tms320c55x汇编程序编程796.3.3 算法在tms320c55x dsp上的资源消耗826.4本章小结83第7章 结论与展望847.1结论847.2展望85参考文献86致

20、 谢89个人简历、在学期间发表的学术论文与研究成果90主要符号对照表bsd巴克谱距离(bark spectrum distance)dam 判断满意度测试(diagnostic acceptability measure)dft离散傅立叶变换(discrete fourier transform)drt诊断押韵测试(diagnostic rhyme test)dsp数字信号处理(digital signal processing)dtft序列傅立叶变换(discrete time fourier transform)dtmf 双音多频(dual tone multiple frequency)

21、fft快速傅立叶变换(fast fourier transform)fir有限冲激响应(finite impulse response)idft逆离散傅立叶变换(inverse discrete fourier transform)ifft逆快速傅立叶变换(inverse fast fourier transform)iir无限冲激响应(infinite impulse response)klt卡洛变换(karhunen loeve transform)lpc线形预测系数(linear prediction coefficient)lsf线谱频率(line spectral frequency

22、)mmse最小均方误差(minimum mean-squared error)mos平均意见得分(mean opinion score)nmse归一化均方误差(normalized mean squared error)sd谱失真(spectrum distortion)segsnr分段式信噪比(segmental signal-to-noise ratio)snr信噪比(signal-to-noise ratio)ss谱减法(spectral subtraction)stsa短时谱幅度(short-time spectral amplitude)ump 一致最大势(uniformly mos

23、t pow)vad语音激活检测(voice activity detection)vlsi超大规模集成电路(very large scale integration)第1章 引言21世纪的通信是人与人之间、人与机器之间高质量的无缝的信息交换。语言是人类交流的重要手段,它自然方便,准确高效。语音通信也是一种理想的人机通信方式。人们一直梦想着有朝一日可以摆脱键盘或遥控设备的束缚,拥有更为友好、亲切的人机界面,让计算机或家用电器可以听懂人的话语,看懂人的动作,执行人们所希望的任何任务。而语音数字信号处理正是其中一项至关重要的应用技术。应用现代化手段研究语音处理技术,能更有效地产生、传输、存储和获取语

24、音信息,这对促进社会的信息化发展具有十分重要的意义。因此,语音信号处理目前已成为信息科学研究领域中发展最为迅速的的一个分支。语音信号处理是语音学与数字信号处理技术相结合的交叉学科,它和认知科学、心理学、语言学、计算机科学、模式识别和人工智能等学科联系紧密,在数字话音通信,声控打印机,自动语音翻译和多媒体信息处理等许多方面都有非常重要的应用。语音数字信号处理包含的内容十分广泛,如包括语音编码、语音识别、语音合成、语音增强等。其中,语音增强是语音数字信号处理系统进入实用阶段的重要环节。 1.1 语音增强课题背景人们在语音通信过程中不可避免地会受到各种噪声的干扰,比如,来自周围环境、传输媒介引入的噪

25、声,通信设备内部电噪声以及其它讲话者的干扰等。这些噪声干扰使接收者接收到的语音已非纯净的原始语音信号,而是受噪声污染的带噪语音信号。例如,室内会议电话的交混回响随同语音广播到每个会议地点,影响收听效果。再如在军用车载通信系统中,尤其是坦克车内的通信系统,所处的噪声环境较一般环境更为恶劣,其噪声强度可达到120分贝左右。如此强度的噪声不仅会对通信质量产生严重影响,而且对通信接收者而言也是难以忍受的。同时,环境噪声污染使许多语音处理系统的性能急剧恶化。例如,语音识别已取得重大进展,正在步入实用阶段。但目前的识别系统大都是在安静环境中工作的,在噪声环境中尤其是强噪声环境,语音识别系统的识别率将受到严

26、重影响。低速率语音编码通常采用参数编码,其基础是语音生成模型。当模型参数的提取受到背景噪声的严重干扰时,重建语音的质量将急剧恶化,甚至变得完全不可懂。在上述情况下,语音增强作为一种预处理手段,不失为解决噪声污染的一种有效途径。目前流行的语音增强处理方法,虽然能够在一定程度上去除背景噪声,提高信噪比,但在低输入信噪比和非平稳噪声干扰的情况下增强效果有限,残留噪声较多,部分弱语音信号会被当作噪声而完全抑制,从而造成语音可懂度的下降。针对上述恶劣情况,设法改善语音增强效果,提高语音质量,改善通信系统性能,使语音增强技术更好地应用于军用和民用产品中。本课题正是在这种背景下展开的,不仅具有理论意义,而且

27、具有很强的实用价值。1.2 带噪语音模型图 1.1 带噪语音模型噪声假定为加性噪声,且与纯净语音不相关,可以得到如图1.1所示的带噪语音模型。这个带噪语音模型将作为本文语音增强分析的基础。语音增强的主要目标是从带噪语音信号中提取尽可能纯净的原始语音。语音增强是以语音特性、噪声特性以及人耳感知特性为理论基础的。本节将分别叙述语音和噪声的主要特性、人耳的感知特性以及背景噪声对语音的影响。1.2.1 语音的主要特性语音的主要特性有:1)语音是一个时变的、非平稳的随机过程。人类发声器官的生理结构,决定了其变化速度是有一定限度的。在较短的一段时间(1030msec)内,人的声带和声道形状具有相对稳定性,

28、可认为表征其特征的参数是不变的,因而语音短时谱分析也具有相对稳定性。语音的这种短时平稳性是语音信号处理的基础。2)语音大体上可以分为清音和浊音两大类。从语音产生机理上看,两者有明显的差异,因而在特征上也有明显的区别。浊音在时域上呈现明显的周期性;频域上呈现共振峰结构,而且能量大部分集中于较低的频段内。清音则完全不同,它没有明显的时域和频域特征,类似于白噪声。在语音增强中,对浊音的增强相对容易,而对清音的增强则是难点。3)作为一个随机过程,语音信号可以用统计特性来描述。语音信号是非平稳、非遍历的随机过程,长时时域统计特性在语音增强中意义不大。语音短时谱的统计特性是时变的,只有分析帧的长度趋于无穷

29、大时,才能近似认为其服从高斯分布。在高斯模型假设下,傅立叶展开系数被认为是独立的高斯随机变量,均值为0,方差时变。这种高斯模型在帧长有限时只是一种近似的描述,在针对宽带噪声污染的语音增强中,这种假设是分析的前提。1.2.2 噪声的主要特性噪声的来源取决于实际的应用环境,因而噪声特性可以说是变化多样的。噪声可以是加性的,也可以是非加性的。对于非加性噪声,有些可以通过相应的变换而转变为加性噪声。例如,乘性噪声(或卷积噪声)可以通过同态变换,而成为加性噪声。又如,某些与信号相关的量化噪声可以通过伪随机噪声扰动的方法变换成为与信号独立的加性噪声。非加性噪声可以通过一定的变换转化为加性噪声,并且课题应用

30、背景下的噪声属于加性噪声,因此这里只讨论加性噪声。加性噪声大致上有:周期性噪声、脉冲噪声、宽带噪声和同声道其它语音的干扰等。1)周期性噪声其特点是具有许多离散的线谱,主要来源于发动机等周期性运转的机械。电器干扰,尤其是电源交流声也会引起周期性噪声。这种周期性噪声可以用梳状滤波器予以抑制。2)脉冲噪声其表现为时域波形中出现的窄脉冲,主要源于爆炸、撞击和放电等。这种脉冲噪声可以在时域中对信号幅度适当设置阈值来判别并加以适当衰减或消除,也可以根据相邻信号的样值,通过内插的方法将脉冲噪声在时域进行平滑。3)宽带噪声其与语音信号在时域和频域上完全重叠,只有在语音间歇期才单独存在,因而消除困难。其来源很多

31、,主要有热噪声、气流噪声以及各种随机噪声。目前的语音增强主要是针对这种噪声的处理。4)同声道语音干扰人耳可以在两人以上的讲话环境中分辨出所需要的声音,这种分辨能力是人脑语音理解机理的一种感知能力。人类的这种分离语音的能力称为“鸡尾酒会效应”,来源于人的双耳的输入效应。但当多个语音叠合在一起,在单信道中传输时,双耳信号因合并而消失。目前针对同声道语音干扰的增强处理还处于研究中。1.2.3 人耳的感知特性语音增强的效果最终取决于人的主观感受。人耳的感知特性对语音增强的研究有着非常重要的作用,了解其机理将有助于语音增强技术的发展。1)人耳对语音的感知是通过语音信号中各频谱分量的幅度获得的,而对各频谱

32、分量的相位则不敏感1;2)人耳对频谱分量强度的感受是频率与能谱的二元函数,响度与频谱幅度的对数近似成正比;3)人耳对频率高低的感受与该频率的对数近似成正比;4)人耳有掩蔽效应,即强信号对弱信号有掩盖的抑制作用。掩蔽的程度是声音强度与频率的二元函数,对频率临近分量的掩蔽程度大于对频差大的分量的掩蔽;5)语音短时谱中的共振峰对语音的感知十分重要,特别是第二共振峰比第一共振峰更为重要,因此对语音信号进行一定程度的高通滤波不会对可懂度造成影响;6)人耳在两人以上的讲话环境中有能力分辨出需要聆听的声音。其中,第一条感知特性是基于短时谱幅度估计的语音增强算法的基础,利用人耳的掩蔽特性来提高语音增强的性能也

33、成为近来研究的热点2345。1.2.4 背景噪声对于语音的影响背景噪声破坏了语音信号原有的声学特征和模型参数,模糊了不同语音之间的差别,使语音质量下降,可懂度降低。强背景噪声会使人产生听觉疲劳。不仅如此,强噪声环境还对讲话人产生影响,使讲话人改变在安静环境或低噪声环境中的发声方式,从而改变了语音的特征参数,称为lombard效应,它对语音识别系统有很大的影响。1.3 语音增强的发展历史在实际需求的推动下,早在上个世纪60年代,语音增强这个研究课题就引起了广泛关注。随着数字信号处理理论的成熟,70年代曾形成一个理论研究高潮,取得了一些基础性成果,并使语音增强发展成为语音信号处理领域的一个重要分支

34、。人们首先提出用梳状滤波器加强周期性的语音而衰减非周期的噪声6,并在自适应噪声抵消的思想下发展了自适应滤波的语音增强方案7。1978年,lim和oppoenheim8提出了语音增强的维纳滤波算法。1979年,boll9提出了谱减法来抑制噪声。但由于各种算法的计算量比较大,导致它们的实用性受到影响。进入80年代后,vlsi技术的发展为语音增强的实时处理提供了可能,同时也涌现了大量新的算法,在语音识别中使用的概念和方法也被借鉴到语音增强算法中。1980年,mcaulay和malpass10提出了软判决噪声抑制方法。1984年,ephraim和malah11提出基于mmse短时谱幅度估计的语音增强算

35、法。1987年,paliwal12把卡尔曼滤波引入到了语音增强领域。90年代以来,使用统计方法的语音增强算法成为研究的中心。统计方法中最典型的是隐马尔可夫模型(hmm一hiddnen markov mdel)方法,它既是语音识别的主要方法,也可以以概率方式将语音增强问题纳入其模型框架13。90年代中后期,移动通信的飞速发展对语音增强的研究提供了现实的动力,新的尝试方法又相继涌现。比如将小波变换14用于语音增强中,或者进行卡洛变换(klt)15,利用神经网络16进行语音增强。此外,采用麦克风阵列输入多个带噪混合信号,再通过计算进行滤波也受到很大重视。应用独立元分量分析来进行语音信号盲分离和增强的

36、方法,以及引入人耳听觉掩蔽效应1718的语音增强方法也是目前研究的热点。1.4 语音增强算法分类 语音增强是解决噪声污染的有效方法,它的首要目标就是在接收端尽可能地从带噪语音信号中提取纯净的语音信号,改善其质量。语音增强不仅涉及信号检测、波形估计等传统信号处理理论;而且与语音特性、人耳感知特性密切相关;再则,实际应用中噪声的来源及种类也各不相同。所以,语音增强的处理方法具有多样性。因此,要结合语音特性、人耳感知特性及噪声特性,根据实际情况选用合适的语音增强方法。就语音增强算法而言,根据所用的麦克数量可划分为三种形式,分别为基于单麦克、双麦克以及麦克阵的语音增强。基于单麦克的语音增强大致可以分为

37、两类。一类是将语音信号看成是一个高斯自回归模型的输出,并采用迭代算法,从带噪语音信号中估计自回归模型参数,然后利用这些参数构造全极点滤波器进行滤波。这种算法后来有很多发展,如在上述迭代过程中施加有关共振峰的约束,使处理后的信号更具有语音的特点;或者把这类方法与隐马尔可夫方法结合起来,以更好地描述语音的时变特性。此类方法一般运算量比较大,而且当实际的噪声和语音与模型有较大的差距或是提取参数比较困难的时候,容易失效。另一类方法则主要是基于语音短时谱的估计,即设法从带噪语音信号中估计出语音短时谱的每个频率分量。由于人耳对语音短时谱相位的感知不敏感,事实上实际应用中只需设法准确估计出语音的短时谱幅度(

38、short time spectral amplitude,stsa),基于stsa 估计的语音增强方法一般都是直接采用带噪语音的相位作为增强语音的相位。此类算法运算量相对较小,适用信噪比范围比较大,并且易于实时处理,因此得到广泛应用,谱减法、维纳滤波法以及mmse 法等方法都属于此类。近些年来,人们又陆续提出了一些基于信号子空间处理以及基于神经网络的语音增强算法。基于双麦克的语音增强主要采用自适应噪声消除技术进行语音增强。如果能在时域或者在频域,直接从带噪语音中将噪声分量减去,则能有效增强带噪语音。噪声对消法就是以此作为出发点,其最大特点是需要采集背景噪声作为参考信号,参考信号准确与否直接决

39、定着噪声对消法的性能。在采集背景噪声时,往往采用自适应滤波技术,以便使参考信号尽可能接近带噪语音中的噪声分量。基于麦克阵的语音增强采用多个以一定方式排列的采集设备接收信号。由于不同的独立信号源与各个采集设备之间的距离不同,最后在各个接受设备中的合成信号也会产生相应的差异,再采用独立成分分析技术将各个独立信号分离出来。1.5 论文研究工作基于单麦克的语音增强一直是各种语音增强方法中研究的热点,相关理论也相对成熟。本课题的应用背景,提供的是单麦克,因此本文的研究工作是基于单麦克的语音增强。考虑到具体应用的各种要求,主要是研究基于短时谱幅度估计的语音增强。论文分析了各种语音增强方法的优缺点,并根据课

40、题的需要,利用随机信号处理的方法,研究并实现了基于mmse短时谱幅度估计的语音增强算法。针对目前流行的语音增强算法在低输入信噪比(0db以下)和非平稳噪声干扰环境下增强效果有限的问题,论文借鉴国内外提出的相关技术,通过对噪声统计特性估计、语音激活检测、先验信噪比的估计、增益函数修正这几个方面进行改进,提高了短时谱幅度估计的语音增强算法性能,拓宽了语音增强的应用范围。由于课题需要,论文对语音增强算法的实时应用进行了适应性研究。在选定的dsp芯片处理能力有限的情况下,通过定点化和手写dsp汇编优化程序达到了使用较少资源实时实现语音增强算法的目的。1.6 论文内容组织全文共分七章:第1章是引言;第2

41、章是基于短时谱幅度估计的语音增强算法概述;第3章噪声统计特性估计的研究;第4章是语音激活检测算法研究;第5章是语音增强算法的研究与实现;第6章是基于tms320c55x dsp硬件平台的实时实现;第7章是结论。1.7 本章小结本章首先介绍了语音增强在语音处理系统中的作用,指出了选题背景和选题意义,并给出了加性噪声情况下的带噪语音模型,阐述了与语音增强密切相关的语音和噪声的主要特性、人耳的感知特性以及背景噪声对语音的影响。然后,简要概述了语音增强的发展和分类,并根据课题要求提出了本文的主要研究工作。最后,说明了论文的结构安排。第2章 基于短时谱幅度估计的语音增强算法概述2.1 本章引论语音增强的

42、目的是针对带噪语音尽可能地消除噪声的影响,提取出纯净的原始语音。但是,由于噪声干扰的随机性,从带噪语音中提取完全纯净的原始语音几乎是不可能的。通常在对低信噪比的带噪语音进行增强时,一些算法可以显著地降低背景噪声,改进语音质量,但是对语音也造成了很大的损伤。因此在研究过程中,通常要根据不同的要求,选用不同算法,设置不同的参数,这就要熟悉语音增强的各种算法。本章就是对语音增强算法的概述。本章剩余章节将按照如下方式组织:2.2节概述语音增强算法;2.3节重点介绍基于短时谱幅度估计的语音增强算法;2.4节总结基于短时谱幅度估计的语音增强算法的关键技术;最后是本章小结。2.2 语音增强算法概述由于噪声的

43、特性各异,语音增强的方法也各不相同。40多年来,人们针对加性宽带噪声研究了各种语音增强算法。尽管语音增强在理论上并未完全解决,还待发展,但是某些增强算法已证明是有效果的,如噪声对消法、谐波增强法、基于参数估计的语音再合成法和基于语音短时谱估计的增强算法等等。2.2.1 自适应噪声对消法1920噪声对消的基本原理是从带噪语音中减去噪声,问题是如何得到噪声的复制品。通常采用两个(或多个)话筒进行处理,一个(或多个)采集带噪语音,另一个(或多个)采集噪声。图2.1 给出了双话筒采集的噪声对消法原理框图。采用噪声对消法时,两个话筒之间必须要有相当的间隔度,但采集到的两路信号之间不可避免地会有时间差,因

44、此实时采集到的两路信号中所包含的噪声段是不同的,而且回声以及其它可变衰减特性也将影响所采集噪声的“纯净”性。因而,采集到的噪声必须经过自适应滤波,以得到尽可能接近于带噪语音中的噪声。自适应滤波器通常采用fir 滤波器,其系数可以采用最小均方(lms)法进行估计。图2.1 双话筒采集的噪声对消法原理框图大量实验表明,在强背景噪声下,使用自适应噪声对消法进行语音增强可以得到很好的消噪效果。如果采集的噪声足够充分,也可以直接在时域上相减。噪声对消法的一个主要缺点是增强后的语音会有“音乐噪声”,这种噪声是频谱相减的遗留产物,由于具有一定的节奏性起伏,听上去类似音乐声。2.2.2 谐波增强法1920语音

45、信号的浊音段有明显的周期性,利用这一特点,可以采用自适应梳妆滤波器来提取语音分量,抑制噪声。梳状滤波器可以在时域实现,表达式为:( 21 )这里,为基频周期,为常数(通常不大);是滤波器输入信号序列;为系数,随信号周期而变化。输出信号是输入信号的延时加权和的平均值。当延时与周期一致时,这个平均过程将使周期性分量得到加强,而会使其他非周期性分量或与语音信号周期不同的其他周期性分量受到抑制。显然,上述方法的关键是要准确估计出语音信号的基音周期,这在强背景噪声干扰下有一定的困难。在基音发生变化的过渡段,这种方法会受到严重影响。选择可以减小这种影响,但增强效果下降。与梳状滤波器的带宽成反比。梳状滤波器

46、也可以在频域实现。对语音进行傅里叶变换后可以鉴别出需要提取的各次谐波分量,然后经傅里叶反变换恢复为时域信号。梳状滤波不但可增强语音信号,也可以用于抑制各种噪声干扰,包括消除同声道的其他语音的干扰。同时对两个语音进行梳状滤波的主要问题是:存在另一个人说话干扰时,如何跟踪并准确估计出讲话者的基音。2.2.3 基于语音生成模型的语音增强算法语音的发声过程可以模型化为激励源作用于一个线性时变滤波器,激励源可以分浊音和清音两类,浊音的激励源为周期与基音相同的周期性脉冲串;而对于清音,激励源为高斯白噪声。时变滤波器则是声道的模型。通常认为声道模型是一个全极点滤波器,滤波器参数可以通过线性预测分析得到。如图

47、2.2所示。但若考虑到鼻腔的共鸣作用,采用零极点模型更为合适。显然,如果能够知道激励参数和声道滤波器的参数,就能利用语音生成模型合成得到“纯净”的语音。这种增强方法称为分析合成法,关键在于如何从带噪语音中准确地估计语音模型的参数,即激励参数和声道参数。另一种方法则是鉴于激励参数难以准确估计,而只利用声道参数构造滤波器进行滤波处理。图2.2 语音的全极点生成模型lim和oppenheim8采用了map准则来估计声道的全极点参数。对于语音平稳随机过程而言,相当于乘了一个零相位的维纳滤波器。主观测量表明它可以减少可感知的噪声从而改善语音的质量,但对语音也造成了一定的损伤,原因是算法中的迭代缺乏明显的

48、收敛准则,且随着迭代次数的增加共振峰带宽变小。hansen和clements21在上述迭代过程中加入了频谱限制条件,使极点不太靠近单位圆,以防止共振峰带宽过窄,但引起了共振峰位置的较大抖动。2.2.4 基于短时谱幅度估计的语音增强算法如前所述,语音是非平稳随机过程,但在10 30msec的分析帧内可以近似为平稳的随机过程。如果能从带噪语音的短时谱中估计出“纯净”语音的短时谱,即可达到增强的目的。由于噪声也是随机过程,因此这种估计只能建立在统计模型基础上。人耳感知对语音频谱分量的相位不敏感,因此目前的增强算法主要针对短时谱幅度进行估计。此类算法运算量相对较小,适用信噪比范围比较大,并且易于实时处

49、理,因而得到广泛应用。谱相减法、维纳滤波法以及mmse法是短时谱估计中的三种行之有效的增强算法,下节将详细介绍这三种算法的原理。2.2.5 其他几种形式的语音增强算法除上面介绍的几种语音增强算法外,ephraim和van trees22提出了一种基于信号子空间的语音增强算法,其基本思想是把带噪语音信号的矢量空间通过klt分解为噪声子空间以及信号加噪声的子空间,去除噪声子空间后,在信号加噪声子空间中滤波估计出语音信号。还有基于小波分析14的方法,其基本思想是小波变化把信号在多个尺度上进行了子波分解,而各尺度上分解所得的子波变换系数代表原信号在不同分辨率上的信息,利用信号和随机噪声在不同尺度的特性

50、关系进行去噪处理。近年来,人们正在探索将神经网络、隐马尔可夫模型、人耳听觉掩蔽效应以及多分辨率分析等理论用于语音增强算法。2.3 基于短时谱幅度估计的语音增强算法设带噪语音的时域表示:( 22 )其中,为纯净语音,为加性噪声,是采集到的带噪语音。通常,假定和统计独立。一般分析时进行分帧加窗处理,一帧的带噪语音信号表示为( 23 )其中,为帧长。相应的频域表示为( 24 )其中,分别为,和的傅里叶变换系数。为了分析简单,假设各个傅里叶系数(即各个频率分量)之间是互不相关的。由于和统计独立,所以和互相独立,并假定服从零均值高斯分布,方差可以通过无语音时对噪声的分析获得。语音增强的任务就是利用已知的

51、噪声功率谱信息,从中估计。由于人耳对频谱分量的相位不敏感,所以只需估计频谱分量的幅度,然后借用带噪语音的相位,进行反傅里叶变换后就可得到增强的语音。这类基于语音短时谱估计的语音增强方法的原理框图如图2.3所示。图中,为的估值。下面将分别介绍短时谱估计的三种方法:谱减法、维纳滤波法、mmse估计法。图2.3 基于短时谱估计的语音增强算法原理框图2.3.1 谱减法的一般形式一般形式的谱相减法9即在频域将带噪语音的功率谱减去噪声的功率谱得到纯净语音的功率谱估计,开方之后得到语音谱幅度估计,将其相位恢复之后采用逆傅立叶变换恢复时域信号。基本原理如图2.4所示。图2.4 一般形式的谱相减法的结构框图ff

52、t变换后有( 25 )由此可得:( 26 )由于与相互独立,而近似满足零均值的高斯分布,所以:( 27 )对于一个分析帧内的短时平稳过程,则有:( 28 )其中为无语音时的统计平均值,由此可得原始语音的估计值:( 29 )其中为增强后语音信号谱幅度。傅里叶反变换后经过相位插入,即可得时域的增强后语音信号。定义增益函数:( 210 )及后验信噪比:( 211 )式( 29 )改写为:( 212 )于是,进一步排除异常情况令,。从式( 212 )中可以清楚地看出谱减法的物理意义:它相当于对带噪语音的每一个频谱分量乘以一个系数。信噪比高时,含有语音的可能性大,衰减小。反之,则认为含有语音的可能性小,

53、衰减大。注意到,如果假设具有高斯分布,则谱减法相当于对作最大似然估计。因为此时有( 213 )令( 214 )则有( 215 )这一结果与式 ( 29 )相同。如果不给定的分布,则此时的最大似然估计式可以用如下方法求得:由于( 216 )通过积分消去后,有( 217 )其中,为第0阶修正贝塞尔函数,令( 218 )则解方程后就可以得到的估计式。由于直接求解有一定困难,为此需要采取一定的简化措施。因为当时,有,所以在较高信噪比条件下,解方程后得到( 219 )2.3.2 谱减法的改进形式在实际应用中,更多地采用谱相减法的改进形式:( 220 )所以,( 221 )这种改进形式与普通谱减法的差别在

54、于引入了和这两个参数,为算法提供了很大的灵活性。显然当时,算法退化为一般的谱减法形式。噪声估计值乘以是出于这样的考虑:一般的谱减法中,是以无声期间统计平均的噪声方差代替当前分析帧各频率点的噪声频谱分量。而噪声频谱具有高斯分布,即其幅度随机变化范围很宽。因此相减时,若该帧某频率点噪声分量较大,就会有很大一部分残留,在频谱上呈现随机出现的尖峰,在听觉上形成有节奏起伏的类似音乐的残留噪声。为了解决上述问题,在语音能量较高的区域可以使,即有意识地多减去一些,这样可以更好地相对突出语音频谱。当然,此时引起的失真也可能会增大。调节参数也可以取得类似的效果。2.3.3 维纳滤波法如果语音是一个平稳过程,则维

55、纳滤波对应着时域上的最小均方误差准则。其频域表达式:( 222 )( 223 )其中,分别为语音和噪声的功率谱密度。然而实际语音只是短时平稳,功率谱密度也无法得到,因此增益改写成为:( 224 )若定义先验信噪比( 225 )则式(2-24)改写为( 226 )与谱减法类似,维纳滤波法也有如下推广的式子( 227 )通过调整和,可以得到多种变形形式。维纳滤波法最大的优点是增强后的残留噪声类似白噪声,而不是有节奏起伏的音乐噪声。事实上,尽管维纳滤波法导出的出发点不同,但形式上与谱减法差别不大,可以认为是统一的。2.3.4 mmse估计法如前所述,谱减法为一种最大似然估计,而维纳滤波法则是平稳条件下时域的最小均方误差准则意义下的估计。这两种估计准则都存在一定的缺陷:最大似然准则完全放弃

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论