版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
11绪论1.1课题背景众所周知,语言是人类传播信息和表达感情的重要媒介,在人类的交流中起着极其重要的作用。二十一世纪是信息科学的世纪,移动电话、数字助听器、车载导航系统等各种各样的人机交互语音处理系统在人们的日常生活中的应用越来越多。因此,对人们交流中最常用的语音来说,对其进行处理在现代信息处理中就占有极为重要的地位。语音信号处理技术一直以来都是国内外学者研究的热点,它跨声学、信号处理、仿生学等多个学科,应用前景广阔。然而在人们的语音通信过程中,不可避免地会受到来自周围环境、传输媒介引入的噪声,通信设备内部的电噪声,乃至其他讲话者的干扰。这些很强的背景噪声干扰,严重影响通话质量、影响了语音通信的正常进行。语音识别系统同样也会受到背景噪声的影响,背景噪声的存在不仅严重破坏了语音信号原有的模型参数和声学特性,导致许多语音处理系统服务质量的降低,而且会影响系统输出语音的可懂程度,使听众产生听觉疲劳。语音增强目的就是从被污染的语音信号中,提取尽可能纯净的原始语音,改善语音质量,使听者不觉的疲劳,并且能够提高语音的可懂度。在上述情况下,语音增强技术作为一种预处理技术,是消除这些噪声干扰的一个最重要的手段,它通过对带噪语音进行处理来改善语音质量,使人们易于接受或提高语音处理系统的性能。1.2语音去噪的算法研究发展概况有关抗噪声技术的研究,早在60年代起就已引起人们的注意,此后人们一直锲而不舍地进行这方面的研究,并取得了丰富的研究成果,现在各种的不同的学科的专门知识也引入到语音处理领域。对于增强被加性噪声污染的语音信号这一问题,近些年来,有了一定的进展。下面对国内外语音增强研究的常用方法作介绍。频谱相减法:单声道语音增强方法中目前常用的是一类基于短时谱幅度估计的语音增强方法,该方法认为语音信号的感知不重要,没有必要精确计算。文献[2]中通过实验为此提供了一定的依据,文献[3]中则证明在一定条件下语音相位的最小均方误差(MMSE)估计就是带噪语音相位本身,因此,基于STSA估计的语音增强方法一般都是直接采用带噪语音的相位作为增强语音的相位。基于STSA估计的语音增强方法包括谱减法及其各种变形,MMSE估计法等。谱减法通过从带噪语音的STSA中直接减去噪声的平均谱幅度来得到增强语音的STSA,实现起来简单,但是剩余噪声大,并且产生不舒服的“音乐噪声”。后来,Ephraim等人提出了STSA的MMSE估计法,部分解决了“音乐噪声”问题,但在带噪语音SNR较低时其剩余噪声还是很大,尤其是当信噪比小于5dB时。本文中介绍一种改进谱减法,他相对于传统谱减法有很好的去噪效果。自适应噪声对消法:适用于在带噪语音信号采集过程中同时能获得参考噪声源的自适应噪声对消技术,已日趋成熟。据专家报告:运用此技术增强带噪语音,在实验环境中,信噪比SNR有40dB左右的改善,在实际中也有20dB左右的提高。小波变换法:频谱相减法是在短时平稳假定的基础上,采用固定窗傅立叶变换,时—频分辨率均是固定不变的。然而对某些“严格非平稳”的语音,这种分析模糊了语音的细节特征,小波变换正是满足这一需要的有力工具。本课题将研究属于频谱相减法中的谱减法,它是一种简单实用的去噪算法。对谱减法的研究与仿真将对语音去噪的实现有更实际的意义。1.3本文各章节要点介绍第一章绪论,介绍了课题背景即语音去噪的重要性与其实际应用的普遍性。同时,还介绍了去噪算法研究的发展历史。最后,绪论指出本文的重点研究对象谱减法。第二章,介绍了去噪过程中必备的两个要素语音信号和噪声信号,以及评价去噪能力的标准。第三章,介绍了传统谱减法,让人们对谱减法的实现过程有了初步的了解。然后分几大部分对改进谱减法进行介绍。最后,对改进前后的结果进行对比,让人们对改进效果一目了然。
2语音去噪的理论基础2.1语音信号的特性语音信号是时变的、非平稳、非遍历的随机过程。语音发声是一个时变过程,很多因素造成了发声系统的时变性,例如声道的面积随着时间和距离改变,气流速度随着声门处压力变化而变化等。但是声道形状有相对稳定性,因此可以认为语音在在一段短时问内(10~30ms),其特征基本保持不变,是一个准稳态过程,即语音信号具有短时平稳性,因此在语音增强算法中常常利用语音信号的短时平稳性对信号进行分析。即在每一段时间内把人的声带和声道形分为若干分析帧,每一帧的语音可以认为是准稳定的。语音感知对语音增强研究有重要作用,人耳对语音的感知主要是通过语音信号频谱分量幅度获取的,对各分量相位则不敏感,对频率高低的感受近似与该频率的对数值成正比。语音信号可以用统计分析特性来描述。由于语音是非平稳,非遍历的随机过程,所以长时间的时域统计特性在语音增强中意义不大。语音的短时谱幅度的统计是时变的,只有当分析帧长趋于无穷大时,才能近似认为其具有高斯分布。高斯分布模型是根据中心极限定理得到的。将高斯模型应用于有限帧长只是一种近似的描述。在宽带噪声污染的语音增强中,可将这种假设作为分析的前提。这种时间依赖处理的基本手段,一般是用一个长度有限的窗序列截取一段语音信号来进行分析,并让这个窗滑动以便分析任一时刻附近的信号,其一般式为:(2-1)中T[]表示某种运算,{x(m)}为输入信号序列。几种常用的时间依赖处理方法是:当T[(m)]为时,相应于短时能量;当,就是短时过零率。2.2噪声信号的特性噪声来源取决于实际的应用环境,因而噪声特性可以说变化无穷。按照噪声产生的原因可以将噪声分为内部噪声和外部噪声。内部噪声是指语音信号处理系统内部的设备电路所引起的噪声以及器材材料本身所引起的噪声等;而外部噪声则是指由信号处理设备外部环境所引入的噪声。噪声可以是加性的,也可以是非加性的。对于非加性噪声,有些可以通过变换转变为加性噪声。例如,乘性噪声可以通过同态变换成为加性噪声。某些与信号相关的量化噪声可以通过伪随机噪声扰动的方法变换成信号独立的加性噪声。加性噪声大致上有:周期性噪声、脉冲噪声、宽带噪声和同声道的其他语音干扰等。下面分别加以介绍。周期性噪声:主要来源于发动机等周期性运转的机械,电气干扰,特别是电源交流声也会引起周期性噪声,其特点是有许多离散的窄谱峰。这种周期性噪声可以用梳状滤波器予以抑制,可以用数字信号处理的方法来实现。脉冲噪声:来源于爆炸、撞击和放电等,表现为时域波形中突然出现的窄脉冲。消除脉冲噪声通常可以在时域内进行,也可以根据相邻信号采样值通过内插的方法将脉冲噪声在时域上进行平滑。宽带噪声:来源很多,包括热噪声、气流(如风、呼吸)噪声及各种随机噪声源,量化噪声也可视为宽带噪声。由于宽带噪声与语音信号在时域和频域上完全重叠,因而消除它最困难。这种噪声只有在语音间歇期才单独存在。平稳的宽带噪声,通常也可认为是白色高斯噪声。对于非平稳的宽带噪声,情况就更为复杂一些。在本文中,我们所讨论的噪声就是指平稳的高斯白噪声,研究在它的影响下的语音增强方法。同声道语音干扰是指当多个语音叠加在一起在单信道中传输时,双耳信号因合并而消失。另外,背景噪声对发音也有影响,噪声破坏了原有的声学特征和模型参数,模糊了不同语音之间的差别,使语音质量下降,可懂性降低。强噪声不仅会使人产生听觉疲劳,还会对讲话人的发音方式产生影响,从而也改变了语音的特征参数。因此,噪声会对语音信号带来非常大的影响。由于在本次课题中,我们主要讨论的就是加性噪声,而高斯白噪声为加性噪声且频谱范围涉及整个频域具有典型的代表性,因此我们在仿真中选用白噪声作为噪声模型。2.3评价标准随着语音增强系统的进一步实用化,如何合理地评价一个语音增强算法的性能和效果,对改进和完善现有算法的设计、提高系统整体性能、减少研究工作的重复性等方面有着重要意义。语音信号的感知通常采用语音质量与语音可懂度来度量[19]。提高带噪语音的人耳感知质量,一是改进语音质量,消除背景噪声,提高听者的舒适度,使听者乐于接受,不感觉疲劳,这是一种主观的度量,取决于听众的个人偏爱;二是提高语音可懂度,这是一种客观度量,反映出听众能够正确识别词汇的百分比。实际中,如果愿意牺牲语音质量则可提高语音可理解性,例如,可通过加重带噪语音的高频部分来实现[20]。大家也知道提高带噪语音的质量也不是一定要提升语音的可懂度。另一方面,带噪语音质量的提高同时也伴随着带噪语音可懂度的降低。在抑制噪声的过程中,就不可避免地引起纯净语音失真。依照信息论的原理,不严格地说就是无法从增强后的语音中获得比原始带噪语音更多的有关纯净语音的信息[21]。语音质量也就是语音舒适度的提高要求尽可能消除背景噪声并减少残留音乐噪声,语音可懂度要求减少语音失真。消除背景噪声用分段信噪比来评价,分段信噪比是常规信噪比的一种改进形式[22],它通过计算每一帧语音信号的信噪比,获得其平均数值作为评价语音质量的特征参量,它的计算公式如下:(2-2)其中,s(n)和g(n)分别表示纯净语音和增强语音的时域信号,M表示语音信号每帧的采样点数,L表示该语音信号帧的数量。由于语音信号中存在着非语音和信噪比过高的语音帧根据人耳的感知特性,只考虑SNR在一10与35dB之间的语音帧(超过35dB后,人耳就不能辨别语音间的差异了)T(x)=min{max(x,-10),35},一般需通过设置门限值来消除它们对于计算结果的影响。而分段信噪比增益是语音信号处理前后分段信噪比之差,它是比分段信噪比更常用的评测方法。PESQ是ITu一TP.862推荐的语音质量评价标准,用来评价增强后语音的整体质量[23]。残留音乐噪声和语音失真可用主观评价来分析。主观评价是通过试听实验、以试听人的实际感受为优劣标准的测评手段,它以人为主体,符合人类对语音质量的认同程度,但测试较为复杂,重复性和稳定性不够,且结果易受人的主观影响。所以主观评价可通过主观试听结合观察语谱图来分析。为了更准确的评测不同等级的多种噪声背景下的语音增强算法,仿真中一般结合多种测评方法来综合评价算法的性能[24]。2.4本章小结本章介绍了去噪过程中的两个要素语音与噪声,以及去噪效果的评价方法。认识到语音是非平稳过程但是通过分帧我们可以把其视为平稳的。噪音有加性和非加性之分,在本次研究中认为噪声是加性的白噪声。对于语音的评价,使用两种:通过客观的信噪比计算判断去噪能力;通过主观的听输出语音判断可懂度。
3应用谱减法进行语音去噪3.1传统谱减法的基本思想人耳对语音信号的短时谱幅度比对短时相位更敏感[25],因此可近似认为在语音增强过程中,语音信号的相位保持不变[26],这点己经被wang和Lim[27]在一系列的试验中得到验证。因此,他们建议,比起直接估计语音的波形,通过估计语音的谱幅度能获得更好的增强效果[28]。在这种情况下,带噪语音的相位被合并到谱幅度估计中,获得增强后的语音。一般的谱相减直接从有噪信号中减去噪声谱得到“纯净”语音谱。假设s(n),d(n)和y(n)分别代表语音、噪声和带噪语音,,和分别表示其短时谱,由于语音信号是短时平稳的,所以在短时谱幅度估计中认为它是平稳随机信号。且假设噪声d(n)是与语音s(n)不相关的加性噪声。于是得到信号的加性模型:(3-1)若以,和分别代表y(n),s(n)和d(n)的能量密度谱,则:(3-2)y(n),s(n)和d(n)加窗处理后的信号分别以,及表示,而,和分别对应,及的傅立叶变换。则:(3-3)(3-4)式中和分别为及的复共轭。及分别代表语音信号和噪声的短时能量谱。基于短时谱幅度估计的语音增强技术的目的就是设法得到的估计,并由此得到的估计即增强后的语音。由含噪语音信号经加窗及傅立叶变换等运算可直接得到,但,及无法精确得到,因而分别以三者各自的系统平均能量,及来近似代替。由于s(n)与d(n)独立,所以与独立,因此及均为0。这样,的估计由下式获得:(3-5)上式为功率谱减法的表达式。整个系统原理图如图所示:图3-1传统谱减法原理框图谱减法的建立要基于以下几点假设:1)噪声信号和语音信号是互不相关的,在频域是加性的关系。2)背景噪声环境相对于语音活动区域来说是近似稳态的。3)如果背景噪声环境变化到一个新的稳态,则应有足够的时间(约300ms左右)以便估计出新的背景噪声谱幅度估值。4)对于缓慢变化的非平稳噪声环境,谱减法算法中有话音激活检测环节以便适时的判并进行调整。5)假设主要噪声影响的消除可以通过仅仅从带噪语音谱幅度中减去噪声而实现。如果不从功率谱出发,而考虑幅度谱,则可得到幅谱减的表达式:(3-6)在谱减法中,利用人耳对语音的幅度比较敏感,而对语音的相位不敏感这特性,以带噪语音的相位代替纯净语音相位,得:(3-7)(3-8)此为增强后的语音信号。谱减法也可以用线性时变滤波器形式来表示,即对乘以增益函数:(3-9)则:^(3-10)如果,则,这样就可以保证为实函数。从上面两式中可以清楚地看出谱减法的物理意义:它相当于对带噪语音每一个频谱分量乘以一个系数。当该段只含语音时,没有任何衰减,;而当该段只含噪声时,衰减最大,。当介于两者之间时,由后验信噪比决定,即:(3-11)一般谱相减法是将短时噪声语音谱与一个估计的噪声谱相减来达到压缩稳态噪声的目的。这种方法的最大优点在于其简单性。思路清晰,算法简单。但由于它的残留噪声还是比较多,并且产生了令人反感的“音乐噪声”,语音的整体质量有所下降,并没有改善可懂度。听者能发现处理后语音中的“音乐噪声”比原始信号中的噪声更为清晰,这是由于在短时谱估计中的随机频率点上出现的多种频率的组合而产生的。这是在谱减法中经常出现的,也是较难解决的问题。这严重限制了谱减法的应用,因此我们要对谱减法进行一些改进。3.3改进谱减法的内容及实现在改进算法中,以传统谱减法的步骤作为基本框架,将语音信号进行傅里叶变换,从含有噪音的语音信号频谱中减去噪音信号频谱,然后将纯净语音信号进行傅里叶反变换。对于改进的谱减法,在傅里叶变化前进行分帧处理,傅里叶变换时加入汉明窗,之后进行平滑处理加入噪声估计,在功率谱相减时加入谱减系数。最后在反傅里叶变换前利用各种算法去除多余噪声,包括计算阈值、音乐噪声去除、非语音帧置零等。在仿真对比中,首先读入纯净的语音信号,然后利用加噪函数给纯净的语音信号加入不同信噪比的噪声,将加噪后的语音信号送入程序进行去噪处理,最后输出去噪后的语音信号的波形、频谱以及语音文件,并且计算输出语音的信噪比。3.3.1改进谱减法实现过程图3-2改进谱减法流程图3.3.2在本次语音信号的去噪研究中,使用的纯净语音文件是利用window录音设备录制的wav格式的语音文件。wav文件是Windows标准的文件格式,wav文件作为多媒体中使用的声波文件格式之一。采样速率是指声音信号在“模→数”转换过程中单位时间内采样的次数。程序实现中我们用wavread读取wav语音文件,返回抽样数据、抽样速率、每一抽的比特数。仿真程序如下:[wavinn,fs,nbits]=wavread('C:\DocumentsandSettings\妮子的\桌面\1.wav');为了验证改进之后算法的去噪能力增强,所以我们在程序开始时加入了输入信噪比可调的加白噪声函数awgn,该函数为matlab自带函数,输入纯净语音以及要求的信噪比,输出规定信噪比的语音信号。3.3.3分帧加窗在进行进一步处理时都是按帧从数据区取出语音数据,处理完后再取出下一帧,如此反复直到所有语音数据处理完。已取出的一帧语音s(n)要经过加窗处理。加窗实质上是用了一个短时窗w(n)截取信号。由数字信号处理理论可知,两个信号时域相乘相当于在频域卷积。矩形窗频谱旁瓣成分大,滚降衰减速度慢,加这种窗将影响语音信号的高频部分如频谱泄漏使得语音信号能量泄漏到其他频率处。为避免这些影响,通常采用高频分量幅度较小的窗形,如hamming窗。矩形窗与汉明窗的表达式为(其中N代表帧长):矩形窗:(3-12)汉明窗:(3-13)由于汉明窗的第一个零值频率位置比矩形窗要大1倍左右,即带宽约增加1倍,同时其带外衰减也比矩形窗大得多。因此,对语音信号的时域分析来说,窗口的形状是重要的。选用不同的窗口,将使能量的平均结果不同,矩形窗的谱平滑较好,但波形细节丢失;而哈明窗则刚好相反。因此,在语音的时域处理方法中,一般选择矩形窗,而在语音的频域处理方法中,一般选择汉明窗。人耳只对信号的幅度敏感,而对信号的相位几乎没有分辨能力,所以相频特性一般不用考虑。不论什么样的窗口,窗的长度对于能否反映语音信号的时域特征变化,将起决定作用。如果L很大,它等效于很窄的低通滤波器。此时语音信号的时域特征随时间的变化很小,不能反映语音信号的特征变化,波形的变化细节就看不出来;反之,L太小时,滤波器的带通变宽,语音信号的时域特征随时间有急剧的变化,不能得到平滑的特征变化。因此,窗口长度选择应合适。这里窗口的长与短,都是相对于语音信号的基音周期而言的。通常认为在一个语音帧内,应含有1~7个基音周期。在分帧时可以说帧长是时间和点数,具体的选择标准是10ms~30ms之间,但是为了方便傅立叶变换,一般说来,帧长取2^n,n为整数。在取数据时,前一帧和后一帧的交叠称为帧移[29]。帧移和帧长的比值一般取为0~1/2。依据此标准以及实际采样率,确定了分帧时帧长以及步长的选择标准。并且,编写了分帧函数enframe。程序如下:帧长步长选择标准case8000frame_len=256;step_len=128;case10000frame_len=400;step_len=200;case12000frame_len=512;step_len=256;case16000frame_len=800;step_len=400;case44100frame_len=2048;step_len=1024;otherwiseframe_len=1800;step_len=900;2)分帧函数enframe(x,win,inc),其中x表示读取的语音文件的信息,win为帧长,inc为重叠的步长。functionf=enframe(x,win,inc)nx=length(x(:));nwin=length(win);nf=fix((nx-len+inc)/inc);f=zeros(nf,len);indf=inc*(0:(nf-1)).';inds=(1:len);f(:)=x(indf(:,ones(1,len))+inds(ones(nf,1),:));由于汉明窗更适用于频域处理,所以选用汉明窗,这里我们应用matlab自带函数hamming求汉明窗。仿真程序如下:window=hamming(frame_len);%定义汉明窗fft_inframe(:,i)=fft(enframe(:,i).*window如图所示,为在10dB输入信噪比的情况下,原始程序和去掉窗函数程序输出波形图频谱图的对比:图3-3-10dB情况下不带窗和带窗仿真从图中可以看出左下角加窗的程序输出的波形在非语音部分多余噪声较少,且波形相对左上角更加错落有致。同时,通过听两种方法输出的声音,也可以听出加窗后尖叫的噪声较少。因此,可以看出通过加窗是可以避免分帧时的截断效应的。3.3.4增加谱减参数以及平滑处理的是一无声期间的统计平均的噪声方差代替当前分析帧的噪声频谱,这样,实际处理效果不是很理想,原因是:语音的能量往往集中在某些频段内,在这些频段内的幅度相对较高,尤其是共振峰出的幅度一般大于噪音,因此,不应同一标准处理;另一方面,噪声的帧功率谱随机变化范围很宽,在频域中的最大,最小值之比往往达到几个数量级,而最大值与均值之比也达6-8倍。因此,在减去噪声谱后,会有较大的功率谱分量的剩余部分,在频谱上呈现出随机出现的间峰,在听觉上形成残留噪声。这种噪声具有一定的节奏性起伏感,所以称之为“音乐噪声”。因此,改进的方法是在幅度较高的时帧处减去,这样可以更好地突出语音谱,抑制纯音噪声,改善降噪性能;其次,在语音谱中保留少量的宽带噪声,在听觉上可以起到一定的掩蔽纯音噪声的作用。考虑这两个方面,改进后的谱减法公式如下:(3-14)1)过减系数:值越大,剩余噪声衰减越大,同时语音失真也会越大。2)谱平滑系数:值增大可降低剩余的音乐噪声,但会增加增强后语音的背景噪声。3)指数;这个参数决定了增益函数从到的平滑程度。谱减参数,和的选择是谱减法的核心问题。当=1,=1时,可得到幅度谱减法形式,〉1为过减形式。当=2,=1时,可得到功率谱减法形式,>1为过减形式实际上,在低信噪比条件下,减小语音失真和降低剩余噪声不可兼得,只能在二者之间达到最好的折中,提高可懂度。实验表明在辅音帧中取3,在元音帧中取4-5,取0.01-0.05可以取得较好的降噪及抑制纯音噪声的效果。同时根据实际语音的情况适当调整参数以达最好效果。通过对相邻帧幅度谱进行适当的平均可以有效地抑制残留噪声,减小估计器的误差。当语音波形变化缓慢时,这种谱平均的方法效果较好,幅度平均法中用来平均的相邻帧的数目越多,残留噪声越少,但是由于语音信号的短时平稳特性,过多的平均反而会增加估计器误差,对语音造成损害,使输出语音模糊不清。平均帧数的选取要综合考虑。在对幅度谱做均值滤波时,也可用加权均值法,根据距中心帧的距离,给各帧以不同的权值,距离越近,权值越大。这样既考虑到信号前后帧之间的连贯性,又考虑到语音信号的非平稳性。为了进一步降低噪声,人们还提出对谱减后的每一个频谱值,从其前后几帧的对应频谱值中找到最小的,用这个值代替当前谱减结果。这是因为语音信号的出现总是需要一个过程的,利用前后帧的信息,可有效地去除突变点,取其中最小值,这也是一种平滑的方法。噪声谱的估计可以在无语音帧时进行更新,如用平均法,噪声谱的估计可以写成:(3-15)这里K是无语音帧的总数。也可以用滤波法:(3-16)其中是滤波系数,典型取值在0.8--0.95之间。在本文中使用平均法,又因为录音前面部分不含语音,因此根据公式:,本文选用前20帧。程序如下,其中mean为求平均值函数:abs_noise=mean(abs_inframe(:,1:20),2);在程序中我们两次使用过减系数,一次使用衰减系数。第一次使用过减系数是在将振幅小于噪声振幅的信号这一步骤中。因为且,当该段只含语音时,没有任何衰减,;而当该段只含噪声时,衰减最大,。所以在非语音部分直接置零。第二次是在语音信号功率谱相减中。从公式3-14可以看出,在非语音帧的衰减中使用衰减系数。程序如下:1)设置幅度小于噪声信号的语音a=3;%当a取1时是普通功率谱相减法abs_inframe2(j,i)<a*abs_noise(j,1)abs_inframe2(j,i)=a*abs_noise(j,1);2)功率谱相减p_wavout(:,i)=sqrt((abs_inframe2(:,i).^2-(a*abs_noise).^2)./abs_inframe(:,i).^2).*fft_inframe(:,i)3)非语音帧衰减T=20*log10(mean(abs_wavout./(abs_noise*ones(1,frame_num))));%求信噪比T_noise=mean(T(:,1:20),2);c=10^(-2/3);%衰减系数为10^(-1.5)noise_frame=find(T<T_noise);abs_wavout(:,noise_frame)=c*abs_wavout(:,noise_frame);如下图,把a=1和非语音帧的衰减部分去掉,在输入信噪比为10dB的情况下作图比较前后变化:图3-410dB情况下不带谱减系数和带谱减系数仿真波形和频谱图如图,左下角为原始程序得出的波形图,左上角为去掉上面的改进方法后得到的波形图。图中浅色部分为处理前的波形和频谱,深色部分为处理后的波形和频谱。通过观察图形我们可以看出,将过减系数置1,使语音去噪不完全,仍留有很多部分白噪声,但对频谱的分布影响不大。同时,通过听输出的声音我们可以感受到若去掉上面的处理步骤,输出语音不清楚,仍混有白噪音。为了提高抗造性能,首先将语音信号的短时自相关序列进行实践方向上的平滑处理,消除加性噪声对语音信号的自相关序列的影响,然后利用平滑后的序列代替原语音信号进行分析。并且通过后面以前的一些实验可知,t∈[-L,L]表示的时间段,当平滑帧数为3,即L=1,时,识别效果最好。表达式如下:具体实现程序如下:abs_inframe(:,i)=mean(i_inframe(:,i-1:i+1),2);如图分别为在-10dB输入信噪比下添加了平滑处理和未添加平滑处理后的输出图:图3-5如图所示左下角添加了平滑处理的程序输出的波形基本上将噪音与语音分开,而左上角未添加的噪声与语音的波形幅值基本相同,这也可以通过听输出的语音文件听出。同时,观察左边的波形图可以看出平滑后噪声频谱更整齐,更符合算法要求。因此可以看出,因为噪声幅值是取寂寞段的平均值,所以通过添加平滑处理,可以使各帧的噪声幅值接近寂寞段幅值,避免语音的误减。3.3.5为了增加去噪效果,本次改进还在上面处理的基础上添加了更多去噪算法,包括消除残余噪声、通过阈值去噪等。因为语音信号的失真功率和残留噪声的功率不可能同时降到最低,所以只能在信号失真和残留噪声之间取一个折中。因此为了消除残留的噪声,不必把残留噪声的水平削减过大,只需根据人耳听觉掩蔽特性,削减掩蔽阈值以上的噪声,因为掩蔽阈值以下的噪声是人耳听不见的,这样留有较多的无害噪声,可以达到较小的语音失真,增益函数也就是在满足的条件下,使得为最小的值。程序如下:cen=abs_wavout(:,i);l=mean(cen);ifcen(j)>lcen(j)=cen(j)*0.1;如下图,为去掉再次去噪和完整处理后的仿真波形图和频谱图。图3-6通过左边两幅图可以明显看出带再次去噪的去噪效果更好,语音信号突出、噪音有效消除。这也可以从输出的语音文件中听出。3.4对比前后结果3.4.1波形图与频谱图改进前后比较为了很好地表现去噪效果,绘制了在不同信噪比下,改进前后的波形图。输入信噪比为-5dB图3-7输入信噪比为-10dB时改进前后输入输出波形频谱对比输入信噪比为0dB图3-8输入信噪比为0dB时改进前后输入输出波形频谱对比输入信噪比为15dB图3-9输入信噪比为10dB时改进前后输入输出波形频谱对比从图像中我们可以看出改进后的谱减法对语音的处理更好,噪声有效去除,同时波形保持完整,声音表现清楚,不会失真。3.4.2信噪比比较信噪比是用来比较语音中噪声含量的常用度量标准。如公式:(3-17)它是信号和噪声的比值。在处理前我们编写程序把不同的噪声加入同一个语音文件中,在处理结束后我们通过信噪比计算程序得出处理后的信噪比。添加信噪比程序:wavin=awgn(wavinn,15);如下表为在各个输入信噪比的情况下,改进谱减法输出的信噪比值:表3-1输入信噪比(dB)-15-10-5051015输出信噪比(dB)-2.6255-0.13840.75762.69114.29335.79566.7822通过计算我们可以知道传统谱减法的输出信噪比很大且由于添加信噪比的方式和去噪方式的单一,得出的信噪比值不变。从上表我们可以看出改进的谱减法有很好的去噪效果较好、对噪声的消除有明显的作用。同时,我们对改进谱减法的输入信噪比和输出信噪比的值进行拟合预测,结果如图:图3-10信噪比拟合预测图通过上图,我们可以看出输入信噪比越大改进谱减法的去噪效果越明显。3.4.3可懂度比较为了证明改进谱减法提升可懂度能力,我们在matlab中添加输出处理后语音信号的函数wavwrite。通过这些语音文件我们也可以证明改进谱减法的去噪能力强于传统谱减法。3.5本章小结本章的第一节介绍了谱减法的基本原理,让大家对谱减法的基本情况有了初步的了解,为下面的改进谱减法做准备。在第三节首先概括了改进谱减法的实现过程,然后对改进的内容、实现的方法以及效果等方面进行了全面的论述。在改进谱减法中添加了平滑处理、分帧加窗、噪声估计等,通过前后对比可以看到这些方法从各个方面有效去除了噪音同时基本保证了处理后语音的可懂度。在本章的最后一节,分别从输出波形、信噪比、可懂度三个方面对传统谱减法和改进谱减法进行对比,充分说明改进谱减法优于传统谱减法。
结论由于语音在传输过程中会受到各种噪声的干扰,影响了语音本身的质量使听者感觉不舒服,因此要对语音进行去噪处理。目前比较通用的是谱减法,它是针对加性噪声的一种去噪算法。通过语音处理的评价标准语音质量和语音可懂度对谱减法进行度量发现其还有很多需要改进之处,尤其使用传统谱减法处理过的语音会产生“音乐噪声”。本次设计通过在传统谱减法的基础上,还对某种谱减法进行了研究。改进的谱减法中添加了一些辅助算法来改善语音质量、提高可懂度。在设计中首先对带噪语音进行了分帧处理,通过分帧把不平稳的一段语音变成一帧帧短时平稳的语音。然后在傅里叶变换中添加窗函数,通过对比前后不同的结果可以看到窗函数可以避免分帧时的截断效应,保证了今后各种处理的数据基础。再然后,选择最佳平滑帧数对语音进行平滑处理,保证了各帧噪声幅值接近寂寞段幅值。其次,还添加了谱减系数,增强了去噪能力,以及应对不同噪音的能力。同时,还特意添加了去除音乐噪声的程序,一定程度上避免了音乐噪声的影响。除此之外,还在算法中添加通过计算阈值去除最大残余量,对非语音帧直接置零等处理。通过这些研究可以看出,改进的谱减法去噪能力增强,语音可懂度也大大提高。但是,由于不同的语音环境仍没有达到对噪音的完全去除,在一些输入信噪比的情况下声音仍有一定失真。
参考文献[1]BollSF.SuppressionofAcousticNoiseinSpeechUsingSpectralSubtraction[J].IEEETrans.onAcoustics,Speech,andSignalrocessing,1979,27(2):113-120.[2]BeroutiM,SchwartzR,MakhoulJ.EnhancementofSpeechCorruptedbyAcousticNoise[J].IEEETrans.onAcoustics,Speech,andSignalProcessing,1979,4:208-211.[3]胡航.语音信号处理.哈尔滨工业大学出版社,2000年5月.[4]ThomsonDJ.SpectrumEstimationandarmonicAnalysis[J].Proc.IEEE,1982,70(9):1055-1096.[5]皇甫堪.陈建文.楼生强.现代数字信号处理[M].北京:电子工业出版社,2003.[6]HuYi,LoizouPC.SpeechEnhancementBasedonWaveletThresholdingtheMultitaperSpectrum[J].IEEETrans.onSpeechandAudioProcessing,2004,12(1):59-67.[7]吴红卫.吴镇扬.赵力.基于多窗谱的心理声学语音增强[J].声学学报,2007,32(3):275-281.[8]HuYi,LoizouPC.IncorporatingaPsychoacousticalModelinFrequencyDomainSpeechEnhancement[J].IEEESignalProcessingLetters,2004,11(2):270-273.[9]潘欣裕.童兴法.赵鹤鸣.基于谱能比例加权的谱减法语音增强研究[J].中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集.[10]程正.赵鹤鸣.基于多频带谱减法的语音增强算法的研究[J].002-8331(2007)36-0040-03.[11]曹瑜镠.方元.吕勇.基于最小统计及谱减法的语音增强[J].语音技术.002-8684(2006)12-0043-04.[12]EphraimY,VanTreesHL.ASignalSubspaceApproachforSpeechEnhancement[J].IEEETrans.SpeechudioProcessing,1995(3):251-266.[13]白文雅.黄健群.陈智伶.基于维纳滤波语音增强算法的改进实现[J].电声技术,2007,31(1):44-46.[14]蔡斌.一种改进型MMSE语音增强方法[J].信号处理,2004,20(1):70-74.[15]陈俊.孙洪.董航.基于MMSE先验信噪比估计的语音增强[J].武汉大学学理学版,2005,51(5):638-642.[16]BollS.SuPPressionofacoustienoisoinSPoechusingspoelubction.IEEETransaetionsonAcousties.Speechand5ignalProcessing,1979,27(3):113一120[17]樊昌信,曹丽娜.通信原理[M].北京:国防工业出版社,2008.[18]姚天任.数字语音处理[M].武汉:华中科技大学出版社,2005.[19]YEPhraimand1.Cohen.“ReeentadvaneemenisinsPeeehenhancement”intheEleetriealEngineeringHandbook.rded.BoeaRaton.FL:CRC.httP://ece.gmu·edu/~yePhrailn/ePhraim.html,tobePublished.2004.[20]1.B.ThomasandA.Ravindran”Intelligibilityenhancementofalreadynoisyspeeehsignals”AudioEng.Soc.1974,22:234一236.[21]YEPhraimand1.Cohen“ReeentadvaneemenisinsPeeehenhancementintheEleetriealEngineeringHandbook.3rded.BoeaRaton.FL:CR,http://ece.gmu·edu/~yePhrailn/ePhraim.html,tobePublished.2004.[22]5.R.Quackenbush.T.P.Bwell.andM.A
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度电商平台云计算服务与技术支持合同3篇
- 2024年度紧急物资仓储与快速响应合同
- 2024年数据中心建设与运营维护合同
- 2024年度家具设计与定制服务承包合同2篇
- 2024年度租赁合同补充协议详细规范本
- 深圳商品房转让房产合同(3篇)
- 二零二四年度车位代理销售公司车位代理销售合同示范文本
- 2024版高层办公楼防火涂料施工技术要求合同
- 2024年度广告投放合同:某短视频平台与广告代理公司就广告投放位置、时间、预算等事项签订的具体合同
- 2024年度电工职业教育培训合同3篇
- 2024-2030年中国新式茶饮浓缩液市场现状调查与营销策略分析报告
- 统编版六年级下册道德与法治1-学会尊重-课件(54张课件)
- 第9课《创新增才干》第1框《创新是引领发展的第一动力》【中职专用】中职思想政治《哲学与人生》(高教版2023基础模块)
- 中医护理术后
- 物业管理退场通知书(模板)
- 专业学位硕士研究生英语智慧树知到答案2024年黑龙江中医药大学
- 全包装修合同(2024版)
- DL∕T 5210.6-2019 电力建设施工质量验收规程 第6部分:调整试验
- 《电力系统继电保护》课程标准(含课程思政)
- 节能验收报告模板(参考固定资产投资项目节能审查系列工作指南2018年本)
- 使用单位特种设备日管控、周排查、月调度记录
评论
0/150
提交评论