基于先验信噪比的改进型谱减法_第1页
基于先验信噪比的改进型谱减法_第2页
基于先验信噪比的改进型谱减法_第3页
基于先验信噪比的改进型谱减法_第4页
基于先验信噪比的改进型谱减法_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 学号:01021023 毕业设计论文 毕业设计题目:基于先验信噪比的改进型谱减法学院:通信工程学院专业:通信工程班级:01-0211姓名:徐鑫昌导师姓名:王平(讲师)摘 要语音增强的目的主要是改进语音质量,在消除背景噪音的同时提高语音可懂度,但是这两个目的往往不能兼得。目前有一些对非平稳噪声干扰下的语音信号进行增强的方法,可以降低背景噪声,但有时会引入刺耳的音乐噪声,且不能提高语音的可懂度,甚至略有下降。其中谱减法作为一种单信道语音增强方法,以其简单有效在使用化的语音增强应用中深受欢迎。本文研究采用阀值法法对非平稳背景噪声信号进行估计,计算出先验信噪比,得到还原的纯净语音信号。本文用MATL

2、AB实现了整个算法的仿真,并与传统谱减法结果相比较,仿真结果表明,该算法对非平稳噪声追踪性较好,在抑制背景噪声,减少音乐噪声前提下,提高了语音的可懂度,其计算复杂度也可以接受。关键词: 谱减法 语音增强 噪声估计 Abstract The mainly purpose of speech enhancement is to improve the quality of speech, raises the intelligibility of speech while eliminating background noise, but this two purposes can not oft

3、en be gotten simultaneously. Now there are many method of speech enhancement for the speech signal with near-stationary noise can reduce background noise, but can produce an annoying noise called music noise, and the intelligibility can not raise even drops. As a method of one channel speech enhance

4、ment, spectral subtraction is deeply welcome because it is easy and efficient.In this paper, the SNR of the speech signal is estimated, then the enhanced speech signal is gotten. MATLAB is used to realize the purpose, and it is compared with traditional spectral subtraction. It shows that this algor

5、ithm is better for the speech signal with the near-stationary noise; it restrains the music noise and reduces the background noise, it also raises the intelligibility. The complex degree also can be accepted.Keyword: Spectral subtraction Speech enhancement Noise estimation 目录第一章 绪论11.1 课题背景及问题提出11.2

6、 语音增强研究的主要内容和发展方向11.3 谱减法语音增强的研究现状3第二章 语音感知和噪声特性52.1 语音特性52.2噪声特性5第三章 谱减法语音增强算法73.1 语音增强算法概述73.2一般谱减法83.2.1 基本原理83.2.3 基本步骤和仿真结果113. 3 “音乐噪声”的产生133.4 改进的谱减法14改进型谱减法的种类143.4.2 幅度谱平滑15 被减项加权值处理163.4.4 功率谱修正处理16第四章 基于先验信噪比估计的改进型谱减法194.1 基本原理194.2 寂静帧和语音帧的判定194.3 算法的实现214.4 参数的估计224.5 实验结果和分析22第五章 性能评价2

7、55.1 信噪比改进255.2 主观评价25结论 27参考文献 29第一章 绪论1.1 课题背景及问题提出众所周知,语言是人类传播信息和表达感情的重要媒介,在人类的交流中起着极其重要的作用,是人类最方便、最快捷、最有效的交流方式。二十一世纪是信息科学的世纪,信息处理技术与人们的日常生活联系也越来越紧密,因此,对人们交流中最常用的语音来说,对其进行处理在现代信息处理中就占有极为重要的地位。随着通讯技术的发展,语音通信已成为人们日常生活、工作中不可缺少的一部分。近年来虽然数据通信迅猛发展,但据国家信息部的统计数据显示,语音通信仍是现阶段主流,占据通信行业主导地位。语音信号处理技术一直以来都是国内外

8、学者研究的热点,它跨声学、信号处理、仿生学等多个学科,应用前景广阔。近年来,由于计算机和因特网正以惊人的速度和规模渗透到社会的各个领域,许多应用要求简单、自然、友善的人机界面,而语音就成为一种理想的人机信息交流手段,因此也就对语音信号处理的发展提出了更迫切的要求。然而在人们的语音通信过程中,不可避免地会受到来自周围环境、传输媒介引入的噪声、通信设备内部的电噪声、乃至其他讲话者的干扰。这些干扰最终将使接收者接收到的语音不再是纯净的原始语音,而是被噪声污染过的带噪语音。语音增强目的就是从被污染的语音信号中,提取尽可能纯净的原始语音,改善语音质量,使听者不觉的疲劳,并且能够提高语音的可懂度。1.2

9、语音增强研究的主要内容和发展方向增强被加性噪声污染的语音信号,这一问题自七十年代中期后已引起极大的注意。中,奥本海姆等人综述了七十年代的各种各样的噪声语音信号增强方法。近些年来,语音增强的研究工作有了一定的进展。下面对国内外语音增强研究的常用方法作介绍。一 频谱相减法单声道语音增强方法中目前常用的是一类基于短时谱幅度(STSA)估计的语音增强方法,该方法认为语音信号的感知不重要,没有必要精确计算。文中通过实验为此提供了一定的依据,文中则证明在一定条件下语音相位的最小均方误差(MMSE)估计就是带噪语音相位本身,因此,基于STSA估计的语音增强方法一般都是直接采用带噪语音的相位作为增强语音的相位

10、。基于STSA估计的语音增强方法包括谱减法及其各种变形,MMSE估计法等。谱减法通过从带噪语音的STSA中直接减去噪声的平均谱幅度来得到增强语音的STSA,实现起来简单,但是剩余噪声大,并且产生不舒服的“音乐噪声”。后来,Ephraim等人 提出了STSA的MMSE估计法,部分解决了“音乐噪声”问题,但在带噪语音信噪(SNR)较低时其剩余噪声还是很大,尤其是当信噪比小于5dB时。二 自适应噪声对消法 适用于在带噪语音信号采集过程中同时能获得参考噪声源的自适应噪声对消技术,已日趋成熟。据专家报告:运用此技术增强带噪语音,在实验环境中,信噪比SNR有40dB左右的改善,在实际中也有20dB左右的提

11、高。三 小波变换法频谱相减法是在短时平稳假定的基础上,采用固定窗傅立叶变换,时频分辨率均是固定不变的。然而对某些“严格非平稳” 的语音(如爆破音和塞擦音等),这种分析模糊了语音的细节特征,小波变换正是满足这一需要的有力工具。语音增强已成为语音信号处理研究的不可忽视的重要问题。虽然从1970年至今,人们已提出了各种各样的语音增强方法,并应用于语音识别等信号处理领域,但是出于语音增强研究是一复杂交叉学科的研究领域,其增强算法和听觉模型还不完善。因此,语音增强研究的主要内容和发展方向应包括以下几个内容:(1)语音信号是一种非平稳的随机信号。在语音增强中可以利用浊音具有明显的准周期性来区别和抑制非语音

12、噪声,而清辅音和宽带噪声区分就很困难。好的语音增强算法应考虑和解决这个问题。 (2)目前语音增强算法一般分这样两种情况:一类方法运算量较小,容易实时实现,但增强后的语音会含有类似音乐的残留噪声;另一类是增强语音效果虽较好,但运算量大,不容易实时实现。国内外学者进行语音增强的目的之一:寻找一种运算量小,容易实时实现,增强效果好的方法(3)人耳对背景噪声有很大的抑制作用,了解其机理大大有助于语音增强技术的发展。人类的听觉系统能从非平稳噪声中提取有用信息,模拟人耳听觉系统的语音增强也是语音增强的发展方向。(4)许多环境下的干扰噪声是非平稳的,因而难以找到一种通用的语音增强算法适用于各种噪声环境。因此

13、研究非平稳随机噪声下的语音增强具有重要的意义,这方面的工作有待进一步开展。1.3 谱减法语音增强的研究现状 1979年S. Boll在文中假设噪声是平稳的或缓慢变化的加性噪声,并且语音信号和噪声信号不相关的情况下,提出了谱减法(SS: Spectral Subtraction)。该方法能够抑制背景噪声的影响,但由于其局部平稳性的假设与实际情况并不相符,因此效果不理想,残留的音乐噪声较大;Berouti在文中提出了传统谱减法的基础上增加了调节噪声功率谱大小的系数和增强语音功率谱的最小值限制,提高了谱减法的性能,但是其修正系数和最小值是根据经验确定的,适应性较差;文中P. Lockwood在谱减法

14、的基础上提出了非线性谱减法(NSS:Non-liner SpectralSubtraction),它根据语音信号的信噪比自适应调节语音增强的增益函数,提高了语音的信噪比。众所周知,信噪比不能正确反映信号的听觉质量,因此用信噪比作为调整估计参数的依据并不能提高信号的听觉质量;文中Boh Lim Sim 等人也提出了与此相近的改进算法,虽然提高了信号的信噪比,但残留的音乐噪声较大;文中Virag将人耳的掩蔽特性应用到非线性谱减法的增强算法中,部分解决了谱减法残留音乐噪声大的问题,但在信噪比较低或非平稳的情况下,其增强效果不理想;文中I.Cohen 等人首先估计语音信号概率密度函数,然后在此基础上改

15、进了对数谱估计算法,使得改进的算法对非平稳噪声具有良好的抑制作用,该算法的缺点是语音信号的概率密度函数较难估计。 噪声参数估计的准确与否直接会影响谱减法语音增强效果。因此,带噪语音中背景噪声参数的估计问题,尤其是非平稳噪声参数的估计问题令人关注。1.4 论文章节安排第一章 介绍了语音通信的意义,概述了国内外语音增强的研究概况,以及主要的研究内容和发展方向。第二章 在这部分我们首先研究了语音的特性,噪声的特性和它得来源及种类各不相同,从而造成处理方法的多样性,因此要结合语音特性及噪声特性根据实际情况选用合适的语音增强方法,以及掩蔽效应的影响和处理方法,以及掩蔽阀值的计算。第三章 我们首先论述了语

16、音增强算法的概况和种类,接着讨论基本谱减法的原理及增强形式和在谱减法中产生的“音乐噪声”,最后讨论了为了减少“音乐噪声”而提出的改进型谱减法,以及对改进型谱减法的算法的权值项的处理。第四章 在本文中确定一种改进型谱减法,对它的原理、算法进行更深的讨论,接着论述在该算法中调节各参数对结果的影响,并对它的语音、噪声进行估计。第五章 对本文所提出的算法进行性能比较。将本课题的方法和其它谱减法进行比较,通过信噪比的改进情况可以得到:本文提出的算法提高了对低输入信噪比的改进。主观听觉测试也说明残留噪声对语音的干扰比基本谱减法要小得多。第二章 语音感知和噪声特性 2.1 语音特性语音是时变的、非平稳、非遍

17、历的随机过程。语音发声是一个时变过程,很多因素造成了发声系统的时变性,例如声道的面积随着时间和距离改变,气流速度随着声门处压力变化而变化等。但是声道形状有相对稳定性,在一段时间内(10ms30ms),人的声带和声道形分为若干分析帧,每一帧的语音可以认为是准稳定的。语音可以分为周期性的浊音和非周期的清音。浊音和清音经常在一个音节中同时出现。浊音部分和音质关系密切,在时域上呈现出明显的周期性,在频域上有共振峰结构,而且能量大部分集中在较低频段内,是语音中大幅度高能量的部分;清音则具有明显的时域和频域特征,类似于白噪声,能量较小,在强噪声中容易被掩盖,但在较高信噪比时能提供较多的信息。在语音增强中,

18、可以利用浊音的周期性特征,采用梳状滤波器提取语音分量或者抑制非语音信号,而清音则难以与宽带噪声区分。语音感知对语音增强研究有重要作用,人耳对语音的感知主要是通过语音信号频谱分量幅度获取的,对各分量相位则不敏感,对频率高低的感受近似与该频率的对数值成正比。语音信号可以用统计分析特性来描述。由于语音是非平稳,非遍历的随机过程,所以长时间的时域统计特性在语音增强中意义不大。语音的短时谱幅度的统计是时变的,只有当分析帧长趋于无穷大时,才能近似认为其具有高斯分布。高斯分布模型是根据中心极限定理得到的。将高斯模型应用于有限帧长只是一种近似的描述。在宽带噪声污染的语音增强中,可将这种假设作为分析的前提。这种

19、时间依赖处理的基本手段,一般是用一个长度有限的窗序列截取一段语音信号来进行分析,并让这个窗滑动以便分析任一时刻附近的信号,其一般式为: (2.1)其中T 表示某种运算,x(m)为输入信号序列。几种常用的时间依赖处理方法是:当T(m)为时,相应于短时能量;当,就是短时过零率。 2.2噪声特性噪声来源取决于实际的应用环境,因而噪声特性可以说变化无穷。噪声可以是加性的,也可以是非加性的。对于非加性噪声,有些可以通过变换转变为加性噪声。例如,乘性噪声可以通过同态变换成为加性噪声。某些与信号相关的量化噪声可以通过伪随机噪声扰动的方法变换成信号独立的加性噪声。加性噪声大致上有:周期性噪声、脉冲噪声、宽带噪

20、声和同声道的其他语音干扰等。下面仅讨论加性噪声。周期性噪声:主要来源于发动机等周期性运转的机械,电气干扰,特别是电源交流声也会引起周期性噪声,其特点是有许多离散的窄谱峰。这种周期性噪声可以用梳状滤波器予以抑制,可以用数字信号处理的方法来实现。脉冲噪声:来源于爆炸、撞击和放电等,表现为时域波形中突然出现的窄脉冲。消除脉冲噪声通常可以在时域内进行,也可以根据相邻信号采样值通过内插的方法将脉冲噪声在时域上进行平滑。宽带噪声:来源很多,包括热噪声、气流(如风、呼吸)噪声及各种随机噪声源,量化噪声也可视为宽带噪声。由于宽带噪声与语音信号在时域和频域上完全重叠,因而消除它最困难。这种噪声只有在语音间歇期才

21、单独存在。平稳的宽带噪声,通常也可认为是白色高斯噪声。对于非平稳的宽带噪声,情况就更为复杂一些。在本文中,我们所讨论的噪声就是指平稳的高斯白噪声,研究在它的影响下的语音增强方法。同声道语音干扰是指当多个语音叠加在一起在单信道中传输时,双耳信号因合并而消失。另外,背景噪声对发音也有影响,噪声破坏了原有的声学特征和模型参数,模糊了不同语音之间的差别,使语音质量下降,可懂性降低。强噪声不仅会使人产生听觉疲劳,还会对讲话人的发音方式产生影响,从而也改变了语音的特征参数。因此,噪声会对语音信号带来非常大的影响。第三章 谱减法语音增强算法3.1 语音增强算法概述 在前面的论述中我们已经提到过,对于不同的噪

22、声有着不同的语音信号增强处理方法。最近30多年,人们针对加性宽带噪声研究了许多种语音增强算法。尽管目前语音增强尚没有建立起完整的理论体系,还有待于进一步的研究和发展,但是一些语音增强算法己被证明是有效果的。为了对这些有效的语音增强算法有一个总体的认识。下面,我们对自相关相减法、谐波增强法、自适应噪声滤波法、基于语音生成模型增强算法、听觉掩蔽法以及基于短时谱幅度估计算法做一介绍。自相关法:信号的功率谱是其自相关函数的傅立叶变换,因此应用于功率谱上的任何方法都可以应用到自相关上。这种原理是利用自相关相减法进行增强的基础。利用信号本身相关,而信号与噪声,噪声与噪声之间可看作不相关的特性,可以将带噪信

23、号进行自相关处理,使其得到与不带噪信号同样的自相关系数帧序列。谐波增强法:语音信号的浊音段具有明显的周期性,利用这一特点,可以采用自适应梳状滤波来提取语音分量,抑制噪声。自适应噪声滤波法:自适应滤波器的输入为W1(n),它和信号中的加性噪声W(n)是高度相关的,但和无噪信号S(n)无关。参考信号滤波后的输出是加性噪声W1(n) 的估计,系统输出 Z(n) 是对纯净信号 S(n) 的估计,并且用于调节自适应滤坡器。假设S(n)与W(n)无关,并且调节自适应滤波器使系统输出Z(n)的能量达到最小。那么,X(n)就是 S(n)在最小均方误差下的估计 。基于语音生成模型的增强算法:语音的发声过程可以模

24、型化为受激励源激励的一个线性时变滤波器,对不同类型的语音为不同的激励源。如对于浊音,激励源是一个与基音周期相同的周期性脉冲串;而对于清音激励源为高斯白噪声。通常认为声道模型是一个全极点滤波器,滤波器参数可以通过线性预测分析得到,但若考虑到鼻腔的共鸣作用,采用零极点模型更为合适。显然,如果能够知道激励参数和声道滤波器的参数,就能利用语音生成模型合成得到“纯净”的语音,这种方法的关键在于如何从带噪语音中准确地估计语音模型的参数(包括激励参数和声道参数)。这种基于语音的生成模型可得到一系列语音增强方法,如时变参数维纳滤波及卡尔曼滤波等方法。听觉掩蔽法:听觉掩蔽效应最初主要是用于音频信号的压缩编码基础

25、之上的。它主要的原理就是根据具体的音频信号和人耳的听觉掩蔽模型动态地确定频域上的听觉掩蔽阈值。根据听觉掩蔽效应原理,低于听觉掩蔽阈值的语音信号频率成分可被高于听觉掩蔽阈值的语音信号相近的频率成分所掩蔽,因此这些被掩蔽的语音信号成分很难对人耳的听觉系统所响应,可以被看作是冗余信号,从而为进一步提高语音信号的压缩比而提供了可靠的依据。基于短时谱估计的方法:基于短时谱估计的方法是从含噪信号中直接估计出原始语音。如前所述,语音是非平稳随机过程,但在10ms-30ms的分析帧内可以近似看成是平稳的。如果能从带噪语音的短时谱中估计出纯语音信号的短时谱,则可达到增强的目的。由于人耳对语音相位的感受是不敏感的

26、,因此可以只将估计的对象放在短时谱幅度上。基于短时谱幅度估计的语音增强算法主要有维纳滤波法和谱减法。3.2一般谱减法 基本原理一般的谱相减直接从有噪信号中减去噪声谱得到“纯净”语音谱。假设s(n),d(n)和y(n)分别代表语音、噪声和带噪语音, 和分别表示其短时谱,由于语音信号是短时平稳的,所以在短时谱幅度估计中认为它是平稳随机信号。且假设噪声d(n)是与语音s(n) 不相关的加性噪声。于是得到信号的加性模型y(n)=s(n)+d(n) (3.1) 若以,和分别代表y(n),s(n)和d(n)的能量密度谱,则 (3.2)y(n),s(n)和d(n)加窗处理后的信号分别以,及表示,而,和分别对

27、应,及的傅立叶变换。则 (3.3) (3.4)式中和分别为及的复共轭。及分别代表语音信号和噪声的短时能量谱。基于短时谱幅度估计的语音增强技术的目的就是设法得到的估计,并由此得到的估计即增强后的语音。 由含噪语音信号经加窗及傅立叶变换等运算可直接得到,但,及无法精确得到,因而分别以三者各自的系统平均能量,及来近似代替。由于s(n)与d(n)独立,所以与独立,因此及均为0。这样,的估计由下式获得 (3.5)式(3.5)为功率谱减法的表达式。整个系统原理图如图3-1所示。 图3-1 谱减法原理框图 谱减法的建立要基于以下几点假设: 1) 噪声信号和语音信号是互不相关的,在频域是加性的关系。 2) 背

28、景噪声环境相对于语音活动区域来说是近似稳态的,这样 3) 如果背景噪声环境变化到一个新的稳态,则应有足够的时间(约 300ms左右)以便于估计出新的背景噪声谱幅度估值。 4) 对于缓慢变化的非平稳噪声环境,谱减法算法中有话音激活检测环节以便适时的判断并进行调整。 5) 假设主要噪声影响的消除可以通过仅仅从带噪语音谱幅度中减去噪声而实现。 如果不从功率谱出发,而考虑幅度谱,则可得到幅谱减的表达式 (3.6)在谱减法中,利用人耳对语音的幅度比较敏感,而对语音的相位不敏感这特性,以带噪语音的相位代替纯净语音相位,得 (3.7) (3.8)此为增强后的语音信号。谱减法也可以用线性时变滤波器形式来表示,

29、即对乘以增益函数将式(3.5)变为乘积形式: (3.9)对应于式(3.5),则 (3.10)如果,则,这样就可以保证为实函数。从式(3.9)式(3.10)中可以清楚地看出谱减法的物理意义:它相当于对带噪语音每一个频谱分量乘以一个系数。当该段只含语音时,没有任何衰减,;而当该段只含噪声时,衰减最大,。当介于两者之间时,由后验信噪比决定,即 (3.11)在实际的增强过程中,更多地使用的是谱减法的推广形式: (3.12) 式(3.12)是谱减法最为灵活的一种形式,它包含谱减法的基本思想,而且给出了三个调节系数,以在噪声抑制,剩余噪声衰减和语音失真之间达到最好的折中。其中:1)过减系数:值越大,剩余噪

30、声衰减越大,同时语音失真也会越大。2)谱平滑系数:值增大可降低剩余的音乐噪声,但会增加增强后语音的背景噪声。3)指数;这个参数决定了增益函数从到的平滑程度。谱减参数,和的选择是谱减法的核心问题。实际上,在低信噪比条件下,减小语音失真和降低剩余噪声不可兼得,只能在二者之间达到最好的折中,提高可懂度。语音信号中,说话人由于呼吸会不断产生语音间歇,我们可以利用这些间歇估计噪声,其中一种方法就是利用端点检测来判定有/无语音。在无语音段利用下式对噪声估计进行更 新。 (3.13)其中,i为当前帧数,i-1为前一帧。 一般谱减法的优缺点一般谱相减法是将短时噪声语音谱与一个估计的噪声谱相减来达到压缩稳态噪声

31、的目的。这种方法的最大优点在于其简单性。思路清晰,算法简单。但由于它的残留噪声还是比较多,并且产生了令人反感的“音乐噪声”,语音的整体质量有所下降,并没有改善可懂度。听者能发现处理后语音中的“音乐噪声”比原始信号中的噪声更为清晰,这是由于在短时谱估计中的随机频率点上出现的多种频率的组合而产生的(在后面章节中将详细阐述)。这是在谱减法中经常出现的,也是较难解决的问题。因此,这也严重限制了谱减法的应用。 基本步骤和仿真结果 根据上文的分析,对提出的基本谱减法进行仿真,由于相位对语音信号的感知并不重要,因此可以利用带噪语音信号的相位代替增强后的语音信号的相位,然后利用逆傅立叶变换,即可得到增强的语应

32、信号。基本谱减法的基本步骤为:(1)计算带噪语音信号的信噪比。(2)确定语音信号的帧长,将信号进行分帧。(3)计算各帧的能量,确定一个阀值,能量大于该值的为语音段标注s(i)=1,能量小于该值的为寂静段令s(i)=0。(4)对各帧进行傅立叶变换。并计算功率谱,若s(i)=1,则减去噪声功率谱,若s(i)=0,则该帧为零。(5)根据带噪语音的相位,可得到增强后语音的相位。得到增强后语音的频谱图。(6)根据傅立叶逆变换,得到增强后语音。图3.2给出了计算机的仿真结果。横坐标为时间轴,纵坐标为幅度。选取语音信号的采样频率为22kHz,总共长为110033,帧长为256个样点,选取汉明窗(hammin

33、g)对信号加窗。根据文献将信号在频域中等分三个子带。每幅图中从上往下的波形依次是纯净的语音信号,带噪语音信号,和增强后的语音信号。噪声为加性高斯白噪声。图a的信噪比为-3dB图b的信噪比为3dB。从图中可以看出在不同的信噪比下基本谱减法都能很好的滤出语音信号,但是在不同的输入信噪比下,它们的信噪比改进程度不一样,通过反复的实验和客观评价可知,在低输入信噪比下,甚至语音信号完全淹没在噪声中,但它的改进程度好,但也存在较大的语音失真。从图中的波形就可看出。 图3.2a 基本谱减法仿真图(信噪比为-3dB) 图3.2b 基本谱减法的仿真图(信噪比为3dB)3. 3 “音乐噪声”的产生 谱相减技术大多

34、数都是在频域上进行,也有在时域的。由于在谱减法处理过程中,是以无声期间统计平均的噪声方差代替当前分析帧各频率点的噪声频率分量,而噪声频谱具有高斯分布,即其幅度随机变化范围很宽,因此相减时,若该帧某频率点噪声分量较大,就会有很大一部分保留,在频谱上呈现随机出现的尖峰,便产生了间歇短暂的突发声调,在听觉上形成有节奏性起伏的类似音乐的残留噪声。这种具有音乐特性的残余噪声是各帧内在随机频率上出现的许多声调的群体结果。它要比原始语音中的噪声清楚的多,也更易令人反感。 具体说来,由谱相减所产生的噪声称为残余噪声,与语音信号不相关,是由具有随机频率和幅度的窄带信号所组成。其幅度在零和语音休止期所测试到的最大

35、噪声值之间,当被反变换到时域时,这种残余噪声听起来像是以每 20ms间隔开关一次的突发音调发声器组合而成,具有随机的基频和幅度,即使在有声段也不能被语音所掩蔽。这种噪声具有“音乐”的听觉效果,因此称为“音乐噪声”。 音乐噪声的消除是应用谱减技术的一个重要难题。由于估计的噪声信号与实际的背景噪声信号存在一定的误差,所以谱相减之后,会残留一定的背景噪声而且会产生音乐噪声,尤其当噪声为非平稳噪声时将会产生严重的音乐噪声,使语音信号的可懂度降低。人们提出了很多种方法来减轻或者消除音乐噪声对人耳的影响,且取得了很大的进展。但是在非平稳噪声环境、弱语音信号或者低输入信噪比时,音乐噪声的抑制还是一个很大的难

36、题。许多学者和专家通过改变“音乐噪声”的特性,努力为谱相减技术提供更好的理论基础并改善其性能,以使之易于被接受。3.4 改进的谱减法 传统的谱相减法是基于人耳对声音相位不敏感特性,从含噪语音中减去估计噪声而达到语音增强的目的。它比较直观、简单,但在提高质量的同时损伤了语音的可懂度,且产生讨厌的“音乐噪声”。 在语音增强的过程中,消除噪声、提高语音信噪比和语音的可懂度是一对矛盾,要滤除噪声或多或少肯定会损害语音信号,一般地说噪声滤除得越多则语音信号被损害程度就越厉害,语音的可懂度就越低,特别是在低信噪比的情况下,这一矛盾更加突出。怎样在去除噪声和减少语音失真之间取折衷,也成为谱减法研究的重点问题

37、。改进型谱减法的种类基于听觉掩蔽效应的改进型谱减法:增强语音在很多情况下是直接为听觉服务的,所以应该结合人耳听觉特性来提高增强语音的听觉效果,其中将听觉掩蔽效应与基本谱减法相结合可获得较好的增强效果。掩蔽效应是指一个声音的存在会对另一个声音的感知产生掩蔽效应,主要发生在同时进入人听觉系统的不同频率的两个声音之间,即同时掩蔽。主要算法步骤:1)加窗分帧,进行N点FFT变换得到带噪语音频谱;2)端点检测,在无音段进行噪声估计;3)利用基本谱减法得到语音频谱的粗估计,由此计算听觉掩蔽阀T(w);4)根据T(w)来调节谱减系数,;5)利用调整后的,进行系数谱减;6)IFFT,用叠接相加法得到。基于帧间

38、重叠的改进型谱减法:去噪增强语音的过程是采用基本谱减法得到重叠各帧的语音频谱,利用相邻;几个重叠帧的语音频谱,通过差值运算合成出语音信号。具体求得y(n)的计算分以下几步:1)对每帧信号进行语音有无判定,在无语音期间估计出噪声谱;2)求得加窗段信号w(n-m)x(m)的L点FFT得;3)使窗w(n-m)以步长R沿着带噪语音x(m)序列滑动,在n等于求得;4)假定s(m)与噪声d(m)独立,对于帧内的短时平稳过程,由式(3.5)得到5)由插值法得到y(n)。将上述算法在某一超短波通信系统的干扰抑制应用中,已取得了明显的消噪效果"该系统受到无法摆脱的周期性干扰,干扰谱为某一相对稳定的基波

39、及其各次谐波之和,严重影响语音信号的接收,造成电台使用者产生明显的听觉疲劳"。,该方法消除了周期性干扰在电台话音输出端引起的啸叫噪声,除清晰度略下降外,语音的可懂度和自然度未受损失"该方法对白噪声干扰消噪效果更好"若采用传统的梳状滤波器进行消噪处理,势必消除阻带内的语音谱,使话音质量受到损失。基于先验信噪比的改进型谱减法:该方法为本文重点阐述的内容,所以将在后面的章节中,详细讨论 幅度谱平滑 谱减法在 70 年代末由 Boll 提出。通过对相邻帧幅度谱进行适当的平均可以有效地抑制残留噪声,减小估计器的误差。当语音波形变化缓慢时,这种谱平均的方法效果较好,幅度平均法

40、中用来平均的相邻帧的数目越多,残留噪声越少,但是由于语音信号的短时平稳特性,过多的平均反而会增加估计器误差,对语音造成损害,使输出语音模糊不清。平均帧数的选取要综合考虑。在对幅度谱做均值滤波时,也可用加权均值法,根据距中心帧的距离,给各帧以不同的权值,距离越近,权值越大。这样既考虑到信号前后帧之间的连贯性,又考虑到语音信号的非平稳性。 为了进一步降低噪声,人们还提出对谱减后的每一个频谱值,从其前后几帧的对应频谱值中找到最小的,用这个值代替当前谱减结果。这是因为语音信号的出现总是需要一个过程的,利用前后帧的信息,可有效地去除突变点,取其中最小值,这也是一种平滑的方法。 噪声谱的估计可以在无语音帧

41、时进行更新,如用平均法,噪声谱的估计可以写成 (3.14)这里K 是无语音帧的总数。也可以用滤波法 (3.15)其中是滤波系数,典型取值在0.8-0.95之间。3.4.3 被减项加权值处理式(3.5)中的是一无声期间的统计平均的噪声方差代替当前分析帧的噪声频谱,这样,实际处理效果不是很理想,原因是:语音的能量往往集中在某些频段内,在这些频段内的幅度相对较高,尤其是共振峰出的幅度一般大于噪音,因此,不应同一标准处理;另一方面,噪声的帧功率谱随机变化范围很宽,在频域中的最大,最小值之比往往达到几个数量级,而最大值与均值之比也达倍。因此,在减去噪声谱后,会有较大的功率谱分量的剩余部分,在频谱上呈现出

42、随机出现的间峰,在听觉上形成残留噪声。这种噪声具有一定的节奏性起伏感,所以称之为“音乐噪声”。因此,改进的方法是在幅度较高的时帧出减去,这样可以更好地突出语音谱,抑制纯音噪声,改善降噪性能;其次,在语音谱中保留少量的宽带噪声,在听觉上可以起到一定的掩蔽纯音噪声的作用。考虑这两个方面,改进后的谱减法公式如下: (3.16)(其中)实验表明在辅音帧中取,在元音帧中取4-5,取可以取得较好的降噪及抑制纯音噪声的效果。同时对于应用改进后的方法,需要粗略地辨别语音帧是辅音帧还是元音帧,以确定的取值。 功率谱修正处理将图3.1中的功率谱计算 及改为和计算(这里不一定为整数),可以得到新的更具一般性的谱减法

43、形式。这种方法称之为功率谱修正处理。它可以增加灵活性,修正后的功率谱为: (3.17)引入三个参数为算法提供了很大的灵活性。实际的增强实验表明,适当调节可以获得比原始的谱减法更好的增强效果。当=1,=1时,可得到幅度谱减法形式,1为过减形式。当=2 , =1时,可得到功率谱减法形式,>1为过减形式。公式中的选取原则是:大则残留噪声衰减的程度大,但语音失真的程度也大;小则语音信息保护的好,但噪声减少的程度也小。实际上的选取是对降低噪声和保持语音不失真的一种折衷,对信噪比低的带噪语音,噪声的方差大,的选取可适当大些,对信噪比高的带噪语音, 的选取则可小些。第四章 基于先验信噪比估计的改进型谱

44、减法4.1 基本原理上面我们已经阐述了几种改进型谱减法的类型。接下来我们重点论述一下基于先验信噪比的改进型谱减法。它的基本原理:Ephraim和Malah提出的最小均方误差估计增强方法可以有效地抑制“音乐噪声”,cape在文献中证明:由于其在计算增益函数是引入了先验信噪比,并采用了“Decision-Directed”(直接判决)法,简称为“D-D”法,进行先验信噪比的估计,所以取得了较好的增强效果。我们同样可因将这种方法引入到谱减法中,得到基于先验信噪比估计的改进型谱减法。先验信噪比定义为: (4.1)首先,将增益函数表示成先验信噪比的形式,即利用。其中,i为帧数。则式(3.9)可以写为:

45、(4.2)其中,用“D-D”法进行估计,即: (4.3)其中,i为当前帧,i-1为前一帧;为前一帧语音的估计结果;为调节系数,一般在0.8-1之间;max为两者之中取较大的值。从式(4.3)可以看出,先验信噪比是通过非线性的递推估计得到的。4.2 寂静帧和语音帧的判定在谱减法中,要利用带噪语音减去噪声,在此我们就要知道如何判定何时为寂静帧,也就知道了噪声频谱。接下来我们讨论它的算法:由于在大多数情况下只能获得带噪语音,所以在进行语音增强时,公式(3.5)中右边的第2项是不能直接算出来的.假设带噪语音中的噪声是平稳的,则可采用试听的方法,在带噪声语音中找出一段不含语音的纯噪音段,利用这一段纯噪音

46、算出,并以此作为整个含噪语音短时能量谱的估计.这样作的缺点是:在多数情况下噪声强度是随时间变化的,因此,用一小段噪音来估计整段语音,一定会产生很大的误差,使增强效果变差.另外,在实际操作上也比较麻烦.我们对噪声的估计采取的是利用含噪语音中无语音段的频谱幅值统计平均值来实时估计被减噪声的频谱幅值的方法.若能以某特征值将语音段及噪音段分开对所有判别为噪音段的时帧进行运算,则使得对噪音功率谱的估计.更为准确,低信噪比条件下的自适应有声/无声判决算法就属于此类.其基本原理如下.一般认为宽带噪声为一零均值高斯过程,则它的概率密度为 (4.4)一帧不含语音的纯噪音信号,能量可表示为 (4.5)它的概率密度

47、则可表示为 (4.6)对于一帧含噪语音,由于语音信号s(i)与噪音d(i)不相关,则它的信号能量为 (4.7)其条件概率分布为 (4.8) 由图4.1可见,是将向右平移了一段S,而S是一帧含噪语音中纯语音信号的能量,通过对一定长度的带噪语音进行统计,得到其短时能量概率密度的最大值,并由此计算出.如图4.1所示,我们在x轴上选一门限,当一帧信号的短时能量小于门限时,我们判其为纯噪声.当一帧信号的短时能量大于门限时,我们判其含有语音.由于图中两条曲 图4.1 ,及误判概率线有重叠部分,所以不论是哪种判断都可能有误判,在实验中我们将帧长定为256,以纯噪声误判为含噪语音的概率为10%来确定,那么把含

48、噪语音判别为纯噪声的概率则和一帧信号中纯语音信号的短时能量S的大小有关,能量大则误判率低,能量小则误判率高.例如在信噪比SNR为0dB时误判率几乎为0,而在信噪比SN为-8dB时误判率约为30%.我们用判断为纯噪声的那些帧来计算噪声的短时能量谱,虽然在判断噪声时,可能会有错判,但错判的帧中,一般语音的能量能非常小,对估计噪声不会产生太大的影响.由于它对噪声特性的估计更为准确,所以效果也较好.我们利用上述方法对在车间和马路的十字路口所录的信噪比很低的实际含噪语音进行了增强,取得了很好的结果,信噪比大大的提高,并且语音的可懂度也明显提高。4.3 算法的实现本课题在谱减法的研究基础上,将得到的带噪语

49、音进行先验信噪比估计,从而得到增强后语音。程序流程图如图4.2。它主要包括以下几步:1,带噪语音输入,计算输入信噪比。2,将带噪语音进行分帧,计算各帧能量。3,取一门限值,对各帧进行有声/无声判断。4,对各帧进行傅立叶变换,若为寂静帧则将该帧判为零,否则利用式(4.3)估计出该帧的信噪比。5,用先验信噪比计算出滤波函数,最终计算增强后语音的频谱函数。6,对各帧的谱函数进行逆傅立叶变换,得到增强后语音。 对以上的步骤,其中寂静帧的判定和先验信噪比的估计在前面已有了详细的介绍和分析。带噪语音输入分帧有声/无声判决无声重置噪声谱有声频谱计算信噪比估计先验信噪比利用G(w)算增强后语音计算信噪比傅立叶

50、逆变换的时域图增强后语音输出 图4.2 语音增强流程图4.4 参数的估计式 中i指帧系数,是调节系数但当噪声不变时,就必须考虑进去。在这里,=0.9就是计算大约20帧的平均值。4.5 实验结果和分析 为了研究该算法的有效性,我们以一段英文为纯净的语音信号,以平稳的高斯白噪声为滤波对象。采样频率为22050Hz,帧长为256,语音总共长为110033。选取汉明窗(hamming)对信号加窗。根据文献将信号在频域中等分三个子带。图4.3为计算机的仿真图。横坐标为时间轴,纵坐标为幅度轴。每幅图中从上往下的波形依次是纯净的语音信号,带噪语音信号,和增强后的语音信号。4.3a信噪比为-3dB,图4.3b

51、信噪比为3dB。从图中可以看出,无论信噪比是低还是高,带噪语音信号经增强处理后都能有较好地恢复。但低信噪比下改进的好。 图4.3a 改进型谱减法的仿真图(信噪比为-3dB) 图4.3b 改进型谱减法的仿真图(信噪比为3dB)第五章 性能评价我们对本文所提出的算法进行性能评价,并将它和基本谱减法进行比较。5.1 信噪比改进 噪声减少通常是以信噪比改进来衡量的,本文提出的是输入,输出的分段信噪比来加以比较,即: (5.1)其中L表示信号的帧长度,N表示每帧的采样点。利用该方法我们对含有高斯白噪声的语音信号进行处理,语音为一段英文,采样率为22050Hz。对处理结果我们用信噪比进行评价。结果我们用表

52、5.1来表示。 -3dB 0dB 3dB基本谱减法 1.86dB 4.78dB 7.60dB改进型谱减法 4.01dB 5.96dB 7.80dB 表5.1 信噪比改进程度 我们对信噪比的改进用图5.1来表示,从图中可以看出:两种谱减法提供的信噪比改进都相似,但改进型算法提高了对低输入信噪比的改进。5.2 主观评价为了确证客观性能评估,我们采用了主观听觉测试。听觉测试是在4个听众中进行的,内容是对语音的残留噪声,仍存在的背景噪声,语音失真和音乐噪声的全面评价。对于每个话音都有下列步骤:1) 纯净语音和带噪语音均被重复播放两次;2) 每个测试信号都被重复两次,且以随机顺序播放三次。测试的结果:利用本方法增强的语音的剩余噪声和“音乐噪声”均大大降低。 结论单通道谱减系统在减少背景噪声上很有效,然而它带来了可感知的令人烦躁的“音乐噪声”。在本文中,提出了基于先验信噪比的改进型谱减法,提出的算法提高了对低输入信噪比的改进。主观听觉测试也说明本方法残留噪声对语音的干扰比基本谱减法小的多。该算法的主要优点如下:1) 设计思路简单,运算量小与基本谱减法相当。2) 性能好,剩余噪声和“音乐噪声”均大大降低。 本文用该算法对不同信噪比的带噪语音进行测试并和基本谱减法作对比。通过实验结果和信噪比得到的客观评估,结合主观听觉结果显示:与基本方法相比,音乐噪声和残留噪声的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论