第9章抗噪声语音处理技术课件_第1页
第9章抗噪声语音处理技术课件_第2页
第9章抗噪声语音处理技术课件_第3页
第9章抗噪声语音处理技术课件_第4页
第9章抗噪声语音处理技术课件_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

9.1概述语音信号作为信息的最普遍最直接的表达方式,在许多领域具有广泛的应用前景。现实生活中的语音不可避免的要受到环境的影响。噪声分类:

按类别:可分为环境噪声等的加性噪声和残响及电器线路干扰等的乘法性噪声

按性质:平稳噪声和非平稳噪声LomBard现象:在噪声环境下,说话者情绪会发生变化,从而引起声带的变化(对语音处理系统的影响相对较小)9.1概述语音信号作为信息的最普遍最直接的表达方式,在1国内外语音信号处理研究成果

目前国内外的研究成果从增强思想上主要分为以下三类:1)采用语音增强算法,提高语音识别系统前端预处理的抗噪声能力,提高输入信号的信噪比。(与后端应用无关)2)第二类方法是寻找稳健的耐噪声的语音特征参数。如采用短时修正的相干系数(Short-TimeModifiedCoherenceCoefficient,简称为SMC)作为语音特征参数。国内外语音信号处理研究成果目前国内外的研究成果从增强思23)第三类方法是基于模型参数适应化的噪声补偿算法,如针对加法性噪声的HMM合成法,和针对乘法性噪声的StochasticMatching法等。通常只考虑到噪声环境是平稳的,在低信噪比语音以及非平稳噪声环境中的效果并不理想。3)第三类方法是基于模型参数适应化的噪声补偿算法,如针对加法39.1概述9.2语音特性、人耳感知特性及噪声特性9.3语音增强技术9.4特征补偿技术9.5模型补偿技术第九章抗噪声语音处理技术9.1概述第九章抗噪声语音处理技术49.2语音特性、人耳感知特性及噪声特性语音特性语音信号是一种非平稳的随机信号任何语言的语音都有元音和辅音两种音素,根据发音机理的不同,辅音又可以分为清辅音和浊辅音。语音信号,作为非平稳、非遍历随机过程的样本函数,其短时谱的统计特性在语音增强中又着举足轻重的作用。(据中心极限定理,语音的短时谱的统计特性服从高斯分布。)9.2语音特性、人耳感知特性及噪声特性语音特性5人耳感知特性:对于声波频率高低的感觉与实际频率的高低不呈线性关系,而近似为对数关系;对频率的分辨能力受声强的影响;对语音信号的幅度谱较为敏感,对相位不敏感。人耳掩蔽效应:产生一个声音由于另外一个声音的出现而导致该声音能被感知的阀值提高的现象。

语音增强的最终效果度量是人耳的主观感觉,所以在语音增强中可以利用人耳感知特性来减少运算代价。人耳感知特性:6

噪声特性对噪声进行划分的标准很多各种分类方法分析角度不同,介绍一下下面两种分类方法:1).根据噪声统计特性随时间变化的程度可以将噪声分为平稳噪声,缓变噪声和冲激噪声。噪声特性72)根据噪声对语音频谱的干扰方式可以把噪声主要分为加性噪声和乘性噪声。乘性噪声:乘性噪声是指噪声和语音在频谱是相乘的关系在时域和语音则是卷积的关系。例残响及传输网络的电路噪声(非加性噪声往往可以通过某种变换,如同态滤波,转为加性噪声)加性噪声:当噪声对语音的干扰表现为两者信号在时域进行相加时该噪声被称为加性噪声显然噪声和语音在频域也为相加关系。例:冲激噪声、周期噪声、宽带噪声、语音干扰

2)根据噪声对语音频谱的干扰方式可以把噪声主要分为加性噪声和8(1)冲激噪声:例如放电,打火,爆炸都会引起冲激噪声,它的时域波形是类似于冲激函数的窄脉冲。消除冲激噪声影响的方法通常有两种:对带噪语音信号的幅度求均值,将该均值做为判断阈,凡是超过该阈值的均判为冲激噪声,在时域中将其滤除;当冲激脉冲不太密集时,也可以通过某些点内插的方法避开或者平滑掉冲激点,从而能在重建语音信号去掉冲激噪声。(1)冲激噪声:例如放电,打火,爆炸都会引起冲激噪声,它的时9(2)周期噪声:最常见的有电动机,风扇之类周期运转的机械所发出的周期噪声,50Hz交流电源哼哼声也是周期噪声。通常可以采用陷波器方法予以滤除。(2)周期噪声:最常见的有电动机,风扇之类周期运转的机械所发103)宽带噪声:说话时同时伴随着呼吸引起的噪声,随机噪声源产生的噪声,以及量化噪声等都可以视为宽带噪声,应用中常近似为Gauss噪声或白噪声。其显著特点是噪声频谱遍布于语音信号频谱之中,导致消除噪声较为困难。一般需要采取非线性处理方法。3)宽带噪声:说话时同时伴随着呼吸引起的噪声,随机噪声源产生11(4)语音干扰:干扰语音信号和待传语音信号同时在一个信道中传输所造成语音干扰称为语音干扰。区别有用语音和干扰语音的基本方法是利用它们的基音差别。考虑到一般情况下两种语音的基音不同,也不成整数倍,这样可以用梳状滤波器提取基音和各次谐波,再恢复出有用语音信号。(4)语音干扰:干扰语音信号和待传语音信号同时在一个信道中传12(5)传输噪声:这是传输系统的电路噪声。与背景噪声不同,它在时间域里是语音和噪声的卷积。处理这种噪声可以采用同态处理的方法,把非加性噪声变换为加性噪声来处理(5)传输噪声:这是传输系统的电路噪声。与背景噪声不同,它在13语音信号和噪声信号的区别语音信号和噪声信号的区别14第9章抗噪声语音处理技术课件15第9章抗噪声语音处理技术课件16通过语音降噪技术来改善语音质量的过程如图14-1所示通过语音降噪技术来改善语音质量的过程如图14-1所示179.1概述9.2语音特性、人耳感知特性及噪声特性9.3语音增强技术9.4特征补偿技术9.5模型补偿技术第九章抗噪声语音处理技术9.1概述第九章抗噪声语音处理技术18通过语音增强技术来改善语音质量的过程:语音增强语音增强的主要目的是从带噪的语音信号中尽可能地恢复出纯净的语音信号通过语音增强技术来改善语音质量的过程:语音增强语音增强的主要19语音增强的主要目的是从带噪的语音信号中尽可能地恢复出纯净的语音信号。主要介绍下面两种增强方法:

减谱法Weiner滤波法语音增强的主要目的是从带噪的语音信号中尽可能地恢复出纯净的语20减谱法(SS)语音增强技术

基本原理

减谱法是处理宽带噪声较为传统和有效的方法,其基本思想是在假定加性噪声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为纯净的语音功率谱。

如果设为纯净语音信号,为噪声信号,为带噪语音信号,则有:减谱法(SS)语音增强技术基本原理21用分别表示的傅里叶变换,可得下式:由于假定语音信号与加性噪声是相互独立的,因此有:因此,如果用分别表示的功率谱,则有:而由于平稳噪声的功率谱在发声前和发声期间可以认为基本没有变化,这样可以通过发声前的所谓的“寂静段”(认为在这一段里没有语音只有噪声)来估计噪声的功率谱,从而有:用22

这样减出来的功率谱可以认为是较为纯净的语音功率谱,然后,从这个功率谱可以恢复降噪后的语音时域信号。

在具体计算时,为防止出现负功率谱的情况,减谱时当

时,令,即完整的减谱公式如下:

减谱法语音增强技术的基本原理图如图14-10所示。图中处理频域过程只考虑了功率谱的变换,而最后IFFT变换中需要借助相位谱来恢复降噪后的语音时域信号。依据人耳对相位不敏感之一特点,这时可用原带噪语音的相位谱来代替估计之后的语音信号的相位谱来恢复降噪后的语音时域信号。这样减出来的功率谱可以认为是较为纯净的语音功率谱,然23第9章抗噪声语音处理技术课件24利用Weiner滤波法语音增强技术

本节主要讨论在最小均方准则下用Weiner滤波器实现对语音信号的估计,即对于带噪语音信号(其中为纯净语音信号,为噪声信号),确定滤波器的冲击响应,使得带噪语音信号经过该滤波器的输出能够满足

最小(为滤波器输出)。1)基本原理

假定和都是短时平稳随机过程,则由Winer-Hopf利用Weiner滤波法语音增强技术本节主要讨论在最小25积分方程为:

两边取傅里叶变换有:从而得到:

再由于:

并且考虑到由于和相互独立,所以有:积分方程为:26

将式(14-32)和式(14-33)代入式(14-31),则有下式成立:

以上推到过程是在短时平稳的前提下进行的,所以语音信号必须是加窗后的短时帧信号。可以由类似于减谱法中讨论的方法得到;可以用带噪语音功率谱减去噪声功率谱得到。

27

还有其他的一些Weiner滤波器的形式,如有理分式结构的Weiner滤波器、隐含Weiner滤波器等等。采用Weiner滤波器的最大好处是增强后的残留噪声类似于高斯白噪声,而不是有节奏起伏的音乐噪声。还有其他的一些Weiner滤波器的形式,如有理分式结289.1概述9.2语音特性、人耳感知特性及噪声特性9.3语音增强技术9.4特征补偿技术9.5模型补偿技术第九章抗噪声语音处理技术9.1概述第九章抗噪声语音处理技术29特征补偿技术主要通过信号的统计特性将带噪语音特征参数中的噪声部分去除,消除噪声影响,得到干净的语音特征参数以进行语音系统处理。该方法包括CDCN、SDCN、SPLICE和VTS等方法。特征补偿技术主要通过信号的统计特性将带噪语音特征参数中的噪声30CDCN(Code-DependentCepstralNormalization)

CDCN是早期的特征增强的方法之一,可以联合补偿加性噪声和信道畸变。其基本思想是对加性噪声和信道进行估计,从而使输入帧的声学空间与当前环境的声学空间达到最好的匹配。CDCN(Code-DependentCepstralN31CDCN方法假设语音特征分布满足高斯混合模型(GaussianMixtureModel,GMM)分布,其实现过程可以分为以下两步:1)用EM算法对式(2.3)中的n和h进行估计,并求出代表式中g(n−x−h)的修正矢量r,迭代公式如下:CDCN方法假设语音特征分布满足高斯混合模型(Gaussi32特征补偿技术在很多情况下,背景噪声和失真的变化相对于语音信号的变化来说要缓慢得多,并且语音信号的动态部分在语音的感知中具有很大作用。在语音特征的提取过程中,如果去除其慢变部分,则既可以去除稳定和变化缓慢的噪声,同时也保留了语音中对感知重要的动态部分,因此可以提高识别系统在噪声环境中的识别率。这种方法在抗噪声语音特征的提取中得到广泛的应用,通常可以应用在功率谱域、LOG能量谱域、倒谱域或自相关等域中。特征补偿技术在很多情况下,背景噪声和失真的变化相对于语音信号339.1概述9.2语音特性、人耳感知特性及噪声特性9.3语音增强技术9.4特征补偿技术9.5模型补偿技术第九章抗噪声语音处理技术9.1概述第九章抗噪声语音处理技术34语音增强特征补偿技术模型补偿技术语音增强35模型补偿技术与抗噪声语音特征和语音增强技术相比,模型补偿技术不是通过减小噪声对语音信号或语音特征的影响来提高识别系统在噪声环境中的识别率,而是通过修改语音模型的参数,使其能更准确地描述噪声环境中语音信号的统计特性来提高处理系统的性能。模型补偿技术与抗噪声语音特征和语音增强技术相比,36模型补偿技术优点:由于这种方法充分地考虑了环境噪声的特性,因此通常能取得很好的效果。缺点:是补偿后的语音模型只能适应于特定的工作环境,并且所需计算量一般比较大。模型补偿技术优点:由于这种方法充分地考虑了环境噪声的特性,因37方法:PMC模型补偿方法、环境模型自适应方法和VTS模型补偿方法等。方法:38PMC是模型分解的方法。它的基本思想是:如果干净语音模型为N状态的HMM,噪声模型为M状态的HMM,那么带噪语音模型可以认为是N×M状态的HMM。它假设干净语音和噪声都符合混合高斯分布,然后通过变换组合得到带噪语音的模型分布。PMC是模型分解的方法。39MAP是模型自适应的方法,基本思想:调整模型参数,使得训练环境和实际环境之间能够最大程度的匹配。它可以很好的利用模型的先验知识,因此能够解决数据稀少的问题MAP是模型自适应的方法,40谢谢!谢谢!41第9章抗噪声语音处理技术课件429.1概述语音信号作为信息的最普遍最直接的表达方式,在许多领域具有广泛的应用前景。现实生活中的语音不可避免的要受到环境的影响。噪声分类:

按类别:可分为环境噪声等的加性噪声和残响及电器线路干扰等的乘法性噪声

按性质:平稳噪声和非平稳噪声LomBard现象:在噪声环境下,说话者情绪会发生变化,从而引起声带的变化(对语音处理系统的影响相对较小)9.1概述语音信号作为信息的最普遍最直接的表达方式,在43国内外语音信号处理研究成果

目前国内外的研究成果从增强思想上主要分为以下三类:1)采用语音增强算法,提高语音识别系统前端预处理的抗噪声能力,提高输入信号的信噪比。(与后端应用无关)2)第二类方法是寻找稳健的耐噪声的语音特征参数。如采用短时修正的相干系数(Short-TimeModifiedCoherenceCoefficient,简称为SMC)作为语音特征参数。国内外语音信号处理研究成果目前国内外的研究成果从增强思443)第三类方法是基于模型参数适应化的噪声补偿算法,如针对加法性噪声的HMM合成法,和针对乘法性噪声的StochasticMatching法等。通常只考虑到噪声环境是平稳的,在低信噪比语音以及非平稳噪声环境中的效果并不理想。3)第三类方法是基于模型参数适应化的噪声补偿算法,如针对加法459.1概述9.2语音特性、人耳感知特性及噪声特性9.3语音增强技术9.4特征补偿技术9.5模型补偿技术第九章抗噪声语音处理技术9.1概述第九章抗噪声语音处理技术469.2语音特性、人耳感知特性及噪声特性语音特性语音信号是一种非平稳的随机信号任何语言的语音都有元音和辅音两种音素,根据发音机理的不同,辅音又可以分为清辅音和浊辅音。语音信号,作为非平稳、非遍历随机过程的样本函数,其短时谱的统计特性在语音增强中又着举足轻重的作用。(据中心极限定理,语音的短时谱的统计特性服从高斯分布。)9.2语音特性、人耳感知特性及噪声特性语音特性47人耳感知特性:对于声波频率高低的感觉与实际频率的高低不呈线性关系,而近似为对数关系;对频率的分辨能力受声强的影响;对语音信号的幅度谱较为敏感,对相位不敏感。人耳掩蔽效应:产生一个声音由于另外一个声音的出现而导致该声音能被感知的阀值提高的现象。

语音增强的最终效果度量是人耳的主观感觉,所以在语音增强中可以利用人耳感知特性来减少运算代价。人耳感知特性:48

噪声特性对噪声进行划分的标准很多各种分类方法分析角度不同,介绍一下下面两种分类方法:1).根据噪声统计特性随时间变化的程度可以将噪声分为平稳噪声,缓变噪声和冲激噪声。噪声特性492)根据噪声对语音频谱的干扰方式可以把噪声主要分为加性噪声和乘性噪声。乘性噪声:乘性噪声是指噪声和语音在频谱是相乘的关系在时域和语音则是卷积的关系。例残响及传输网络的电路噪声(非加性噪声往往可以通过某种变换,如同态滤波,转为加性噪声)加性噪声:当噪声对语音的干扰表现为两者信号在时域进行相加时该噪声被称为加性噪声显然噪声和语音在频域也为相加关系。例:冲激噪声、周期噪声、宽带噪声、语音干扰

2)根据噪声对语音频谱的干扰方式可以把噪声主要分为加性噪声和50(1)冲激噪声:例如放电,打火,爆炸都会引起冲激噪声,它的时域波形是类似于冲激函数的窄脉冲。消除冲激噪声影响的方法通常有两种:对带噪语音信号的幅度求均值,将该均值做为判断阈,凡是超过该阈值的均判为冲激噪声,在时域中将其滤除;当冲激脉冲不太密集时,也可以通过某些点内插的方法避开或者平滑掉冲激点,从而能在重建语音信号去掉冲激噪声。(1)冲激噪声:例如放电,打火,爆炸都会引起冲激噪声,它的时51(2)周期噪声:最常见的有电动机,风扇之类周期运转的机械所发出的周期噪声,50Hz交流电源哼哼声也是周期噪声。通常可以采用陷波器方法予以滤除。(2)周期噪声:最常见的有电动机,风扇之类周期运转的机械所发523)宽带噪声:说话时同时伴随着呼吸引起的噪声,随机噪声源产生的噪声,以及量化噪声等都可以视为宽带噪声,应用中常近似为Gauss噪声或白噪声。其显著特点是噪声频谱遍布于语音信号频谱之中,导致消除噪声较为困难。一般需要采取非线性处理方法。3)宽带噪声:说话时同时伴随着呼吸引起的噪声,随机噪声源产生53(4)语音干扰:干扰语音信号和待传语音信号同时在一个信道中传输所造成语音干扰称为语音干扰。区别有用语音和干扰语音的基本方法是利用它们的基音差别。考虑到一般情况下两种语音的基音不同,也不成整数倍,这样可以用梳状滤波器提取基音和各次谐波,再恢复出有用语音信号。(4)语音干扰:干扰语音信号和待传语音信号同时在一个信道中传54(5)传输噪声:这是传输系统的电路噪声。与背景噪声不同,它在时间域里是语音和噪声的卷积。处理这种噪声可以采用同态处理的方法,把非加性噪声变换为加性噪声来处理(5)传输噪声:这是传输系统的电路噪声。与背景噪声不同,它在55语音信号和噪声信号的区别语音信号和噪声信号的区别56第9章抗噪声语音处理技术课件57第9章抗噪声语音处理技术课件58通过语音降噪技术来改善语音质量的过程如图14-1所示通过语音降噪技术来改善语音质量的过程如图14-1所示599.1概述9.2语音特性、人耳感知特性及噪声特性9.3语音增强技术9.4特征补偿技术9.5模型补偿技术第九章抗噪声语音处理技术9.1概述第九章抗噪声语音处理技术60通过语音增强技术来改善语音质量的过程:语音增强语音增强的主要目的是从带噪的语音信号中尽可能地恢复出纯净的语音信号通过语音增强技术来改善语音质量的过程:语音增强语音增强的主要61语音增强的主要目的是从带噪的语音信号中尽可能地恢复出纯净的语音信号。主要介绍下面两种增强方法:

减谱法Weiner滤波法语音增强的主要目的是从带噪的语音信号中尽可能地恢复出纯净的语62减谱法(SS)语音增强技术

基本原理

减谱法是处理宽带噪声较为传统和有效的方法,其基本思想是在假定加性噪声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为纯净的语音功率谱。

如果设为纯净语音信号,为噪声信号,为带噪语音信号,则有:减谱法(SS)语音增强技术基本原理63用分别表示的傅里叶变换,可得下式:由于假定语音信号与加性噪声是相互独立的,因此有:因此,如果用分别表示的功率谱,则有:而由于平稳噪声的功率谱在发声前和发声期间可以认为基本没有变化,这样可以通过发声前的所谓的“寂静段”(认为在这一段里没有语音只有噪声)来估计噪声的功率谱,从而有:用64

这样减出来的功率谱可以认为是较为纯净的语音功率谱,然后,从这个功率谱可以恢复降噪后的语音时域信号。

在具体计算时,为防止出现负功率谱的情况,减谱时当

时,令,即完整的减谱公式如下:

减谱法语音增强技术的基本原理图如图14-10所示。图中处理频域过程只考虑了功率谱的变换,而最后IFFT变换中需要借助相位谱来恢复降噪后的语音时域信号。依据人耳对相位不敏感之一特点,这时可用原带噪语音的相位谱来代替估计之后的语音信号的相位谱来恢复降噪后的语音时域信号。这样减出来的功率谱可以认为是较为纯净的语音功率谱,然65第9章抗噪声语音处理技术课件66利用Weiner滤波法语音增强技术

本节主要讨论在最小均方准则下用Weiner滤波器实现对语音信号的估计,即对于带噪语音信号(其中为纯净语音信号,为噪声信号),确定滤波器的冲击响应,使得带噪语音信号经过该滤波器的输出能够满足

最小(为滤波器输出)。1)基本原理

假定和都是短时平稳随机过程,则由Winer-Hopf利用Weiner滤波法语音增强技术本节主要讨论在最小67积分方程为:

两边取傅里叶变换有:从而得到:

再由于:

并且考虑到由于和相互独立,所以有:积分方程为:68

将式(14-32)和式(14-33)代入式(14-31),则有下式成立:

以上推到过程是在短时平稳的前提下进行的,所以语音信号必须是加窗后的短时帧信号。可以由类似于减谱法中讨论的方法得到;可以用带噪语音功率谱减去噪声功率谱得到。

69

还有其他的一些Weiner滤波器的形式,如有理分式结构的Weiner滤波器、隐含Weiner滤波器等等。采用Weiner滤波器的最大好处是增强后的残留噪声类似于高斯白噪声,而不是有节奏起伏的音乐噪声。还有其他的一些Weiner滤波器的形式,如有理分式结709.1概述9.2语音特性、人耳感知特性及噪声特性9.3语音增强技术9.4特征补偿技术9.5模型补偿技术第九章抗噪声语音处理技术9.1概述第九章抗噪声语音处理技术71特征补偿技术主要通过信号的统计特性将带噪语音特征参数中的噪声部分去除,消除噪声影响,得到干净的语音特征参数以进行语音系统处理。该方法包括CDCN、SDCN、SPLICE和VTS等方法。特征补偿技术主要通过信号的统计特性将带噪语音特征参数中的噪声72CDCN(Code-DependentCepstralNormalization)

CDCN是早期的特征增强的方法之一,可以联合补偿加性噪声和信道畸变。其基本思想是对加性噪声和信道进行估计,从而使输入帧的声学空间与当前环境的声学空间达到最好的匹配。CDCN(Code-DependentCepstralN73CDCN方法假设语音特征分布

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论