版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第09讲语音增强 语音特性、人耳感知特性及噪声特性语音特性、人耳感知特性及噪声特性 常用语音增强技术常用语音增强技术 滤波法语音增强技术滤波法语音增强技术 利用相关特性的语音增强技术利用相关特性的语音增强技术 非线性处理法语音增强技术非线性处理法语音增强技术 减谱法语音增强技术减谱法语音增强技术 Weiner滤波法的语音增强技术滤波法的语音增强技术 第09讲语音增强 14.1 概概 述述 1、语音信号在许多领域具有广泛的应用前景。、语音信号在许多领域具有广泛的应用前景。 2、现实生活中的语音不可避免的要受到环境的影响。、现实生活中的语音不可避免的要受到环境的影响。 3、噪声分类:、噪声分类:
2、按类别:按类别: 加性噪声:环境噪声等加性噪声:环境噪声等 乘法性噪声:残响及电器线路干扰等乘法性噪声:残响及电器线路干扰等 按性质:按性质: 平稳噪声平稳噪声 非平稳噪声非平稳噪声 第09讲语音增强 4、目前国内外的研究成果主要分为以下三类: 1)采用语音增强算法,提高语音识别系统前端预处理的抗 噪声能力,提高输入信号的信噪比。(与后端应用无关) 2)寻找稳健的耐噪声的语音特征参数。 如采用短时修正 的相干系数(Short-Time Modified Coherence Coefficient,简 称为SMC)作为语音特征参数。 3)基于模型参数适应化的噪声补偿算法,如针对加法性 噪声的HM
3、M合成法,和针对乘法性噪声的Stochastic Matching法等。通常只考虑到噪声环境是平稳的,在低信噪 比语音以及非平稳噪声环境中的效果并不理想。 第09讲语音增强 14.2 语音特性、人耳感知特性及噪声特性语音特性、人耳感知特性及噪声特性 14.2.1 语音特性语音特性 语音信号的短时平稳特性。语音信号的短时平稳特性。 语音包含元音和辅音两种音素:从时域波形上看,浊音语音包含元音和辅音两种音素:从时域波形上看,浊音 (包括元音)具有明显的准周期性和较强的振幅,清音(包括元音)具有明显的准周期性和较强的振幅,清音 类似白噪声并有较弱的振幅。类似白噪声并有较弱的振幅。 1. 语音信号短时
4、谱的统计特性在语音增强中有着举足轻重语音信号短时谱的统计特性在语音增强中有着举足轻重 的作用。(的作用。(据中心极限定理,语音的短时谱的统计特性 服从高斯分布。) 第09讲语音增强 14.2.2 人耳感知特性人耳感知特性 对于声波频率高低的感觉与实际频率的高低不呈线性关系,而对于声波频率高低的感觉与实际频率的高低不呈线性关系,而 近似为对数关系;对频率的分辨能力受声强的影响;对语音信近似为对数关系;对频率的分辨能力受声强的影响;对语音信 号的幅度谱较为敏感,对相位不敏感。号的幅度谱较为敏感,对相位不敏感。 人耳掩蔽效应:产生一个声音由于另外一个声音的出现而导致人耳掩蔽效应:产生一个声音由于另外
5、一个声音的出现而导致 该声音能被感知的阈值提高的现象。该声音能被感知的阈值提高的现象。 鸡尾酒会效应:对熟悉事物的迅速再认鸡尾酒会效应:对熟悉事物的迅速再认 语音增强的最终效果度量是人耳的主观感觉,所以在语音增强中语音增强的最终效果度量是人耳的主观感觉,所以在语音增强中 可以利用人耳感知特性来减少运算代价。可以利用人耳感知特性来减少运算代价。 第09讲语音增强 14.2.3 噪声特性噪声特性 加性噪声:冲激噪声、周期噪声、宽带噪声、语音加性噪声:冲激噪声、周期噪声、宽带噪声、语音 干扰噪声等干扰噪声等 1.非加性噪声:残响及传输网络的电路噪声非加性噪声:残响及传输网络的电路噪声(非加性(非加性
6、 噪声往往可以通过某种变换转为加性噪声)噪声往往可以通过某种变换转为加性噪声) 第09讲语音增强 (1)冲激噪声:)冲激噪声: 例如放电,打火,爆炸都会引起冲激噪声例如放电,打火,爆炸都会引起冲激噪声 时域波形是类似于冲激函数的窄脉冲时域波形是类似于冲激函数的窄脉冲 消除冲激噪声影响的方法通常有两种:消除冲激噪声影响的方法通常有两种: 对带噪语音信号的幅度求均值,将该均值做为判断阈,对带噪语音信号的幅度求均值,将该均值做为判断阈, 凡是超过该阈值的均判为冲激噪声,在时域中将其滤除;凡是超过该阈值的均判为冲激噪声,在时域中将其滤除; 当冲激脉冲不太密集时,也可以通过某些点内插的方法当冲激脉冲不太
7、密集时,也可以通过某些点内插的方法 避开或者平滑掉冲激点,从而能在重建语音信号去掉冲避开或者平滑掉冲激点,从而能在重建语音信号去掉冲 激噪声。激噪声。 第09讲语音增强 (2)周期噪声:)周期噪声: 最常见的有电动机,风扇之类周期运转的机械所发出的周期最常见的有电动机,风扇之类周期运转的机械所发出的周期 噪声,噪声,50Hz交流电源哼哼声也是周期噪声。交流电源哼哼声也是周期噪声。 在频谱图上它们表现为离散的窄谱,通常可以采用陷波器方在频谱图上它们表现为离散的窄谱,通常可以采用陷波器方 法予以滤除。法予以滤除。 (3)宽带噪声:)宽带噪声: 说话时同时伴随着呼吸引起的噪声,随机噪声源产生的噪声,
8、说话时同时伴随着呼吸引起的噪声,随机噪声源产生的噪声, 以及量化噪声等都可以视为宽带噪声,以及量化噪声等都可以视为宽带噪声, 应用中常近似为应用中常近似为Gauss噪声或白噪声。噪声或白噪声。 显著特点:噪声频谱遍布于语音信号频谱之中,导致消除噪显著特点:噪声频谱遍布于语音信号频谱之中,导致消除噪 声较为困难。一般需要采取非线性处理方法。声较为困难。一般需要采取非线性处理方法。 第09讲语音增强 (4)语音干扰:)语音干扰: 干扰语音信号和待传语音信号同时在一个信道中传输造成语音干扰语音信号和待传语音信号同时在一个信道中传输造成语音 干扰。干扰。 区别有用语音和干扰语音的基本方法是利用它们的基
9、音差别。区别有用语音和干扰语音的基本方法是利用它们的基音差别。 一般情况下两种语音的基音不同,也不成整数倍,这样可以用一般情况下两种语音的基音不同,也不成整数倍,这样可以用 梳状滤波器提取基音和各次谐波,再恢复出有用语音信号。梳状滤波器提取基音和各次谐波,再恢复出有用语音信号。 (5)传输噪声:)传输噪声: 这是传输系统的电路噪声。与背景噪声不同,它在时间域里是这是传输系统的电路噪声。与背景噪声不同,它在时间域里是 语音和噪声的卷积。语音和噪声的卷积。 处理这种噪声可以采用同态处理的方法,把非加性噪声变换为处理这种噪声可以采用同态处理的方法,把非加性噪声变换为 加性噪声来处理。加性噪声来处理。
10、 第09讲语音增强 通过语音增强技术来改善语音质量的过程如图14-1所示 滤波法滤波法 自相关抗噪法自相关抗噪法 非线性处理法非线性处理法 减谱法减谱法 Weiner滤波法滤波法 第09讲语音增强 14.3 滤波法语音增强技术滤波法语音增强技术 14.3.1 陷波器法陷波器法 针对周期噪声针对周期噪声 基本思路和要求:基本思路和要求: 设计的陷波器的幅频曲线的凹处对应于周期噪声的基设计的陷波器的幅频曲线的凹处对应于周期噪声的基 频和各次谐波,频和各次谐波, 通过合理设计使这些基频处的陷波宽度足够窄,如图通过合理设计使这些基频处的陷波宽度足够窄,如图 14.2所示。所示。 第09讲语音增强 第0
11、9讲语音增强 简单的数字陷波器的传递函数如下简单的数字陷波器的传递函数如下: 由由 可以看出可以看出 的频率将的频率将 被滤除掉。根据数字信号处理的基本知识可以知道,数字滤被滤除掉。根据数字信号处理的基本知识可以知道,数字滤 波器的极零点接近时,信号频谱变化较为缓慢,而在陷波频波器的极零点接近时,信号频谱变化较为缓慢,而在陷波频 率处急剧衰减,故引入反馈:率处急剧衰减,故引入反馈: 当当 越接近越接近1时,分母在零点附时,分母在零点附 近处由抵消作用,梳齿带宽变得近处由抵消作用,梳齿带宽变得 越窄,通带较为平坦,陷波效果越窄,通带较为平坦,陷波效果 越好。其模拟框图如图越好。其模拟框图如图14
12、-3所示所示 ( )1 T H zz jwTjw eeH 1)( )(/为正整数TTNf T T bz z zH 1 1 )( b 第09讲语音增强 14.3.2 自适应滤波器自适应滤波器 1.基本型基本型 自适应滤波器最重要的特性是能有效地在未知环境中跟踪时自适应滤波器最重要的特性是能有效地在未知环境中跟踪时 变的输入信号,使输出信号达到最优,因此可以用来构成自适应变的输入信号,使输出信号达到最优,因此可以用来构成自适应 的噪声消除器,其基本原理框图如图的噪声消除器,其基本原理框图如图14-4所示。所示。 图图14-414-4 语音信号语音信号 未知噪声信号未知噪声信号 参考噪声输入参考噪声
13、输入 r(t)与与s(t)无关无关,而与而与n(t)相关。相关。 第09讲语音增强 图14-4中将 看作是r(t) 估计y(t)而得到的误差,据最小均 方准则,当 为最小时的误差 也就是 降噪后的 。这里采用LMS递推算法简要说明横向滤波器 系数的求法。 )(t )( , ts | )()(| 2, trtyE )( , ts 图图14-414-4 语音信号语音信号 未知噪声信号未知噪声信号 参考噪声输入参考噪声输入 第09讲语音增强 设横向滤波器的加权向量记为 ,误差信号 ,则有: 为噪声 r(t) 的输入向量。设代价函数为: 令 对上式求导,可以得到最小均方意义下的最佳系数向量为: 下面不
14、加证明的给出Widrow-Hoff的LMS算法加权系数递推公 式: W)(k )()()()()()( , kRkWkykrkyk T )(kR )()(),()(kykRERkRkRER ry T rr | )()()(| 2 kRkWkyEJ T 1 optrrry WRR ) 1 (),()() 1()( 总输出功率 kRkkWkW 第09讲语音增强 2 对称自适应去相关的改进型对称自适应去相关的改进型 实际应用中,参考输入实际应用中,参考输入 r(t)除包含与噪声相关的参考噪声外,除包含与噪声相关的参考噪声外, 还可能含有低电平的信号分量。还可能含有低电平的信号分量。 图图14-5 第
15、09讲语音增强 为了解决信号分量的泄露导致系统性能恶化的问题,D.Van Compernolle 提出了对称自适应去相关(SAD)算法,其基本 原理如图14-6所示。 第09讲语音增强 3 用延迟的改进型用延迟的改进型 从图14-4和图14-6中可以看出自适应滤波器需要有与n(t)相关 的参考噪声r(t)输入,这在实际应用中往往比较困难,如果噪 声相关性较弱时(例如白噪声),有如图14-7所示的改进型。 图14-7 第09讲语音增强 14.4 利用相关特性的语音增强技术利用相关特性的语音增强技术 14.4.1 自相关处理抗噪法语音增强技术自相关处理抗噪法语音增强技术 利用语音信号本身相关,而语
16、音与噪声、噪声与噪声可认为互不利用语音信号本身相关,而语音与噪声、噪声与噪声可认为互不 相关的性质,对带噪语音信号作自相关处理,可以得到与不带相关的性质,对带噪语音信号作自相关处理,可以得到与不带 噪语音信号同样的自相关帧序列。噪语音信号同样的自相关帧序列。 下面说明:设带噪语音为:下面说明:设带噪语音为: )()()(tntsty 其中, 为纯净语音信号, 为近似白噪声的噪声信号。考 虑到他们的短时平稳的特性,计算 的自相关函数 )(ty )(ts)(tn 第09讲语音增强 由于语音信号与噪声、噪声与噪声可认为互相不相关。所以上 式第二项到第四项的积分结果可认为是近似为零或甚小。这 样就有:
17、 t y dttwtyty T R)()()( 1 )( t dttwtntstnts T )()()()()( 1 t dttwtntntstntntststs T )()()()()()()()()( 1 )()()()( 1 )()()( 1 )( s tt y Rdttwtsts T dttwtyty T R 短时平稳所加的时间窗函数短时平稳所加的时间窗函数 即 与噪声无关,只约等于纯净语音的自相关函数 。 所以,如果将自相关系数作为识别系统的特征,就可以达到 抗噪的目的。 )( s R )( y R 第09讲语音增强 由于自相关处理时会产生二次谐波,因此不宜直接用带噪语 音信号y(t
18、)的自相关系数作为识别特征,而应采用帧信号平方 的自相关系数作为识别特征。即如图14-8所示。 先将带噪语音信号进行平方,延迟一个周期后求解自相关系数;求解自相 关系数时通过相关峰分析可以确定波形周期Tp;在波形输出之前切除一个 周期的相关系数波形,再接续起来以不产生二次谐波。输出的波形就是降 噪处理后的特征信号波形。 第09讲语音增强 14.4.2 利用复数帧段主分量特征的降噪方法利用复数帧段主分量特征的降噪方法 复数帧段特征量就是采用相继的复数帧组成的特征参数矢量作为 语音识别输入特征量的方法。由于噪声成分帧间相关性小,所 以使用该特征量等于减弱了噪声影响。 为了在复数帧特征中进一步加强降
19、噪措施,可利用主分量分 析方法,求取复数帧段参数特征的主分量特征。方法如下: 设有N个D维样本 ,则根据这 些抽样样本,由(14-11)和(14-14)两式求取相关矩阵R。 ),.,2 , 1(,., 11 NiyyyY t iDiii 第09讲语音增强 DDD D D rr rrr rrr R 1 22221 11211 1 1 1 ()() ij ij iijj N ijniinjj n N nd n d s r s s syyyy N y y N 且 这里, 是相关系数, 是样本的方差或协方差, 是样本各维变 量的均值。然后求出满足式(14-13)的矩阵R的本征值 和本征向量 (14-1
20、3) 这里,D维的本征向量 又被称为主分量基向量。 ij r ij s d y i ),.,2 , 1(DiA i AAR ),.,2 , 1(DiA i 第09讲语音增强 14.5 非线性处理法语音增强技术非线性处理法语音增强技术 14.5.1 中心削波法中心削波法 对于噪声频谱遍布于语音信号频谱之中的宽带噪声,如果 噪声振幅比大部分的语音信号低,则削去低振幅成分也就 削去了宽带噪声。 在频域中采用中心限幅的方法,即让带噪语音信号通过一限 幅滤波器,高幅度频谱可以通过而低幅不允许通过,实现 抗噪。 第09讲语音增强 14.5.2 同态滤波法同态滤波法 非加性噪声则适用同态滤波法,原理框图如图
21、14-9所示。 同态滤波器可以用于识别系统的预处理。常使用倒谱这一特 征,所以求出带非加性噪声的语音信号的倒谱以后,可以利 用倒谱均值规整(CMN)降噪声技术,清除带非加性噪声的 语音信号的倒谱的噪声成分,从而获得语音增强的倒谱。 图14-9 第09讲语音增强 利用CMN方法抑制由输入和传输电路系统引起的乘法性噪声的 原理是:设对于第t帧语音,带噪语音的倒谱是 、纯净 语音的倒谱是 、噪声的倒谱是 、除噪后增强 语音的倒谱是 ,则有关系: )(tCsn )(tCs)(tCn )( tCs )()()(tCtCtC nssn 设 为整个带噪语音输入语句(共N帧)的倒谱平均值, 由于每一帧的噪声的
22、倒谱相同,则有: 利用CMN法处理得到的语音增强的倒谱为: 11 11 ( )( )( )( )( )( )( )( )( ) NN ssnsnsnsnss tt C tCtCtC tC tC tC tC tC t NN )()( 1 )( 1 tCtC N tC n N t ssn )(tC sn 第09讲语音增强 以上的方法是传统的CMN方法,由于它用整个带噪语音输入 语句(共N帧)来求倒谱平均值 ,所以又称为长时CMN 方法。 这种方法存在两个问题,一是由于输入语句中音素的出现频率 会改变 的大小,直接影响规整的效果。二是必须到终点为 止计算完成以后,才能算出 ,影响了实时性。为此,可
23、以仿照HMM参数的最大后验概率(MAP)学习算法,利用 (MAP)算法来提高计算 的精度,即: MAP算法是渐进自适应方式,样本是逐个输入的,k随着逐个输 入而增加。式中 是自适应训练系数,可由实验确定。 是表示先验部分的初始估计值,可由学习数据确定。 )(tC sn )(tC sn )(tC sn )(tC sn k tCC tCtC k t snsn snsn 1 0 )( )()( 0sn C 第09讲语音增强 14.6 减谱法语音增强技术减谱法语音增强技术 14.6.1 基本原理基本原理 针对宽带噪声 基本思想是在假定加性噪声与短时平稳的语音信号相互独 立的条件下,从带噪语音的功率谱中
24、减去噪声功率谱,从 而得到较为纯净的语音功率谱。 如果设 为纯净语音信号, 为噪声信号, 为带噪语 音信号,则有: )()()(tntsty )(ty )(ts )(tn 第09讲语音增强 用 分别表示 的傅里叶变换,可 得下式: 由于假定语音信号与加性噪声是相互独立的,因此有: 因此,如果用 分别表示 的功率谱,则有: 而由于平稳噪声的功率谱在发声前和发声期间可以认为基本没 有变化,这样可以通过发声前的所谓的“寂静段”(认为在 这一段里没有语音只有噪声)来估计噪声的功率谱 ,从 而有: )()()(NSY )()()(NSY、)()()(tntsty、 222 )()()(NSY )()()
25、( nsy PPP、 )()()(tntsty、 )()()( nsy PPP )()()( nys PPP )( n P 第09讲语音增强 在具体计算时,为防止出现负功率谱的情况,减谱时当 时,令 ,即完整的减谱公式如下: 减谱法语音增强技术的基本原理图如图14-10所示。 )()(, 0 )()(),()( )( ny nyny s PP PPPP P )()( ny PP0)( s P 第09讲语音增强 减谱法对于整个语音段采用减去相同噪声功率谱 的 办法,实际处理效果不是很理想,原因: 语音能量集中于某些频段,其幅度相对较高,尤其是 共振峰处的幅度一般远大于噪声,不应用同一标准处 理。
26、 随机噪声功率谱随机变化,最大值与平均值相差达 68倍,只有对它作长期平均才能得到较平坦的谱, 有时减谱后仍然会有较大的残余噪声。 )( n P 第09讲语音增强 14.6.2 基本减谱法的改进基本减谱法的改进 1.被减项加权值处理被减项加权值处理 改进的方法是在幅度较高的时帧处减去 ,这样可以 更好的突出语音谱,抑制纯音噪声,改善降噪性能;其次,在 语音谱中保留少量的宽带噪声,在听觉上可以起到掩蔽纯音的 作用。 ) 1)(aaP n 考虑到这两个方面,改进后的减谱公式如下: ) 1, 1( )()(),( )()(),()( )( ba aPPbP aPPaPP P nyn nyny s 第
27、09讲语音增强 2.功率谱修正处理功率谱修正处理 将图14-10中的功率谱计算 和 改进为 和 可以 得到新的更据一般性的减谱法形式。这种方法称为功率谱修 正处理,它可以增加灵活性,修正后的功率谱为: kkk NSY)()()( k )0( 1 k k 2 2 1 令 代入公式(14-23)或式(14-24)即得减谱法的改进形式。 适当调节式(14-24)中的a b k取值可以得到更佳的增强效果, 其灵活性也不言而喻。 、 k y YP)()(、 k s SP)()( k n NP)()( 第09讲语音增强 3.具有输入幅值谱自适应的减谱法具有输入幅值谱自适应的减谱法 传统的减谱法考虑噪声为平
28、稳噪声,a一般取相同的值,而在非平稳噪声 的实际环境下,采用相同的权值a有可能发生减除过多或过少的问题,使 得有的区段要么噪声消除不够,要么减除过多产生 失真。为此,应 该对传统的减谱法坐如下修改。 首先,对于噪声功率估计,采用如下式,在整个区域用语音以 外的当前输入帧功率 对噪声功率进行逐帧逐次更新: )( s P 2 ( ) t X ) 10()()()1 ()( 22 1 2 ttt XNN 其次,让权值a和输入语音功率相适应,即按如下式随输入语音 功率谱值改变。式中 和 为门限阀值,C1 和 C2为常数,可有实 验确定。 )( )()( )( )( 2 2 2 2 2 11 2 12 12 1 2 1 t tt t YC YCY CC YC ta 1 2 第09讲语音增强 对噪声功率进行逐帧逐次更新时,噪声功率估计采用语音段开 始的前几帧来估计,可以采用带噪语音前后能量比来确定语音 段和寂静段: (帧长是N)是第i帧处理后的值, 为处
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论