强背景噪声环境下语音增强算法的研究及应用毕业论文_第1页
强背景噪声环境下语音增强算法的研究及应用毕业论文_第2页
强背景噪声环境下语音增强算法的研究及应用毕业论文_第3页
强背景噪声环境下语音增强算法的研究及应用毕业论文_第4页
强背景噪声环境下语音增强算法的研究及应用毕业论文_第5页
已阅读5页,还剩181页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

强背景噪声环境下语音增强算法的研究及应用(申请清华大学工学硕士学位论文)关于学位论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定,即:清华大学拥有在著作权法规定范围内学位论文的使用权,其中包括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内容;(3)根据《中华人民共和国学位条例暂行实施办法》,向国家图书馆报送可以公开的学位论文。(保密的论文在解密后遵守此规定)I人们在语音通信过程中不可避免地会受到各种噪声的干扰,影响了通信质量。同时,噪声的存在也使低速率语音编码以及语音识别等语音处理系统的性能下降。语音增强作为一种预处理手段,不失为解决噪声污染的一种有效途在各类语音增强技术中,基于短时谱幅度估计的语音增强算法处于主流位置,得到广泛应用。本文针对短时谱幅度估计在低输入信噪比以及非平稳噪声环境下,性能不够理想这一不足加以研究改进,完成稳健的语音增强算法设计和实时实现。根据对短时谱幅度估计算法进行分析,指出了影响其性能的关键技术:噪声统计特性的估计、语音激活检测算法、先验信噪比估计、增益函数首先,提出了一种快速估计噪声统计特性的算法,减小了噪声估计的跟踪延时,在一定程度上改善了噪声过估计的现象,因而能够在低输入信噪比以及非平稳噪声干扰环境下快速准确地跟踪噪声特性。由于检测门限与噪声估计相适应,因而提高了检测性能,尤其在非平稳噪声干扰环境下得到了良好的检测效果。同时,利用语音激活检测算法中傅里叶变换再次,对先验信噪比估计的反馈因子进行最优化调整,引入与长时统计信同时,利用软判决信息,即有关语音存在的概率信息,修正增益函数表达式中最后,相关算法已用C语言和TMS320C55xDSP汇编语言在PC机和DSP硬件平台上实现。仿真实验和实时测试均表明改进的语音增强算法在不明显损伤语音可懂度的同时,可以有效地抑制背景噪声、提高信噪比,在低输入信噪比和非平稳噪声环境下性能提高尤为显著。关键词:语音增强非平稳噪声短时谱幅度估计噪声估计语音激活检测先验信噪比Ⅱnoisesinevitably,whichaffectsthecommunicationquality.Furthermore,aneffectivepreprocessingmethodtoreducethedisturbanceofnoise.Short-TimeSpectralAmplitude(STSA)estimationhavebeenwellinveontheTMS320C55xDSPplatformsummarized,includingtheestimationofnoisestatisticcharacteristics,voiceactivitydetection(VAD)algorithm,theestimationofaprioriSNR,andthemodificationofgainfunction,etc.proposed.Themethoddecreasestheadaptationtimeoftheover-estimationphenomenontosomeextent,thuscantnon-stationarynoiseenvironments.UniformlyMostPowerful(UMP)testisdetectionperfomance,especiallyinnon-stationarynoisethedualtonemultiplefrequency(DTMF)sstatisticinformation.Moplatform.Bothsimulationexperimentsandreal-timebackgroundnoiseandincreasingtheSNRwithoutapparentlyimpairingthe目录 11.1语音增强课题背景 11.2带噪语音模型 21.2.1语音的主要特性 21.2.2噪声的主要特性 31.2.3人耳的感知特性 41.2.4背景噪声对于语音的影响 41.3语音增强的发展历史 51.4语音增强算法分类 51.5论文研究工作 71.6论文内容组织 71.7本章小结 7第2章基于短时谱幅度估计的语音增强算法概述 82.1本章引论 82.2语音增强算法概述 82.2.1自适应噪声对消法 82.2.2谐波增强法 92.2.3基于语音生成模型的语音增强算法 2.2.4基于短时谱幅度估计的语音增强算法 2.2.5其他几种形式的语音增强算法 2.3基于短时谱幅度估计的语音增强算法 2.3.1谱减法的一般形式 2.3.2谱减法的改进形式 2.3.3维纳滤波法 2.3.4MMSE估计法 2.4基于短时谱幅度估计的语音增强算法的关键技术 2.5本章小结 第3章噪声统计特性估计的研究 3.1本章引论 3.2基于语音激活检测的噪声统计特性估计 3.3直接形式的噪声统计特性估计 V3.3.1简单的直接噪声统计特性估计 3.3.2基于最小统计的噪声统计特性估计 3.4噪声功率谱的快速估计 3.4.1自适应最优短时谱平滑 3.4.2不依赖窗长的最小值搜索 3.4.3引入语音存在概率 3.4.4噪声功率谱更新 3.4.5语音存在概率的准确估计以及噪声功率谱的迭代更新 3.4.6测试结果及结论 3.5本章小结 第4章语音激活检测算法研究 4.1本章引论 4.2传统语音激活检测算法 4.2.1G729AnnexB标准的语音激活检测算法 4.2.2G723.1AnnexA标准的语音激活检测算法 4.2.3GSM标准的语音激活检测算法 4.3基于高斯模型和一致最大势检验的语音激活检测算法 4.3.1基于高斯模型的似然比检测 4.3.2一致最大势检验准则 4.3.3短时谱最优化平滑以及自适应门限平滑 4.3.4拖尾延迟保护 4.3.5基于高斯模型和UMP检验的VAD算法流程 4.3.6测试结果以及结论 4.4双音多频信号的生成与检测 4.4.1双音多频信号的生成 4.4.2双音多频信号的检测 4.4.3测试结果 4.5本章小结 第5章语音增强算法的研究与实现 5.1本章引论 5.2本文语音增强算法流程 5.2.1分帧和加窗 5.2.2先验/后验信噪比估计 5.2.3长时信噪比估计 5.2.4增益函数的计算 5.3语音增强算法评测标准 5.3.1增强语音的主观评测 5.3.2增强语音的客观评测 5.4语音增强算法测试 5.4.1测试环境 5.4.2测试结果 5.5本章小结 6.1本章引论 6.2.1TMS320C55x内部结构 6.2.2TMS320C55x总线结构 6.2.3TMS320C55x流水线操作 6.3语音增强算法的DSP实现和优化 6.3.1C代码定点化 6.3.2TMS320C55x汇编程序编程 6.3.3算法在TMS320C55xDSP上的资源消耗 6.4本章小结 第7章结论与展望 7.1结论 7.2展望 参考文献 个人简历、在学期间发表的学术论文与研究成果 NMSE判断满意度测试(DiagnosticAcceptabili诊断押韵测试(DiagnosticRhymeTest)双音多频(DualToneMultipleFrequency)无限冲激响应(InfiniteImpulseResponse)卡一洛变换(KarhunenLoeveTransform)最小均方误差(MinimumMean-SquaredError)分段式信噪比(SegmentalSignal-to-NoiseRa信噪比(Signal-to-NoiseRatio)短时谱幅度(Short-TimeSpectralAmplitude)一致最大势(UniformlyMostPow)语音激活检测(VoiceActivityDetection)超大规模集成电路(VeryLargeScaleInt1第1章引言21世纪的通信是人与人之间、人与机器之间高质量的无缝的信息交换。语言是人类交流的重要手段,它自然方便,准确高效。语音通信也是一种理想的人机通信方式。人们一直梦想着有朝一日可以摆脱键盘或遥控设备的束缚,拥有更为友好、亲切的人机界面,让计算机或家用电器可以听懂人的话语,看懂人的动作,执行人们所希望的任何任务。而语音数字信号处理正是其中一项至关重要的应用技术。应用现代化手段研究语音处理技术,能更有效地产生、传输、存储和获取语音信息,这对促进社会的信息化发展具有十分重要的意义。因此,语音信号处理目前已成为信息科学研究领域中发展最为迅速的的一个分语音信号处理是语音学与数字信号处理技术相结合的交叉学科,它和认知科学、心理学、语言学、计算机科学、模式识别和人工智能等学科联系紧密,在数字话音通信,声控打印机,自动语音翻译和多媒体信息处理等许多方面都有非常重要的应用。语音数字信号处理包含的内容十分广泛,如包括语音编码、语音识别、语音合成、语音增强等。其中,语音增强是语音数字信号处理系统1.1语音增强课题背景人们在语音通信过程中不可避免地会受到各种噪声的干扰,比如,来自周围环境、传输媒介引入的噪声,通信设备内部电噪声以及其它讲话者的干扰这些噪声干扰使接收者接收到的语音已非纯净的原始语音信号,而是受噪声污染的带噪语音信号。例如,室内会议电话的交混回响随同语音广播到每个会议地点,影响收听效果。再如在军用车载通信系统中,尤其是坦克车内的通信系统,所处的噪声环境较一般环境更为恶劣,其噪声强度可达到120分贝左右。如此强度的噪声不仅会对通信质量产生严重影响,而且对通信接收者而言也是同时,环境噪声污染使许多语音处理系统的性能急剧恶化。例如,语音识别已取得重大进展,正在步入实用阶段。但目前的识别系统大都是在安静环境中工作的,在噪声环境中尤其是强噪声环境,语音识别系统的识别率将受到严2重影响。低速率语音编码通常采用参数编码,其基础是语音生成模型。当模型参数的提取受到背景噪声的严重干扰时,重建语音的质量将急剧恶化,甚至变得完全不可懂。在上述情况下,语音增强作为一种预处理手段,不失为解决噪目前流行的语音增强处理方法,虽然能够在一定程度上去除背景噪声,提高信噪比,但在低输入信噪比和非平稳噪声干扰的情况下增强效果有限,残留噪声较多,部分弱语音信号会被当作噪声而完全抑制,从而造成语音可懂度的下降。针对上述恶劣情况,设法改善语音增强效果,提高语音质量,改善通信系统性能,使语音增强技术更好地应用于军用和民用产品中。本课题正是在这1.2带噪语音模型图1.1带噪语音模型噪声假定为加性噪声,且与纯净语音不相关,可以得到如图1.1所示的带噪语音模型。这个带噪语音模型将作为本文语音增强分析的基础。语音增强的主语音增强是以语音特性、噪声特性以及人耳感知特性为理论基础的。本节将分别叙述语音和噪声的主要特性、人耳的感知特性以及背景噪声对语音的影1.2.1语音的主要特性1)语音是一个时变的、非平稳的随机过程。人类发声器官的生理结构,决定了其变化速度是有一定限度的。在较短的一段时间(10~30msec)内,人的声带和声道形状具有相对稳定性,可认为表征其特征的参数是不变的,因而语音短时谱分析也具有相对稳定性。语音的这种短时平稳性是语音信号处理的基础。32)语音大体上可以分为清音和浊音两大类。从语音产生机理上看,两者有频域上呈现共振峰结构,而且能量大部分集中于较低的频段内。清音则完全不同,它没有明显的时域和频域特征,类似于白噪声。在语音增强中,对浊音的3)作为一个随机过程,语音信号可以用统计特性来描述。语音信号是非平稳、非遍历的随机过程,长时时域统计特性在语音增强中意义不大。语音短时谱的统计特性是时变的,只有分析帧的长度趋于无穷大时,才能近似认为其服从高斯分布。在高斯模型假设下,傅立叶展开系数被认为是独立的高斯随机变量,均值为0,方差时变。这种高斯模型在帧长有限时只是一种近似的描述,在1.2.2噪声的主要特性噪声的来源取决于实际的应用环境,因而噪声特性可以说是变化多样的。噪声可以是加性的,也可以是非加性的。对于非加性噪声,有些可以通过相应的变换而转变为加性噪声。例如,乘性噪声(或卷积噪声)可以通过同态变换,而成为加性噪声。又如,某些与信号相关的量化噪声可以通过伪随机噪声扰动的方法变换成为与信号独立的加性噪声。非加性噪声可以通过一定的变换转化为加性噪声,并且课题应用背景下的噪声属于加性噪声,因此这里只讨论加性噪声。加性噪声大致上有:周期性噪声、脉冲噪声、宽带噪声和同声道其它语1)周期性噪声其特点是具有许多离散的线谱,主要来源于发动机等周期性运转的机械。电器干扰,尤其是电源交流声也会引起周期性噪声。这种周期性噪声可以用梳2)脉冲噪声其表现为时域波形中出现的窄脉冲,主要源于爆炸、撞击和放电等。这种脉冲噪声可以在时域中对信号幅度适当设置阈值来判别并加以适当衰减或消除,也可以根据相邻信号的样值,通过内插的方法将脉冲噪声在时域进行平滑。3)宽带噪声其与语音信号在时域和频域上完全重叠,只有在语音间歇期才单独存在,4因而消除困难。其来源很多,主要有热噪声、气流噪声以及各种随机噪声。目4)同声道语音干扰人耳可以在两人以上的讲话环境中分辨出所需要的声音,这种分辨能力是人脑语音理解机理的一种感知能力。人类的这种分离语音的能力称为“鸡尾酒会效应”,来源于人的双耳的输入效应。但当多个语音叠合在一起,在单信道中传输时,双耳信号因合并而消失。目前针对同声道语音干扰的增强处理还处于1.2.3人耳的感知特性语音增强的效果最终取决于人的主观感受。人耳的感知特性对语音增强的研究有着非常重要的作用,了解其机理将有助于语音增强技术的发展。1)人耳对语音的感知是通过语音信号中各频谱分量的幅度获得的,而对各2)人耳对频谱分量强度的感受是频率与能谱的二元函数,响度与频谱幅度3)人耳对频率高低的感受与该频率的对数近似成正比;4)人耳有掩蔽效应,即强信号对弱信号有掩盖的抑制作用。掩蔽的程度是声音强度与频率的二元函数,对频率临近分量的掩蔽程度大于对频差大的分量5)语音短时谱中的共振峰对语音的感知十分重要,特别是第二共振峰比第一共振峰更为重要,因此对语音信号进行一定程度的高通滤波不会对可懂度造6)人耳在两人以上的讲话环境中有能力分辨出需要聆听的声音。其中,第一条感知特性是基于短时谱幅度估计的语音增强算法的基础,利1.2.4背景噪声对于语音的影响背景噪声破坏了语音信号原有的声学特征和模型参数,模糊了不同语音之间的差别,使语音质量下降,可懂度降低。强背景噪声会使人产生听觉疲劳。不仅如此,强噪声环境还对讲话人产生影响,使讲话人改变在安静环境或低噪5声环境中的发声方式,从而改变了语音的特征参数,称为Lombard效应,它对在实际需求的推动下,早在上个世纪60年代,语音增强这个研究课题就引起了广泛关注。随着数字信号处理理论的成熟,70年代曾形成一个理论研究高潮,取得了一些基础性成果,并使语音增强发展成为语音信号处理领域的一个重要分支。人们首先提出用梳状滤波器加强周期性的语音而衰减非周期的噪声Lim和Oppoenheim提出了语音增强的维纳滤波算法。1979年,Boll⁹提出了谱减法来抑制噪声。但由于各种算法的计算量比较大,导致它们的实用性受到影也涌现了大量新的算法,在语音识别中使用的概念和方法也被借鉴到语音增强算法中。1980年,Mcaulay和Malpass¹0提出了软判决噪声抑制方法。1984年,Ephraim和Malah”提出基于MMSE短时谱幅度估计的语音增强算法。1987年,语音增强算法成为研究的中心。统计方法中最典型的是隐马尔可夫模型(HMM用于语音增强中,或者进行卡一洛变换(KLT)[15],利用神经网络[6进行语音增强。此外,采用麦克风阵列输入多个带噪混合信号,再通过计算进行滤波也受到很大重视。应用独立元分量分析来进行语音信号盲分离和增强的方法,以1.4语音增强算法分类语音增强是解决噪声污染的有效方法,它的首要目标就是在接收端尽可能地从带噪语音信号中提取纯净的语音信号,改善其质量。语音增强不仅涉及信号检测、波形估计等传统信号处理理论;而且与语音特性、人耳感知特性密切相关;再则,实际应用中噪声的来源及种类也各不相同。所以,语音增强的处6理方法具有多样性。因此,要结合语音特性、人耳感知特性及噪声特性,根据就语音增强算法而言,根据所用的麦克数量可划分为三种形式,分别为基高斯自回归模型的输出,并采用迭代算法,从带噪语音信号中估计自回归模型参数,然后利用这些参数构造全极点滤波器进行滤波。这种算法后来有很多发展,如在上述迭代过程中施加有关共振峰的约束,使处理后的信号更具有语音的特点;或者把这类方法与隐马尔可夫方法结合起来,以更好地描述语音的时变特性。此类方法一般运算量比较大,而且当实际的噪声和语音与模型有较大的差距或是提取参数比较困难的时候,容易失效。另一类方法则主要是基于语由于人耳对语音短时谱相位的感知不敏感,事实上实际应用中只需设法准确估计出语音的短时谱幅度(ShortTimeSpectralAmplitude,STSA),基于STSA估计的语音增强方法一般都是直接采用带噪语音的相位作为增强语音的相位。此类算法运算量相对较小,适用信噪比范围比较大,并且易于实时处理,因此得到广泛应用,谱减法、维纳滤波法以及MMSE法等方法都属于此类。近些年来,人们又陆续提出了一些基于信号子空间处理以及基于神经网络的语音增强算基于双麦克的语音增强主要采用自适应噪声消除技术进行语音增强。如果能在时域或者在频域,直接从带噪语音中将噪声分量减去,则能有效增强带噪语音。噪声对消法就是以此作为出发点,其最大特点是需要采集背景噪声作为参考信号,参考信号准确与否直接决定着噪声对消法的性能。在采集背景噪声时,往往采用自适应滤波技术,以便使参考信号尽可能接近带噪语音中的噪声基于麦克阵的语音增强采用多个以一定方式排列的采集设备接收信号。由于不同的独立信号源与各个采集设备之间的距离不同,最后在各个接受设备中的合成信号也会产生相应的差异,再采用独立成分分析技术将各个独立信号分7基于单麦克的语音增强一直是各种语音增强方法中研究的热点,相关理论也相对成熟。本课题的应用背景,提供的是单麦克,因此本文的研究工作是基于单麦克的语音增强。考虑到具体应用的各种要求,主要是研究基于短时谱幅论文分析了各种语音增强方法的优缺点,并根据课题的需要,利用随机信号处理的方法,研究并实现了基于MMSE短时谱幅度估计的语音增强算法。针对目前流行的语音增强算法在低输入信噪比(0dB以下)和非平稳噪声干扰环境下增强效果有限的问题,论文借鉴国内外提出的相关技术,通过对噪声统计特性估计、语音激活检测、先验信噪比的估计、增益函数修正这几个方面进行改进,提高了短时谱幅度估计的语音增强算法性能,拓宽了语音增强的应用范围。由于课题需要,论文对语音增强算法的实时应用进行了适应性研究。在选定的DSP芯片处理能力有限的情况下,通过定全文共分七章:第1章是引言;第2章是基于短时谱幅度估计的语音增强算法概述;第3章噪声统计特性估计的研究;第4章是语音激活检测算法研究;第5章是语音增强算法的研究与实现;第6章是基于TMS320C55xDSP硬件平台的实时实现;第7章是结论。本章首先介绍了语音增强在语音处理系统中的作用,指出了选题背景和选题意义,并给出了加性噪声情况下的带噪语音模型,阐述了与语音增强密切相关的语音和噪声的主要特性、人耳的感知特性以及背景噪声对语音的影响。然后,简要概述了语音增强的发展和分类,并根据课题要求提出了本文的主要研第2章基于短时谱幅度估计的语音增强算法概述8第2章基于短时谱幅度估计的语音增强算法概述语音增强的目的是针对带噪语音尽可能地消除噪声的影响,提取出纯净的原始语音。但是,由于噪声干扰的随机性,从带噪语音中提取完全纯净的原始以显著地降低背景噪声,改进语音质量,但是对语音也造成了很大的损伤。因此在研究过程中,通常要根据不同的要求,选用不同算法,设置不同的参数,介绍基于短时谱幅度估计的语音增强算法;2.4节总结基于短时谱幅度估计的语还待发展,但是某些增强算法已证明是有效果的,如噪声对消法、谐波增强法、噪声对消的基本原理是从带噪语音中减去噪声,问题是如何得到噪声的复制品。通常采用两个(或多个)话筒进行处理,一个(或多个)采集带噪语音,另一个(或多个)采集噪声。图2.1给出了双话筒采集的噪声对消法原理框图。采用噪声对消法时,两个话筒之间必须要有相当的间隔度,但采集到的两路信号之间不可避免地会有时间差,因此实时采集到的两路信号中所包含的噪声段因而,采集到的噪声必须经过自适应滤波,以得到尽可能接近于带噪语音中的噪声。自适应滤波器通常采用FIR滤波器,其系数可以采用最小均方(LMS) 9带噪语音FFT自适应滤波IFFT大量实验表明,在强背景噪声下,使用自适应噪声对消法进行语音增强可以得到很好的消噪效果。如果采集的噪声足够充分,也可以直接在时域上相减。噪声对消法的一个主要缺点是增强后的语音会有“音乐噪声”,这种噪声是频谱相减的遗留产物,由于具有一定的节奏性起伏,听上去类似音乐声。语音信号的浊音段有明显的周期性,利用这一特点,可以采用自适应梳妆滤波器来提取语音分量,抑制噪声。梳状滤波器可以在时域实现,表达式为:这里,t为基频周期,x为常数(通常不大);x(n)是滤波器输入信号序列;c.为系数,随信号周期而变化。输出信号是输入信号的延时加权和的平均值。当延时与周期一致时,这个平均过程将使周期性分量得到加强,而会使其他非周期性分量或与语音信号周期不同的其他周期性分量受到抑制。显然,上述方法的关键是要准确估计出语音信号的基音周期,这在强背景噪声干扰下有一定的困难。在基音发生变化的过渡段,这种方法会受到严重影响。选择m=1可以减小这种影响,但增强效果下降。M与梳状滤波器的带宽梳状滤波器也可以在频域实现。对语音进行傅里叶变换后可以鉴别出需要提取的各次谐波分量,然后经傅里叶反变换恢复为时域信号。梳状滤波不但可增强语音信号,也可以用于抑制各种噪声干扰,包括消除同声道的其他语音的干扰。同时对两个语音进行梳状滤波的主要问题是:存在另一个人说话干扰时,如何跟踪并准确估计出讲话者的基音。第2章基于短时谱幅度估计的语音增强算法概述2.2.3基于语音生成模型的语音增强算法语音的发声过程可以模型化为激励源作用于一个线性时变滤波器,激励源可以分浊音和清音两类,浊音的激励源为周期与基音相同的周期性脉冲串;而对于清音,激励源为高斯白噪声。时变滤波器则是声道的模型。通常认为声道模型是一个全极点滤波器,滤波器参数可以通过线性预测分析得到。如图2.2所示。但若考虑到鼻腔的共鸣作用,采用零极点模型更为合适。显然,如果能够知道激励参数和声道滤波器的参数,就能利用语音生成模型合成得到“纯净”的语音。这种增强方法称为分析—合成法,关键在于如何从带噪语音中准确地估计语音模型的参数,即激励参数和声道参数。另一种方法则是鉴于激励参数难以准确估计,而只利用声道参数构造滤波器进行滤波处理。s(n)图2.2语音的全极点生成模型Lim和Oppenheim采用了MAP准则来估计声道的全极点参数。对于语音平稳随机过程而言,相当于乘了一个零相位的维纳滤波器。主观测量表明它可以减少可感知的噪声从而改善语音的质量,但对语音也造成了一定的损伤,原因是算法中的迭代缺乏明显的收敛准则,且随着迭代次数的增加共振峰带宽变小。Hansen和Clements(2I在上述迭代过程中加入了频谱限制条件,使极点不太靠近单位圆,以防止共振峰带宽过窄,但引起了共振峰位置的较大抖动。2.2.4基于短时谱幅度估计的语音增强算法如前所述,语音是非平稳随机过程,但在10~30msec的分析帧内可以近似为平稳的随机过程。如果能从带噪语音的短时谱中估计出“纯净”语音的短时谱,即可达到增强的目的。由于噪声也是随机过程,因此这种估计只能建立 在统计模型基础上。人耳感知对语音频谱分量的相位不敏感,因此目前的增强算法主要针对短时谱幅度进行估计。此类算法运算量相对较小,适用信噪比范围比较大,并且易于实时处理,因而得到广泛应用。谱相减法、维纳滤波法以及MMSE法是短时谱估计中的三种行之有效的增强算法,下节将详细介绍这三种2.2.5其他几种形式的语音增强算法除上面介绍的几种语音增强算法外,Ephraim和VanTrees²21提出了一种基于信号子空间的语音增强算法,其基本思想是把带噪语音信号的矢量空间通过KLT分解为噪声子空间以及信号加噪声的子空间,去除噪声子空间后,在信号加噪声子空间中滤波估计出语音信号。还有基于小波分析[14的方法,其基本思想是小波变化把信号在多个尺度上进行了子波分解,而各尺度上分解所得的子波变换系数代表原信号在不同分辨率上的信息,利用信号和随机噪声在不同尺度的特性关系进行去噪处理。近年来,人们正在探索将神经网络、隐马尔可夫模型、人耳听觉掩蔽效应以及多分辨率分析等理论用于语音增强算法。2.3基于短时谱幅度估计的语音增强算法表示为分别为y(),s(i)里叶变换系数。为了分析简单,假设各个傅里叶系数(即各个频率分量)之间是互不相关 由于so和a(u)统计独立,所以s,和p,互相独立,并假定p,服从零均值高斯分布,方差可以通过无语音时对噪声的分析获得。语音增强的任务就是利用已知的噪声功率谱信息,从y,中估计s,。由于人耳对频谱分量的相位不敏感,所以只需估计频谱分量的幅度a,,然后借用带噪语音的相位,进行反傅里叶变换后就可得到增强的语音。这类基于语音短时谱估计的语音增强方法的原理框图如图2.3所示。图中,i、s(n)为A,、s(n)的估值。下面将分别介绍短时谱估计的三种方法:谱减法、维纳滤波法、MMSE估计相位0As(n)一般形式的谱相减法[9即在频域将带噪语音的功率谱减去噪声的功率谱得到纯净语音的功率谱估计,开方之后得到语音谱幅度估计,将其相位恢复之后采用逆一傅立叶变换恢复时域信号。基本原理如图2.4所示。|Yfθ 十y(i)FFT变换后有由于s,与p,相互独立,而p,近似满足零均值的高斯分布,所以: 对于一个分析帧内的短时平稳过程,则有:为增强后语音信号谱幅度。傅里叶反变换后经过相位插入,即可得时域的增强后语音信号。定义增益函数:及后验信噪比:从式(2-12)中可以清楚地看出谱减法的物理意义:它相当于对带噪语音的每一个频谱分量乘以一个系数c,。信噪比高时,含有语音的可能性大,衰减小。反之,则认为含有语音的可能性小,衰减大。令 则有计式可以用如下方法求得:通过积分消去a,后,有其中,t,C)为第0阶修正贝塞尔函数,令的估计式。则解方程后就可以得到5.的估计式。由于1()直接求解有一定困难,为此需要采取一定的简化措施。因为当x≥3时,有所以在较高信噪比条件下,解方程后得到 2.3.2谱减法的改进形式在实际应用中,更多地采用谱相减法的改进形式: 这种改进形式与普通谱减法的差别在于引入了。和p这两个参数,为算法提供了很大的灵活性。显然当a=2.β=1时,算法退化为一般的谱减法形式。噪声估计值乘以α是出于这样的考虑:一般的谱减法中,是以无声期间统计平均的噪声方差代替当前分析帧各频率点的噪声频谱分量。而噪声频谱具有高斯分布,即其幅度随机变化范围很宽。因此相减时,若该帧某频率点噪声分量较大,就会有很大一部分残留,在频谱上呈现随机出现的尖峰,在听觉上形成有节奏起伏的类似音乐的残留噪声。为了解决上述问题,在语音能量较高的区域可以使β>1,即有意识地多减去一些,这样可以更好地相对突出语音频谱。当然,此时引起的失真也可能会增大。调节参数。也可以取得类似的效果。2.3.3维纳滤波法如果语音是一个平稳过程,则维纳滤波对应着时域上的最小均方误差准则。其中p,(k),x,(k)分别为语音和噪声的功率谱密度。然而实际语音只是短时平稳,功率谱密度也无法得到,因此增益改写成为:若定义先验信噪比则式(2-24)改写为与谱减法类似,维纳滤波法也有如下推广的式子 通过调整α和g,可以得到多种变形形式。维纳滤波法最大的优点是增强后的残留噪声类似白噪声,而不是有节奏起伏的音乐噪声。事实上,尽管维纳滤波法导出的出发点不同,但形式上与谱减法差别不大,可以认为是统一的。2.3.4MMSE估计法如前所述,谱减法为一种最大似然估计,而维纳滤波法则是平稳条件下时域的最小均方误差准则意义下的估计。这两种估计准则都存在一定的缺陷:最大似然准则完全放弃了对语音频谱的分布假设;维纳滤波法将最小均方误差准则应用于时域波形估计,但对人耳来说,频谱分量的幅度才是最重要的。而MMSE估计法就对应频域上的最小均方误差准则。设带噪信号、干扰噪声和纯净语音的频谱分量分别用γ,=R,exp(D),D,,s,-A,exp(fa)表示,并假设语音谱和噪声谱满足独立的高斯分布。寻找a,的MMSE估计为即假设各个频谱分量相互独立,由贝叶斯准则得式(2-31),式(2-32)代入式(2-30)中,可得: 第2章基于短时谱幅度估计的语音增强算法概述地,为合流超几何函数,可以用级数求和计算。1,)、1,O)分别表示0阶和1阶修正贝塞尔系数,nγ分别表示先验信噪比和后验信噪比。将式(2-33)写成增益函数的形式,定义于是有当先验信噪比,,很高时,即n>>1时,这也意味着γ。>>1。此时,合流超几何函数可以近似为:代入式(2-35),得到与式(2-26)中维纳滤波法增益式比较,可以看出此时与维纳滤波法相同。2.4基于短时谱幅度估计的语音增强算法的关键技术通过以上分析,基于短时谱幅度估计的语音增强算法都可以写成如下形式:谱减法:维纳滤波法:MMSE估计法:先验信噪比后验信噪比第2章基于短时谱幅度估计的语音增强算法概述许多语音增强算法中噪声功率谱估计的基础,也能够为先验/后验信噪比的计算提供相关的统计信息。因此,论文的主要工作是针对背景噪声统计特性的估计、语音激活检测算法、先验信噪比估计、增益函数的修正等展开研究。本章对语音增强的相关算法做了全面论述,尤其对基于短时谱幅度估计的语音增强算法做了详细分析,指出了各种算法的优缺点。然后,总结了基于短时谱幅度估计的语音增强算法的关键技术:背景噪声统计特性的估计、语音激活检测算法、先验信噪比估计、修正因子调整,为本课题的研究指明了方向。下面各章将分别对以上问题进行阐述。 第3章噪声统计特性估计的研究噪声统计特性估计是语音增强算法的一个重要组成部分,尤其在低输入信噪比和非平稳噪声干扰环境下,对噪声统计特性的跟踪能力直接决定着语音增强算法的鲁棒性。噪声统计特性的估计可以分为两类方法:第一类方法是基于语音激活检测的方法,即通过语音激活检测判断当前帧是有语音还是无语音,在检测为无语音时进行噪声统计特性的估计与更新,而在检测为有语音时,噪声的统计特性用最近无语音时估计的噪声统计特性代替。另一类方法是直接形式的噪声统计特性估计,这类方法不依赖或者不显式依赖于语音激活检测,而是在每一帧都进行噪声统计特性的估计与更新。在语音增强算法中,噪声统计特性的估计主要是对噪声的功率谱进行估计。功率谱估计是数字信号处理的重要内容,由于实际中得到的随机信号长度总是有限的,对这种有限长度信号处理所得到的功率谱只是随机信号真实功率谱的一种估计,称为功率谱估计。本章剩余章节按照如下方式组织:3.2节介绍基于语音激活检测的噪声统计特性估计方法;3.3节给出直接形式的噪声统计特性估计方法;3.4节研究噪声统计特性的快速估计算法;最后是本章小结。基于语音激活检测的噪声功率谱估计,首先利用语音激活检测分离出有语音部分与无语音部分,即语音帧与噪声帧,然后在噪声帧进行噪声功率谱估计。对于平稳或缓变的噪声,这种方法得到了比较准确的估计结果。在噪声帧根据|y(n.k)和a,(n、k)分别表示带噪语音功率谱和噪声功率谱,n.k分别表示第帧和第k个频率分量。通常将α,设置为0.50~0.99,a。的取值越小,越有利于对噪声统计特性变化的跟踪,但越依赖于语音激活检测的准确率。在低信噪比下,当语音激活检测将语音误判为噪声时,当前帧对噪声特性的更新估计容易力越弱,但是对语音激活检测的准确率依赖越低。在语音帧时,用最近的噪声综上分析知,基于语音激活检测的噪声统计特性估计的准确度很大程度上取决于语音激活检测算法的性能。当语音误判为噪声时,必然使得噪声统计特性的估计失真,进而在语音增强处理中造成对语音的损伤,在低信噪比时,甚至会出现切音现象,这将极大地降低增强语音的可懂度。而当噪声误判为语音时,由于此时噪声特性可能发生了明显的变化,可是因为误判而在此期间不对噪声特性进行更新,使得估计的噪声特性与实际噪声特性不符,导致增强后的语音产生畸变,或者残留较多的噪声,从而降低了语音增强系统的性能。3.3直接形式的噪声统计特性估计基于语音激活检测的噪声估计法将噪声更新限制在噪声帧进行,语音帧的噪声特性用最近的噪声帧估计得到的噪声特性代替。这样,在语音增强时,必然会存在一定的残留噪声并对语音造成损伤。而且,如果在语音帧的噪声特性改变较大,那么这种影响势必更加严重。另外,语音激活检测的可靠性在非平稳噪声以及低输入信噪比情况下会严重下降,在这种情况下,估计的噪声特性势必会与实际的噪声特性有更大的偏差,严重时,弱语音成分将会因为增强处理而被消除,造成切音现象,使增强语音的可懂度下降,甚至使语音增强完全失效。因此提出了一种不依赖于语音激活检测的噪声统计特性估计方法。这种方法并不进行或者不显式进行语音激活检测,在整个处理过程一直保持对噪声3.3.1简单的直接噪声统计特性估计其在形式上与基于语音激活检测的噪声统计特性估计方法在噪声帧的处理相同,只是a,通常设置为一个接近1的数值,并且在语音增强的全过程进行更第3章噪声统计特性估计的研究3.3.2基于最小统计(MinimumStatistics)的噪声统计特性估计M(D)=0.025+0.23(I+log(D)*)+2.7-10*D¹-1.14-到29。代入式(3-4)即得a…(D.Q(n.,k))·同时,为了进一步提高算法性能,将p(n,k)乘以一个增长因子B(n):论文算法中取a。=1.5。式(3-3)中λ(n,k)通过搜索找出。算法要对连续p帧带噪语音功率谱a(n、k)求最小值,这样最差的情况下,算法延时将达到2p。为减少延时,将长窗p分成v个子窗,每个子窗长为v。这样可以每v帧更新一次最小值,并且保存起来,待各子窗的最小值都得到再进行比较,即可得到长窗的最小值。对于噪声功率下降的情况,子窗最小值将小于长窗最小值,这时立刻更新噪声引入控制门限noise_slope_max,此门限与归一化均方差g(n)相关。g~`(n)越小,噪声变化可能越大。按如下计算noise_slope_max:ifQ¹(n)<0.03. elseifQ(n)<0.05,elseifQ(n)<0.06,noise_slope_max因此,当找到子窗本地最小值,并且子窗最小值和长窗最小值之差不超过Woise_slope_max时,更新噪声功率谱。通过在长窗中设立子窗最小值搜索,提高了噪声功率谱估计的跟踪速度,同时降低了运算的复杂度。对于子窗数目第3章噪声统计特性估计的研究为测试材料。采样频率f,=skHz,帧长x=200,子窗数目v=g,子窗长度图3.1给出了MS算法在输入sNR=10dB的白噪声干扰图3.2给出了MS算法在噪声功率突然增大时的噪声估计性能。图(a)表示的。可以看出,噪声估计存在着大概1.5msec(60帧)以上的延时,而且存在3.4噪声功率谱的快速估计为解决噪声功率谱跟踪估计中过估计以及跟踪延时的问题,论文结合相关最新发表成果,提出了一种能够快速估计噪声功率谱的算法。该算法基于最小统计思想,不依赖于语音激活检测,通过引入自适应最优短时谱平滑[23]、不依赖窗长的最小值搜索[20以及根据语音存在概率对噪声功率谱进行迭代更新,得到了更好的跟踪性能,能够更好地在低输入信噪比以及非平稳噪声干扰环境下对噪声特性进行估计。算法框图如图3.3所示。第3章噪声统计特性估计的研究分帧加窗带噪语音谱自适应最优平滑Ank)计算频率自适应门限计算比值比较判决更新噪声功率谱估计计算后验信噪比语音存在概率的进一步估计p'(n,k)噪声功率谱估计的迭代更新跟踪带噪语音谱最小值图3.3噪声功率谱的快速估计算法框图3.4.1自适应最优短时谱平滑文献[27]中采用的是固定平滑因子,实验表明自适应最优平滑能够为噪声功率谱估计提供更好的跟踪性能,因此论文算法对带噪语音功率谱进行了基于第3章噪声统计特性估计的研究=a²(n,k)(P(n-1.k)-λ,(n.k)²+(l-其中,其中,x为帧长。snR,为长时信噪比,将在第5章进行介绍。为保护微弱语音信号,设定p(n,k)从峰值衰落到噪声功率水平大约用时Ar=64msec。将式(3-15)代入式(3-9),可得自适应的最优平滑短时谱。3.4.2不依赖窗长的最小值搜索3.3节所述的基于最小统计的噪声功率谱估计算法中,采用固定窗长p=64帧的最小值搜索算法,在噪声功率突然增大时,更新估计延时达1.5s以上。论文算法采用连续平滑过去的带噪语音功率谱得到最小值,这种方法能够更好地跟踪到非平稳噪声以及噪声变化剧烈时的功率谱最小值。即ifPan(n-1,k)<P(n,k)其中,p(u,k)为经式(3-9)最优化平滑后的带噪语音功率谱,前瞻系数p控制着最小值搜索的自适应时间,,为平滑系数。3.4.3引入语音存在概率为精确估计,考虑每个频率分量上语音存在的概率。当语音不存在时,带噪语音功率谱应等于或接近于式(3-17)所得的功率谱最小值。因此,通过当前帧的平滑功率谱p(n,k)和功率谱最小值p…(n、k)相比得到一个语音存在概率H,:S(n,k)>δ(k)则(n.k)=1,在频率分量k语音存在;对以上结果平滑,得到语音存在概率p(n.k)的粗略值:p(n,k)=α,p(n-1,k)+(1-α,)l(n,3.4.4噪声功率谱更新根据语音存在概率p(n,k),计算与其相关的时频变化因子3.4.5语音存在概率的准确估计以及噪声功率谱的迭代更新虽然式(3-17)的功率谱最小值搜索不依赖窗长,但是也会有一个逐渐变化的过程。当噪声功率突然增大时,噪声帧的功率谱p(n.k)必然会大于功率谱最小值p…(n、k),这样根据式(3-18)得到的关于语音存在概率的判定势必会有较大误差,这部分功率比较大的噪声很容易误判为语音。因此,需要对语音存在概率进行更准确的估计。此时,得到了噪声功率谱估计x(n,k)。因此,先验信噪比和后验信噪比都可求。当语音不存在时,先验信噪比为0。但由于分帧加窗造第3章噪声统计特性估计的研究信噪比,,后验信噪比的概率分布如下]:而似然比检测对于vn<n。,是y(n,k)的单调函H,H。p(n,k)为式(3-19)得到的语音存在概率的粗略值,p。为平滑系数。把p(n、k)代入式(3-20)计算新的时频变化因子a;(n,k)。a,(n得到新的噪声功率谱估计(,k),整个过程相当于对噪声功率谱估计的一次迭3.4.6测试结果及结论噪声和非平稳噪声代表多说话人(babble)噪声。采样频率f=8kHz,图3.4和图3.5分别给出了本文快速估计算法在输入sNR=-sdB算法参数的白噪声干扰和输入sNR=5dB的babble噪声干扰环境下的性能,并和MS算法进行了比较。考查的频率成分为k=32(1kHz)。可以看出,估计的噪声功率谱与真实噪声功率谱并不完全相同,代表的是平均意义上的统计;在低输入信噪比和非平稳噪声环境下,本文算法较MS算法都能更迅速更准确地跟踪噪声功率,并在一定程度上改善了过估计的现象。兽图3.5babble噪声干扰下(INSNR=5dB)本文算法和MS算法性能比较图3.6给出了babble噪声干扰下,输入信噪比由15dB迅速下降为-5dB时,本文快速估计算法和MS算法性能比较。图(a)表示输入的带噪语音信号,在第150帧时,噪声功率迅速增加,信噪比突然降低。图(b)中,本文算法经过很短的时间(大概0.25sec)即跟踪上了噪声的变化,而MS算法的自适应时间长达表3.1给出了在各种输入信噪比下,本文快速估计算法噪声功率谱估计的归一化均方误差对比。归一化均方误差NMSE定义如下:表3.1本文快速估计算法和MS算法的NMSE白噪声babble噪声白噪声~babble噪声本文算法本文算法本文算法05由表3.1看出,在各种噪声干扰环境下,本文算法的归一化均方误差均小于MS算法,尤其在输入信噪比为-5dB情况下,NMSE下降较大,客观测试再一次证明了本文快速估计算法在低信噪比和非平稳噪声环境下的优越性。本章研究了影响语音增强算法性能重要因素之一的噪声统计特性估计算法。首先,介绍了基于语音激活检测的噪声统计特性估计方法和直接噪声统计特性估计方法的特点,并阐述和分析了目前应用比较广泛的最小统计的估计算法。针对现有算法的过估计和跟踪延时等问题,提出了更适应于低输入信噪比和非平稳噪声干扰环境下的快速估计算法,并给出了详细的测试结果。第4章语音激活检测算法研究人们在说话过程中,不可避免地存在很多间歇和停顿,因此语音是不连续的媒介。语音激活检测(VoiceActivityDetection),又称有语音无语音检测,是指采用一定的信号处理技术,检测出信号是否是语音信号,或是信号中是否包含语音信号。语音激活检测的应用范围非常广泛,既可以在语音增强算法中为噪声统计特性的估计、先验信噪比的计算等提供相关统计信息,也可以作为独立的模块应用于变速率语音编码,回声抵消等系统中。本章主要针对语音激活本章剩余章节按照如下方式组织:4.2节介绍传统语音激活检测算法;4.3节研究基于高斯模型和一致最大势(UniformlyMostPowerful)检验的语音激活检测算法;4.4节介绍了双音多频(DualToneMultipleFrequency)信号的生成传统的语音激活检测算法的基本思想是提取某种能够区分语音和噪声的特征参数,如能量,过零率等,通过和某一分界门限比较得到是否有语音的判决结果,也可依据多个特征参数进行联合判决。如图4.1所示。组帧特征提取判决输出判决结果图4.1语音激活检测的一般方法4.2.1G.729AnnexB标准的语音激活检测算法 YNYNYNNYG729AnnexB标准的VAD采用短时全带能量、短时低带能量、LSF系数和短时过零率4种特征参数进行语音激活检测的判决。相应的4种距离量度为:短时过零率差异: 全带能量,低带能量,短时过零率。而LsF,,E,,E,,zC为相应的背景噪声参数的更新估计。计算得4种距离量度后,如果满足表4.1中的14个条件之一就初步判决为有语音,否则判决为无语音,相关常量参见相关标准30]。序号蝇则序号现明182934156然后,对初步判决结果进行平滑,得到最终判决。最后,根据一定的条件对噪声相关特征参数进行更新。4.2.2G.723.1AnnexA标准的语音激活检测算法第4章语音激活检测算法研究LotR₁[j]Fryp₁WnxVad,fFtyp=0or2p,图4.3G.723.1AnnexA中推荐的语音激活检测系统的功能框图G.723.1AnnexA标准的VAD算法基本上是一个能量检测器。将逆滤波器的输出信号能量与一个阈值进行比较,当大于阈值时,判定为有语音,否则判定A(z)进行逆滤波的处理:的FIR滤波器滤波后信号能量计算:通过下式计算经过逆滤波后的信号的能量Emr,。噪声幅度计算:根据:-1帧噪声幅度Ntev,和能量En,,以及自适应使能标志aen,,对第,帧噪声幅度ntey进行更新。第,帧时的噪声幅度被限制在阈值计算:阈值与噪声幅度有如下近似关系:VAD判决:通过对当前帧的能量En,与阈值rnr的比较进行判决:拖尾延迟保护:当连续2帧或以上判决为语音时,则在判决的语音段结束之后的6帧仍将作为语音段处理。4.2.3GSM标准的语音激活检测算法GSMl³2|标准中的语音激活检测算法是基于多参数联合判决的VAD检测算法,其算法的结构图如图4.4所示。filteringandptchaddition图4.4GSM中推荐的语音激活检测系统的功能框图4.3基于高斯模型和一致最大势检验的语音激活检测算法传统的语音激活检测方法往往建立在语音和噪声的特征参数的区别假定上,比如语音的能量远远大于噪声的能量,而噪声的过零率又远远大于语音的过零率等等。但是在强背景噪声环境下,语音可能完全淹没在噪声中,周期性噪声的出现或是语音过零率较高时,也会使两者过零率之间的区别不再明显。因此,传统的语音激活检测算法在低输入信噪比以及非平稳噪声干扰环境下的好的检测效果。论文结合相关最新发表成果,研究了一种基于高斯统计模型和一致最大势(UMP)检验的语音激活检测算法。该算法能够改善上述恶劣环境下的检测性能,同时仍然适用于平稳噪声及高信噪比环境。4.3.1基于高斯模型的似然比检测假定语音和噪声的频谱分量满足独立的复高斯分布,并考虑加性噪声。在语音不存在n。和语音存在n,两种假设下,带噪语音分别表示如下:其中,0≤i≤N-1,N为帧长。带噪语音的频谱分量在两种条件下的分布分别为:其中,3.和x,分别表示纯净语音,())和噪声αa)的功率谱分量。相应地,在频率成分k的似然比(LR)为对似然比对数取几何平均,得到HH₀4.3.2一致最大势检验准则式(4-13)中,检测量可以改写为第4章语音激活检测算法研究即如果即检测条件为F,|>√其中,vc)表示阶跃函数。根据虚警概率的定义,第4章语音激活检测算法研究而又由得到检测门限频率分量的平均,判决准则如下:HH₀4.3.3短时谱最优化平滑以及自适应门限平滑充分考虑语音的相关性能够使语音激活检测更准确,因此需要对检测量和检测门限进行有效的平滑。文献[30中对带噪语音频谱幅度采用了固定平滑因子进行平滑,为了得到更好的检测性能,论文算法借鉴噪声统计特性估计中的自适应最优平滑方案,对短时谱进行基于MMSE原则的最优化平滑。其中,a(n)为调整因子。i,(n-1,k)为前一帧的噪声功率谱的估计值。a(n,k)的具体计算过程参见3.4节,这里不再赘述,检测门限是与噪声估计自适应的,所以,门限平滑采用固定平滑因子即可。其中,。为平滑因子。论文算法中,取p=拖尾延迟保护(hangover)通过短时谱幅度平方和自适应门限比较后得到了初步的VAD判决结果,但是初步判决有时存在着误判的情况。当把有语音误判为无语音时,造成了语音切断的现象;相反,把无语音误判为有语音时,势必会造成过多的残留噪声存在。为了降低误判的概率,语音激活检测算法中常引入拖尾延迟保护机制。论文算法在充分考虑语音相关性的基础上,把输入的带噪语音分为三种状态,即语音状态、噪声状态及语音和噪声之间的转换状态,并为语音状态转换为噪声状态以及噪声状态转换为语音状态分别设置了不同的延迟保护长度。如果当前帧的初步判决结果在保护长度之内,则判定当前帧为转换状态,而初步判决结果作为累计值保存起来;如果当前帧的初步判决结果超出了保护长度的范围,则判定当前帧为新的语音状态或噪声状态。各帧具体的最终判决结果由拖尾延迟保护提供了由无语音到有语音的无条件迅速判决,而延迟了由有语音到无语音的判决时间,判决时间由转换状态的持续时间决定。这样有效地保护了微弱语音以及字间的短暂停顿,有效地防止了切音现象,保证了语音的连贯悦耳。第4章语音激活检测算法研究--噪声状态--噪声状态语音状态?t图4.5拖尾延迟保护的状态转移图4.3.5基于高斯模型和UMP检验的VAD算法流程图4.6给出了基于高斯模型和UMP检验的VAD算法流程。首先对输入的对短时谱进行最优化平滑并对噪声功率谱进行跟踪估计,利用式(4-23)和式(4-27)计算每个频率分量的平滑的自适应门限。最后,通过平均谱幅度平方和第4章语音激活检测算法研究噪声功率谱λ估计T图4.6基于高斯模型和UMP检验的VAD算法流程流程图4.3.6测试结果以及结论算法在低输入信噪比和非平稳噪声环境下测试。将标准语音库的语音材料声代表白噪声、粉红噪声以及非平稳噪声代表多说话人(babble)噪声。图4.7和图4.8分别给出了本文基于高斯模型和UMP检验的VAD算法在(a)为原始纯净语音,图(b)为带噪语音,图(c)为本文VAD算法判决结果,噪声帧输出为0,语音帧直接输出带噪语音,并用红色框标出。由此可见,本文算法图4.7白噪声干扰下本文VAD算法判决结果图4.8粉红噪声干扰下本文VAD算法判决结果第4章语音激活检测算法研究图4.9给出了babble噪声干扰,输入sNR=oaB时本文算法和Sohn's算法33]的检测性能比较。其中,图(a)为原始纯净语音,图(b)为带噪语音,图(c)为本噪声统计特性相适应,并且采用了合理的拖尾延迟保护,因而得到了较准确的图4.9babble噪声干扰下本算法和Sohn's算法检测性能比较因此,基于高斯模型和UMP检验的VAD算法在保持平稳噪声干扰下的高判决能力的同时,针对非平稳噪声环境,相比同类算法,也能够提供较准确的4.4双音多频信号的生成与检测的一种通讯传输方法,其在电话网络领域的快速发展取代了脉冲信号。除了应用于电话拨号系统中,DTMF信号在频率编码遥控系统及数据编码传输中的应第4章语音激活检测算法研究用也很普遍。DTMF信号是指用两个不同频率的正弦信号来表示电话拨号键盘上的16个数字或字母信息。每个双音多频信号都由相应的行频率和列频率而确定,并且对应一个数字或字母,行频率为低频成分,列频率为高频成分。如图4.10所示。如数字信息“1”,只包含两个频率成分,分别为行频697Hz,列频1209Hz,理论上在其他频率成分的能量为0。ITUQ.24推荐[37],DTMF信号发持续时间在45~55msec之间,信号发送间隔至少为45msec。123A456B789C黄0#D图4.10双音多频信号的行频和列频DTMF生成器由两个二阶数字正弦波振荡器合成,每个振荡器分别对应行¹图4.11DTMF生成器框图为了得到每个数字或字母信息对应的频率,振荡器需要合适的系数和初始条件。通常,数字正弦波振荡器系统函数为 对应的差分方程为初始条件y(-1)=y(-2)=0。即其中,。=2πʃ,/f.。f,为行频率或列频率,s,为采样频率,a为DTMF由于信号经过分帧加窗处理,为了维持生成的DTMF信号的相位连续,每帧保留结束点的两个历史值作为下帧的初始值。AT&T指定最高的按键速率是10数字或字母/秒,所以,对一个100msec的DTMF信号,DTMG生成际语音的持续时间在45msec至55msec之间,其余时间保持静音状态,以区别连续的不同DTMF信号。4.4.2双音多频信号的检测DTMF检测需要在输入的数据流中,检测到DTMF信号的存在,并将其转换为相应的数字或字母信息。Goertzel算法是DTMF检测器的基础,能够快速有效地提取输入信号的频谱信息。与DFT变换相比,Goertzel算法能够一次处理一个样点,而不是在处理前准备好所需的块数据样点集合,并且能很方便地得到所需要的频谱分量信息。Goertzel算法主要通过二阶IIR滤波器实现,具体步骤1381如下:2)n次递归运算后,频谱分量k的幅度平方为行频率或列频率;,对应的频率成分k计算如下:代入式(4-32)即的所需的频谱分量信息。由于在语音激活检测算法中存在DFT变换,所以,论文中采用直接从DFT中搜集相应的行频谱和列频谱信息的方法,在语音激活检测的过程中,也得到了双音多频信号检测所需的频谱信息,这样一举两得的做法,大大地降低了运算量和复杂度。有效性检验搜集到的频谱信息需经过一系列的有效性检验来确定是否存在有效的DTMF信号并给出其所对应的数字或字母信息。这里,为计算方便,频谱信息以幅度平方即能量的形式表示。根据式(4-32),令ʃ,=8kHz,v-256,得到行频率成分row_k-{22,25,17,30);列频点成分column_k-139,43,47,52}。检验过程如图4.12所示。1)所有行频谱分量和列频谱分量的总和占信号总能量的比值是否大于考虑频谱泄漏的影响,行频点和列频点的较高能量会有一部分泄漏到与其左右相邻的两个频点上。因此,上式中每个行频点和列频点的能量实际上均包含了三个频点的能量和。否行频和列频能量和检验是找到行频和列频中的能量峰值,记录峰值标号否反扭曲和标准扭曲检验是否二次谐波检验是否是DTMF信号译码返回2)分别找到所有行频谱分量和所有列频谱分量中的能量最大值,并记录能3)发送端发送的DTMF信号有相等的行频能量和列频能量,但是由于信道对两种频率的能量衰减程度不同,接收端的行频能量和列频能量会有一些偏差。对于高频衰减严重的低通滤波信道,接收到的行频能量会大于列频能量,这种偏差称为“反扭曲”。而对于接收到的行频能量小于列频能量的情况,叫作“标THR_TWIREV=8dB和THR_rWISTD=4dB以下为可接收的偏差范围。4)为了区别DTMF信号和可能的语音或音乐信号,还需要对二次谐波进行检验。如果语音或音乐信号在某基频上有突出的能量,那么与此基频对应的二次谐波也必然会有较高能量。而DTMF信号的能量仅在两个基频(行频和列频)有较多分布,二次谐波分量应该等于或接近于0(加窗截断造成的频谱泄漏)。因此,利用二次谐波检验能防止把语音或音乐信号误判为DTMF信号。其中,row_2ndk和column_2ndk分别表示对应于行频和列频的二次谐波频率成分。5)检验DTMF信号是否满足持续时间达到45msec以上的要求。如果DTMF信号依次通过了以上的所有检验,则判定为存在DTMF信号,数字或字母信息,完成了DTMF信号的检验译码过程。对输入信号进行DTMF检测,若检测出含有DTMF信号,则根据DTMF的译码信息,合成与输入信号相对应的DTMF信号。图4.13和图4.14分别以时域波形和语谱图的形式表示了输入的DTMF序列以及根据DTMF检测结果合成的信号。图(a)为输入的DTMF信号序列;图(b)为合成信号。图4.13DTMF检测和合成(时域表示)图4.14DTMF检测和合成(频域表示)由此看出,本文实现了对DTMF信号的准确检测和合成,合成信号保持了输入信号的频谱特征。在实际通信过程中,DTMF信号和语音信号一起通过信道传输,是否能有效区别语音和DTMF信号是检测的关键。图4.15中,(a)为输入的DTMF和语音混合信号,(b)为输出的检测合成的DTMF信号,无DTMF时输出为0。可以看到,并没有存在误检,验证了DTMF检测的鲁棒性。图4.15DTMF检测与合成(有效区别语音和DTMF信号)图4.15本章研究了与语音增强密切相关的语音激活检测算法。首先,概述了传统语音激活检测的方法、特点以及相关标准。针对传统算法在低输入信噪比和非平稳噪声干扰环境下误检率较高的问题,研究了一种基于高斯模型和一致最大势检验的语音激活检测算法,并给出了详细的测试结果。然后,利用语音激活检测中DFT得到的频谱信息,方便地实现了双音多频信号的生成和检测,给出第5章语音增强算法的研究与实现第5章语音增强算法的研究与实现前两章重点研究了噪声统计特性估计和语音激活检测算法,而长时信噪比先验信噪比估计,增益函数计算等也是基于短时谱幅度估计的语音增强算法中至关重要的部分,直接影响着语音短时谱估计的准确性和语音增强算法的整体性能。本章结合经典语音增强算法,着重研究先验信噪比估计和增益函数的计本章剩余章节按照如下方式组织:5.2节介绍本文语音增强算法流程;5.3节概述增强语音评测标准,包括主观评测与客观评测;5.4节给出本文语音增强带噪语音的表达式为y()=s()+d(),1=0,1.…L-1。d(T)和s()分别代表干扰噪声和纯净语音,带噪信号、干扰噪声和纯净语音的频谱分量分别用Y,=R,exp(B,),D,S,-A,exp(a)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论