基于改进型谱减法的语音增强技术研究.docx

上传人：x*** IP属地：四川上传时间：2019-01-14 格式：DOCX 页数：117 大小：361.17KB 积分：15 举报 版权申诉

已阅读5页，还剩112页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于改进型谱减法的语音增强摘要本文主要研究改进型谱减算法在语音增强中的应用，目的是增强语音质量，减少语音失真和提高其可度懂。我们首先介绍了语音增强的研究意义，然后介绍了语音信号的相关理论，进而阐述了语音增强的基本谱减法的原理，并在此基础上提出了一种改进型谱减算法。该算法通过语音激活检测(端点检测法)来确定“寂静段”（纯噪声段），从而对噪声功率谱进行重新估计。为了减小基音检测算法可能产生的检测误差，采用了组合递归平滑法来减小噪声谱估计的误差。整个仿真实验中，我们对引入的加性噪声进行处理，其噪声谱估计的性能可在本文中的MATLAB仿真实验中体现。仿真结果表明，该算法在去除背景噪声的同时，保证了较小的语音失真、提高了信噪比，达到了较好的测听效果。最后，基于噪声与语音具有一定的相关性的实际情况，我们提出了算法的进一步改进设想，并对此思想做出了数学推导，得到了算法进一步改进的方向及可行性。关键词：语音增强；谱减法；噪声估计；端点检测；组合递归平滑；仿真实验；改进算法目录第1章背景介绍11.1研究背景11.2 语音增强的历史和发展现状21.3 谱减法语音增强的研究现状31.4 本文主要的研究内容3第2章语音信号的基础理论42.1 人耳感知特性42.2 语音特性分析42.3 噪声分类及其特性52.4 语音信号的数字化和预处理62.4.1 语音信号预滤波、采样、A/D转换62.4.2 预处理62.5 语音信号的短时傅立叶变换8第3章基于改进型谱减法的语音增强技术83.1 谱减法的基本原理83.2 谱减法建立的假设103.3 “音乐噪声”的产生113.4 语音端点检测技术113.5 基音检测的后处理143.6 基于谱减法的语音增强算法流程153.7 仿真实验的结果163.8 模型的缺点及进一步改进思想18附录19参考文献19MATLAB仿真程序20III第1章背景介绍1.1研究背景人们在语音通信过程中不可避免地会受到来自周围环境、传输媒介引入的噪声、通信设备内部电噪声乃至其他讲话者的干扰。这些干扰最终将使接收者接收到的语音已非纯净的原始语音信号，而是受噪声污染的带噪语音信号。例如，安装在汽车、飞机或舰船上的电话，街道、机场的公用电话，常受到很强背景噪声的干扰，严重影响通话质量。又如，室内会议电话的交混回响随同语音广播到每个会议地点，影响收听效果。再如深海潜水员在氦-氧面罩内讲话引起的失真，语言障碍残疾人的语音失真，有历史价值的旧唱片、旧录音带的噪声和失真等，都是带噪语音信号的例子。环境噪声污染使许多语音处理系统的性能急剧恶化。例如，语音识别己取得重大进展，正在步入实用阶段。但目前的识别系统大都是在安静环境中工作的，在噪声环境中尤其是强噪声环境，语音识别系统的识别率将受到严重影响。低速率语音编码，特别是参数编码(如：声码器)，也遇到类似问题。由于语音生成模型是低速率参数编码的基础，当模型参数的提取受到混杂在语音中背景噪声严重干扰时，重建语音的质量将急剧恶化，甚至变得完全不可懂。在上述情况下，语音增强作为一种预处理手段，不失为解决噪声污染的一种有效途径。在实际需求的推动下，早在上个世纪60年代语音增强这个研究课题就引起人们的注意，此后40多年人们一直锲而不舍地进行这方面的研究。随着数字信号处理理论的成熟，70年代曾形成一个理论研究高潮，取得了一些基础性成果，并使语音增强发展成为语音信号处理的一个重要分支。进入80年代后，DSP(数字信号处理)技术的发展和成熟为语音增强的实时实现提供了可能。语音增强不但与语音信号数字处理理论有关，而且涉及到人的听觉感知和语音学范畴。再者，噪声的来源众多，随应用场合而异，它们的特性也各不相同。即使在实验室仿真条件下，也难以找到一种通用的语音增强算法能适用于各种噪声环境，所以必须针对不同噪声，采用不同的语音增强对策。目前，某些语音增强算法在实际应用中己经证明是有效的，它们大体上可分为四类：噪声对消法、谐波增强法、基于参数估计的语音再合成法和基于语音短时谱估计的增强算法。语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而，由于干扰通常都是随机的，从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下，语音增强的目的主要有两个：一是改进语音质量，消除背景噪音，使听者乐于接受，不感觉疲劳，这是一种主观度量；二是提高语音可懂度，这是一种客观度量。这两个目的往往不能兼得。目前有一些对低信噪比带噪语音进行语音增强的方法，可以显著地降低背景噪声，改进语音质量，但并不能提高语音的可懂度，甚至略有下降。语音增强是语音信号处理的一个重要分支，该技术已广泛应用于无线电话、电话会议、场景录音和军事窃听等领域。语音增强技术无论在日常生活中，还是在军事领域，或者在语音信号处理技术中都很有应用价值。因此研究语音增强算法有很重要的实用价值。1.2 语音增强的历史和发展现状语音增强方法的研究始于20世纪70年代中期，随着数字信号处理理论的成熟，语音增强发展成为语音信号处理领域的一个重要分支。1978年，Lim和Oppenheim提出了语音增强的维纳滤波方法。1979年，Boll提出了谱相减方法来抑制噪声。1980年，Maulay和Malpss提出了软判决噪声抑制方法。1984年，Ephraim和Malah提出基于MMSE短时谱幅度估计的语音增强方法。在近30年的研究中，各种语音增强方法不断被提出，奠定了语音增强理论的基础；并使之逐渐走向成熟。近些年来，随着VLSI技术的发展和高速DSP芯片的出现，使语音增强的实时实现成为可能。语音增强方法逐步走向实用，同时新的语音增强方法又相继涌现，如基于小波变换的方法，基于人耳掩蔽效应的方法等。目前常用的语音增强算法分为如下几类：基于谱相减的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法、基于听觉掩蔽效应的语音增强方法、基于独立分量分析的语音增强方法、基于神经网络的语音增强方法。其中，谱相减法、维纳滤波法、最小均方误差法等算法的研究是基于短时谱估计的语音增强算法，这种方法力图获得语音信号频谱幅度的最优估计，是从观测序列中以最小均方误差准则估计语音信号正交展开系数的模值。该类方法具有适应信噪比范围大、方法简单、易于实时处理等优点。尽管该方法研究比较早，但仍具有很强的生命力，成为应用最广泛的语音增强方法。1.3 谱减法语音增强的研究现状S. Boll 假设噪声是平稳的或缓慢变化的加性噪声，并且语音信号和噪声信号不相关的情况下，提出了谱减法 (SS：Spectral Subtraction)。该方法能够抑制背景噪声的影响，但由于其局部平稳性的假设与实际情况并不相符，因此效果不理想，残留的音乐噪声较大；Berouti在传统谱减法的基础上增加了调节噪声功率谱大小的系数和增强语音功率谱的最小值限制，提高了谱减法的性能，但是其修正系数和最小值是根据经验确定的，适应性较差；P. Lockwood在谱减法的基础上提出了非线性谱减法(NSS：Non-liner Spectral Subtraction)，它根据语音信号的信噪比自适应调节语音增强的增益函数，提高了语音的信噪比，而信噪比并不能正确反映信号的听觉质量，因此用信噪比作为调整估计参数的依据并不能提高信号的听觉质量；Boh Lim Sim等人也提出了与此相近的改进算法，虽然提高了信号的信噪比，但残留的音乐噪声较大；Virag将人耳的掩蔽特性应用到非线性谱减法的增强算法中，部分解决了谱减法残留音乐噪声大的问题，但在信噪比较低或非平稳的情况下，其增强效果不理想；I.Cohen 等人首先估计语音信号概率密度函数，然后在此基础上改进了对数谱估计算法，使得改进的算法对非平稳噪声具有良好的抑制作用，该算法的缺点是语音信号的概率密度函数较难估计。噪声参数估计的准确与否直接会影响谱减法语音增强效果，因此，带噪语音中背景噪声参数的估计问题值得关注。1.4 本文主要的研究内容本文分析了基本谱减法的原理，并在此基础上提出一种改进型谱减法：基于语音活性检测(Voice Activity Detector)噪声估计方法进行噪声估计，从而减小噪声估计的误差。然后，采用了组合递归平滑（中值平滑与线性平滑的组合）的方法更新噪声谱，并在此基础上应用谱减法进行语音增强，使处理后的语音更为接近纯净语音，最后，MATLAB的仿真实验结果表明：该算法可以有效的提高语音听觉质量，其计算复杂度也不高。第2章语音信号的基础理论2.1 人耳感知特性因为语音增强效果最终取决于人的主观感受，所以语音感知对语音增强研究有重要作用。人耳对背景噪声有很大的抑制作用，了解其机理大大有助于语音增强技术的发展。语音感知问题涉及到生理学、心理学、声学、和语音学诸多领域，其中有很多问题有待进一步研究。目前已有一些结论可用于语音增强：1.人耳对语音的感知主要是通过其幅度谱获得的，而对相位谱不敏感。2.人耳对频率高低的感受近似于该频率的对数值成正比。3.人耳具有掩蔽效应，即强信号对弱信号有抑制作用，能够将其掩盖。4.共振峰对语音的感知十分重要，特别是第二共振峰比第一共振峰更为重要，因此对语音信号进行一定程度的高通滤波不会对可懂度产生影响。5.人耳在两个以上的说话环境中能够分辨出它所需要的声音。6.人耳对频谱分量强度的感受是频率与能量谱的二元函数，响度与频谱幅度的对数成正比。2.2 语音特性分析语音是人们讲话时发声器官发出的一种声波，具有声音的物理特性。然而它又是一种特殊的声音，是人们用来交流信息的工具，因此语音是声音和语言的组合体。语音和语言是研究人类话语的一门学科，它具有一定的音色、音调、音强和音长。因此，有必要了解语音信号的一些基本特征。浊音在时域上呈现出明显的周期性；在频域上有共振峰结构，而且能量大部分集中在较低频段内，而清音段没有明显的时域和频域特征，类似于白噪声。人类的发声系统的生理结构的变化速度是有一定限度的，在一段时间内(1030ms)人的声带和声道形状具有相对稳定性，可以认为其特性是不变的，因而语音的短时谱分析也有相对稳定性，在语音增强中可以利用短时谱的这种稳定性。语音信号是非平稳、时变的，但又是准平稳、慢变的，因此短时处理技术是合适的。语音信号的时域特征参数主要有短时能量，短时过零率和短时能量比等。时域分析具有特征提取简单、运算量小、物理意义明确等优点，便于我们直观的认识语音信号。但它的缺点是不能压缩维数，且不适于表征幅度谱特性。因此频域的特性显得尤为重要。短时分析应用于频域就是短时傅立叶变换。相应的频谱称为“短时谱”，即有限长度的傅立叶变换。频域参数对于语音识别系统来说更为有效，这是因为频域特征参数能从不同角度反映幅度谱的特征，例如，频谱、频谱包络、倒谱系数、共振峰等。2.3 噪声分类及其特性噪声来源于实际的应用环境，因而噪声特性可以说是千变万化。噪声可以是加性的，也可以是非加性的。对于非加性噪声，有些可以通过变换转变成加性噪声，例如，乘性噪声(或卷积噪声)可以通过同态变换而成为加性噪声。又如，某些与信号相关的量化噪声可以通过伪随机噪声扰动的方法变换成与信号独立的加性噪声。加性噪声大体上可分为以下几种：白噪声、周期性噪声、脉冲性噪声、宽带噪声等。周期性噪声的特点是有许多离散的窄谱峰，它往往来源于发动机等周期性运转的机械设备。周期性噪声引起的问题可能最少，因为可以通过功率谱发现并通过滤波或变换技术将其去掉。但是，其中交流噪声的抑制很困难，因为其频率成分不是基音(因为它在语音信号有效频率以下)，而是谐波成分(它可能以脉冲形式覆盖整个音频频谱)。冲击噪声表现为时域波形中突然出现的脉冲，它通常是放电的结果。消除这种噪声可以在时域进行，即根据带噪语音信号幅度的平均值确定阈值。当信号幅度超出这一阈值时，判别为冲击噪声，在对其进行衰减甚至完全消除。如果干扰脉冲之间不太靠近，还可以根据信号相邻样本数值简单地通过内插法将其从时间函数中去掉。宽带噪声通常可以假定为高斯噪声和白噪声，它的来源很多，包括风、呼吸噪声和一般随机噪声源。量化噪声通常作为白噪声来处理，也可以视为宽带噪声。由于宽带噪声与语音信号在时域和频域上完全重叠，因而消除它最为困难。对于非平稳的宽带噪声，情况更为复杂。2.4 语音信号的数字化和预处理语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D转换及编码（一般就是PCM码）。预处理一般包括预加重、加窗和分帧等。2.4.1 语音信号预滤波、采样、A/D转换预滤波的目的有两个：抑制输入信号各频域分量中频率超出fs/2的所有分量（fs为采样频率），以防止混叠干扰；抑制50Hz的电源工频干扰。这样预滤波器必须是一个带通滤波器，设其上、下截止频率分别为fH和fL，则对于绝大多数语音编译码器，fH=3400Hz，fL=60100Hz，采样频率fs=8000Hz；而对于语音识别而言，当用于电话用户时，指标和与语音编译码器相同。语音信号经过预滤波和采样后，由A/D转换器转换为二进制数字码。通过以上分析，首先将语音信号x(n)通过一个通带频率为 604000Hz 的带通滤波器h(n)，得到 xn=xn*hn n=1,2,N (2-1) 式中，是信号的长度；表示卷积。2.4.2 预处理由于语音信号的平均功率谱受声门激励和口鼻辐射影响，高端大约在800Hz以上按6dB/倍频跌落，即6dB/oct(2倍频)或20dB/oct(10倍频)，所以在求语音信号频谱时，频率越高的相应成分越小，高频部分的频谱比低频部分的难求，为此要在预处理中进行预加重处理。预加重的目的是提升高频部分，是信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。预加重可由提升高频特性的预加重数字滤波器来实现，它一般是一阶数字滤波器： (2-2)经过证明得知，以上滤波器工作原理与以下在时间域运算的公式等价，故加重方式如下： (2-3)为了恢复原信号，需要对做过预加重的信号频谱进行去加重处理。去加重方式为： (2-4)其中，与为加重因子，一般取。由于语音信号是一种非平稳的时变信号，其产生过程与发声器官的运动紧密相关。而发声器官的状态速度较声音振动的速度缓慢的多，因此语音信号可以认为是短时平稳的。研究发现，在550ms的范围内，语音频谱特征和一些物理特征参数基本保持不变。因此可以将平稳过程中的处理方法和理论引入到语音信号的短时处理当中，将语音信号划分为很多短时的语音段，每个短时的语音段称为一个分析帧。这样，对每一帧语音信号处理就相当于对特征固定的持续信号进行处理。帧既可以是连续的，也可以采用交叠分帧，一般帧长取 1030ms。取数据时，前一帧和后一帧的交迭部分称为帧移，帧移与帧长之比一般取为01/2。对取出的语音帧要经过加窗处理，即用一定的窗函数与信号相乘，从而形成加窗语音。加窗的主要作用在于减少由分帧处理带来的频谱泄露，这是因为，分帧是对语音信号的突然截断，相当于语音信号的频谱与矩形窗函数频谱的周期卷积。由于矩形窗频谱的旁瓣较高，信号的频谱会产生“拖尾”，即频谱泄露。为此，可采用汉明窗，因为汉明窗旁瓣最低，可以有效地克服泄露现象，具有更平滑的低通特性，得到的频谱比较平滑。汉明(Hamming)窗定义： (2-5)2.5 语音信号的短时傅立叶变换语音信号的频域分析在信号处理中占有十分重要的地位，在频域内研究语音信号，可以使信号某些在时域内无法表现出来的特征变得十分明显，比较常用的是傅立叶变换。传统傅立叶变换是以应用数学为基础建立起来的一门学科，它将信号分解为各个不同频率分量组合，使信号的时域特征与频域特征联系起来成为信号处理的有利工具。但傅立叶变换使用的是一种全局变换，无法表述信号的局部性质，而短时傅立叶变换可以弥补这种缺点。正如前面的分析所述，由于语音信号是短时平稳的，因此，我们可以对语音进行分帧处理，计算某一帧的傅立叶变换，这样得到的就是短时傅立叶变换，其定义为： (2-6)其中为实数窗函数，取不同值时，窗沿时间轴滑动到不同的位置，取出不同的语音帧进行傅立叶变换。短时傅立叶变换是时间和角频率的函数，它反映了语音信号的频谱随时间变化的特性。第3章基于改进型谱减法的语音增强技术3.1 谱减法的基本原理谱相减方法是基于人的感觉特性，即语音信号的短时幅度比短时相位更容易对人的听觉系统产生影响，从而对语音短时幅度谱进行估计，适用于受加性噪声污染的语音。处理宽带噪声的最通用技术是谱相减法，即从带噪语音估值中减去噪声频谱估值，从而得到纯净语音的频谱。由于人耳对语音频谱分量的相位不敏感，因而这种方法主要针对短时幅度谱。所谓“谱相减”就是从输入信号的幅度谱中减去估计得来的噪声平均幅度谱，其效果相当于在变换域对带噪信号进行了某种均衡化处理。相对于其它方法，谱相减法引入的约束条件最少，物理意义最直接，运算量小，而且经过改进后效果也较好。传统的谱减法即在频域将带噪语音的功率谱减去噪声的功率谱，得到语音的功率谱估计，开方后就得到语音幅度估计，将其相位恢复后再采用逆傅立叶变换恢复时域信号。考虑到人耳对相位的感觉不灵敏，相位恢复时所采用的相位是带噪语音的相位信息。由于语音是短时平稳的，所以在短时谱幅度估计中认为它是平稳随机信号，假设、和分别代表语音、噪声和带噪语音，、和分别表示其短时谱。假设噪声是与语音不相关的加性噪声。于是得到信号的加性模型： (3-1)经过加窗处理后的信号分别表示为，则有 (3-2)对上式两端分别做傅立叶变换，得 (3-3)对功率谱有 (3-4)可以根据观测数据估计，其余各项必须近似为统计均值。由于sm和nm独立，则互相的统计均值为0，所以原始语音的估值为 (3-5)为了估计噪声功率，采用了端点检测法。因为噪声是局部平稳的，故可以认为发音前的噪声与发音期间的噪声功率谱相同，因而可以利用发语音前的“寂静帧”来估计噪声。从(3-5)式中可以看出，估计值不能保证是非负的，这是因为在估计噪声时存在误差，当估计噪声平均功率大于某帧带噪语音功率时，该帧得出的估计值就会出现为负的情况，这些负值我们可以通过改变它们的符号使之变为正值，也可以直接给它们置零，本文我们采用后种处理方式。只要在频域用(3-5)式得到纯净语音的谱估计，就可以根据(3-6)式得到增强后的语音。sm=IFFT|sw()|ej(w) (3-6)如前面分析，利用人耳对相位不敏感的特点，在式(3-6)中可利用原带噪语音的相位恢复到时域语音信号，从而得到处理后的语音信号，完成整个基于谱减法的语音增强过程。根据前面分析，我们可以给出谱相减算法的整个算法流程，如图3-1所示：增强后的语音带噪语音啊FFTIFFT相位信息减去估计噪声图3-1 谱减法的算法流程3.2 谱减法建立的假设谱减法的建立要基于以下几点假设：1) 噪声信号和语音信号是互不相关的（独立的），并且在频域是加性的关系。2) 背景噪声环境相对于语音活动区域来说是近似稳态的，这样就可以利用在无声段估测的平均噪声谱来逼近有声段的噪声谱。3) 如果背景噪声环境变化到一个新的稳态，则应有足够的时间(约300ms左右)以便于估计出新的背景噪声谱幅度估值。4) 对于缓慢变化的非平稳噪声环境，谱减法算法中有话音激活检测环节以便适时的判断并进行调整。5) 假设主要噪声影响的消除可以通过仅仅从带噪语音谱幅度中减去噪声而实现。3.3 “音乐噪声”的产生谱减法技术大多数都是在频域上进行，也有在时域的。由于在谱减法处理过程中，是以无声期间统计平均的噪声方差代替当前分析帧各频率点的噪声频率分量，而噪声频谱具有高斯分布，即其幅度随机变化范围很宽，因此相减时，若该帧某频率点噪声分量较大，就会有很大一部分保留，具体来讲，由谱相减所产生的噪声称为残余噪声，与语音信号不相关，是由具有随机频率和幅度的窄带信号所组成。在频谱上呈现随机出现的尖峰，便产生了间歇短暂的突发声调，在听觉上形成有节奏性起伏的类似音乐噪声的残留噪声。这种具有音乐特性的残余噪声是各帧内在随机频率上出现的许多声调的群体结果。它比原始语音中的噪声清楚的多，也更易令人反感。这种噪声具有“音乐”的听觉效果，听起来像有“咕咕”的流水声，因此称为“音乐噪声”。听者常常能发现处理后的语音中的“音乐噪声” 比原始信号中的噪声更为清晰，这是由于在短时谱估计中，在各帧的随机频率点上出现多种频率的组合而产生的。3.4 语音端点检测技术由上述分析可知，在谱减法中噪声功率谱的估计至关重要，如果噪声估计偏差较大的话，将毫无疑问的影响语音增强质量。传统的噪声估计方是由Rainer Martin提出的基于最优平滑和最小统计的噪声估计，本文采用改进的算法基于语音活性检测(Voice Activity Detector)的噪声估计算法。语音激活检测(VAD，Voice Activity Detection)指从一段包含语音的信号中确定出语音的起始点和终点，又称端点检测(Ending Detection)。语音端点检测的目的就是从连续记录的带噪语音信号中分离出我们真正感兴趣的语音信号。语音激活检测是各种语音处理中必需的重要环节，精确地确定输入语音的起点和终点将保证语音处理系统良好的性能，语音激活检测是语音增强中的一个关键问题。一些系统中，对于语音和噪声的处理方法也不同，如果不能判断当前语音帧是含噪语音帧或是噪声帧的话，就不能进行适当的处理，这种系统对语音存在性的判断要求就更高一些，要求把每一帧噪声都判断出来。在语音增强系统中，语音知识的学习和噪声源信息估计的积累都依赖于准确的端点检测。对于语音激活检测应用，在语音增强中，为了得到更多的背景噪声特性，语音端点检测更注重于如何准确的检测出无音段。通常的语音激活检测是基于语音帧来进行的，语音帧的长度在1030ms不等。语音活性检测的方法可以综述为：从输入信号中提取一个或一系列的对比特征参数，然后将其和一个或一系列的门限阈值进行比较，如图3-2所示。如果超过门限则表示当前为有音段，否则就表示当前为无音段。门限通常是根据无音段时语音特征确定的。但是由于语音和环境噪声的不断变化，使得这一判决过程变得非常的复杂。于是一个好的语音活性检测算法必须具备对各种噪声的鲁棒性，同时要简单，适应性好，易于实时实现。带噪语音加窗分帧特征提取与阀值比较判断有无语音图3-2 语音激活检测框图目前语音端点检测所采取的方法大体可以分为两类：第一类是噪声环境下基于 HMM 模型的语音信号端点检测的方法，该方法要求背景噪声保持平稳且信噪比较高。第二类方法是基于信号的短时能量进行检测的算法，它通过对背景噪声能量的统计，定出能量门限，利用能量门限来确定语音信号起始点。在本文中，语音端点检测采用了第二类方法，即基于信号的短时能量进行检测的算法。基于信号的短时能量检测具体算法如下：1) 计算每一帧的语音能量： (3-7)式中为帧长，为帧的编号，为帧数，m为每一帧中的各点；然而它有一个缺陷，即它对高电平非常敏感（信号的二次方计算）。为此，定义短时平均幅度函数来表征一帧语音信号的能量大小，定义： (3-8)2) 计算前20帧平均噪声能量；3) 求能量最大值和能量最小值，；4) 根据式(3-9)确定门限 (3-9)基于端点检测法的算法流程图如下：图3-3 端点检测算法流程图该算法建立在平稳高斯噪声模型基础上，在背景噪声幅度保持恒定且远低于语音信号幅度时，可以十分有效地检测出语音信号的端点。本文应用谱相减法实现语音增强基本原理是通过对带噪语音谱减去噪声谱得到语音谱，因此，语音激活检测这一环节非常重要。因为准确地确定语音的起始点和终止点对噪声谱估计有着重要的作用。3.5 基音检测的后处理基音检测算法可能产生检测误差，使求得的基音周期轨迹中有一个或几个基音周期估计值偏离了正常轨迹（通常是偏离到正常值的0.5倍或2倍），称这种偏离点为基音轨迹的“野点”。为了去除这些野点，可以采用各种平滑算法，最常用的是中值平滑算法和线性平滑算法。本文采用组合平滑算法，将中值平滑和线性平滑组合，为使平滑的基音轨迹更贴近，并采用二次平滑的算法。设所要平滑的信号为TPn，经过一次组合得到的信号为p(n)。那么首先应求出两者的差值信号TPn=Tpn-p(n)，再对TPn进行组合平滑，得到Pn，令输出等于pn+p(n)，就得到更好的基音周期估计轨迹。全部算法的框图如图3-4所示。图3-4 组合二次平滑算法流程图3.6 基于谱减法的语音增强算法流程本论文采用了MATLAB语言实现了整个基于谱减法的语音增强算法，具体MATLAB程序见附录，其算法流程如下：1)对输入的语音信号进行预滤波；2)对滤波后的语音信号进行预加重；3)将语音信号按每帧128个信号点进行分帧,帧移为64；4)对信号帧加汉明窗(Haming)；5)对加窗后的信号帧进行FFT变换；6)对各帧语音信号求功率谱；7)根据前20帧求取平均噪声功率；8)利用VAD进行噪声估计检测寂静段，进而组合递归平滑，更新噪声谱；9)进行谱减运算，得到估计出的语音信号功率谱；10)插入相位谱，计算出语音谱；11)进行IFFT变换，得到还原的语音帧；12)根据各个语音帧组合为语音信号；13)对语音信号进行去加重处理，得到最终信号。根据以上谱减法的算法流程，采用MATLAB语言进行仿真试验，试验用的语音材料是WAV格式的语音，经处理后去噪效果明显，较好地抑制了噪声，提高了语音的可懂度。3.7 仿真实验的结果在仿真实验中，采用的是在实验室内录制的纯净男语音信号“基于改进型谱减法的语音增强”，采样率8kHz，使用MATLAB函数wavread( )调用，在程序中对纯净语音加入高斯白噪声，调用MATLAB函数的wavwrite( )进行输出，命名为“noised”。根据谱减法的假设：假定纯净语音与高斯白噪声相互独立，故我们可将两者直接相加得到带噪的语音信号。当得到带噪语音信号后，对其进行谱减去噪处理，便到去噪后的语音信号，并调用MATLAB函数的wavwrite( )进行输出，命名为“enhanced”。从声音文件的测听效果来说，是令人满意的。在本论文的MATLAB程序中，分别画出了纯净语音 (见图3-5)、加噪语音 (见图3-6)、增强后语音 (见图3-7)的语音图。从的语音图中可以很容易发现，本论文提出的算法具较明显的去噪效果。图3-5 纯净语音信号图3-6 带噪语音信号图3-7 增强后的语音信号3.8 模型的缺点及进一步改进思想在本文采用的功率谱减法中，我们假设噪声和语音是相互独立且噪声是零均值的高斯分布，但在现实世界中的噪声几乎都不是零均值的高斯分布，并且语音和噪声具有一定的相关性。因此，直接采用谱减法进行语音增强具有一定的局限性。基于此点考虑，我们对下式（功率谱）作进一步的分析。其中：为带噪语音的频谱、为纯净语音的频谱、为噪声的频谱。两边同时求期望：在上文的分析中，由于假设语音和噪声是相互独立的，因此可得到通过式子的分析可知，为了体现原始信号与噪声通常的相关性，上式的值不可忽略，尤其是在低信噪比的条件下，上式更不可被轻易忽略。因此将问题转化为如何估计上式。从数学的角度出发，我们知道方差有如下性质：由此，可作如下估计：其中，且令，则也有，原期望等式可变形为：因此，对一帧内的短时平稳过程的功率谱，有：由此式可看出，只要较好地估计出的值，就可以估计出更接近实际（语音与噪声不相互独立）的噪声功率谱。基于以上的改进思想，我们做了数学上简要的推导分析，从得到的结论可以看出，此思想具有一定可行性，也为今后进一步的研究工作提供了一个方向。附录参考文献1 程乾生.数字信号处理简明教程M.北京：高等教育出版社，2007.32 赵力.语音信号处理（第二版）M.北京：机械工业出版社，2009.53 李正周.MATLAB数字信号处理与应用M.北京：清华大学出版社，2008.54 王正林，刘明.精通MATLAB 7M.北京：电子工业出版社，2006.75 John G. Proakis 著，汤俊译.统计信号处理算法M.北京：清华大学出版社，2006.36 柳春.一种改进的基于短时平均幅度的语音端点检测算法研究J.西南名族大学学报，2009.3: 56-597 胡科开，吴凭天等.一种基于改进型谱减法的语音增强新算法J.大众科技，2008.第9期:25-268 职振华，马建芬.改进的谱减法在语音增强中的应用J.语音技术，2008.46-489 郑方.语音端点检测、前端处理和特征抽取的研究J.毕业设计论文，1990.6MATLAB仿真程序load test%s - 纯净的语音信号%n - 白噪声信号%x - 加噪后的语音信号%y - 加重后的语音信号%y_fft - 频域信号%y_w - 信号帧每帧的功率谱%y_w_dec - 减谱后的功率谱%x_new - 减谱后的语音信号Wp=0.025*pi,0.85*pi; %通带上下截止频率Ws=0.010*pi,0.95*pi; %阻带上下截止频率Ap=10; %通带内衰减As=60; %阻带内衰减N=128; %每帧的信号个数p=0.0005; %白噪声信号的方差alpha=0.75; %加重系数beta=0.90;%去重系数%产生均值为0,方差为p,服从高斯分布的白噪声信号nn=noise(p,length(s);%纯净的语音信号s加上白噪声信号n,得到带噪语音信号xx=s+n;%预处理%产生带通滤波器wdb,mag,pha,grd,w=bandpass(Wp,Ws,Ap,As,length(x);%将带噪语音信号x通过带通滤波器w,得到语音信号x_bapbap=abs(ifft(w/pi);x_conv=conv(x,bap);x_bap=x_conv(1,1:length(x_conv)/2);%将语音信号x_bap加重,得到语音信号yfor j=1:length(x_bap)-1y(j)=x_bap(j)-alpha*x_bap(j+1);endy(length(x_bap)=x_bap(length(x_bap);%将语音信号y按每帧N个信号点进行分帧,帧移为N/2,得到信号帧y_framfor j=1:floor(length(y)/(N/2)-1for k=1:Ny_fram(j,k)=y(j-1)*(N/2)+k);endend%产生汉明窗hamham=hamming(N);%对信号帧y_fram加汉明窗ham,得到信号帧y_hamfor j=1:floor(length(y)/(N/2)-1for k=1:Ny_ham(j,k)=y_fram(j,k)*ham(k);endend%对信号帧y_ham进行短时傅立叶变换,得到频域信号y_ffty_fft=fft(y_ham,128);%计算频域信号y_fft的相位谱y_fft_angley_fft_angle=angle(y_fft);%计算频域信号y_fft每帧的功率谱y_wy_w=sum(abs(y_fft);%噪声估计%根据功率谱y_w前20帧计算平均噪声功率aveave=0;for j=1:20ave=ave+y_w(j);endave=ave/20;%根据平均噪声功率ave进行语音激活检测%设阀值为T,若当前帧的功率大于T,则噪声功率为平均噪声功率ave;若小于T,则取其值为噪声功率%得到估计后的每帧噪声功率谱noise_wEMAX=max(y_w(1:20);EMIN=min(y_w(1:20);T=min(0.03*(EMAX-EMIN)+ave,4*ave);for j=1:length(y_w)if y_w(j)Tnoise_w(j)=y_w(j);elsenoise_w(j)=T;endend%组合平滑更新噪声谱%采用中值平滑更新噪声谱noise_w,得到噪声谱noise_w_midfor j=2:(length(noise_w)-1)array=noise_w(j-1),noise_w(j),noise_w(j+1);array=sort(array);noise_w_mid(j)=array(2);endnoise_w_mid(length(noise_w)=ave;%采用线性平滑更新噪声谱noise_w_mid,得到噪声谱noise_w_linenoise_w_line(1)=ave;noise_w_line(2)=ave;for j=3:(length(noise_w_mid)-2)noise_w_line(j)=1/9*noise_w_mid(j-2)+2/9*noise_w_mid(j-1)+3/9*noise_w_mid(j)+2/9*noise_w_mid(j+1)+1/9*noise_w_mid(j+2);endnoise_w_line=noise_w_line,ave,ave;%计算原噪声功率谱noise_w与新噪声功率谱noise_w_line的残差噪声谱noise_deltanoise_delta=noise_w-noise_w_line;%采用中值平滑更新残差噪声谱noise_delta,得到残差噪声谱noise_delta_midfor j=2:(length(noise_delta)-1)array=noise_delta(j-1),noise_delta(j),noise_delta(j+1);array=sort(array);noise_delta_mid(j)=s(2);endnoise_delta_mid(length(noise_delta)=0;%采用线性平滑更新残差噪声谱noise_delta_mid,得到残差噪声谱noise_delta_linefor j=3:(length(noise_delta_mid)-2)noise_delta_line(j)=1/9*noise_delta_mid(j-2)+2/9*noise_delta_mid(j-1)+3/9*noise_delta_mid(j)+2/9*noise_delta_mid(j+1)+1/9*noise_delta_mid(j+2);endnoise_delta_line=noise_delta_line,0,0;%计算新噪声功率谱noise_w_line与残差噪声谱noise_delta_line之和,得到平滑之后的噪声功率谱noise_w_comnoise_w_com=noise_w_line+noise_delta_line;%用平滑之后的噪声功率谱noise_w_com减去功率谱y_w%如果减谱后的功率小于0,则置为0%得到减谱后的功率谱y_w_decy_w_dec=y_w-noise_w_com;for j=1:length(y_w_dec)if y_w_dec(j)0y_w_dec(j)=0;endend%利用相位谱y_fft_angle恢复减谱后的频域信号y_fft_newfor j=1:N for k=1:floor(length(y)/(N/2)-1 y_percent(j,k)=abs(y_fft(j,k)/y_w(k); endendfor k=1:length(y_w_dec) for j=1:N y_fft_new(j,k)=y_w_dec(k)*y_percent(j,k)*exp(i*y_fft_angle(j,k); endend%对频域信号y_fft_new做反傅立叶变换,得到信号帧y_new_framy_new_fram=real(ifft(y_fft_new);%根据信号帧y_new_fram恢复语音信号y_newh=1;for j=1:N/2 y_new(h)=y_new_fram(j,1); h=h+1;endfor j=2:floor(length(y)/(N/2)-1 for k=1:N/2 y_new(h)=y_new_fram(k,j)+y_new_fram(k+N/2,j-1); h=h+1; endend%对语音信号y_new做去加重,得到减谱完毕的语音信号x_newfor j=1:length(y_new)-1x_new(j)=y_new(j)+beta*y_new(j+1);endx_new(length(y_new)=y_new(length(y_new);wavwrite(x,8000,noised);wavwrite(x_new,8000,enhanced);%产生白噪声function n=noise(p,Length)n_rand=randn(1,Length);n_rand_mean=mean(n_rand);n_rand_var=var(n_rand);n=n_rand-n_rand_mean;n=(n*sqrt(p/n_rand_var);%产生带通滤波器function db,mag,pha,grd,w=bandpass(Wp,Ws,Ap,As,Length)N,wn=buttord(Wp/pi,Ws/pi,Ap,As);b,a=butter(N,wn,bandpass);H,w=freqz(b,a,Length);mag=abs(H);db=20*log10(mag/max(mag);pha=angle(H);grd=grpdelay(b,a,w); %plot(w/pi,mag);2*本科毕业设计（论文）管理暂行规定毕业设计（论文）是本科人才培养的重要实践性教学环节，也是学士学位评定的重要依据。为了切实做好我校的毕业设计（论文）工作，规范毕业设计（论文）工作的管理，提高毕业设计（论文）的质量，特制定本规定。一、毕业设计（论文）的主要目的（一）培养学生运用所学知识独立地分析和解决本专业范围内一般问题的能力，培养学生的创新意识和实践能力，使学生从事学术研究的能力得到初步的训练；（二）培养学生理论联系实际的工作作风和严谨认真的科学态度；（三）培养学生分析设计能力、研究实验能力、工程实践能力、经济分析能力、外文阅读能力和计算机的运用能力，以及社会调查、文献资料查阅和论文写作能力。二、毕业设计（论文）的基本要求（一）按照各专业“毕业设计（论文）教学大纲”的要求进行；（二）要具有学术性，要对自然科学或社会科学内某一领域进行专门、系统的研究，并表达其研究成果；（三）要具有创见性，要对学术或工程的某个问题有新的发现、新的构想或新的发展和完善；（四）要具有科学性，要求论述系统而完整，首尾一贯而不前后矛盾，实事求是而不主观臆造；（五）要具应用性，要能解决生产实际问题，在技术改造、生产管理等通过方面有所创造；（六）应做到观点正确、论据充分、推理严密、计算准确，层次分明、条理清楚、语言精炼，有必要的图表和相关资料等；（七）应参阅一定数量的外文资料，并要求在毕业设计（论文）中反映出来。三、毕业设计（论文）的工作程序毕业设计（论文）工作程序分为选题、开题、撰写论文或设计、中期检查、答辩、归档等环节。四、毕业设计（论文）的时间安排毕业设计（论文）工作时间为812周，时间安排应按*本科生毕业设计（论文）工作流程执行，集中用于毕业设计（论文）的时间不得少于专业培养计划规定的周数。五、毕业设计（论文）的领导与管理全校毕业设计（论文）在分管教学副校长领导下进行，分级管理，层层负责。（一）教务处毕业设计（论文）管理工作职责：1、汇总各院（部）毕业设计（论文）题目和指导教师安排，协调有关问题；2、做好毕业设计（论文）前期、中期、后期检查工作，对未达到各阶段进度、质量要求或违反有关规定的院（部）提出整改要求；3、开展学校毕业设计（论文）工作评估和研究工作。（二）院（部）毕业设计（论文）管理工作职责：各院（部）成立毕业设计（论文）工作领导小组，确定毕业设计（论文）指导教师，布置毕业设计（论文）工作任务，检查本院（部）毕业设计（论文）工作落实情况。院（部）毕业设计（论文）管理工作职责为： 1、审查毕业设计（论文）选题、下达任务书，安排指导教师，布置毕业设计（论文）有关工作；2、定期检查毕业设计（论文）工作进展情况，协调处理毕业设计（论文）中的有关问题，督促检查指导教师的工作；3、对学生毕业设计（论文）按规范化要求进行形式审查，

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于改进型谱减法的语音增强技术研究.docx

文档简介

温馨提示

最新文档

评论

基于改进型谱减法的语音增强技术研究.docx

文档简介

温馨提示

最新文档

评论

相关文档