语音信号处理第5章-语音增强课件

上传人：m*** IP属地：贵州上传时间：2023-06-09 格式：PPT 页数：48 大小：1.16MB 积分：25 举报 版权申诉

已阅读5页，还剩43页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第5章语音增强谱减法维纳滤波概述基础知识自适应滤波器法听觉掩蔽法5.1概述现实生活中的语音不可避免的要受到周围环境的影响，很强的背景噪声例如机械噪声、其它说话者的话音等均会严重的影响语音信号的质量；此外传输系统本身也会产生各种噪声，因此接收端的信号为带噪语音信号。语音增强的目的包括：1）改进语音质量，消除背景噪音，使听者乐于接受，不感觉疲劳，这是一种主观度量；2）提高语音可懂度，这是一种客观度量。但是两者往往不能兼得，所以实际应用中总是视具体情况而有所侧重的。语音增强不仅涉及信号检测，波形估计等传统信号处理理论，而且与语音特性，人耳感知特性密切相关。而且，实际应用中噪声的来源及种类各不相同，从而造成处理方法的多样性。因此，要结合语音特性、人耳感知特性及噪声特性，根据实际情况选用合适的语音增强方法。难点：某些噪声很像语音；有些语音也算噪声；降噪效率方法：对语音和噪声分别建模噪音快速建模算法水平：达到军工要求5.2基础知识1）人耳感知语音主要是通过语音信号的频谱分量的幅度，而对相位不敏感，且语音响度与频谱幅度对数成正比；2）人耳对100Hz以下的低频声音不敏感，对高频声尤其是2000~5000Hz的声音敏感，对3000Hz的声音最敏感；3）人耳对于频率的分辨能力受声强的影响，过强或者太弱的声音都会导致对频率的分辨力降低；4）人耳具有掩蔽效应，声强较低的频率成分会受到声强较高的频率成分的影响，不易被人耳感知到。5）人类听觉具有选择性注意特性，指在嘈杂的环境下，能将注意力集中在感兴趣的声音上而忽略掉背景声的能力。5.2.1人耳感知特性5.2.2语音特性语音信号是一种非平稳的随机信号，但在10ms～30ms的时间段内语音的某些物理特性和频谱特性可以近似看作是不变的，可以在语音增强中利用短时频谱时的平稳特性。语音的短时谱的统计特性服从高斯分布。浊音（包括元音）具有明显的准周期性和较强的振幅，它们的周期所对应的频率就是基音频率；清辅音的波形类似于白噪声并具有较弱的振幅。在语音增强中可以利用浊音具有的明显的准周期性来区别和抑制非语音噪声，而清辅音和宽带噪声就很难区分。5.2.3噪声特性噪声可以是加性的，也可以是非加性的（可通过某种变换（如同态滤波）转为加性噪声）。（1）冲激噪声：放电，打火，爆炸都会引起冲激噪声，它的时域波形是类似于冲激函数的窄脉冲。（2）周期噪声：最常见的有电动机，风扇之类周期运转的机械所发出的周期噪声，50Hz交流电源也是周期噪声。（3）宽带噪声：说话时同时伴随着呼吸引起的噪声、随机噪声源产生的噪声、以及量化噪声等都可以视为宽带噪声，近似为高斯噪声或白噪声。（4）语音干扰：干扰语音信号和待传语音信号同时在一个信道中传输所造成的语音干扰称为语音干扰。（5）传输噪声：传输系统的电路噪声，与背景噪声不同，它在时间域里是语音和噪声的卷积。Impulsivenoisewhitenoisepinknoisebrownnoise5.2.4语音质量评价标准主观评价是以人为主体来评价语音的质量。语音主观评价方法种类很多，主要指标包括清晰度或可懂度和音质两类。清晰度一般是针对音节以下（如音素，声母、韵母）语音测试单元，可懂度则是针对音节以上（如词，句）语音测试单元的；音质则是指语音听起来的自然度。无论哪种主观测试都是建立在人的感觉基础上的，为了消除个体的差异性，测试环境应尽可能相同，测试语音的样本也要尽量丰富。在选择测试者时，不仅应该包括女声，男声，同时还应根据年龄（包括老人，青年和儿童）选择不同语音。主观评价的优点是直接易于理解，能真实反映人对语音质量的实际感觉，缺点是需要大量的测试者，实施起来比较麻烦，耗时耗力，灵活性差。*主观评价1）可懂度评价（DRT）DRT是衡量通信系统可懂度的ANSI标准之一，它主要用于低速率语音编码的质量测试。这种测试方法使用若干对（通常96对）同韵母单字或单音节词进行测试，例如中文的“为”和“费”，英文的“veal”和“feel”等。测试中，评听人每次听一对韵字中的某个音，然后判断所听到的音是哪个字，全体评听人判断正确的百分比就是DRT得分。通常认为DRT为95%以上时清晰度为优，85%-94%为良，75%-84%为中，65%-75%为差，而65%以下为不可接受。DRT也有局限性，因为其只测试第一辅音，并且每次的选择只有两个。在这种情况下，Dynastant公司提出了更为复杂的改进型韵字测试MRT（ModifiedRhymeTest）。2）音质评价——平均意见得分（MOS）MOS得分法是从绝对等级评价法发展而来的，用于对语音整体满意度或语音通信系统质量进行评价。MOS得分法一般采用5级评分标准，包括优、良、中、差和劣。得分质量级别失真级别5优（excellent）不察觉4良（good）刚有察觉，但不可厌3中（fair）有察觉且稍觉可厌2差（poor）明显察觉且可厌但可忍受1劣（bad）非常可厌，不可忍受2）音质评价——判断满意度测量（DAM）DAM方法是由Dynastant公司推出的一种评价语音通信系统和通信连接的主观语音质量和满意度的评测方法，其将直接途径与间接途径结合在一起进行主观质量评价。评听人既有机会表达个人主观喜好，又能依标准对每项指标进行评测。另外，DAM方法要求评听人分别对语音样本本身、背景和其它因素进行评价。一个评听人可将评价过程划分为21个等级，其中10个等级是信号的感觉质量，8个等级是背景情况，另外3级是可懂度、清晰度和总体满意度。3）主观测试的原则第一，要保证足够的说话者，要求其声音特征非常丰富，能够代表实际用户中的绝大部分；第二，要求有足够多的数据。理论上，人数和数据越多越好，可以用方差作为判断样本数的尺度；第三，对于大部分编码器来说，清晰度和品质测试应该都做。5.2.4语音质量评价标准客观评价必然要借鉴主观评价的那种高度智能和人性化的过程，但是不可能找到一个绝对完善的测度和十分理想的测试方法，只能尽量利用所获信息做出基本正确的评价。一般地，一种客观测度的优劣取决于它与主观评价结果的统计意义上的相关程度。主要的客观评价方法有：基于信噪比的评价方法，如信噪比（SNR）、分段信噪比（segSNR）等，把信噪比作为评价语音质量的指标；基于谱距离的评价方法，如加权谱斜率测度（WSS），主要比较语音信号之间的平滑谱；基于听觉模型的评价方法，如语音质量感知评价方法（PESQ），以人对语音的感知特性为基础。*客观评价1）信噪比SNR信噪比计算简单，是一种应用广泛的客观评价方法。由于计算时需要纯净的语音信号，而实际环境中难以获得纯净的语音信号，因此信噪比主要用在纯净语音信号已知的实验仿真中。2）分段信噪比

经典形式的信噪比同等对待时域波形中的所有误差，不能很好地反映语音质量的属性。由于语音信号的时变特性，不同时间段上的信噪比应该是不一样的。分段信噪比定义如下：分段信噪比先计算每一帧的信噪比，再对所有帧的信噪比取平均。3）加权谱斜率测度WSSWSS使用36个临界频带滤波器来计算，反映纯净语音和处理后语音的频带谱斜率间的加权差距，WSS距离越小，表示两者之间的差距越小，语音质量越好。式中，W(k)表示权重，Sx(k)和Ṡx(k)分别表示纯净语音和处理后语音的谱斜率，Cx(k)和Ċx(k)分别表示纯净语音和处理后语音的第k个临界频带谱。4）语音质量感知评价方法PESQPESQ方法是国际电信联盟ITU在2001年提出的一种新的语音质量评价方法，是目前与MOS评分相关度最高的客观语音质量评价算法，相关度系数达到0.97。该算法将参考语音信号和失真语音信号进行电平调整、输入滤波器滤波、时间对准和补偿、听觉变换之后，分别提取两路信号的参数，综合其时频特性，得到PESQ分数，最终将这个分数映射到主观平均意见分上。PESQ得分范围在-0.5—4.5之间，得分越高表示语音质量越好。PESQ的总体思路为：首先将参考语音信号和失真语音信号的电平调整到标准听觉电平，再用输入滤波器模拟标准电话听筒进行滤波，然后将两个信号进行时间对齐，将对齐好的信号进行听觉转换，转换之后的输入和输出信号差值称为干扰度，通过认知模型处理，最后得到PESQ分值。在干扰度的处理中可能会识别出坏区间，这样就需要对坏区间进行重新对齐。5）客观评价特点客观评定方法的特点是计算简单，缺点是客观参数对增益和延迟都比较敏感，而且最重要的是，客观参数没有考虑人耳的听觉特性，因此客观评定方法主要适用于速率较高的波形编码类型的算法。总结起来，语音主观评价和客观评价各有其优缺点。通常这两种方法应该结合起来使用。一般的原则是，客观评价用于系统的设计阶段，以提供参数调整方面的信息，主观评价用于实际听觉效果的检验。5.3谱减法谱减法是处理宽带噪声较为传统和有效的方法，其基本思想是在假定加性噪声与短时平稳的语音信号相互独立的条件下，从带噪语音的功率谱中减去噪声功率谱，从而得到较为纯净的语音频谱。完整的谱减运算公式：将求得的信号

进行IFFT，并借助相位谱来恢复降噪后的语音时域信号。5.3.1基本原理5.3.1基本原理谱减公式为：式中，a为过减因子，b为增益补偿因子。5.3.2改进算法1）在谱减法中使用信号的频谱幅值或功率谱式中，当

γ为1时，算法相当于用谱幅值做谱减法；当γ

为2时，算法相当于用功率谱做谱减法。5.3.2改进算法2）计算平均谱值利用Yi(k)取代

Xi(k)，可以得到较小的谱估算方差。3）减少噪声残留在减噪过程中保留噪声的最大值，从而在谱减法中尽可能地减少噪声残留，从而削弱“音乐噪声”。式中，max|NR(k)|代表最大的噪声残余。5.4维纳滤波基本维纳滤波就是用来解决从噪声中提取信号问题的一种过滤(或滤波)方法。它基于平稳随机过程模型，且假设退化模型为线性空间不变系统的。实际上这种线性滤波问题，可以看成是一种估计问题或一种线性估计问题。基本的维纳滤波是根据全部过去的和当前的观察数据来估计信号的当前值，它的解是以均方误差最小条件下所得到的系统的传递函数

或单位样本响应

的形式给出的，因此常称这种系统为最佳线性过滤器或滤波器。5.4.1基本原理设带噪语音信号为则经过维纳滤波器

的输出响应

为

由式可知，卷积形式可以理解为从当前和过去的观察值

来估计信号的当前值

。因此，用

h(n)进行滤波实际上是一种统计估计问题。定义均方误差为：5.4.1基本原理使

ξ最小的充要条件是

ξ对于h(n)的偏导数为零，即上式整理可得

代入可得用相关函数表示为5.4.1基本原理改为写成卷积形式，可得转换为频域，可得因此，维纳滤波器的频率响应为

由于信号与噪声互不相关，可得该式为维纳滤波系统的增益函数，则增强信号的频谱估计值为

5.4.2改进算法传统的维纳滤波法需要估计出纯净语音信号的功率谱，一般用类似谱减法的方法得到，即用带噪语音功率谱减去估计到的噪声功率谱，这种方法会存在残留噪声大的问题。改进的维纳滤波器为基于先验信噪比的维纳滤波器，其模型为：5.4.2改进算法基于Doblinger的最小值统计方法的噪声谱估计方法：1）对带噪语音信号功率谱进行平滑处理2）搜索各频带的最小值3）判断带噪语音功率谱中各频带是否存在语音5.4.2改进算法4）计算语音出现概率5）更新噪声谱5.4.2改进算法基于更新的噪声谱可推得改进的系统增益函数：1）后验信噪比2）先验信噪比3）系统增益函数5.5自适应滤波器法实际信号的频谱分布是比较均匀的，因此对一个受到加性噪声污染的信号通常采用自适应滤波器进行降噪。自适应滤波器具有自动调节自身参数的能力，故其对信号和噪声的先验知识需求较少。所谓自适应滤波器就是利用前一时刻已获得的滤波器参数等结果，自动地调节现时刻的滤波器参数，以适应信号和噪声未知的随机变化的统计特性，从而实现最优滤波。因此，无论在信噪比方面还是在语音可懂度方面，自适应滤波器都能获得较大的提高。5.5.1最小均方误差滤波器最小均方误差（LMS）算法就是以已知期望响应和滤波器输出信号之间误差的均方值最小为准的，依据输入信号在迭代过程中估计梯度矢量，并更新权系数以达到最优的自适应迭代算法。LMS算法是一种梯度最速下降方法，其显著的特点和优点是它的简单性，这种算法不需要计算相应的相关函数，也不需要进行矩阵运算。5.5.1最小均方误差滤波器滤波器的输出

表示为：误差e(n)为优化该问题可令E{|e2(n)|}对

wn*(k)的导数为零来求解，有代入，整理可得其矢量表示为：5.5.1最小均方误差滤波器Rx(n)是一个

的共轭对称自相关阵，如果矩阵是满秩的，可得到权系数的最佳值：但是，等式右边的运算在实际中是不易实现的。为此，对于一些在线或实时应用场合常使用迭代算法，对每次采样值求出较佳权系数。迭代算法可以避免复杂的求逆运算，又能实时求得最佳近似解，因而切实可行。5.5.1最小均方误差滤波器LMS算法是以最快下降法为原则的迭代算法，通过在二次误差曲面的最大下降方向上取一个

步长的增量来修正结果。

由于期望值

是未知的，因此要用样本平均来估计，即

当用一个样本来估计（N=1）时，权矢量修正式可简化为

5.5.1最小均方误差滤波器对于LMS算法来说，正值的步长μ

将影响权矢量收敛到误差曲面极小点的速率。如果μ非常小，则wn的修正量也小，收敛速度较慢；若

μ增大，收敛速度加快。但是的增大有一个上限，超过该上限将导致wn的轨迹不稳定，且无界。设计LMS自适应滤波器的一个难点是步长μ的选择。5.5.2归一化最小均方误差滤波器对于具有

个系数的滤波器，LMS算法每次修正权矢量只需N次乘法和N次加法，另外，计算误差e(n)需要一次加法，计算μe(n)需要一次乘法。最后，计算输出N次乘法和(N-1)次加法。所以，每次修正的总计算量是(2N+1)次乘法和2N次加法。虽然LMS算法对期望值的估计很粗略，但算法实现简单，不依赖模型，性能稳健，因此实际应用比较成功。5.5.2归一化最小均方误差滤波器归一化的NLMS算法可表示为：从计算量看，NLMS算法比LMS算法多了一个归一化项||x(n)||2的计算。为减少其计算量，可递归的估算该项，即因此，每次只多了两次平方运算、一次加法和一次减法。5.5.3自适应陷波器对于周期噪声，采用陷波器是较为简便和有效的降噪方法。算法基本思路和要求是设计的陷波器的幅频曲线的凹处对应于周期噪声的基频和各次谐波，设计的关键是通过合理设计使这些频率处的陷波宽度足够窄。简单的数字陷波器的传递函数如下：N/T(N为整数)的频率将被滤除掉。5.5.3自适应陷波器数字滤波器的极零点接近时，信号频谱变化较为缓慢，而在陷波频率处急剧衰减，故引入反馈：当

越接近1时，分母在零点附近处有抵消作用，梳齿带宽变的越窄，通带较为平坦，陷波效果越好。5.5.4干扰抑制对于大多数情况，纯净信号是不能直接获得的，此类问题统称为干扰抑制问题。此

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音信号处理第5章-语音增强课件

文档简介

温馨提示

最新文档

评论

语音信号处理第5章-语音增强课件

文档简介

温馨提示

最新文档

评论

相关文档