版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮电大学
通信与信息工程学院
第6章语音增强语音特性、人耳感知特性及噪声特性相关特性法滤波器法非线性处理法减谱法与维纳滤波法基于深度学习的语音增强6.1概述在现实环境下,语音容易受到噪声的影响和干扰,因而噪声的消减对语音识别、低码率符号化等有很强的实用价值。抗噪声技术的研究以及实际环境下的语音信号处理系统的开发国内外的研究大体分为三类:①采用语音增强算法提高语音识别系统前端预处理的抗噪声能力,提高输入信号的信噪比;②寻找稳健的耐噪声的语音特征参数;③基于模型参数适应化的噪声补偿算法。6.1语音特性语音信号是一种非平稳的随机信号,但可以假定语音信号是短时平稳的,即在10~30ms
的时间段内语音的某些物理特性和频谱特性可以近似看作是不变的,从而应用平稳随机过程的分析方法来处理语音信号,并可以在语音增强中利用短时频谱时的平稳特性。任何语言的语音都有元音和辅音两种音素。辅音又分为清辅音和浊辅音。从时域波形上可以看出浊音(包括元音)具有明显的准周期性和较强的振幅,它们的周期所对应的频率就是基音频率;清辅音的波形类似于白噪声并具有较弱的振幅。在语音增强中可以利用浊音具有的明显的准周期性来区别和抑制非语音噪声,而清辅音和宽带噪声就很难区分。语音信号作为非平稳、非遍历随机过程的样本函数,其短时谱的统计特性在语音增强中有着举足轻重的作用。根据中心极限定理,语音的短时谱的统计特性服从高斯分布。但是,实际应用中只能将其看作是在有限帧长下的近似描述。6.1人耳感知特性人耳对于声波频率高低的感觉与实际频率的高低近似为对数关系;人耳对声强的感觉很灵敏且有很大的动态范围,对频率的分辨能力受声强的影响,;人耳对语音信号的幅度谱较为敏感,对相位不敏感。这一点对语音信号的恢复很有帮助。此外,共振峰对语音感知很重要,特别是前三个共振峰更为重要。人耳具有掩蔽效应,即一个声音由于另外一个声音的出现而导致该声音能被感知的阈值提高的现象。人耳除了可以感受声音的强度、音调、音色和空间方位外,还可以在两人以上的讲话环境中分辨出所需要的声音,这种分辨能力是人体内部语音理解机制具有的一种感知能力。因此,语音增强的最终度量是人耳的主观感觉,所以在语音增强中可以利用人耳感知特性来减少运算代价。6.1噪声特性噪声可以是加性的,也可以是非加性的,非加性噪声往往可以通过某种变换,如同态滤波转为加性噪声)。加性噪声通常分为冲激噪声、周期噪声、宽带噪声、语音干扰噪声等;非加性噪声主要是残响及传送网络的电路噪声等。通过语音增强技术来改善语音质量的过程如下图所示。常用的语音增强技术有滤波器法、自相关抗噪法、非线性处理法、减谱法、维纳滤波法等。语音特性、人耳感知特性及噪声特性相关特性法滤波器法非线性处理法减谱法与维纳滤波法基于深度学习的语音增强6.2滤波器法——陷波器法对于周期噪声采用陷波器是较为简便和有效的方法,其基本思路和要求是设计的陷波器的幅频曲线的凹处对应于周期噪声的基频和各次谐波,如图6-2所示。设计的关键是通过合理设计使这些频率处的陷波宽度足够窄。6.2滤波器法——陷波器法简单的数字陷波器的传递函数如下:由可以看出f=N/T(N为整数)的频率被滤除掉。且数字滤波器的极零点接近时,信号频谱变化较为缓慢,而在陷波频率处急剧衰减,故引入反馈:当b越接近1时,分母在零点附近处有抵消作用,梳齿带宽变得越窄,通带较为平坦,陷波效果越好。其模拟框图如下图所示。6.2滤波器法——自适应滤波器1、基本型:自适应滤波器最重要的特性是能有效地在未知环境中跟踪时变的输入信号,使输出信号达到最优,因此可以用来构成自适应的噪声消除器,其基本原理框图如图所示。图中s(t)为语音信号,n(t)为未知噪声信号,y(t)为带噪语音信号,r(t)为参考噪声输入,r(t)与s(t)无关,而与n(t)相关。该滤波器的实质在于实现带噪信号中的噪声估计,并用原始信号y(t)减去估计值r’(t)以达到语音增强的目的。6.2滤波器法——自适应滤波器2、对称自适应去相关的改进型在有些实际应用中,参考输入r(t)除包含与噪声相关的参考噪声外,还可能含有低电平的信号分量。无疑这些泄漏到参考输入中的语音信号分量将会对消原始输入中的语音信号成分,进而导致输出信号中原始语音信号的损失。下图给出了原始语音信号s(t)通过一个传递函数为J(z)的信道泄漏到参考输入中的情形。这种情况就无法使用自适应噪声对消器进行语音增强。可以证明,如果原始输入和参考输入中的噪声相关,则对消器输出端的信噪谱密度比为参考输入端信噪谱密度比之倒数。这种自适应过程被称为“功率取逆”。6.2滤波器法——自适应滤波器为了解决信号分量的泄漏导致系统性能恶化这一问题,D.VanCompernolle提出了对称自适应去相关(SAD)算法,其基本原理如下图所示。其基本思想是用去相关准则来代替最小均方误差准则。严格来说,SAD算法不是一个噪声抵消算法,而是一个信号分离算法。实际上,这种对称自适应去相关信号分离系统是LMS自适应噪声抵消器的扩展。6.2滤波器法——自适应滤波器3、用延迟的改进型自适应滤波器都需要有与n(t)相关的参考噪声r(t)输入,这在实际应用中往往比较困难,如果噪声相关性较弱(例如白噪声),则有如图所示的改进型。带噪语音信号延迟一个周期,得到参考信号r(t)=s(t-T)
+N(t-T)。在大多数情况下,s(t)与s(t-T)相关性大,n(t)与N(t-T)相关性小。该自适应滤波器的设计思想同上,即稳定时使最小,而要达到这一点必须保证加法器的两个输入端有较多的相关成分,即s(t)、n(t)的相关成分。考虑到噪声相关性较弱,因此稳定时s'(t)就是降噪后的s(t)的估计值。语音特性、人耳感知特性及噪声特性相关特性法滤波器法非线性处理法减谱法与维纳滤波法基于深度学习的语音增强6.3相关特征法——自相关处理抗噪法语音增强技术原理:利用语音信号本身相关,而语音与噪声、噪声与噪声可认为互相不相关的性质,对带噪语音信号做自相关处理,可以得到与不带噪语音信号同样的自相关帧序列。设带噪语音为其中,s(t)为纯净语音信号;n(t)为近似白噪声的噪声信号。考虑到它们的短时平稳的特性,计算y(t)的自相关函数6.3相关特征法——自相关处理抗噪法语音增强技术
6.3相关特征法——自相关处理抗噪法语音增强技术
语音特性、人耳感知特性及噪声特性相关特性法滤波器法非线性处理法减谱法与维纳滤波法基于深度学习的语音增强6.4非线性处理法——小波降噪法中心削波法:对于噪声频谱遍布于语音信号频谱之中的宽带噪声,如果噪声振幅比大部分的语音信号振幅低,则削去低幅度成分也就削去了宽带噪声。基于这种思路,可以在频域中采取中心限幅的方法,即让带噪语音信号通过一限幅滤波器,高幅度频谱可以通过而低幅成分不允许通过,从而实现噪声抑制。需要注意的是中心削波不可避免地要损害语音质量,通常只在频域中进行,而一般不在时域中实施。小波降噪:小波变换具有很强的去数据相关性,它能够使信号的能量在小波域集中在一些大的小波系数中;而噪声的能量却分布于整个小波域内。此时,信号的小波系数幅值要大于噪声的系数幅值。于是,采用阈值的办法可以把信号系数保留,而使大部分噪声系数减小至0。小波降噪的具体处理过程:将含噪信号在各尺度上进行小波分解,设定一个阈值,幅值低于该阈值的小波系数置为0,高于该阈值的小波系数或者完全保留,或者做相应的“收缩”(shrinkage)处理。最后,将处理后获得的小波系数用逆小波变换进行重构,得到去噪后的信号。6.4非线性处理法——同态滤波法对于加性噪声的语音增强,通常采取线性滤波方法;而对于非加性噪声(如乘性或卷积噪声)一般采用同态滤波的方式。同态滤波的基本原理在以前章节已有详细论述,其降噪过程的原理框图如下图所示。原理:含噪语音经过同态滤波器后由卷积运算变成了相应的复倒谱求和运算,这样就可以分离出乘性噪声。再由复倒谱提取音调参数,并经过频谱分析获取降噪处理之后的共振峰,最后合成为降噪后的语音信号,进而可以进入语音处理系统去做其他的特征提取与处理应用。6.4非线性处理法——同态滤波法
语音特性、人耳感知特性及噪声特性相关特性法滤波器法非线性处理法减谱法与维纳滤波法基于深度学习的语音增强6.5减谱法与维纳滤波法——减谱法
6.5减谱法与维纳滤波法——减谱法
6.5减谱法与维纳滤波法——维纳滤波法原理:在最小均方准则下用维纳(Weiner)滤波器实现对语音信号的估计,即对于带噪语音信号y(t)=s(t)+n(t),确定滤波器的冲激响应h(t),使得带噪语音信号经过该滤波器的输出
s′(t)能够满足E[|s′(t)-s(t)|²]最小(s′(t))为滤波器输出)。假定
s(t)和n(t)都是短时平稳随机过程,则由Weiner-Hopf积分方程为两边取傅里叶变换有从而得到又由于并考虑到s(t)和n(t)相互独立,所以
6.5减谱法与维纳滤波法——维纳滤波法
语音特性、人耳感知特性及噪声特性相关特性法滤波器法非线性处理法减谱法与维纳滤波法基于深度学习的语音增强6.6基于深度学习的语音增强——基于深度神经网络
6.6基于深度学习的语音增强——基于深度神经网络
6.6基于深度学习的语音增强——基于深度神经网络将自适应掩蔽阈值融入DNN,用于重构增强后的语音信号,其流程分为训练和测试两个阶段,具体如图6-11所示。在训练阶段,首先根据式(6-41),利用纯净语音s(t)和噪声n(t)计算出理想的自适应掩蔽阈值LC,并将其作为DNN训练的标签;接着,利用提取出的语音相关特征和上一步所得的标签,完成DNN的模型训练。在测试阶段,提取带噪语音的相关特征,输入到训练好的DNN中,输出为自适应掩蔽阈值,最终利用带噪语音和输出的掩蔽阈值,得到增强后的语音。6.6基于深度学习的语音增强——基于深度神经网络需要注意的是,所构建的DNN由一个输入层、四个隐层、一个输出层组成。各层的节点数设置为K-1024-1024-1024-1024-64,其中,K为输入信号特征维度,输出层为输出特征维度64。四个隐藏层的激活函数采用Relu函数,输出层的激活函数采用Sigmoid函数。DNN的训练采用标准的反向传播算法(BP)和丢弃法(Dropout)相结合。Dropout指在DNN过程中随机丢掉一部分神经元来减少模型复杂度,从而防止过拟合。Dropout实现方法很简单:在每次迭代训练中,以一定概率随机屏蔽每一层中若干神经元,用余下神经元所构成的网络来继续训练。图6-12是Dropout示意图,左边是完整的神经网络,右边是应用了Dropout之后的网络结构。6.6基于深度学习的语音增强——基于循环神经网络基于RNN的语音增强,其采用的是包含自注意力机制的RNN(Attention-BasedRecurrentNeuralNetwork,A-RNN)模型。实验结果表明,与DNN相比,A-RNN在语音增强的性能方面具有显著优势。A-RNN结构如图6-13所示,其由归一化层、RNN、自注意力模块和前馈模块构成。其中,归一化层用于提高泛化能力和促进更快的训练。对于RNN而言,这里选择的是LSTM结构。LSTM是在RNN模型上进行改进,使其更好地建模长时依赖信息。A-RNN中的前馈模块首先使用线性层将大小为N的输入维度扩充到4N,接着通过高斯误差线性单元和Dropout层,最后,将大小为4N的输出拆分为大小为N的4个向量,将它们相加在一起以获得最终输出。6.6基于深度学习的语音增强——基于循环神经网络A-RNN中的自注意力模块结构如图6-14所示6.6基于深度学习的语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全新餐饮合作协议合同范本下载
- 2024年度建筑工程设计与施工合作协议2篇
- 《销售心理学培训》课件
- 装修工程维修合同
- 小学六年级科学下册课件下载
- 2024年度医疗健康信息平台建设与运营协议2篇
- 工程泥浆环保外运及处理二零四年版合同2篇
- 汽车抵押贷款合同 2篇
- 01选择题(基础题)-重庆市三年(2020-2022)中考英语卷真题分题型分层汇编(共30题)
- 基于物联网技术的2024年度智能物流系统开发合同
- 物理治疗在临床的应用
- 第一例应用ECMO患者护理查房
- 2024-2030年中国肉羊养殖行业市场运营模式及未来发展动向预测报告
- 基于区块链技术的农产品追溯与智能化管理方案
- 2024年高中数学新课程标准考试模拟测试题及答案
- 第四单元(学习任务单)七年级语文上册大单元教学名师备课系列(统编版2024)
- 浙江省杭州市2024-2025学年高一上学期期中考试语文试卷(含答案)
- 【《LKJ2000型列车监控记录装置的操作规程及故障处理探究》10000字(论文)】
- 带您走进西藏学习通超星期末考试答案章节答案2024年
- 冀人版科学三年级上册全册单元测试卷含期末测试及答案
- 六 比的认识(单元测试)-2024-2025学年六年级上册数学北师大版
评论
0/150
提交评论