【基于CNN网络的语音增强模型探究(论文)14000字】_第1页
【基于CNN网络的语音增强模型探究(论文)14000字】_第2页
【基于CNN网络的语音增强模型探究(论文)14000字】_第3页
【基于CNN网络的语音增强模型探究(论文)14000字】_第4页
【基于CNN网络的语音增强模型探究(论文)14000字】_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于CNN网络的语音增强模型研究摘要语音增强在许多领域都有着十分重要的作用和意义。到目前为止也有了许多研究成果被相继提出并取得不错的表现。单声道语音增强方法有传统无监督增强算法和有监督增强算法。其中,经典的传统算法有谱减法、维纳滤波法、基于LMS自适应滤波器法等。本文通过仿真实验表明这几种传统算法增强后仍残留了较多噪声,尤其是开头和结尾比较明显,虽然维纳滤波法表现较为优异,但他们都无法有效抑制非平稳噪声。且他们都存在对信号和噪声的不合理假设,因此限制了性能上限。而针对传统无监督算法的这些问题,人们又提出了基于DNN的语音增强算法,其中CNN网络是其中的代表网络之一。关键词:语音增强;传统无监督语音增强算法;卷积神经网络目录绪论1.1研究背景1.2研究意义1.3研究现状1.4本文研究内容语音增强基础2.1语音增强定义2.2语音增强分类2.3原始语音特性2.4带噪语音信号2.5语音增强预处理技术2.6信噪比单声道语音增强方法3.1传统单声道语音增强算法3.1.1谱减法3.1.2维纳滤波法3.3.3自适应滤波器法3.2有监督训练的语音增强算法第四章基于深度学习的语音增强4.1深度神经网络模型4.2卷积神经网络4.2.1卷积层 4.2.2池化层4.2.3全连接层4.2.4经典卷积网络第五章总结和展望5.1全文总结5.2未来展望第一章绪论1.1研究背景人类在社会生存中必然少不了信息交流,在所有交流方式中,语音是最常用,也是最方便的的交流方式。从原始的面地面交流到随着科技的发展,人们如今频繁的使用通信设备进行远程交流。但无论是何种方式,都只有一个共同目标,那就是清晰准确得得到对方想要传达的信息。然而现实生活中,我们生活在一个充满各种各样的噪声、十分复杂的声学环境当中,传达的语音无时无刻不受到周围环境噪声的干扰。当面对面交流时,对话者处于同样的声学环境当中,我们的人耳系统经过长年累月的适应和学习,已经能够很好的抑制噪声,准确识别并持续追踪我们想要获取的信息,能够做到交流无障碍、信息传达准确率极高。然而当人们使用通信设备进行远距离通信时,语音接受者和发送者处于不同的复杂声学环境当中,无法准确得知噪声类型,再加上机器是死物,无法像人耳一样主动学习且经过长时间的声音训练,也就无法做到准确识别噪声并进行噪声抑制,因此远处的接受者接收到的语音往往会不清晰且伴随着许多噪声干扰,对准确识别对方想要传达的信息造成一定程度干扰和阻碍。当前时代科技飞速发展、日新月异,远程交流方式已然成为一种常态,人与计算机之间的交流更是越来越频繁,平均人手几台智能设备。抛去文字短信交流方式不说,语音交流由于其方便快捷的特性正逐渐成为人们的心头好,大有在未来成为主流方式的趋势。近几年,人工智能的飞速发展,各种智能设备铺天盖地涌入人们日常生活,给人们生活带来巨大的惊喜和改变。如智能车载设备、智能家居产品、自助服务机器人等等,改变了人们传统生活方式,不仅十分方便更是解放人们双手提高了做事效率。智能车载设备能够让驾驶员在专注开车的同时语音控制开关导航、车窗、音乐等功能,由于不用分散注意力因此十分方便的同时最重要的是安全;智能家居产品让生活充满科技感,让工作劳累了一天的房主解放手脚,得到充分休息,只需几句话可自主完成各种家务。这些智能设备给我们带来方便的同时,也对技术有着极高的要求。由于人机交流时所处声学环境的复杂性,计算机如何准确识别发送者的指令便成了关键技术难题。计算机能否通过学习以后和人耳一样自主分辨抑制噪声呢?自从深度学习算法被利用发现效果不错后,这个答案是可以的。但目前的技术还有待提高和改进,并不能使机器达到人耳那种层次,虽然已经能够大概率准确识别,仍旧有概率识别不清或者识别错误,再加上语言种类繁多且地方性语言庞杂,甚至发送指令者说话吐字不清等等问题,因此人们在一些重要场合如分配工作任务为了避免发送指令歧义,一般选择文字传送,不仅准确而且一目了然。这便是语音增强技术仍然需要继续改进的动力。1.2研究意义语音增强技术是语音识别领域的重要分支,在通信领域都有着十分重要的意义。对普通用户而言,我们日常使用的电话、手机以及其他智能设备,在使用时都无法避免面临着噪声干扰的问题,此时就需要语音增强技术使得设备能够有效抑制噪声,提高说话者的语音清晰度和可懂度,使得通信对方准确得到语音信息,提升通信体验或者使计算机准确识别指令,避免重复发送指令提升效率。对公安机关而言,维护社会安定破案侦查的同时通常会使用到监听设备,往往目标语音比较弱小,信噪比低,非常容易被周围噪声掩盖,此时就越是需要进行语音增强,保证对方发出的每一点声音不被遗漏,每个字甚至语气都至关重要,保证准确把握对方意图,这对语音增强技术有着极高的要求。而在军事领域中,由于作战环境十分恶劣复杂,噪声巨大甚至远远盖过人声,但是军事命令的准确传达十分关键,每个字的失误都有可能造成巨大的损失和伤亡,这就需要极高的语音增强技术能够有效抑制周围环境噪声并增强人声,提高语音可懂度,确保每条指令都能被准确传达。除了以上一些情景,语音增强技术还有许多应用场景,如医疗领域等。因此,语音增强技术无论是对普通人而言还是对国家安全而言都十分重要,掌握领先顶级语音增强技术,不仅可以获得更好的体验感,更能带给人民安全感。语音增强技术在改变人们生活方式的同时,正逐渐带领人类文明迈向新的台阶。1.3语音增强研究现状传统单声道语音增强的研究离不开伴随着语音信号处理技术的发展,距今已经有了几十年的研究历史,算是语音增强算法的元老了。传统单声道语音增强算法大体可分为时域和频域,时域的方法主要有参数和滤波法、子空间法等,由于难以估计激励参数和结果的失真度较大,人们使用较多的还是频域方法。从最早1979年boll提出的谱减法,其原理是基于加性噪声和噪声语音相互独立性等假设,在噪声信号平稳或缓慢变化前提下,再非语音帧的地方迭代更新噪声方差,对噪声方差进行估计,即只要将原始带噪语音频谱减去噪声谱就能得到干净语音。谱减法原理虽然简单,但是对噪声估计要求很高,估计过高将会造成语音失真,估计过低将会残留较多噪声,因此谱减法会有音乐噪声现象。同年提出的维纳滤波法虽然没有产生音乐噪声,但是会有白噪声产生。维纳滤波算法的本质就是从噪声中提取信号的过滤和预测的方法,但由于它是基于平稳噪声条件下的最小均方差估计且有很多约束条件,因此对非平稳噪声的抑制效果较差。随后,最小均方误差幅度谱估计方法被提出,但由于干净语音与噪声之间是非线性关系,因此有改良出基于对数域的最小均方误差估计法,从概率角度分析对噪声进行最大程度上抑制,其在低信噪比时优于谱减法但在高信噪比时语音失真度较大。同样经典的传统语音增强算法还有基于LMS自适应滤波器法,它具有自动调节自身参数的能力,结构简单且易于实现。与此同时提出的还有基于最小统计量的噪声估计方法,包括目前使用最普遍、语音增强效果最好的最小控制的迭代平均噪声估计法,其对非平稳噪声能够较快跟踪,误差估计较小,因此相比前面提到的语音增强方法而言显著减少残余噪声。以上传统语音增强算法,也就是无监督语音增强算法,对非平稳噪声的抑制效果还是较差,因此又有了基于监督训练的语音增强算法。有监督语音增强算法不用基于如干净语音与噪声相对独立性假设、语音噪声服从高斯假设等许多不合理的假设,因此降噪能力大大提高。从1989年Tamara提出的人工神经网络开始,在时域学习带噪语音和干净语音的非线性关系,随后被优化为在频域里学习带噪语音和干净语音之间的关系,但困于训练数据量不足和不合适的初始化方案,直到深度神经网络被提出,使得基于神经网络的语音增强方法被人们广泛关注。DNN语音增强方法对非平稳噪声有很好的抑制作用,但过程复杂且参数量巨大,随后RNN、CNN、GAN网络相继被提出应用。1.4本论文主要研究内容本文主要研究语音增强算法中的单声道语音增强,对传统单声道语音增强算法进行深入探讨,深入了解传统单声道语音增强算法中几种常见方法并进行复现,对它们的噪声抑制能力进行客观比较和评判。之后会简单涉及基于有监督训练的语音增强算法,尤其是基于深度学习的单身高语音增强算法,介绍其网络模型框架,最后讲两类语音增强算法进行比较,总结出适合它们各自的适用情形。第一章首现介绍了本文的研究背景和研究意义,粗略讲述了单声道语音增强的发展历程以及发展现状,引出文章主要内容。第二章简要介绍了语音增强算法中的基本概念以及语音和噪声特性和语音增强模型。第三章是本文重点内容,详细介绍了传统语音增强算法中基础的几种算法,包括算法框架和具体实现过程,以及各个算法的结果频谱图,给并根据语音前后频谱图对噪声抑制效果进行分析比对,随后引出有监督训练的单声道语音增强算法。第四章讲解了基于深度学习的语音增强算法基本框架,并详细介绍了其中一种神经网络-卷积什么网络,并对深度神经网络提出构想。第五章对全文进行总结概括并对当前算法存在的各种问题进行罗列,摆出未来我们主要攻克的技术问题,设定目标。第二章语音增强基础2.1语音增强的定义语音增强也可以说成是语音降噪。语音增强是指在复杂的声学环境当中,纯净语音信号总会被被各种噪声干扰、甚至淹没,人们就利用语音信号处理技术以达到抑制噪声或者过滤噪声的效果,从噪声背景中提取出尽可能干净的语音信号。目标是提升语音信号的质量和可懂度。通俗的说,语音增强就是从被噪声污染了的带噪语音当中提取出我们想要的干净语音信号的技术。语音增强技术的实施对象是计算机,使计算机进行一系列的操作使其能够有效过滤各种噪声,提高语音质量,最终目的是使对面使用计算机的人能够准确识别接收目标语音、提升远距离通话时人耳的听觉体验。2.2语音增强分类按照语音通道数划分,语音增强可分为单声道语音增强和多声道语音增强。单声道语音增强只包括时域和频域的信息,因此对设备要求更低,设备更加简单但语音处理的难度却提高;多声道语音增强又叫麦克风阵列语音增强,除了利用时域和频域信息之外还可以利用空间信息,但对声源空间位置要求较高。比如人耳实际上是一个双麦克风结构,能够根据声源到达两只耳朵的时间差和声音强度差来判断声源的位置信息,用来辅助声源进行分离,但当不同声源处于同一位置时,人耳依旧能够区分不同声源,因此时域和频域的信息在语音增强中占据主要作用,而空间信息起到辅助作用,本文主要研究单声道语音增强。按照语音增强算法划分,主要可分为传统无监督的语音增强和有监督训练的语音增强算法。二者最大的区别就是前期是否经过了学习训练。传统无监督语音增强算法不需要经过离线训练,因此计算量较少,但是存在许多不合理的假设如干净语音与噪声之间的独立性假设、干净语音和噪声服从高斯分布的假设等,这些不合理的假设限制了传统算法的性能上限,对于非平稳噪声和低信噪比情况无法有效改善语音。针对传统无监督算法的性能缺陷,人们进而提出了有监督训练的语音增强算法,也就是现在使用最频繁的深度学习(DNN)算法,模仿人的能力,让计算机提前学习记住提供的语音与噪声的模式,以便以后接受一段带噪语音时能有所参考,找出最有可能的干净语音与噪声模式,便于进行语音分离以及噪声抑制,大大提升了语音增强的性能。2.3原始语音信号语音是一个随时间变化的|、非平稳随机过程,是一种复杂的人类运动能力,不能用处理平稳与信号的方式处理语音信号,但在极短的时间内语音可看作相对平稳的过程,因此在语音增强中常常将语音看作短时平稳信号,一般在进行语音增强算法之前会对语音进行分帧操作。此外语音可分为清音、浊音和爆破音三类。浊音过零率较低,有一定周期性,能量集中在低频段;清音过零率较高,能量分布各个频率都有;而爆破音过零率在浊音和清音之间,无周期性,能量主要集中在低频段,且频率越低能量越高。最后,语音信号可用统计特性进行分析描述,例如振幅大小概率密度、均值、自相关函数等。语音时域图:图2.1语音信号时域示意图语音频域图:图2.2语音信号频域示意图人们为了研究语音信号对其进行处理,通常需要对其进行建模,以一种最接近语音信号的模型表示,但由于语音的复杂性,不可能找到一种模型能够百分百拟合语音信号,因此,在针对不同情况的语音信号时,人们通常选择不同的数学模型来表示,以最大可能地接近目标语音的情况。语音信号的数字模型有激励模型、辐射模型以及声道模型。激励模型一般情况下简单分为浊音和清音情况,但不仅限于表示这两种,而且,由于浊音和清音的发声方式不同,它们的激励模型也是不一样的,浊音可模拟成一个斜三角脉冲波,而清音则可以被模拟成随机白噪声;声道模型又可理解为声管模型或者共振峰模型,前者比较简单,即语音在短时间内可表示成一段稳定的管道,后者根据人耳听觉纤毛细胞的排列规律表示,可以表示元音或者辅音,效果不错;而辐射型则是将语音看作声波。为了准确表示语音数字特征,通常会将三种数字模型进行串联共同表示。要研究语音特性,往往离不开人耳系统的特性。研究语音信号处理的目的是模拟人耳系统对语音的感受特性,二者密不可分。人耳的感受频率范围为20-20000Hz,但对太强或者太弱的声音频率的分辨率会降低,人耳感受语音主要从四个方面:音色、音高、响度以及时间。尽管人们了解人耳对声音的处理过程,但仍然难以做到能够完全与人耳系统匹配的语音处理系统。2.4带噪语音信号噪声来源多种多样,噪声特性变化无穷,只要是对目标语音产生了干扰的声音特征都属于噪声,也就是语音信号特征中的多余特征。按照干扰方式,噪声可分为加性噪声和乘性噪声,加性噪声是指当噪声对语音的干扰表现为两者信号在时域进行相加,而显然实际环境中背景噪声也可以看成加性噪声,如风扇空调声、汽车鸣笛声、周围人说话声、打字声、走路声等等。加性噪声是对噪声干扰方式的一种比较贴切的表述。乘性噪声是指噪声和语音在频域是相乘的关系,在时域和语音则是卷积关系,因此也称为卷积噪声。在实际应用中乘性噪声主要体现在语音采集、麦克风传输中电话信道和无线信道的频率选择特性,可以通过某种变换如同态滤波,转变为加性噪声。按照噪声随时间的变换关系,则可分为周期性噪声和脉冲性噪声。实际生活环境当中,周期性噪声比较少见,如市电干扰,而脉冲性噪声则比较常见,机会随处可见。噪声还可以被分为平稳噪声和非平稳噪声。在语音增强系统中,最常用的加性噪声为高斯白噪声,尤其是低信噪比声学环境当中,加性噪声对语音影响起到主要作用。如下所示:其中,表示t时刻带噪语音时域信号,表示t时刻干净语音的时域信号,表示噪声t时刻的时域信号。加性带噪语音模型如下:图2.3加性带噪语音结构图在接下来的内容中,我们主要讨论加性噪声这种情况。在本文仿真实验中,带噪语音的产生主要有以下几种方式:一是系统通过randn函数随机生成白噪声,然后与干净语音信号相加得到带噪语音;二是直接利用函数Gnoisegen在干净语音基础上加上制定信噪比的噪声生成带噪语音;三是先随机生成白噪声后接着将噪声通过滤波器,然后再以固定信噪比加到纯净语音上构成带早语音信号。以上三种方式依次分别对应下章的三个仿真实验。2.5语音增强预处理技术由于语音信号是随时间变化的非平稳信号,但在短时间内可保持相对平稳,因此语音处理过程通常需要对语音进行预处理,进行短时分析。在语音处理前对信号进行滤波、数字化,预加重、分帧、加窗等操作。下图是一般语音预处理框图:2.4语音预处理一般流程框图为了防止工频干扰,通常需要对原始语音信号进行预滤波,工频干扰是指50Hz的电源或市电频率干扰,对原始信号进行采样时若不满足采样定理则会造成信号混叠,防混叠滤波器实际上是一个低通滤波器。采样是将连续的模拟信号转变为离散数字信号的过程,为保证信息的完整性和准确性,采样过程必须满足采样定理,如此才能完整恢复原始信号。采样完成后的信号还需经过量化过程才能变成时间、幅值都离散的信号,将同一区间的值都用量化值取代,以便于后续语音处理,量化区间越小,量化所造成的误差也就越小。为了提升高频部分,增加语音分辨率,使得语音信号更加平滑,一般对信号通过传递函数的高通滤波器进行预加重处理。在恢复信号时相应对估计值进行去加重。语音预处理过程中最关键的步骤就是进行加窗分帧。帧长通常取10-30ms,帧移范围一般在0-0.5。常用的加窗方式有两种:一种是保持语音信号固定,滑动窗进行加权操作;另一种是固定窗,移动语音信号进行运算实现加窗。常用窗函数有矩形窗和汉明窗,而在本文的研究中使用的都是汉明窗,其窗函数如下所示:2.6信噪比评判语音增强的标准有很多,在本文中,主要用到信噪比来衡量噪声和干净语音之间的关系,信噪比越高说明干净语音能力越高,听起来就越清晰,语音增强的效果也就越好。信噪比定义式如下:或者表示为:其中,表示干净语音信号的能量;是噪声能量;是带噪语音。第三章单声道语音增强3.1传统无监督语音增强算法在传统语音增强算法中,频域里的语音增强最为普遍和常用,下图给出了频域传统单声道语音增强的经典算法的一般流程框图:3.1传统单声道语音增强经典流程图首先将时域里的带噪语音信号通过傅里叶变换转换为频域信号,然后计算其功率谱,下一步根据语音监测帧估计噪声方差,在非语音帧的时候更新噪声方差,最核心的环节就是求解增益函数,在求解增益函数之前一般会用到先验信噪比或者后验信噪比,只要求出了增益函数,将其与带噪语音频域信号相乘即可得到干净信号的频谱,最后进行反向傅立叶变换即可得到时域里的干净语音信号,也就是我们所需要的结果。3.1.1谱减法经典谱减法的主要思想是在噪声和干净语音相互独立前提下,只要将带噪语音减去估计出的噪声能量即可得到干净语音信号,其核心是进行噪声估计,利用在非语音帧的地方迭代更新噪声方差,计算过程简单、性能良好,因而得到广泛应用。3.1.1基础谱减法原理框图具体实现过程如下:假设干净语音和噪声之间相互独立,带噪语音信号即其中,干净语音信号s(n),加性噪声d(n)两边同时进行傅里叶变换到频域得到为了得到两个关键量幅度和相位,将上式转化为极坐标的形式,如下:)可得到,为语音幅度谱,表示相位信息。同理,可以得到噪声的极坐标形式噪声的幅度谱是无法直接得到的可用仅包含噪声语音时的平均幅度表示,这个估计过程需要语音活动检测算法,所有语音信号可分为仅包含噪声信号和包含噪声和语音的信号两类。噪声估计只需要在仅包含噪声语音的时候迭代更新造神方差,噪声的相位ϕd(ω)一般情况下可以用带噪语音的相位ϕx(ω来代替。则增强后的干净语音信号可由带噪语音信号减去噪声能力得到:最后将进行反向傅里叶变换可得到增强后的时域干净语音信号。重点是若是噪声幅度估计不准确则会直接影响语音增强效果,当过估计噪声的幅度谱,则会导致|X(ω)|-|D(ω)|为小于零,但是幅度谱应该为非负值,此时可设置条件将负的幅度谱设置为零:可一定程度上改善语音增强效果,但当噪声欠估计,则会导致增强后噪声存留较多。上述是最基本的幅度谱减法的原理。实验配置:该仿真实验的数据来源于自建文件夹里面的一段干净语音信号,共一位人说话,只有一句英文,噪声由系统随机生成的高斯白噪声,带噪语音由二者相加得到。通过人为调整噪声系数以得到不同信噪比下带噪语音增强研究进行对比。噪声系数取值分别为0.05、0.04、0.02和0.01。实验采用窗长为256的汉明窗,帧间重叠50%取值,最后需除去汉明窗引起的增益。实验仿真结果如下:N=0.05时谱减前信噪比SNR1=-0.3864db谱减后SNR2=5.2068db3.1.2谱减法语音增强仿真结果图(1)n=0.04时带噪语音语音信噪比SNR1=1.8332db增强后信噪比SNR2=6.5320db3.1.3谱减法语音增强仿真结果图(2)n=0.02时增强前SNR1=7.0305db增强后SNR2=11.1236db3.1.4谱减法语音增强仿真结果图(3)n=0.01时增强前SNR1=12.5197db增强后SNR2=15,0896db3.1.5谱减法语音增强仿真结果图(4)实验结论:从实验仿真结果对比可看出,噪声系数越小即信噪比越大时,谱减法进行语音增强后整体得到的语音越接近原始干净噪声,也就越准确。单就每个信噪比下的实验而言,语音幅度越大的位置增强效果越好,而语音幅度比较小的位置,在低信噪比下很容易造成语音失真。谱减法整体增强效果不错,主要语音信息特征能够很好还原,但仍旧存在很多噪点。其实现过程比较简单,计算量小,但在低信噪比时增强效果较差,不仅有较多噪声残留,且回有较多语音失真。3.1.2维纳滤波法维纳滤波法距今已有几十年历史,已经不断得到完善和改进。其的本质就是从噪声中提取信号的过滤和预测的方法,并以估计的结果与信号真值之间的误差的最小均方值作为最佳准则,是统计意义上的最佳滤波器。维纳滤波法分时域和频域波两种形式,时域维纳滤波原理如下:3.2.1维纳滤波时域原理图假设输入待噪语音信号y(x)和期望输出干净语音信号d(x)为高斯平稳过程,则系统输出误差表示为:其中,为系统滤波器系数,为输入向量。再利用最小均方准则求解最优滤波器系数:其中为输入信号和期望信号互相关;为输入信号自相关矩阵;对W进行求偏导并解出维纳霍夫-方程得滤波器最优系数:频域维纳滤波法实现过程如下:滤波后系统输出可写为:则误差估计可写为那么均方误差化简为其中,是输入信号y(x)和期望信号d(x)的互功率谱;是输入信号y(x)的功率谱。对误差求偏导并令其为零可解得:频域最佳滤波器系数显然频域维纳滤波法的解可由时域维纳滤波器解通过傅里叶变换得到。实验配置:实验数据来源于自建文件夹中的一段干净语音信号,共一位人声,一句英文语音。再由函数Gnoisegen(x,snr)产生固定信噪比的带噪语音信号,分别取SNR=0、SNR=5和SNR=10的情况。帧长为25ms,帧移比例取0.4即10ms,设置IS=0.15,加汉明窗,在非话帧更新噪声谱值,最终对所有语音信号进行幅值归一化处理。实验结果如下:增强前snr1=0.0000增强后snr2=5.44073.2.2维纳滤波仿真结果图(1)增强前snr1=5.0000增强后snr2=8.74853.2.3维纳滤波仿真结果图(2)增强前snr1=10.0000增强后snr2=12.86523.2.4维纳滤波仿真结果图(3)实验结论:从仿真结果前后波形对比可得,维纳滤波法进行语音增强能很大程度上还原原始语音,但对细节处理不够,增强后的语音显得更加平滑,听起来更加舒适。从语音开头结尾处的对比发现,信噪比越大时,语音还原越准确,低信噪比会使得较弱语音信号丢失,且开始会有较明显的噪声残留,对比增强前后语音信噪比,当信噪比越高时,维纳滤波的提升效果会逐渐减小。3.3.3LMS自适应滤波器法在语音降噪中,LMS自适应滤波器基础算法也有其一席之地,所谓自适应滤波就是利用前一时刻已获得的滤波器参数等结果自动调节当前时刻的滤波器参数,以适应信号和噪声未知的或随机变化的特性。因此,基于自适应滤波器算法的语音降噪适用范围广泛且降噪效果较好。基本的LMS滤波器系统结构如下:3.3.1LMS自适应滤波器原理图如图所示:输出信号y(n)表达式其中,X(n)为输入信号;W(n)是权重;N是N阶滤波器。则误差为均方误差为结合y(n)表达式可得其中,,为输入信号采样值之间的自相关矩阵;,是理想输出信号与输入信号的互相关。若要求均方误差达到最小值时的最优权重,则有即:计算可得最佳权重此时的最小均方误差用最陡下降原则的迭代算法得其中,为收敛因子;是n次迭代的梯度。以上便是基本的LMS自适应滤波器算法原理,其实现简单且性能稳定。实验配置:实验数据干净语音信号与前面维纳滤波法中的语音数据相同,是相同的人声和同样的一句英文语音。噪声是由系统随机生成,先经过滤波后利用add_noisedata函数按照指定信噪比合成带噪语音信号,取信噪比分为为0、5和10的情况,FIR滤波器由fir1函数产生,其中N=32,Wn=0.5,使用汉明窗加窗。实验结果如下:增强前snr1=-0.0000增强后snr2=13.2515snr=13.25153.3.2LMS自适应滤波仿真结果图(1)增强前snr1=5.0000增强后snr2=16.2345snr=11.23453.3.3LMS自适应滤波仿真结果图增强前snr1=10.0000增强后snr2=16.5162snr=6.51623.3.4LMS自适应滤波仿真结果图(3)实验结论:从仿真结果对比波形图可以看出,基于LMS滤波器语音增强后语音最开始会有残留噪声,原因是因为滤波器有延迟,信噪比越低时前端噪声残留越多。其他地方总体降噪效果不错,明显噪声能够有效过滤,相比谱减法和维纳滤波法,LMS滤波器法语音增强信噪比改善更加明显。3.2有监督训练的语音增强算法针对上述传统单声道语音增强算法中存在的问题和缺陷,人们开始思考并提出了有监督学习的语音增强算法。在有监督学习的语音增强算法中,有基于隐马尔科夫模型语音增强、基于字典学习和稀疏表示类语音增强、基于深度神经网络语音增强算法等。大体可分为两类,一类是主要利用干净语音信号获得码本先验信息,再结合传统语音增强算法实现语音增强;另一类是完全利用数据本身进行学习干净语音和噪声之间的特征和参数,然后对带噪语音信号进行匹配来实现语音增强。第一类所需的训练数据量比较小、模型简单;第二类一般情况下需要数据量越好,语音增强的效果越好,但超过某一临界值则会导致过拟合现象。有监督的语音增强算法又可分为两个阶段:训练阶段和增强阶段。训练阶段首先通过学习干净语音和噪声数据得到各种的特性和参数,然后利用反向错误传播算法进行有监督调优(调整参数)。增强阶段先进行特征提取,然后将其输入到训练好的模型中进行进行解码,实现语音增强。本文主要描述基于深度神经网络的语音增强算法。第四章基于深度学习的单声道语音增强深度学习是语音增强的一种算法,是由最初的浅层人工神经网络发展而来,浅层神经网络层数较少规模小、且训练数据量小,因此系统无法精确表示带噪语音和干净语音之间的非线性映射关系,泛化能力弱,再加上没有很好的初始化方案,因此当时表现并不出色。神经网络一般由输入层、隐层、输出层组成,深度神经网络是层数较多、网络结构较为复杂的人工神经网络,一般其隐层数大于三层。使用深度学习解决语音增强问题,即从数据中学习带噪语音和干净语音的非线性映射关系,由此得到干净语音信号。深度神经网络框架示意图如下:4.1深度神经网络结构图网络中的每个节点都可看成一个感知机,输入层输入的一般是语音特征,而隐层各个节点处的激活函数为非线性激活函数,输出层的激活函数可以使线性激活函数。4.1深度神经网络模型基于深度学习的语音增强算法和上述传统算法相比,几乎不需要什么假设,避免了一些不合理假设对语音增强效果的影响,并且具有很好的非线性拟合能力。基于深度学习的语音增强系统框架如下:4.1.1基于深度学习的语音增强系统框图整个过程分为两大步:训练和增强。在训练阶段需要大量干净语音和各种各样的噪声样本,根据加性噪声模型,将其通过相加构造大量带噪语音语音样本,得到各个信噪比下的带噪语音和干净语音数据对,也称平行语料,如下所示:上式中的调节参数用来控制信噪比。然后进行特征提取,输入DNN系统用作训练DNN模型,学习带噪语音和干净语音之间的非线性映射关系。DNN训练过程又可分为两部分:无监督预训练(也叫前向传播)和和基于反向传播算法的有监督调优。前向传播是指数据样本特征从输入层输入后,依次逐层向后传播进行线性计算,将前一层的输出用作后一层的输入直到最后一层输出层,输出一个经过计算的估计值。第n曾第i个节点(神经元)处的输出可表示为:其中,表示第n-1层的第k个神经元与第n层的第i个神经元之间的权重,表示第n层第i个神经元的偏置,表示激活函数。反向传播调优则与前向传播恰好相反,是从输出层开始出发,将目标语音特征作为输入向前计算,以更新整个DNN的权重和偏置,最常使用的是梯度下降法。多次迭代以上算法即可得到较合适的初始化参数。可见输入特征和训练目标是训练过程必不可少的因素,极大影响了后面增强部分的系统性能,一个好的训练目标可以有效保证语音的不失真。增强阶段是DNN的核心部分,将需要进行语音增强的带噪语音中提取的特征信息,输入到前面训练好的DNN网络系统的输入层,按照已经调整好的系统参数逐层进行计算,将前一层的输出用作后一层的输入知道输出层输出结果,然后用语音增强后的特征进行波形重构,得到目标干净语音。4.2基于卷积神经网络的语音增强算法基于深度神经网络的语音增强算法对非平稳噪声的抑制能力较强、语音增强效果显著,因此这几年得到人们的广泛关注和应用,并发展出了多种神经网络模型,例如:卷积神经网络(CNN)、循环神经网络(RNN)、和生成对抗网络(GAN)。由于本文篇幅有限,只着重讨论其中一种神经网络——卷积神经网络。卷积神经网络是深度学习的代表算法之一,其名称来源于该网络使用了数学中的卷积运算方式,使用卷积运算方式可以使特征增强,具有很好的泛化能力和适应性。最初主要被应用于图像识别,后来人们发现可同样用于语音识别并且取得了不错的效果。CNN是一个前溃式神经网络,并采用反向传播算法优化网络参数,它的本质其实也是一个多层感知机,与其他神经网络相同的是由大量神经元连接而成,同样要经过训练和增强两个步骤。但相比一般的神经网络结构,CNN的优势是采用了局部连接(卷积层中的神经元只与部分相邻层之间的神经元连接)和权值共享(也就是共享卷积核),这种结构大大减少了神经网络中的参数,优化了网络,降低了网络模型的复杂度。因此卷积神经网络中的参数个数与神经元的个数无关,而与滤波器大小和滤波器的种类有关。局部感受野使得每个神经元不用对全部输入特征感受,只进行局部对比,最后将所有特征综合起来即可得到整体结果。权值共享是指是指不同神经元之间共享参数,即对整体用同一个卷积核进行卷积运算。卷积神经网络由输入层、卷积层、池化层(也叫下采样层)、全连接层和输出层组成。经输入层输入后第一层一定是卷积层,卷积层和池化层交替连接,共同用来提取特征。4.2.1卷积层低隐层中的第一层是卷积层,用来提取输入最近基本的特征,其由许多卷积单元组曾。卷积层参数主要包括感受野(filter)大小、步长(stride)以及边界填充(pad)。感受野大小就是卷积核大小,其不能超过输入尺寸;步长决定了感受野以何种速度进行平移计算;而边界填充用于避免丢失特征图边缘信息。卷积层的运算过程如下图所示:假设输入一个5*5的数组,边界填充为1,则尺寸变成了7*7,设定卷积核为3*3进行卷积运算,步长为2。4.2.1卷积运算示意图计算表达式:其中,表示输出特征,表示卷积核第i行第j列元素,表示输入第i行第j列元素,b表示偏置。在语音识别中,将带噪语音特征作为网络的输入,看作一个数组,预先定义好三个参数,使用感受野进行卷积运算。从原值输入特征数组的左上角开始,取与感受野相同大小模块与感受野进行卷积运算,然后按照步长以后往后挪动到下一个与感受野大小相同的板块进行运算,以此类推到最后一个,运算结束即可得到一个feathermap。4.2.2池化层池化层也叫子采样层,顾名思义,是对经过上一轮卷积运算过后的特征图进行子采样,进一步提取主要特征,目的是压缩特征图,使计算量大大减少。与卷积层相互配合共同完成特征的提取,与卷积层相同的时,池化层也有一个池化核,作用跟卷积核大同小异,不过不再是进行卷积运算,而分为两种方式:最大池化和均匀池化。最大池化即在输入特征图中与池化核大小相等的区域中每次取最大值;均值池化则是在每个区域中取平均值。它们用该区域的最大值或平均值表示压缩后的特征,虽然可以简化模型但也同时降低了特征精确度。具体操作示意图如下所示:4.2.2池化运算示意图4.2.3全连接层全连接层一般是卷积神经网络的最后一层,不同于卷积层之间的局部链接方式,采用softmax全连接方式,即这层每个神经元与邻层神经元之间都有连接,那么这样一来参数较多,计算较为复杂,但是全连接层并不是必须的,最好是该网络尽量不采用全连接层就可实现目标功能。如果说卷积/池化层的作用相当于滤波器,那么全链接层的作用相当于一个分类器。该层需要一个输入值,该数值是输出分类的类别数,全连接层就用来查看上一层的输出特征最有可能与哪几类相关,然后输出一个n维数组。4.2.4经典卷积神经网络结构以下是目前广为人知的几种经典卷机网络结构以及它们的各自特点:表4-1几种卷积神经网络结构特点名称特点LeNet是人们研究出的第一个卷积神经网络AlexNet赢得了2012年ILSVRC的冠军,自此得到人们广泛关注,CNN网络得到迅速发展;采用ReLU作为激活函数;采用局部归一化处理VGGNet16-19层网络;全部采用3*3的卷积核和2*2的池化核,用多层小卷积代替一层大卷积,减少了网络参数;他强调了卷积神经网络深度对性能提升的意义GoogleNet采用22层神经网络、稀疏连接以及Inception结构,解决了过拟合问题;提升了了对网络内部资源的利用ResNet有152层;跳跃式结构,提出了残差学习,通过恒等映射解决网络层数过多导致的梯度爆炸问题第五章总结与展望5.1本文总结语音增强在各个领域都有着十分重要的意义,传统单声道语音增强虽然是语音增强中最基础的研究,但在该领域中极具代表性,适合作为初学者入门阶段研究内容。本文也是主要研究对比传统单声道语音增强算法中的几种经

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论