《基于卷积神经网络结构的单通道语音增强算法设计》15000字(论文)_第1页
《基于卷积神经网络结构的单通道语音增强算法设计》15000字(论文)_第2页
《基于卷积神经网络结构的单通道语音增强算法设计》15000字(论文)_第3页
《基于卷积神经网络结构的单通道语音增强算法设计》15000字(论文)_第4页
《基于卷积神经网络结构的单通道语音增强算法设计》15000字(论文)_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

图14所示。也就是说,除了当前帧之外,每个输入都需要输入当前帧的前几帧和后几帧。因为语音具有短时相关性,多输入几帧可以体现这种相关性。本实验采用的网络包括三层隐藏层,不同的隐藏层具备节点数量约为2050个,利用LeakyReLU当作隐藏层的激活函数,并且选择线性函数当作网络输出层的激活函数。而且在不同层的输出适当融入Batch-Normalization改进操作过程,不同隐藏层的Dropout参数皆为0.1,也就是说训练中期间保留九成的神经元。反向传播期间利用Adam方法调整梯度,进而在一定程度上提升收敛效率。图SEQ图\*ARABIC14深度神经网络各层标签:数据的标签为纯语音信号的幅度谱,这里需要一帧。损失函数:学习噪声和纯语音信号的幅度频谱类似于回归问题,因此损失函数用于返回常见的损失函数,例如均方误差(MSE)。最后一层激活函数:由于是回归问题,最后一层使用线性激活函数。其他:对输入幅度谱进行归一化处理可以加快学习过程,提高收敛速度。如果不使用振幅谱,则可以使用功率谱。如果功率谱的单位是dB,则需要对数据进行预处理。因为log的定义字段不能为0,所以在取对数之前,将小于0的数字添加到功率谱中。4.4.2增强阶段:输入:输入是噪声信号的幅度谱,也需要帧扩展。对输入数据进行处理可以在语音信号加上值为0的语音帧,或者舍弃首尾的几帧。如果训练过程对输入进行了归一化,这里也需要进行归一化。输出:输入为估计的纯净语音幅度谱重构波形:在计算输入信号幅度谱的时候需要保存每一帧的相位信息,然后用保存好的相位信息和模型输出的幅度谱重构语音波形,代码如下所示:spectrum=magnitude*np.exp(1.0j*phase);4.5基于掩蔽的语音增强还存在方法是利用掩蔽的方法实现更好的语音增强效果,将掩蔽作为基础的方法基于这样的假设,在噪声谱中既存在噪声信号又存在语音信号,因此将噪声信号掩蔽掉剩下的就是语音信号。目前常用的掩蔽方法有两种,即理想二元掩蔽和理想比率掩蔽。计算方法是指基于掩码的语音分离。理想二进制掩码(IdealBinaryMask,IBM)中的分离任务变成了一个二进制分类问题。这种方法根据听觉感知的特性将音频信号划分为不同的子带。根据每个时频单元的信噪比,将相应的时频单元的能量设置为0(当噪声占优时)或保持不变(当目标语音占优时)。理想比率掩码(IdealRatioMask,IRM),也计算每个时频单位,与IBM的二进制分类不同。在IRM中,计算语音信号和噪声之间的能量比,得到一个介于0和1之间的数字。然后时频单位的能量也随之变化。IRM是IBM的进化,它反映了每个时频单元的噪声抑制程度,可以进一步提高分离语音的质量和可懂度。基于掩蔽的语音增强模型的训练和增强过程与基于映射的语音增强模型相似。标签:数据的标签为根据信噪比计算的IBM或者IRM,这里采用一帧。损失函数:IBM的损失函数可以用交叉熵,IRM的损失函数还是用均方差。最后一层的激活函数:IBM只有0和1两个值,IRM范围为[0,1],因此采用sigmoid激活函数。波形重建:首先,将噪声幅度谱乘以计算出的掩模值的相应位置。代码如下,然后根据相位信息重构语音波形。enhance_magnitude=np.multiply(magnitude,mask);4.6代码运行结果示意图图SEQ图\*ARABIC15基于映射的语音增强效果图SEQ图\*ARABIC16基于IBM的语音增强效果图SEQ图\*ARABIC17基于IRM的语音增强效果本实验采样单位时间采取8000个采样点,第一幅图是噪声和原语音的混合波形图。通过波峰的振幅可见IRM要大于IBM,也就是将IRM作为基础的语音增强效果明显比将映射和IRM的作为基础的语音增强效果较好,而且将IBM作为基础的语音增强效果明显优于将映射作为基础的语音增强效果。5总结与展望本文首先从数字语音信号处理的角度探讨了传统单声道语音增强方法的优缺点,并对其进行了仿真。本文研究了现有的网络模型和方法原理,针对当前模型噪声鲁棒性差、增强语音信号(如音乐噪声)的语音失真等问题,对算法和模型性能进行了改进。最后通过比较基于映射、IBM、IRM的语音增强效果得出了基于IRM的语音增强效果较好的结论。卷积神经网络比深度神经网络的效果可能更好一些,因为它需要的参数更少,提取的特征更多,之后会继续研究卷积神经网络对语音增强效果的影响。参考文献HanW,WuC,ZhangX,etal.SpeechEnhancementBasedonImprovedDeepNeuralNetworkswithMMSEPretreatmentFeatures[C]//InternationalConferenceonSignalProcessing,Chennai,India,2016:1140-1145.魏泉水.基于深度神经网络的语音增强算法研究[D].南京大学,2016.张馨.基于深度神经网络的语音增强算法研究[D].哈尔滨工业大学,2019.LimJS,OppenheimAV.Enhancementandbandwidthcompressionofnoisyspeech[J].ProceedingsoftheIEEE,1979,67(12):1586-1604.JeonKM,ParkNI,KimHK,etal.Multi-bandspectralsubtractionbasedzoom-noisesuppressionfordigitalcameras[C].IEEEInternationalConferenceonConsumerElectronics.2013:401-402.EphraimY,MalahD.Speechenhancementusingaminimum-meansquareerrorshort-timespectralamplitudeestimator[J].IEEETransactionsonAcoustics,SpeechandSignalProcessing,1984,32(6):1109-1121.谭乔来.语音增强方法研究及应用[D]:[硕士学位论文].湖南:湖南师大学,2008.CohenI.NoiseSpectrumEstimationinAdverseEnvironments:ImprovedMinimaControlledRecursiveAveraging[J].IEEETransactionsonSpeechandAudioProcessing,2003,11(5):466-475.KangTG,KwonK,ShinJW,etal.NMF-BasedSpeechEnhancementIncorporatingDeepNeuralNetwork[C]//AnnualConferenceoftheInternationalSpeechCommunicationAssociation,Singapore,2014:2843-2846.E.Hinton,SOsindero,YWTeh.AFastLearningAlgorithmforDeepBeliefNets[J].NeuralComputation,2006,18(7):1527-1554.XuY,DuJ,DaiL,etal.AnExperimentalStudyonSpeechEnhancementBasedonDeepNeuralNetworks[J].IEEESignalProcessLetters,2014,21(1):65-68.韩伟,张雄伟,闵刚等.基于感知掩蔽深度神经网络的单通道语音增强方法[J].自动化学报,2017,43(2):248-258.XugangLu,YuTsao,ShigekiMatsuda,etal.SpeechEnhancementBasedonDeepDenoisingAutoencoder[C]//InternationalConferenceonInterspeech.Lyon:SpeechCommunicationPress,2013:436-440.彭川.基于深度学习的语音增强算法研究与实现[D].电子科技大学,2020.李湑.单声道语音增强关键技术研究[D].重庆邮电大学,2019.KounovskyT,MalekJ.Singlechannelspeechenhancementusingconvolutionalneuralnetwork[C].Electronics,Control,Measurement,Signals&TheirApplicationtoMechatronics.IEEE,2017./leixiaohua1020/article/details/47276353陈欢,邱晓晖.改进谱减法语音增强算法的研究[J].计算机技术与发展,2014,24(4):75-77./yhcwjh/article/details/112598893HyvarienA.FastandRobustFixedpointAlgorithmsforIndependentComponentAnalysis.IEEETrans.OnNeuralNetwork.1999,10(3):626~634.HyvarienA.“FastandRobustFixedpointAlgorithmsforIndependentComponentAnalysis.”NeuralComputa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论