人工智能基础及应用(微课版) 课件 第9章 语音信号处理中的应用_第1页
人工智能基础及应用(微课版) 课件 第9章 语音信号处理中的应用_第2页
人工智能基础及应用(微课版) 课件 第9章 语音信号处理中的应用_第3页
人工智能基础及应用(微课版) 课件 第9章 语音信号处理中的应用_第4页
人工智能基础及应用(微课版) 课件 第9章 语音信号处理中的应用_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation第九章第9章

深度神经网络在语音信号处理中的应用9.1语音信号的基础知识9.2基本原理9.3语音增强技术及应用9.4语音识别的前沿问题及应用前景哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.1语音信号的基础知识9.1语音信号的基础知识9.1.1语言和语音9.1.2语音信号的产生机理9.1.3语音信号的感知9.1.4语音信号生成的产生模型哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.1.1语音和语言

语音、词汇、语法是语言的三个基本要素

语音是由人类发音器官发出的,能承载并传达一定的语义信息,通过人耳接收后能够使人理解其含义的声音。

语音是语言和声音的结合体,研究人类语音信号的产生过程有利于对语音本质的进一步认识,并分析语音信号的基本特征,从而推进语音结构分析和语音识别技术的工作进程。

人的说话过程大致可分为:(1)想说阶段(2)表达阶段(3)传送阶段(4)接受阶段(5)理解阶段。9.1语音信号的基础知识哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.1.2语音信号的产生机理

人类发声的基音频率在80Hz到500Hz的范围内。

基音频率不仅是反映说话人特点的一个重要参数,而且基音频率随时间的变化模式也反映了汉语语音中的声调变化。

9.1.2语音信号的产生机理哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.1.3语音信号的感知9.1.3语音信号的感知哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.1.3语音信号的感知1.听觉系统

(1)耳的结构:耳朵是人类重要的听觉器官,它可以接收外部传来的声音信号并将其转换成神经冲动。语音感知的过程就是指耳朵将转换后的神经脉冲传递至大脑,经过大脑分析处理后转变为确切的信息。哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.1.3语音信号的感知1.听觉系统(2)听觉的形成:

声音的感受细胞在内耳的耳蜗部分,因此,外来的声波必须传到内耳才能引起听觉。哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.1.3语音信号的感知1.听觉系统(3)耳蜗的作用:

声波引起外耳腔空气振动,由鼓膜经过三块听小骨传到内耳的前庭窗,镫骨的运动引起耳蜗内流体压强的变化,从而引起行波沿基底膜的传播。不同频率的声音产生不同的行波,其峰值出现在基底膜的不同位置上。哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.1.3语音信号的感知2.掩蔽效应

掩蔽分为频域掩蔽和时域掩蔽。

声音能否被听到取决于它的频率和强度。

正常人听觉的频率范围为20Hz~20kHz,强度范围为5~130dB。

在听觉区域内,人耳对声音的响应随频率而变化,最敏感的频率段是2~4kHz。

哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.1.4语音信号生成的产生模型

9.1.4语音信号生成的产生模型哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.1.4语音信号生成的产生模型

语音信号产生的时域离散模型的传递函数可表示为:

(9-1)

声道传输函数:

(9-2)

哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.1.4语音信号生成的产生模型从声道模型输出的是速度波uL(n),而语音信号是声压波pL(n),二者之倒比称为辐射阻抗ZL。它表征口唇的辐射效应,也包括圆形的头部的绕射效应等。当然,从理论上推导这个阻抗是有困难的。但是如果认为口唇张开的面积远小于头部的表面积,则可近似地看成平板开槽辐射的情况。此时,可推导出辐射阻抗的公式:

(9-3)哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.1.4语音信号生成的产生模型

(9-4)然后使用数字滤波器设计的双线性变换方法将上式转换成z变换的形式:

(9-5)若略去上式的极点(R的值很小),即得一阶高通的形式:

(9-6)

写为拉普拉斯变换形式:哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.2基本原理9.2基本原理9.2.1语音识别的基本原理9.2.2语音增强的基本原理9.2.3语音分离的基本原理哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.2.1语音识别的基本原理语音识别系统根据不同分类标准划分:(1)根据说话人说话方式及特点的不同,可以把语音识别系统划分为孤立词语音识别系统、连接字语音识别系统和连续语音识别系统三种类型。(2)根据对说话人语音特征的依赖程度可以划分为特定人语音识别系统和非特定人语音识别系统。(3)根据词汇量的大小来划分则可以分为小词汇量、中词汇量、大词汇量以及无限词汇量语音识别系统。9.2.1语音识别的基本原理哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.2.1语音识别的基本原理。(1)预处理;(2)特征提取;(3)训练;(4)识别。哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.2.2语音增强的基本原理

图9-3语音增强方法树状图9.2.2语音增强的基本原理哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.2.2语音增强的基本原理

1.谱减法(1)幅度谱减法:幅度谱减法的基本原理如图9-4所示。哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.2.2语音增强的基本原理设含噪语音y(t)由纯净语音x(t)及加性噪声d(t)组成。含噪语音y(t)经过FFT变换后,可得

(9-7)将Y(ω)表示为极坐标形式,则有

(9-8)

哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.2.2语音增强的基本原理式中,|Y(ω)|是幅度谱,φy(ω)是含噪语音的相位谱。噪声同样也可以表示为极坐标形式,即

(9-9)噪声谱是未知的,可以通过在非语音段得到一个估计值,噪声的相位φd(ω)可以用含噪语音的相位φy(ω)来近似。由于相位信息不会影响语音的可懂度,这样的近似是可行的。这样可以得到纯净语音的谱估计为

(9-10)符号^表示估计值。将

进行傅里叶逆变换就可以得到估计的纯净的语音信号。这种语音增强算法叫做幅度谱减法。哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.2.2语音增强的基本原理

1.谱减法

功率谱减法:假设语音信号与噪声信号不相关,含噪语音信号的功率谱如下

(9-11)

上式可改写为

(9-12)哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.2.2语音增强的基本原理式中,下标w表示加窗信号;上标*表示复共轭。由于d(n)和s(n)互不相关,则互谱的统计均值为0,所以原始语音的功率谱估值如下所示:

(9-13)式中,^表示估计值。由于人耳对语音信号相位不敏感,|(ω)|2可在无语音段估计得到。因为涉及估值,所以实际中有时这个差值为负,但功率谱不能为负,故可令估值为负差值时置零,得到

(9-14)哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.2.2语音增强的基本原理功率谱减法的基本原理如图9-5所示。哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.2.2语音增强的基本原理带噪语音的相位argY(ω)直接与|(ω)|相乘,便可恢复出增强后的语音,即有

(9-15)

谱减法的优点在于算法简单高效,并且可以较大幅度地提高信噪比;缺点是不论幅度谱减法或功率谱减法,输出均伴有起伏较大且刺耳的音乐噪声。哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.2.2语音增强的基本原理2.自适应滤波算法哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.2.2语音增强的基本原理

3.小波分析的基本理论

基于小波变换的语音增强算法本质上是一个小滤域滤波算法。

滤波阈值的选择是增强算法成败的关键。

从小波消噪处理的方法上说,阈值的选择一般有三种。

(1)强制消噪处理;

(2)默认阈值消噪处理;

(3)给定软(或硬)阈值消噪处理。哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.2.2语音增强的基本原理

4.维纳滤波法维纳滤波算法的基本原理如下:设y(m)表示含噪语音信号且满足:y(m)=s(m)+n(m),其中s(m)代表不含有噪声的纯净信号,n(m)是原始信号中的加性噪声。当s(m)和n(m)不相关且随机过程平稳的条件下,对y(m)=s(m)+n(m)进行离散傅里叶变换,可得到如下表达式:

(9-16)设维纳滤波的频域响应函数为H(m,k),得到信号最佳估计s´(m)的傅里叶变换为S´(m,k),其表达式如下所示:

(9-17)

最后按照最小均方误差的思想使得输出信号s´(m)尽可能接近原始信号。

哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.2.3语音分离的基本原理

语音分离问题主要分为两个大类:

基于信号变换的传统方式;

基于深度学习的方式。

利用深度学习方式更好对输入和输出特征进行非线性拟合,相对于浅层网络,其更加具有优势。9.2.3语音分离的基本原理哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.2.3语音分离的基本原理哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.3语音增强技术及应用语音增强技术始于上个世纪60年代,随着技术的发展语音增强队伍也开始逐渐壮大起来。语音增强具有多种分类方式,根据输入通道个数分为单通道语音增强算法和多通道语音增强算法。单通道算法可分有监督的语音增强算法和无监督的语音增强算法。无监督语音增强算法其重点在于对噪声部分的研究,实现此类语音增强算法大多需要利用先验条件。随着机器学习的不断发展,一些学者把目光投向了基于机器学习和深度学习的语音增强算法。哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.3语音增强技术及应用

哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.3语音增强技术及应用

理想比例掩膜作为本章语音增强模型中的训练目标,计算纯净语音与噪音能量的占比,得到IRM(t,f),可表达为:

(9-18)

其中:S2(t,f)和N2(t,f)分别表示时频域中纯净语音能量和噪音能量。哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.3语音增强技术及应用将估计的纯净语音信号幅值与带噪语音的相位进行重构,得到估计语音,可以表示为:(9-19)

哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.3语音增强技术及应用

%2.generatefeaturesandidealmasksifis_gen_feat==1fprintf(1,'\n\n\n##########################################\n');fprintf(1,'Starttogeneratefeaturesandidealmasks\n\n\n\n');addpath(genpath(['..'filesep'..'filesep'get_feat'])); %testfeaturestotal(feat_line,noise_line,-1,1,num_mix_per_test_part,mix_db,is_ratio_mask,TMP_DIR_STR); %trainingfeaturestotal(feat_line,noise_line,1,1,num_mix_per_train_part,mix_db,is_ratio_mask,TMP_DIR_STR);end语音增强案例哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.3语音增强技术及应用

%3.dnntraining/testcd('dnn');addpath(genpath(['..'filesep'..'filesep'..'filesep'dnn']));ifis_dnn==1fprintf(1,'\n\n\n##########################################\n');fprintf(1,'Startmeanvariancenormalizationanddnntraining/test\n\n\n\n');%meanvariancenormalization mvn_store(noise_line,feat_line,mix_db,TMP_DIR_STR,num_mix_per_test_part);%dnntraining/testrun_every(noise_line,feat_line,mix_db,is_ratio_mask,num_mix_per_test_part);end哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.3语音增强技术及应用opts.sgd_max_epoch=60;%maximumnumberoftrainingepochsopts.sgd_batch_size=30720;%batchsizeforSGDopts.ada_sgd_scale=0.0015;%scalingfactorforada_gradopts.sgd_learn_rate=linspace(0.08,0.001,opts.sgd_max_epoch);%linearlydecreasinglrateforplainsgdopts.cost_function='mse';opts.hid_struct=[1024102410241024];%numofhidlayersandunitsopts.unit_type_output='sigm';opts.unit_type_hidden='sigm';%sigmorrelu哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.3语音增强技术及应用

[model,pre_net]=funcDeepNetTrainNoRolling(train_data,train_target,cv_data,cv_label,test_data,test_label,test_clean_data,cv_clean_data,train_clean_data,test_noise_data,cv_noise_data,train_noise_data,opts);%[pre_net]=dnn(train_data,train_target,cv_data,cv_label,test_data,test_label,opts);

哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.3语音增强技术及应用pile(optimizer=adam,loss='mean_squared_error')#pile(optimizer=adam,loss=modified_SDR_loss)#pile(optimizer=adam,loss=['mean_squared_error',modified_SDR_loss],loss_weights=[0.5,0.5])哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.3语音增强技术及应用哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.3语音增强技术及应用哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.3语音增强技术及应用

哈尔滨理工大学HarbinUniversityof

Science

and

Technology电子信息工程系DepartmentofElectronicInformation9.3语音增强技术及应用其中loss为训练集整体的损失值,val_loss为测试集整体的损失值,当loss下降,val_loss下降时训练正常。当loss下降,val_loss稳定时网络过拟合化。当loss稳定,val_loss下降时说明数据集有严重问题,可以查看标签文件是否有注释错误,或者是数据集质量太差。当loss稳定,val_loss稳定时需要减小学习率(自适应网络效果不大)或batch数量。nb_epochs=60batch_size=128learning_rate=5e-4此部分是dnn.py中的代码,nb_epochs可以设置Skip-DNN的最大迭代次数,batch_size可以设置单次传递给程序用以训练的数据个数,learning_rate

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论