版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
加性噪声影响下文本无意识说话人识别的谱减与缺失特征重建
带噪语音特征重建现在,语言识别系统可以达到与训练环境和测试环境相对应的良好识别率。然而,在实践中,环境噪声的影响导致训练和测试环境失去配置,识别能力下降。因此说话人识别系统需要一些环境适应的方法来提高性能,如语音增强算法(谱减,维纳滤波等)、模型补偿(PMC)和特征补偿等。近年来研究表明缺失特征法能有效提高语音识别系统的噪声鲁棒性。该方法认为噪声对语音各频段的影响不同,因此带噪语音各频段的信噪比也各不相同。将信噪比高的部分的特征称为可靠特征;而信噪比低的部分称为缺失特征。在用干净语音训练模型的前提下,缺失特征对识别起负作用。因此如何处理缺失特征是关键问题。目前主要有两种方法:(1)丢弃缺失特征,只用可靠特征的输出评分进行判决;(2)重建缺失特征,得到完整的特征向量后进行识别。缺失特征重建方法的基本思路是语音信号各频带之间存在着相关性,利用这种相关性由可靠特征估计缺失特征。基于聚类的缺失特征重建方法,利用全协方差矩阵的高斯模型描述聚类中的各个特征子带的相关性,得到缺失特征的MAP估计,并且保留可靠特征。该方法是在参数级上增强特征,并不需要改变识别模型,可以转换为对识别性能更好的倒谱参数,因此在语音识别领域有很好的应用。本文研究证明,基于聚类的缺失特征重建方法同样能有效提高说话人识别系统的噪声鲁棒性,但该方法在完整的重建语音特征的同时,也带来了重建误差,阻碍了话者识别系统性能的进一步提高。在此基础上,本文进一步提出了谱减法和缺失特征重建相结合的方法,采用谱减法增强可靠特征,并用增强后的可靠特征判断聚类,重建缺失特征。另外本文提出缺失帧丢弃法,应用于谱减和缺失特征重建结合的系统中,通过实验验证了本文方法的先进性。1子带可靠性分析本文缺失特征重建处理的对象是Mel子带特征向量,即在Mel频率域均匀分布的20个三角滤波器组输出,Mel子带特征向量每一维分量都代表了语音信号在对应Mel子带内的能量。因此缺失特征检测和缺失特征重建都在Mel子带特征向量空间中进行。由于带噪语音在不同帧的不同子带上的能量分布各不相同,因此需要逐帧判断各个子带的可靠性,判断依据为信噪比准则。当局部信噪比小于一定阈值时,该子带标记为缺失特征;反之为可靠特征。缺失特征重建法保留可靠特征,并重建缺失特征,其中局部信噪比已知时重建为理想重建。1.1理想缺失特征检测与噪声重建缺失特征检测的目的是判断可靠特征与缺失特征。定义二维矩阵Mask来描述缺失特征检测的结果,如式(1)所示。Μask(m,l)={1SΝR(m,l)>δ0其他(1)式中:SNR(m,l)为第m帧第l个Mel子带的信噪比;δ为判断该子带是否可靠的阈值。当SNR大于阈值时,Mask为1,表示该子带为可靠特征,反之为缺失特征。因此缺失特征检测需要求各个子带的信噪比,并选取合适的阈值。δ取值为-5~5dB,本文由实验得到具体的阈值。如果已知干净语音能量和噪声能量,就可以精确地得到各个子带的信噪比,从而判断可靠特征和缺失特征,称为理想缺失特征检测,经理想缺失特征检测后重建称为理想重建。本文实验中保留了干净语音和噪声,因此可以实现理想重建。理想重建结果用来判断阈值和评价缺失特征重建方法的性能。实际应用中只有带噪语音,为了求各个子带的信噪比,首先估计噪声谱。利用非语音帧信号的功率谱估计噪声谱∼Ν(m,l),并通过Mel滤波器组,得到噪声的Mel子带能量。估计每个子带的信噪比为S∼ΝR(m,l)=10*log10(Y(m,l)-∼Ν(m,l)∼Ν(m,l))(2)式中Y(m,l)和∼Ν(m,l)分别为带噪语音和噪声第m帧第l个子带的能量。1.2基于聚类的缺失特征重建缺失特征检测将语音信号特征向量分成可靠特征和缺失特征,由于语音信号每帧的各个子带之间存在着相关性,因此可以利用特征子带之间的相关性,由可靠特征估计出缺失特征。本文采用基于聚类的缺失特征重建方法的基本思想是:所有特征向量可以分为若干个聚类,每个特征向量都属于其中的某一类,每一类都使用高斯模型来描述其向量分布,则高斯模型的参数便蕴涵了该类向量各子带间的相关性的信息。依据高斯模型的统计信息和可靠特征子带,就可以得到缺失特征的最大后验概率估计。为了描述各个聚类的分布,利用干净语音的Mel子带特征向量训练聚类。首先使用K-means聚类算法将训练集向量分为N个类,将每个聚类近似对应一个单高斯模型,则第i个聚类的向量分布为Ρ(y|i)=exp{-12(y-μi)Τθ-1i(y-μi)}√(2π)d|θi|121≤i≤Ν(3)式中:y为第i个聚类的向量;d为y的维数;μi,θi分别为第i个聚类的均值和协方差矩阵。基于聚类的缺失特征重建的步骤如下:首先依据可靠特征判断每帧向量所在的类,即分别计算每帧向量X中可靠特征Xo对各高斯模型的边缘概率,概率最大的为X所在的类k*,如式(4)所示。k*=argmaxkΡ(Xo|k)Ρ(k)=argmaxk{Ρ(k)∫Ρ(X|k)dXm}(4)式中:P(k)为先验概率;Xo为X的可靠特征;Xm为X的缺失特征;P(Xo|k)为X位于第k个高斯模型的边缘概率。其次根据第k*个聚类的模型参数μk*,Θk*,按最大后验概率准则(MAP)进行缺失特征重建,得重建后的缺失特征∼Xm,如式(5)所示。∼Xm=argmaxXm{Ρ(Xm|Xo,μk*,Θk*)}=μmk*+Θmok*Θ-1ook*(Xo-μok*)(5)式中:μok*,Θook*分别为第k*个高斯模型的可靠部分对应的均值向量和协方差矩阵;μmk*为第k*个高斯模型的缺失部分对应的均值向量;Θmok*为第k*个高斯模型中可靠部分和缺失部分之间的协方差矩阵,表达式为Θmok*=E[(Xm-μmk*)(Xo-μok*)](6)可靠特征不变,缺失特征由∼Xm代替,得到完整的特征向量∼X=[Xo,∼Xm](7)上述基于聚类的缺失特征重建得到完整的特征向量的同时,也带来了一定的重建误差。重建误差主要来源于两部分:(1)缺失特征判别不准确,可靠特征错判为缺失的或缺失特征错判为可靠的;(2)依据可靠特征Xo判断聚类时,出现聚类错误。1.3阈值的判别和识别为了减小重建误差,首先需要正确地判断可靠特征与缺失特征。基于信噪比的缺失特征检测有两个问题:判断各个子带的信噪比和阈值的选取。理想重建的条件下,阈值的选取直接影响缺失特征的判别:当阈值设得较低时,缺失特征检测倾向于将更多的子带标记为可靠,而在静音段保留了较多随机的伪可靠特征;相反,当阈值取得过高时,更多的子带被标记为缺失特征,则在语音段可靠特征减少,有用的语音信息也被认为是缺失特征。另外,带噪语音的全局信噪比(SNR)不同,阈值的设定也可能不同,因此本文在全局信噪比分别为5和15dB,阈值分别为-10,-5,0和5dB时做了实验,识别率如图1所示。实验结果表明,阈值选为-5dB时识别率最高,因此本文实验均选用-5dB。2缺失帧通信接口实验中发现,尽管缺失特征重建方法能很好地提高说话人识别的性能,但由于缺失特征判别的阈值较低(-5dB),可靠特征并不是干净的Mel特征,仍然包含一定程度的噪声,因此由可靠特征判别聚类时,会出现聚类误差,并进一步带来重建误差。因此本文提出谱减和缺失特征重建结合法,其中谱减用于增强可靠特征,利用增强后的可靠特征判断聚类,并重建缺失特征。另外,不同帧中可靠特征的个数不同,当某一帧可靠特征很少时,噪声能量远大于语音能量,无法重建缺失特征,那么称该帧为缺失帧。由于缺失帧是被噪声严重破坏的语音帧,并不能反应说话人信息,丢弃缺失帧反而会提高说话人识别系统的性能。本文将缺失特征子带占总子带的百分比大于60%的帧称为缺失帧。图2为谱减和缺失特征重建结合法的系统框图。首先对带噪信号Y(n)分帧,作FFT变换得到每帧信号的频谱Y(m,w),利用带噪语音的无声段估计噪声谱|∼Ν(m,k)|2,采用改进谱减法得到干净语音频谱的估计(式(8)),本文选用α=3,β=0。|∼X(m,w)|2={|Y(m,w)|2-α|∼Ν(m,w)|2|Y(m,w)|2-α|∼Ν(m,w)|2>β|∼Ν(m,w)|2β|∼Ν(m,w)|2其他(8)其次,将谱减后的语音谱|∼X(m,w)|2和估计得到的噪声谱通过Mel滤波器组,取对数,得到Mel子带特征参数,在Mel子带特征空间中根据局部信噪比判断各个子带是否可靠,并保留可靠特征。最后依据缺失特征的比例判断该帧是否为缺失帧,如果是,则丢弃该帧;否则,依据基于聚类的重建方法,重建缺失特征。重建后的特征经DCT变换转成倒谱参数用于话者识别。3语音特征检测本文采用YOHO数据库,用文本无关的说话人识别来评价特征重建的性能。YOHO数据库是在办公室环境下用电话听筒录制而成,是测试说话人识别系统性能的通用数据库。YOHO数据库中由英文发音的两个数字(例如”thirty-one”,“forty-seven”)为一个序列,每条语句均包含3个序列(例如“32-43-89”),序列之间有停顿。训练集中每个人96条语句(约4~5min),测试集每人40条语句,每条3s左右。实验采用该数据库中训练集和测试集60人的语音数据。语音信号采用20ms的汉明窗分帧,并用0.97的预加重滤波器提升高频分量,帧移为10ms;静音部分通过能量检测和二次丢弃去除;然后经过FFT变换后通过Mel滤波器组,得到Mel子带特征向量用于缺失特征重建,其中滤波器组个数为20。实验选用高斯白噪声和有色噪声f16噪声。噪声数据来自NoiseX-92数据库。人为地按SNR=5,10,15,20dB加入到干净语音中,同时保留干净语音用于做理想缺失特征检测。实际应用中,缺失特征检测的局部信噪比的判决需要估计噪声谱,假设每条语音的前10帧仅包含噪声,则噪声功率谱由带噪语音前10帧功率谱相加并求平均得到。话者模型参数采用16维静态加16维一阶差分共32维MFCC参数,对每个人分别训练高斯混合模型,模型混合度为64,采用对角协方差矩阵,其中模型训练均采用干净语音。在基于聚类的缺失特征重建方法中,随机选用数据库中60人的数据训练聚类,聚类个数N选为128。3.1缺失特征重建方法表1,2分别为各种方法在白噪声和f16噪声影响下的识别结果,评价标准为识别率。其中f16战斗机噪声是有色噪声,能量集中在1600Hz以下和2700Hz左右。表1,2中,基准系统为未加任何预处理方法;谱减法是用于识别系统的前端增强;缺失特征重建应用了基于聚类的缺失特征重建方法;谱减和缺失特征重建相结合方法为本文方法;理想重建为精确地已知各个子带的信噪比后重建的结果。基准系统在干净语音测试时结果为98.23%。噪声的存在使得训练和测试环境失配,随着信噪比的降低,基准系统的识别率也显著地下降,如表1,2所示。谱减法能很好地提高白噪声影响下的识别性能,但在f16噪声影响下,谱减法提高的性能并不明显,特别是在高信噪比时反而会低于基准系统。缺失特征重建方法在信噪比较低时,相比谱减法有较大提高,但在信噪比为20dB时,效果仍然不明显,这是因为缺失特征阈值定得较低,信噪比较高时,缺失特征很少,可靠特征包含噪声,影响识别率。本文方法整体上都有明显提高,表明本文方法能有效提高说话人识别系统的性能。和理想重建相比,f16噪声影响下的识别结果和理想重建的结果非常接近,表明本文方法对受局部噪声影响的语音有很好的鲁棒性。3.2缺失特征重建相比于缺失特征重建法,本文方法能进一步提高话者识别系统的性能。图3为缺失特征重建的结果和本文方法的结果比较。由图3可以看出:f16噪声在信噪比低的区域,本文方法效果提高幅度最大;而在白噪声影响下,本文方法在信噪比高的区域提高较大。4缺失特征检测本文利用缺失特征重建方法来提高加性噪声影响下说话人识别系统的性能,与传统的语音增强不同,该方法保
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学毕业感言模板
- 医院空气消毒管理制度
- 山西财贸职业技术学院《成本与管理会计实验》2023-2024学年第一学期期末试卷
- 山西财经大学《植物与植物生理学》2023-2024学年第一学期期末试卷
- 山东政法学院《工业机器人基础》2023-2024学年第一学期期末试卷
- 车商寄卖合同范例
- 山东杏林科技职业学院《现代作物生产理论与技术》2023-2024学年第一学期期末试卷
- 山东信息职业技术学院《政治学科知识与能力》2023-2024学年第一学期期末试卷
- 热力管道施工合同范例
- 家装工程项目分包合同范例
- 陈述句改成双重否定句
- 人教版高二化学《选择性必修一》期末复习模拟测试题(含答案)
- 中央2024年国家医疗保障局大数据中心招聘应届生笔试历年典型考题及考点剖析附带答案详解
- 透水沥青混凝土路面技术规程DBJ-T 15-157-2019
- 2023-2024学年湖北省黄石市黄石港区八年级(上)期末数学试卷(含解析)
- 职业素养提升第2版(大学生职业素养指导课程)全套教学课件
- 声音的产生省公开课一等奖新名师课比赛一等奖课件
- indesign典型实例第一章
- 2024年全球光伏板清扫机器人行业总体规模、主要企业国内外市场占有率及排名
- 新时代大学生劳动教育智慧树知到期末考试答案章节答案2024年延边大学
- 离心式压缩机设计-离心压缩机气动及结构设计含6张CAD图
评论
0/150
提交评论