不限定发音方式变化类型的s-norm_第1页
不限定发音方式变化类型的s-norm_第2页
不限定发音方式变化类型的s-norm_第3页
不限定发音方式变化类型的s-norm_第4页
不限定发音方式变化类型的s-norm_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

不限定发音方式变化类型的s-norm

说话者识别是一种基于语音中包含的说话者特定信息的生物认证技术。说话人识别系统的性能受很多因素的影响,例如,环境、录音和信道条件,说话人自身特征(比如,方音、重音、说话方式、情感等)以及语种等。这些因素在训练和测试上的不匹配会导致说话人识别系统性能的下降。这些不匹配情况分为两类:一是与说话人无关的不匹配,如,环境、录音或信道的不匹配;二是说话人自身发音方式变化引起的不匹配。说话人识别领域的大部分研究集中于第一类,例如比较突出的跨信道问题。不过,近些年来,发音方式变化对说话人识别的影响也引起了越来越多的关注。发音方式的变化是多种多样的,涉及到情感、音量和语速等多个方面。很多科研人员研究了情感变化对说话人识别的影响;对于音量发生变化,文研究了耳语、轻声、正常、大声说话以及喊叫等5种发音方式;还在语速快慢方面进行研究;双语问题也是一个研究热点。此外,说话方式的变化,如自然发音和朗读等也有研究。对于这些发音方式鲁棒的说话人识别研究,研究人员尝试的各种算法可以分为特征域、模型域和分数域等几种类型。然而,在说话人识别系统的实际应用过程中,要求说话人在训练与识别时保持相同的发音方式是很困难的;此外,发音变化也是多种多样的,不可能事先进行限定。然而,现有的研究通常是专注于发音方式变化的某个特定方面,对于如何用更通用的方法来解决多种发音方式变化的鲁棒性问题,研究较少。本文以一个含多种发音方式变化数据库为基础,对于不限定发音方式变化类型的情形,提出发音方式分数规整(speaking-stylenormalization,S-Norm)的解决方法。1自适应的两种形式说话人识别是依据说话人语音中所含有的说话人个性信息进行身份辨认的,而语音中除了说话人的个性信息,还包含了其他信息诸如语义信息、信道信息、环境噪音以及反映说话人共性的一般信息等。所谓分数规整,即通过大量与目标说话人相近的集外说话人语音估计出非说话人个性信息,并在分数域减去这些信息的影响的一个过程。说话人识别领域的分数规整方法可分为两类:只与训练相关的分数规整方法和与测试相关的分数规整方法。前者以Z-Norm为代表,还包括H-Norm、C-Norm、Top-Norm和D-Norm等;后者以T-Norm为代表,还有两种自适应形式AT-Norm和KLT-Norm。Z-Norm和T-Norm是目前最常使用的两种分数规整方法。假设某测试语音的声学特征向量为Or={o1,…,oN},目标说话人t的模型用λt来表示,s(Or|λt)为该测试语音在目标说话人模型上的打分。Z-Norm使用一个集外说话人语音集ΩI={OI,1,…,OI,K}(I代表该语音或模型来自集外说话人,K是集外说话人语音数目),在目标说话人模型上打分为SI={s(OI,1|λt),…,s(OI,K|λt)},且Z-Norm假定这些分数服从Gauss分布,μZ-Norm和σZ-Norm为Gauss分布的均值和方差。则规整后的分数计算如下:SZ−Norm(Or|λt)=s(Or|λt)−μZ−NormσZ−Norm.(1)SΖ-Νorm(Οr|λt)=s(Οr|λt)-μΖ-ΝormσΖ-Νorm.(1)Z-Norm的规整化参数与目标说话人模型相对应,优点在于其估计可在说话人模型训练阶段(离线)完成。T-Norm正好与之相反,其规整化参数与测试语音相对应,参数估计必须在测试阶段(在线)方可完成。T-Norm使用一个集外说话人模型集ΛI={λI,1,…,λI,M}(M是集外说话人模型数目),测试语音Or在模型集上的打分为SI={s(Or|λI,1),…,s(Or|λI,M)},且T-Norm假设这些分数服从Gauss分布,μT-Norm和σT-Norm为Gauss分布的均值和方差。则规整后的分数计算如下:ST−Norm(Or|λt)=s(Or|λt)−μT−NormσT−Norm.(2)SΤ-Νorm(Οr|λt)=s(Οr|λt)-μΤ-ΝormσΤ-Νorm.(2)若在分数域将训练模型和测试语音的信息结合起来,即将Z-Norm和T-Norm以某种方式结合起来,则称为ZT-Norm。2根据发音规则和符号顺序的说话人识别方法2.1第三,基于基准场景的语音场景未改变的场景文中考虑了发音方式变化的6个方面,共12种场景,包括说话方式(自然发音和朗读)、语速(快速、中速和慢速)、音量(高音、中音、低音和耳语)、情感状态(高兴、生气和中性)、身体状况(感冒时的鼻音、嘴里含着东西讲话和正常状态)以及语种(汉语和英语)等。这样,语音的发音方式就可以用一个六元组来表示,即〈说话方式,语速,音量,情感状态,身体状况,语种〉。考虑到实际应用情况,本文将〈自然发音,中速,音量适中,中性,正常状态,汉语〉这种语音场景定义为基准场景。通过改变且仅改变基准场景六元组中的某个方面,可以得到另外常见的11种语音场景(发音方式),如图1所示。将这12种语音场景(发音方式)简记为:自然发音、朗读、快速、慢速、高音、低音、耳语、生气、高兴、鼻音、口中有物、英语。2.2实验2:m-ubm说人识别系统面向实际应用的说话人识别系统,在建立说话人模型时,用户通常会以正常状态发音,即对应前一节中定义的基准场景;而系统面对的测试语音则可能是用户改变发音方式后的语音,与训练语音的发音方式可能不同。本文涉及的实验都是建立在此基础上。依照传统的Gauss混合-通用背景模型(GMM-UBM)说话人识别系统的做法,将说话人各语音场景的数据共同训练得到一个UBM,说话人模型的训练和测试配置如前所述。实验结果表明,这种配置性能不好,等错误率(EER)为32.4%。另一个改进的基线系统为:用各语音场景的数据分别训练出12个场景相关的UBM,记为Π={UBM1,…,UBM12};对每个目标说话人t建模时,只使用其基准场景的语音数据,从这些UBM中适应得到该说话人的场景相关的说话人模型Λt={λt,1,…,λt,12}。测试语音Or在这12个模型上打分为St={s(Or|λt,1),…,s(Or|λt,12)},则该测试语音在该说话人模型上的最终得分为:s(Or|λt)=max{s(Or|λt,1),⋯,s(Or|λt,12)}.(3)s(Οr|λt)=max{s(Οr|λt,1),⋯,s(Οr|λt,12)}.(3)以下各节分数规整方法的实验都是建立在这个基线的基础之上。2.3模型编码和编码SZ-Norm方法选用集外说话人各种场景下的语音进行分数的规整。每个目标说话人t的12个场景说话人模型为Λt={λt,1,…,λt,12}。SZ-Norm实验选用的集外说话人语音集ΩI={OI,1,…,OI,K},对Λt中的每个模型进行打分。设ΩI在λt,i(i=1,…,12)上的打分为:St,i={s(OI,1|λt,i),…,s(OI,K|λt,i)}。假设这K个分数服从Gauss分布,μt,i和σt,i为Gauss分布的均值和方差。这样对于每个目标说话人的每个场景说话人模型,都可以估计出一个均值和方差对,即规整化参数。测试时,某测试语音Or在某目标说话人t的某个场景说话人模型λt,i上打出原始分s(Or|λt,i)后,可以用相应的规整化参数μt,i和σt,i进行规整。对于SZ-Norm本文进行了两组对比实验,第一组实验是先在原始分数上求最大再对最大的那个分数进行相应的规整,将此规整分数作为最终得分;第二组实验是先对所有的原始分数进行各自相应的规整,然后取最大的分数。2.4计算模型的编码ST-Norm方法选用集外说话人基准语音场景下的语音进行分数的规整。同基线系统一样,每段集外说话人语音OI,k(k=1,…,M)分别从12个场景UBM中适应出12个场景说话人模型ΛI,k={λk,1,…,λk,12}(k=1,…,M),共计M×12个模型。对应于每个场景i,测试语音Or在若干集外说话人该场景说话人模型λk,i(k=1,…,M)上的打分为Si={s(Or|λ1,i),…,s(Or|λM,i)},假设这M个分数服从Gauss分布,μr,i和σr,i为Gauss分布的均值和方差。这样对于每个测试语音共有12对规整化参数。某测试语音Or在某目标说话人t的某个场景说话人模型λt,i上打出原始分s(Or|λt,i)后,可以用相应的规整化参数μr,i和σr,i进行规整。同SZ-Norm实验相似,也进行了两组对比实验。2.5集外说话人模型测试SZT-Norm实质是SZ-Norm与ST-Norm的结合。该方法选用两部分(说话人不交叉)集外说话人语音。其中一部分集外说话人语音(仅使用基准场景)OI,k(k=1,…,M)分别从12个场景UBM中适应出12个场景说话人模型ΛI,k={λk,1,…,λk,12}(k=1,…,M),共计M×12个模型。另一部分集外说话人语音(包含12种语音场景)在目标说话人模型Λt={λt,1,…,λt,12}以及之前的集外说话人模型上进行SZ-Norm的过程,对于每个模型都可得到一对规整化参数μj,i和σj,i(j=1,…,M,t;i=1,…,12)。测试语音Or在集外说话人模型λk,i(k=1,…,M;i=1,…,12)上打的分数先使用之前得到的该模型SZ-Norm参数μk,i和σk,i进行规整,再对规整后的分数进行ST-Norm的过程,得到该测试语音在该场景上的规整化参数μr,i和σr,i。该测试语音Or在某目标说话人t的某个场景说话人模型λt,i(i=1,…,12)上打出原始分s(Or|λt,i)后,先用该目标说话人的该场景说话人模型的SZ-Norm参数,即μt,i和σt,i进行规整,而后再用该测试语音相应于该场景的ST-Norm参数,即μr,i和σr,i进行规整。3fcc,ubm的语音数据本文选用的系统是基于GMM说话人确认系统,系统声学特征采用32维MFCC,UBM有128个Gaussian混合。从数据库中选用了20个说话人的语音数据进行训练和测试。训练模型的语音长度为90s,测试语音长度为22s。其余说话人语音数据用于UBM的训练和分数规整。3.1分数混乱方法对比对于分数规整方法SZ-Norm和ST-Norm,选用了相同的15个集外说话人。所不同的是,SZ-Norm实验中使用了这15个集外说话人的全部12种语音场景,共1440段语音(22s/段,总共540min)数据;而ST-Norm实验中仅使用了这15个集外说话人基准语音场景下的30段语音(90s/段,总共45min),数据量为SZ-Norm的1/12。每种分数规整方法都对应着两组实验,即先取最大分数再进行规整(简记为“最大-规整”)和先进行分数规整再取最大(简记为“规整-最大”)。这种配置下的5组实验结果如表1中基线、SZ-Norm及ST-Norm列所示(以等错误率EER表示)。相对于基线实验,两组SZ-Norm和ST-Norm实验的性能均有相当程度的提升,其中大部分语音场景下都是“规整-最大”这种配置要好一些。例外情况仅发生在SZ-Norm中测试语音场景为耳语时。可见,“规整-最大”的方法在说话方式、语速、情感状态、身体状况或语种发生变化时均使EER有一致的明显下降趋势。这个现象表明:经过分数规整会平均掉其他非说话人个性信息,使得分数大小的比较更加可信。在“规整-最大”这种情况下,比较SZ-Norm与ST-Norm的性能可以看出,ST-Norm的总体性能要好一些,EER较之基线下降约23.5%,远好于SZ-Norm的18.6%。在自然发音、英语、高音、低音、耳语、快速、生气及高兴等大多数语音场景下,ST-Norm的性能均明显优于SZ-Norm;只在慢速和朗读这两个语音场景下差一些。ST-Norm用少得多的数据就达到了更好的性能,这说明ST-Norm以测试语音为中心的规整化思想,更能够平均掉测试语音与规整化语音声学上的不匹配。3.2szt-norm实验SZ-Norm和ST-Norm的实验均表明“规整-最大”的做法整体效果较好,于是在SZT-Norm实验中只采用这种方式进行了1组实验。之前的实验中为了比较SZ-Norm与ST-Norm的性能使用了同样的集外说话人,但在SZT-Norm中用于SZ-Norm和ST-Norm的集外数据不能交叉,所以另选了15个集体说话人的数据重新进行了一组ST-Norm实验,对于SZ-Norm仍延用之前的数据。SZT-Norm的实验结果如表1的SZT-Norm列所示。可见,做了SZT-Norm分数规整后,系统的整体性能较之单独的SZ-Norm或者ST-Norm均有所提升,较之基线EER下降约27.1%。尤其是与单独的SZ-Norm相比,仅有慢速和耳语场景稍差了一些,其余场景效果都很好;但与单独的ST-Norm相比,不少场景下的性能都有所下降,这对SZT-Norm的配置提出了更高的要求。4算法的有效性本文以一个含多种发音方式变化数据库为基础,对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论