




已阅读5页,还剩76页未读, 继续免费阅读
(信号与信息处理专业论文)说话人识别鲁棒性研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
l | i iimi i i i i iip i i i i i i i i i i i i i i i ii i h l y 2 12 5 6 0 0 u n i v e r s i t yo fs c i e n c ea n dt e c h n o l o g yo fc h i n a ad i s s e r t a t i o nf o rm a s t e r sd e g r e e r e s e a r c ho nr o b u s t n e s s o fs p e a k e r r e c o g ni t i o n a u t h o r sn a m e l i a n w hc h e n s p e c i a l i t y : s i g n a la n di n f o r m a t i o np r o c e s s i n g s u p e r v i s o r : a rw ug u o p r o f l i r o n gd a i f i n i s h e dt i m e : a p r i l3 0 m ,2 0 12 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除己特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明。 作者签名:签字日期:望丝:鱼:2 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入中国学 位论文全文数据库等有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 口公开口保密( 年) 作者签名:导师签名: 签字日期:垫垒:鱼:1 签字日期: 摘要 摘要 随着说话人识别技术的发展,说话人识别系统的性能已经达到实用的水平, 例如在2 0 1 0 年n i s t 的说话人识别评测中,核心测试的等错误率达到1 左右。 然而在实用环境中,说话人识别系统将会面临各种复杂的鲁棒性问题,例如复杂 的信道和环境噪声,说话人年龄、情绪等自身因素的变化,以及冒认者语音是合 成语音的情况。本文主要针对说话人识别的噪声鲁棒性问题以及合成语音鲁棒性 问题展开研究,具体内容如下: 关于噪声鲁棒性问题,本文首先对信号域、特征域和模型域的经典噪声鲁棒 性方法进行调研。其中信号域采用基于m m s e l s a 的语音增强算法;特征域采用 特征高斯化和相对频谱滤波;模型域则是采用多样训练。通过观察以上方法在多 种噪声环境下的性能,本文较为全面地分析了不同噪声鲁棒性方法的特点,并验 证了相应融合策略的有效性。在完成对不同域鲁棒性方法调研的基础上,本文将 丢失特征理论引入说话人识别系统,并且提出相应的改进方法:第一,将丢失特 征理论中的重建模型与说话人识别系统中的通用背景模型进行绑定,一定程度上 使得重建特征与后端模型匹配;第二,利用线性谱域和对数m e l 滤波器输出域的 互补性,对语音的丢失特征进行更加准确的二次重建:第三,采用不确定度解码 方法,将重建特征的不确定度传播到得分域。实验表明,以上提出的改进方法对 系统性能有一定的提升作用。 关于合成语音鲁棒性问题,本文的目标是构建自然语音与合成语音区分系 统,从而保证说话人识别系统不会将合成语音冒认者错误接受为目标说话人。本 文首先根据自然语音与合成语音在m e l 倒谱统计特性上的差别,提出从倒谱统计 特性的角度来区分自然语音与合成语音。接下来,通过分析参数语音合成系统的 特点,本文发现合成语音相对自然语音具有更小的发音差异性,进而提出基于音 素发音差异性的自然语音与合成语音区分系统。实验表明,本文提出的方法能在 一定条件下区分自然语音与合成语音,提高说话人识别的合成语音鲁棒性。 关键词:说话人识别混合高斯通用背景模型噪声鲁棒性丢失特征理论合 成语音鲁棒性 摘要 a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to fs p e a k e rr e c o g n i t i o nt e c h n o l o g y , t h ep e r f o r m a n c eo f s p e a k e rr e c o g n i t i o ns y s t e mh a sb e e na tt h ep r a c t i c a ll e v e l f o re x a m p l e , t h ee q u a l e r r o rr a t eo fc o r ee v a l u a t i o ni sl i nt h en i s ts p e a k e rr e c o g n i t i o ne v a l u a t i o no f2 010 h o w e v e r , t h es p e a k e rr e c o g n i t i o ns y s t e mw i l lb ec o n f r o n t e dw i t hm a n yk i n d so f r o b u s tp r o b l e m si nt h ep r a c t i c a le n v i r o n m e n t ,s u c ha st h ec o m p l e xc h a n n e la n dn o i s e e n v i r o n m e n t ,v a r i a t i o no fs p e a k e r se m o t i o no ra g e ,a n dt h ei m p o s t o ru s i n gt h e s y n t h e s i z e ds p e e c h i nt h i sd i s s e r t a t i o n ,w ef o c u so nt h en o i s e r o b u s t n e s sp r o b l e ma n d t h es y n t h e s i z e ds p e e c hr o b u s t n e s sp r o b l e mo fs p e a k e rr e c o g n i t i o n f o rt h en o i s er o b u s t n e s sp r o b l e m ,w ef i r s ti n v e s t i g a t et h ec l a s s i cn o i s er o b u s t n e s s m e t h o d so nt h es i g n a l ,f e a t u r ea n dm o d e ld o m a i n f o rt h es i g n a ld o m a i n ,w ec h o o s e t h es p e e c he n h a n c e m e n ta l g o r i t h mb a s e do nm m s e l s a f o rt h ef e a t u r ed o m a i n ,w e u s e dt h ef e a t u r eg a u s s i a n i z a f i o na n dt h er e l a t i v es p e c t r a lf i l t e r i n g b e s i d e s ,m u l t i s t y l e t r a i n i n gi su s e do nt h em o d e ld o m a i n ,b yi n v e s t i g a t i n gt h ep e r f o r m a n c eo fa b o v e m e t h o d so nv a r i o u sn o i s ee n v i r o n m e n t s ,t h e c h a r a c t e r i s t i co fd i f f e r e n tn o i s e r o b u s t n e s sm e t h o d si sa n a l y z e dc o m p r e h e n s i v e l y , a n dt h ee f f e c t i v e n e s so ft h ef u s i o n s t r a t e g yi st e s t i f i e d a f t e ri n v e s t i g a t i n gt h ec l a s s i cn o i s er o b u s t n e s sm e t h o d s ,w e i n t r o d u c et h em i s s i n gf e a t u r et h e o r yt ot h es p e a k e rr e c o g n i t i o n ,a n dt h er e l a t i v e i m p r o v e dm e t h o d sa r ep r o p o s e d f i r s t l y , i no r d e rt om a t c ht h er e c o n s t r u c t e df e a t u r e w i t ht h eb a c k e n dm o d e l t h er e c o n s t r u c t i o nm o d e lo f m i s s i n gf e a t u r et h e o r yi sb o u n d u pw i t ht h eu n i v e r s a lb a c k g r o u n dm o d e lo fs p e a k e rr e c o g n i t i o ns y s t e m s e c o n d l y , w e p r o p o s et w o s t e pr e c o n s t r u c t i o nb yc o n n e c t i n gt h el i n e a rs p e c t r a ld o m a i nw i t ht h e l o g a r i t h mo u t p u td o m a i no fm e l f i l t e r , w h i c ht a k e sa d v a n t a g eo ft h ec o m p l e m e n t a r y o ft h et w od o m a i n st om a k ep r e c i s er e c o n s t r u c t i o no fm i s s i n gf e a t u r e f i n a l l y , t h e u n c e r t a i n t yd e c o d i n gi su s e dt op r o p a g a t et h eu n c e r t a i n t yo fr e c o n s t r u c t e df e a t u r et o s c o r ed o m a i n e x p e r i m e n t sd e m o n s t r a t et h ee f f e c t i v e n e s so ft h ep r o p o s e dm e t h o d s f o rt h es y n t h e s i z e ds p e e c hr o b u s t n e s sp r o b l e m ,t h ea i mo ft h i sd i s s e r t a t i o ni st o b u i l du pt h ed i s c r i m i n a t i o ns y s t e mw h i c hc o u l dd i s c r i m i n a t et h es y n t h e s i z e ds p e e c h f r o mn a t u r a ls p e e c h ,+ s ot h a tt h es p e a k e rr e c o g n i t i o ns y s t e mw i l ln o tf a l s ea c c e p tt h e s y n t h e s i z e ds p e e c hi m p o s t o ra st h et a r g e ts p e a k e r w ef i r s ti n v e s t i g a t et h ed i f f e r e n c e o fm e l c e p s t r a lb e t w e e nn a t u r a ls p e e c ha n ds y n t h e s i z e ds p e e c h , a n dt h er e l a t i v e d i s c r i m i n a t i o ns y s t e mi sp r o p o s e d t h e n ,b ya n a l y z i n gt h ec h a r a c t e r i s t i co f p a r a m e t r i c a b s t r a c t s p e e c hs y n t h e s i ss y s t e m ,w ef i n dt h a tt h es y n t h e s i z e ds p e e c hh a sl i t t l ep r o n u n c i a t i o n v a r i a t i o nt h a nt h en a t u r a ls p e e c h ,a n dt h e nt h ed i s c r i m i n a t i o n s y s t e mb a s e do n p h o n e m i cp r o n u n c i a t i o nv a r i a t i o ni sp r o p o s e d t h ee x p e r i m e n t sd e m o n s t r a t et h a tt h e p r o p o s e dm e t h o d sc o u l dd i s c r i m i n a t et h es y n t h e s i z e ds p e e c hf r o mt h en a t u r a ls p e e c h i nc e r t a i nc o n d i t i o n ,s ot h a tt h es y n t h e s i z e ds p e e c hr o b u s t n e s so fs p e a k e rr e c o g n i t i o n i si m p r o v e d k e y w o r d s :s p e a k e rr e c o g n i t i o n ,g a u s s i a nm i x t u r em o d e l u n i v e r s a lb a c k g r o u n d m o d e l ,n o i s er o b u s t n e s s ,m i s s i n gf e a t u r et h e o r y , s y n t h e s i z e ds p e e c h r o b u s t n e s s v 目录 目录 摘要i a b s t r a c t i i i 目录j v 第1 章绪论。1 1 1 说话人识别简介1 1 1 1 研究背景及应用一1 1 1 2 说话人识别概述2 1 1 3 发展状况3 1 1 。4 性能评价标准5 1 1 5 说话人识别的鲁棒性问题5 1 2 噪声鲁棒性6 1 2 1 问题分析6 1 2 2 研究现状7 1 3 合成语音鲁棒性9 1 3 1 问题分析一9 1 3 。2 研究现状1 0 1 4 基线系统介绍11 1 4 1 特征提取11 1 4 2 模型训练1 2 1 4 3 得分计算13 1 5 实验数据库介绍1 3 1 6 论文组织结构1 4 v 第2 章经典噪声鲁棒性方法研究1 5 2 1 引言1 5 2 2 语音增强算法15 2 2 1 基于m m s e l s a 的语音增强1 5 2 2 2 信噪比估计1 7 2 2 3 噪声功率谱估计1 8 2 3 特征规整与滤波1 9 2 3 1 特征高斯化1 9 2 3 2 相对频谱滤波2 0 2 4 多样训练2 1 2 4 1 基于多样训练的说话人确认系统2 1 2 4 。2 模型区分度问题2 2 2 5 实验结果与分析2 5 2 5 。1 实验配置2 5 2 5 2 结果分析2 6 2 6 总结2 9 第3 章丢失特征理论3 l 3 1 引言3 1 3 2 丢失特征理论的基本原理3 1 3 2 1 频谱可靠性标记31 3 2 2 基于最小均方误差估计的频谱重建方法3 2 3 3 性能改进方法3 4 3 3 1 重建模型与u b m 绑定3 5 3 3 2 二次重建3 6 , 3 3 3 不确定度解码3 8 v 目录 3 4 实验结果及分析3 9 3 4 1 实验配置3 9 3 4 2 结果分析4 0 3 5 总结4 3 第4 章合成语音鲁棒性4 5 4 1 引言4 5 4 2 合成语音鲁棒性问题分析4 5 4 2 1 基于h m m 的参数语音合成系统4 5 4 2 2 合成语音数据库构建4 8 4 2 3 现有说话人确认系统的合成语音鲁棒性j 4 9 4 3 自然语音与合成语音的区分5 0 4 3 1 倒谱统计特性_ - 5 0 4 3 2 发音差异性5 3 4 4 实验结果与分析5 5 4 4 1 基于倒谱统计特性的区分系统5 5 4 4 2 基于发音差异性的区分系统5 6 4 5 总结5 9 第5 章总结与展望6 1 5 1 论文主要贡献6 1 5 2 后续研究方向6 2 参考文献6 3 致 谢6 9 在读期间发表的学术论文和研究经历7 1 v i i v 第1 章绪论 1 。1 说话人识别简介 1 1 1 研究背景及应用 第1 章绪论 语音是人类相互之问进行沟通、交流的一种有效方式。作为传播信息的载体, 语音信号承载着多层次的信息。首先,语音携带的最基本信息是内容信息,例如 说话人所要表达的文本信息以及语种信息:此外,语音信号还包含说话人的自身 信息,比如心情、性别、年龄和说话人身份等。由于人脑可以很容易地提取语音 信号中所包含的各种信息,人类之间可以很方便地用语音进行交互。然而,让计 算机像人类一样可以利用语音进行交互,是自计算机诞生以来人类一直追求的梦 想。随着信息技术的发展,计算机向移动便携化方向发展已成为一种趋势( 例如 智能手机的广泛应用) ,人们越来越渴望摆脱传统的键盘或者触摸技术的束缚, 使用语音这种更加自然、简便、人性化的交互方式。与此同时,越来越多的研究 人员致力于智能语音识别领域,试图利用计算机从语音信号中提取各种有用信 息,满足在信息化时代的应用需求 1 ,2 】。 智能语音识别技术可以分为以下几个方向:语音识别( a u t o m a t i cs p e e c h r e c o g n i t i o n ,a s r ) 、语种识别( l a n g u a g er e c o g n i t i o n ) 和说话人识别( s p e a k e r r e c o g n i t i o n ) 。其中语音识别的目的是提取语音信号中所包含的文本内容;语种 识别通过对语音信号进行分析,得到所属的语种信息;说话人识别则是希望从语 音信号中提取说话人的身份信息。与语音识别或者语种识别不同的是,说话人识 别技术并不关心语音信号所包含的内容信息( 文本或者语利,) ,而是关心语音信 号包含的说话人信息,通过提取语音信号中的说话人信息特征来确定该段语音是 谁说的。 由于人体发音器官的生理差异以及后天形成的发音习惯差异,每个人在讲话 过程中都带有比较强烈的个人特点,因此可基于语音特征进行说话人的身份识 别。虽然语音特征会因为说话人的自身情绪,生理状态以及外界环境干扰等因素 的变化而产生差异,影响说话人识别的准确性。但是与虹膜、指纹等身份识别特 征相比,语音特征的人机接口比较友好,并且由于具备动态变化性较难被模仿( 虹 膜、指纹都是固定的,一旦被窃取则无法保证安全性,而文本相关的说话人识别 可以通过改变文本来提高安全性) 。研究表明现有计算机对说话人的识别准确度 第1 章绪论 一 已经超过人类,并且随着信息技术的发展,说话人识别技术有着非常广泛的应用 前景 3 】: 数据安全:如今每个人都有大量的数据保存在个人电脑或者网络服务器。 传统的文本密码很容易被网络木马破解或者盗取,如果同时采用文本密 码和声纹密码对重要数据进行双重认证,可以进一步保证数据安全。 语音检索:在信息化时代每天都会产生大量的音视频数据,这些数据一 般都没有详细的人工标注。当我们只对特定说话人的数据感兴趣时,可 以利用说话人识别技术在海量数据中检索出所需内容。 金融领域:在金融相关的支付过程中,可以采用说话人识别技术对付款 人身份进行远程认证。与传统的文本密码确认相比,采用说话人识别技 术相对人性化且密码不易被盗取。 军事应用:在军事或国家安全部门,可以利用说话人识别技术对敌方军 事和政治首脑进行监控,侦听敌方的一系列重要决策。同时还可以在作 战过程中对命令发出者的身份进行确认。 司法鉴定:说话人识别技术可以为公安、司法等部门提供技术支持。如 通过说话人识别技术从大量监控语音中查找犯罪嫌疑人,同时为法庭提 供确认犯罪嫌疑人的旁证。目前司法方面的话者识别已经成为说话人识 别研究领域的一个重要分支。 1 。1 。2 说话人识别概述 说话人识别( s p e a k e rr e c o g n i t i o n ) 按判决类型可以分为说话人确认( s p e a k e r v e r i f i c a t i o n ) 和说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 4 。说话人确认是将测试语 音与一个特定的目标说话人模型进行比较,判断测试语音是否由该目标说话人所 讲,即系统只给出“是 或者“不是”的二元判决;而说话人辨认则是将测试语 音与一组说话人模型进行比较,确定测试语音来自该组说话人中的哪一个( 闭集 测试) ,或者不属于该组说话人( 开集测试) 。由于说话人辨认是需要对说话人集 合内的所有人进行比较和判决,其性能与集合所含的话者数目有关,随着话者数 目的增多说话人辨认系统的识别,i 生i i i , 4 会下降。相比之下,说话人确认只是在给 定门限下做出二元判决,其性能与话者数目没有太大关系。 此外,说话人识别按照测试语音文本内容的类型可以分为文本相关 ( t e x t - d e p e n d e n t ) 说话人识别和文本无关( t e x t - i n d e p e n d e n t ) 说话人识别。文 本相关说话人识别要求测试语音的文本内容与注册语音的文本内容完全相同,而 文本无关说话人识i i i i 对测试语音的文本内容没有要求。一般情况下,文本相关 篼1 章绪论 说话人识别可以利用文本信息来提高识别准确度,不过需要测试说话人的配合。 而文本无关说话人识别对文本内容没有要求,实际应用范围更加广泛,技术难度 也相对较大。 本文基于说话人识别领域中比较受关注的文本无关说话人确认技术开展相 关研究( 本文后续部分所提到的“说话人识别 、“说话人确认”,如果没有特殊 说明,都是文本无关说话人确认) 。图1 1 给出了经典的文本无关说话人确认的 系统框图,具体包含训练和测试两个阶段。在训练阶段,对每个人的训练语料进 行特征提取,然后通过模型训练得到对应的说话人模型;在测试阶段,将测试语 音的特征参数与声明的目标说话人模型进行相似度计算,然后根据门限判别测试 语音是否来自于目标说话人。 诵练阶段 小美神l 毹丽匾调一小美 - 一特征提取卜- 叫模型训练卜_ 李伟州呻墩 -l 李伟 测试语音删 溺试阶段 e l 标说话人:李伟 图1 1 文本无关说话人确认的系统框图 1 - 1 3 发展状况 说话人识别的研究最早开始于2 0 世纪3 0 年代,早期的研究主要集中在人耳 辨识以及探讨说话人识别的可能性。在6 0 年代初,贝尔实验室的l gk e s t a 通 过目视语谱图的手段来进行说话人识别,提出了“声纹 的概念 5 ,开启了说 话人识别领域的研究。 进入8 0 年代后,矢量量化技术( v e c t o rq u a n t i z a t i o n ,v q ) 6 1 芹1 1 动态时间规 整( d y n a m i ct i m ew a r p i n g ,d t w ) 7 】在说话人识别领域得n t 广泛的应用。以 此同时,随着模式识别和机器学习领域的快速发展,人工神经网络( a r t i f i c i a l n e u r a ln e t w o r k ,a t 州) 8 和隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 9 成为说话人识别中常用的建模方法。到了9 0 年代,麻省理工大学林肯实验室( m i t l i n c o l nl a b ) 的d a r e y n o l d s 等人提出的混合高斯通用背景模型( g a u s s i a n m i x t u r em o d e l u n i v e r s a lb a c k g r o u n dm o d e l ,g m m u b m ) i o ,凭借其良好的性 3 第1 章绪论 能表现得到了很多研究者的认可,并且带动了说话人识别领域的研究热潮。进入 21 世纪后,模式识别领域的支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 技术开 始被引入到说话人识别中,并衍生出一系列相关的技术:如广义线性区分序列 支持向量机( g e n e r a l i z e dl i n e a rd i s c r i m i n a n ts e q u e n c e s u p p o r tv e c t o rm a c h i n e , g l d s - s v m ) 1 1 ,高斯超向量支持向量机( g a u s s i a ns u p e rv e c t o r - s u p p o r t v e c t o rm a c h i n e ,g s v - s v m ) 1 2 。 近年来,考虑到说话人识别在实际应用中面临的信道失配问题,研究者提出 了一系列的信道补偿技术,例如:联合因子分析( j o i n t f a c t o r a n a l y s i s ,j f a ) 1 3 , 类内协方差规整( w i t h i n c l a s sc o v a r i a n c en o r m a l i z a t i o n :w c c n ) 14 ,扰动属 性搜影( n u i s a n c e a t t r i b u t ep r o j e c f i o n ,n a p ) f 1 5 等。此外,在联合因子分析基础 上发展出来的i - v e c t o r 1 6 1 已成为近两年说话人识别领域的研究热点。与联合因子 分析不同,i - v e c t o r 不对说话人因子和信道因子进行细分,而是将两者合并在一 起综合考虑。 在前端特征提取方面,传统的声学特征主要分为两种类型:第一种是基于人 类发音机理提取的特征,其中最常用的是线性预测倒谱系数( l i n e a rp r e d i c t i v e c e p s t r a lc o e f f i c i e n t ,l p c c ) 1 7 ;第二种是基于人类听觉特性提取的特征,例如 梅尔频率倒谱系数( m e l s c a l ef r e q u e n c yc e p s t r a lc o e f f i c i e n t ,m f c c ) 18 和感知 线性预测系数( p e r c e p t u a ll i n e a rp r e d i c t i v ec o e f f i c i e n t ,p l p ) 1 9 】。虽然以上特征 最早都是在语音识别领域被提出,但是这些特征凭借容易提取的特点以及良好的 性能表现,在说话人识别领域一直得到广泛的应用。近年来,由于说话人识别在 模型域出现的性能增长瓶颈,研究人员开始探索如何提取语音信号的高层信息特 征( 韵律信息、音素或短语搭配等) 来提高说话人识别的性1 日m 2 0 ,2 1 。虽然高 层信息特征从理论上讲更能表征说话人的发音习惯、发音方式等,但是由于这些 特征过于稀疏且较难被准确提取,单独基于高层信息特征的说话人识别性能并不 理想。以此同时,考虑实际应用中可能面临的噪声环境,如何提取噪声鲁棒性的 特征参数 2 2 1 ,一直是研究者面临的难题。 美国国家标准技术研究院( n a t i o n a li n s t i t u t eo fs t a n d a r da n dt e c h n o l o g y , n i s t ) 从1 9 9 6 年开始在国际范围内举办说话人识别评测( s p e a k e rr e c o g n i t i o n e v a l u a t i o n ,s r e ) 2 3 ,为国际上各大研究机构提供公平的评测任务以及统一的 测试平台,从而评估当前说话人识别的技术水平。近年来,越来越多的国内外知 名研究机构都参与了n i s t 的说话人识别评测,包括m i t 林肯实验室、i b m 、l p t 、 s t b u 、清华大学和中国科大讯飞语音实验室等。n i s t 的说话人识别评测反映了 当前说话人识别领域的最高水平,同时也为众多研究机构提供互相交流和学习的 机会,对说话人识别的发展起到了一定的推动作用。 第1 章绪论 1 1 4 性能评价标准 在说话人确认系统的性能评价中,通常会涉及到错误接受率( f a l s ea c c e p t r a t e ,f a r ) 和错误拒绝率( f a l s er e j e c tr a t e ,f r r ) 两个概念。其中 错误接受率可表示为 r = ( 1 1 ) v i m p o s t a 7 错误拒绝率可表示为 厂 = 寺生 ( 1 2 ) v t a r g e t 这里m ,哪蛔表示用冒认者语音作测试的次数,m 孵,表示用目标说话人语音 作测试的次数;表示将冒认者语音错误接受为目标说话人语音的次数, 表示将目标说话人语音错误拒绝为冒认者语音的次数。基于错误接受率和错误拒 绝率,n i s ts r e 评测中通常采用以下三个指标来衡量系统性台g 2 4 o 等错误率( e q u a le r r o rr a t e ,e e r ) 采用错误接受率等于错误拒绝率,即= = e 时的e 来衡量系统性 能。等错误率指标认为错误接受率和错误拒绝率对系统的影响相同,是 一个较为简单且有效的评价标准。 检测代价( d e t e c t i o nc o s t ,c d e t ) ,= 圪群,+ ( 卜圪掣,) ( 1 3 ) 其中圪哪,表示用目标说话人语音作为测试语音的概率,和分别 代表错误接受和错误拒绝的惩罚代价,具体的取值根据实际应用的需要 设定。通常情况下,利用最小检测代价可以很好地评价实际应用中说话 人识别系统的性能。 d e t 曲线 d e t 曲线是由错误接受率和错误拒绝率随判决门限变化而产生的,通过 d e t 曲线可以直观地观察说话人识别系统各方面的性能( 如等错误率, 系统推广性等) 。 本文为了简便起见,主要采用等错误率作为系统性能的评价标准。 1 1 5 说话人识别的鲁棒性问题 随着技术的发展,说话人识别系统的性能已经达到令人满意的水平,例如在 5 第1 章绪论 2 0 1 0 年n i s t 的说话人识别评测中,核心测试的等错误率为1 左右 2 5 】。当前 说话人识别技术已经开始进入实用阶段,然而由于实际应用中各种复杂因素的影 响,说话人识别面临一系列鲁棒性问题。 环境因素:现有大部分说话人识别技术都是针对安静环境、信道相对固 定的情况,在实际应用中可能面临各种复杂的信道( 如固定电话、移动 电话,以及各种不同的录音麦克风类型) 以及未知的环境噪声( 如汽车、 地铁等各种背景噪声) 。如何提高系统在噪声环境下的性能,一直是说话 人识别的难点。 说话人因素:人的声音并不是一成不变的,随着年龄的成长,人的声道 结构可能发生变化,导致声音特点的改变。此外,身体状况、喜怒哀乐 等因素都会影响人的发声习惯和声音特点,因此需要说话人识别能尽量 不受这些因素的干扰。 冒认者因素:说话人识别经常应用到各种安全系统,因此也会面临冒认 者以各种手段( 人为模仿、计算机合成语音或者偷录目标说话人语音等) 入侵该安全系统,从而达到窃取数据或者其他不法目的。因此,说话人 识别系统需要对这些冒认者语音进行拒识,保证系统安全性。 以上所提到的问题,除了信道失配得到广泛的关注并已经有较好的解决方 法,其他问题在说话人识别领域至今仍然没有有效的解决方案。本文研究的说话 人识别鲁棒性问题,主要针对环境噪声以及冒认者是合成语音的情况。 1 2 噪声鲁棒性 1 。2 1 问题分析 说话人识别系统一般都是采用干净的注册语音来训练说话人模型,这样的系 统在噪声测试环境下会出现性能的急剧下降。主要原因是训练和测试环境的不匹 配,会导致训练的声学模型与测试的语音特征分布存在的巨大差异,进而影响系 统识别的性能。 通常情况下,噪声包含加性噪声( 环境噪声) 和卷积性噪声( 信道畸变) 。 其中卷积性噪声一直是近年来说话人识别的研究热点,并通过联合因子分析 1 3 、扰动属性投影 1 5 】等技术得到较好地解决。而加性噪声由于不存在较为固 定的统计特性,因此至今没有统一的解决方案。本文主要是针对加性噪声的鲁棒 性进行研究( 本文后续部分提到的噪声,如没有特别说明,均指加性噪声) 。 6 第1 章绪论 1 2 2 研究现状 图1 2 是噪声鲁棒性方法的分类。说话人识别一般可以分为信号域、特征域 和模型域三个部分,通过这三个域对应的变换可以解决训练和测试环境的不匹 配,因此噪声鲁棒性方法可以依照这三个域进行分类。 讽练环境 变 溺试环境 。 信号域特征域模型域 图1 2 噪声鲁棒性方法分类 现有语音识别和说话人识别领域存在很多不同的噪声鲁棒性方法,这些方法 的最终目标都是使得训练和测试匹配。具体总结起来有以下几种: 信号域:对带噪语音进行语音增强。 特征域:对特征进行规整或者补偿,或者直接提取抗噪特征。 模型域:将干净环境下语音模型自适应到噪声环境,或者直接利用噪声 数据来训练声学模型。 丢失特征理论:将测试语音分为可靠和不可靠部分,仅利用语音信号的 可靠部分来进行识别。 1 。2 2 1 信号域方法 信号域的鲁棒性方法一般采用语音增强,即在特征提取之前,通过语音增强 算法去除带噪语音所包含的噪声。一般来说,传统语音增强算法的目标是使增强 后语音的听感变好,而并不关心说话人信息是否有损失,因此语音增强与说话人 识别噪声鲁棒性的提高并没有直接联系。然而相关研究表明,语音增强可以一定 程度上提高说话人识别系统在噪声环境下的性能 2 6 。常用语音增强算法主要分 为两类:第一类是基于信噪比( 或噪声谱) 的方法;另外一类是基于子空间的方 法。具体描述如下: 基于信噪比( 或噪声谱) 的方法主要有谱减( s p e c t r a ls u b t r a c t i o n ,s s ) f 2 7 , 维纳滤波( w i n n e rf i l t e r i n g ,w f ) 2 8 和最小均方误差估计( m i n i m u mm e a n s q u a r e e r r o r , m m s e ) 2 9 。该类方法通常将语音信号从时域变换到频域,然后在每个 7 第1 章绪论 频带利用估计的信噪比进行处理,最后将处理完的频谱重新变换到时域。其中谱 减法直接在原始信号谱上减去噪声谱,而维纳滤波和m m s e 则是在原始信号谱 上乘以一个增益,该增益是利用信噪比计算得到的。目前,基于m m s e 的方法 已经成为语音增强的主流算法。在2 0 0 8 年i c o h e n 对基于m m s el s a 的语音 增强算法进行总结 3 0 】,其中涉及到很多参数的估计,例如噪声谱、先验信噪比 和语音出现概率等,这些参数估计效果的好坏,直接影响语音增强算法的性能。 基于子空间的语音增强算法 3 1 试图将带噪信号空间分解为噪声子空间和 干净信号子空间,然后通过去除噪声子空间分量来估计干净信号。其中带噪信号 空间的分解主要通过对带噪向量的协方差估计进行特征值分解,或者是对数据矩 阵进行奇异值分解。 1 2 。2 2 特征域方法 特征域鲁棒性方法的目标是使模型训练的特征与系统测试的特征相互匹配。 通常的做法有提取鲁棒性特征、特征规整或者特征补偿,具体介绍如下: 鲁棒性特征提取就是在特征提取过
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江西省赣州市宁都县三中2025年高三5月份考试生物试题含解析
- 河南工程学院《分子医学技能2》2023-2024学年第一学期期末试卷
- 浙江国际海运职业技术学院《畜产食品工艺学(实验)》2023-2024学年第一学期期末试卷
- 2025年广东省深圳市龙岗实验中学下学期学业水平监测期末联考初三化学试题含解析
- 丘北县2025年四下数学期末考试试题含解析
- 天津机电职业技术学院《环境风险评价与应急预案课程设计》2023-2024学年第二学期期末试卷
- 河北省衡水十三中2024-2025学年高中毕业班第一次诊断性检测试题物理试题文试题含解析
- 绩溪县2025届三下数学期末统考试题含解析
- 广东省深圳市耀华实验学校2025年高三下学期(4月)月考数学试题试卷含解析
- 山西青年职业学院《养猪学》2023-2024学年第二学期期末试卷
- 《庐山古诗词》课件
- 金属加工机械制造行业分析报告
- 2025年重庆联合产权交易所集团招聘笔试参考题库含答案解析
- 塔吊司机安全培训
- 失眠量表(PSQI)评分项目及标准
- 会议文档制作的艺术与技巧
- 双通道脊柱内镜技术临床应用专家共识(2024版)解读
- 婚姻家庭矛盾纠纷排查工作总结六篇
- 2.2 社会主义制度在中国的确立 课件高中政治统编版必修一中国特色社会主义
- 2024年电力算力协同:需求、理念与关键技术报告-南网数研院(蔡田田)
- 食堂就餐协议合同范例
评论
0/150
提交评论