(信号与信息处理专业论文)基于概率统计模型的说话人确认的研究.pdf_第1页
(信号与信息处理专业论文)基于概率统计模型的说话人确认的研究.pdf_第2页
(信号与信息处理专业论文)基于概率统计模型的说话人确认的研究.pdf_第3页
(信号与信息处理专业论文)基于概率统计模型的说话人确认的研究.pdf_第4页
(信号与信息处理专业论文)基于概率统计模型的说话人确认的研究.pdf_第5页
已阅读5页,还剩164页未读 继续免费阅读

(信号与信息处理专业论文)基于概率统计模型的说话人确认的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 从语音信号中有效地提取个人特征信息进行说话人身份的辨认和确认,是语音 识别研究领域的一个重要研究方向。无论从人机界面、身份验证还是信息检索等 各个应用方向而言,自动说话人识别都具有广泛的应用前景,其研究具有越来越 重要的社会意义和实用价值,因而在国际和国内都受到了极大的关注。 自动说话人识别根据说话内容可以分为与文本有关和与文本无关两类。论文对 自动说话人识别中的一个重要方面一说话人确认,采用概率统计模型的方法,从 与文本有关和与文本无关两个角度,对噪声鲁棒性、参数提取、模型训练以及闽 值设置等方面进行了深入研究。 对于与文本有关的说话人确认,论文以实用为目标,从系统结构简单、用户注 册和使用方便着手,采用基于短语音的方式,围绕如何从短语音中有效提取鲁棒 性的说话人特征、如何为说话人建立高性能的背景模型、如何在小训练样本的情 况下进行鲁棒性的阈值设置等,对说话人特征参数、建模方法以及阈值设置等进 行了较深入的研究。 论文深入分析了m e l 频率倒谱参数( m f c c ) 的高阶系数在高斯白噪声下的 鲁棒性以及高阶系数选取的最优范围,同时结合动态参数,在相关实验中获得了 较好的性能。针对窄带加性噪声干扰,论文提出了子带m f c c 特征参数,并建立 了+ 个基于予带隐马尔柯夫模型( h m m ) 和多层感知机( m l p ) 的说话人确认系 统,不仅解决了不同子带加权融合的问题和确认闽值设置的问题,还使得系统在 窄带加性噪声下的鲁棒性得到了较大的提高。 论文对基于短语音的说话人确认中的背景模型和阈值设置两个方面提出了改进 方法。通过采用高斯混合模型( g m m ) 作为背景模型,对不可预期的冒认文本有 了一定的预测,提高了系统在实用环境下的确认性能。论文还提出了一种基于最 小检测代价函数( d c f ) 的新的鲁棒性确认阈值的设置方法。通过将训练语音分 子集,分别用来训练模型和测试评分,然后对评分拟合并重采样,最后根据最小 d c f 计算确认闽值,有效地解决了d , n 练样本下的确认阈值设置问题。基于以上 技术,论文实现了一个基于w w w 的与文本有关的远程语音身份认证系统。实际 使用环境下的测试表明,该系统具有较高的易用性和安全性。 对于与文本无关的说话人确认,论文采用g m m u b m 结构,对说话人确认中 中文摘要 g m m 的训练问题进行了深入分析和探讨,尤其对g m m 的区分性训练算法进行 了深入的研究。论文还进一步探讨了语音信号中能够表征说话人个性信息的超音 段特征,如人说话时抑扬顿挫的韵律、人说话的速率以及语音文本中的习惯用语 等,对它们用于说话人识别进行了定的研究。 论文霉点分析了基于概率统计的况话人模型的理论基础一贝叶斯判决理论, 并讨论了其在实际应用中的不足。针对这种不足,提出了一种新的利用分类性能 进行指导的区分性训练算法一f o m 训练算法,使得g m m 的确认性能得到了一 定的提高。同时,为了降低训练过程中的结构风险,论文中还提出一种基于线性 变换的改进f o m 训练算法一l t f o m 算法,初步实验结果表明这个算法是较有 前途的。 由于常规的说话人识别只采用基于声道特征的参数,没有充分利用语音所 携带的信息。论文对语音信号所携带的超音段说话人特征,如韵律、语速等, 进行了定的研究和探讨。将激励源信息( 基音频率) 及其变化轨迹( 韵律) 与m f c c 结合用于说话人确认,获得了很好的效果,使系统的等误识率下降了 1 6 。首次采用通过信号处理的方法提取出的语速进行说话人确认,与基音频率、 韵律、m f c c 相结合,使只采用m f c c 的系统的等误识率下降了1 9 。 论文讨论了作者参与或负责的三项与文本无关的说话人确认评测系统。一是在 2 0 0 2 年度美国国家标准及技术署( n i s t ) 举办的m u l t i m o d a l 说话人识别评测中 获得第一名的微软亚洲研究院参赛系统,另外两项分别是中国科大语音信号处理 实验室参加2 0 0 3 年度n i s t 评测中的1 - s p k 和2 - s p k 任务的系统。 论文的研究工作得到了国家自然科学基金( n o 6 9 8 7 2 0 3 6 和n o 6 0 2 7 2 0 3 9 ) 的 资助。 l l a b s t r a c t i t 8o n eo ft h ei m p o r t a n tr e s e a r c hf i e l d so fs p e e c hr e c o g n i t i o nt h a tu s i n gi n f o r m a t i o ne x t r a c t e df r o mt h es p e e c hs i g n a lt op e r f o r ms p e a k e ri d e n t i f i c a t i o no r v e r i f i c a t i o n i th a sw i d ea p p l i c a t i o np r o s p e c t si nu s e ri n t e r f a c e ,i d e n t i t ya u t h e n t i c a t i o n ,i n f o r m a t i o nr e t r i e v a la n de t c t h er e s e a r c ho fs p e a k e rr e c o g n i t i o nh a s b e e nc a r r i e do u ta l lo v e rt h ew o r l db e c a u s eo fi t sp r o m i s i n gr o l ei nt h ei n f o r m a t i o n s o c i e t y s p e a k e rr e c o g n i t i o nm e t h o d sc a nb ed i v i d e di n t ot e x t 、d e p e n d e n ta n dt e x t - i n d e p e n d e n tm e t h o d sa c c o r d i n gt o t h ev e r b a lc o n t e n to ft h es p e e c hs i g n a l t h e t h e s i sb a s e so ns p e a k e rv e r i f i c a t i o na n ds t a t i s t i c a ls p e a k e rm o d e l s ,s t u d i e st h en o i s e r o b u s t n e s s ,s p e a k e rf e a t u r ee x t r a c t i o n ,t r a i n i n gm e t h o d so ft h es p e a k e rm o d e l , t h r e s h o l ds e t t i n ga n de t ci n d e p t hf r o mb o t ht e x t - d e p e n d e n ta n dt e x t - ,i n d e p e n d e n t p o i n to fv i e w f o rt e x t d e p e n d e n ts p e a k e rv e r i f i c a t i o n ,a i m i n ga tt h es y s t e ms i m p l i c i t ya n d a p p l i c a b i l i t ya n db a s i n go ns h o r te n r o l l m e n tt e x t ,t h et h e s i ss t u d i e st h ee x t r a c t i n g o fr o b u s ts p e a k e rc h a r a c t e r i s t i c sf r o ms h o r t t e x ts p e e c h ,t h ee s t a b l i s h m e n to ft h e u n i v e r s a lb a c k g r o u n dm o d e l ,t h es e t t i n go fr o b u s tt h r e s h o l dw i t hl i m i t e dt r a i n i n g s a m p l e si n d e p t h t h er o b u s t n e s so fh i g ho r d e rc o m p o n e n t so ft h em e lf r e q u e n c yc e p s t r a lc o - e f f i c i e n tf o rg a u s s i a na d d i t i v eb a c k g r o u n dn o i s ei 8s t u d i e d t h eo p t i m a lr a i l g eo f r o b u s tc o m p o n e n t si sa l s oe v a l u a t e d 。c o m b i n e dw i t hd y n a m i cc o e f h c i e n t s ,p r o m i s i n g r e s u l t sb , l eg i v e ni ns o m e e x p e r i m e n t s a s t ot h en a r r o w b a n db a c k g r o u n dn o i s e , t h es u b b a n dm f c cf e a t u r ei sp r o p o s e df o l l o w e db yas n b - b a n dh m ma n dm u l t i - l a y e rp e r c e p t r o nb a s e dt e x t - d e p e n d e n ts p e a k e rv e r i f i c a t i o ns y s t e m t h ep r o b l e m s o fm e t g i n go fs u b - b a n d sa n ds e t t i n go fv e r i f i c a t i o nt h r e s h o l da r er e s o l v e de f f e c t i v e l yb ym l p ,a n d t h es y s t e mo u t p e r f o r m st h ec o n v e n t i o n a lf u l lb a n ds y s t e mi n a l le x p e r i m e n t sf o rn a r r o wb a n db a c k g r o u n dn o i s e t w on e wm e t h o d sa r ep r o p o s e dt oi m p r o v et h ep e r f o r m a n c eo ft h eb a c k g r o u n d m o d e la n dt h r e s h o l di ns h o f t t e x tb a s e ds p e a k e rv e r i f i c a t i o n b yu s i n gg m m i n - s t e a do fh m m a su b m t h eu n e x p e c t e di m p o s t o rt e x tc a l lb ep r e d i c t e dt os o m e e x t e n t h e r i c et h ev e r i f i c a t i o np e r f o r m a n c eo ft h es y s t e mi se n h a n c e di nr e a le n v i r o n m e n t an e wd e t e c tc o s tf u n c t i o nb a s e dt h r e s h o l ds e t t i n gm e t h o di sp r o p o s e d 1 1 1 英文摘要 t o o t h ep r o b l e mo ft h r e s h o l ds e t t i n gw i t hs m a l lt r a i n i n gs e t i sr e s o l v e de f f e c t i v e l yb yd i v i d i n gt h et r a i n i n gs e ti n t ot w os u b s e t s ,u s i n go n eo ft h e mt ot r a i nt h e m o d e ia n da n o t h e rt ot e s tt h em o d e l ,f i t t i n gt h ei i m i t e dt r u es c o r e sw i t hag n u s s l a nf u n e t i o na n dc r e a t i n gp l e n t yo fp s e u d ot r u es c o r e sw i t ht h eg a u s s j a n b a s e d o nt h em e t h o d sp r e s e n t e da b o v e ,aw w w b a s e dt e x t d e p e n d e n tr e m o t es p e a k e r v e r i f i c a t i o ns y s t e mi s p r o p o s e d t h es y s t e ms h o w sh i g hc o n v e n i e n c ea n ds e c u r i t y i ne v a l u a t i o n sh e l di nr e a le n v i r o n m e n t s f o rt e x t - i n d e p e n d e n ts p e a k e r v e r i f i c a t i o n ,b a s i n go ng m m u b ms t r u c t u r e ,t h e t h e s i ss t u d i e st h ep r o b l e mo fg m m t r a i n i n gi n - d e p t h ,e s p e c i a l l yt h ed i s c r i m i n a t i v e t r a i n i n go fg m m f u r t h e r m o r e t h eh i g h l e v e li n f o r m a t i o nc a r r i e di nt h es p e e c hs i t i 2 a lw h i c hr e p r e s e n ts p e a k e rd l a r a c t e r i s t i c st os o m ee x t e n ta r ei n v e s t i g a t e d t h e s e i n c l u d et h ep i t c hc o n t o u ri , e p r o s o d y , s p e a k i n gr a t e ,i d i o l e c t sa n de t c t h ep e r - f o r m a n c e so ft h e s ec h a r a c t e r i s t i c sa r ee v a l u a t e di ns o m eg m m - b a s e d s p e a k e rv e r i f i c a t i o ne x p e r i m e n t s t h et h e o r e t i c a lf o u n d a t i o no ft h es t a t i s t i c a ls p e a k e rm o d e l b a y e sd e c i s i o nt h e - o r y i si n s p e c t e d t h eg a pb e t w e e nt h et h e o r ya n da p p l i c a t i o ni sd i s c u s s e d t 0d i m i n i s ht h eg a p ,f o m t r a i n i n g ,an e w d i s c r i m i n a t i v et r a i n i n gm e t h o dw h i c ha d a p t s t h ep e r f o r m a n c em e a s u r ea st h eo b j e c t i v ef u n c t i o ni sp r o p o s e d t h ed i s c r i m i n a t i v e a b i l i t yo ft h eg m m i s i m p r o v e d t or e d u c et h es t r u c t u r a lr i s k al i n e a rt r a n s f o p m a t i o nb a s e dr e f o r m a t i v et r a i n i n gm e t h o d ,l t f o mt r a i n i n g ,i sp r o p o s e d q u i t e p r o m i s i n gr e s u l t so ni 圩f o mt r a i n i n ga r eg i v e ni np r e l i m i n a r ye x p e r i m e n t s c o n v e n t i o n a ls p e a k e rv e r i f i c a t i o ns y s t e m sa x eb a s e do ns h o r tt e r ms p e c t r u m f e a t u r e ss u c ha sm f c c w h i c hd o n tm a k ef u l lu s eo ft h ei n f o r m a t i o nc a r r i e di nt h e s p e e c hw a v e f o r m t h el o n gt e r mc h a r a c t e r i s t i c ss u c h a sp r o s o d y , s p e a k i n gr a t ea n d e t ca r ei n v e s t i g a t e d t h ep i t c ha n dp r o s o d yi n f o r m a t i o na r eu s e da sc o m p l e m e n t s t oi m p r o v eam f c cb a s e ds p e a k e rv e r i f i c a t i o ns y s t e m ,w h i c hr e d u c et h eb a s e l i n e e e rb y1 6 t h es p e a k i n gr a t ei st h e ne x t r a c t e db ys i g n a lp r o c e s s i n gm e t h o d b y c o m b i n i n gt h es p e a k i n gr a t ew i t ht h ep i t c h ,p r o s o d ya n dm f c c ,t h en e ws y s t e m o u t p e r f o r n 2 8t h em f c c b a s e ds y s t e mb y1 9 i ne e r t h r e et e x t i n d e p e n d e n ts p e a k e rv e r i f i c a t i o ns y s t e m sa r ed i s c u s s e d o n eo ft h e m r e p r e s e n t i n gm i c r o s o f tr e s e a r c ha s i ap a r t i c i p a t e di nt h e 2 0 0 2n i s ts p e a k e rr e c o g n i t i o ne v a l u a t i o na n dw o ng o l di nt h em u l t i - m o d a lt a s k t h et w oo t h e r sa r en o w p a r t i c i p a t i n gi nt h e2 0 0 3n i s ts i t ef o r1 - s p ka n d2 - s p kt a s k sr e s p e c t i v e l y t h et h e s i sw a ss u p p o r t e db yt h en a t i o n a lf o u n d a t i o no fn a t u r a ls c i e n c e ( n o 6 9 8 7 2 0 3 6a n dn o 6 0 2 7 2 0 3 9 ) 1 v :一一: 苎三耋堡垒 第一章绪论 1 1 说话人识别概述 自动语音识别是通过机器自动地从语音信号中提取我们所感兴趣的各 种信息或者语音的性质,如语义内容、传输通道特征、语言种类以及说话 人身份等等的一种技术。能够从语音信号中自动提取有用的信息如语义内 容、说话人身份等是现代化信息社会的一个重要标志,也是人类几十年来 不断追求的一个目标。对自动语音识别最早的研究是从2 0 世纪5 0 年代开 始的,至今已有5 0 多年的历史。从上世纪5 0 年代初期人们通过测量元音 共振峰的方法进行小规模的孤立字识别 1 ,到6 0 、7 0 年代的时间规整方 法如动态时间规整( d y n a m i ct i m ew a r p i n g ,d t w ) 和参数化的语音特征 表示,如线性预测编码( l i n e a rp r e d i c t i o nc o d i n g ,l p c ) 的出现f 2 5 1 , 再到8 0 年代中期隐马尔柯夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 理论被 介绍到语音识别领域f 6 ,7 1 ,语音识别技术经历了从实验室的初步研究到如 今大规模商业应用的发展阶段。同时还出现了各种各样的专门开发及销售 语音产品的公司,如n u a n c e 、d r a g o ns y s t e m s 以及f o r t e m e d i a 等。 自动语音识别的目的是从语音信号中利用相应算法自动地提取出人们 感兴趣的信息。人在说话时,所产生的语音波形信号中包含了多方面的 信息,例如文本语义信息、语言或口音信息以及说话人本人的特征信息等 等。为了提取不同的所感兴趣的信息,语音识别分为若干研究方向,主要 有语义识别、语言识别以及说话人识别等等,如图1 一l 所示。语义识别试 图从输入的语音信号中寻找说话人表达的语义内容信息,语言识别则专注 于在不同人说的不同语义的语音信号中挖掘出隐含的语言信息,而说话人 识别并不注重语音信号中的语义内容,而是希望从语音信号中提取出代表 。由于语义识别在语音识别各领域中研究较早,研究规模最大,因而通常文献中提到语 音识别( s p e e c hr e c o g n i t i o n ) 的地方指的即是语义识别。在本论文中,语音识别和语义 识别的意义并不相同。 1 1 说话人识别概述 = ! = = = ! = ! = = = = = = ! = = 2 = ! = = = = = ! 一! 图1 1 :语义识别、语言识别和说话人识别的关系 个人身份的特征,识别出说话人的身份。因此说话人识别在处理方法上力 图强调不同人之间的差别,而语义识别和语言识别则力图对不同人说话的 差别加以归一化。简而言之,说话人识别就是从语音波形信号中提取出所 包含的说话人特征信息,并利用提取出的信息对说话人进行身份的辨认或 确认。 随着近些年来计算机科学的发展,社会信息化程度的提高,说话人识 别的用途也越来越广泛。自动说话人识别是一种高效的人机交互、身份验 证以及信息检索手段,它可以被用于计算机和计算机网络的使用、一些关 键部门的出入控制、电话语音交易的身份验证、公安司法、军事上电话语 音的监听、语音数据流中的说话人检测、以及一些个人设施如手机、p d a 等的个性化设置等。随着互联网的蓬勃发展以及数字音频数据的爆炸式增 长,说话人识别也被应用到语音检索和信息获取( i n f o r m a t i o nr e t r i e v a l ) 中,正在获得越来越广泛和深入的研究。在图像、语音识别等模仿人类机 能的模式识别领域中,唯有自动说话人识别的性能在某些条件下可以与人 类的能力相当,甚至超过人类【8 ,9 】。说话人识别的研究已经越来越受到人 们的重视,获得了计算机科学研究领域越来越广泛的关注。 自动说话人识别的研究始于上世纪6 0 年代,同语义识别中的主要技 术一样,当时的主要手段是基于频谱和模板匹配的方法。进入7 0 年代 后,d t w 和矢量量化( v e c t o rq u a n t i z a t i o n ,v q ) 被应用到说话人识别 中,使得说话人识别的性能得到了大幅度的提高。8 0 年代以来,人工神 经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) 和h m m 在语音识别领域中得 到了成功和广泛的应用,并且成为说话人识别的核心技术。进入9 0 年代 后,特别是r e y n o l d sf 1 0 ,1 1 1 对混合高斯模型( g a u s s i a nm i x t u r em o d e l , 2 一: 叁三耋丝垒 g m m ) 做了详尽的介绍之后,由于其简单灵活有效以及具有较好的鲁棒 性,迅速成为当今与文本无关的说话人识别中的主流技术,将说话人识别 带入到一个新的阶段。1 9 9 5 年以来,各种新的说活人识别技术层出不穷, 如g m m u b m 结构f 1 2 1 、大规模连续语音识别( l v c s r ) 应用于与文本 无关的说话人识别【1 3 1 、支持向量机( s u p p o r tv e c t o rm a c h i n e ) 和g m m 的结合 1 4 ,1 5 】、基于评分的说话人规整技术h n o r m 1 2 1 和z n o r m 、 语音高层信息的探讨f 1 6 1 ,以及针对通道失配问题的s m s ( s p e a k e rm o d e l s y n t h e s i s ) f 1 7 ,1 8 】技术等。从上世纪6 0 年代到现在,说话人识别所处理 的语音从小语料库( 较少的说话人) ,干净语音和受限文本发展到今天的 大规模语料库,各种类型语音以及任意内容的文本。经过4 0 多年的研究, 近年来说话人识别的研究重点已经从实验系统转移到实用系统,如实用 背景环境下特别是基于电话语音的识别系统上来。自8 0 年代中期以来, 已经有大量商用的说话人识别系统产品问世。如美国的h o m es h o p p i n g n e t w o r k 1 9 1 ,同时采用与文本有关的说话人确认和语音识别来进行基于电 话语音的订货,目前已有4 5 0 ,0 0 0 人注册:1 9 9 9 年1 0 月份苹果公司在m a c o s9 中加入了v o i c e p r i n tp a s s w o r d 功能,利用语音进行个人计算机的使 用控制f 2 0 1 ;另外,a t & t 等公司都在开发新一代的v o i e e m a i l 的集成管 理系统( 如a t & t 的s c a n m a i lf 2 1 1 ) ,利用连续语音识别和说话人识别 技术将音频形式的语音邮件转换为文本,并自动识别发送人的名字,以便 于用户浏览等等。美国国家标准及技术署( n a t i o n a li n s t i t u t eo fs t a n d a r d a n dt e c h n o l o g y ,n i s t ) 自1 9 9 6 年起开始举办每年一度的说话人识别评测 ( s p e a k e rr e c o g n i t i o ne v a l u a t i o n s ,s r e ) ,为参加者提供统一的电话语 音测试平台,用来评估现今说话人识别技术的进步水平。自1 9 9 6 年起, 累计有4 0 多个国际研究机构参加评测,包括m i tl i n c o l nl a b 、d r a g o n s y s t e m s 、i b mr e s e a r c h 以及m i c r o s o f tr e s e a x c ha s i a 等著名的计算机学科 研究机构,其技术水平代表了当今与文本无关的说话人识别技术的最高水 准。 说话人识别可以分为两个基本范畴,即说话人辨认( s p e a k e ri d e n t i f i c a - t i o n ) 和说话人确认( s p e a k e rv e r i f i c a t i o n ) 。前者是把未标记的语音划为 若干个己知说话人之中的某一个所说,是个一对多的问题,如图1 - 2 ( a ) 所 示。后者则是根据说话人的语音来确定是否与其所声明的参考说话人相 符,这种确认般情况下只有两种可能,或是肯定,或是否定,是个一对 一的问题,如图1 - 2 ( b 1 所示。两者的主要区别一是判决选择的数目不同, 3 1 1 说话人识别概述 = = ! = = = = = ! ! ! 1 2 = ! ! = = = = = = = ! = 一。! 1 4 语 波 语音 波 身 ( a ) 说话人辨认 ( b ) 说话人确认 图1 2 :说话人辨认和确认的基本框图 辨认 结果 # j 判决 结果 是否) 二是说话人确认需要一个( 或多个) 确认闽值,来得到最后的判决结果。 说话人辨认是在全部注册说话人的范围内进行的,因此辨认性能将与注册 的人数有关,随着人数的增加性能将有所下降:而说话人确认与注册说话 人的人数多少没有关系。辨认和确认各有其不同的应用场合,本论文的主 要研究内容为说话人确认。 说话人识别按照说话内容( 文本) 的类型又可以分为与文本有关( t e x t d e p e n d e n t ) 和与文本无关( t e x t i n d e p e n d e n t ) 两种,前者要求说话人提 供指定语义内容的语音,可以用在使用者比较配合的场合,例如关键部 门的出入控制,并且语义内容( 如密码) 可以作为说话人身份的补充信息 来提高系统的识别性能;后者则不关心语音信号中具体的语义内容,因此 它可以用在使用者不配合的场合,如电话语音监听,v o i c e m a i l 的发件人 身份的标识等等。一般说来,与文本无关的说话人识别的应用更为灵活和 广泛,但难度较大,训练和测试时都需要较长的语音和音素内容丰富的文 本,而与文本有关的说话人识别相对容易达到较高的识别率,而且可以采 用较短的文本。 我们知道,任何语音中都至少载有两类信息:与语言意义内容相关的 语义信息以及表征说话人个人身份特征的个人性信息。这两类信息是互相 交织在一起,以复杂的形式存在于声波及其频谱之中,要将其准确分离及 提取是很困难的。一般来说,需要从较长的语音数据( 1 0 秒) 才能较好 地提取出个人性信息,而对于短语音( 1 5 秒左右) ,要从中准确地分离 出个人性信息则十分困难。因此短语音常采用“与文本有关”的方式。同 时,采用长语音文本,会使系统建立相应的说话人模型算法的复杂性大大 增加,也会使模型匹配的时间和系统存储空间大大增加。另外,对于说话 人不配合的应用,则只能用“与文本无关”的方式;因此,我们必须根据 系统的应用范围来适当选取文本的方式、长度及相应的算法。 1 2 说话人确认 1 2 1 说话人确认系统的组成 由图1 - 2 ( b ) 可见,说话人确认系统一般分为三个部分,即前端处理、 说话人建模以及判决。前端处理负责对高冗余度的语音波形信号进行预处 理,去冗余,然后提取出易处理的,我们所感兴趣的代表说话人特征的信 5 1 2 说话人确认 息,也就是特征参数。因此前端处理一般包括静音检测、预加重、特征参 数提取及后续处理等步骤。模型是对说话人特征的进一步抽象。根据任务 的不同,需要为其建立不同类型的模型。对于与文本有关的说话人确认而 言,说话人模型可以为说话人的一条或几条训练语音特征参数的样本( 测 试时利用d t w 匹配) ,但更好的方法是概率统计模型,如h m m ;对于 与文本无关的说话人确认而言,说话人模型有矢量量化( v q ) 、高斯混合 模型( g m m ) 等。此外,还有一些常用的说话人模型,如人工神经网络 ( a r t i f i c a in e u r a l n e t w o r k ,a n n ) 和支持向量机( s u p p o r t v e c t o rm a c h i n e s v m ) 等。 说话人确认分为训练和测试两个阶段。在训练阶段,由说话人的注册 语音通过相应算法训练得到该说话人的模型( 如h m m ) 。在测试阶段, 测试语音在被给出的同时会附带一个身份声明。此语音信号在经过前端 处理转换成特征参数序列之后,将与身份声明所指定的说话人模型进行 匹配,给出一个相似度的得分( 如语音。由该说话人模型a 输出的概 率:p ( oj a ) ) 。然后这个得分将与确认闽值进行比较,最终获得确认结果 ( 接受、拒绝或待定) 。 由于说话人确认可以看作一个假设检验问题,即判断测试语音是由真 实说话人发出( 风) 和由冒认者发出( h 1 ) 两种事件中的哪个,因此 h i g g i n sf 2 2 1 提出在说话人确认中用似然比( l i k e l i h o o dr a t i o ) 表示确认得 分的方法。似然比定义为待识语音。由真实说话人模型输出的概率与由冒 认者模型输出的概率的比值。我们用a t 代表真实说话人模型,p ( o l a ) 代 表语音d 由模型入输出的概率,则似然比可表示为: 印,= 掰矧 其中模型f 入i ) 、) 、丁) 为冒认者模型,被用来做评分规整。利用似然比作 为评分的优点在于 2 3 ,p p 3 6 1 :i 它是b a y e s 准则下最优评分的一种近 似;2 增加不同说话人之间的可区分性:3 降低确认系统对阈值的依赖 性:4 可以依靠两个概率取比值的形式从一定程度上削弱输入语音被噪声 污染时对确认评分的影响。 被广为研究的 a l a a t ) 大致上可以分为两种,一种叫做背景模型 ( u n i v e r s a lb a c k g r o u n dm o d e l ,u b m ) ,另一种叫做竞争者模型( c o h o r t 背景模型一般称作w b r l dm o d e l 或b a c k g r o u n dm o d e l ,严e 格来讲u b m 是w o r l d m o d e l 的一种。在不引起混淆的前提下,本论文里用u b m 代表所有形式的背景模型。 6 : 叁三兰丝篁 错 误 室 e e r 图1 3 :f a 、f r 和确认阈值的曲线 m o d e l s ) 。前者对于一个任务中所有的注册说话人均采用同一个能够 代表说话人的一般特征的模型,而后者则引入竞争者( c o h o r t ) 的概 念2 4 ,2 5 1 ,事先选择一批竞争者,为每个人建立一个模型,然后为每个注 册说话人按照一定的规则选择若干个竞争者模型( 一般选择与注册说话人 较类似的) 作为式( 1 - 1 ) 中评分规整用的模型。一般而言,通过适当的 c o h o r t 选择算法,c o h o r t 模型规整比u b m 模型规整的性能要好1 2 ,2 6 1 , 但很明显无论从计算量还是存储量上都比u b m 规整的开销要大。并且近 年来u b m m a p 结构已成为与文本无关的说话人确认中最好的模型规整技 术2 7 ,2 8 1 ,因此现在c o h o r t 模型规整在说话人确认里一般较少被采用。 判决部分的作用是根据待识语音和模型匹配的得分,根据一定的规则 得到确认结果。这一般是通过将得分与确认阈值进行比较得出的。与一般 的分类问题不同,对于说话人确认而言,存在着两种错误,即冒认者被接 受的错误和真实说话人被拒绝的错误,因而存在两种错误率:错误接受率 ( f a l s ea c c e p t a n c er a t e ,f a ) 和错误拒绝率( f a l s er e j e c t i o nr a t e ,f r ) 。 确认与之的设定必须兼顾到这两种错误率,而它们与确认阈值的关系则是 相反的。f r 和f a 与判决阈值的关系如图l 一3 所示。确认阂值一般是在训 练阶段确定的。显然,较高的阈值会使得冒认者难以得逞,但同时真实的 说话人更容易被拒绝,反之,较低的阈值使得真实说话人被拒绝的机会减 小,但同时会增大冒认者成功的几率。因此为了得到一个合适的阈值,必 须对真实说话人和冒认者得分的分布具有足够的了解。 7 1 2 说话人确认 1 2 2说话人确认系统的评估手段 一般的分类问题如说话人辨认可以用分类错误率来作为最直观和最权威 的评估手段。但是对于说话入确认而言,由于存在着两种错误类型,因此 系统的评估变得复杂起来。目前存在着多种评估方法,本节对论文中涉及 到的评估方法进行简单介绍。 一、f a 和f r 最简单的评估方法就是在确定确认阈值之后,根据实际的分类错误来计 算分类错误率。因此系统的评估标准就有了两个,即错误接受率f a 和错误 拒绝率f r 。用f a 和f r 直接作为系统评估标准虽然简单,但缺点是不直 观,不仅无法判断各拥有一个较优指标的两个确认系统的优劣,而且只能 衡量系统在某个确定阈值下的性能,无法衡量系统的整体分类能力。然而 在我们特别关注f a 和f r 中某一个量的时候,这种方法是个不错的选择。 二、等误识率 实际情况下f a 和f r 曲线总是有交叠的,两条曲线相交处的两种错误 率相等,称为等误识率( e q u a le r r o rr a t e ,e e r ) ,如图1 3 所示。e e r 经常被用来作为确认系统的评估标准,简单而且直观。但e e r 只能衡量系 统在等误识率阈值下的性能,无法衡量系统的整体分类能力。 三、检测代价函数 美国国家标准及技术署( n a t i o n mi n s t i t u t e s t a n d a r da n dt e c h n o l o g y , n i s t ) 在1 9 9 6 年以来举行的每年一次的说话人识别评测【2 8 ,2 9 】中定义 了一个量:检测代价函数( d e t e c t i o nc o s tf u n c t i o n ,d c f ) ,用公式表示 为: d c f = c f r - 厅。,+ c s 。f a 毋m p ( 1 - 2 ) 其中q ,和q 。分别是错误拒绝和错误接受的代价,p r 。r 和b m p 分别是 真实说话人和冒认者的先验概率,例如在n i s t2 0 0 3 年的评测计划中,定 义c s ,= 1 0 ,c ,。= 1 ,聍。= 0 0 1 ,片m p = 0 9 9 a 这样,在实际评估中, 只要给定一个闽值,就会得到相应的f a 和f r ,带入式( 1 - 2 ) 便会得到对 8 s p e a k e rd e t e c t i o np e r f o r m a n c e 图1 4 :d e t e c t i o ne r r o rt r a d e o f f 曲线 应阂值下的实际检测代价。d c f 将系统性能用一个量表示,并且考虑到了 两种错误带来的不同代价以及真实说话人和冒认者的不同的先验概率,要 比e e r 更为合理。 四、d e t 曲线 d e t ( d e t e c t i o ne r r o rt r a d e o f f ) 曲线是一种常用的评估说话人确认 系统性能的方法。d e t 曲线是精神物理学( p s y c h o p h y s i c s ) 中常用的 r o c ( r e c e i v e ro p e r a t i n gc h a r a t e r i s t i c s ) 曲线的另种形式,其横坐标和 纵坐标分别是对数刻度下的f a 和f r ,由于说话人确认可以看作是一个 信号检测问题,因此在d e t 曲线上f a 又被称作f a l s ea l a r mp r o b a b i l i t y ,f r 被称作m i s sp r o b a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论