(电路与系统专业论文)基于GMM和高层信息特征的文本无关说话人识别研究[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)基于GMM和高层信息特征的文本无关说话人识别研究[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)基于GMM和高层信息特征的文本无关说话人识别研究[电路与系统专业优秀论文].pdf_第3页
(电路与系统专业论文)基于GMM和高层信息特征的文本无关说话人识别研究[电路与系统专业优秀论文].pdf_第4页
(电路与系统专业论文)基于GMM和高层信息特征的文本无关说话人识别研究[电路与系统专业优秀论文].pdf_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 为了考察和衡量文本无关的说话人识别的最新研究发展状况,美国国家标 准与技术署( n i s t ) 自1 9 9 6 年起开始举办说话人识别评测( s r e ) 。n i s t 说话 人评测代表了了说话人识别领域的最先进水平,n i s t 设立了多项任务,探索和 研究不吲语音条件下的研究方法,并为各个项目提供统一的电话语音数据( 多 通道、多环境、说话人规模大) 、测试平台、评测规则,以及评估标准。其中, 采用长语音的说话人识别项目旨在利用语音信号中的高层次信息用于文本无关 的说话人识别的研究,近年来,已经成为国外一些著名机构的研究热点。 语音中的高层次信息往往是与文本内容有关的,因而如何从语音中提取出 用于文本无关说话人识别的高层次信息特征便成为当前研究的重点。本文对韵 律、发声特点等高层次特征信息的提取方法及其州于文本无关的说话人识别进 行了深入研究。 针对文本无关的说话人识别的特点,本文采用了概率统计模型的识别方法, 将从与文木有关内容的语音韵律( “t ,为语音特征) 中的信息特征看作由韵 律特征基元( 称作超音段韵律信息特征) 所组成的,通过对韵律特征基元分布 的概率统计描述来实现说话人辨识。 本文提出了一种基于多尺度小波分析从韵律中提取超音段韵律特征的方 法,分别用于音源f 0 一t 和声道m f c c “t 的超音段韵律特征的提取。由描述缓变 信息的概貌系数和描述快变信息的细节系数组成音源f 0 “t 的六维超音段韵律 特征参数p f 0 :而对于高维的声道m f c c “t ,由于其各维参数的近似不相关和声 道缓变的特点,从m f c c 各维分别提取概貌系数组成声道超音段韵律特征参数 p m f c c 。在n i s t0 68 s i d e 数据库上的实验表明,p f o 与短时f o 相比,系统e e r 相对降低了2 3 6 6 ,p m f c c 达到了与短时倒谱参数m f c c 相当的性能。 鉴于音源参数与声道参数的互补性,本文研究了音源超音段韵律参数p f o 与声道超音段韵律参数p m f c c 的组合参数p m f c c f o 。p m f c c f o 较m f c c 在n l s t 0 68 s i d e 数据库e e r 相对降低4 0 ,在微软数据库的实验则表明了p m f c c f 0 有 较好的噪声鲁棒性。采用p m f c c f o 与短时参数m f c c 的子系统输出评分线性加 权后,可进步提高系统的识别性能。n l s t0 83 s i d e 评测任务巾,采用了基于 p m f c c f 0 的子系统与采用短时参数子系统的等权重输出评分加权,在电话语音 条件下取得了最佳的d e t 曲线。 本文还对从短时倒谱中间接提取发声位置特征用于文本无关说话人识别进 捅要 行了研究,提 h 了一种基丁特征空间映射的发声位置特征的提取方法,利用人 量说话人的标准语音训练得到的m l p 作为所有人共享的特征映射网络,提取出 发 声位置参数a f 。a f 参数反映了说话人的发声特点,与说话人发声器官物 理属性和后天发声习惯相关,含有说话人信息,具有较好的噪声鲁棒性。与短 时倒谱参数m f c c 组成联合参数m f c c a f 后,口爿显改善了说话人确认系统性能 的性能与鲁棒性。 关键词:超音段韵律特征发声位置特征文奉无关概率统计说话人确认 a b s t r a c t a b s t r a c t i no r d e rt ov e r i f yt h el a t e s tt e c h n o l o g yi nt e x t i n d e p e n d e n ts p e a k e rr e c o g n i t i o n , n a t i o n a ii n s t i t u t eo fs t a n d a r da n d r e c h n o i o g y ( n r s t )c o n d u c tt h e s p e a k e r r e c o g n i t i o ne v a l u a t i o n n l s ts r es t a n d sf 0 r t h em o s ta d v a n c e dt e c h n o l o g yi n s p e a k e rr e c o g n i t i o n i i lo r d e rt oe x p l o r ea n dt os e e kf l o rt h es u i t a b l er e s o l u t i o nu n d e r d i f r e r e n tc o n d i t i o n s ,i ts e t su pd i f f e r e n tt a s k s ,s u p p l y i n gt l l eu n i v e r s a lt e l e p h o n e s p e e c hd a t a ,w h i c ha r ef r o mm u l t i p l ec h a n n e l s ,i nd i f f e r e n te n v i r o n m e n t ,a n df 而ma 伊e a tn u m b e ro fs p e a k e r s ,t o g e t h e rw i mt h ee v a l u a t i o nc r i t e r i o n o n et a s ki st o r e c o g n i z es p e a k e r sf - r o ml o n gs p e e c h ,w h i c ha i mt ou t i li z eh i g hl e v e l i n f o m a t i o nf o r t e x ti n d e p e n d e n ts p e a k e rr e c o g n i t i o n ,a i l di tb e c o m e saf o c u sf o rm a n yf o r e i 印 i n s t i t u t e s h i g h l e v e li n f o 丌1 1 a t i o ni sa l w a y st e x t - d e p e n d e n t ,s oh o wt oe x t r a c tf e a t u r e s 行o m h i 曲l e v e li n f o 舯a t i o nw h i c hc a nb eu s e di nt e x t - i n d e p e n d e n tb e c o m e st h ef o c a l p o i n t t h i st h e s i sm a k e sa ni n d e p t hs t u d yo nh o w t oe x t r a c tf e a t l i r e sf r o mh i 曲- l e v e l i n f o m l a t i o ns u c ha sp r o s o d i c sa n da r t i c u l a t o r yp r o p e r t i e s ,a n do nh o wt ou t i l i z et h e m i nt e x t i n d e p e n d e n t s p e a k e rr e c o g n i t i o n a c c o r d i n gt o t h ec h a r a c t e r i s t i c so ft e x t - i n d e p e n d e n t s p e a k e rr e c o g n i t i o n , a s f e a t u r e sf r o mt e x t - d e p e n d e n tp r o s o d i c s ( x t ,xi ss o m ef e a t u r eo fs p e e c h ) c a nb e r e g a r d e d a sac o m b i n a t i o no fs u p e r - s e g m e n t a lf e a t u r eu n i t s ,t h i st h e s i s a d o p t s p r o b a b i l i t y - s t a t i s t i c a lm o d e lt od e s c r i b et h ed i s t r i b u t i o no fs u c hu n i t st or e c o g n i z e s p e a k e r s t h i st h e s i s p r o p o s e s am e t h o dt oe x t r a c t s u p e r - s e g m e n t a l f e a t u r e sw i t h m u l t i r e s o l u t i o nw a v e l e ta n a l y s i sa n da p p l yi tt oe x c i t a t i o na n dv o c a lt r a c tp r o s o d i c s a p p r o x i m a t i o nc o e m c i e n t sr e p r e s e n t i n gt h el o wf r e q u e n c yc o m p o n e n t sa n dt h e d e t a i lc o e m c i e n t sr e p r e s e n t i n gt h eh i 曲矗e q u e n c yc o m p o n e n t s 行o mf 0 tc o m p o s ea 6 - d i ms u p e r 二s e g m e n t a lp r o s o d i c f e a t u r e ,t e r m e dp f 0 a sm f c ci s o fh i 曲 d i m e n s i o n ,c o n s i d e r i n gi t sl o w l yc o r r e l a t i o nb e t w e e nd i f - f e r e n td i m e n s i o n sa n dt h e s l o wc h a n g e so ft h ev o c a l t r a c t ,w em a l ( ea n a l y s i so fe a c hd i m e n s i o no fm f c ca 1 1 d c o m p o s et h ea p p r o x i m a t i o nc o e 衢c i e n t st of o r mt h ev o c a is u p e rs e g m e n t a lf e a t u r e p m f c c e x p e r i m e n t so nn i s ts r e2 0 0 68 s i d e ls i d et a s ks h o wt h a tp f op e r f ;d 啪s a2 3 6 6 e e rr e d u c t i o nt h a ns h o r t t i m er e l a t e df e a t u r ef 0 a n dp m f c cc a nm a t c h a b s t r a c t s h o r tt i m es p e c t r a lf e a t u r em f c c a sf e a t u r e sf - r o me x c i t a t i o na n dv o c a l t r a c ta r ec o m p l e m e n t a 叫t oo n ea n o t h e r , w em a k eas t u d yo ft h e i rc o m b i n a t i o np m f c c f 0 e x p e r i m e n t so nn i s ts r e2 0 0 6 8 s i d e ls i d e t a s ks h o wt h a tp m f c c f 0b a s e ds y s t e mg i v e sa4 0 e e rr e d u c t i o n c o m p a r e dw i t l lm f c c ,a n de x p e r i m e n t so nm s r a d a t a b a s es h o w st h a tp m f c c f 0 h a sb e t t e rr o b u s t n e s s l i n e a rf u s i o no ft h es c o r e s 行o mt h et w os y s t e m sb r i n g sb e t t e r p e r f o n n a n c e i nn i s ts r e2 0 0 8 ,w eg e tt h eb e s td e tc u eu n d e rt h et e l e p h o n e t r a i n i n ga n dt e l e p h o n et e s t i n gc o n d i t i o nu s i n gt h e1 i n e a rf u s j o no ft h es y s t e m sb a s e d o np m f c c f oa n ds h o r t t i m ef e a t u r e s t h i st h e s i sa l s os t u d yo ne x t r a c t i n ga n i c u l a t o 哆p o s i t i o nf e a t u r ef r o ms p e c t r a l f e a t u r ea n da p p l y i n gi ti n t e x t i n d e p e n d e n ts p e a k e rr e c o g n i t i o n w ep r o p o s ea m e t h o dt oe x t r a c ta r t i c u l a t o r yp o s i t i o nf e 咖r ew i t hf 色狐l r es p a c em a p p i n g t h e m u l t i - l a y e rp e r c e p t r o n( m l p )m a p p i n g n e t w o r ki st r a i n e dw i t hs t a n d a r d p m n u n c i a t i o n 行o mm a n ys p e a k e r s ,s oi tc a nb es h a r e db ye v e r y o n e a n i c u l a t o r y f e a m r ei se x t r a c t e db ym a p p i n gs p e c t r a lf e a m r ew i t ht h i sn e t w o r k a fr e p r e s e n t st h e c h a r a c t e r i s t i c sh o was p e a k e rp r o ( 1 u c e ss o u n d s ,s oi ti sr e l a t e dt o t h ep h y s i c a l p r o p e r t yo ft h ea r t i c u la t o 拶。唱a n sa n dt h ew a yh o wh e s h ep r o d u c e ss o u n d s a f c o n t a i n si n f o n ”a t i o no fs p e a k e ra n dh a sb e t t e rr o b u s t n e s s m f c c a f jac o m b i n a t i o n o fa fa n dm f c c ,c a ni m p r o v et h ep e r f o 咖a n c ea n dr o b u s t n e s so fs p e a k e r v e r i f i c a t i o ns v s t e m k e yw o r d s :s u p e r - s e g m e n tf e a t u r e ,a r t i c u l a t o 拶 f e a t u r e ,t e x t - i n d e p e n d e n t , p r o b a b i l i t ys t a t i s t i c a lm o d e l ,s p e a k e rv e r i n c a t i o n v 图日录 图目录 图1 1m i t 1 s i d e l s i d e 听筒类型匹配与否条件下的系统性能6 图1 2 说话人确认系统框图6 图1 3f r f a 随阈值变化示意图7 i 蚕1 4d e t ( d e t e c t i o ne r r o rt r a d e o 仟) 曲线9 图2 1 高斯混合模型与观察特征矢量匹配示意图1 6 图2 2 一段语音及其g m m 输出评分1 8 图2 3g m m 说话人确认系统框图1 9 图2 4g m m u b m 概率输出评分的计算2 1 图2 5 基于g m m u b m m a p 的输出评分计算2 2 图2 6g m m u b m 、g m m u b m m a p 模型结构的比较2 6 图3 1 语音产生机理的简化图解3 1 图3 2 离散时域语音信号产生模型3 2 图3 3 采用三角形窗的m e l 滤波器组3 5 图3 4m f c c 的提取示意图3 6 图3 5r a s t a 滤波器频率响应3 8 图3 6c m s 、r a s t a 、高斯化三种参数规整方法比较4 0 图3 7 两个不同的男性话者的基音频率统计分布4 1 图3 8 帧信号及其经中心削波前后的自相关波形4 3 图3 9m f c c 、f 0 系统目标话者( 红) 、冒认者( 蓝) 评分分布4 4 图3 1 0m f c c 与f 0 系统的线性融合4 5 图4 1 语音包含不同层次的信息4 7 图4 2 分段线性模型捕述p i t c h c o n t o u r 4 9 图4 3 超帧韵律特征参数的提取5 0 图4 4f o “t 及基本韵律片段示意图5 1 图4 5 多尺度小波分解过程5 2 图4 6 不同阶次的概貌系数、细节系数恢复的p i t c h c o n t o u r 的比较5 3 图4 7f 0 ( i o g ) t 及其。阶概貌系数、细节系数5 4 图4 8f o 超音段韵律参数的提取5 5 图4 9f o 韵律参数a p f o ,d p f o ,p f 0 与基准系统的性能5 7 图4 1 0p f 0 与m f c c 系统的融合5 9 图目录 图5 1 来自微软数据库的两个说话人同一发音的第1 维m f c c 参数随时间 的变化,横坐标单位为帧6 2 图5 2 声道韵律特征p m f c c 的提取6 3 图5 3 基于超音段韵律特征和g m m u b m m a p 的说话人确识系统框图6 4 图5 4p m f c c f 0 与m f c c p m f c c 及p f 0 系统性能比较6 6 图5 5 不同融合权重下的融合系统性能e e r 7 0 图5 63 c o n v 3 s h o r t 3 电话训练电话测试结果7 2 图6 1 语音信号的发声特征7 5 图6 2 i ,i :发音图解及口形7 7 图6 3 声母的发声部位7 9 图6 4 映射网络的训练8 1 图6 5 语音发声位置映射例络8 2 图6 6 干净环境( a ) 、加2 5 d b 白噪声( b ) 与加2 0 d b 白噪声( c ) 测试条件下采 用a f 、m f c c 、m f c c a f 参数的系统性能8 7 x 表目录 表目录 表1 1n i s t2 0 0 6 说话人评测任务3 表1 2m i t2 0 0 6 系统5 表2 1 采用g m m u b m 模型2 5 表2 2 混合度对g m m u b m m a p 说话人识别系统性能的影响2 6 表2 3g m m u b m 、g m m u b m m a p 模型结构的比较2 7 表2 4 不同训练集大小系统性能比较2 7 表2 5 不同长度测试语音的比较2 7 表3 - 1c m s 、r a s t a 、高斯化三种参数规整方法比较4 0 表3 2m f c c 与f o 系统的线性融合。4 5 表4 1 不同阶次的韵律参数的性能比较5 6 表4 2 音源韵律特征与短时特征的比较5 6 表4 3 概貌韵律特征与细节韵律特征的比较5 7 表4 4 韵律特征组合参数p f o 5 7 表4 5p f o 与在不同数量的训练数据情况下的性能一5 8 表4 6 超音段韵律特征与短时特征的互补性5 9 表5 1 不同小波分析阶次时p m f c c 参数的识别性能6 4 表5 2p m f c c f 0 与m f c c 、p f 0 ,p m f c c 的e e r 比车交6 5 表5 3 不同尺度的超音段韵律参数的确认性能6 7 表5 4 不同训练数据时确认性能比较6 7 表5 5 不同信噪比测试条件下的说话人辨认结果6 8 表5 6 子系统及融合系统性能比较7 3 表6 1 发声方式、发声位置7 7 表6 2 声母发声部位分类表7 9 表6 3 整条语音的平均信噪比与声母部分的平均信噪比比较8 0 表6 4 说话人0 0 5 发声特点参数8 3 表6 5 说话人0 0 8 发声特点参数8 3 表6 6 不同帧数映射提取发声特征参数的性能比较8 5 表6 7m f c c 与a f 参数噪声鲁棒性的比较8 6 表6 8m f c c 与m f c c a f 参数性能的比较8 8 中国科学技术大学学位论文原创,性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除己特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保蓝的学位论文在解密后也遵守此规定。 作者签名:边盘垄 芦1 年6 月日 篇1 章绪论 1 1 概述 第1 章绪论 自动说话人识别的任务是研究如何利用机器从人所说的语句当r f l 识别出说 话人,它是一种高效的人机交互、身份认证以及信息检索手段,其对终端设备 要求简单( 只需性能良好的麦克风即可) ,识别率非常高,在图像、语音识别等 模仿人类机能的模式识别领域中,唯有自动说话人识别的性能在某些情况下与 人类的能力相当,甚至超过人类( l i u ,h ee ta i 1 9 9 9 ;s c h m i d t n i e i s e na n dc r y s t a i 2 0 0 0 ) 。自动说话人识别应用非常广泛,在金融、证券、社保、公安、军队及其 他民用安全认证等行业和部门有着广泛的应用需求,如门禁系统、数据库存取、 信用卡确认、银行电话交易服务等的的身份认证,公安司法和军事上的电话语 音监听、网络资源准入、金融证券安全,以及一些个人设施如手机、p d a 的个 性化设置等等。随着百联网的蓬勃发展以及网络资源的“爆炸式”增长,自动 说话人识别也可以广泛的应_ 丰| 于“数字化图书馆”中的语音检索以及信息获取 ( i n f o r m a t i o nr e t r i e v a l ) ,目前这方面的研究正存深入的进行。 经过多年的研究发展,近年来说话人识别的研究重点已经从实验系统转移 到实用系统,如实用背景环境下特别是基于手机电话语音的识别系统卜来。面 对复杂背景和通道条件带来的挑战,各种新的说话人识别技术不断被提出,如 区分行模型( 如支持向量机,s u p p o r tv e c t o rm a c h i n e ,s v m ) 和概率统计模型 ( 如高斯混合模型,g a u s s i a nm i x t u r em o d e i ,g m m ) 的结合( f i n e ,n a v r a t “e ta i 2 0 0 1 ;f i n e ,n a v r a t l ie ta 1 2 0 0 1 ;c a m p b e | | ,s t ur me ta i 2 0 0 6 ;l i u ,i ee ta 1 2 0 0 6 ) 、 语音识别( s p e e c hr e c o g n i t i o n ) 应用于与文本无关的说话人识别( w e b er ,p e s k i n e ta i 2 0 0 0 ;p e s k hn a v r a t je ta i 2 0 0 3 ;v a i lc 0 1 b r oe ta i 2 0 0 7 ) ,评分规整技术 h n o r m 、z n o r m 齐口t n o r m ( r o s e n b e r g ,d e l o n ge ta i 1 9 9 2 ;a u c k e n t h a i e c a r e ye t a i 2 0 0 0 ;r e y n o i d s ,q u a t i er e ta i 2 0 0 0 ) ,以及削弱通道影响的通道映射( f e a t u r e m a p p i n g ) ( r e y n o i d s2 0 0 3 ) 、因子分= l ! j i ( l a t e n tf a c t o ra n a i y s i s ,l f a ) ( k e n n ya n d d u m o u c h e l2 0 0 4 ;k e n n y ,b ou | a n n ee ta i 2 0 0 7 ) 、兀余属性投影( n u i s a n c ea t t r i b u t e p r o j e c t i o n ,n a p ) c a m p b e i l ,s t u r me ta 1 2 0 0 6 ) 技术等,大大促进了说话入识别 的发展。 说话人识别按照与说话内容( 文本) 的关系。n j 以分为与文本有关的 第l 章绪论 ( t e t d e p e n d e n t ) 和与文木无关的( t e t i n d e p e n d e n t ) 两种方式。前者是指说话人 按规定的文本发音或按提示发音,需要说话人提供指定语义内容的语音,而且 语义内容可以作为辅助信息帮助提高身份识别的准确性,同时使所需的语音数 据最少,这种情况要求说话人严格按照系统的要求,否则将无法进行识别,通 常用于用户配合的场景,如关键部门的出入控制等。后者指无论说什么话都可 以进行的说话人识别,由于说话内容随意,使用方便,还可以用于用户不配合 的场景,如电话监听。显然,文本无关的说话人识别系统和与文本有关的系统 相比,更为通用,更受用户欢迎,但是训练和测试时都需要较长且音素内容丰 富的语音,义本无关的说话人识别,目前通常采用概率统计模型,高斯混合模 型即为其中一种。 语音信号中含有语义内容信息和说话人个性特征信息,以语义信息为主, 两者交织在一起,目前尚无有效的信号与信息处理技术可以有效地将两者分离。 因而,文本无关的说话人识别多采用概率统计模型作说话人模型,即通过对每 个说话人语音数据集的特征数据的分布估计来实现不同说话人之间的辨识,将 说话人识别的分类问题转换成对数据分布的估计问题,从而将复杂的语音训练、 匹配的问题分解为模型表达形式的选择、模型参数的训练,以及概率的计算等 子问题。高斯混合模型是目前最成功地用于文本无关说话人识别的概率统计模 型,它是对说话人语音数据特征集进行基于语音内容类的统计分布描述,并通 过各个说话人的统计分布表述之间的差异来进行说话人辨识的。9 0 年代后,特 别是r e y n o l d s 对g m m 做了详尽的介绍后( r e y n o i d s1 9 9 5 ) ,g m m 以其简单灵活 有效以及具有较好的鲁棒性,将说话人识别带入一个新的阶段。2 0 0 0 年, r e v n o i d s 在说话人确认任务中提出了u b m m a p ( u n i v e r s a ib a c 妇r o u n dm o d e i , m a x i m u map o s t e r i o r ) 结构( r e y n o l d s ,q u a t i e r ie ta 1 2 0 0 0 ) ,在相同的目标说话人 语音训练集下,具有更好的识别性能及噪声鲁棒性。今天,g m m u b m m a p 说 话人识别结构己经成为与文本无关的说话人识别中的主流模型之一。 说话人识别按其最终完成的任务又可以划分为两个范畴,即说话人确认 ( s p e a k e rv e r i f i c a t l o n ) 和说话人辨认( s p e a k e rl d e n t i f j c a t i o n ) 。前者是根据待测说 话人的语音,判断是否与所称的参考说话人相符,确认结果只有两种情况,或 是肯定( 得到确认) 或是含认( 拒绝承认) 。后者则是把待测说话人的语音判定为 属于多个参考说话人之中的某一个,是多选一的问题。对于说话人辨认来说若 考虑待识的说话人是否在注册的说话人集合内,又可以分为开集( o p e n s e t ) 辨认 和闭集( c i o s e s e t ) 辨认。显而易见,闭集辨认的结果要好于开集辨认,但开集辨 认与实际情况更为一致。说话人辨认性能将与注册说话人的人数有关,随着注 第1 章绪论 册说话人数的增加,系统的辨认性能将有所下降:而说话人确认的性能则与注 册说话人的个数多少没有太大关系。本文主要就文本无关的说话人确认进行研 究。 1 2n i s t 说话人评测 为了考察和衡量文本无关的说话人识别的最新研究发展状况,美国国家标 匡与技术署( n a t i o n a ll n s t i t u t eo fs t a n d a r da n dt b c h n o i o g y jn i s t ) ( m a r t i na n d p r z y b o c k i2 0 0 0 ) 自1 9 9 6 年起开始举办每年一度的说话人识别评测( s p e a k e r r e c o g n i t i o ne v a i u a t i o n s ,s r e ) 1 ,它为参加者提供统一的电话语音数据和测试平 台,评测规则,以及评估标准。与n i s t 举办的其他所有测试一样,该测试有如 下目标: 促进说话人识别技术的发展 衡量当前最佳的技术水平 寻求更有前途的算法 n i s t 为了重点研究说话人确认中某些令人感兴趣的方面,通常每次评测中 会包含多个不同的任务。并且随着技术的发展以及研究重点的转移,每次评测 的任务数目和种类也会相应发生变化,以吸引了全世界的科研机构参与到n i s t 评测中来。 表1 1n l s t2 0 0 6 说话人评测任务 测试条件 任务 1 c o n v1c o n v 1 0 s e c 2 c h a n1 c o n v 2 c h a n s um m e d c h ana u m i x 1 0 s e c o n d s 2 c h a n n e i 可选 1 c o n v e r s a t i o n 可选必选 可选可选 2 c h a n n e i 芒 3 c o n v e r s a t i o n 媒 可选可选 可选可选 螓 2 c h a n n e i 忑8 c o n v e r s a t i o n 可选可选 可选可选 2 c h a n n e i 3c o n v e r s a t i o n 可选 町选 s u m m e d c h a n e i 1 2 0 0 7 年米举行,f :从2 0 0 8 年起改为两年一次 第1 章绪论 如表1 1 中所示为n i s t2 0 0 6 年的评测任务,共分5 种训练条什、4 种测试 条件的语音,实际任务经交叉后共1 5 种测试任务,其中,1 c o n v e r s a t i o n2 - c h a n e i ( 简称1 c o n v 2 c h a n ) 条件下训练与测试是必须参加的任务,每条1 c o n v 一2 c h a n 语音长5 分钟( 含静音) ,该任务用以评估训练和测试语音长度适中的时候文 本无关说话人识别技术的水准,从参数单位提交的系统来看,统计模型仍然是 丰流建模方式( b u 噜e t ,m a t e i k ae ta i 2 0 0 6 ) 。 此外,从表1 1r f l 还口j i 以看出,n i s t 任务r f l 不仅有牛活巾常见的对话语音 ( s u m m e d c h a 九e i ) 用于说话人识别,还有两个方向的考虑,一个是短语音的 训练或测试,其目的是评估在数据非常有限时的说话人确认水平,促进说话人 识别的实用化;另一个是训练语音充分的条件下( 3c o n v e r s a t i o n2 一c h a n e l 、8 c o n v e r s a t i o n2 c h a n e i ,统称长语音) 说话人识别能达到的水平,鼓励研究人员 充分利用语音中的各种信息、方法以提高说话人识别的水平。n l s t 长语音项目 的设立即考虑到长语音训练不但有其实际用途( 某些时候,收集到说话人较多 的训练语音并不是很困难) ,而且有助于对说话人识别中新方法、新技术的推动。 2 0 0 1 年,n i s t 初次设置长语音项目,为说话人人提供一个小时或更多的数据用 于训练。之后,长语音项目成为n i s t 说话人评测的保留项目。( d o d d i n 豇o n2 0 0 1 ) 在n i s t 数据库“e x t e n d e dd a t a ”上的实验表明,不采用任何的声学参数,仅仅 通过语音的文本统计信息,就可以获得惊人的说话人识别效果,这是因为语音 中的说话人习惯用语等高层信息含有说话人个性信息。2 0 0 2 年在j o h n sh o p k i n s 大学进行的语音领域的顶级w o r k s h o p w s 2 0 0 2 r e y n o i d s ,p e s k i ne t a i 2 0 0 2 ) ( 2 0 0 2j h uc l s ps u m m e rw o r k s h o p ) 专门设定了一个s u p e r s i d 专题小组, 探索采用高层( h i g h i e v e i ) 和超音段( s u p r a s e g m e n t a l ) 信息提高话者确认 系统的水平,其工作即为围绕n i s t 长语音数据库所作。随后,高层和超音段等 信息的提取和应用成为说话人识别的一个研究方向。 自1 9 9 6 年起,累计有4 0 多个国际著名研究机构和大学参加评测,包括 m i tl i n c o l nl a b 、u s t c s s i p ( s p e e c hs i g n a i & i n f o r m a t i o np r o c e s s i n g ) 、i b mr e s e a r c h 以另zs t a n f 6 r dr e s e a r c hi n s t i t u t e 、l o q u e n d o p o l i t e c n i c od it br j n o 、c r i m ( t h e c e n t r ed er e c h e r c h ei n f o r m a t i q u ed em o n t r 6 a 1 ) 等著名的计算机科学研究机构和 人学,其技术水平代表了当今与义本无关的说话人识别技术的最高水准,我们 实验室( u s t c s s i p ) 也于2 0 0 3 年起每届都参加了其中一些项目的评测,并从 2 0 0 4 年起参加长语音项目,并取得了令人鼓舞的成绩。 m i tl i n c o i nl a b 一直参加了n i s t 说话人评测,并一直取得了领先的成绩, 表1 2 为其2 0 0 6 年的参赛系统( c a m p b e l i ,s t u r me ta i 2 0 0 6 ;c a m p b e l l ,s tu r - me t a i 2 0 0 7 ) ,从其系统构成可以看出:一、系统依旧主要依赖短时倒谱参数如美尔 第1 章绪论 频域倒谱系数m e if r e q u e n c yc e p s t r a ic o e 仟j c j e n t ,m f c c ) ,线性预测倒谱系数 ( l i n e a rp r e d i c t i o nc e p s t r a lc o e 仟c i e n t ,l p c c ) 等。、概率统计模型依旧是主 流的说话人模型。i 、采用了f e a t u r em a p p i n g ( f m ) ( r e y n o l d s2 0 0 3 ) 、l f a 、n a p 等参数补偿方法,以适应复杂背景的说话人识别任务。四、利用了高层信息特 征,如w o r dl a t t i c e 、w o r dd u r a t i o n 等特征,并建立相应的子系统辅助提高说话 人识别的系统性能。 表1 2m i t2 0 0 6 系统 系统名称参数模型参数补偿方法 g m m a t n o r m 幸m f c cg m mf m g m m l f a 幸m f c cg m ml f a g m mm e a n s v m g s v 幸s v mi i n e a rk e r n e in a p s u d e r v e c t o r s s v m g l d s 奉mf c c + l p c cs v mg l d sk e r n e ln a p s v m m l l r 牛ml l rc o e 仟i c i e n t ss v mi i n e a rk e r n e in a p w o r di a t t i c es v mw e i g h t e d s v m w o r d 宰 n 。g r a m s 1 n e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论