




已阅读5页,还剩68页未读, 继续免费阅读
(信号与信息处理专业论文)信源数估计算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
u n i v e r s i t yo fs c i e n c ea n dt e c h n o l o g yo fc h i n a ad i s s e r t a t i o nf o rm a s t e r sd e g r e e t h er e s e a r c ho ns o u r c e e n u m e r a t i o n a l g o r i t h m s a u t h o r sn a m e :y u n x i az h a n g s p e c i a l i t y :s i g n a la n di n f o r m a t i o np r o c e s s i n g s u p e r v i s o r :p r o f z h o n g f u y e f i n i s h e dt i m e : m a y , 2 0 1 2 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除己特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文中作了明确 的说明。 作者签名: 签字日期:趋卫4 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入中国学 位论文全文数据库等有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 d 公开口保密( 年) 作者签名墓查 签字日期:赶2z :z :三 导师签名: 签字日期:型兰二坌:! 摘要 摘要 随着信息技术和存储技术的发展,音频数据量呈现爆炸式的增长。面对如 此海量数据,人们更加迫切的希望能够从中准确快速地搜索到需要的信息,因 而对相关语音技术的需求也与日俱增。说话人分割与聚类技术就是一项配合其 他语音技术以满足这些需求的关键技术。 在分割与聚类的过程中,由于缺乏先验信息,需要用有限的数据准确地表 示语音段包含的说话人信息或建立类别模型,并使用有效的相似性度量方法比 较语音段或者类别间的距离。这些都是说话人分割与聚类技术面临的困难和挑 战。本论文在双人电话语音数据上,主要针对相似性度量方法、类别建模和语 音段中说话人信息表示这三个方面展开了探索和研究。论文的主要工作和创新 点如下: 第一,相似性度量方法的研究。针对基于贝叶斯信息准则( b i c ) 的基线 系统在聚类时可用信息过少的问题,提出将相邻语音段间静音长度融合到基于 b i c 准则的相似性度量中,这样利用了静音长度与相邻语音段间说话人转移概 率的关系,从而提高了相邻语音段间相似性度量的准确性。实验结果表明,这 种融合方法对系统性能有一定的提升作用。 第二,类别建模的研究。对b i c 基线系统进行了基于g m m u b mm a p 建 模和基于因子分析建模这两个方面的改进。首先,针对基线系统中,单高斯不 能描述复杂的特征分布以及b i c 准则度量的类别距离受到语音数据量影响这两 个问题,采用了基于交叉似然比( c l r ) 的两步聚类方法。该方法采用高斯混 合背景模型( g m m u b m ) 最大后验估计( m a p ) 对类别建模,使用c l r 作 为相似性度量。然后,针对m a p 估计存在估计参数过多的问题,将基于本征 语音( e v ) 和基于全差异( t v ) 的两种因子分析技术应用于类别建模,获得 比m a p 估计更加准确的类别g m m 模型。实验结果表明,这两方面的改进均 能进一步提升系统性能。 第三,语音段中说话人信息表示的研究。针对目前性能最好的基于i - v e c t o r 的系统,基于联合因子分析技术,提出了一种扩展的全差异因子分析模型,对 说话人类内短时语音段差异进行了显式建模,从而使得提取的i - v e c t o r 能够更 加准确地表示语音段包含的说话人信息。实验结果表明,本文提出的这种差异 补偿方法能大大提升系统的性能。 此外,提出了一种基于图形处理单元( g p u ) 的g m m 模型并行快速训练 摘要 方法,该方法能够大幅度提升模型训练速度。话人分割与聚类系统中,g m m 模型是基本模型,因此,这种基于g p u 的g m m 模型快速训练方法对提升整个 系统的运算效率具有巨大的应用价值。 关键词:说话人分割与聚类,贝叶斯信息准则,高斯混合模型,因子分析,说 话人内类短时语音段差异补偿,图形处理单元 a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o na n ds t o r a g et e c h n o l o g y , a u d i od a t ai s s h o w i n gt h es c a l eo fe x p l o s i v eg r o w t h t h e r ei sag r o w i n gn e e dt oa p p l ys p e e c h t e c h n o l o g yt oa l l o we f f i c i e n ta n de f f e c t i v es e a r c h i n go ft h em a s sa u d i od a t a s p e a k e r s e g m e n t a t i o na n dc l u s t e r i n g ,a l s ok n o w na ss p e a k e rd i a r i z a t i o n ,i ss u c hak e y t e c h n o l o g yw h i c h w o r k sw i t ho t h e rs p e e c ht e c h n o l o g i e st os a t i s f yt h i sd e m a n d i nt h ed i a r i z a t i o np r o c e s s ,d u et ol a c ko fp r i o rk n o w l e d g e ,t h e s p e a k e r i n f o r m a t i o ni ns e g m e n t sn e e d e dt ob er e p r e s e n t e do rc l u s t e r sa r en e e d e dt ob e m o d e l e da c c u r a t e l yw i t hl i m i t e ds p e e c hd a t a ,a n dt h e na r ec o m p a r e dw i t he a c ho t h e r b ye f f e c t i v es i m i l a r i t ym e t r i c a l lo f t h e s ea r ed i f f i c u l t i e sa n dc h a l l e n g e sf o rs p e a k e r d i a r i z a t i o n t h i sd i s s e r t a t i o np r e s e n t so u rw o r k si n s i m i l m t ym e t r i c ,c l u s t e r m o d e l i n ga n ds e g m e n tr e p r e s e n t a t i o no nt w o s p e a k e rt e l e p h o n es p e e c hd a t a t h e m a i nr e s e a r c hc o n t e n t sa n di n n o v a t i o n so ft h ed i s s e r t a t i o na r ea st h ef o l l o w i n g s : f i r s t l y , t o s o l v et h ep r o b l e mc a u s e db yl i t t l eu s e f u lp r i o rk n o w l e d g ei n b a y e s i a ni n f o r m a t i o nc r i t e r i o n ( b i c ) b a s e l i n es y s t e m ,ac o m b i n a t i o no fb i cb a s e d s i m i l a r i t ym e t r i ca n dt h es i l e n c el e n g t hb e t w e e nt w oa d j a c e n ts e g m e n t si sp r o p o s e d b yt a k i n gt h ea d v a n t a g eo ft h er e l a t i o nb e t w e e ns i l e n c el e n g t ha n ds p e a k e rt r a n s i t i o n p r o b a b i l i t yb e t w e e na d j a c e n ts e g m e n t s ,t h i sc o m b i n a t i o nc a ni m p r o v et h ea c c u r a c y o fs i m i l a r i t ym e t r i cb e t w e e na d j a c e n ts e g m e n t s t h ee x p e r i m e n tr e s u l t ss h o wt h i s c o m b i n a t i o nc a l li m p r o v es y s t e mp e r f o r m a n c e s e c o n d l y , f o rc l u s t e rm o d e l i n gp r o b l e m ,t w oi m p r o v e m e n t si nc l u s t e rm o d e l i n g b a s e do ng m m - u b mm a pa n df a c t o ra n a l y s i st e c h n i q u ea r ep r o p o s e df o rb i c b a s e l i n es y s t e m f i r s t , a i m i n ga tt h et w op r o b l e m si nb a s e l i n es y s t e mi e s i n g l e g u a s s i a nm o d e l si n c a p a b i l i t yo fm o d e l i n gc o m p l i c a t e dd i s t r i b u t i o na n db i cb a s e d d i s t a n c ei si n f l u e n c e db yd a t aa m o u n t ,at w os t a g ec l u s t e r i n ga p p r o a c hb a s e do n c r o s sl i k e l i h o o dr a t i o ( c l r ) i sp r o p o s e d i nt h i sa p p r o a c h ,c l u s t e ri sm o d e l e db y g a u s s i a nm i x t u r em o d e l ( o m m ) a d a p t e df r o mu n i v e r s a lb a c k g r o u n dm o d e l ( t n 3 m ) b ym a x i m u map o s t e r i o r ( m a p ) e s t i m a t i o n , a n dc l r s e r v e r sa ss i m i l a r i t yd i s t a n c e s e c o n d ,t os o l v et h em a pe s t i m a t i o n si n h e r e n td r a w b a c ki e t h e r ea r et o om a n y f r e ep a r a m e t e r sn e e d e dt ob ee s t i m a t e d ,t w of a c t o ra n a l y s i sm o d e l i n gm e t h o d sb a s e d o ne i g e n v o i c e ( e v ) a n dt o t a lv a r i a b i l i t yo w ) a n a l y s i sa r eu s e dt oo b t a i nm o r e a c c u r a t ec l u s t e r s g m m s t h ee x p e r i m e n tr e s u l t ss h e wt h a tt h e s et w oi m p r o v e m e n t s a b s t r a c t _ 一一 a l li m p r o v es y s t e mp e r f o r m a n c e t h i r d l y , f o rs e g m e n tr e p r e s e n t a t i o np r o b l e m ,b a s e d o nj o i n tf a c t o ra n a l y s i s t e 洫q u e ,a l le x t e n d e dt o t a lv a r i a b i l i t yf a c t o ra n a l y s i s m o d e lw i t ht h ee x p f i c r m o d e l i n g o fi n t r a - c o n v e r s a t i o ni n t r a s p e a k e rv a r i a b i l i t y i s p r o p o s e d f o r t h e s r a t e o :f - m e a r ts y s t e mb a s e do ni - v e c t o r w i t ht h i se x t e n d e dm o d e l ,t h ee x t r a c t e d s e g m e n ti - v e c t o rw i l lr e p r e s e n ts p e a k e ri n f o r m a t i o ne n c o d e d i n s e g m e n tm o r e p r e c i s e l ye x p e r i m e n t ss h o wt h a tt h ep r o p o s e dv a r i a b i l i t yc o m p e n s a t i o nm e t h o d c o u l ds i g n i f i c a n t l yi m p r o v es y s t e mp e r f o r m a n c e b e s i d e s af a s tp a r a l l e lr e a l i z a t i o nm e t h o do fg m mt r a i n i n go ng r a p h i c p r o c e s s u n i t ( o v u ) i sp r e s e n t e dw h i c h c a l ls i g n i f i c a n t l yr e d u c et r a i n i n gt i m e g m m i sb a s i c m o d e li nd i a r i z a t i o ns y s t e m , s ot h i s f a s tr e a l i z a t i o no fm o d e lt r a i n i n g o ng p u p r e s e n t sas i g n i f i c a n ta p p l i c a t i o n v a l u ef o rs p e e d i n gu ps y s t e mm f u t u r e k e yw o r d s :s p e a k e rs e g m e n t a t i o na n dc l u s t e r i n g ,b a y e s i a ni n f o r m a t i o nc r i t e r i o n , g a l l s s i a nm i x t u r em o d e l ,f a c t o ra n a l y s i s ,i n t r a - c o n v e r s a t i o n i n t r a - s p e a k e r v a r i a b i l i t yc o m p e n s a t i o n ,g r a p h i c p r o c e s su n i t 目录 录 摘要i a b s t r a c t 。1 : 目录i 第一章绪论1 1 1 研究背景与意义1 1 2 国内外研究现状2 1 2 1 说话人分割方法2 1 2 2 说话人聚类方法3 1 3 说话人分割与聚类存在的问题4 1 4 说话人分割与聚类系统性能的评价标准5 1 5 论文研究内容与安排一6 第二章基于b i c 准则的电话语音说话人分割与聚类系统及改进7 2 1 引言7 2 2 系统框架7 2 3 说话人变化点检测( s c d ) 8 2 3 1 贝叶斯信息准则( b i c ) 一一9 2 3 2 变化点检测过程1 0 2 4 说话人聚类1 1 2 5 重分割( r e - s e g m e n t a t i o n ) 1 2 2 6b i c 基线系统的性能1 2 2 7 融合静音长度信息1 3 2 7 1 静音长度与说话人转移概率之间的关系1 4 2 7 2 a b i c 计算公式中加入转移概率的作用项1 5 2 7 3 聚类策略1 6 t 目录 2 7 4 实验结果1 7 2 8 基于交叉似然比的两步聚类:1 8 2 8 1 说话人声学模型1 8 2 8 2 交叉似然比( c l r ) 2 1 2 8 2 实验结果2 1 2 9 本章小结2 2 第三章因子分析在电话语音说话人分割与聚类中的应用2 3 3 1 引言2 3 3 2 因子分析的基本概念2 3 3 3 说话人识别中的联合因子分析建模2 5 3 4 联合因子分析空间训练2 6 3 4 1 本征语音空间训练2 6 3 4 2 本征信道空间训练2 8 3 4 3 因子向量提取2 8 3 5 全差异建模方法2 8 3 5 1 线性区分性分析( l d a ) 2 9 3 5 2 内类协方差规整( w c c n ) 3 0 3 6 因子分析建模在基于交叉似然比聚类中的应用3 0 3 6 1 本征语音建模与交叉似然比结合3 0 3 6 2 全差异建模与交叉似然比结合3 0 3 6 3 实验与结果3 l 3 7 说话人类内短时语音段差异补偿3 2 3 7 1i - v e c t o r 应用在说话人聚类存在的问题分析3 2 3 7 2 说话人类内短时语音段差异建模和补偿_ 3 3 3 7 3 比较实验与结果3 4 3 8 本章小结3 9 i i 目录 第四章基于g p u 的g m m 模型快速训练4 1 4 1 引言4 1 4 2c u d a 概述4 l 4 3g m m 模型训练在g p u 上的快速并行实现4 4 4 3 1e m 算法的矩阵表示4 4 4 3 2e m 算法在g p u 上的实现4 5 4 3 4 数据存取格式和程序优化4 8 4 3 5 实验结果与分析4 9 4 4 基于g p u 提升分割与聚类系统运算效率的可行性5 1 4 5 本章小结5 2 第五章总结与展望5 3 5 1 论文工作总结5 3 5 2 进一步研究工作5 4 参考文献5 5 致谢6 1 攻读硕士学位期间发表的论文和参与的研究工作6 3 发表论文情况6 3 研究工作6 3 i i i 目录 i v 第一章绪论 1 1 研究背景与意义 第一章绪论 随着信息技术和存储技术的发展,人们能够收集到的音频数据的类别和容 量呈现爆炸式的增长,如电话会议录音、电视广播语音、有声邮件等。面对这 些海量的数据,如何有效准确地搜索、检索和获取需要的信息已成为人们关心 的问题和研究的热点。然而,这些原始音频数据仅仅是非结构化的二进制流, 通常缺乏结构化的内容组织和内容语义描述,单独的一项语音技术并不能满足 人们这样的需求。例如,对会议录音进行自动语音识别( a u t o m a t i cs p e e c h r e c o g n i t i o n ) ,只能得到简单的字串,而不能获得会议中每个人说的内容及含义。 因此需要结合多项语音技术,说话人分割与聚类技术就是一项配合其他语音技 术以满足这些需求的关键技术。借助说话人分割与聚类技术可以实现对音频流 的结构化管理,为在更高语义层次上实现音频内容的结构化提供基础。 说话人分割与聚类是指从一个多说话人语音中分离出不同人的语音段,并 作以标记的过程,也可称为s p e a k e rd i a d z a t i o n 1 】,解决“什么时候谁说”( w h o s p o k ew h e n ) 的这样一个问题。它包括两个方面:说话人分割( s p e a k e r s e g m e n t a t i o n ) 和说话人聚类( s p e a k e rc l u s t e r i n g ) 。前者从音频流中找出说话 人身份发生改变的时间点,并依据这些变化点将语音切分成若干短语音段。理 想情况下,说话人分割后,每一个语音段只包含一个说话人;说话人聚类将属 于同一个人的语音段归类在一起。说话人分割与聚类有着一些重要的应用: 2 ( 1 ) 电话广播会议自动转写:说话人分割与聚类是自动转写系统的重要前 端组成部分,为自动语音识别模块提供每个说话人的语音数据,从而获得每个 说话人所说的文本内容; ( 2 ) 说话人检索:对输入语音进行分割与聚类,说话人确认模块再对每个 类别进行确认,判断是否是目标人; ( 3 ) 辅助视频分割:由于图像和视频的复杂性,视频自动分割精度不高。 相对而言,音频分割较为简单,可以辅助视频分割。如在新闻联播中,通过说 话人分割与聚类技术找到播音员以及其他说话人的变化点,让视频分割集中在 这些变化点上,可以提高视频分割的准确率和效率。 电话语音说话人分割与聚类作为说话人分割与聚类在电话语音中的应用, 也具有很大的应用价值,如上面提及的电话自动转写外,还包括电话信道下多 第一章绪论 说话人确认 3 、电话安全监控等。 1 2 国内外研究现状 作为一项重要的语音处理技术,从上世纪9 0 年代到现在,说话人分割与聚 类得到了广泛研究与应用。美国国家标准及技术署( n a t i o n a li n s t i t u t eo f s t a n d a r d a n dt e c h n o l o g y ,n i s t ) 从2 0 0 2 年起不定期举办丰富转写评测( i b c ht r a n s c r i p t i o n e v a l u a t i o n ,r t e ) 4 】,其包括语音识别( s p e e c h t o - t e x t ) 和后设数据提取 ( m e t a d a t ae x t r a c t i o n ) 两个任务,目的是为人们和机器提供更为易读的转写结 果。在后设数据提取评测中,说话人分割与聚类就是其中一个评测部分。n i s t 定义的说话人分割与聚类任务是在几乎没有任何先验信息下,分离出录音文件 中不同说话人的语音段,并作以标记,应用的领域包括电话会议录音以及广播 语音。近年来,n i s t 开始只侧重于在会议录音中的应用。许多世界知名研究机 构陆续参与到评测中来,如麻省理工学院林肯实验室、伯克利大学的i s c i ( i n t e r n a t i o n a lc o m p u t e rs c i e n c ei n s t i t u t e ) 、法国的l 队( l a b o r a t o i r ei n f o r m a t i q u e a v i g o n o n ) 等,使得说话人分割与聚类技术得到了长足的发展。按照分割和聚 类的结合方式,说话人分割与聚类系统可以分为两大类:先分割后聚类 5 7 】, 即先对输入音频流进行分割,然后再通过聚类将属于同一个人的语音段归类在 一起;分割与聚类同步进行 8 1 0 ,即基于隐马尔科夫模型( h i d d e nm a r k o v m o d e l ,删) 【1 1 】,在每一步聚类操作后都重新进行一次分割过程。这两类 系统各有优缺点,前者结构简单,效率高,但是分割错误不能在聚类过程中得 以修正,产生错误积累,影响最终的聚类效果;后者在每一步中都可以利用当 前所有类别的数据信息,性能一般好于前者,但时间花销比前者大。 下面本文将从说话人分割和说话人聚类这两个方面介绍说话人分割与聚类 技术的发展。 1 2 1 说话人分割方法 早期的说话人分割方法是基于能量的( s i l e n c e - b a s e ds e g m e n t a t i o n ) ,其认 为大部分说话人变化点都发生在静音处,通过设定静音门限找出静音段。这种 方法固然简单,但是不适用同一语音段中存在多个说话人的情况。如果事先获 得了说话人的模型,可以采用基于模型的分割方法( m o d e l - b a s e ds e g m e n t a t i o n ) , 通过最大似然( m a x i m u ml i k e l i h o o d ) 准则或者维特比解码( v i t e r b id e c o d e ) 对音频流进行归类,分割的准确率高。一般情况下,说话人模型是未知的,这 2 第一章绪论 时多采用基于距离尺度的分割方法( m e t r i c - b a s e ds e g m e n t a t i o n ) ,最早由g i s h h 于1 9 9 1 年提出 1 2 1 ,也是目前最为流行的分割方法。其基本思想是通过语音段 之间在声学特征分布上的距离大小来衡量它们的相似性,通过设定距离门限判 断它们是否属于不同说话人。常用的距离度量尺度有贝叶斯信息准则( b a y e s i a n i n f o r m a t i o nc r i t e r i o n ,b i c ) 1 3 】、归一化似然比( g e n e r a l i z e dl i k e l i h o o dr a t i o , o l r ) 1 4 、k l 距离( k u l l b a c k - l e i b e rd i s t a n c e ,k l d ) 等。b i c 准则以其简 单有效的特点,在说话人分割中得到了广泛的应用。由于输入语音是连续的, 为了能够比较两个语音段之间的距离,一般采用滑动窗机制选择两个语音段。 窗的选择方式主要有两种:( 1 ) 在固定长度的窗内,反复以固定的步长将窗分 成两个子窗,得到距离序列,如 6 】 1 3 ;( 2 ) 直接使用两个相邻的固定长度的 窗,也反省以固定的步长移动这两个窗,女n 1 5 ,1 6 。基于距离尺度的说话人分 割方法优点在于不需要先验信息,但是需要设定门限,鲁棒性和稳定性较差。 在实际系统实现时,考虑到后面的聚类过程,说话人分割没有必要做到完 全正确,可以允许分割过程中产生较多的虚警变化点而尽量保证较少的漏警变 化点。而且通常在聚类之后采用基于模型的分割方法重新进行一次分割过程, 利用聚类后的类别信息对变化点进行精炼。 1 2 2 说话人聚类方法 说话人聚类方法可主要分为两类:自底而上( b o t t o m - u p ) 和自顶而下的聚 类方法( t o p d o w n ) 。前者又称为层次凝聚聚类( a g g r e s s i v eh i e r a r c h i c a l c l u s t e r i n g ,a h c ) ,是目前说话人聚类系统中采用最多的聚类方法,如 r 6 1 0 1 1 7 1 8 。在a h c 中,输入语音首先通过说话人分割切分成若干语音段 6 】或者直接切分成等长的语音段 1 0 ,切分的语音段数目远大于真实的说话人 个数,每个语音段生成一个初始类。然后,连续的合并距离最近的两类直到满 足一定的停止条件。类别通常使用混合高斯模型( g a u s s i a nm i x t u r em o d e l ,g m m ) f 2 0 或者单高斯建模,每一次合并得到的新的类别都要重新估计其模型。类别 问的距离度量也都采用说话人分割中的距离尺度,如b i c 、g l r 等。与自底而 上聚类不同,自顶而下的聚类方法首先只用一个类别模型描述整个输入语音, 然后再一个一个地增加类别数,其典型代表是u a 系统 8 1 1 1 9 。虽然自底而上 的聚类更受欢迎,但是究竟哪种方法在什么情况下更为有效并不是很清楚。由 此,一些研究人员假设这两种聚类方法可以相互弥补对方的不足,并提出了很 多融合这两种聚类方法的系统 2 1 ,2 2 ,都取得了一定性能的提升。 无论是哪种聚类方法,何时停止聚类以确定说话人的数目是一个关键的问 第一章绪论 题。b i c 准则是自底而上聚类系统最为常用的聚类停止准则,当合并的两类的 b i c 距离大于一个门限时则聚类停止【1 0 。另外文献在 2 3 1 d p ,最佳的说话人数 目通过比较不同说话人数目下b i c 得分大小,选取b i c 得分最大的说话人数目 得到。v a l e n t ef 等 2 4 】于2 0 0 6 年提出了一种基于变分贝叶斯( v a r i a t i o n a l b a y e s i a n ,v b ) 学习的说话人聚类方法。变分贝叶斯学习优势在于能够同时 完成模型参数估计和模型复杂度选择。在他们提出的系统中,首先基于变分贝 叶斯学习获得不同说话人数目下最佳的聚类结果,然后比较这些聚类结果的自 由能量( f r e ee n e r g y ) 大小,选取最大的以确定最佳的说话人数目。文献【2 5 】 成功地将变分贝叶斯学习和本征语音建模( e i g e n v o i c em o d e l i n g ) 结合在一起 用于电话语音的说话人分割与聚类任务,取得优于b i c 系统的性能。 对于特殊的应用环境,除了声学特征信息外,还有其他的一些非声学特征 信息可以帮助提升分割与聚类系统的性能。例如在有多麦克分的会议中,声音 到达每个麦克分的时差,也就是到达时间延迟( t i m ed e l a yo f a r r i v a l s ,t d o a ) , 携带着说话入的位置信息。目前大部分应用在会议环境的分割与聚类系统都将 声学特征和t d o a 融合在一起【2 6 ,2 7 1 。 由于与说话人识别( s p e a k e rr e c o g n i t i o n ) 有很大的关联性,一些说话人识 别的技术被应用到说话人分割与聚类中,如混合高斯通用背景模型( g a u s s i a n m i x t u r em o d e l - u n i v e r s a lb a c k g r o u n dm o d e l ,g m m u b m ) 对类别建模 2 8 、特 征高斯化 2 9 】等。近些年来,因子分析方法在电话语音说话人识别中取得了重 大成功,因此研究人员开始尝试将因子分析技术引入到电话语音说话人分割与 聚类中,也都取得很大的性能提升 2 5 ,3 0 3 2 】。 1 - 3 说话人分割与聚类存在的问题 虽然说话人分割与聚类技术已有近2 0 年的发展,但是并未产生非常完善的 方法。首先,几乎没有任何有用的先验信息是说话人分割与聚类技术面临着的 最大困难。这些困难表现在:( 1 ) 由于没有先验信息,无法事先建立说话人模 型,而需要用短时语音段去建立说话人模型,并进行有效的相似性度量,这是 一个很大的挑战;( 2 ) 真实说话人数目未知,特别是对于会议录音和广播语音, 并且说话人在不同时间段发音表现方式不一致以及噪声的影响,目前的众多聚 类方法很难准确地估计出说话人数目,从而影响聚类性能。 其次,说话人分割与聚类系统没有统一的实现方式,电话、广播和会议是 目前说话入分割与聚类的研究和应用的三个主要场合,它们在录音质量( 麦克 4 第一章绪论 风、噪声) 、信息源类别和数量、话者数目、说话持续时间及说话风格等方面都 存在很大差异,这使得需要对不同的场合采取不同的策略。 再者,说话人分割与聚类系统的性能容易受到非正常人声语音的干扰而下 降,包括环境噪声、静音、音乐以及几个说话人同时说话的重叠语音( o v e r l a p ) 等。这些非正常人声语音表现方式多样,如何在前端鲁棒性的去除它们也是说 话人分割与聚类任务急需解决的一个问题。针对重叠语音的检测,虽然目前也 有一些研宄成果 3 3 ,3 4 ,但是检测的准确率和召回率都很低,远没有达到可用 的水平。 此外,针对一些极端情况,如说话人语音长度之间分布极不平衡、信噪比 很低,目前的说话人分割与聚类系统没有进行专门的处理。 1 4 说话人分割与聚类系统性能的评价标准 在n i s t 举行的r t 评测比赛中,使用分割与聚类错误率( d i a r i z a t i o n e r r o r r a t e ,d b r ) 3 5 来衡量说话人分割与聚类系统的性能,本文亦采用这种评价标 准。分割与聚类错误率定义为系统分类错误的语音段长度占整个有效语音段长 度的百分比,如图1 1 所示,其由三部分构成: d e r = m i s s + f a l s e + s p k e ( 1 1 ) 其中吖 s s 是指有效语音检测的漏检率,即将有效语音当成非语音的总长度占整 个有效语音段长度的百分比,f n i s e 是有效语音检测的虚警率,即对应的将非语 音当成有效语音的在整个有效语音段长度中的百分比,s p k e ( s t l e a k e re r r o r r a t e ) 是说话人语音之间分类错误率,即对应的将属于一个人的语音归类到另 一个说话人的百分比。 为了能够计算系统的分割与聚类错误率,系统在输出结果时需要给出每个 语音段的起始时间以及对应的说话人标号( 如1 、2 、3 等) ,然后将系统输出的 说话人标号与参考答案( 由人工标注得到) 的说话人标号建立一个最佳映射使 得系统输出的说话人与参考的说话人之间有最大的语音重叠,最后根据映射结 果计算分割与聚类错误率。 一日人1 糸统输出 一说话人2 :一:_ _ _ 圈叫_ j 函 1 参考答案 i1 言 f a9 l s e 、 图1 1 分割与聚类错误构成示意图 第一章绪论 1 5 论文研究内容与安排 本论文在双人电话语音数据上,主要针对相似性度量方法、类别建模和语 音段中说话人信息表示这三个方面展开了探索和研究。论文的内容安排如下: 第一章是绪论部分,阐述了说话人分割与聚类背景意义、研究现状以及存 在的问题。 第二章介绍了典型的基于b i c 准则的电话语音说话人分割与聚类系统整体 框架与实现细节。对基线系统存在的问题进行了分析,在相似性度量方法和类 别建模两个方面进行了改进。相似性度量方法方面,提出将相邻语音段间静音 长度融合到基于b i c 准则的相似性度量中,提高了相邻语音段间相似性度量的 准确性。类别建模方面,采用了基于交叉似然比( c l r ) 的两步聚类方法,基 于g m m u b mm a p 对类别建模。 第三章首先阐述了说话人识别中因子分析建模技术,然后将其应用到类别 建模和语音段中说话人信息表示中。类别建模方面,在基于c l r 的两步聚类系 统中,采用基于本征语音和基于全差异的两种因子建模方法取代m a p ,获得更 加准确的类别g m m 模型。语音段中说话人信息的表示方面,基于联合因子分 析技术,提出了一种扩展的全差异因子分析模型,使得在基于i - v e c t o r 的系统 中,提取的i - v e c t o r 能够更加准确地表示语音段包含的说话人信息。 第四章介绍了n v i d i a 公司的g p u 统一编程平台一c u d a 。提出了一种在 g p u 实现g m m 并行快速训练的方法。 第五章是本论文工作的总结以及未来研究方向的展望。 第二章基于b i c 准则的电话语音说话人分割与聚类系统及改进 第二章基于b i c 准则的电话语音说话人分割与聚类系统 及改进 2 1 引言 贝叶斯准则( b i c ) 是一种常用的模型选择,( m o d e ls e l e c t i o n ) 准则。c h e n s 在 1 3 1 中首次将其用于说话人分割与聚类中。b i c 准则以其简单有效的特点, 在说话人分割与聚类中得到了广泛应用。目前,在n i s t 举办的丰富转写评测 中,很多性能较好的聚类系统都采用了基于b i c 准则的聚类方法。 本章首先介绍经典的基于b i c 准则的电话语音说话人分割与聚类系统,并 作为基线系统。然后对基线系统存在的问题进行了分析,在相似性度量方法和 类别建模两个方面进行了改进。相似性度量方法方面,针对基线系统在聚类时 可用信息过少的问题,提出将相邻语音段间静音长度融合到基于b i c 准则的相 似性度量中,提高了相邻语音段间相似性度量的准确性。类别建模方面,采用 了基于交叉似然比( c l r ) 的两步聚类方法。在第二步聚类中,采用g m m - u b
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 站台服务合同协议
- 租房转包合同协议
- 追加影视合同协议
- 水泥合同三方协议
- 移民购房合同协议
- 渔船劳务合同协议
- 税务师徒合同协议
- 维保行车合同协议
- 药品专卖合同协议
- 渣土处置合同协议
- 山东省高中名校2025届高三4月校际联合检测大联考生物试题及答案
- 2025年中铁快运股份有限公司招聘(98人)笔试参考题库附带答案详解
- 2025年武汉数学四调试题及答案
- 职业病防护设施与个体防护用品的使用和维护
- 中国纺织文化智慧树知到期末考试答案2024年
- 枣庄防备煤矿有限公司“7.6”重大火灾事故详细分析
- 河北省用人单位录用人员身份核查登记表
- 建筑装饰专业中级职称理论考试题库
- 工程联系单表格(模板)
- 万科人力资源的海盗计划
- 二手房买卖合同最新版范本电子版下载
评论
0/150
提交评论