(信号与信息处理专业论文)基于音素搭配的语种识别方法研究.pdf_第1页
(信号与信息处理专业论文)基于音素搭配的语种识别方法研究.pdf_第2页
(信号与信息处理专业论文)基于音素搭配的语种识别方法研究.pdf_第3页
(信号与信息处理专业论文)基于音素搭配的语种识别方法研究.pdf_第4页
(信号与信息处理专业论文)基于音素搭配的语种识别方法研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 语种识别是指利用计算机自动地判断给定的语音属于哪一个语种的过程。随 着国际交流的日益频繁,语种识别在军事情报搜集、电话自动转接系统、多语种 语音识别前端等方面显现出越来越重要的应用价值。 根据使用特征和建模方法的不同,主流的语种识别系统主要分为两大类:基 于声学特征的方法和基于音素搭配关系的方法。其中,基于音素搭配的语种识别 方法首先使用语音识别技术将语音转化为音素序列,然后利用不同语种音素搭配 规律的不同进行语种识别。基于音素搭配的方法以其稳定、良好的性能和巨大的 发展空间引起了越来越多的研究者的重视。本论文围绕基于音素搭配的语种识别 方法进行了较系统的研究,完整地搭建了从音素识别器到语种模型的语种识别系 统,并在提高系统性能、降低算法复杂度方面取得了一定的进展。具体的研究工 作包括: 第一,比较了相同条件下用不同方法训练的音素识别器的性能,证明了 t r a p m l p 策略训练的音素识别器在语种识别任务上相对于传统语音识别中采 用的g m m h m m 策略的优越性。 第二,针对l a t t i c e 在语种识别中应用算法复杂度极高的问题,在证明遍历 l a t t i c e 中全部路径等效于遍历全部相邻边的基础上,提出了一种计算有限阶次的 n g r a m 统计量的快速算法,极大地降低了算法复杂度。 第三,在统计语言模型方面:a ) ,针对n g r a m 语言模型在语种识别中的应 用特点,提出了在语种识别中应用不同顺序的n g r a m 语言模型的方法,利用它 们之间的互补性改进了性能;b ) ,利用从u b m 自适应到n g r a m 语言模型的训 练方法,进一步缓解了数据稀疏问题:c ) ,比较了n g r a m 语言模型和二叉决策 树模型的性能。 最后,在p r - s v m 体系中:曲,因为特征维数随阶次指数增长,产生了特征 向量稀疏和参数估计不准确的问题,为此本论文提出了b a c k - o f f 平滑和u b m 自 适应两种s v m 特征参数估计的改进方法,缓解了稀疏问题,这两种方法的融合 还能进一步提升系统性能;b ) ,特征维数过高导致的另一个问题是存储和计算困 难,简单地剪枝方法又会造成信息的丢失,本文提出了一种利用二叉决策树产生 的聚类信息来构造p r s v m 特征向量的方法,该方法不仅有效地降低了维数, 而且没有简单地丢弃信息,语种性能相对于简单剪枝方法有相当程度的提升。 关键词:语种识别,音素搭配,二叉决策树,支持向量机,自适应方法 a b s t r a c t a b s t r a c t a u t o m a t i cs p o k e nl a n g u a g er e c o g n i t i o ni s t h ep r o c e s so fd e t e r m i n i n gt h e l a n g u a g eo fag i v e nu t t e r a n c eb ym a c h i n e a si n t e r n a t i o n a lc o m m u n i c a t i o nb e c o m e s m o r ea n dm o r ef r e q u e n t ,t h e r ee m e r g em a n yf i e l d so fv a l u a b l ea p p l i c a t i o n sf o r l a n g u a g er e c o g n i t i o ns u c ha sc o m m u n i c a t i o nm o n i t o r i n g ,a u t o m a t i cp h o n er o u t i n g a n df r o n t e n do fm u l t i l i n g u a ls p e e c hr e c o g n i t i o n b a s e do nt h ef e a t u r e sa n dm o d e l i n ga p p r o a c h e s ,l a n g u a g er e c o g n i t i o ns y s t e m s f a l li n t ot w om a i nc a t e g o r i e s :a c o u s t i cm o d e l i n ga n dp h o n o t a c t i cm o d e l i n g i nt h e p h o n o t a c t i cc a s e ,t h eu t t e r a n c ei sf i r s tc o n v e r t e dt oap h o n es e q u e n c eu s i n gs p e e c h r e c o g n i t i o nt e c h n o l o g i e s ,t h el a n g u a g e c a nt h e nb ed e t e c t e db a s e do nd i f f e r e n t p h o n o t a c t i c c o n s t r a i n t so fl a n g u a g e s p h o n o t a c t i ca p p r o a c h e sh a v ec o n s i s t e n t l y y i e l d e dt o pp e r f o r m a n c e i n l a n g u a g er e c o g n i t i o na n d a r ea t t r a c t i n g i n c r e a s i n g a t t e n t i o n s t h i st h e s i sc o n c e n t r a t e so np h o n o t a c t i c sb a s e dl a n g u a g er e c o g n i t i o na n d t r i e st op r o v i d eas y s t e m a t i cr e s e a r c hi nt h i st o p i c a f t e rt h ec o n s t r u c t i o no fa c o m p l e t ep h o n o t a c t i cl a n g u a g er e c o g n i t i o ns y s t e m ,t h i st h e s i sa i m sa ti m p r o v i n gt h e s y s t e mp e r f o r m a n c ei nt e r m so fe f f e c t i v e n e s sa n de f f i c i e n c y t h ed e t a i l e dw o r k s a r e a sf o l l o w s : f i r s t l y , w ec o m p a r ed i f f e r e n tt r a i n i n gs t r a t e g i e so fp h o n er e c o g n i z e r s ,a n dt h e t r a p m l ps t r u c t u r ei sp r o v e dt oo u t p e r f o r mt r a d i t i o n a lg m m h m ma s rs y s t e m b yal a r g em a r g i no nl a n g u a g er e c o g n i t i o nt a s k s e c o n d l y , w ea d d r e s st h e 1 i 幽c o m p u t a t i o nc o m p l e x i t yp r o b l e mi nt h eu s eo f l a t t i c es t r u c t u r ef o rp h o n o t a t i cl a n g u a g ei d e n t i f i c a t i o n a f t e rp r o v i n gt h a tt r a v e r s i n g a l lp a t h si nl a t t i c ei se q u a lt ot r a v e r s i n ga l ln e i g h b o r i n ge d g e s ,w ef u r t h e ri n t r o d u c ea n e f f i c i e n ta l g o r i t h mt oc o m p u t et h en g r a me x p e c t a t i o n s t h i r d l y , s o m ee f f o r t sa r em a d ei ns t a t i s t i c a ll a n g u a g em o d e l i n gt oi m p r o v et h e s y s t e mp e r f o r m a n c e :t h ec o m p l e m e n t a t i o no fd i f f e r e n tn - g r a m s i s e x p l o i t e db y c o n s i d e r i n gt h e s t a t i s t i c so fm u l t i p l ep o s i t i o n sa r o u n d c u r r e n tp h o n e ;n - g r a m l a n g u a g em o d e l sa r ea d a p t e df r o ml a n g u a g ei n d e p e n d e n tu b m m o d e lt of u r t h e r a l l e v i a t et h ed a t a - s p a r s ep r o b l e m ;w ea l s oa p p l yt h eb i n a r yd e c i s i o nt r e ei nl a n g u a g e m o d e l i n ga n dc o m p a r et h er e s u l t st ot h et r a d i t i o n a ln - g r a ml a n g u a g e m o d e l l a s t l y , w ef o c u so nt h ep r s v ml a n g u a g er e c o g n i t i o nm e t h o d s w h i c h i n t r o d u c e t h eb a g o f - n g r a mf e a t u r ei n t ot h es v m a st h en u m b e ro fu n i q u en g r a m sg r o w s n i a b s t r a c t 一一 e x p o n e n t i a l l ya st h eo r d e rni n c r e a s e s ,t h es t a t i s t i c a lr e p r e s e n t a t i o nb a s e do no n e u t t e r a n c ei ss p a r s ea n di n a c c u r a t e t oa d d r e s st h i sp r o b t e m ,t w os c h e m e sa r ep r o p o s e d i nt h i st h e s i s ,i n c l u d i n gb a c k - o f fs m o o t h i n ga n du b ma d a p t a t i o n b o t h c a r l e f f e c t i v e l ya l l e v i a t et h ea b o v ep r o b l e ma n dt h e i rc o m p l e m e n t a r yr e s u l t s a r ee v e n b e t t e r m e a n w h i l e ,i l i 幽d i m e n s i o no fb a g o f - n g r a m f e a t u r e sm a yc o n f l i c tw i t h c o n s t r a i n t so fs t o r a g ea n dc o m p u t a t i o n a lc o m p l e x i t yi ns v m c l a s s i f i c a t i o n i n s t e a do f 讪i 唧p r u n i n g ,an e w f e a t u r ec o n s t r u c t i o nm e t h o di sp r o p o s e di nt h i st h e s i s ,w h i c h m d k e su s eo fc l u s t e r sg e n e r a t e db yb i n a r yd e c i s i o nt r e e t h ee x p e r i m e n tr e s u l t ss h o w p r o m i s i n gp e r f o r m a n c e k e y w o r d s :l a n g u a g er e c o g n i t i o n ,p h o n o t a c t i c s ,s u p p o r tv e c t o rm a c h i n e ,b i n a r y d e c i s i o nt r e e ,a d a p t i v ea p p r o a c h i v 中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工 作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包 含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对 本研究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即: 学校有权按有关规定向国家有关部门或机构送交论文的复印件和电 子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。 保密的学位论文在解密后也遵守此规定。 作者签名: v 口7 年 第1 章绪论 第1 章绪论 1 1 语种识别研究背景 1 1 1 语种识别的意义 自动语种识别( a u t o m a t i cs p o k e nl a n g u a g er e c o g n i t i o n ) ,通常简称语种识 别( l a n g u a g e r e c o g n i t i o n ) ,是指由机器自动地判断一段语音属于哪一个语种的 过程。 语音是人与人之问最自然、最便捷的交流方式之一,但由于历史和地理的原 因,世界上的6 0 亿人口使用着不同的语种,其中6 35 的人口使用着1 4 个较大 的语种其它3 6 5 的人口使用着超过3 0 0 0 个较小的语种il l 。使用不同语种的人 彼此之间要进行交流,首先就必须知道对方所使用的语种。 h l n d l ( 58 i s p a n i s h l 58 1 目1 1 世界语种人e 1 分布图【1 人类自身也可以进行语种识别,对于自己熟悉的语种,人类通常能在数秒甚 至更短的时间内,准确地判断出语音所属的语种;但是对于自己不熟悉的语种, 则判断的准确度通常会降低而需要的时间会增加口 。不幸的是,大多数人都只熟 悉极少数的语种,因此,研究自动语种识别有着重要的意义。 语种识别系统特别适用于阻下场景: 1 情报分类和军事侦听:语音相关的情报,如果能先通过语种识别系统进 行预分类,可以加快后期处理的速度:在侦听敌方或恐怖分子时,希望侦听的目 第1 章绪论 标往往使用着已知的特定语种,通过语种识别系统预先过滤,可以有效地提高侦 听的效率。 2 电话自动转接系统:比如在异国打电话预定酒店、机票,甚至是报警或 寻求急救时,通过语种识别系统直接把电话转到能听懂相应语种的人员,可以提 高办事效率甚至挽救生命。 3 连续语音识别系统的前端:目前的语音识别系统多数是针对单一语种的, 在预先不知道待识别语音语种的情况下,可以先语种识别系统来判断,然后由相 应语种的语音识别系统进行识别。 1 1 2 语种识别使用的特征 从语言学的角度,不同语种最直接的区别显然是它们的词汇( v o c a b u l a r y ) 和语法( s y n t a x ) 。但在没有语言学先验知识的情况下,对不熟悉语种的语音,几 乎不可能确切地切出其中的词1 4 】。认知学的一些实验表明,人类辨别不熟悉的语 种主要依靠测听组成词的一些语音单元( a c o u s t i cu n i t s ) 2 1 ,如音素( p h o n e ) 等,这些单元在不同语种中的种类、数量、出现频率以及它们之间的搭配关系差 异是非常大的。例如,南部非洲的语种中有一种独特的“敲击声( c l i c ks o u n d s ) ; 阿拉伯语中存在软腭擦音;夏威夷语里面的辅音非常少等等。 语种间的差异不仅仅体现在音素或词的频率及搭配关系上,它们的发音在不 同语种间也存在相当大的区别。例如中文、日语和越南语是带调的;而英语和德 语中则存在重音。 总的说来,有多种不同层次的信息可以用来区别语种。以下的特征通常随语 种的不同而不同: 1 音素搭配学( p h o n o t a c t i e s ) :人类的发音系统可以发出很多种声音,这些 发音的基本单元就称为音素。单个语种通常只使用其中很小的、互不相同的一个 音素子集( 经常在3 0 6 0 之间) 。即使两个语种共用某些相同的音素,这些音素 的出现频率,以及音素之间的排列组合关系等通常也是互不相同的。如在泰米尔 语中s t 是非常普遍的,但在英语中这样的组合却几乎没有。 2 韵律学( p r o s o d y ) :不同的语种即使发相同的音,其语调( 基频) 、持续 时长和发音速率等都有较大的差别。比较典型的就是音调与重音在不同语种中发 挥不同的作用。 3 词汇( v o c a b u l a r y ) :这是不同语种间最明显的差别,即使非英母语的人 说英语,也许会使用自己母语的音素、韵律,但如果拼出的单词是英语,仍然应 该被认为是英语。 4 语法( s y n t a x ) :这是建立在词汇上的更高层的信息,是定义词之间的组 合是否合法的一些规范。例如,中文和日语、韩语之间有一部分共同的词汇,但 2 第1 章绪论 它们的使用方法不同,可以用它们的使用方法来区分语种。 以上四种信息实际上都基于更底层的声学特征,包括频谱、倒频谱、共振峰、 基音等。因此,我们可以绘制如图1 2 所示的金字塔形语种特征的示意图,越往 下是越底层的信息,越往上是越高层的信息。 1 1 3 主要系统及研究进展 观察图1 2 中五个层次的信息,因为词的切分很难获得,因此现实的语种识 别系统多数只使用了词汇以下的三层信息。其中单独采用韵律特征的系统较弱 【5 5 】,通常作为补充信息。在当前的语种识别领域,主要有分别基于声学特征和音 素两个层次的3 种主流系统: 1 g m m u b m 系纠5 8 】:该系统用高斯混合模型( g a u s s i a nm i x t u r em o d e l 。 g m m ) 来表达各语种声学特征的概率分布,首先用全部语种训练语料的移位差 分倒谱( s h i f t e dd e l t ac e p s t r a l ,s d c ) 特征估计一个全局背景模型( u n i v e r s a l b a c k g r o u n dm o d e l ,u b m ) ,然后通过这个模型自适应生成各语种的g m m ,并根 据测试语句声学特征在g m m 上的似然得分判断语种。 2 g m m s v m 系统【5 z 】:同样从u b m 出发,但不是估计各语种的概率分布, 而是由各语种的语句自适应地产生g m m 超向量( g m ms u p e r v e c t o r s ,g s v s ) , 用支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 的方法寻找最大间隔的分类面来 进行语种判别。 3 基于音素搭配( p h o n o t a c t i c ) 的系统:该系统采用语音识别的方法将语音 离散化成为音素序列,并利用不同语种音素搭配关系的差别来进行语种识别。基 于音素搭配的系统是本文研究的重点,将在1 2 节中详细介绍。 从2 0 世纪7 0 年代就开始有了语种识别方面的研究工作,最近十几年来语种 识别开始加速发展。美国国家标准与技术研究所( n a t i o n a li n s t i t u t eo fs t a n d a r d s a n dt e c h n o l o g y , n i s t ) 分别在1 9 9 6 年、2 0 0 3 年、2 0 0 5 年、2 0 0 7 年主办了4 届 3 第1 章绪论 语种识别评测( l a n g u a g er e c o g n i t i o ne v a l u a t i o n ,l r e ) 比赛1 4 】- 【7 1 ,基本代表了语 种识别在当时的最新成果,各届l r e 比赛的信息见表1 1 。图1 3 展示了在n i s t 历届l r e 评测中都有着出色发挥的m i t 林肯实验室( l i n c o l nl a b o r a t o r y , l l ) 的实验性能哺j 。以等错误率( e q u a le r r o rr a t e ,e e r ) 为指标,该指标越低则系统性 能越好。可见随着技术的发展,在相同的数据库上系统性能越来越好。虽然在 l r e 比赛中逐渐加入了新的挑战,如l r e 0 5 中使用了更复杂信道的数据库 ( o h s u ) ,l r e 0 7 中引入了较多的方言,使得测试越来越接近真实的应用,但 难题也逐个被克服,在l r e 0 7 上3 0 s 的e e r 已经达n - ;1 t 2 8 1 。 表1 1 各届n i s t l r e 比赛信息 比赛 主要目标 闭集目标语种开集方言对测试 指标语种数语种 l r e 9 6c d t 1 2 汉语普通话、英语、无 无 日语、韩语、阿拉 伯语、法语、德语、 印地语、西班牙语、 泰米尔语、波斯语、 越南语 l r e 0 3 c d e t 1 2 同l r e 9 6俄语无 l r e 0 5c d e t 7 汉语普通话、英语、德语 1 大陆普通话、台湾 日语、韩语、印地普通话:2 美式英语、 语、西班牙语、泰 印度英语 米尔语 l r e 0 7 c 。,i 1 4 阿拉伯语、孟加拉法语、意1 普通话、广东话、 语、波斯语、德语、大利语、闽南话、吴语;2 美 日语、韩语、俄语、 旁遮普式英语、印度英语; 泰米尔语、泰语、语、印尼3 印地语、乌尔都语; 越南语、中文、印f 口、芦日月h4 加勒比、非加勒比 度斯坦语、西班牙路语西班牙语:5 大陆普 语 通话、台湾普通话 4 第l 章绪论 琴 岱 山 o o 巨亘匠三亟三至习 c a l l f r i o n do h s u肘i x o r 3 f i x o r 3 ( 1 2 1 a n g jf 7 t a n g )f 7 - t a n g )f 1 4 1 a n g , 、 、皤 - 。 + 1 1 k 、 a a 心4 工:j 鼍1 31 1 0 62 0 0 32 0 0 s2 0 0 52 0 0 72 0 0 72 0 0 7 图1 3m i tl l 历届l r e 比赛系统性能1 2 8 】 1 1 4 语种识别的研究平台 1 1 4 1 数据库 语种识别是一项与数据库相关性极强的技术,n i s t 举办的语种识别评测 l r e 在语种识别界的影响逐渐增大,而且语种配置较为合理,对训练集测试集 有明确定义,大家在统一平台上实验也便于交流。因此,n i s tl r e 比赛的数据 库也逐渐成为语种识别界较通用的数据库。n i s t 比赛的测试语句分3 0 s ,1 0 s ,3 s 三种时长分别进行测试,对应长时、中时、短时不同的应用,例如电话转接系统 往往需要短时间内判断语种,而情报分类则允许用较长的时间。 几届n i s tl r e 比赛中,l r e 0 7 对语种的覆盖较全,不同语种的训练语料规 模有较大的差异,同时较好地考虑了方言的情况,比较接近真实的应用,因此在 本文中,主要在l r e 0 7 上进行实验。l r e 0 7 测试集包括来自c a l l f r i e n d 、f i s h e r 、 m i x e r 3 、o g i 的三种时长各2 5 1 0 段测试语音,其中属于1 4 个目标语种的有2 1 5 8 旬,5 个开集语种的有3 5 2 句,本文的所有实验均在闭集条件下进行;训练集则 由来自c a l l f r i e n d 、o h s u 、m i x e r 三个库的共约4 0 0 小时的训练语料组成。 1 1 4 2 评测指标 历史上出现过多种语种识别的评测指标,较主要的有以下几种: 1 分类正确率a c c u r a c y ( 或错误率e r r o rr a t e ) 主要是在早期的文献中【9 】,把语种识别作为一个分类问题时的指标: accacy:count(utterancescorrectlyc l a s s i f i e d ) 100accacy xu u ( 1 1 ) = 一 i1 1 ) c o u n t ( a l lt e s tu t t e r a n c e s ) 在闭集的情况下,分类正确率是一个很好的指标,但语种识别通常是一个开 集的检测问题,这种情况下,正确率就不适用了,检测问题中常用另外两个量: = 丛,盟,= 二丛- ( 1 2 ) 协砌纠 是虚警概率,表示非目标语种语音被错判成目标语种的比例;乇是漏 5 “ 第1 章绪论 警概率,表示是目标语种语音但没被检出的概率。两者是此消彼长的关系,为了 得到综合的性能表征,通常用和衍生出来的几个指标: 2 等错误率( e q u a le r r o rr a t e ,e e r ) 这个通过遍历得分门限得到的当= 时的( 或) ,位于虚警和漏 警大致平衡时,通常能反映系统综合性能。 3 检测代价函数( d e t e c t i o nc o s tf u n c t i o n ,d c f ) 及m i nd c f 在实际应用中,虚警和漏警的代价也许不相同,为反映这种情况,引入检测 代价函数: = 圪啊+ 勋例 ( 1 3 ) 和c 翻分别称为漏警代价和虚警代价,在l r e 比赛中通常均设置为l 。 得到d c f 指标需要确定一个门限,遍历门限找到的最小的c 胁称为最小检测代 价函数( m i n i m u md c f m i n1 3 c f ) 。 4 语种平均代价指标( c 0 ) 这是n i s t 在l r e 0 7 中引入的一个新指标【7 1 : :可1 v lb c 懒。别蕊( k ) + 卿( 岛,“) “ + 一矿一跚如( 与,l o ) ( 1 4 ) 其中m 是目标语种的个数,( 岛,“) 是以与作为目标语种,k 作为非目 标语种时的虚警概率。c 嘴主要目的在平衡语种间的代价,e e r 、c 册和m i n d c f 都存在一个问题,对于各语种测试语句数量不均衡的情况,划出的门限往往会有 利于语音段较多的语种而牺牲语音段较少的语种。c 嘴相当于对每个语种单独计 算再平均,可以更全面的衡量语种识别的性能。 在l r e 0 7 中,t a r g e t = ( 1 一吃删一如,一矿翱) ( m - i ) ,闭集测试一o ,一翱为 o ,开集时为o 2 。 因为和需要设定门限,这与用来确定门限的开发集相关很强:而在 和均为1 的情况下e e r 与m i n d c f 差别通常不大,因此,本文中主要 以e e r 作为性能指标。 1 2 基于音素搭配的语种识别系统 前文提到过,在不同语种之间,音素这种基本发音单元的种类和出现频率, 以及它们之间的排列组合关系差异是非常大的。利用这些信息来进行语种识别是 很自然地,实际上,基于音素的方法是语种识别中最早得到应用【5 9 1 ,【6 0 l ,也一直 以来有着稳定性能的系统之一【9 】,【1 0 1 。 6 第l 章绪论 基于音素搭配的语种识别属于一大类的语种识别系统基于符号化器 ( t o k e n i z e r - b a s e d ) 的语种识别。这一类系统的主要特征是首先用某种方式把语 音离散化为一串有限的符号序列( t o k e ns e q u e n c e ) ,然后从这些符号及它们的搭 配中提取语种的信息。迄今为止在语种识别中采用过的符号化器有以下几种:1 g m m 符号化器( g m mt o k e n i z e r ) t 1 1 j :使用个g m m 把每一语音帧符号化成概 率最大的那个高斯分量的序号:2 音素识别器( p h o n er e c o g n i z e r ) 1 2 l :训练一 个音素级的语音识别系统,把语音识别为音素串【1 2 】;3 词识别器【1 3 】:与音素识 别器相似,只是层次更高。g m m 符号化器存在符号化不准确和不稳定的弱点: 而词级则因为基本单元数目庞大导致后端建模极其困难。从符号化精度和建模复 杂性两方面考虑,音素都是符号化单元的合理选择。 输入语音 + i 阱舯 音素识别模块语种模型模块 图1 4 典型的p r l m 系统 图1 4 展示了一个典型的音素识别器后接语种模型( p h o n er e c o g n i z e r f o l l o w e db yl a n g u a g em o d e l s ,p r - l m ) 系统。该系统主要由两大模块构成:前 端音素识别模块对语音进行识别,产生最优( 1 - b e s t ) 音素序列或者词i 蛩( l a t t i c e ) , l a t t i c e 是包含多条音素序列的数据结构,从1 - b e s t 序列和l a t t i c e 中都可以计算n 阶音素组合n g r a m 的统计量;后端语种模型( l a n g u a g em o d e l ) 计算并输出 n g r a m 统计量的得分。l a n g u a g em o d e l 在一般的文献中也翻译成“语言模型”, 但这种说法容易和统计语言模型( s t a t i s t i c a ll a n g u a g em o d e l ) 甚至更狭窄的n 元语言模型( n g r a ml a n g u a g em o d e l ) 混淆,实际上在语种识别中,后端的模 型不仅仅是统计语言模型,支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 等模型也得 到广泛应用,因此在本文中,用“语种模型 泛指后端产生得分的模型,而“语 言模型 一般指代统计语言模型。 前端音素识别器通常也是在某个语种上训练的( 也有跨多语种的音素识别器 1 1 4 1 ) ,但该语种与后面的目标语种不相关,既可以是目标语种之一,也可以不属 于目标语种。相应地,训练音素识别器需要使用的带文本标注的训练语料也和后 端训练语种模型的语料独立。 7 第l 章绪论 由p r l m 的系统架构可以看出,该系统对于音素识别器的依赖是相当强的, 但在语种识别界长期流行这样的观点,认为即使音素识别器识别错误,只要错误 的倾向是致的,就不会影响后期的语种模型得分;直到2 0 0 5 年,捷克的b m o 大学在语种识别中使用了基于时域扩展模型( t e m p o r a lp a t t e r n , t r a p ) 特征和 多层感知器( m u l t i l a y e rp e r c e p t r o n ) 模型的音素识别器【l5 1 ,使性能获得了显著 的提高。才引发了人们对于音素识别前端的重视,目前b m o 大学的方法在语种 识别中得到了广泛应用。 早期基于音素的语种识别系统只使用了1 - b e s t 音素序列,这是很自然的想 法。但受限于音素识别器的性能,1 - b e s t 音素序列往往不准确。音素识别器一般 可以产生若干次优( n - b e s t ) 音素序列以及包含这些次优序列的数据结构词图 l a t t i c e ,这些次优路径中也包含了语种信息。2 0 0 4 年,h a t c h 、g a u v a i n 等人把 l a t t i c e 应用到p r - l m 中【1 6 j ,大幅改进了基于音素搭配的语种识别的性能。 长期以来,统计语言模型都是p r - l m 系统中语种模型的首选,统计语言模 型最大的问题是数据稀疏问题,人们采取了各种方法来缓解这些问题并在语种上 改进了性能;2 0 0 6 年起,s v m 模型开始在基于音素识别的方法被作为语种模型 1 1 8 1 2 0 1 ,相似的方法则更早出现在说话人识别中f 1 7 】,该模型使用b a go fn g r a m s 特征构造核函数,用区分性( d i s c r i m i n a t i v e ) 的训练方法,可以获得与统计语言模 型相当的性能,s v m 与l a t t i c e 的结合能进一步地改进性能【l 引。由于训练策略的 不同,统计语言模型和支持向量机模型之间存在较强的互补性。 图1 5 p p r - l m 系统 图1 4 中只使用了单一的音素识别器,实际上可以使用多个音素识别器组成 图1 5 中所示的并行p r - l m ( p a r a l i e lp r - l m ,p p r - l m ) 9 1 。不同的音素识别器所使 用的音素集通常不同;或者对不同音素的侧重不同。经过得分融合,可以利用音 素识别器之间的互补性,提高语种识别的性能。 1 3 本文的主要内容及组织结构 8 第l 章绪论 1 3 1 本文的主要内容 本文的主要研究内容为基于音素搭配的语种识别系统及改进方法。在完整地 实现从前端音素识别器到后端语种模型的基础上,本文对以下几个方面进行了研 究及改进工作: 。 1 音素识别器方面 实现了基于t r a p 特征和m l p 模型的音素识别器,并对相同的数据库上按 不同策略训练的音素识别器用于语种识别的性能进行了比较。 2 统计语言模型方面 本文比较了n g r a m 语言模型中几种常用平滑算法的性能,提出了把不同顺 序的n g r a m 语言模型应用到语种识别中的方法,利用对不同位置音素估计的互 补性,提高了语种性能:在n g r a m 语言模型中引入了u b m 自适应算法,缓解 了模型参数估计的数据稀疏问题,提高了参数估计的准确性进而改进语种识别性 能:实现了基于二叉决策树的语言模型,并与n g r a m 模型进行了比较。 3 l a t t i c e 的应用方面 针对遍历l a t t i c e 的算法复杂度极高的问题,提出了估计l a t t i c e 中n g r a m 期望值的一种快速算法,用遍历相邻边代替遍历全部路径,大大降低了算法复杂 度:比较了l a t t i c e 相对于1 b e s t 音素串的优势,并观察了两者之间的互补性。 4 s v m 方面 验证了s v m 和统计语言模型的性能对比及两者之间的互补性;针对s v m 中概率特征向量稀疏以及估计不准确的问题,提出了两种改进方法:b a c k o f f 平滑方法以及u b m 自适应方法;针对维数过高影响存储及运算的问题,而一般 的剪枝( p r u n i n g ) 策略又会造成信息丢失的问题,提出了把二叉决策树产生的 聚类信息( 叶子节点) 应用到s v m 中来的方法,在不显式地丢失信息的前提下, 有效地降低了特征维数,提高了存储运算效率的同时也改进了语种识别性能。 1 3 2 论文的组织结构 第1 章介绍了语种识别的一些背景信息,并概要介绍了本文的研究内容;第 2 章介绍了基于t r a p 特征和m l p 模型音素识别器的训练方法:第3 章介绍了 n g r a m 语言模型和二叉决策树两种统计语言模型在语种识别中的应用,并提出 了多顺序n g r a m 语言模型以及u b m 自适应等改进方法,l a t t i c e 虽然与音素识 别器联系更紧密,但理解它的应用需要有一些语种模型的知识,因此也放在本章 中;第4 章介绍了支持向量机s v m 在基于音素搭配的语种识别中的应用,并针 对其特征参数稀疏和估计不准确的问题,提出了两种改进方法,同时把二叉决策 树产生的聚类信息应用到s v m 中,有效地降低了维数并改进了性能;第5 章包 括了论文的总结以及对后续工作的一些展望。 9 第2 章基于t r a p 特征和m l p 模型的音素识别器 第2 章基于t r a p 特征和m l p 模型的音素识别器 2 1 引言 图2 1 语音识别系统构成 音素识别是一种简单形式的语音识别。图2 1 展示了一个典型的语音识别系 统,声学特征提取模块把模拟的语音信号数字化成为离散的特征;声学模型多采 用隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 1 2 q ;语言模型是利用词或音 素间搭配的先验概率来提高预测的准确性( 需要注意的是,这里的语言模型所起 的作用与在语种识别中用作语种模型时不同,且产生方式不同,多是从文本中统 计产生的) ;解码器( d e c o d e r ) 通过搜索算法寻找最优词串作为语音识别的结果 输出,当前主流解码器的多采用维特比( t e r b i ) 搜索算法。本文将简单地对语 音识别基础知识及v i t e r b i 解码算法进行介绍。 v i t e r b i 解码的一个重要前提是计算h m m 状态的输出概率,语音识别中较多 使用高斯混合模型g m m 来表达,用于训练g m m 的声学特征则通常为美尔域倒 谱系数( m e lf r e q u e n c yc e p s t r u mc o e f f i c i e n t ,m f c c ) 或感知加权线性预测系数 ( p e r c e p t u a ll i n e a rp r e d i c t i v e ,p l p ) 。但在n i s t2 0 0 5 的语种评测比赛中,捷克 b m o 大学依靠他们出色的音素识别性能取得了优秀的成绩。之后他们的音素识 别器训练方法在语种识别领域越来越流行。这种方法使用了基于谱特征的时域扩 展模式( t e m p o r a lp a r e m ,t r a p ) 作为声学特征,并采用多层感知器( m u l t i l a y e r p e r c e p t r o n ,m l p ) 模型来估计状态输出概率。t r a p 特征具有对噪声鲁棒性好的 优点,而m l p 模型则带来了区分性训练的优势。本文将介绍基于t r a p 特征和 m l p 模型的音素识别器训练方法,并比较其相对于m f c c 特征和g m m 模型在 语种识别上的优势。 本章后续部分组织如下:( 2 2 ) 节简单介绍语音识别系统的基础及v i t e r b i 解码算法;( 2 3 ) 节介绍基于t r a p 特征和m l p 模型在音素识别中的使用;( 2 4 ) 第2 章基于t r a p 特征和m l p 模型的音素识别器 节描述我们采用的完整的音素识别器架构以及在语种性能上的比较实验;( 2 5 ) 节对本章进行简单总结。 2 2 语音识别系统 2 2 1 语音识别基础知识 语音识别就是将观测到的语音样本o 通过转换函数f ( ) 转换为文本 t = f ( 0 ) 的过程。通常的作法是利用统计模型在有文本标注的语音训练数据中寻 找规律,进行统计语音识别( s t a t i s t i c a ls p e e c hr e c o g n i t i o n ) 。假设某词序 s = w , w :峙,在统计语音识别框架下评价其与某一段观测o 匹配程度的度量 通常使用如下的贝叶斯公式: 郴i o ) = 掣学 ( 2 1 ) 其中,p ( o j s ) 称为声学模型( a c o u s t i c m o d e l ,a m ) 概率,表示语音本身的 声学特征与词串s 的匹配程度,通常用隐马尔科夫模型对声学模型进行建模; e ( s ) 是语言模型概率,表示在自然语言中词串s 本身的发生概率,但对于语种 识别的情况,通常不希望解码受到音素识别器所在语种的语言模型影响,所以一 般不使用语言模型。贝叶斯决策理论就是选择使得上式最大的词串

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论