(模式识别与智能系统专业论文)基于语音识别的电话交换系统中关键技术的研究.pdf_第1页
(模式识别与智能系统专业论文)基于语音识别的电话交换系统中关键技术的研究.pdf_第2页
(模式识别与智能系统专业论文)基于语音识别的电话交换系统中关键技术的研究.pdf_第3页
(模式识别与智能系统专业论文)基于语音识别的电话交换系统中关键技术的研究.pdf_第4页
(模式识别与智能系统专业论文)基于语音识别的电话交换系统中关键技术的研究.pdf_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基予语音谖剐的电话交换系统中关键技术的研究 舔要 本论文的主要研究内容是基子隐玛尔可夫模垄的语音识别及其 在电信领域中的应用。类似于人名等语膏识别技术在电信、证券等领 域有着广泛的应餍,其育踅要的安用价值帮发麓翦最。雨隐马尔爵夫 模型是在谬音识别领域中应用最广泛、效果最好的一个模型。本文对 特定太孤立谓语啻舔剐驮多个燕度送行了醑变,实现了一个箨特定 人的汉语人名语胬识别实验系统。在该系统上做了以下几方面的研 究: 1 特征提敬与变换: 分毒厅讨论了l p c c 秘m f c c 两葶申卷熙的添酱特缝,通过实验对 两种特征做了比较,结果表明m f c c 特征比l p c c 特征更有效,然 丽计算量也稍微大些。另外,通过实验探讨了动态特征、特征归一 化手段对识别系统扮影响,结果表明这些手段对提高识剐系统的性麓 都有很大的作用。 2 稍练方法的改进: h m m 用高斯混合模型的概率密度函数来模拟语音特征的分布。 毽是这穆模撅衣实际猿嚣骞一些缡差。嚣努,基予最大经然( 溉) 准 则的训练方法只用同一个词的不同说话人发音数据来训练,不能有效 麓撼述不潮通之潮匏发毒差吴特性。两纂予最小分类镶误( m c e ) 准刘 的训练方法有效的增加了声学模型的区分能力。本论文讨论了基于 m c e 准则豹训练方法,对其优化过程进行了仔纲的搽讨,势在孤立 词人名语膏识别中实现。 3 。a 特定内容( 可变词表) 、非特定人孤立词识别系统: 基于熬谲模羹的特寇内容( 谲表) 孤立词谈剐系统瓣应用范誉是 有限的。它的词表变更需臻重新采集语窝数据并且训练,对系统的修 改攘大。瑟嚣特定内容静孤立词谈澍系统,露辍隧意擎竣谖霜瓣诱表, 这样就可以非常便利的将孤立词识别系统应用别各个领域。我们结合 汉添瓣发誊特点,在汉语连续诿裔识别瓣基础上着重磷究了l 将定内 容的孤立词语音识别系统中的声学单元选择、训练以及整词模型拼接 豹阎题,慰系统性能上存在豹闫题进行了讨论。 在上述孤立词语巍识裂系统豹基戳上,本论文初步设诗了一个基 于语音识别的电话自动转接系统的方案。讨论了系统的软、硬件设计, 邀话语鬻数据采集及英语音数据库的建立。溪音数据淳包攒人名溱音 数据库和电话转接语鬻数据瘁,并已经实际采集了少量规模的电话语 啬数据。 关键词:语音识别,隐马尔可夫模型,声学模型,最小分类错误 s t u d yo nt h ek e yt e c h n o l o g i e s o f s p e e c hr e c o g n i t l 0 nb a s e d t e l e p h o n es w i t c m n gs y s t e m a b s t r a c t 。t h i st h e s i ss t u d i e sh m mb a s e ds p e e c hr e c o g n i t i o ns y s t e ma n di t sa p p l i c a t i o n si n t e l e c o m m u n i c a t i o n s s p e e c hr e c o g n i t i o nt e c h n o l o g yl i k eh s t n es p e e c hr e c o g n i t i o nh a s b e e nw i d e l ya p p l i e di nt h ea r e ao ft e l e c o m m u n i c a t i o n s i th a si m p o r t a n tv a l u e sa n d p r o m i s e so f a p p l i c a t i o n h m mw a s t h eb e s ta n d p r e v a i l e dm o d e li nt h ef i e l do fs p e e c h r e c o g n i t i o n t h ea u t h o rd i s c u s s e dt h e h m mb a s e d s p e a k e r - i n d e p e n d e n t i s o l a t e d s p e e c hr e c o g n i t i o ni n v a r i o u sa s p e c t sa n df u l f i l l e dab a s e l i n ec h i n e s en a m es p e e c h r e c o g n i t i o ns y s t e m s o m ea s p e c t so fi s o l a t e ds p e e c hr e c o g n i t i o na r ed i s c u s s e db a s e d o nt h es y s t e m 1 f e a t u r ee x t r a c t i o na n dt r a n s f o r m a t i o n : l i n e a r p r e d i c t i v ec e p s t r a lc o e f f i c i e n t s ( l p c c ) a n dm e l f r e q u e n c yc e p s t r a l c o e f f i c i e n t s ( m f c c ) w e r et h et w op r e v a l e n tf e a t u r e sf o rs p e e c hr e c o g n i t i o n t h e s e t w of e a t u r e sw e r ec o m p a r e db yt h er e c o g n i t i o nt e s t t h er e s u l ti n d i c a t e st h a tm f c c i s m o r ed i s c r i m i n a t i v et h a nl p c cf o rs p e e c hr e c o g n i t i o n h o w e v e kt h ec o m p u m t i o n l o a df o rm f c ca l s oe x c e e d st h a to f l p c c m o r e o v e r t h ee f f e c t so f d v n a m i c a lf e a t u r e f e a t u r en o r m a l i z a t i o nf o rs p e e c hr e c o g n i t i o nw e r ed i s c u s s e db yt h er e c o g n i t i o nt e s t s t h er e s u l ti n d i c a t e st h a tt h e s ea p p r o a c h e sc a l l g r e a t l yi m p r o v et h ep e r f o r m a n c eo f s p e e c hr e c o g n i t i o ns y s t e m 2 i m p r o v e m e n t s o nt h et r a i n i n gm e t h o d : h m mu s e sg a u s s i a nm i x t u r em o d e l ( g m m ) t oa p p r o x i m a t et h es t a t i s t i c a l d i s t r i b u t i o no f s p e e c hf e a t u r e h o w e v e r ,t h i sa p p r o x i m a t i o nh a ss o m em i s m a t c hw i t h t h ea c t u a l s p e e c hd a t a f u r t h e r m o r e ,t h et r a i n i n gm e t h o db a s e do nm a x i m u m l i k e l i h o o d ( m e ) r u l e j u s tu s es p e e c hd a t af r o md i f f e r e n tp e r s o n so f t h es a l n ew o r dt o t r a i no n em o d e l i tc a n n o tc h a r a c t e r i z ee f f i c i e n t l yt h ea c o u s t i cd i f f e r e n c e so f d i f f e r e n t w o r d s m i n i m u mc l a s s i f i c a t i o ne r r o r ( m c e ) b a s e dt r a i n i n ga p p r o a c hd e m o n s t r a t e s i t sv a l i d 晦t or e i n f o r c et h ed i s c r i m i n a t i v ea b i l i t yo ft h ea c o u s t i cm o d e l s ,t h et h e s i s d i s c u s s e dt h et r a i n i n g a p p r o a c hb a s e dm c e ,e s p e c i a l l yt h e d e t a i l so fo p t i m i z a t i o n p r o c e d u r ei n t h i sa p p r o a c h t h ea u t h o ra l s of u l f i l l e dt h i st r a i n i n ga p p r o a c hi nt h e c h i n e s en a m e s p e e c hr e c o g n i t i o ns y s t e m 3 ,s p e a k e r - i n d e p e n d e n t v a r i a b l ev o c a b u l a r yi s o l a t e ds p e e c hr e c o g n i t i o n : t h ea p p l i c a t i o na r e ao fw h o l e - w o r da c o u s t i cm o d e lb a s e di s o l a t e d s p e e c h r e c o g n i t i o ns y s t e mi sl i m i t e db yt h ev o c a b u l a r y t h em o d i f i c a t i o no ft h ev o c a b u l a r y n e e d sr e a c q u i s i t i o no f s p e e c ht r a i n i n gd a t aa n dr e - t r a i n i n g 。b u ts p e a k e r - i n d e p e n d e n t v a r i a b l e v o c a b u l a r yi s o l a t e ds p e e c hr e c o g n i t i o nc a nm o d i f yt h ev o c a b u l a r yf r e e l y , w h i c hc o u l da p p l yi s o l a t e d s p e e c hr e c o g n i t i o nt om a n ) f i e l d se a s i l yc o n s i d e r e d a c o u s t i cc h a r a c t e r i z a t i o no fc h i n e s el a n g u a g e ,a c o u s t i cu n i ts e l e c t i o n ,t r a i n i n g a r i d w h o l e 。w o r da c o u s t i cm o d e lc o m b i n a t i o nw e r ed i s c u s s e d 。t h e p e r f o r m a n c e a n d p r o b l e m so f t h es y s t e mw e r ea l s od i s c u s s e d i na d d i t i o n ,s p e e c hr e c o g n i t i o nb a s e dt e l e p h o n es w i t c h i n gs y s t e mw a sd e v i s e d b a s e do nt h ef u l f i l l e di s o l a t e ds p e e c hr e c o g n i t i o ns y s t e m t h es y s t e mh a r d w a r ea n d s o f t w a r ed e s i g n ,a c q u i s i t i o no fm l e p h o n es p e e c hd a t aa n dt e l e p h o n es p e e c hc o r p u s w e r ed i s c u s s e d 。t h e s p e e c hc o r p u si n c l u d e sc h i n e s en a m es p e e c hd a t a b a s ea n d t e l e p h o n ei n q u i r ys p e e c hd a t a b a s e k e y w o r d s :s p e e c hr e c o g n i t i o n ,h i d d e nm a r k o vm o d e l ( 糍嫂锤) ,a c o u s t i cm o d e l , m i n i m u m - c l a s s i f i c a t i o ne r r o r 独创性( 或创新性) 声明 本人声明所是交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。爆我所知,除了文中特别加瑗标注和致谢中所罗列的内容阻辩,论文中不 包含其他人已经发表或撰写过的研究成果,也不包禽为获得北京邮电大学或萁他 教育撬稳的学鬣或 歪书瑟使用遗的孝考瓣。与我蔺工律静嗣恚蔚率磊拜究薪骰靛任 何贡献均已在论文中作了明确的说明并表示了谢意。 串请学篷论文与资羚 菪有不实之廷,率a 零撵一切穗关责任。 本人签名_ 致撬熊一 目期:2 苎垒杰担 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保暖和使用学位论文的规定。即: 砑究生程校玫读学蕴麓瓣论文王佟的翔谈产权蕈鬣震袭京瓣逛大学。学按鸯投保 留并向潮家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查闰和借 阉:学姣可以公奄学位论文豹全部或部分蠹容,可娃竞许袋曩影印、绩印或其它 复制手段保存、汇编学位论文。( 保密的攀位论文在解密后遵守此规定) 保密论文注释:本学位论文鼹于保密在一年缎整后适用本授权书。非保密论 文注释:本学位论文不瘸予保密范围。 本人签名:邋 导掰签名:二主革_ i 孓一 适用本授板书。 日期:皇鳓墨尘 日期:2 竺! 竺! ! ! , 燕王堡童塑型塑鱼透壅塑墨堡史羞璧垫鉴塑竺塞 一 一。 1 。1 语音识别概述 第一章绪论 语音识别是指利用电子汁算机等设备对语音信号进辨识,以获取谬音信号的 含义。语音识别涉及模式识别、数字信号处理、信息与通信理论、入工智能、形 式语言和自动机、语音学、语言学、生理学、心理学莓,是门综合性的学科。 语音识别的研究目标是让机器“听德”人类的语言【1o 听懂具有两种含义:策 种是将口述语言逐字逐句地转化成为相应的书面文字;第二种是对口述语言中 所包含的要求或者询问做出正确的响应,而并不拇泥予所有词正确地转换为书藤 文字。语啬识别和语音合成相结舍,即构成个“人机通偿系统”。信息产业 技术的迅猛发展促进了语音识酃技术的研究c 2 】【3 】。语音识别技术有着广泛的斑 用前景; 语音听写梳:可以用口述代替键鑫,实现文字输入并屋打印输出,这最 人们长久以来的个迫切愿望。这对于办公自动化将带来革命性的变化 ( 用机器秘书代替人类秘书) 。由于汉语计算枫输入的特殊性,汉语语音 昕写机的璧要性尤冀突出。一方面,它使人机接口更加友好和自然;但 更重要的是,它可懿促进计算祝应用在中国的普及。 强通信工稷中的应用:世界备大通信公司如美国a t & t 公司,日本n t t 公司都一直长期致力予语音识别的研究,因为它在通信的各个领域都有 蛰广泛的成用。例如手机语音拨号、股市查询、信魍卡认证等问题。柱 通信方面。一碛更加雄心勃的诗划是实现两种语言之闻的直接交滚,即 通过“语酱识别一机器翻译语音合成”技术将一种语言直接转换成为 另外一种语言。目前有一些欧美及e 本簿研究组织正在开发这个领域的 产品。 数据痒检索:政府部门、银行、金融极构、军事指挥所帮工业管理部门 无不需要对庞大的数据库避行频繁的检索和焱询,其中很多是通过电话 来进行的。通过鑫然语言壹接检索数据库可以免涂大量搡终人员靛重复 第一章鳍论 劳动,毵经济又浚速。 语音命令控制;在很多场合下,由于手脚已被占用进行其它动作或照明 不是无法避行搡佟靖,必矮霜诿蠢发凄擐令,秘热蹇;装灵袭离速 亍鼗懿 汽车中拨打电话。另一方面,随着第三代移动通信技术的发展,个人智 麓终臻体积越来越小,逶避按键逐行控豢l 越来越不方霞,溪考鑫令按裁 是十分理想、便利的人机接口方式。 魏舞语音识别显然还会绘失骥者带来缓大熬方整。透a 卡年来潺音谖裂瓣磅 究开发工作逐渐歼展,并取得初步成果【4 】。尤其照近一二十年,各国都进行了 大量疆究,劳萎筵嚣、基本、敢溯屠领受越位。国内骚究穗怼起步鞍浚,毽是瞧 取得不少成果。 1 2 研究历史与现状 关于语音识别的第一篇论文燕1 9 5 2 年美国贝尔实验室d a v i s 等人利用共振 峰特征识别孤立数字的研究论文。随后,1 9 5 6 年夔国的r c a 实验痰的o l s o n 等 人进行了单音节识别系统的研究。在非特定人语音识别方面的尝试,是1 9 5 9 年 美国m i tl i n c o l n 实验室的r o r g i e 和f o 塔i e 研制的元音识别装要。网时,在英国 的u n n e r s 时c o l l e g e i ne n g l a n d ,f r y 等入建立了一个英语胬索识剐糕。在他们的 研究中,、第一次使用了统计语法信息来辅助语音识别f 5 】。 到六、七十年代,语音识别作为一个蘧要晦研究课题而展开,弗且逐步取得 了实质性的进展,一系列的里程碑式的基础性突破为今后谣膏识别的发展奠定了 基础。程语音学方面,瑞典人f a n t 发表了著名的博士论文语音产生的声学理 论;人们还对人耳的听觉生理和心理方蕊进行了研究,提出了临界频带理论。 在信号簸理方蔼,线性预涌编码( l i n e a r p r e d i c t i o nc o d i n g ,l p c ) 技术在7 0 年代被 目本学赣i t a k u m 成功地皮用于语音识另u 6 i ,成为途今为止最为有效的语音特征 参数之一;前苏联科学家v i n t s y u k 在6 0 拳代将动森规划f d y n a m i cp r o g r a m m i n g , d e ) 应用于模式识别,成为语音识别方法的重要基础:而日零学者s a k o e 和c h i b a 捷出了动态时间伸缩( d y n a m i c t i m ew a r p i n g ,d t w ) 算法。成为第一种通用的语音 识别算法,在特定人语音识别中获得了广泛的应用。 翠勰的语裔识嗣系统都是按黼简单的模板嚣辩原理二作的特定入、小调汇 表,孤立词识别系统。d t w 算法克服了说话人逮魔不均匀造成的时间伸缩变化 的影响,往系统瓣性髓有了显著瓣提高。穗是对予楚高要求豹语音谈剐系统这种 基于语音识别的电话交换系统中关键技术的研究 简单的机制则有些力不胜任,例如词汇表的扩大,孤立词语音识别转向连续语音 识别无法像孤立词识别那样以词作为基本识别单元。如果采用音节或者音素作为 识别单元,则存在下述矛盾:即一方面为了减小识别时的搜索范围,希望所选的 识别单元的数量尽可能少,另一方面,希望所选的识别单元在不同的上下文中变 化越小越好,而识别单元数量的减小,会使这一要求难以实现。另外一个困难是 连续发音时的各个音素以及音节之间的边界不能像孤立词那样可以明确划定。此 外,发音人不特定的语音识别( 非特定人语音识别) 还存在更大的困难。这是由于 不同人说同一个音素或音节时,声学特征有很大的差异。这使得语音识别,特别 是非特定人、大词汇表、连续语音识别成为一项非常困难的研究课题。 八十年代以后,逐渐使用以隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 为代表的基于统计模型的方法 7 】来代替以前的模板匹配的方法。以前只在i b m 、 c m u 等少数研究机构使用h m m 方法,到八十年代中后期开始在语音识别领域 中广泛使用。美国的t 0 0 0 单词规摸的d a r p a 研究项目在很大程度上推动了语 音识别的研究。以此为契机,s r i 、m i t 、c m u 、b b n 等展开激烈竞争,并且取 得许多非常重要的研究成果。在美国,八十年代末期由c m u 推出的s p h l n x 系 统 8 ,率先突破了语音识别中非特定人、连续语音、大词汇量三大难题,被世 界公认为语音识别技术发展中的一个里程碑。八十年代中后期,人工神经网络也 成为了新兴的语音识别方法【9 】。 九十年代以来,随着语音识别各方面问题的逐个解决,语音识别中最困难的 非特定人、大词汇量、连续语音识别已经达到了较高的性能。各研究机构推出的 识别系统包括:i b m 公司的v i a v o i c e 系统,m i c m s o t t 的w h i s p e r 系统等。还有 剑桥大学开发h m 工具包h t k i o ,它已经成为研究人员研究语音识别的重要 工具。 汉语语音识别起步虽晚,但发展很快。目前,国内从事语音识别研究的单 位超过了几十个:如清华大学、中科院自动化所、声学所、哈尔滨工业大学、北 京邮电大学等。它们结合汉语语音学和语言学的特点,在基础理论、模型和实用 系统等方面作了大量的工作,并取得了较好的成果。台湾在汉语语音识别方面的 研究也具有较高水平,其中以l i n s h a hl e e 教授主持的研究小组最为出色,它们 研制成功了一个实时汉语语音听写机- - g o l d e nm a n d a r i n 。在我国的“八五”计划 和“8 6 m 计划中,汉语语音识别的研究得到了大力支持,强有力地推动了汉语 语音识别研究的发展。特别值得一提的是i b m 公司开发的v i a v 0 i c e 汉语语音识别 兰二兰笪堕一 软件,它代表了汉语语音识别较高水平。系统具有如下优点:i 、非特定人、大 词汇量、连续语音识别系统,每分钟可以输j k l 5 0 - 字以i 。2 、高识别率,最高识 别率达9 5 ,平均识别率达8 5 。3 、强大的词组学 - 3 功能,系统自定词组3 2 0 0 0 个,根据用户需要可添自1 1 2 8 0 0 0 个词组或短语。4 、强大的用户1 2 1 音学习功能,只 需让用户训练5 0 句话,就能完全适应带口音的用户。5 、自适应功能,只要把识 别错误修改过来,便可以自动学习,不断适应用户的口音和词语。 1 3 语音识别的发展前景 尽管语音识别的研究工作取得了一定的进展,但是目前的技术水平比起人 类的听觉识别能力还是相距甚远【l i 。另外大多数的系统都只适合于识别“干净” 的语音,当他们应用于噪声环境中,性能大大降低。大量实验表明,大多数现有 的非特定人语音识别系统,如果使用不同于训练时所使用的麦克风和不同于训练 时所处的外部环境时,即便在安静地办公室内测试,性能都会严重下降。而对于 电话语音信号,汽车、工厂内、室外环境或战场上的语音信号来说,现有的语音 识别系统的性能更差 1 2 】。产生上述现象的主要原因在于语音信号在受到各种实 际影响后而表现出的多变性,包括音素可变性,声学可变性,说话人本身的可变 性,说话人之间的可变性等等。因此还需要在以下几个方面进行深入研究: 1 自然口语语音识别 以i b m 的v i a v o i c e 为代表的“朗读”式语音识别技术已经取得了令人满意的 效果。但是在实际的使用环境中,更多、更自然的人机交互方式是“自然口语” 语音例如:各种信息查询服务系统、自动翻译系统。“自然口语”语音有如下 特点:( 1 ) 语法规则灵活多变( f l e x i b i | 崎) ;( 2 ) 其中包含大量非语音现象,如:语 音插入、犹豫、咳嗽、咂嘴等;( 3 ) 同一语音受背景声学环境、上下文语境( c o n t e x t ) 、说话人c i 音等因素的影响而产生“发音变形”( p r o n u n c i a t i o nv a r i a b i l i t y l 。 因此,口语语音识别的关键技术在于:( 1 ) 为非语音现象和发音变形建立相应的 声学模型:( 2 ) 建立描述口语内在随机性的语法网络或统计语言模型。 2 使用更好的方法去除电话和周围环境噪音等影响 在实际应用中,语音识别系统往往是在比较复杂的声学环境下使用,即存在 各种背景噪声和由说话人、语音通道、说话方式等导致的语音变形,此时其性能 显著下降,因此提高系统的鲁棒性是语音识别实用化的关键技术。目前常用的技 术有:采用具有抗噪特性的特征、麦克风阵列、语音增强和针对噪声的模型补偿 基于语音识别的电话交换系统中关键技术的研究 或自适应簿。虽然这些方法鄱取得了明显的效果,侵还有逶一步捷离瓣余建,黼 此还需要寻找更好的方法去除环境噤声等的影响。 3 支持多种语言静语音谖粥技术 目前的语音识别技术谯语音模型和语裔模型等方面都是非常依赖具体语育 戆。随着髓来越多的语音谈剐应用投放劐市场上,开发支持多种语富( m u l t i l i n g u i s t i c ) 的语音识别技术也显得非常重要,因为每当开发一种新的应用服务都需爱 对若干羊牵语言进行大量靛修改将是十分暴赍露耗簿熬。 4 有关人性因素( h u m a nf a c t o r s ) 的研究 在语密谡鬟产鼯孛还残当考虑一些人攘闲素,镶强友好豹器蔷设计、荔餍憋、 智能的提示响应以及错误恢复等,台理的加入人性因索可以提高语音识别系统的 度婷经饔袋活性,缩小实验室应眉秘实际瘦潮之阍静醺髓差躐。 5 实用化的研究 语音谈掰研究豹蠢静就楚瑟蘑爨鬻纯鹚。大词挺麓语音识翔系统蘸髓主要是 蒸于p c 机浆统的,如i b m 的v i a v o i c e 系统。以后如何将其在低成本计簿机系统, 魏掌上电靛等,或膣掇系绞上实瑗蹙曩、应掰研究懿爨点。夺词汇置谬音识嗣帮 悬在脱机系统,如数字信号处理芯片( d i g i t a ls i g n a lp r o c e s s o r , d s p ) 上实现的。 隧藿d s p 瀚牲能静飞速提赢,语耆谈臻系统麓谖剩率、速度黻及任务静复杂程帮 会有显著的提高:另外,由于通用d s p 的成本较高,语音识别专用芯片的研制将 爨洚低语音识囊豢绫蔽本、普及诿嚣滚舅l 瘦爝范圈静重要途径。 1 4 课题豹主要内褰翻慧义 技术必颁与应用紧密结合。现我语音识别已经在诲多领域里嚣开始应用,像 语音听写机、声控拨号、银行或证券的查询镣等。这是因为,方面谬音识剐技 术在某些穆用方蕊已经达到了实用喜 :豹程度;另外一方嚣,用户的需求也越来说 遗切。 虽然滔誊识别技术习裁还没有完全成熟,但是从璐究与应用的关繁来看,发 展中的技术也可 三l 在很多情况下有燕相应的使用价值。例如,特定人、孤立词语 啬识别技术可以用来实现电话声控拨号的功娆,省去了用户记大量电落号码的受 拯,还可以在骑车薄不方便厢手拨崎的情况下使用。选样更安全、方便。另外鼍坪 究和应用之间还有栩互促进的作用。一方面,新的研究成果可以;l 入到精的应用 中去,改善人类生活方式:粥一方面,应用中的不足叉会产生新的研究方向和热 第一章绪沧 点,使褥磅究霉鸯瑟深入,技寒更麓疲熬。 本谋题从上述研究和应用的必系出发,建立了个非特定人、孤立词、中小 谶汇量懿孤立词人名语誊识刹系绫。簌应溺嚣燕庭器,该系统霹戳疲麓囊移溯毫 话上实现声控拨号的功能,也可以应用到掌上电脑簿手持终端设备上实现电话号 强壹谗鬣浯音控铡等功熊。当蘸手穗终媸戆发震趋势是髂获越来越夸,撰撂要求 更加简便,而利用语音谶行控制藕输入则是十分理想的提赢人机接蝴的方式,也 楚实褒入撬交互熬一个途径。箕疯蘑蔻遴一卜分广溺。另癸,获磅究强度着,语音 识别技米涉及多学科,包括数字信号处理、模式识别、通糖与信息理论、声学语 音学、落言学、爱理学等等,纛藏技求实袋十分复袈,选撵入袭语卷鼍跫裂系绕终 为开展谮音识别研究比较合理。嘲为该系统结构完整、功能单纯,感一个典型的 语音识躞系凌。宅覆盖了港啬识爨技术兹主要痰枣,骞裁予掌握基稿理论露慕本 方法。为深入研究奠定了坚实的藻础。 1 5 主要研究成果 奉课题主要完成了以下几方面工作: 1 建立了一个人名语音数据瘁及其相应的发音储息库和个电话转接语啻数 据库。 人名语音数据库不但包括人名语音文件,丽且避包括与泶音环境鞠录音者相 关的信意,如:泶音环境、姓名、性别、年龄、方言等。这些信息裔乖j 于数据库 的分类、整理和遣找。尉前,数搬库中已经存放了4 1 个人( 其中女性1 3 人) 的采 样数据,每人在安静的蜜验室环境下采集多级。 2 建藏了基于c h m m 的非特定人的人名语音识别系统 该系统词汇麓为1 0 0 个入名,首先经察验确定了系统的h m m 的状态数稻高 斯混合模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 混合度大小。然后,通过对特征进行 酌缅仡娥理提高识剐率,在h m m 状态数淑l o 。黼斯混合魔5 的条件下,系统 平均识别率可以达到9 6 以上。在此基础上,又对“次最优距离”的拒识方法做 了研究。通过使髑基于最,j 、分类错 溪( m i n i m u mc l a s s i f i c a t i o ne r r o r , m c e ) 准则的 判别训练方法来训练声学模型,便系统识别率提商到9 7 2 。同时,还对h m m 转移矩阵精谖掰攀韵影响进行了蜜验分析,发现固定的转移概率矩阵凡乎不损失 识别性能。 3 建交基于声酚簿模黧的菲特定内容、稚特定入挎营音後剩系统 茎三量童望型丝皇堡銮堡墨竺! 苤壁垫垄塑型茎 系统词汇量是1 0 0 个人名,以汉语声韵母作为声学基本单元,采用模型拼接的方 法构成整词人名作为识别单元。主要研究了声学模型的训练和整词模型的拼接, 同时探讨了一些系统实现和性能方面的问题。 1 6 论文结构和内容 第一章概述语音识别技术,回顾语音识别研究的历史、现状和发展前景,概 括介绍本课题的研究内容和结果。 第二章概述了语音识别的基本原理,包括基于模式识别和统计理论的语音识 别系统模型,语音特征提取的方法。 第三章提出有一个基于语音识别的电话自动总机系统地方案。讨论语音识别 中语音数据库的意义,介绍建立的人名语音数据库和电话转接语音数据库的结构 和内容。 , 第四章介绍隐含马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 的基本理论及 其在语音识别中的声学层建模的方法。分析和研究基于c h m m 的非特定人的人 名语音识别系统的结构和性能以及提高识别率的措施。 第五章介绍基于声韵母模型的非特定内容、非特定人的孤立词语音识别中声 学建模和模型拼接方法,讨论系统实现中的具体技术问题,。 第六章对本文进行总结与展望 第二章语音识别基本原理 第二章语音识别基本原理 语音识别是人机交互的一项重要内容,也是语音信号处理中非常重要的应用 技术。它是一门涉及面很广的交叉学科,与计算机、数字信号处理、通信与信息 理论、语音语言学、神经生理学等学科都有密切的关系。 研究语音识别主要有三种方法:声学语音学方法、人工智能方法、模式识别 方法。经过大量研究和实践,基于模式识别的方法占据了主流,其性能也最好 1 3 】。就像大多数模式识别系统一样,基于模式识别的语音识别系统有两个步骤 一语音模式的训练和通过模式匹配来识别。“训练”阶段的任务是建立识别基本 单元的声学模型以及进行文法分析的语言模型等。识别”阶段选择能够满足要 求的一种识别方法,采用语音分折方法提取出这种识别方法所要求的语音特征参 数,按照一定的准则和游度与系统模型进行比较,通过判决逻辑得出识别结果。 基于模式识别的方法有一个很大的优点:语音所携带的“信息”通过训练阶 段丽储存在系统之中了,它几乎是“盲”的。因为我们不需要语音学家来标定哪 一段语音是什么,起始边界在哪里,发音特征是什么样的。而完全是由系统通过 大量的实际语音数据训练丽“学习”获得的。 2 1 基于模式识别的语音识别系统模型 如图2 - 1 所示一个典型的基于模式识别的语音识别系统。它主要包含了四个 部分【13 : f i g u r e2 - 1 b l o c kd i a g r a mo f p a t t e r nr e c o g n i t i o no r i e n t e d s p e e c hr e c o s n i z c rf 1 3 】 1 特征提取:从输入数字语音信号经过各种变换等到一个语音特征时间序列( 语 基于语音识剐的电话交换系统中关键技术的研究 音特征禳式,。莆先,褥语音信号分成短静辩阗段,称之势“赖”。然后对每 帧语音信号提取特征,从而形成语音特征序列。一般特征掇取都是用一些频 谱分橱方法,铡鲡滤渡嚣缰方法,线性谈瓣分拆等簿。主簧使用的特征是线 性预测倒谱系数( l p c c ) ,镁尔频率倒谱系数( m f c c ) 等。 2 攘式谢练:用霹应于丽一类语音鹃特征模式去生成该类静个代表特征禳 式。这个代表特征模式邋常由某种平均方法而得到,称之为摸板,铡如基于 d t w 簿法静恹魏系统串瓣参考穰薇;或者它电可淤是一个搂壅,箍述了这 个代表特征模式的某些统计特性,例如基于h m m 的识别系统中的统计声学 搂墼。 3 模式匹配:未知的特征模式逐一的与储存的模板或者模型进行比较并且生成 涎翥之澜懿一个籀似f 或嚣离) 潮菠。要琵较两个语鬻特征耩式,一般薷要嚣 个步骤。一个是计算局部( 短时) 躐离,用米度量两帧语音特征矢量之间的相 戳度;舅巾是全局躲辩漓调整鞠较方法,角它来静偿鼹个语音特髹穰式之 间的不阍说话速率。早期使用的较多的是幼态时间弯i 尚( d t w ) 算法,目前主 要经蘧瓣是h m m 释方法。 4 判决逻辑:利用模式匹配的相似测度结果来判决哪个代表特征模式与未知的 姆短模式最匹配,簸焉绘舞谖澍臻采。在兹箍识静情况下,逡较篱攀方法懿 就是将来知特征模式划为具有最小距离测度的那类;在商拒识的情况下, 遁鬻是萼棼最小蘸题骞蘸凌鸯一个 l 瑟遴符跑较;藏嚣褰 淳繇有豹距离测度, 从最小的两个距离测度的差来判决是据识述是判决。 2 2 基于统计理论的话音谈男模型 早期的语音识别系统都怒按照简单的模板匹配原礁工作的小词汇表,孤立 词识别系统。d t w 算法克服了说话人速度不均匀造成酌对闯撺缭变纯的影响, 使系统的性熊有了显著的提高。僵是对于更高鬻求的语膏识别系统这种简单的机 制则有些力不胜任。从8 0 年代以来,逐渐使用以毖马尔葛夫模型( h m 为代表 的基于统计瓒论来建模声学屡附方法州【1 4 】来代替以前的模板聪配的方法。以前 只在i b m 、c m u 等少数研究机构使用h m m 方法,到年代巾居期由b e l l 实 验室s e l e v i n s o n ,b h j u a n g , l r r a b i n e r 等人发表的文章对h m m 进行深入浅 出的介绍,才逐渐使h m m 为世界各国从事语赘处理的磅究人员赝了解鞠熟悉, 避丽成为一个研究热点同时开始广泛使用。随后成为了研究语街识别的主流方 釜三煮重量臻型至奎蓬鍪 一。一 法。冀赛,这两瓣方法酃可鑫落怒建立奁炎哮新粼凌理论( b a y e s d e c i s i o nt h e o 蟹, ) 基础上的。b h j u a n g 证明了:基于模税匹配的渤态时闻弯曲( d t w ) 方法和基 子稳蛮骂拳孬夫搂型( h 黼鸯熬方法茬一是条释下跫萼嚣魏,糍鑫在连续飘灏空 间中,隐含马尔可夫模烈的状态时间序列猩一定条件下就是动态时间弯曲中的参 考蒺投f 鼙。 蒸于统计理论的谱街识别方法是把谮酱看作具有一患随机性的信源t 果髑统 计方法寒模式驻酝移割捷。语裔戆产生、传输帮惑籀罄是蒸予穰息鸯逶信溅论戆 观点来猎待的【1 6 。如图2 - 2 所泳。 黼神嘲秘懒艇硪蝴婶酗轰巍磷 匝互p 侄垂p 韪爱y ( 垂) 野黜* f i g u r e2 - 2 c o m m u n i c a t i o nt h e o r e t i c a lv i e wo f s p e hr e c o g n i t i o n1 1 6 】 漓惠源产生个澄意m ,透过语法俺道( 1 i n g u i s t i cc h a n n e l ) 形成涌w ;群经过 发声债道( a r t i c u l a t o r yc h a n n e l ) ,即人体发声器宫,把词变成语音信号s ,谯这个 进程审不弱说话a 翡蜀齑。语速等影嫡着诺音信号s i 熊詹经过声学佰道( a c o u s t i c c h a n n e l ) ,语音信号又收剿说话环境,传黪器等影响变成a ;最后经过传输信道 ( t r a n s m i s s i o nc h a n n e l ) 变成了语啻谖掰系统静输入篱号x 。 对于语音识别来讲。目标就是识别出x 中包禽的词w 。这可以归结为个 决策阚鼷,露蓁于x 携带靛僖惠秘识掰任务静糨美稚谖,俸出一个8 最德”兹 推断,给出嵌入在x 中的词w 。这神“最忧”是罄予某种准则而是的,例如贝 时薪最陵、错误穰率等。凳蕊诧讨论起冤( 孤立潺识掰的穗b x ) ,每个哥麓的谲w 被认为是一个类。我们假设共有麒的不间的类。鞫此,这时语啻识别就是根据 菜静最优握剜,毙输入德号x 谖剃成掰个哥麓串酶莱一熬。鲡圈2 2 囊示,语 音信号x 具有不确定性、可变燃、随机挫等,缀自然的这凝使统计模式识别成 涛了解浃语音识掰敢方法之一。 如皋统计联合分布p ( w ,科以准确的计算,那么由霸叶斯判决准则: 基于晤音识别的电话交换系统中关键技术的研究 w = a r g a x p ( w ,x ) ( 2 - t ) 其中矿就是识别出来的词。这个准则在贝叶斯风险最小的意义下是最优的。如 图2 2 所示,由于各个信道的复杂性和大量的不确定性,我们没有足够的知识和 方法来准确描述x 和w 的联合分布。而实际的语音识别中,我们也很难去描述 图2 2 中的各个信道。因此,一般采用如图2 3 所示的简化源信道模型( s o u r c e c h a n n e lm o d e l ) 来描述语音识别问题 1 6 1 4 。 w o r d s in o i s y1 s p e e c h c h a n n 。e l 卜磊 s p e e c “lc h a n n e i l w o r d s 吾d e c o d i n g 广“ f i g u r e2 - 3 s o u s e c h a n n e lm o d e lo f s p e e c hg e n e r a t i o n r e c o g n i t i o n 1 6 】 1 联合分布p ( w ,x ) 分解成两部分:p ( x l 缈) 和p ( ) ,分别称为声学模型和语 言模型。声学模型描述了词w 产生的情况下信号x 的似然度:语言模型描 述了词w 出现的概率特性。 2 概率分布p ( x l ) 和p ( ) 被假设成某种已知的参数化概率分布函数 p ( z l ) 和片( 矿) 。 3 上述概率分布函数中的参数集a 和1 1 由统计学中的点估计方法从实际训i 练 数据中估计得到。 这样,所有图2 - 2 的中间信道,例如发声、声学、传输信道,都被综合成图2 - 3 所示的有噪声的信道。这时语音识别就变成了一个有噪声信道解码的问题。其中 信道建模变成了一个重要问题,包括声学建模和语言建模。有了这个简化,语音 识别中最常用的判决准则就是嵌入最大后验判决准则( p l u g i nm a x i m u m a p o s t e r i o r i ( m a p ) d e c i s i o nr u l e ) , w 。a r g m a x p ( w i x 、= a g a x p x ( x l w ) p r ( w ) 其中天和f 是通过训练而估计出来的参数集,矿就是识别出来的词。这个判决准 则是由贝叶斯判决准则( 2 1 ) 推导而得的,广泛的应用于各类模式识别中【1 7 】。要 想在语音识别中实现嵌入最大后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论