(通信与信息系统专业论文)车载多媒体语音识别系统设计.pdf_第1页
(通信与信息系统专业论文)车载多媒体语音识别系统设计.pdf_第2页
(通信与信息系统专业论文)车载多媒体语音识别系统设计.pdf_第3页
(通信与信息系统专业论文)车载多媒体语音识别系统设计.pdf_第4页
(通信与信息系统专业论文)车载多媒体语音识别系统设计.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

捅要 语音识别( s p e e c hr e c o g n i t i o n ) 是让机器能够辨认并且理解人们所说的自 然语言。它涉及到信号处理、统计模式识别、人工智能、计算机科学、语言学 和认知学等众多学科。随着计算机软硬件技术、半导体技术、电子技术、通讯 技术和网络技术等的飞速发展,人类已经进入后p c 时代。这个时代一个典型 的特征就是:各种新型智能化的设备日益广泛地走进人们的工作和生活。目前 人们对汽车的依赖越来越强,并且希望在汽车带有娱乐功能,这样就促进了车 载多媒体的发展。 在车载环境中,智能化车载多媒体设备的操作方式需要很好的便利性和安 全性,而语音识别这种自然快捷的交互方式成为首选。实用化研究是语音识别 的一个新兴研究方向,将语音识别技术应用于车载多媒体系统将极大促进车载 设备的普及与应用。 本文主要研究在车载多媒体平台中构建语音识别与控制系统,并通过采用 改进的语音识别算法来提高语音识别准确率和实时性,从而为驾驶员提供更好 的人机操作交互方式。首先本文介绍了语音识别技术的发展背景及研究状况, 总结出目前语音识别领域存在的问题,并分析了嵌入式语音识别技术的研究意 义和发展前景;然后研究了语音识别技术的基本原理,并分析得出嵌入式语音 识别技术的特点,选择了适合本系统的识别算法,系统采用d t w 动态时间规 整作为识别模式的匹配方法,提取具有抗干扰性强的m f c c 特征参数;随后本 文研究和设计了车载多媒体语音识别系统平台,选用了w i n d o w sc e 作为平台 的操作系统;本文将语音识别原理和实际系统相结合改进了语音识别算法,并 设计了一套基于a r m 9 平台的车载多媒体声控系统。最后在总结全文工作的基 础上,本文对课题目前存在的问题进行了分析,并为进一步研究指明了方向。 关键词:语音识别,车载多媒体,特征参数,嵌入式,模型训练 a b s t r a c t s p e e c hr e c o g n i t i o ni st oa l l o wm a c h i n e st oi d e n t i f ya n du n d e r s t a n dt h en a t u r a l l a n g u a g eo fh u m a n b e i n g i t sa l li n t e r d i s c i p l i n a r ys c i e n c e ,a n di n v o l v e ss i g n a l p r o c e s s i n g ,s t a t i s t i c a lp a t t e r nr e c o g n i t i o n ,a r t i f i c i a li n t e l l i g e n c e ,c o m p u t e rs c i e n c e , l i n g u i s t i c s ,c o g n i t i v es c i e n c ea n ds oo n w i t ht h er a p i d l yd e v e l o p m e n to fs o f t w a r e a n dh a r d w a r e ,s e m i c o n d u c t o rt e c h n o l o g y , e l e c t r o n i ct e c h n o l o g y , c o m m u n i c a t i o n t e c h n o l o g ya n dn e t w o r kt e c h n o l o g y , h u m a nb e i n g sh a v ee n t e r e dt h ep o s t - p ca g e o n eo ft h et y p i c a lc h a r a c t e r i s t i c si nt h i sa g ei st h a ta l lk i n d so fn e wi n t e l l i g e n t e q u i p m e n t sh a v ec o m ei n t op e o p l e sl i f ea n dw o r kw i d e l yd a yb yd a y r e c e n t l y , v e h i c l eh a sb e c o m em o r ea n dm o r ep o p u l a r , a n dp e o p l ea l s ow a n te n t e r t a i n i n g f u n c t i o ni nt h ev e h i c l e ,t h i sr e q u i r e m e n tt h ed e v e l o p m e n to fv e h i c u l a rm u l t i m e d i a i nv e h i c u l a re n v i r o n m e n t ,t h e o p e r a t i o n m o d eo f i n t e l l i g e n t v e h i c u l a r m u l t i m e d i ae q u i p m e n t ss h o u l db em o r ec o n v e n i e n ta n dm o r es e c u r i t y , a n ds p e e c h r e c o g n i t i o n ,an a t u r a la n dr a p i di n t e r a c t i v em o d e ,h a sb e c o m et h e f i r s tc h o i c e p r a c t i c a lr e s e a r c hi san e wr e s e a r c hd i r e c t i o ni ns p e e c hr e c o g n i t i o nf i e l d ,s o a p p l i c a t i o n so fs p e e c hr e c o g n i t i o nt e c h n o l o g yt ov e h i c u l a rm u l t i m e d i as y s t e mw i l l i m p r o v et h ea p p l i c a t i o n sa n dp o p u l a r i z a t i o no fv e h i c u l a re q u i p m e n t sg r e a t l y t h i sp a p e rm a i n l yr e s e a r c h e dh o wt oc o n s t r u c ts p e e c hr e c o g n i t i o na n dc o n t r o l s y s t e mo nv e h i c u l a rm u l t i m e d i ap l a t f o r m ,a n du s e di m p r o v e ds p e e c hr e c o g n i t i o n a l g o r i t h m st oi m p r o v et h ea c c u r a c yr a t ea n dr e a l t i m ep e r f o r m a n c eo ft h es p e e c h r e c o g n i t i o n ,s oa st op r o v i d eab e t t e rh u m a n c o m p u t e ri n t e r a c t i o nm o d e f i r s t l y , t h i s p a p e ri n t r o d u c e dt h ed e v e l o p m e n tb a c k g r o u n da n dt h er e s e a r c hs i t u a t i o no ft h e s p e e c hr e c o g n i t i o nt e c h n o l o g y , c o n c l u d e de x i s t i n gp r o b l e m si nt h ef i e l dp r e s e n t l y , a n da l s oa n a l y z e dt h er e s e a r c hs i g n i f i c a n c eo fe m b e d d e ds p e e c hr e c o g n i t i o n t e c h n o l o g y ;s e c o n d l y , r e s e a r c h e db a s i cp r i n c i p l e so fs p e e c hr e c o g n i t i o nt e c h n o l o g y , a n da n a l y z e dt h ec h a r a c t e r i s t i c so fe m b e d d e ds p e e c hr e c o g n i t i o nt e c h n o l o g y , a n d s u i t a b l er e c o g n i t i o na l g o r i t h m sh a v e b e e nc h o s e nt oa p p l yi nt h i ss y s t e m ,t h i ss y s t e m u s e dd y n a m i ct i m ew a r p i n gt ob et h em a t c h i n gm e t h o do fp a t t e r nr e c o g n i t i o n ,a n d e x t r a c t e dm f c cw h i c hh a v es t r o n gn o i s ei m m u n i t yt ob ec h a r a c t e r i s t i cp a r a m e t e r s ; t h i r d l y , t h i sp a p e r r e s e a r c h e da n dd e s i g n e dv e h i c u l a rm u l t i m e d i as p e e c hr e c o g n i t i o n i i s y s t e m ,a n dc h o s e dw i n d o w sc e t ob ee m b e d d e do p e r a t i n gf o rt h i sp l a t f o r m ;t h i s p a p e rc o m b i n e dt h et h e o r yo fs p e e c hr e c o g n i t i o nw i t hp r a c t i c a ls y s t e m ,i m p r o v e d s p e e c hr e c o g n i t i o na l g o r i t h m s ,a n dd e s i g n e da v e h i c u l a rm u l t i m e d i as o u n dc o n t r o l s y s t e mb a s e do na r m 9p l a t f o r m ;f i n a l l y , o nt h eb a s i s o fs u m m a r yo ft h i sp a p e r , t h e e x i s t i n gp r o b l e m so ft h i sd e s i g nh a v eb e e na n a l y z e d ,a n dt h e d i r e c t i o no ff u r t h e r r e s e a r c h e sh a sb e e np o i n t e do u t k e yw o r d s :s p e e c hr e c o g n i t i o n ,v e h i c u l a rm u l t i m e d i a , c h a r a c t e r i s t i c p a r a m e t e r s , e m b e d d e d ,m o d e lt r a i n i n g i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 签名:钰日 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保 留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 日期:型7 武汉理工大学硕士学位论文 第1 章绪论 1 1 课题研究的背景和意义 随着人们生活、工作节奏的加快,和对汽车越来越多的依赖,汽车已经成 为了众多人生活中的重要工具。人们希望在车内的时间产生更多的综合效益。 不但可以通过接受外界信息进行工作,而且还要有娱乐功能。这种生活、工作 两便的需求,促进了车载移动多媒体的诞生和发展。车载多媒体系统要将交通 导航信息( 道路信息、可用停车场地,周边设施,最佳路径选择) 、无线i n t e m e t 接入、以及娱乐信息( d v d n c d 、电视、收音机) 等服务有机结合,无疑嵌入 式计算机系统是当前设计车载多媒体系统的最佳选择,同时由于功能的繁多, 对于开车司机来说操作选择起来比较麻烦,因此司机与车载多媒体系统的交互 也成了一个新的问题1 1j 。 语音识别这个新兴但并不陌生的名词已经逐步走入我们的生活。随着手机, p d a 移动便携式设备,以及车载控制系统等的广泛普及,人们对这些设备体积 的要求也越来越高。对于这些主流的嵌入式设备会提供小尺寸的软键盘或者手 写触摸屏,但是这种简单的输入方式没有为用户与机器的交互提供足够的便利, 尤其是在车载系统中,用传统的人机交互方式势必会造成司机的诸多不便并会 增加潜在的驾驶危险因素。而且传统的输入方式也限制了便携式设备向小型化 微型化的进一步发展【2 】o 如果能将语音识别应用于车载多媒体系统,就能很好 的解决边开车边控制车载多媒体系统的运行,提高了开车的安全系数。 语音识别( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) 技术得到了长足的发展,语 音识别系统的实用化研究是最近研究的一个主要方向,很多技术已经运用到实 际系统。当前简单的语音识别技术已经应用到一些嵌入式系统中,例如手机中 的语音拨号、个人数字助理( p e r s o n a ld i g i t a la s s i s t ,p d a ) 中的声音控制等,但 将其应用于车载多媒体系统还是新兴研究方向。如果能将语音识别技术应用到 车载多媒体嵌入式系统中,将会促进车载设备的进一步普及应用。嵌入式系统 的运算能力和存储量远远不及p c 。因此在嵌入式系统上实现语音算法也区别于 在p c 上的语音识别算法。如何在嵌入式车载多媒体系统上实现实时语音识别 武汉理工大学硕士学位论文 功能,同时保证可实用的性能,是很有研究价值和意义的。 1 2 课题研究的历史和现状 广义的语音识别包括说话人的识别和内容的识别两部分。这里所说的语音 识别,是指内容识别方面。采用计算机进行语音识别到现在已经发展了5 0 年, 下面回顾语音识别的历史。 人们在1 9 世纪就已经发现,元音主要是靠第一共振峰和第二共振峰来区 别,声母的感知主要靠共振峰的弯曲方向和力度。但是,真正的语音识别却是 始于1 9 5 2 年,当时贝尔实验室d a v i s 等人通过提取语音的第一、第二共振峰作 为语音特征参数,采用专用硬件实现了一台1 0 个英文数字的语音识别系统 a u d r ys y s t e m 。 2 0 世纪5 0 年代末6 0 年代初,集成电路出现,语音信号终端系统从模拟方 式演变为全数字系统方式,语音数字信号处理从此开始。最早从事此项重要技 术变革的实验室有贝尔电话实验室、麻省理工学院林肯实验室、m mt h o m a s w a t s o n 研究实验室、b b n 语音研究小组和得克萨斯仪器公司,以及一些著名的 大学研究小组。1 9 5 9 年,美国林肯实验室的j w r o g i e 和c d f o r g i e 首次用数 字计算机识别出了英语元音和以摩擦音开头的孤立字,标志着计算机语音识别 时代的开始。 2 0 世纪6 0 年代,快速傅立叶变换( f f t ) 技术被广泛地采用来进行频谱分 析,采用其逆变换,还可以反求源信号。在傅立叶分析的帮助下,人们开始研 究自然语音产生的内在机制和本质特征。瑞典的g f a n t 的博士论文语音产生 的声学理论就是这个时期的代表作,对以后的语音处理的研究工作产生了深 刻的影响。 2 0 世纪6 0 年代末7 0 年代初b a u m 等人首次系统地阐述了马尔可夫模型 ( h m m ,h i d d e nm a r k o vm o d e l ) ,并把它引入语音识别。目前,h m m 模型是 语音识别的最好算法,它也广泛应用于经济学上的预测问题。 与此同时,语 音识别的线性预测参数l p c 首次被提出来,采用线性预测进行研究的实践开始。 以后的低速率语音编码技术,很大程度上都是依靠线性预测进行来实现的。 同 时,动态时间弯曲d t w 技术出现,有效的解决了语音识别过程中,不等音长 的匹配问题。此时的许多系统,都是建立在l p c 参数和d t w 匹配技术基础上 2 武汉理工大学硕士学位论文 的孤立词识别系统。美国国防部高级计划研究局( a r p a r ) 的语音识别和理解 研究计划,产生了h a p p y ,h e a r s a y - i i 和d r a g o n 等典型的语音识别理解 系统,提出了具有深远意义的知识源黑板模型,扩充转移网络( a 1 :n ) 算法等。 2 0 世纪8 0 年代贝尔实验室r a b i n e r 等人对h m m 模型进行了深入浅出的介 绍,从此以后h m m 模型在语音识别领域里确立了不可替代的地位,成为目前 世界各国从事语音处理的最有效的方法。矢量量化法v q 也在此时开始应用到 语音识别中。1 9 8 7 年,i b m 公司采用v q h m m 方案实现了一个具有2 0 0 0 个孤 立字的特定人语音识别模型系统t a n g o r a - 2 0 0 0 。1 9 8 8 年c m u 同样采用 v q h m m 实现了一个具有9 7 7 个词,并且能构成4 2 0 0 个句子的非特定人连续 语音识别系统s p h i n x 。 2 0 世界9 0 年代,语音识别开始从实验室走向市场。c m u 、b b n 、i b m 和 a t & t 都推出自己的语音识别产品。m i c r o s o f t 、a p p l e 、t o s h i b a 、p h i l i p s 和i n t e l 不甘落后,也开始致力于语音识别系统开发。语音识别朝着大词汇量、非特定 人、自然连续语音方向发展。目前,m i c r o s o f to m c e x p 以上版本已经集成了语 音识别功能,可以采用语音输入法输入汉字。 国内语音识别研究开展得较晚,我国在这方面的工作最早是由中国科学院 声学研究所开始的。上世纪8 0 年代中期,许多大学和研究所也开始开展语音识 别的研究。1 9 9 7 年在国家8 6 3 计划组织的汉语连续语音识别系统评测中,以清 华大学电子工程系、计算机系和中科院自动化所的非特定人大词汇量连续语音 识别系统最为出色,其中清华电子系的系统音节正确率超过了7 0 ,自动化所 在口语对话方面也有非常不错的表演系统。 2 0 世界8 0 年代,针对汉语单音节的特点,清华大学、中国科学院、北方 交通大学、东南大学等开发了汉语特定人孤立字全音节语音识别系统。清华大 学王作英教授提出了d d b h m m 模型。1 9 8 6 年,国家8 6 3 项目语音方向设立, 俞铁城先生受命筹备此项研究计划。 目前,我国语音识别队伍主要有北大、清华、中科院等。其中中科院声学 所的人员大部分是原i n t e l 资深的工程师,因此在国内的语音识别领域一直遥遥 领先。贝尔实验室声学语音学实验室主任、国际著名语音识别大师、语音识别 领域必读著作( ( f u n d a m e n t a l so fs p e e c hr e c o g n i t i o n ) ) 的作者之一b i i n g h u a n g j u a n g ( 庄炳煌) 先生祖籍中国。因此我国的语音识别人员与英特尔、贝尔实验 室都有很密切的联系。国外一些大公司,例如诺基亚、摩托罗拉、松下电器等, 3 武汉理工大学硕士学位论文 也致力于语音识别领域的研究。社科院长期进行实验语音学方面的研究。 m m 、m i c r o s o f t 和i n t e l 等公司都在中国建立自己的研究机构。m m 公司推 出的v i a v o i c e 汉语语音识别体统上世纪9 0 年代末开始在市场上销售,是当前 最成功的商用连续语音识别系统之一,基本词库是6 万词,只需经过3 0 分钟的 训练,准确率即可达到9 5 以上,贝尔实验室在s u n s p a r c 工作站上实现了 9 0 0 0 0 词的汉语语音识别系统,苹果公司历时8 年,耗资2 5 0 0 万美元,在 m a c i n t o s h 机上完成中文语音输入系统,据称可识别及理解词多达3 5 0 0 0 0 条,输入速度达每分钟6 0 字,正确识别率达9 5 。 目前,国际和国内在实验室条件下的识别正确率均在9 0 以上。实验室条 件一般是采用高保真的s e n n h e i s e r 麦克风录制的语音信号,信道扭曲非常小, 几乎没有任何背景噪音。标准的数据库有t i m i t 数据库等。1 9 9 1 年2 月n i s t 的测试报告结果,如果不考虑语法约束,识别正确率为8 0 多;考虑语法约束 后,识别率提高到9 0 以上。这些都是非常喜人的成果p j 。 一个完整的语音识别系统可大致分为三部分: ( 1 ) 语音特征提取; ( 2 ) 声学模型与模式匹配( 识别算法) ; ( 3 ) 语义理解。 目前市场上的语音识别应用发展方向基本可分为: ( 1 ) 特定人非特定人:是按照声学模型建立的方式来划分。特定人识别的 声学模型是针对某一特定用户训练的。一般来说用户需要先训练系统,然后才 能识别该用户的发音。而非特定人识别的声学模型是针对某一种特定的语言来 训练的,发音人不需要训练既可使用。虽然在建立模型时需要大量的语料,对 用户来说却提供了更大方便,他们甚至不需要了解该过程; ( 2 ) 嵌入式服务器模式:嵌入式是将语言识别软件及模型,写在设备( 如 手机) 的存储器里,识别过程在终端完成。在服务器模式,终端只负责收集和 传导语音信号,由服务器负责完成识别。因此,对于大规模,多用户和有大量 识别需求的系统,服务器模式提供了有效的方式【4 】。 将语音识别功能运用在车载平台上,这种技术属于嵌入式语音识别技术。 嵌入式语音识别技术是指应用各种先进的微处理器在板级或是芯片级用软件或 硬件实现语音识别。语音识别技术的嵌入式实现要求算法在保证识别效果的前 提下尽可能优化,以适应嵌入式平台存储资源少、实时性要求高的特点。实验 4 武汉理工大学硕士学位论文 室中高性能的大词汇量连续语音识别系统代表当今语音识别技术的先进水平。 但由于嵌入式平台在资源和速度方面的限制,其嵌入式实现尚不成熟。主要问 题在于: ( 1 ) 硬件方面。嵌入式平台存储资源少,运算速度受限,使得一些语音识别 算法不能很好的在其上实现。不过随着科技的发展,嵌入式硬件水平不断提高, 这个问题应该会得以解决。 ( 2 ) 软件方面。为了适应嵌入式平台存储资源少、实时性要求高的特点,语 音识别的一些大计算量的算法需有所改进,同时应该提出更加高效稳健,更具 实时性的语音识别算法。为了适应车载控制系统等一些噪声较大的特殊领域, 算法还需具有一定的抗噪性能。 中小词汇量的命令词语音识别系统由于算法相对简单,对资源的需求较小, 且系统识别率和鲁棒性较高,能满足大多数应用的要求,因而成为嵌入式应用 的主要着眼点,同时也是车载系统中运用的较多的一种语音识别。虽然目前的 语音识别技术距离人们期望的性能还有相当的差距,但是在相当一部分场合已 经具备了实用的条件,并且能够给人们带来巨大的实用价值【5 1 。而车载多媒体 平台的语音识别技术和应用是人们认识到的语音识别技术最适宜的应用切入点 之,一。 1 3 主要研究内容和创新点 语音识别技术在嵌入式系统上的应用研究是最近研究的一个主要方向,很 多技术已经运用到实际系统。如果能将语音识别技术应用到嵌入式系统中,将 会促进便携式设备的进一步普及应用。 语音识别技术的嵌入式实现要求算法在保证识别效果的前提下尽可能优 化,以适应嵌入式平台存储资源少、实时性要求高的特点。实验室中高性能的 大词汇量连续语音识别系统代表当今语音识别技术的先进水平。但由于嵌入式 平台在资源和速度方面的限制,其嵌入式实现尚不成熟。而中小词汇量的命令 词语音识别系统由于算法相对简单,对资源的需求较小,且系统识别率和鲁棒 性较高,能满足大多数应用的要求,因而成为嵌入式应用的主要着眼点。 本文针对以上需求,进行了以下的主要研究内容: 5 武汉理工大学硕士学位论文 ( 1 ) 研究了语音识别的基本原理,考虑了嵌入式语音识别技术与p c 上的语 音识别技术的区别,并经过分析选择出适合嵌入式系统的语音识别算法; ( 2 ) 设计了车载多媒体语音识别系统的硬件平台和软件平台; ( 3 ) 设计了一套设计及实现了一种基于a r m 的车载多媒体声控系统,其中 语音识别算法提取的是当前流行的m f c c 特征参数,应用了d t w 算法进行模 式匹配,并对m f c c 的提取算法和d t w 匹配算法做了一些改进,硬件系统应 用了$ 3 c 2 4 4 0 ( a r m 9 ) 和语音解码芯片u d a l 3 4 1 t s ; ( 4 ) 分析试验结果并总结全文,提出今后的研究方向。 在本文的研究过程中,有如下创新: ( 1 ) 将语音识别技术应用于车载多媒体平台; ( 2 ) 在w i n d o w sc e 下运用改进的语音识别算法设计了车载多媒体声控系 统。 6 武汉理工大学硕士学位论文 第2 章语音识别系统方案选择和算法设计 语音识别技术的嵌入式实现要求算法在保证识别效果的前提下尽可能优 化,以适应嵌入式平台存储资源少、实时性要求高的特点。实验室中高性能的 大词汇量连续语音识别系统代表当今语音识别技术的先进水平。但由于嵌入式 平台在资源和速度方面的限制,其在嵌入式系统上实现尚不成熟。而中小词汇 量的命令词语音识别系统由于算法相对简单,对资源的需求较小,且系统识别 率和鲁棒性较高,能满足大多数应用的要求,因而成为嵌入式应用的主要着眼 点。本章首先阐述了语音识别的主要流程,分析了目前流行的识别方法,并从 中选择适合嵌入式语音识别的方案。 2 1 语音识别的基本流程 语音识别的基本过程根据实际中的应用不同,语音识别系统可以分为:特 定人与非特定人的识别、独立词与连续词的识别、小词汇量与大词汇量以及无 限词汇量的识别。但无论哪种语音识别系统,其基本原理和处理方法都大体类 似。 语音识别过程主要包括语音信号的预处理、特征提取、模式匹配几个部分。 预处理包括预滤波、采样和量化、加窗、端点检测、预加重等过程。 在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型, 保存为模板库。在识别阶段,语音信号经过相同的通道得到语音特征参数,生 成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。 同时,还可以在很多先验知识的帮助下,提高识别的准确率。图2 1 是语音识 别的基本流程图。 7 武汉理工大学硕士学位论文 l l _ 欧氏距离一_ 一咽t 墨应 反混叠失真,滤波器 预加重器 匪由 构词规则 同音字判决 图2 1 语音识别的基本流程图 其中,训练( t r a i n i n g ) 是指预先分析出语音特征参数,制作语音模板 ( t e m p l a t e ) 并存放在语音参数库中。识别( r e c o g n i t i o n ) 是指待识语音经过与 训练时相同的分析,得到语音参数,将它与库中的参考模板一比较,并采用 判决的方法找出最接近语音特征的模板,得出识别结果。失真测度( d i s t o r t i o n m e a s u r e s ) 表示在进行比较时要有个标准,这就是计量语音特征参数矢量之间 的“失真测度”。语音识别的主要识别框架:基于模式匹配的动态时间规整法 ( d t w :d y n a m i ct i m ew a r p i n g ) 和基于统计模型的隐马尔柯夫模型法 ( h m m :h i d d e nm a r k o vm o d e l ) 1 6 。 2 2 语音信号的预处理和端点检测 语音信号通过输入设备转化成电信号后,由a d 采样装置根据n y q u i s t 采 样定理,以不小于语音信号频谱带宽2 倍的采样频率进行采样。就语音信号而 言,浊音语音信号的频谱一般在4 k h z 以上便迅速下降,而清音语音信号的频 谱在4 k h z 以上频段反而呈上升趋势,甚至超过了8 k h z ,以后仍然没有明显下 降的趋势。因此,为了精确表示语音信号,一般认为必须保留1 0 k h z 以下的所 有频谱成分,这意味着采样频率应当等于或大于2 0 k h z 。但是在许多实际应用 中并不需要采用这么高的取样频率,实验表明对语音清晰度和可懂度有明显影 响的成分,最高频率约为5 7 k h z 7 1 。 8 武汉理工大学硕十学位论文 2 2 1 语音信号的预处理 预处理是指对语音信号的特殊处理:预加重或称高频提升,分帧处理。 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约再 8 0 0 h z 以上按6 d b 倍频程跌落,为此要在预处理中进行预加重。预加重的目的 是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分 析。预加重可在a d 变换前,在反混叠滤波之后进行,也可在a i d 变换之后进 行。用具有6 d b 倍频程的提升高频特性的预加重数字滤波器实现,它一般是一 阶的,即: h ( z ) = l 一胆一 ( 2 - 1 ) 式中t 值接近于1 ,典型值为0 9 4 。 由于语音信号是非平稳过程,是时变的,但是人的发音器官的肌肉运动速 度较慢,所以语音信号可以认为是局部平稳的,或短时平稳。因此,语音信号 分析常分段或分帧来处理,一般每秒的帧数约为3 3 - - - 1 0 0 ,视实际情况而定, 分帧既可用连续的,也可用交叠分段的方法,在语音信号分析中常用“短时分 析”表述。 短时分析实质上是用一个窗截取信号。数字信号处理理论告诉我们,两个 信号的时域相乘,在频域相卷积,如果采用矩形窗,则矩形窗频谱高频成分必 将影响语音信号的高频部分,一般用高频分量幅度较小的窗形,以避免这些影 响。如哈明窗的带宽是矩形窗的两倍,但带外衰减却比矩形窗大得多。根据处 理的要求,以不影响或少影响处理需要的语音特性为标准来选窗较为适宜瞄j 。 对语音信号的各段进行处理,实际上就是对各段进行某种变换或施以某种 运算。设该变换用符号t 口表示,它可以是线性的或非线性的,可以是时不变的 或者时变的,所以有各段经处理后便可以得到时间序列,用q n 表示: q = t x ( m ) w ( n 一肌) 】 ( 2 2 ) 2 2 2 语音信号的端点检测 在语音识别中,通常是先根据一定的端点检测算法,对语音信号中的有声 片段和无声片段进行分割,而后在针对有声片段,依据语音的某些特征进行识 别。研究表明,即使在安静的环境中,语音识别系统一半以上的识别错误来自 端点检测器。因此,作为语音识别系统的第一步,端点检测的关键性不容忽视, 9 武汉理工人学硕十学位论文 尤其是噪声环境下语音的端点检测,它的准确性很大程度上直接影响着后续的 工作能否有效进行。 语音端点检测主要方法在很长一段时间里,主要是依据语音信号的时域特 性。其采用的主要参数有短时能量、短时平均过零率等,即通常说的基于能量 的端点检测方法。近年来,随着通信业的迅猛发展,在各行业对通信系统语音 质量的客观评价以及语音识别方法等技术实用化的强烈需求下,又出现了很多 的语音端点检测算法。它们主要是通过采用各种新的特征参数,以提高算法的 抗噪声性能。如基于1 9 9 4 年由j u n q u aj c 提出的t f 参数的语音端点检测, 还有诸如倒谱系数、短时频带方差、自相关相似距离、信息熵等也逐渐的被应 用到端点检测中。有时,还通过将信号的几种特征组合成为一个新的特征参数 来进行端点检测。对语音端点的判决方式也由原来的单一门限、双门限发展到 基于模糊理论的判决方式。但就嵌入式语音识别来说,计算量较大的端点检测 方法是不适合的,这样会使整个的识别响应时间延长,所以在这里只研究几种 计算量小但效果较好的检测方法。 ( 1 ) 基于短时能量或短时平均幅度的检测方法 语音和噪声的区别主要是在它们的能量上,语音段的能量比噪声段的大, 语音段的能量是噪声段能量叠加语音声波能量之和。传统的检测方法认为,如 果环境噪声和系统输入噪声比较高,以至能够保证系统的信噪比相当高,那么 只要计算输入信号的短时能量或短时平均幅度就能把语音段和噪声背景区分 开。但是实际应用中往往难以保证有较高的信噪比,所以仅靠短时能量或短时 平均幅度来检测语音段的起止点常会遇到问题。 ( 2 ) 基于短时能量和短时平均过零率的检测方法 该方法也称为双门限比较法,它是在短时能量检测方法的基础上,加上短 时平均过零率,利用能量和过零率作为特征来进行检测。对于连续语音信号, 可以观察到语音的时域波形通过横轴( 时间轴) 的情况。在离散时间语音信号 情况下,如果相邻的采样具有不同的代数符号就称为发生了过零,由此可以计 算得到过零的次数。单位时间内过零的次数称为过零率,而一段长时间内的过 零率称为平均过零率。然而语音信号是宽带信号,所以用平均过零率就不太确 切,只能运用短时平均过零率。研究显示,清音的过零率较高,浊音和噪声次 之,这样可以将清音和噪声区分开来,但浊音和噪声的过零率相当,这时可利 用短时能量的方法来区分浊音和噪声,这样短时能量检测法和短时平均过零率 1 0 武汉理工人学硕士学位论文 检测法相结合的端点检测方法可以达到不错的效果。 基于短时能量的检测方法一般用于更好的将噪声和语音区别开来,但需要 计算平方和计算量相对较大,考虑到在嵌入式系统平台上计算量不宜过大,所 以本文决定应用基于短时平均幅度和基于短时过零率相结合的方法作为端点检 测的算法【9 1 。实验证明这种方法可以达到满意的效果。 2 3 语音信号的特征参数提取 语音信号中含有丰富的信息,特征提取就是对语音信号进行分析处理,去 除对语音识别无关紧要的冗余信息,提取出对语音识别有用的信息的重要信息。 对于特定人语音识别来讲,希望特征参数尽可能多的反映语音信息,尽量减少 说话人的个人信息( 对特定人语音识别来讲,则相反) 。从信息论角度讲,这是 信息压缩的过程。特征提取是语音识别前端处理的主要任务。特征如果具有很 好的区别性,模型的设计和训练就会变得简单高效。因此,语音识别所用特征 需要满足以下条件: ( 1 ) 稳健性强。语音受周围环境、说话方式、采集条件等因素的影响较大, 因此,语音识别的特征必须具有很强的稳健性,使得语音特征在不同条件下可 以保持相对一致,以保证识别系统有较为稳定的识别性能; ( 2 ) 区别性强。对于基于模式识别的语音识别模式而言,用于进行识别的特 征必须具有很强的区别性。换而言之,不同类型语音的特征在特征空间中的分 布要有明显的区别。具体表现在同种模型的特征集中度应该高,不同模型的特 征应该相距较远。 提取特征量的意义是从语音信号中抽取有效的信号特征,同时还要尽量去 除语音信号中的噪声信息,提高识别的精度。由于语音具有短时特性,因此语 音特征参数可以按帧进行信息提取,获得帧特征矢量。人们的一段语音经过特 征提取后,变成了一个矢量序列。这种矢量序列再按某种语音识别模型,进行 训练后就形成了语音模板。语音特征参数的提取是十分重要的,直接影响到语 音识别的准确性。一个好的语音特征参数要满足三方面的要求: ( 1 ) 能有效的提取语音的信号特征,包括人的声道特征与听觉模型; ( 2 ) 各阶参数之间具有良好的独立性; ( 3 ) 特征参数有高效的计算方法。 武汉理工大学硕士学位论文 目前基本的特征参数主要有:能量、幅度、过零率、频谱和功率谱等,还 有比较传统的线性预测系数l p c 和线性预测倒谱系数l p c c ,另外考虑到其他 因素的影响,还有许多基于基本参数的参数,如从听觉出发,用来表达语音的 特征有频率倒谱系数m e l 倒谱、感知线性预测系数p l p 等,其中线性预测倒谱 系数l p c c 和m e l 倒谱是当前主要的两种特征参数提取法,它们在一定程度上 反映了人耳对声音的处理特性。研究结果表明,这两种方法都对语音识别的性 能有所提高。上述每种参数都有各自的优点和缺点,如语音的基音周期能区分 清音和浊音,但其变化范围较大;l p c c 参数对元音有较好的描述能力,其缺 点在于对辅音的描述能力较差;m f c c 参数有较好的识别性能和抗噪能力,但 其计算量和计算精度要求高在提取特征参数时我们可以根据它们不同特点 进行组合,这样识别效果可以更好【l 。 考虑到嵌入式车载平台存储资源少、实时性要求高的特点,l p c c 和m f c c 两种参数比较适合选用,所以下文主要针对这两种参数进行研究和分析。 2 3 1 线性预测倒谱参数l p c c 线性预测普遍地应用于语音信号处理的各个方面。这种方法是最有效和最 流行的语音分析技术之一。在各种语音分析技术中,它是第一个真正得到实际 应用的技术。 线性预测是指最佳线性向前一步统一预测。语音信号线性预测的基本思想 是语音信号的每个取样值,可以用它过去若干个取样值的加权和( 线性组合) 来表示:各加权系数的确定原则是使预测误差的均方值最小( 即遵循所谓最小 均方准则) 。p 阶线性预测就是根据信号过去p 个取样值 s ( n 一1 ) ,s ( n 一2 ) s ( n p ) ) 的加权和来预测信号的当前取样值s ( n ) 。设预测 值为s ( n ) 了,则有 童( 刀) = 口,s ( 玎一f ) ( 2 3 ) 其中a i 称为预测器系数。 9 1 设预测误差为p ( ,1 ) ,则有: 上 e ( n ) = s ( n ) 一s ( n ) = s ( n ) 一口f s ( n i ) i = l ( 2 4 ) 在最小均方误差意义上,这种预测是最佳的,即: 1 2 武汉理工大学硕士学位论文 令 并设 占= e e 2 伽) 】= m i n o e i e z ( n ) :o ,1 f p 一= _ 、,、, a a : 1 口l 口2 : a p ,( ) = e s ( n ) s ( n 一) 】 r p = 名2 ,( o ) r ( 1 ) r ( p 一1 ) ,( 1 ) ,( 2 ) 厂( p ) r ( p 一1 ) r ( p 一1 ) r ( o ) ( 2 5 ) ( 2 6 ) ( 2 7 ) 则求解线性预测系数的y u l e w a l k e r 方程为 以p = r :1 0 ( 2 - 8 ) 上面公式( 2 。8 ) 便是线性预测定义的数学描述。 通过求解y u l e w a l k e r 方程可以求得线性预测系数,即可得到信号的模型参 数,l p c 的计算方法有自相关法( 德宾d u r b i n 法) 、协方差法、格型法、b u r g 法等等。 线性预测倒谱参数( l p c c ) 是线性预测系数在倒谱域中的表示。该特征是 基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数。l p c c 参数的优点是计算量小,易于实现,对元音有较好的描述能力,其缺点在于对 辅音的描述能力较差,抗噪声性能较差。倒谱系数c e p 是利用同态处理方法, 对语音信号求离散傅立叶变换d f t 后取对数,再求反变换i d f t 就可以得到。 基于l p c 分析的倒谱( l p c c ) 在获得线性预测系数后,可以用一个递推 1 3 武汉理工大学硕士学位论文 公式计算得出。 rh 一1 h + 虹味i n 1 刀p + l g = 害。 ( 2 9 ) h + 慨i 力 以 p + l 公式中( 2 - 9 ) 中,c 为倒谱系数,a 。为预测系数;以为倒谱系数的阶数 仰= l p ) ,p 为预测系数的阶数。 实验表明,使用倒谱可以提高特征参数的稳定性,它的主要优点是比较彻 底地去掉了语音产生过程中的激励信息【1 l 】。 2 3 2m e l 倒谱系数 与普通功率谱倒谱分析不同,m e l 频率倒谱系数( m e l f r e q u e n c yc e p s t r a l c o e f f i c i e n t s ,m f c c ) 的分析取决于人耳的听觉特性。因为,人耳听

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论