




已阅读5页,还剩51页未读, 继续免费阅读
(计算机应用技术专业论文)基于hmm和ann的语音识别算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文对现有的语音识别技术发展现状进行了分析,研究了语音识别的基本理论, 包括语音信号生成的数学模型、预处理、端点检测和特征参数提取。在此基础上,讨 论了语音识别系统实现的主要技术,重点对h m m 模型和自组织神经网络( s o f m ) 原理及 其在语音识别中的应用进行了研究,并且分析比较了它们的识别特性与应用特点,提 出了基于c d h m m 和s o f m 的混合模型原理及算法,该模型由c d h m m 产生语音信号的最佳 状态序列后,对同一状态应用时间规整网络生成等维的语音特征矢量,并加入到s o f m 分类器进行语音识别,h i v l m a n n 模型既具有h m m 对动态时间序列极强的建模能力,又具 有a n n 极强的静态分类能力。 本文在c + + 环境下对h m m 模型和h m m a n n 模型的算法进行了孤立数字和连续数字语 音识别系统的实验仿真。结果表明,与h i d m 模型方法相比,h 删一a n n 模型提高了语音识 别系统的准确率,充分体现出改进模型的可行性和有效性,最后指出了本文研究未来 改进的方向。 关键词:语音识别隐马尔可夫模型人工神经网络自组织神经网络h m m - a n n 模型 a b s t r a c t t h i st h e s i sa n a l y z e dt h ee x i s t i n gs p e e c hr e c o g n i t i o nt e c h n o l o g y ,a n ds t u d i e dt h eb a s i c t h e o r yo fs p e e c hr e c o g n i t i o n ,i n c l u d i n gt h em a t h e m a t i c a lm o d e l sg e n e r a t e db yv o i c es i g n a l , p r e p r o c e s s i n g ,t h ee n d p o i n td e t e c t i o na n de x t r a c t i n go ff e a t u r e s o nt h i sb a s i s ,d i s c u s s e dt h e m a j o rt e c h n i q u ew h i c ht h es p e e c hr e c o g n i t i o ns y s t e mr e a l i z e s ,w i t he m p h a s i so nt h eh m m m o d e la n ds e l f - o r g a n i z i n gn e u r f ln e t w o r k ( s o f m ) p r i n c i p l ea n di t sa p p l i c a t i o ni ns p e e c h r e c o g n i t i o n h a sb e e n s t u d i e d ,a n a l y z e d a n dc o m p a r e dt h ec h a r a c t e r i s t i c so ft h e i r i d e n t i f i c a t i o na n da p p l i c a t i o no fc h a r a c t e r i s t i c s ,p r o p o s e dm i x e dm o d e lp r i n c i p l ea n dt h e a l g o r i t h m sw h i c ha r eb a s e do nc d h m ma n dt h es o f m ,t h i sm o d e la p p l yt i m en e a t n e t w o r kt op r o d u c ea n ds oo nu y g u r sp h o n e t i cf e a t u r ev e c t o r s ,a n da d d e dt ot h es o f m c l a s s i f i e rf o rs p e e c hr e c o g n i t i o n ,t h eh m m a n nm o d e ln o to n l yh a sh m mt ot h ed y n a m i c t i m es e r i e sg r e a t l ys t r e n g t h e n e dm o d e l l i n ga b i l i t y , b u ta l s oh a sa n n g r e a t l ys t r e n g t h e n e d s t a t i cc l a s s i f i c a t i o na b i l i t y t h i sa r t i c l eh a sc a r r i e do nt h ei s o l a t e dd i g i ta n dt h ec o n t i n u a ld i g i ts p e e c hr e c o g n i t i o n s y s t e m se x p e r i m e n ts i m u l a t i o nt r a d e rt h ec he n v i r o n m e n tt ot h eh m mm o d e la n dt h e h m m a n nm o d e l 。sa l g o r i t h m t h er e s u l ti n d i c a t e dt h a tc o m p a r e sw i t ht h eh m mm o d e l m e t h o d ,t h eh m m a n nm o d e lr a i s e dt h es p e e c hr e c o g n i t i o ns y s t e m sr a t eo fa c c u r a c y , m a n i f e s t st h ei m p r o v e m e n tm o d e lf u l l yt h ef e a s i b i l i t ya n dt h ev a l i d i t y , f i n a l l yh a dp o i n t e d o u tt h i sa r t i c l es t u d i e st h ed i r e c t i o nw h i c hi nt h ef u t u r ew i l li m p r o v e k e y w o r d s :s p e e c hr e c o g n i t i o n t h eh i d d e nm a r k o vm o d ea r t i f i c i a ln e u r a ln e t w o r k s s e l f - o r g a n i z e df e a t u r em a p p i n g h m m - a n nm o d e l 长春理工大学硕士学位论文原创性声明 本人郑重声明:所呈交的硕士学位论文,基于h m m 和a n n 的语音识别 算法研究是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文 中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过 的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者签名:徨盛翊垦塑曼年旦月埠同 长春理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“长春理工大学硕士、博士学位论文版 权使用规定 ,同意长春理工大学保留并向中国科学信息研究所、中国优秀博硕 士学位论文全文数据库和c n k i 系列数据库及其它国家有关部门或机构送交学 位论文的复印件和电子版,允许论文被查阅和借阅。本人授权长春理工大学可以 将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印 或扫描等复制手段保存和汇编学位论文。 作者签名:健盟塑垦叠塑仝年旦月卫同 指导导师签名:盟鳖蓐月卫日 第一章绪论 1 1 选题的目的和意义 人类最重要的基本功能之一是通过语言互相传递信息。虽然,人可以通过多种手 段获得外界信息,但最重要、最精细的信息源只有语言、图像和文字三种。与用声音 传递信息相比,显然用视觉和文字相互传递信息,其效果要差得多。这是因为语言的 传播速度快,没有明显的方向限制,又可以在黑暗中传播。而且,语言中除包含代表 实际发音内容的语音信息以外,还包括发音者是谁及喜怒哀乐等各种信息。另一方面, 语言与人的智力活动密切相关,与文化和社会的进步密切相连,它具有最大的信息容 量和最高的智能水平。 随着计算机技术的发展,人与机器之间的交流也越来越广泛和深入,从科学研究 到日常生活,计算机已经渗透到人们生活的各个方面。在现代社会中,人们逐渐习惯 借助计算机来完成各项事务。在这种情况下,如何让计算机智能化地与人进行通信, 使人机交互更加自然方便成为现代计算机科学的重要研究课题之一。如果计算机能够 听懂语言,能够说话,那么就不会有键盘,不同语言的人们交流也就会更容易,这个 愿望实现的技术基础是语音识别和理解儿引。语音识别将人发出的声音、音节或短语转 换成文字和符号,或者给出响应,如执行控制、做出回答。语音识别在工业、军事、 交通、医学、民用诸方面,特别是在计算机、信息处理、通信与电子系统、自动控制 等领域有着广泛的应用。”。 语音识别技术的实用性和趣味性使得人们对它有着迫切的应用需求。到目前为止 语音识别技术已经取得了很大的进展,在语音拨号、汽车控制、工业控制、信用卡认 证、残疾人辅助等方面获得成功的应用。语音识别几乎可以应用于人们r 常生活的各 个领域,并且在某些领域成为一项关键并具有竞争力的技术。2 0 世纪8 0 年代以来,一 些语音识别系统己经进入实用化和商业化阶段,出现了很多较为成功的产品。据预测, 带有语音功能的计算机将很快成为大众化的产品,语音输入将取代键盘和鼠标成为计 算机的主要输入手段,使用户界面产生一次很大的飞跃h 1 。 语音识别作为一项具有广泛社会效益和经济效益的现代信息技术,虽然己经取得 了很大的成就,但是面临实j 钶化时还是存在一系列的问题。为了达到实片j 化和商j 也化 的目标,语音识别系统必须具有自然性、可靠性、鲁榨性。然而,语齐信号的声学特 征随其自,j 后与之相连的语爵的不同而有很大的变异;语音特征会随发音人的不同、发 音人心理或生理状态的变化而产正l 三很大的差异:语音特征的准确提耳义会受传声设备的 差异及环境噪声的影响,而环境噪声还将直接影响发爵人的发音过程;个语t l j 所表 达的意思,与上下文内容、说话时的环境条件以及文化背景等凶素有关,而语乍u 的语 法结构又仃很多变化,= = i 沿境信息也几乎足计算机( i 动i 藩爵i j t ) l j 所无法利娟的。以 l :问题给语音识别带来 良人的州难。如果从应用和实现的角度水考虑还仃往系统复杂 度的问题,系统的复杂度将决定系统的应用场合。因此要实现性能优良、实用化的语 音识别系统,人们仍需要不断对语音识别的理论、算法进行研究,解决和完善语音识 别中所存在的各种问题。另外,随着计算机技术的飞速发展和各种科学理论的不断发 展和深入,一些新技术、新理论也不断出现,这些都为语音识别的研究奠定了基础。 研究这些新理论、新技术在语音识别中的应用也具有重要的意义。 本课题研究的目的是针对目前语音识别实用化所面临的一系列问题,在对现有的 语音识别技术进行研究的基础上,探索人工神经网络、非齐次隐马尔可夫模型等技术 和理论在语音识别领域上的应用,以提高语音识别系统的识别率和识别速度,增强语 音识别系统对环境的适应性和优化识别算法的计算量,提高语音识别系统的抗噪鲁棒 性为目的,为语音识别的实用化和商业化打下基础。 1 2 语音识别概述 1 2 1 语音识别的意义 通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。 如今,人类已进入了信息化时代,人与人之间的语音传递不再只是面对面的方式,而 是通过各种现代化的媒体在任何地点任何时间进行语音信息交流,如电话、手机、网 络以及卫星通信等等。因此,以语音方式和计算机进行交流就越来越被人们所期待, 人机之间进行语音交流己经成为人机交互技术中的重要研究课题。 语音识别是研究使机器能准确的听出人的语音内容的问题,它常常被认为是实现 人机语音交互技术中关键的第一步,在计算机同益普及的今天,愈发显现出其在i t 产 业中的重要地位。让电脑听懂人的语言是人类自计算机诞生以来梦寐以求的想法。直 接对计算机发号施令,解放出我们的双手,在任何状态下( 不只限于坐在那罩敲键盘) 与计算机进行交互式操作是数字化生存时代的效率体现和人性化工作方式的完美结 合。微电子技术发展到今天,计算机和电子通信设备r 益微型化,未来的计算机将会 微缩成腕上的手表般大小,而如果仍采用键盘输入是不町能的,其他类似的控制仪器 或通信设备的键盘也将在微型化的潮流中遭到淘汰。由此,语音输入便成为唯一的最 佳选择。m i c r o s o f t 公司的总裁比尔。盖茨对语音识别技术的前景表示十分乐观,他大 且h 预测说:“我们将在这个十年中,克服语音识别技术的障碍,下一代的操作系统以及 应用程序的用户界面将撕弃键盘和鼠标,代之以真f 意义上的人机对话。p h i li p s ,i b , i n t e l ,t o s h i b a 等诸多世界著名公司以战略的眼光看剑了语音识别技术在未宋市场中 所具有的臣大潜力,投入巨资进行研究开发。 1 2 2 国内外研究现状及语音识别方法介绍 ( 1 ) 因外研究历史及现状 语音i ) j , ;lr l 的研究:f :作叮以追溯到2 0 世纪5 0 年代a t & t 贝尔实验室的a u d r y 系统, 它是第一个可以识别 。个英文数:# 的语音谚 别系统。但真币取得实质性进展,并将其 作为一个重要的课题f 眨研究则足舀:6 0 年代术7 0 年代初。这首先是冈为计算机技术 的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编 码( l p c ) 技术和动态时间规整( d t w ) 技术的提出,有效的解决了语音信号的特征提 取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,实现了基于线性 预测倒谱和d t w 技术的特定人孤立词语音识别系统;同时提出了矢量量化( v q ) 和隐马 尔可夫模型( h m m ) 理论。 随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件 需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和 建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各 个发音单位存在受上下文强烈影响的协同发音( c o a r t i c u l a t i o n ) 现象;第三,非特 定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不 同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语 音中有背景噪声或其它干扰。因此原有的模板匹配方法已不再适用。 实验室语音识别研究的巨大突破产生于2 0 世纪8 0 年代术:人们终于在实验室突 破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个 系统中,比较典型的是卡耐基梅隆大学( c a r n e g i em e l l o nu n i v e r s i t y ) 的s p h i n x 系统, 它是第一个高性能的非特定人、大词汇量连续语音识别系统。这一时期,语音识别研 究进一步走向深入,其显著特征是h m m 模型和人工神经元网络( a n n ) 在语音识别中的成 功应用。h m m 模型的广泛应用应归功于a t & tb e l l 实验室r a b i n e r 等科学家的努力,他 们把原本艰涩的h m m 纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方 法成为了语音识别技术的主流。统计方法将研究者的视线从微观转向宏观,不再刻意 追求语音特征的细化,而是更多地从整体平均( 统计) 的角度来建立最佳的语音谚 剔 系统。在声学模型方面,以m a r k o v 链为基础的语音序列建模方法h m m ( 隐式m a r k o v 链) 比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建 模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言 层面上,通过统计真实大规模语料的词之间同现概率即n 元统计模型来区分识别带来 的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机制等也在 语音识别中得到了应用。 2 0 世纪9 0 年代前期,许多著名的大公司如i b m 、节果、a t & t 和n t t 都对语音识 别系统的实用化研究投以巨资。语音识别技术有一个很好的评彳f i 机制,那就是识别的 准确率,而这项指标在2 0 世纪9 0 ,f 代中后期实验室研究中得到了不断的提高。比较 有代表性的系统有:j 1 3 m 公刊摊出的v i av o ic e 和d r a g o ns y s t e m 公州的n a t u r a l l y s p e a k i n g ,n u a n c e 公司的n u a n c ev o ic ep l a t f o r m 语音平台,m i c r o s o f t 的w h i s p e r ,s u n 的v o i c e t o n e 等。其中i b m 公司于1 9 9 7 年,r 发出汉语v i a v o i c e 语爵谚 别系统,次年 又丌发出可以谚 别卜海话、广东诵和四川话等地方i1 爵的语音谚5 别系统v i a v o i c e9 8 。 它带有一个:3 2 ,0 0 0 澜的基本渊汇表,可以扩腱剑6 5 ,0 0 0 词,还包括办公常用词条,具 仃“纠错机制”,其i 卜均i j 别率i 叮以达到95 ( ( i 。该系统对新佣语爵彭 别j 土订较高的精度, 3 是目前具有代表性的汉语连续语音识别系统。 ( 2 ) 国内研究历史及现状 我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验 室逐步走向实用。从1 9 8 7 年开始执行国家8 6 3 计划后,国家8 6 3 智能计算机专家组为 语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基 本上与国外同步,在汉语语音识别技术一k 还有自己的特点与优势,并达到国际先进水 平。中科院自动化所、声学所、清华大学、北京大学等科研机构都有实验室进行过语 音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动 化研究所模式识别国家重点实验室。清华大学电子工程系语音技术与专用芯片设计课 题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到9 4 8 ( 不定 长数字符串) 和9 6 8 0 o ( 定长数字符串) 。在有5 的拒识率情况下,系统识别率可以 达到9 6 9 0 o ( 不定长数字符串) 和9 8 7o ( 定长数字符串) ,其性能已经接近实用水 平。研发的5 0 0 0 词邮包校核非特定人连续语音识别系统的识别率达到9 8 7 3 ,前三 选识别率达9 9 9 6 ;并且可以识别普通话与四川话两种语言,达到实用要求。中科院 自动化所及其所属模式科技( p a t t e k ) 公司2 0 0 2 年发布了他们共同推出的面向不同计算 平台和应用的“天语”中文语音系列产品一p a t t e ka s r ,结束了中文语音识别产品自 1 9 9 8 年以来一直由国外公司垄断的历史。 ( 3 ) 语音识别方法介绍 一般来说,语音识别的方法有四种盯1 :基于声道模型和语音知识的方法、模式匹配 的方法、统计型模型方法以及利用人工神经网络的方法。基于声道模型和语音知识的 方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由j :其模型及 语音知识过于复杂,现阶段没有达到实用的阶段。目前常用的方法是后j 三种方法,目 前它们都已达到了实用阶段。模式匹配常用的技术有矢量量化( v q ) 和动态时间舰整 ( d t w ) ;统计型模型方法常见的足隐马尔可夫模型:语音识别常用的神经网络有反向传 播( b p ) 网络,径向基函数网络( r b f ) 及新兴的小波网络。本文将重点研究隐马尔可夫模 型和人工神经网络方法。模式匹配法用于语音识别共有网个步骤:特征提取、模板训练、 模板分类、判决。图卜1 是模式匹配法的原理框图: 图1 1 语音识别系统模j 【配法原理方框图| 、 在该图中,语音经过话筒变成电信号( f ! l j 阁( ,晤音信号) 后加侄谚 别系统输入端。 首先要经过预处理,预处理包括反混替失真滤波器、预加重器、端点检测器和模数转 换器。经过预处理后,语音信号的特”破提取扎宋,首先和此坫础,j :建。、一所;蔷的模扳, 4 这个建立模板的过程称为训练过程接下来将新提取的特征与模板匹配的过程称为识别 过程。即根据语音识别的整体模型,将输入的语音信号的特征与己经存在的语音模板 ( 参考模式进行比较,根据一定的搜索和匹配策略( 判决规则) ,找出一系列最优与输入 的语音相匹配的模板。然后,根据此模扳号的定义,通过查表就可以给出计算机的识 别结果。 基于隐含马尔可夫模型h m m ( h i d d e nm a r k o vm o d e l ) 的识别算法。这是r a b i n e r 等人在2 0 世纪8 0 年代引入语音识别领域的一种语音识别算法。隐马尔可夫模型是对 语音信号的时间序列结构建立统计模型,将之作为一个数学上的双重随机过程旧1 :一个 是用具有有限状态数的m a r k o v 链模拟语音信号统计特性变化的隐含的随机过程,另一 个是与m a r k o v 链每一个状态相关联的观测序列的随机过程。前者通过后者表现出来, 但后者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音信 号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要( 不可观测的状态) 发出的音素的参数流。可见,h m m 合理地模仿了这一过程,很好地描述了语音信号的整 体非平稳性和局部平稳性,是较为想的一种语音模型。 与模式匹配法相比,h m m 是一种迥然不同的概念。在模式匹配法中“参考样本”是 由事先存储起来的“模式”本身充当的,而h m m 则是这一“参考样本”用一个数字模 型来表示( 马尔可夫链) ,然后待识的语音信号与这一数学模型相比较,这就从概念上 较前深化了一步。图1 - 2 给出了个基于h 删的孤立词语音识别原理图。 训练语音的 图1 2 隐o j 尔i j 丁天模弘川】孤立渊语音谚3 别万框图 采用t t m m 进行语音识别,实质上足一种慨;笨运算。根据训练集数瓠c 汁算得出模型 参数后,测试集数据只需分别计算各模型的条件概率( v i t e r b i 算法) ,耿此概率最大者 即为i = 别结果。由于马尔可犬过程各状念f h j 的转移概率和每个状念下的输出都足随机 的,故这种模型更能适应语音发音的各种微妙的变化,使用起来比横板匹配方法灵活 的多。除训练时需运算量较大外,以别时的运算髓仪有模式匹配法的儿分之一。此模 型七1 。年代仞首先朋于c m u ( 卡耐綮。梅降人学) 研制的d a r ( ;o :n 系统中,此后又有了很 5 大发展,七十年代以来,使用h m m 的系统都取得了很高的识别率。 人工神经元网络( a n n ) 在语音识别中的应用是当前研究的又一热点。人工神经网络 本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自适应 性、并行性、鲁棒性、容错性和学习特性哺1 。目前用于语音识别的神经网络有多层感知 机,k o h o n e n 自组织神经网和预测神经网。 人工神经网络是采用物理上可实现的系统来模拟人脑神经细胞的结构和功能的系 统。它是由很多简单的处理单元有机地连接起来进行并行的工作,人工神经网络中大 量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力等都 使它极适宜于解决类似于语音识别这一类课题。由于神经网络反映了人脑功能的基本 特征,具有自组织性、自适应性、和连续学习的能力。这种网络是可以训练的,即可 以随着经验的积累而改变自身的性能。同时由于高度的并行性,它们能够进行快速判 决并具有容错性,特别适合于解决像语音识别这类难以用算法来描述而又有大量样本 可供学习的问题,图卜3 给出了神经网络用于语音识别的原理性方框图: l 墨喜篓警的 根据标号训练 网络得出权值 特 征 权值w 提 1 i 誓窑妻霎 取辅 已有神经 - _ _ l 网络模型 图1 3 基丁神经网络的话音识别原理图 神经网络的一项非常重要的功能是通过学习实现对于输入矢量的分类。这就是蜕 每输入一个矢量,人工神经网络输出一个该矢量所属类别的标号。在传统的语音识别 方法中,通过特征参数的提取及模式匹配完成识别。由于语音信号的高度多变性,输 入模式要与标准模式完全匹配是几乎不可能的。神经网络的语音识别方法与传统方法 的差异在于提取了语音的特征参数后,不像传统方法那样有输入模式与标准模式的比 较匹配及统计参数,而是靠神经网络中大量的连接权对输入模式进行非线性运算,产 生最大兴奋的输入点就代表了输入模式对应的分类。神经网络的连接权系数是在使用 中根据识别结果的讵确与否不断的进行自适应修l f 。比较起来,神经网络 :; 别系统更 接近人类的感知过程。但是a n n 相对于模式匹配f 面。毛在反映语爵的动态特性上存在 重大缺陷。单独使用a n n 的系统谚 j 忡 能小高,所以目前a n n 通常在多阶段识别中与 h m m 算法配合使用。 语音识别系统根据不同的分类准则呵以有多种分类方式o : 根据对说话人说话方式的要求可以分为孤一也字( 词) 语音识别系统,连接语 音) j 0 系统以及连续语肯i t 2 , j 系统。 6 根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。 根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量 语音识别系统。 1 2 3 目前存在的问题和发展方向 作为高科技应用领域的研究热点,语音识别技术从理论的研究到产品的开发已经 走过了五十多个春秋并取得了长足的进步。它正在办公或商业系统的数据库语音查询、 工业生产部门的语声控制、电话与电信系统的自动拨号以及医疗和卫生等领域发挥重 要的作用,并且极有可能成为下一代操作系统和应用程序的用户界面。 然而,目前语音识别技术的研究水平还远远不能达到使计算机与人进行自然交流 的终极目标。实用语音识别技术的研究是一项极具市场价值和挑战性的工作,但是存 在的问题是不可忽视的。在语音识别中,必然涉及到人是怎样从声音中提取信息和理 解含义的问题。只有弄清人在收听声音时的生理过程并研究模仿这些过程的模型,语 音识别才可能得到一个飞跃的发展。如何充分借鉴和利用人在完成语音识别和理解时 所利用的方法和原理就是一大课题,因而语音识别与人工智能之间有密切的关系。而 目前只能从语音信号出发,用“隐过程”( 如隐马尔可夫模型) 来进行神经系统和听觉 过程的模拟,这是无法达到理想的识别和理解的效果的。 实用语音识别研究中存在的主要问题和困难如下: 1 语音识别系统的适应性差,对环境依赖性强。在某种环境下建立的语音识别系 统只能在这种环境下应用,否则系统性能将急剧下降,而且全世界共有上千种语言, 每种语言又有许多种方言,这样,随着环境的改变识别系统的性能必然会下降。 2 语音识别的一种重要的应用是自然语音的识别和理解。这一目的的实现首先是 连续的讲话必须分解成单词、音节或音素单位,其次是要建立一个理解语义的规则或 专家系统。 3 语音信息的变化很大。语音模式对不同的说话者是不同的,就是说找不到两个 说话者的发音是完全相同的,而且同一个说话者在随意说话和认真说话时语音信息也 是不同的。同一说话者在相同方式( 随意或认真) 兑话时,也受长期时间变化的影响, 即今天及一个月后同一说话者说相同词语时,语音信息也不相同。这还没有考虑同一 说话者发声系统的改变( 如病变等) 。 4 语音的模糊性。说话者在讲话时,4 i 同的词语町能听起来很相似,这一点不论 在汉语中还是在英语中都是常见的现缘。 5 单个字f 沾及单个词语发音时语爵特性受上下文环境的影响,使相l 司字母有不同 的语音特性。单词或啦训的一部分在发哥过程中其质量、音调、重爵和发音速度可能 不同。 6 高噪声叫i 境下语肯识别进展冈难。实际环境中总足存在各种各样的噪声,而我 们实验中的语音数据大多足在理恕的j = 1 :境下采集的,所以当i j t ) ;, j 系统走向实用时,环 境噪声的存存所带来的问题就变社 越柬越突出。凶为环境嗓卢会使得所分析出的特征 参数数据发生偏差,噪声越大这种偏差越严重,从而使正确识别的几率逐步下降直至 识别完全失效。此外,在高噪声背景下,人的发音变化也会很大,像声音变高,语速 变慢,音调及共振峰变化等等,这就是所谓l o m b a r d 效应,必须寻找新的信号分析处 理方法。 7 语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、 建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续 语音识别中是非常重要的;我们对人类的听觉理解、知识积累和学习机制以及大脑神 经系统的控制机理等方面的认识还很不清楚,即使把这方面的现有成果用于语音识别, 也还有一个非常艰难的过程要走。 8 语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解 决,识别速度、拒识问题以及关键词( 句) 检测技术( 即从连续语音中去除诸如“啊、“唉 等语音,获得真正待识别的语音部分) 等等技术细节要解决。 语音识别中之所以存在这样一些困难,主要原因在于还没有真正表征语音信号的 特征参数和真正描述语音发音机理的模型。为了解决这些问题,研究人员提出了各种 各样的方法,如自适应训练,基于最大互信息准则( m m i ) 和最小区别信息准则( m d i ) 的 区别训练和“矫正 训练;应用人耳对语音信号的处理特点,分析提取特征参数,应 用人工神经元网络,所有这些努力都取得了一定成绩。另外,语音识别是一门交 叉学科,语音识别技术关系到多学科的研究领域,在不同领域上的进步都会促进语音 识别的发展。( 1 ) 物理学( 声学) :声音产生与传播原理、声电转换以及声音在房间回响 等相关知识。( 2 ) 生理学:有关人的声道与耳朵的生理结构、耳朵的听觉特征,在脑内 高层的语言处理等。( 3 ) 统计学和模式识别理论:基于各种统计方法对模式进行匹配, 以及建立有关的统计模型,对语音特征参数进行估值和分类。( 4 ) 信息理论和计算机科 学:各种算法的研究、快速搜索查找匹配的方法。( 5 ) 语言学:有关人的语言产生、感 觉方面的知识。( 7 ) 数字信号处理技术:信号的时域分析、噪声消除、数字滤波、线性 预测等方面的知识。( 8 ) 微电子技术:超大规模集成电路( v l s i ) 技术的发展对语音识别 的具体应用有很大的影响,v l s i 使语音识别系统商品化成为可能。要使语音识别系统 的性能有大的提高,就要综合应用物理学、生理学、语言学以及信号处理等各门学科 的有关知识,只用其中一种是不行的。 1 3 本文主要研究工作 本文主要足肇于语爵以别的算法研究,着h 艮于语音i i i 琶1 j 系统识别率的提高,主要 所作的工作内容如下: 1 、对语音谚 别的发展史及研究现状、分类方式以及门日玎所面临的问题等进行调研 和总结,分析语音识别系统中涉及到的尽本概念、原理和各种理论技术。 2 、深入研究隐屿尔叮犬模型和人i 【:神经网络 ;j | 型的原理和往语音谚 别应用中的分 析方法和实现算法。 3 、在现有的模型基础上,提出一种h m m 和a n n 结合的混合模型,讨论该模型的设 计思想、理论依据、总体设计和各个步骤的实现方法。 4 实现h m m 模型和混合模型仿真。分别构建孤立数字和连续数字语音识别系统, 利用c + + 对其进行了实验仿真。系统仿真过程包括语音预处理,特征提取,识别分类 器三部分。仿真实验由训练和识别两部分组成,分别包括c d h m m 模型和自组织神经与 c d h m m 结合的混合识别系统建模过程,并从抗噪性、识别率、对长度的误识率等方面对 经典模型和混合模型进行比较分析。评估两种模型的性能和优缺点。 本文的章节安排如下:第一章对语音识别的发展现状、系统分类以及目前存在的问 题进行概述;第二章分析了语音识别的基本原理,包括信号预处理、端点检测和特征 提取,从而确定后面识别系统实验中所采用的方法;第三章详细讨论了语音识别的模 型训练和匹配的主要算法,重点分析了隐马尔可夫模型和人工神经网络的原理和应用; 第四章描途了本文提出的基于a n n 和h m m 结合的混合模型算法的特点、原理、设计和 实现要点;第五章对h m m 模型和混合模型分别进行仿真试验,根据实验结果对其相关 的性能进行评估分析。第六章对本文所作的工作和取得的成果进行总结,给出了需要 进一步研究的问题。 9 第二章语音信号分析与处理 语音识别涉及到一些语音信号的知识,下面进行简单的介绍。语音信号处理包括语 音通信、语音合成和语音识别等方面的内容,但其前提和基础是对语音信号进行分析。 只有将语音信号分析表示成其本质特征的参数,才有可能利用这些参数进行高效的语 音信号处理。虽然语音信号其特性是随着时间而变化的,但是在一个短时间范围内, 其特性基本保持不变,即相对稳定,所以可以将其看作看一个准稳念过程。基于这样 的考虑,对语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析”。 将语音信号分为一段一段分析,其中每一段称为一“帧”( f r a m e ) 。 2 1 信号预处理 在信号处理系统中,对原始信号进行预处理是必要的,这样可以保证系统可以获得 一个比较理想的处理对象。在语音信号处理中,预处理包括预滤波、采样、a d 转换、 分帧加窗、预加重及端点检测。 语音信号是随时间而变的一维信号,语音信号数字化之前,为了防止混叠失真和噪 声干扰,必须在取样前用一个锐截止模拟低通滤波器进行防混叠滤波,滤除高于1 2 采样率的信号成分或噪声。这种防混叠滤波通常与模数转换器做在一个集成块内,来 保证语音信号的数字化的质量。为了使采集的数据是真j 下的语音信号的数据,要对输 入的语音信号进行判断,准确找出语音段的起点,从而减少数据量运算和处理时间, 这就是端点检测。 2 1 1 预滤波和分帧加窗 预滤波的目的有两个:( 1 ) 抑制输入信号各频率分量中频率超过f 。2 的所盲分量( f 、 为采样频率) ,防止混叠干扰。( 2 ) 抑制5 0 h z 的市电干扰。语音信号经过预滤波和采样 后,由a d 转换器变换为一组二进制字码。a d 变换器分为线性和非线性两类。目自订采 用的线性a d 变换器绝大部分是1 2 位的。非线性a d 变换器则是8 位的,它与1 2 位 线性变换器等效:。 由于语音信号的非平稳性,需要对长时语音信号作短时分帧处理。分帧时,语音数 掘帧长一般可取为2 0 、3 0 m s ,前一帧与后一帧的交叠部分称为帧移,帧移与帧长的比例 般取为0 、1 2 。分帧是用i 叮移动的有限长度窗口进行加权的方法柬实现的,从而形成 加窗语爵倍号s ( 1 3 ) s ( n ) :s ( n ) ,i :w ( n )( 2 1 ) 语音信号中常用的窗函数是矩形窗和汉明窗,它们的表达式如下( 其中n 为帧长) : 矩形窗: 厂1 w ( n ) = 一 l 0 ( 0s nsn 一1 ) ( n o 或n n ) ( 2 2 ) 1 0 汉明窗: w :0 5 4 - 0 4 6 c o s ( 器) ( 0 n n - 1 ) t o 1 1 o 或n ) ( 2 3 ) 矩形窗的计算比较简单,但是由于g i b b s 效应,其在边缘处有较大的过冲,分析 时容易引入较大的误差,因此在实际处理中往往都用汉明窗。 另外,在实际的语音数字信号处理系统中,语音在采样之前要通过一个低通滤波 器,这样预测得到的频谱必然会丢失低通滤波器滤掉的频率成分。解决的办法是在数 字化的语音中人为地填充丢失的高频成分,即进行预加重,在参数分析之前在计算机 里具有6 d b 倍频的提升高频特性的预加重数字滤波器来实现,它一般是一阶的数字滤 波器: h ( z ) = 1 一p 木z 1 ( 2 4 ) 式中,p 值接近于1 ,典型值为o 9 4 。 2 1 2 端点检测 语音信号的端点检测就是语音信号的首尾判定,目的是从包含语音的一段信号中 确定出语音的起点以及终点,其主要问题就是区别语音和噪声的问题。有效的端点检 测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有 良好的识别性能。下面简单介绍几种常用的检测方法。 ( 1 ) 短时平均幅度 能量是语音的一个重要特性,清音的能量较小,浊音的能量较大。我们可将短时 能量看作语音信号的平方通过一个线性滤波器后的输出,这就给窗函数的选择带来较 大的困难,如果窗长太长,平滑作用将很明显,对应的短时能量曲线也随时问变化缓 慢,不能体现语音的变化;反之,如果窗长太短,短时能量将随时问剧烈变化,将无 法得到平滑的能量函数。通常认为,窗长的选择应该包含1 7 个基音周期,折中的选 择是选取l o m s 、3 0 m s 的时问作为窗长。短时平均幅度计算如下式 m l = 卜b 枷0 一m ) - k g ) 1 w g ) ( 2 5 ) 即用移动窗w ( n m ) 选取一段语音信号,然后计算该段语音信号取样值的绝对值的和, 便得到该段语音信号的短时平均幅度。 以短时起点平均幅度为特征的起止点判断法: 以发音刚丌始自,j 已知为“静”念的连续l o 帧内的数据( 帧k 为1 0 m s ) 为依据,计算 能量阂值i t l ( 低能量闽值) 及i t u ( 闭t 2 1 - 能疑闽值) 。 按上述的采样值计算每帧的平均幅度,最大值为 m x ,鼓小值为i m n ,计算可得: i = o 0 : ( 1 x - i m n ) + m n ( 2 6 ) i 产4 i m n 于是有: i t l = m i n ( i 。,i 。)( 2 7 ) i t u = 5 i t l 由此可以进行起止点判别( 以起点判别为例) :先根据i t l ,i t u 算得一初始起点n 。, 把它定为最先升到平均幅度的帧号,但如果随着时间的后移,帧幅度在升到i t u 之前 又下降i t l 之下,则n 。不作为起始起点,而改成下一个升到i t l 的点为n 。,以此类推。 ( 2 ) 短时平均过零率 过零分析是语音时域分析中简单的一种,顾名思义,过零就是信号通过零值。信 号的幅度值从j 下值到负值要经过零值,从负值到讵值也要经过零值,称其为过零,统 计信号在一秒钟内过零的次数;就称为过零率。如果信号按段分割,就称为短时,把 各段信号的过零率作统计平均,就是短时平均过零率1 。 短时平均过零率的计算方法是:首先用一个移动窗w ( n - m ) 选取处于n 时刻的语音 段,然后计算出该时段的过零率总数,并除以该时段的长度。若采用矩形窗,设窗的 宽度为n ,这时的短时平均过零率z 。可用下式计算: z 。= f s g n b 似) 】一s g n b 似一1 ) p g 一肌) = i s g n k g ) 一s g n 0 1 ) 】枣w g ) ( 2 8 ) s g n x ( n ) l = 0 x ( n ) o ( 2 9 ) x ( n ) p + l 公式( 2 2 3 ) 中,c 。为倒嘴系数,a 为预测系数;n 为倒i 普。系数的阶数n = ( 1 、p ) ,p 胆 胁 胍 o 柑p 川荟 厂,?、l 为预测系数的阶数。 倒谱的主要优点是比较彻底地去掉了语音产生过程中的激励信息,主要反映声道 响应,l p c c 在语音识别应用中获得了良好的效果。 2 2 3 美尔频倒谱系数( m f c c ) 前面提到的l p c 模型是基于声管模型建立的,这种参数强烈地依赖子模型的精度, 且模型所假设的语音信号的平稳特性并不能随时满足。因此,基于声管模型的语音特 征参数的鲁棒性并不是很好,现在常用的另一种语音特征参数是基于人的听觉的特征 参数。近年来,一种能够比较充分利用人耳这种特殊的感知特性的参数得到了广泛的 应用,这就是m e l 频率倒谱参数( m e lf r e q u e n e yc e p s t r u mc o e f f i e i e n t ,m f c c ) 。大 量的研究表明,m f c c 参数能够比l c p c 参数更好地提高系统的识别性能。 美尔频倒谱系数考虑了人耳的听觉特性,将频谱转化为基于m e l 频标的非线性频 谱,然后转换到倒谱域上,由于充分考虑了人的听觉特性,而且没有任何前提假设, m f c c 参数具有良好的识别性能和抗噪性能,但其计算量和计算精度要求高。 由于声激励导致的人耳基底膜最大振动与基音频率的对数值成正比。人的听觉系 统的这一感知特性可以用m e l 尺度表示,m e l 频率尺度试图将音调、音高等感知特性映 射到线性尺度上。 m e l 倒谱系数m f c c 证是在研究人的听觉系统的基础上得出的声学特征。它不同于 l p c 等通过对人的发声机理研究而得到的声学特征。对人的听觉机理的研究发现,当两 个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令 人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把 两个音调听成一个,这称为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 5风儿轻轻吹 第一课时 风儿在哪里(教学设计)-部编版道德与法治一年级下册001
- 内部培训“刑法”知识考试题库大全及答案(夺冠)
- 5.1中国外交政策的形成与发展课件高中政治统编版选择性必修一当代国际政治与经济
- 5《搭石》教学设计-2023-2024学年语文五年级上册(统编版)
- 9.2解析三大诉讼课件-高中政治统编版选择性必修二法律与生活
- 4.1 概念的概述 课件-高中政治统编版选择性必修三逻辑与思维
- 2024年秋新人教版七年级上册道德与法治教学课件 3.2 学习成就梦想
- 第一章第二节 人口和民族教学设计2023-2024学年粤人版地理八年级上册
- 3.2 有约必守 违约有责 课件-高中政治统编版选择性必修二法律与生活
- 6.2民族区域自治制度课件-高中政治统编版必修三政治与法治
- 神经外科类医用耗材(脑脊液分流系统)省际联盟集采中选产品供应清单
- 林木砍伐施工方案
- 《中华人民共和国药品管理法实施条例》
- 中兴公司应收账款管理问题及优化建议8400字
- GB/T 8574-2024复合肥料中钾含量的测定
- 2024年广西高考物理试卷(含答案解析)
- 2024-2030年中国融雪剂行业现状规模与前景运行态势分析报告
- 第五课+我国的根本政治制度+课件-高考政治一轮复习统编版必修三政治与法治
- 2024年河南水利厅厅属事业单位招考(第二批)易考易错模拟试题(共500题)试卷后附参考答案
- 北师版小学六年级下学期《数 学 好 玩》教案
- 2022风电机组吊装施工组织设计
评论
0/150
提交评论