(微电子学与固体电子学专业论文)基于dhmm非特定人孤立词语音识别及硬件设计研究.pdf_第1页
(微电子学与固体电子学专业论文)基于dhmm非特定人孤立词语音识别及硬件设计研究.pdf_第2页
(微电子学与固体电子学专业论文)基于dhmm非特定人孤立词语音识别及硬件设计研究.pdf_第3页
(微电子学与固体电子学专业论文)基于dhmm非特定人孤立词语音识别及硬件设计研究.pdf_第4页
(微电子学与固体电子学专业论文)基于dhmm非特定人孤立词语音识别及硬件设计研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文 摘要 随着信息技术的发展,语音识别技术得到广泛应用。小词汇量非特定人孤 立词语音识别是语音识别系统的重要分支,在智能玩具、车载系统、家电遥控 等领域有着广泛的应用。当前的语音识别芯片的性能大多速度慢、成本高、识 别率不太理想。获取高速、低成本的非特定人孤立词语音识别方法,己成为语 音识别领域的一个重要的研究课题。 本文在系统地分析国内外语音识别现状、语音识别算法和流程的基础上, 采集并建立小词汇量的语音库。语音库包括4 5 个词语,共计1 4 1 0 个语音。以 此为基础,本文改进端点检测算法,采用基于短时能频值参数的双门限、有效 语音长度参数辅助判决的算法,提高了端点判决的准确性,仿真结果表明端点 检测率达到9 8 6 ,明显优于基于短时平均幅度值结合短时过零率参数的双门 限端点检测算法。采用m f c c 和一阶m f c c 差分参数来提取特征参数,更好地 反映了语音的静态和动态特性,使特征矢量更具有代表性,优于l p c c 参数提 取的特征矢量。采用扰动分裂法生成矢量量化的初始码本,并对可能出现的空 腔做了修正。用定标因子解决了d h m m 识别过程中的计算下溢问题。通过以 上对算法的改进后,仿真结果表明,识别率显著提高,达到9 6 7 。 在f p g a 平台上实现了系统控制模块、端点检测模块和f f t 模块。并改进 了f f t 算法,使四次乘法运算优化为三次乘法运算,从而提高了速度,减少了 面积消耗。实现预定的设计要求。 关键词:语音识别端点检测d h m mf p g a 上海大学硕士学位论文 a b s t r a c t w i t ht h e d e v e l o p m e n t o fi n f o r m a t i o nt e c h n o l o g y , s p e e c hr e c o g n i t i o n t e c h n o l o g yh a sb e e nw i d e l yu s e di nm a n yf i e l d s e s p e c i a l l y , s m a l lv o c a b u l a r y s p e a k e r - i n d e p e n d e n ti s o l a t e d - w o r dr e c o g n i t i o n , a ni m p o r t a n ts u b - b r a n c ho ft h e s p e e c hr e c o g n i t i o ns y s t e m , h a sb e e nw i d e l ya p p l i e di nt h ea r e a ss u c ha si n t e l l e c t u a l t o y , c a r - l o a d e ds y s t e ma n dh o m ea p p l i a n c e sr e m o t ec o n t r o le t c h o w e v e r , t h em o s t p r e s e n tc h i p sw h i c ha l eu s e di ns p e e c hr e c o g n i t i o na p p l i c a t i o nf e a t u r el o wo p e r a t i o n s p e e d , h i g hc o s ta n dn o n - i d e a lr e c o g n i t i o ne f f i c i e n c y a sar e s u l t ,i th a sb e c o m ea n i m p o r t a n tr e s e a r c hi n t e r e s ti nt h es p e e c hr e c o g n i t i o nf i e l dt oa c q u i r et h es p e e c h r e c o g n i t i o n m e t h o dw h i c hc a n p e r f o r m t h e h i 曲s p e e d a n dl o wc o s t s p e a k e r - i n d e p e n d e n ti s o l a t e d - w o r dr e c o g n i t i o n t h i st h e s i sh a sc o n s t r u c t e das m a l lv o c a b u l a r ys p e e c hd a t a b a s eb a s e do nt h e a n a l y s i so fd o m e s t i ca n do v e r a sc u r r e n ts t a t eo fs p e e c hr e c o g n i t i o na n di t s a l g o r i t h ma n di m p l e m e n t a t i o nf l o w o u rs p e e c hd a t a b a s ei n c l u d e s4 5c h i n e s e c h a r a c t e r sw h i c hc o u l db ee q u i v a l e n tt o1 4 1 0c h i n e s es p e e c h e s w eh a v ei m p r o v e d t h ea c c u r a c yo fe n d p o i mj u d g m e n tb yi m p r o v i n gt h ee n d - p o i n td e t e c t i o na l g o r i t h m a n db ya d o p t i n gt h ea l g o r i t h mo fd o u b l e - t h r e s h o l da n de f f e c t i v es p e e c hl e n g t h p a r a m e t e rw h i c hc a l la s s i s t a n tj u d g m e n tb a s e do nt h es h o r t - t i m ee n e r g y - f r e q u e n c y p a r a m e t e r t h es i m u l a t i o nr e s u l t ss h o wa9 8 6 e n d - p o i n td e t e c t i o ne f f i c i e n c y , w h i c hi se v i d e n t l yb e t t e rt h a nt h ed o u b l e - t h r e s h o l de n d - p o i n td e t e c t i o na l g o r i t h m b a s e do ns h o r t t i m ea v e r a g ea m p l i t u d ec o m b i n e dw i t hs h o r t - t i m ez e r o - c r o s s i n gr a t e p a r a m e t e r f u r t h e r m o r e ,b o t h t h es t a t i ca n dd y n a m i cf e a t u r e sh a v e b e e n d e m o n s t r a t e dm o r ed e t a i l e db ye x t r a c t i n gc h a r a c t e r i s t i cp a r a m e t e r sw i t hm f c ca n d f i r s t - o r d e rm f c cd i f f e r e n t i a lp a r a m e t e r s ,w h i c hh a sm a d et h ec h a r a c t e r i s t i cv e c t o r s m o r er e p r e s e n t a t i v et h a nt h a te x t r a c t e db yl p c cp a r a m e t e r t h e n , t h ei n i t i a lc o d e s q u a n t i z e db yv e c t o r sh a v eb e e ng e n e r a t e dw i t l ld i s t u r b a n c ed i v i s i v ea p p r o a c ha n dt h e p o t e n t i a le m p t yc e l l sh a v ea l s ob e e nc e r r e c t e d i na d d i t i o n , t h es c a l i n g 白c t o 娼h a v e i 上海大学硕士学位论丈 h e l p e d t or e s o l v et h eu n d e r - o v e r f l o wc o u n t i n gd u r i n gt h ed h m mr e c o g n i t i o n p r o c e s s a f t e rt h o s e 硫p r o v e m e n t s t h es i m u l a t i o n r e s u l t ss h o wa no b v i o u s l y i m p r o v e m e n to f r e c o g n i t i o ne f f i c i e n c yw h i c hi su p t o9 6 7 t h i st h e s i sh a si m p l e m e n t e dt h es y s t e mc o n t r 0 1 e n d - p o i n td e t e c t i o na n df f r m o d u l e so i lt h ef p g ap l a t f o r m e s p e c i a l l y , w eh a v ei m p r o v e dt h ef f ra l g o r i t h mt o o p t i m i z et h e4 - t i m em u l t i p l i c a t i o nt o3 - t i m eo n e w h i c hh a si m p r o v e dt h eo p e r a t i o n s p e e da n dc u td o w nt h ea r e ao v e r h e a da se x p e c t e d k e y w o r d s :s p e e c hr e c o g n i t i o n , e n d p o i n td e t e c t i o n , d h m m ,f p g a v i i i 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:趁) 缝z 绝日期:竺! ! :! : 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) i u 伽们,牛2 , 上海大学硕士学位论文 第一章绪论 1 1 课题研究的目的及意义 作为人机自然交互( h u m a n - m a c h i n en a t u r a li n t e r f a c e ,h m n i ) 的第三代技术 语音识别技术近年来有了突破性的进展,人与机器以自然语言对话正在成 为可能,长期以来,让机器听懂人类的语音,是人类很想解决的事情【1 2 1 。语音 识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令 的技术。这一技术具有极为广阔的应用领域和广阔的市场前景,使其成为备受 人们关注的一大热点。语音识别是一门新兴的边缘学科,是从事信号与信息处 理学科研究人员十分关注的研究领域。它与语音学、语言学、数理统计学以及 神经生理学等学科也有非常密切的关系【2 】。 当今世界,计算机信息处理系统和电子产品跟人类的日常生活和工作越来 越密不可分。人们对当前的人与机器的主要信息交换方式:键盘与鼠标,越来 越不满意,而希望能够用自然语言与机器交流,进行信息传递,从而大大提高 人的工作效率【3 一。微软公司总裁比尔盖茨认为下一代的计算机操作系统及界 面将抛弃以往的键盘和鼠标,代之以真正意义上的人机对话。而日用电子产品 比如手机将实现语音拨号,空调温度、风向等的语音控制,从而代替以往的繁 琐的键盘操作,使人的生活、工作更为方便,尤其为残疾人的生活、工作带来 更大的方便【2 】。 语音识别应用及语音识别芯片的应用前景是非常广泛的。比如,语音听写 系统极大地减少了输入工作量。语音查询可用于旅游、银行、铁路、航空等各 种服务业的查询系统。语音识别及芯片可以用于工业控制方面,尤其是环境恶 劣、对人体有伤害或人难以接触的地方。还可以用于军事和国防事业,语音玩 具等方面闸。尤其是语音嵌入汽车导航控制的趋势,预示着语音识别及芯片更 广阔的应用前景。比如德国梅塞德斯公司已尝试在其新款轿车上配上新型语音 导航系统,可以识别8 0 0 个地名,驾驶员只要说出目的地,导航系统将很快找 出最佳行车路线,而后在行驶过程经过的每个路口给出语音提示,并在仪表屏 幕上显示相关路线。美国m m 公司则与日本的丰田汽车公司合作,将目前最先 上海大学硕士学位论文 进的语音识别系统i b m v i a v o i c e 与汽车导航系统融为一体,其目的不仅要使汽 车接受音控指令开关车门、选择行车路线、加油站,而且汽车也以语音回答, 进一步趋于日常化、生活化【6 】。 语音识别技术的应用可以分为两个发展方向:一个方向是大词汇量连续语 音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的 语音信息查询服务系统,这些系统都是在计算机平台上实现;另外一个重要的 发展方向是小型化、便携式语音产品的应用,如无线手机上的拨号、汽车设备 的语音控制、智能玩具、家电遥控等方面的应用,这些应用系统大都使用专门 的硬件系统实现【2 7 1 。随着电子技术的快速发展,特别是近几年来迅速发展的语 音信号处理专用芯片( a p p l i c a t i o ns p e c i f i ci n t e g r a t e dc i r c u i t ,a s i c ) 和语音识 别片上系统( s y s t e m o n c h i p ,s o c ) 的出现,为其广泛应用创造了极为有利的 条件引。而语音信号处理专用芯片是其关键所在【9 】。市场上的语音识别专用芯片 代表有,美国d s pc o m m u n i c a t i o n 公司的d v c 3 0 6 和d 6 1 0 1 、日本o k i 半导体 公司的m s m 6 6 7 9 和美国s e n s o r yc i r c u i t s 公司的r s c l 6 4 ,r s c 3 6 4 等9 1 0 1 。 在将来5 1 0 年内,语音识别及芯片的发展将大大超出人们的想象力。将创 造一个新的产业,并迅速融入大众的生活。本研究课题主要进行孤立词、非特 定人、小词汇量语音识别算法及其芯片设计的研究。本文将应用并优化d h m m 语音识别算法、构建硬件,使其算法能用专用芯片实现,同时也可以应用到其 他小型化、便携式语音产品中。 1 2 课题研究的背景 1 2 1 语音识别研究的现状 对语音识别的研究从上世纪5 0 年代初期已经开始,直到7 0 年代初才逐步 取得实质性的进展【”。这是因为一方面计算机的迅速发展为实现复杂算法的软 硬件要求提供了条件,同时数字信号处理理论和算法也取得了重大突破和飞跃, 比如快速傅立叶变换、离散余弦变换、倒谱计算、线性预测算法、数字滤波器 等的研究取得重大进展。 通过前期研究,研究者认识到语音识别研究的艰巨性,这主要体现在语音 2 上海大学硕士学位论文 信号和自然语言的多变性及复杂性。有以下几方面:词和词之间的分割困难; 协同发音现象的解决困难;发音中的无关信息多,分离无关信息困难:不同人 说同一个词的声学特征不同;同一人在不同时间不同条件下说同一词的声学特 征也会不同【1 1 】。自然语言借助语法规则描述,从而多变,计算机难以实删1 2 1 。 上世纪7 0 年代至今主要的语音研究成果有: ( 1 ) 上世纪7 0 年代对发音机理有了更深的了解。得到了声道模型和语音信 号线性预测处理技术,线性预测编码( l i n e a rp r e d i c t i o nc o d i n g l p c ) 技术的 出现使人们能够从语音的声学信号中得到能较好反映词义的信号特础1 3 】。 其后的线性预测倒谱系数( l i n e a rp r e d i c t i o nc e p s t r u r ac o e f f i c i e n t l p c c ) 和m e l 频域倒谱系数( m e lf r e q u e n c yc e p s t r u r ac o e f f i c i e n t ,m f c c ) 成为语音 特征参数的主流模型。l p c c 系数主要是模拟人的发声模型,未考虑人耳的听 觉特性。它对元音有较好的描述能力,对辅音描述能力及抗噪性能比较差,而 其优点为计算量小,易于实现。m f c c 系数则考虑到了人耳的听觉特性,具有 较好的识别性能。但是,由于它需要进行快速傅立叶变换( f a s t f o u r i e r t r a n s f o r m a l g o n t h n 【l ,f f t ) ,将语音信号由时域变换到频域上处理,因此其计算量和计算 精度要求高,必须在d s p 上完成【1 1 ,1 4 1 。 ( 2 ) 动态规划模板匹配技术,这一技术又称为动态时间归整技术( d y n a m i c t i 鹏w a r p i n g ,d t w ) 。这一技术解决了同一个词由于说话者不同而语音时间长 度不同的匹配问题,成为上个世纪7 0 年代至8 0 年代语音识别的主流模型和算 法。其训练方法简单,计算量较小,在很多任务简单的识别系统当中,例如小 词汇量特定人孤立词语音识别系统,还在广泛应用 1 u 4 】。 ( 3 ) 基于概率的统计语音模型。人们意识到上下文对语音识别的重要性, 但是语言学的语法规则在计算机编程时很难利用,所以,人们就转而用概率统 计的方法来描述句子中词和词之间的搭配规律,因而出现了统计语言模型。在 这个模型里,语言学的上下文知识完全由计算机自动地从大量的文章预料中去 学习。这一模型在语音识别中取得了很好的效果,为语音识别开辟了一个重要 的研究方向。7 0 年代中期隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 的引 入是这一时期的最大成果。d t w 算法对特定人、孤立词的语音识别系统非常有 上海大学硕士学位论文 效,但不适用非特定人的孤立词语音识别系统,因为其识别率非常低【嘲。h m m 方法是当前语音识别系统的主流识别算法。它是建立在统计模型基础上的识别 方法,其识别性能高,稳健性( r o b u s t ) 好,尤其在非特定人识别中,具有明 显优势。隐马尔可夫模型分为离散隐马尔可夫模型和连续隐马尔可夫模型【“1 6 1 。 a ) 离散隐马尔可夫模型( d i s c r e t eh i d d e nm a r k o vm o d e l ,d h m m ) 。离散 h m m 方法是先将特征参数进行矢量量化( v e c t o rq u a n t i z a t i o n ,v q ) ,用离散 的数值表示特征矢量,然后再进行h m m 的统计识别,这样可以大大压缩特征 参数在识别过程中的运算量和存储空间。当然,在量化过程中会带来损失,对 识别性能有一定的影响。但是,为了能在资源非常有限的芯片上进行非特定人、 孤立词语音识别,d h m m 方法仍是可行的方案,具有明显的优势。 b ) 连续隐马尔可夫模型( c o n t i n u o u sh i d d e nm a r k o vm o d e l ,c h m m ) 。该 方法识别精度高,但运算量大,主要用于大词汇量连续语音识别,一般都需要 基于p c 机平台,目前尚未在专用芯片上实现。 ( 4 ) 人工神经网( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) 。上世纪9 0 年代的研究 热点是a n n ,以及a n n 和h m m 相结合。由于语音信号具有动态时间特性, 因而应用人工神经网络优化有一定困难,难以达到很高的识别性能,而且学习 时间长,运算量过大,只有极少量的语音识别芯片用该算法实现【1 1 。 1 2 2 语音识别的软件实现与应用 最早的语音识别系统a n d r ys y s t e m 诞生于1 9 5 2 年。上世纪6 0 年代末7 0 年代初,语音识别最重要的发展是语音信号线性预测编码( l p c ) 技术和动态时间 规整( d t w ) 技术的发展。上世纪8 0 年代语音识别的研究从模板匹配技术转向基 于统计模型的技术,隐含马尔可夫模型的引入具有重要意义,同时统计语言模 型也开始取代规则的模型【2 ,3 1 。上世纪9 0 年代后,语音识别技术进一步成熟, 在研究上当前的识别系统已经达到了相当高的识别性能,应用上已有相当的商 用语音识别软件投放市场。以下是目前业晃主要应用和产品的简介【6 16 1 7 】: ( 1 ) 听写机应用。m m 公司于1 9 9 7 年开发出汉语v i a v o i c e 语音识别系统, 次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统 4 上海大学硕士学位论文 v i a v o i c e 9 8 。它带有一个3 2 ,0 0 0 词的基本词汇表,可以扩展到6 5 ,0 0 0 词,还包 括办公常用词条,具有“纠错机制”,其平均识别率可以达到9 5 。该系统对新 闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。此 外,比较著名的商用英语连续语音识别系统有:d r a g o nn a t u r a l l ys p e a k i n g p r e f e r r e d4 0 、f r e es p e e c h2 0 0 0 、l & hv o i c ex p r e s sp r o f e s s i o n a lv e r s i o n4 0 和 v i a v o i c ep r om i l l e n n i u me d i t i o n 等。 ( 2 ) 电话查询与交易应用。s p e e e h w o r k s 公司是世界领先的电话自动语音识 别系统( a s r ) 解决方案的提供者,代表产品为s p e e e h w o r k s6 。利用该产品,用 户可以通过电话用自然语言与系统进行交互,进行旅游预约、股票交易、银行 服务、订票服务、宾馆服务和寻呼服务等,无需服务人员的介xt 6 。 ( 3 ) 基于掌上电脑和d s p 的应用。通过简化识别算法,语音识别软件可以 运行在如掌上电脑和d s p 的平台上,实现语音导航、拨号和对家用电器的语音 控制等功能。目前市场上出现了语音识别电话、语音识别记事本等产品,如美 国v p t c 公司的v o i c eo r g a n i z e r 和法国的p a r r o t 掣6 ,1 引。 1 2 3 语音芯片的现状 语音识别专用芯片的中心运算处理器只是一片低功耗、低价位的智能芯片, 与一台甚至多台p c 机相比起来,其运算速度、存储容量都非常有限,具有体 积小、可靠性高、耗电低、低价位等特点。根据识别性能及语音识别算法的不 同,语音识别专用芯片有以下几种类型硼: ( 1 ) 由多子带带通滤波器及线性匹配电路构成。这是最早期的语音识别专 用集成电路。它是由一组带通滤波器组成特征提取电路,然后用线性匹配电路 进行模式匹配。这种电路的语音识别性能低,现已很少应用。 ( 2 ) 由单片微控器( m c u ) 组成的语音识别专用i c 。用8 位机或1 6 位机 为计算核心,外加a d 变换,d a 变换以及存储器组成。由于m c u 的运算能 力有限,因而其识别算法不可能复杂,精度也低,故一般识别率不会太高。典 型芯片是1 9 9 6 年美国s e n s o r y 公司生产的r s c 1 4 6 。 ( 3 ) 由数字信号处理器( d s p ) 组成的语音识别系统。一般由定点1 6 位 上海大学硕士学位论文 d s p 组成,外加a d 变换、d a 变换,以及r o m 、r a m 、f l a s h 等存储器组 成。由于d s p 包含用作数字信号处理运算的专用部件,因而运算能力强,精度 高,适用于组成较高性能的语音识别系统。用d s p 组成的语音识别系统可以实 现孤立词特定人和非特定人语音识别功能,其识别词条可以达到中等词汇量。 此外,还可以实现说话人识别以及高质量高压缩率语音编解码功能,因而同时 可以产生高品质的语音合成和语音回放功能,这是当前语音识别专用芯片的主 流组成。 ( 4 ) 由人工神经网络构成的语音识别专用芯片。由于语音信号是一个时间 区间动态变化的信号,一般采用多层前向感知机算法。但是,由于人工神经网 络很难达到和语音信号的最佳匹配,因此用人工神经网络实现的语音识别系统 的识别性能很不理想。 ( 5 ) 语音识别系统级芯片( s y s t e m o nc i r c u i t , s o c ) 。将m c u 或d s p 、a d , d a 、r a m 、r o m 以及预放、功放等电路集成在一个芯片上,只要加上极少的 电源供电等单元就可以实现语音识别、语音合成以及语音回放等功能。这是最 近两年出现的最先进的语音识别芯片,其性能价格比较高,功耗省。最有代表 性的是s e n s o r y 公司的r s c 3 6 4 及i n f i n e o n 公司的u n i s p c h s d a 8 0 d 5 1 1 们。 国内在语音识别技术的开发与研究方面起步较晚,由最初的几个数字的识 别到现在的非特定人大词汇量连续语音识别。上世纪8 0 年代中期开始,中国科 学院声学所、清华大学、北京大学等单位,结合汉语的语音学和语言学的特点, 在汉语语音识别系统的基础理论、模型、算法、实用系统开发等方面做了大量 的工作,并取得一系列成果。国内研究的大多为大词汇量孤立词识别,直到世 纪之交才有中科院声学所、自动化所、清华大学等单位进行连续语音识别系统 的研究【1 一。 国内的语音识别专用芯片的开发与研究起步更晚,国内的公司有深圳宇芯 科技发展有限公司、北京华录润声微电子技术有限公司、上海闻通信息科技有 限公司以及一些大学院校等。主要应用于声控玩具,电话语音芯片、汽车声控、 音乐合成芯片等【6 7 ,引。 1 3 本文的研究内容及章节安排 6 上海大学硕士学位论文 本篇论文主要研究基于d h h m 的小词汇量非特定人孤立词语音识别算法 的优化及实现、以及硬件设计。 本文在系统地分析国内外语音识别现状、语音识别算法和流程的基础上, 采集并建立小词汇量的语音库。语音库包括4 5 个词语,共计1 4 1 0 个语音。本 文以此为基础,主要做了以下工作:在改进过零率的基础上采用基于短时能频 值参数双门限、有效语音长度参数辅助判决的端点检测算法,使端点检测率进 一步提高,优于基于短时平均幅值结合短时过零率参数的双门限端点检测算法; 在基于m e l 倒谱系数的基础上,引入m f c c 的一阶差分参数来反映语音信号 的动态特性,使形成的特征矢量具有更好的代表性;采用扰动分裂法生成语音 信号的初始码本,并对可能出现的空胞腔,不是简单将胞腔一分为二,而是将 最大的胞腔一分为二,较好地解决了空胞腔问题;采用定标因子解决了基于离 散隐马尔可夫模型的语音训练和语音识别过程中的计算下溢问题。在f p g a 平 台上实现了语音识别的系统控制模块、语音端点检测模块和f f t 模块。 本篇论文章节安排如下: 第一章阐述了课题研究的目的、意义和国内外研究现状,概括了本文的研 究内容。 第二章对语音识别算法的端点检测算法,特征参数提取、矢量量化、动态 时间规整算法、隐马尔可夫模型的前向一后向算法、v i t e r b i 算法、b a u m - - w e l c h 算法分别做了详细介绍。 第三章主要对语音识别算法中的端点检测算法、特征参数提取、v q 矢量量 化、d h m m 训练和识别算法做了详细的改进和优化。给出了改进和优化后的实验 结果。 第四章详细介绍语音识别系统的控制逻辑模块、端点检测模块和f f t 模块 硬件实现方案。 第五章是总结了全文。 7 上海大学硕士学位论文 第二章语音识别的基本算法 2 1 语音识别过程概述 语音信号分析是语音识别的前提和基础,只有分析出可表示语音信号本质 特征的特征参数,才可以利用这些特征参数进行语音识别。因此语音信号分析 在语音识别中有着重要作用。 语音信号分析过程采用“短时分析技术”,这是因为语音信号从整体来看其 特征参数是随时间变化而变化,是一个非平稳态过程,不能用处理平稳信号的 数字信号处理技术对其进行分析处理。语音信号虽然是时变信号,但在短时间 范围内,语音特征基本保持相对稳定,即可以认为在这段时间内是不变的,这 个短时间一般是l o m s - 3 0 m s ,因而可以把语音信号看作是一个准稳态过程,即 语音信号具有短时平稳性。所以对语音信号分析、处理必须建立在短时分析上, 对语音信号分帧,帧长一般取l o m p 3 0 m s 2 0 1 。 图2 - 1 语音识别系统的基本流程 非特定人孤立词小词汇量语音识别系统一般由预处理、端点检测、特征参 数提取、矢量量化和语音识别构成【2 1 ,2 2 1 。其基本流程如图2 - 1 所示。预处理之 前要对语音信号进行数字化处理,这可以由计算机完成。预处理的功能是通过 高频预加重来平滑信号频谱,并利用窗函数把语音数据序列分成连续的信号帧。 预处理一般包括预加重、加窗和分帧等。端点检测确定语音帧的起始点与结束 点,即从语音数据序列中确定有效的语音信号的起始帧和结束帧。特征参数提 取用于完成基于频谱的特征矢量的计算,并存储特征矢量。为减少计算量和节 上海大学硕士学位论文 省存储量,需要对语音帧特征矢量进行矢量量化。矢量量化主要包括码本生成 和优化,还包括矢量量化码本的搜索算法。最后,语音识别完成特征参数与己 知的语音信号模板之间的匹配计算,井选择其中匹配程度最高的语音信号模板 作为识别结果,语音模板是以大量的语音数据用d h m m 模型中的b a u m w e l c h 算法进行训练所得到。本章将对非特定人孤立词语音识别所用的算法和参数做 详细介绍。 2 2 预处理 在对语音信号分析之前必须对语音信号进行预处理。预处理一般包括预加 重、加窗和分帧等。预加重的目的是提升高频部分,使信号的频谱平坦,保持 在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或参 数分析。预加重可在语音信号数字化之前进行,但一般在语音信号数字化之后, 特征参数提取之前进行。它一般是一阶的数字滤波器: 日( z ) = i 一,圮。( 2 一1 ) 式( 2 1 ) 中,| i 值接近1 。 一 预加重数字滤波处理之后,再进行加窗分帧处理。一般帧长取1 0 m s 3 0 m s , 分帧采用交叠分帧,即前一帧和后一帧有交叠重复的语音信号。前一帧和后一 帧有交叠重复的部分称为帧移,帧移和帧长的比值一般取为5 。分帧是用可 移动的有限长度窗口函数加权实现,即用窗函数w 例乘可砂,从而形成加窗语 音信号爿似奉w 例。 常用的窗函数是矩形窗和汉宁窗( h a r m i n g w i n d o w ) 等。表达式如下( 其中n 为帧长) : 矩形窗: 川: lo i 掣一) ( 2 - 2 ) h ”) 2 1o ,l 为其他 汉宁窗: 川= f0 抵虹2 删州。刀鬟p , 9 上海大学硕士学位论文 窗函数形状和长度的选择,对短时分析参数的特性影响很大,所以要选择 合适的窗函裂州。 2 3 端点检测 在语言识别技术中,从背景中找出语音的起点和终点是语音信号处理领域 最基本的问题【2 3 1 。特别在孤立词语音识别中,起点和终点的准确性直接关系到 语音识别率的高低。常用的语音端点检测参数有短时平均幅值、短时过零率、 短时能频值掣2 0 ,卅。下面逐一介绍这些参数。 2 3 1 短时平均幅度检测法 设加窗分帧处理后得到的第n 帧语音信号为毛( m ) 。短时平均幅值e ,表征 语音信号能量的大小,其定义为( 其中n 为帧长) : = 鸳,i g 卸 短时平均幅度函数的主要用途有:可以区分浊音和清音,因为浊音的短时 平均幅度值比清音大的多;可以区分声母和韵母的分界,无声与有声的分界等; 还可以用在语音识别中。 2 3 2 短时过零率检测法 短时过零率表示一帧语音中语音信号穿过零电平的次数。对于连续语音信 号,过零意味着时域波形通过时间轴;而对于离散语音信号,如果相邻的取样 值改变符号则称为过零。定义语音信号( 肌) 的短时过零率z c r 为: - z c r 。毛封唧如,卜弘 c 叫i 倍s , 其中,s g n 】是符号函数: 酬十 :;,黝 ( 2 - 6 ) 1 0 上海大学硕士学位论文 语音信号中,浊音能量集中在较低的频率段内( 3 k h z 以下) ,清音能量多 集中在较高频率段内,频率的高低又意味着过零率的高低,所以据此可以大致 判断出清音和浊音。 2 3 3 短时自相关检测法 相关分析是一种常用的时域波形分析方法,有自相关和互相关之分嘲。语 音信号处理中常用的是自相关,故这里只讨论自相关函数。同样,在语音信号 分析中,分析的是短时自相关函数。定义语音信号x a m ) 的短时自相关函数 r ( | ) 如下( 其中n 是帧长) : 一1 一k 巳( 七) 2 x ( m ) x n ( 埘+ 七) ( o _ | 芷)( 2 。7 ) m = u 其中k 是最大的延迟点数。 自相关函数有如下性质f 2 0 】: ( 1 ) 如果x a m ) 是周期函数,则自相关函数也是周期函数。 ( 2 ) 自相关函数是偶函数。 ( 3 ) 当k = 0 时,自相关函数具有最大值。而且这个最大值等于随机性序列 的平均功率。 浊音的自相关函数具有一定的周期性,而清音的自相关函数缺乏周期性。 所以,可以用自相关函数区分浊音和清音,还可以用自相关函数估计浊音的基 音周期。 2 3 4 短时能频值检测法 短时能频值( e n e r g y - f r e q u e n c y - v a l u e ) 是短时平均幅度值与短时过零率的 乘积,又称之为短时能零积,定义语音信号毛( 册) 的短时能频值为: e f t 2 e z c & ( 2 8 ) 其中e 如表达式( 2 4 ) 所示,z c 已如表达式( 2 - 5 ) 所示。 上海大学硕士学位论文 在仿真试验中,我们发现用短时能频值做端点检测的参数,优于短时平均 幅度值、短时过零率、短时自相关函数。这一点将在后面的章节中详细阐述。 2 4 特征参数 特征参数提取就是从语音信号中抽取有效的语音信号特征。由于语音具有 短时特性,因此语音特征参数可以按帧进行信息提取,获得帧特征矢量。语音 信号经过特征参数提取后,形成一个矢量序列。矢量序列再按某种语音识别模 型进行训练后就形成了语音模板。语音特征参数的提取十分重要,直接影响到 语音识别的准确性。一个好的语音特征参数要满足以下三方面的要求【”2 2 : ( 1 ) 能有效的提取语音的信号特征,包括人的声道特征与听觉模型; ( 2 ) 各阶参数之间有良好的独立性; ( 3 ) 特征参数有高效的计算方法。 常用的特征参数有线性预测倒谱系数( l p c c ) 、基音周期估计( p i t c hp e r i o d e s t i m a t i o n ) 、m e l 频率倒谱系数( m f c c ) 等。最常用的是m f c c ,l p c c 特征参 数。研究结果表呼1 ,2 ”,这两种参数对语音识别的性能均有提高。另有资料表 明【2 1 ,基音周期的提取和估计对汉语更是一个重要的问题。另外还有基于小波 分析的特征参数提取,但由于计算量太大,不适合非特定人孤立词小词汇量语 音识别,故不做介绍。 2 4 1 线性预测倒谱系数 1 9 4 7 年维纳首次提出了线性预澳q ( l i n e a rp r e d i c t i o n ) 概念,板仓等人在1 9 6 7 年首先将线性预测技术应用到语音信号分析中1 1 1 , 2 0 。现在线性预测技术普遍地 应用语音信号处理的各个方面。 线性预测分析的基本思想是:由于语音样点之间存在相关性,所以可以用 过去的样点值预测现在或未来的样点值,即一个语音的抽样能够用过去若干个 语音抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间 的误差在某个准则下达到最小值来决定唯一的一组预测系数。而这组预测系数 反映了语音信号的特性,可以作为语音信号特征参数用于语音识别和语音合成 上海大学硕士学位论文 等语音处理方面。 型 三卜 l _ - - _ - 一 图2 - 2 语音模型 线性预测分析的基本思想是用过去p 个样点值来预测现在或未来的样点值: ;( ,1 ) = a i s ( n i ) p i = 1 。 预测误差s ( n ) 为: ( 2 - 9 ) 占( ,1 ) = j ( n ) 一j ( 厅) = s ( h ) 一a i s ( n f ) ( 2 1 0 ) 口 i = i 这样就可以在某个准则下使预测误差达到最小值来决定唯一的一组线性预 测系数q ( 仁1 ,2 ,p ) 。这个准则通常是最小均方误差。线性预测简单的模 型参数描述如图2 2 所示。 系统的输入p ( n ) 是语音激励,s ( n ) 是输出语音,模型含有极点和零点的称 做自回归滑动平均模型( a r m a ,a u t o r e g r e s s i v em o v i n g a v e r a g e ) ;当日( z ) 只含 极点时,模型的输出只取决与过去的信号值,称为自回归模型( a r , a u t o r e g r e s s i v e ) ;当h ( z 1 只包含零点时,称为滑动平均模型( m a ,m o v i n g a v e r a g e ) ,此时模型的输出只由模型的输入决定。实际上语音信号处理中最常 用的是全极点模型,其传输函数为: 酢,2 面g 5 南 ( 2 - 1 1 ) 其中p 是预测器阶数,0 是声道滤波器增益。语音抽样s ( n ) 和激励信号n ) 之间可以用差分方程来表示: s ( n ) = ( 弗) + a i s ( n - i ) ( 2 - 1 2 ) 上海大学硕士学位论文 在模型参数估计过程中,把如下系统称为线性预测器: 口 i ( 帕= 妻a i s ( n 一0 ( 2 一t 3 ) i = l 式中珥称为线性预测系数。则p 阶线性预测器的系统函数具有如下形式: p ( z ) = d i z 。 i = 1 ( 2 1 4 ) 在语音信号处理中,存在着误差,则预测误差的系统函数为 p a ( z ) = 1 - 甲。 ( 2 1 5 ) 线性预测分析要解决的问题是:给定语音序列,使预测误差在某个准则下最小, 求预测系数的最佳估计值,这个准则通常采用最小均方误差准则2 1 ,2 6 1 。 定义短时平均预测误差为: 层 f 2 c n , = e p 。,一,篓,q s c 玎一,2 c z t a , 为使短时平均预测误差最小,对q 求偏导,并令其为零。 线性预测方程组的求解,可用莱文逊杜宾( l e v i n s o n - d u r b i n ) 递推算法来高 效求解。莱文逊杜宾( l e v i n s o n - d u f b 蛐递推算法详见相关文献【1 “2 0 ,在此不作 介绍。 语音信号的倒谱定义为信号频谱模的自然对数的逆傅立叶变换( 设相位恒 定为零) 。设信号为s ( n ) ,则其倒谱为: ( n ) = i d f t i n d f t s ( n ) l ( 2 - 1 7 ) 倒谱系数是一种描述语音信号的良好参数,其优点在于:它较好的去掉了 语音信号产生过程中的激励信息,主要反映声道频响,而且只用十几个参数就 能够较好地描述语音的共振峰特征,因此广泛应用于语音识别领域。此外,基 于线性预测的倒谱分析有一种快速递推求解方法,这也是它的一个优点驯。 2 4 2 基音周期估计 1 4 上海大学硕士学位论文 基音是浊音发声时声带振动所引起的周期性,基音周期是指声带振动频率 的倒数。基音周期是语音信号最重要的参数之一,基音周期描述了语音激励源 的一个重要特,征 1 4 】。基音周期所包含的信息在语音识别、语音分析与综合以及 低速率语音编码等领域有广泛的应用。汉语是有声调

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论