(信号与信息处理专业论文)基于隐马尔可夫和人工神经网络混合模型的语音识别.pdf_第1页
(信号与信息处理专业论文)基于隐马尔可夫和人工神经网络混合模型的语音识别.pdf_第2页
(信号与信息处理专业论文)基于隐马尔可夫和人工神经网络混合模型的语音识别.pdf_第3页
(信号与信息处理专业论文)基于隐马尔可夫和人工神经网络混合模型的语音识别.pdf_第4页
(信号与信息处理专业论文)基于隐马尔可夫和人工神经网络混合模型的语音识别.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

长春工业火学硕士学位论文 摘要 语音识别是一门内涵丰富,应用广泛的技术,它的实用性和趣味性使得人们对它 有着迫切的应用需求。在语音识别系统中,隐马尔可夫模型是当前最为流行的语音识 别模型,占据着主导地位。h m m 模型之所以应用较为成功,主要是它具有较强的对时 间序列结构的建模能力,尽管如此,h m m 技术也存在一些缺点,如:决策分类能力弱, 需要语音信号的先验统计知识等。人工神经网络方法作为模拟人脑思维机制的工程模 型,它与h m m 正好相反,其分类决策能力和对不确定事物的描述能力已得到举世公 认,但它对动态时间信号的描述能力尚不尽如人意。本论文在介绍h m m 模型和人工 神经网络的基本原理的基础上,将两种方法有机结合,进一步提高语音识别的准确率。 对于含噪语音信号的有效特征提取是语音识别至关重要的一步。本论文首先介绍 了在语音识别中最常用的两种特征参数:基于发声系统模型导出的线性预测倒谱系数、 基于听觉系统模型导出的m e l 频率倒谱系数,而这两种特征参数在纯净语音下识别效 果比较好,但是在噪声环境下识别效果不尽如人意。接着提出利用小波变换对含噪语 音信号进行去噪的方法,再经m e l 滤波器组转换为m e l 频率下的倒谱系数,这种新的 特征参数进一步反映了语音信号的动态特性、增强抗干扰能力,从而提高了识别率。 提出了用隐马尔可夫和人工神经网络混合模型对语音信号进行识别的方法,即有 效的运用了经典h m m 模型对动态时间序列较强的建模能力,又充分利用了人工神经 网络较强的分类决策能力。实验证明,该模型适合于对噪声背景下的语音进行识别, 同经典的h m m 模型相比较,具有更好的抗噪鲁棒性,在信噪比较低的情况下,识别 率比经典的h m m 模型有明显的提高。 关键词:语音识别,小波变换,隐马尔可夫模型,人工神经网络,h m m a n n 长春工业大学硕士学位论文 a b s t r a c t s p e e c hr e c o g n i t i o ni sat e c h n i q u eo fa b u n d a n tm e a n i n ga n de x t e n s i v ea p p l i c a t i o n p e o p l ed e s i r e du r g e n t l yt h et e c h n i q u ef o ri t sp r a e t i c a b i l i t ya n di n t e r e s t i n g i ns p e e c h r e c o g n i t i o ns y s t e m ,h i d d e nm a r k o vm o d e l ( h m m ) i st h em o s tp o p u l a ra n dd o m i n a n to n e i t h a ss u c c e s s f u la p p l i c a t i o nb e c a n s ei t ss t r o n g e rm o d e l i n ga b i l i t yo ns t r u c t u r eo ft i m es e r i e s h o w e v e r , h m mt e c h n i q u eh a sal i t t l ed i s a d v a n t a g e f o re x a m p l e ,t r a n s c e n d e n t a ls t a t i s t i c a l k n o w l e d g eo fs p e e c hs i g n a li s n e e d e db e c a u s eo fi t sf e e b l i s ha s s o e t e dd e c i s i o n - m a k i n g a b i l i t y ,a n ds oo n a r t i f i c i a ln e u r a ln e t w o r k ( a n n ) a ss i m u l a t i n gt h i n k i n gm e c h a n i s mo f c e r e b r am o d e lh a ss t r o n g e ra s s o e t e dd e c i s i o n - m a k i n ga b i l i t ya n dd e s c r i b e da b i l i t yt o u n c e r t a i nt h i n g ,b u ti t sd e s c r i b e da b i l i t yt od y n a m i ct i m es i g n a li sd i s s a t i s f i e d t h et h e s i s c o m b i n e db a s i cp r i n c i p a lo fh m m - m o d e lw i t l la n nt oi m p r o v et h ee x a c tr a t eo fs p e e c h r e c o g n i t i o n i tw a st h em o s ti m p o r t a n ts t e po fs p e e c hr e c o g n i t i o nt oe x t r a c tt h ee f f e c t i v ef e a t u r e s f r o ms p e e c hs i g n a l 、i t l ln o i s e i nf i r s t , t h em o s tc o m m o nf e a t u r ep a r a m e t e r si ns p e e c h r e c o g n i t i o nh a v eb e e ni n t r o d u c e d t h ep a r a m e t e r sf i r el i n e rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t t h a tb a s e do nt h em o d e lo f p h o n a t i o ns y s t e ma n dm e l f i q u e n c ye e p s t r u mc o e f f i c i e n t t h a t b a s e do nh e a r i n gs y s t e m t h ea b o v et w of e a t u r ep a r a m e t e r sh a v eb e t t e re f f e c ti np u r es p e e c h r e c o g n i z i n g ,b u ta r en o tp e r f e c ti nn o i s ee n v i r o n m e n t t h et h s i sp u t sf o r w a r dam e t h o dt h a t e l i m i n a t en o i s ef r o ms p e e c hs i g n a lw i t l ln o i s eu s i n gw a v e l e tt r a n s f o r m t h e ng a i nm e l f i e q u e n c yc e p s t r u mc o e f f i c i e n tf r o mm e lf i l t e rg r o u p t h en e w f e a t u r e sp a r a m e t e r sn o to n l y r e f l e c t e dd y n a m i cc h a r a c t e r i s t i co fs p e e c hs i g n a l ,b u ta l s oe n h a n c e dt h e a b i l i t yo f a n t i i n t e r f e r e n c e ,i m p r o v e dt h er a t eo f r e c o g n i t i o n t h et h s i sa l s op u t sf o r w a r dt h em e t h o do fs p e e c hs i g n a lr e c o g n i t i o nu s i n gh m m a n n h y b r i dm o d e l t h i sm e t h o du s e dm o d e l i n ga b i l i t yo fc l a s s i c a lh m m - m o d e la n da s s o e t e d d e c i s i o n - m a k i n ga b i l i t yo fa n n t h er e s u l t sd e m o n s t r a t e d :t h em o d e li sa d a p t e dt os p e e c h r e c o g n i t i o nw i t hn o i s e c o m p a r i n gt oc l a s s i c a lh m m - m o d e l ,h m m a n nh y b r i dm o d e lh a s b e t t e rr o b u s t n e s so f n o i s ys i g n a la n dr a t eo f r e c o g n i t i o ni nl o w s i g n a l - t o n o i s e k e yw o r d s :s p e 燃hr e c o g n i t i o n , w a v l e tt r a n s f o r m , h i d d e nm a r k o vm o d e l ,a r t i f i c i a l n e u r a ln e t w o r k , h m m a n n n 长春工业大学硕士学位论文 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研 究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个 人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人 和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。 论文作者躲前磕謦 日期:力卯7 年争月,日 长春工业大学硕士学位论文 第一章绪论 1 1 引言 语音识别是机器通过识别和理解过程把语音信号转换为相应的文本文件或命令的 高技术。作为一个专门的研究领域,语音识别又是一门交叉学科,它与声学、语音学、 语言学、人工智能、数字信号处理、信息理论、模式识别理论、最优化理论、计算机 科学等众多学科紧密相连【l l 。 随着通讯技术的飞速发展,人们对语音通讯的依赖越来越大,人机通讯成为越来 越尖锐的瓶颈问题,亟待解决【2 】。在这种情况下,如何让计算机智能化地与人进行通信, 使人机交互更加自然方便成为现代计算机科学的重要研究课题之一。如果计算机能够 听懂人类语音,能够说话,那么就不会有键盘,不同语言的人们交流就会更容易,这 个愿望实现的技术基础是语音识别和理解【3 1 。语音识别将人发出的声音、音节或短语转 换成文字和符号,或者给出响应,如执行控制、做出回答。语音识别在工业、军事、 交通、医学、民用等诸多方面,特别是在计算机、信息处理、通信与电子系统、自动 控制等领域有着广泛的应用。它在一些应用领域中正迅速成为一个关键且具有竞争力 的技术 4 j 。 语音识别作为一项具有广泛社会效益和经济效益的现代信息技术,虽然已经取得 了巨大的成就,但是面l 临实用化时还是存在一系列的问题。为了达到实用化和商业化 的目标,语音识别系统必须具有自然性、可靠性及鲁棒性。 1 2 选题的目的和意义 人类最重要的基本功能之一是通过语言互相传递信息。虽然,人可以通过多种 手段获得外界信息,但最重要、最精确的信息源只有语言、图像和文字三种。用声音 传递信息,显然比用图像和文字传递信息,其效果要好得多。这是因为语言的传播速 度快,没有明显的方向限制,又可以在黑暗中传播。而且,语言中除包含代表实际发 音内容的语音信息以外,还包括发音者是谁及喜怒哀乐等各种信息。另一方面,语言 与人的智力活动密切相关,与文化和社会的进步密切相连,它具有最大的信息容量和 最高的智能水平。 语言是人类进行思想、观点和情感交流最自然便捷的交互方式,而不同语种国家 的人在交流上必然存在着一定的局限和障碍。突破这个障碍,使得不同语种国家的人 们进行无障碍的语言交流和文化交流,是许多人的梦想。如果能把具有语言信息处理 能力的机器和设备纳入人的语音交互对象,使之像人一样具备听、说、写功能,能对 语音做出理解和反应,并在交互方式上不受时间和地点的限制,将使人类的生活和工 长春工业大学硕士学位论文 作方式发生革命性的变化。以语言科学为基础的语音交互信息技术由此应运而生。 随着信息时代的到来,计算机已经成为人类不可缺少的日常工具。在现代社会中, 人们逐渐习惯借助计算机来完成各项事务,在这种情况下,如何让计算机智能化地与 人进行通信,使人机交互更加自然方便成为现代计算机科学的重要研究课题之一。如 果计算机能够听懂语言,能够说话,那么就不会有键盘,不同语言的人们交流也就会 更容易,这个愿望实现的技术基础是语音识别和理解。语音识别将人发出的声音、音 节或短语转换成文字和符号,或者给出响应,如执行控制、做出回答。同时语音识别 在工业、军事、交通、医学、民用诸方面,特别是在计算机、信息处理、通信与电子 系统、自动控制等领域有着广泛的应用【5 1 。 如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益 凸现出来。语音识别技术开发的产品,应用领域非常广泛,几乎深入到社会的每个行 业,每个方面,其应用和社会经济效益前景非常良好。尤其对于汉语语音识别技术应 用而言,面对着有十几亿人使用中文的泱泱大国,市场需求、应用前景和经济效益等 非常可观。当今世界已经进入信息时代,科学技术飞速发展,科技资料急剧增多,国 际交流和合作日益广泛和深入。但是,语言的差异己经成为人们获取信息、增进了解、 扩大交流与合作的严重障碍。人们对高质量、全自动的机器翻译系统有着大量的、迫 切的需求。因此,语音识别技术既是国际竞争的一项重要技术,也是每一个国家经济 发展不可缺少的重要技术支撑。研究语音识别,开发相应的产品有着广泛的社会意义 和经济意义。 1 3 语音识别技术的发展史与现状 语音识别技术的研究始于2 0 世纪5 0 年代。1 9 5 2 年,当时的a t & t 公司的b e l l 实验室的d a v i s 等人研制了世界上第一个能识别十个英文数字发音的实验系统:a u d r y 系统。 6 0 年代计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规 整( d p ) 和线形预测分析技术( l p ) ,其中后者很好的解决了语音信号产生模型的问题,对 语音识别的发展产生了深远的影响。 7 0 年代语音识别领域取得了突破。在理论上,l p 技术得到了进一步发展,动态时 间规整技术( d t w ) 基本成熟,特别是提出了矢量量化( v q ) 、隐马尔可夫模型( h m m ) 理 论。在实践上,实现了基于线形预测倒谱和d t w 技术的特定人孤立词语音识别系统。 8 0 年代语音识别进一步向前发展,其显著特征是隐马尔可夫模型( h m m ) 和人工神 经网络( a n n ) 在语音识别中的成功应用。美国在语音识别方面进行了一些重大研究项 目,其中包括a t & t 公司b e l l 实验室以l r r a b i n e r 为首的科研集团在连接数字识别和 语音响应( v o i c er e s p o n s e ) 等方面做的工作,i b m 公司以e j e l i n e k 为首的研究组在语音 2 长春工业大学硕士学位论文 打字机方面所作的工作( t a n g o r a 系统) 以及a r i a 重新制定的一项新五年研究规划,这 些规划称为d a 船a 规划。所有这些研究都采用以h m m 模型为基本框架的统计途径, 它将语音识别的研究和实施纳入了一个系统、易于在计算机上实现的框架之中。 进入9 0 年代后,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实 用。许多发达国家如美国、日本、韩国以及i b m ,a p p l e ,a r & t ,n t t 等著名公司都 为语音识别系统的实用性开发研究以巨资。语音识别研究的升温,除了连续语音听写 机之外,还出现了诸多实用化的研究方向。m m 公司率先推出的v i a v o i e e 标志着大词 汇量、非特定人、连续语音识别技术正在趋于成熟。今后的发展方向,将由连续语音 进一步进入自然话语识别与理解,并着手解决语音识别中的一系列难题,如鲁棒性问 题等等。当前,美国在非特定人大词汇表的连续语音识别方面起主导作用,而同本则 在大词汇表的连续语音神经网络识别,模拟人工智能进行语音后处理方面处于主导地 位。 我国对语音识别的研究开始于8 0 年代。近年来发展迅速,并取得了一系列的成果。 如清华大学计算机系研制的语音识别系统以1 1 8 3 个单音节作为识别单元,采用分段概 率模型,对词的组成音节进行分解,在字一级上先做分体识别,再用搜索匹配算法计 算词一级的整体识别率,使三字词和四字词的识别率达到9 8 。中科院自动化研究所 模式识别实验室将汉语音节切分成声母、韵母,并辅之以四声,然后加以识别,其声、 韵母识别采用连续密度的h m m ,四声识别采用多层感知器的神经网络模型。整个系统 识别率为8 9 5 ,声调识别率为9 9 5 ,词识别率为9 5 。另外,中国科学院声学所、 北方交通大学、北京大学、哈尔滨工业大学等单位结合汉语语音学和语言学的特点, 在汉语语音识别系统的基础理论、数学模型和算法、实用系统开发等方面做了大量的 工作,并取得了一系列的成果。目前,国内在该领域的研究主要受到国家8 6 3 资助, 所研究的系统大部分是大词汇量孤立词识别系统。 随着计算机的运算能力和内存的迅速增长以及硬件价格的大幅度下降,人们越来 越重视语音识别模块和芯片的研究与开发【6 】。面对各种用户、各种使用环境,人们也在 研究更具有适应性和抗噪性的识别系统。 1 4 语音识别的热点与难点 语音识别技术经过几十多年的发展,已经取得了辉煌的成就,但是现有的语音识 别系统还面l 临着许多困难,当然也有许多新的问题要解决。当前语音识别研究的热点 主要表现在:稳健语音识别、说话人自适应技术、大词汇量关键词识别算法、语音识 别的可信度评测算法、基于类的语音模型和自适应语言模型,以及深层次的自然语音 的理解。研究的方向也越来越侧重于口语对话系统。目前,说话人自适应技术的研究 已经取得了相当大的进步,出现了一些比较成熟的技术,如声道归一化技术、最大似 长春工业大学硕士学位论文 然线性回归算法、贝叶斯自适应估值算法等。因此当前研究的热点转向如何实现在线 无监督的学习和多方法综合自适应学习算法。语言模型也是目前研究的一个重要方面。 基于统计技术的语言学已经越来越受到重视,它解决了单独规则语言模型不能解决的 一些问题。 当前语音识别研究的难点主要表现在一下几个方面f 7 】: ( 1 ) 自适应问题 语音识别系统的自适应性差,主要体现在对环境条件的依赖性很强,即需要保持 测试条件和训练条件的一致性,否则系统的住能会严重下降。对此,研究人员提出了 许多自适应训练方法,如倒谱归一化技术、相对谱( p a s t a ) 技术、l i n l o g r s t a 技术等。 ( 2 ) 噪声问题 目前的语音识别系统大多只能工作在安静的环境下,一旦在噪声环境下使用,受噪 音干扰,讲话人产生情绪或心理上的变化,导致发音失真、发音速度和音调改变,即 产生l o m b a r d 效应和l o n d 效应。常用的抑制噪声的方法,可以概括为四个方面:谱 减法、环境规正技术、不修正语音识别信号而修正识别器模型使之适合噪声、建立噪 声模型。 ( 3 ) 语音识别基元的选择问题 即如何根据存储空间和搜索速度的要求,选择合适的识别单元,如词、音节、音 素。一般来讲,欲识别的词汇量越多,所用基元应越少越好。 ( 4 ) 端点检测 语音信号的端点检测是进行语音识别的重要且关键的第一步。研究表明,即使在 安静的环境下,语音识别系统一半以上的识别错误来自端点检测器。提高端点检测技 术的关键在于寻找稳定的语音参数。 其它还有大词汇量连续语音识别的训练工作量和识别速度问题、拒识问题以及关 键词检测技术( 即从连续语音中去除诸如“啊”、“唉”等的语气助词,获得真正待识别 的语言部分) 、对用户的错误输入不能正确响应等问题。 1 5 论文研究的思路及内容 本文首先介绍了语音信号的前端处理特征参数提取技术,结合小波去噪原理,对带 噪语音提出了一种新的特征参数提取方法。同时,考虑到隐马尔可夫模型( h m m ) 对动 态时间序列的较强的建模能力和人工神经网络( a n n ) 较强的分类决策能力,将这两种 方法结合起来,对语音信号进行识别。具体安排如下: 第一章为绪论,主要介绍了选题的目的和意义、语音识别技术的发展史和现状以及 当前研究的热点及难点。 第二章主要介绍语音信号的特征提取算法,介绍了在语音识别技术中最常用的两 4 长春工业大学硕士学位论文 种特征参数:一种是线性预测倒谱系数( l p c c ) 的求解,一种是美尔频率倒谱系数( m f c c ) 的求解。并提出了一种新的特征参数基于小波与m f c c 相结合的参数,这种新的特征 参数对带噪语音信号的特征提取比上述两种参数有较好的识别率。 第三章介绍了h m m 模型的三个基本问题( 评估问题、解码问题、学习问题) 以及经 典h m m 模型的不足及改进。 第四章介绍了人工神经网络的基本原理,主要介绍了b p 网络和自组织神经网络两 种神经网络在语音识别中的应用。 第五章提出了基于隐马尔可夫模型和人工神经网络混合模型的语音识别,并针对 该模型进行试验仿真,分析实验结果。 长春工业大学硕士学位论文 第二章语音信号特征提取 2 1 引言 特征参数提取是对语音信号进行有效压缩和语音识别的重要一环,也是任何一个 模式识别处理首先要解决的问题。特征的提取对语音识别的效果有很大的影响,提取 对语音识别有用的特征参数,去除对语言识别无用的冗余信息,是语音识别系统成功 的关键。一个好的特征参数应该具有以下特点:( 1 ) 能有效代表语音的特征,包括声道 特性和听觉特性;( 2 ) 各阶参数之间应该具有良好的独立性;( 3 ) 特征参数应该计算方便, 最好有高效的计算方法,以保证语音识别系统的实时实现。 根据所分析的参数类型,语音信号分析可以分为时域和变换域( 频域、倒谱域) 等处 理方法。其中时域分析是最简单、最直观的方法,它直接对语音信号的时域波形进行 分析,提取的特征参数主要有语音的短时能量和平均幅度、短时平均过零率、短时自 相关函数和短时平均幅度差函数等,而在变换域上研究语音信号,可以使信号某些在 时域上无法表现出来的特征在变换域中变得十分明显。频域特征有线性预测系数 ( l p c ) 、线性预测倒谱系数( l p c c ) 、线谱对参数( l s p ) 、m e l 频率倒谱系数( m f c c ) 等。 2 2 语音信号的数学模型 建立语音信号的数学模型对于语音处理具有重要的意义。当然,建立一个十分精 确的语音产生模型是很困难的,这是因为语音的产生不仅是一个复杂的生理和心理过 程,而且与声道的形状、声道中的声激励等因素都有关系。但是语音在短时间内 ( 2 0 2 0 0 m s ) 可以被认为是准平稳的,即基本特征保持不变,所以,依据语音信号特有 的短时平稳性,在- - d , 段时间内,我们可以采用下图所示的模型来逼近实际语音的产 生过程。图2 1 给出了这个语音产生的离散时域模型。它包括三个部分:激励源、声道 模型和辐射模型。激励源分为清音和浊音两种,按照浊音清音开关所处的位置来决定 产生的语音是清音还是浊音。浊音时,激励信号由一个周期脉冲发生器产生,产生的 序列是一个频率等于基音频率的冲激序习j t s l 。为了使浊音的激励信号具有声门脉冲的实 际波形,还需要使上述的冲激序列通过一个声门脉冲滤波器,其z 域传递函数为g ( z ) 。 g ( z 1 的表示形式如下: g ( z ) 2 f 矛杀历 ) 其中蜀和岛都很接近1 。那么由之形成的浊音激励信号频谱很接近于声门脉冲的频谱, 乘系数a v 的作用是调节浊音语音信号的幅度和能量。清音时,激励信号由一个随机噪 声发生器产生。可设定其平均值为0 ,其自相关函数是一个单位激励脉冲函数。这表明 6 长春工业大学硕士学位论文 图2 1 语音信号声学模型 它的任何两个不同样点都不相关且均方差值为1 。此外,它还假定它的幅度具有正态概 率分布。 声道模型v ( z ) 给出了离散时域的声道传递函数,把实际声道作为一个变截面声管 加以研究,采用流体力学的方法可以导出,在大多数情况下它是一个全极点函数。因 此,v ( z ) 可以表示为: 矿( 力:士( 2 2 ) a , z 1 j ;0 式中a o = l ,珥是实数。这里,把截面积连续变化的声管近似为p 段短声管的串联,每 段短声管的截面积是不变的,p 称为这个全极点滤波器的阶。显然p 值取得越大,模 型的传输函数与声道实际传输函数的吻合程度越高,一般地,对大多数实际应用而言, p 值取8 - 1 2 。辐射模型r ( z ) 与嘴型有关,一般表示为r ( z ) = ( 1 - r z 1 ) r * l 。 在这个模型中,除了g 0 ) 和r ( z ) 保持不变以外,基音频率、a v 、a u 、清触音开 关的位置以及声道模型中的参数都是随时间变化而变化的。由于发声器官的惯性使这 些参数的变化速度受到限制,对于声道参数,在1 0 3 0 m s 的时间间隔内可以认为它们 保持不变,因此语音的短时分析帧长一般为1 0 3 0 m s 。对于激励源参数,大部分情况 下这一结论也是j 下确的。这个模型的局限性主要表现在它的传输函数不包含有限传输 零点,而像鼻音、擦音这样一些音的传输函数中包含有限零点。一种解决方法是在v ( z ) 中引入若干有限传输零点,但是这将使模型复杂化;另一种方法是适当提高阶数,使 得全极点模型能更好地逼近具有零点的传输函数。 由上所述,离散时域语音信号s ( n ) 的z 变换s ( z ) 可以用一个统一的公式来计算: s ( z ) = a e ( z ) h ( z )( 2 3 ) 在浊音的情况下,e ( z ) 是一周期冲激序列的z 变换,且a = a v ,h ( z 即( z ) v ( z ) 取z ) ,在 清音的情况下,n z ) 贝l l 是一个随机噪声的z 变换,且a = a u ,h ( z ) = v ( z ) r ( z ) 。 e 堆 翌一也翌r l k 人如 弱 一 翌 一 一 一 一发 一 一发 一 上一螂一 一一螺一 长春工业大学硕士学位论文 2 3 两种常见的语音识别特征参数提取 2 3 1 线性预测倒谱系数l p c c i 线性预测系数l p c 线性预测倒谱系数( l i n e rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t ,l p c c ) 是线性预测系数 ( l i n e rp r e d i c t i o nc o e f f i c i e n t , l p c ) 在倒谱域中推导出来的【9 ,本文首先介绍语音信号 的线性预测系数,然后再由此基础上求出线性预测倒谱系数。并按照最小均方误差 ( l m s ) 准则,利用已知的s ( n ) 进行模型参数估计。估计出来的参数即可确定l p c 系数。 令采样点n 的输出s ( n ) 可以用前面p 个样本的线性组合来表示: s ( 珂) a l s ( n 一1 ) + 吒s ( 一2 ) + + a e s ( n p ) ( 2 4 ) 式中,q ,呜,口。为常数。式( 2 4 ) 可以改写为: s ( n ) = e a k s ( n 一| i ) + g 锄( ,磅( 2 5 ) 式中,c , u ( n ) 是一个归一化冲激响应与其增益系数的乘积。式( 2 5 ) 的z 域表达式为: s ( z ) = e a k s ( z ) + g u ( z ) ( 2 6 ) 可以得到系统的传递函数为: 一器2 面1 2 丽1 ( 2 7 ) 声道模型是一个短时稳定的时交滤波器。它的参数q ,吒,a p 是由声管,也就是 发音器官进行控制并随时间变化的,但是在几十毫秒的时间内认为是稳定不变的。 定义系统输出的估计为: s ( n ) = a k s ( r 一七) ( 2 8 ) 由此得到系统的估计误差: p 仍) = “以) 一而) = j ) 一艺吼j 一i ) ( 2 9 ) 以及相应的误差传递函数: 纷器小扣4 叫 很明显,如果s ( n ) 完全由图2 1 的线性系统产生,则线性预测误差就等于激励和增益 的乘积,即: p ( 栉) = c a ( n )( 2 1 1 ) 为了计算l p c 系数,首先定义起点为n 的短时语音信号和误差信号: 长春工业大学硕士学位论文 ? 2 2 竺m ) ( 2 1 2 ) l ( 哟= 露+ 功 、7 误差平方和为: e :e ( 所) :l 晶( 坍) 一兰吼( 所一_ i ) l ( 2 1 3 ) 上式对各阶l p c 系数求导数,令其分别为零: 警= o ,k :1 ,2 ,p( 2 1 4 ) u 略 可以得至| | : 。 ( m f ) 晶( 所) = 艺反( m f ) 晶( m 一后) ( 2 1 5 ) 根据柏关函数的定义,“1 ” 丸o ,k ) = z s ( m - i ) s ( m - k ) ( 2 1 6 ) 可以得: “ 死 o ) = 瓯丸( f ,七) ,k = l ,2 ,p ( 2 1 7 ) 该式表示p 个方程构成的方程组,未知数为p 个。求解该方程组,就可以得到系统的 线性预测系数。 随后,系统的最小均方误差就可以表示为: 毫= ( m ) 一艺盈晶( 珊) 晶( m j i ) :c z o ,o ) 一杰盈以( o ,| | ) t l ( 2 1 8 ) 求解方程组( 2 1 8 ) 的方法有很多,主要有自相关法、协方差法等。本章采用的方法 是基于自相关的递推求解公式,也就是d u r b i n 算法,递推过程总结如下: 1 ) e o = 也( o ) 从i = l 开始: 2 ) 缸= e ” 3 ) 碍”= 毫 4 ) 矽= 一毛鸡 1 _ , i - 1 5 ) e = ( 1 一砰) e “ 如果i p ,返回2 ) 。 6 ) 口,= 口p 1 j p 上述中的上标( i ) 表示第i 次迭代,每次迭代只计算和更新q ,a 2 ,q ,直到i = p 时结 束迭代。 9 长春工业大学硕士学位论文 2 同态信号处理 语音信号是由准周期脉冲或者随机白噪声激励一个线性短时不交系统产生的输 出。因此,语音信号可以视为声门激励信号与声道冲激响应的卷积,同态信号处理就 是将非线性问题转化为线性问题来处理,即将激励源与声道冲激响应分开来分别进行 研究。同态处理的结构由三部分组成,如图2 2 所示。第一部分是由若干信号的卷积 组合作为输入,并将它变换成对应输出的相加性组合。第二部分是线性系统,服从叠 加原理。第三部分是系统的逆变换。 删匝让j 叶面卜唼 酽 d - 【】卜丑叫d 【】卜塑皇) 一1 【】f 当 x l ( n ) ( n ) lx l ( n ) + x j ( n )一 y i ( r 妒坳( n ) u y l ( n ) * y 2 ( n ) x l ( n ) 宰x 煳 ,1 v v 。y 埘u 图2 2 同态处理结构图 假设输入信号为 x ( 挖) = x d n ) x ,( ”) 其中置( 刀) 和而( ) 分别代表声门激励和声道响应序列。特征系统d 【】将卷积信号 转换为加性信号。它采用三步数学运算: 1 ) z 变换,将卷积运算转换为乘积运算。 z l x ( h ) l _ x ( z ) = 蜀( 2 ) + 五( z ) ( 2 1 9 ) 2 ) 对数运算,将乘积运算转变为加性运算。 l n x ( z ) = l f i 置( z ) + l i l 五( z ) = 五( z ) + 五( z ) = x ( z ) ( 2 ,2 0 ) 3 ) 逆z 变换,将z ( 2 ) 转换到时域中来。 z 一1 j ( ”) = z 一i - c l ( z ) + 宠o ) = 毫( 蚪) + 岛( ”) = 量( 以) ( 2 2 1 ) 由于变换后的曼( 胛) 为加性信号,因此可以用线性系统处理毫( 栉) 和k 2 ( n ) ,用线性系 统处理的目的是将毫( h ) 和是( 疗) 分开,通常是提取其中之一同时抑制另一个,或者分别 对它们进行处理。如果要将线性处理得到的多( n ) 恢复为卷积信号,可以让圣( ) 通过逆 特征系统研1 1 实现。同样也要经过三个运算步骤完成, 1 ) z 变换 r ( z ) = z l 多( 胛) l = 誓( z ) + k ( z ) ( 2 2 2 ) 2 ) 指数运算:得到乘积性信号 r ( z ) = e x p ll ,( z ) l = x ( z ) e ( z ) ( 2 2 3 ) 3 ) 逆z 变换,得到卷积信号,即恢复的语音信号。 y ( 功= z 。【艺】= m ( 刀) 儿( 功 ( 2 2 4 ) 1 0 长春工业大学硕士学位论文 由式( 2 2 1 ) 可知,氧疗) 是一个时间序列的z 变换的对数所对应的时间序列,我们 称量( 玎) 是砌) 的“复倒谱”。即: 量( 疗) = z “il i l z l x ( ) ll ( 2 2 5 ) 将z ( ”) 进行z 变换后得到x ( z ) ,它包含幅度和相位信息。那么取复对数后将得到 彳( z ) = i nf x ( z ) i + y a r gx ( z )( 2 2 6 ) 如果忽略了x ( z ) 的相位信息,只考虑其幅度信息,那么立刻可以得到倒谱c ( 玎) 的定义: c ( 疗) 定义为x ( 玎) 的z 变换后的幅度的对数的逆z 变换,即 c ( 以) = z 。 i i l i z ) 】| = z 。 1 1 1 i x ( z ) 口 ( 2 2 7 ) 3 线性预测倒谱系数l p c c 与差分谱 在语音识别中,很少直接使用l p c 系数,而是由l p c 系数推导出另一种参数:线 性预测倒谱系数( l p c c ) 。l p c c 参数的优点是计算量小,易于实现,对元音有较好的 描述能力,其缺点在于对辅音的描述能力较差,抗噪性能较差。 由于通过自相关法求得的l p c 系数保证了系统的稳定性,利用这一特性,可以推 导出语音信号的倒谱c “1 ) 与l p c 系数之间的递推关系: c ( 1 ) = q 删= + 善n - i ( 1 一言) 州力卅l p 在提取了l p c c 参数后,可以利用以下公式来提取差分l p c c 参数。 c k + 1 一c i c k c k + i 口 占瓴矿q 一。) = l 一 口 2 z f 2 式中反表示第| 个一阶差分倒谱系数,t 是倒谱系数的维数,口表示一阶导数的时间差, 其值取1 或2 ,1 占0 ,q 表示第七个倒谱系数。 2 3 2 美尔频率倒谱系数h f c c 人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的, 基本上是一个对数的关系。近年来,一种能够较充分利用人耳这种特殊的感知特性的 口篡 鸵 七 长春工业大学硕士学位论文 参数得到了广泛的应用,这就是美尔频率倒谱系数( m e l f r e q u e n c yc e p s t r u m c o e f f i c i e n t ,m f c c ) 。由于m f c c 充分考虑了入耳的听觉特性,将频谱转换为基于m e l 频标的非线性频谱,然后转换到倒谱域上,它没有任何前提假设,m f c c 具有良好的 识别性能和抗噪能力。 m f c c 不同于l p c c ,在汉语数码语音识别中m f c c 参数的性能明显优于l p c c 参数。m f c c 是采用滤波器组的方法计算出来的,这组滤波器在频率的美尔坐标上是 等带宽的。这是因为人类在对约1 0 0 0 h z 以上的声音频率范围的感知不遵循线性关系。 而是遵循在对数频率上的近似线性关系。图2 3 反映了美尔刻度与频率的关系。 图2 3 美尔刻度与频率的关系 m f c c 参数是按帧计算的,m e l 倒谱系数的提取框图如2 4 所示。其中m e l 滤波的 作用是利用同人耳听觉特性相似的三角滤波器组对语音信号的幅度平方谱进行平滑。 对数操作( l o g ) 的用途至少有两点,其一是压缩语音谱的动态范围,其二是将频域中的 对数成分变成对数谱域中的加性成分,以便滤除乘性噪声。离散余弦变换( d c t ) 主要用 来对不同频段的频谱成份进行解相关处理,使得各维向量之间相互独立。 图2 4m e l 倒谱系数的提取框图 求m f c c 参数的具体计算步骤如下: ( 1 ) 对输入语音信号进行分帧、加窗处理后变为短时信号,用f f t 将这些时域信号 x ( n ) 转化为频域信号x ( m ) ,并由此可以计算它的短时能量谱p ( f ) 。 ( 2 ) 将p ( f ) h h 在频率轴上的频谱转化为在美尔坐标上的p ( m ) ,其中m 表示美尔频 率,式( 2 3 0 ) 硼a 完成该变换川,并且美尔频率考虑了人耳的听觉特性。 长春工业大学硕士学位论文 e d = 3 3 2 2 2 3 1 8 ( 1 + 0 0 0 1 ) _ ,麓 ( 2 ,3 0 ) ( 3 ) 在美尔频域内将三角带通滤波器加于美尔坐标得到滤波器组h 。( 1 【) ,如图2 5 所 示。然后计算美尔坐标上的能量谱p ( 蛐经过此滤波器组的输出: 厂k o ( m k ) = i n le i x k ) 1 2 巩( k ) i k = l ,2 ,k ( 2 3 1 ) l 扫ij ( 4 ) 通过一个具有4 0 个滤波器( k :4 0 ) 的滤波器组。前1 3 个滤波器在1 0 0 0 h z 以下是 线性划分的,后2 7 个滤波器在1 0 0 0 h z 以上是在美尔坐标上划分的。 ( 5 ) 如果文魄) 表示第k 个滤波器输出能量,则美尔频率倒谱c 。l ( n ) 在美尔刻度谱 上可以采用修改的离散余弦变换( d c t ) 求得: i _ d = 岁 f l ( m k ) e o s ( 聆( 露一0 5 ) - “f ) n = l ,2 ,p ( 2 3 2 ) = i 1 1 式中,p 为m f c c 参数的阶数。 图2 5m f c c 的滤波器组 m f c c 系数的个数通常取最低为1 2 1 6 。在为每帧数据计算出p 阶m f c c 参数后, 通常还要为这p 个系数分别乘以不同的权系数,实际上是个短的窗口: c m 2 w m c m , r, = 1 + 等s i n q r 哆) (1sm豇)(233) 二 一 倒谱提升能够改善低信噪比时的特征性能,中间阶数和高阶的m f c c 分量较低阶 m f c c 分量稳定,增加其在识别中的权重有助于提高特征的抗噪性能。 标准的m f c c 参数只反映了语音参数的静态特性,而人耳对语音的动态特性更为 敏捷,反映语音动态变化的参数就是差分倒谱。 差分参数的计算采用下面的公式: d ( 甩) = i c ( 玎+ f ) ( 2 ,3 4 ) 式中,c 和d 都表示一帧语音参数,k 为常数,通常取2 ,这时差分参数就称为当前 2 o 8 6 4 2 o l 0 o o o 上唇 长春工业大学硕士学位论文 帧的前两帧和后两帧的线性组合。由此式计算得到的差分参数为一阶差分参数。用同 样的公式对一阶差分参数进行计算,可得到二阶差分m f c c 参数。实际使用中,将 m f c c 和各阶差分参数合并为一个矢量,作为一帧语音信号的参数。 2 4 基于小波变换特征参数提取 小波变换是当前应用数学中的一个迅速发展的领域,是分析和处理非平稳信号的 一种有力工具。它是一种信号的时间一尺度分析方法,具有多分辨率分析的特点, 能有效地从信号中提取信息。小波变换这种时频分析方法,能显示信号的时间和频率 的局部特性,具有“放大镜”的作用。信号经过小波变换,可以分成不同的子带,每 个子带内的小波系数表现了信号相应带内的能量分布。小波分解结构可以看作低通滤 波器和高通滤波器组成的滤波器组,低通滤波器的输出是逼近信号,高通滤波器的输 出是细节信号。系数较大者携带的信号能量越多,系数较小者携带的信号能量较少。 因此对不同子带内的小波系数进行统计分析可以获得语音信号的分布特性 1 2 , 1 3 】。 2 4 1 小波变换的基本理论 小波变换通过平移母小波( m o t h e rw a v e l e t ) 可获得信号的时间信息,通过缩放小波 的宽度( 也称为尺度) 可获得信号的频率特性。对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论