




已阅读5页,还剩49页未读, 继续免费阅读
(计算机应用技术专业论文)基于dsp的语音识别系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 语音是人类进行相互交流和通信最便捷的手段,在当今数字化的信息时 代,用数字化的技术进行语音的增强、传送、识别、合成、存储已成为语音信 号处理技术的科学前沿。语音识别技术是计算机技术的重要发展方向,语音识 别已经形成了完整的理论体系,尽管目前语音识别的研究已经进入了商品化阶 段,但在许多特定领域,由于其环境和行业的特殊性,往往需要专门进行开发, 以适应社会需要。 在实际应用的场合中,语音识别的性能会随着说话人的变化、噪声的干扰、 信道失真有较大的下降。在硬件实现方面,实时语音信号处理需要高速的硬件 处理器,语音模板需要占用大量的存储空间,导致硬件成本提高,从而限制了 语音识别技术的应用。本系统选用了t i 公司的t m s 3 2 0 v c 5 4 0 2 作为处理器芯片, 选择对小词汇量语音识别系统进行研究。 实现小词汇量的语音识别主要包括以下三个方面的工作:端点检测、特征 提取和模式匹配。在端点检测中,通过对过零率和短时能量参数的检测来判断起 始点和结束点,去掉噪声,从而提取出语音信号数据。在特征提取中,首先对 语音信号进行分帧、然后计算每帧语音信号的特征参数,本文采用线性预测倒 谱参数作为特征参数,这些特征参数组成特征矢量,从而构成语音模板。在模 式匹配中,采用了动态时间归整方法,将测试模板与参考模板进行匹配,比较 两者之间的失真,得出识别判决的依据。 本文完成了基于d s p 的小词汇量的语音识别系统的软硬件设计,并取得了较 好的识别结果。为今后进一步研究中等词汇量以及大词汇量的语音识别奠定了 基础。 论文最后总结了全文,指出了本系统的一些不足,并提出了下一步进行改 善的一些设想。 关键词:d s p 语音识别d t wl p c c 端点检测 a b s t r a c t i nt h ec u r r e n td i g i t a li n f o r m a t i o na g e ,t h es p e e c hr e c o g n i t i o nt e c h n o l o g y p r o c e s s e db yd i g i t a lt e c h n o l o g y i sa ni m p o r t a n td e v e l o p i n gd i r e c t i o no ft h e c o m p u t e rt e c h n o l o g y , a n di t h a sa l r e a d yf o r m e dt h ei n t a c tt h e o r e t i c a l s y s t e m , t h o u g ht h ep h o n e t i cr e c o g n i t i o nr e s e a r c hh a sa l r e a d ye n t e r e dc o m m e r c i a l i z e ds t a g e , b u ti nal o to fs p e c i f i cf i e l d s ,b e c a u s eo fi t s p a r t i c u l a r i t y , o f t e nn e e ds p e c i a l l y d e v e l o p i n g i no r d e rl om e e tt h en e e d so fs o c i e t y i n 也eo c c a s i o no f p r a c t i c a la p p l i c a t i o n t h ep e r f o r m a n c e o f p h o n e t i c r e c o g n i t i o n w i l lh a v eg r e a t e rd e c l i n e 、v i t l ld i f f e r e n ts p e a k e r s ,n o i s e ,c h a n n e l d i s t o r t e d l ya n d s oo n i nh a r d w a r e r e s p e c t ,r e a l - l i m es i g n a lp r o c e s s i n gn e e d h i g h - s p e e dh a r d w a r ep r o c e s s o ra n dl o t so f m e m o r ys p a c e s t h o s ec a u s et h eh a r d w a r e c o s tt or a i s e t h u si tl i m i t e dt h er e c o g n i t i o nt e c h n o l o g ya p p l i c a t i o n t 1 1 i ss y s t e m s e l e c t e dd s pt or e a l i z et h es p e e c hr e c o g n i t i o ns y s t e mo f s m a l l v o c a b u l a r y n l es m a l l - v o c a b u l a r yp h o n e t i cr e c o g n i t i o ni n c l u d e st h r e ef o l l o w i n gr e s p e c t s : s t a r t i n g & e n d i n gp o i n tm e a s u r i n g e i g e n v a l u ee x t r a c t i n ga n dm o d em a t c h i n g s t a r t i n g & e n d i n gp o i n tc a l lb ed e t e c t e dt h r o u g hz e r or a t ea n de n e r g yp a r a m e t e r b y d e t e c t i n gs t a r t i n ga n de n d i n gp o i n to fs p e e c hw a v e f o r m ,w ec a nr e m o v et h en o i s e f r o mt h e p r o c e s s o f e x t r a c t i n gt h ep r o n u n c i a t i o ns i g n a ld a t a i ne i g e n v a l u e e x t r a c t i n g ,t h ep r o n u n c i a t i o ns i g n a li s d i v i d e di n t os o m ef r a m e ds i g n a l s ,t h e n , c a l c u l a t ee v e r yf r a m ec h a r a c t e r i s t i cp a r a m e t e r , t h e s ec h a r a c t e r i s t i c sm a d eu pt h e c h a r a c t e r i s t i cv e c t o ra n df o r m e dt h ep r o n u n c i a t i o nt e m p l a t e i nm o d em a t c h i n g , a d o p t i n gd t w ( d y n a m i ct i m ew a r p i n g ) m e t h o d m a d et e s t i n gt e m p l a t em a t c h e s “mr e f e r e n c et e m p l a t ei nap e r t i c u l a rm o d e ,a n d 。t h e n ,b yc o m p a r e dd i s t o r t i o n b e t w e e nt h e mt oo b t a i na d j u d g e m e n tr e s u l t t h et h e s i se s t a b l i s h e das m a l lv o c a b u l a r yr e c o g n i t i o ns y s t e mb yd e s i g n i n g s o f t w a r ea n dh a r d w a r eb a s e do nd s pa n do b t a i n e dt h eb e t t e rd i s c e r n m e n tr e s u l t s o , f o a n d a t i o nw o r k sh a v eb e e ne s t a b l i s h e df o rt h em e d i u m s i z e dv o c a b u l a r yp h o n e t i c r e c o g n i t i o ni nt h en e x ts t e p a tt h ee n do ft h et h e s i s ,t h ew o r k so fd e s i g na r e s u m m a r i z e d ,a n dip o i n t eo u ts o m ei n s u f f i c i e n ta s p e c t s ,f u r t h e r m o r e ,p r o p o s et h e o u t l i n eo f s o m ei m p r o v e m e n t si nt h ef u t u r e k e y w o r d s :d s pp h o n e t i cr e c o g n i t i o nd t wl p c ct h ee x t r e m ep o i n t m e a s u r i n g i l 论文原创性声明 本人声明,所呈交的学位论文系在导师指导下本人独立完成的研究成果。 文市依法引用他人的成果,均已做出明确标注或得到许可。论文内容未包含法 律意义上己属于他人的任何形式的研究成果,也不包含本人已用于其他学位申 请的论文或成果。 本人如违反上述声明,愿意承担以下责任和后果: 1 交回学校授予的学位证书: 2 学校可在相关媒体上对作者本人的行为进行通报; 3 本人按照学校规定的方式,对因不当取得学位给学校造成的名誉损害, 进行公开道歉: 4 本人负责因论文成果不实产生的法律纠纷。 论文作者签名:垂堑亟至日期:翌! 年竺月三日 论文知识产权权属声明 本人在导师指导f 所完成的论文及相关的职务作品,知识产权归属学校。 学校享有以任何方式发表、复制、公开阅览、借阅以及申请专利等权利。本人 离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时,署名单 位仍然为东北电力大学。 论文作者签名:塑兰垩日期:型年生月日 导师签名:扬遑盍:! 日期:丛年卫月立日 第l 章绪论 1 1前言 第1 章绪论 语音的作用就是通信,语音处理和识别是利用计算机对语音信号进行分析 和综合,从而实现人类语音的自动理解和处理的一门学科。上世纪中期,在信 息革命浪潮的推动下,人们对信息的需求日益增长,对信息处理的速度和方式 提出了更新更高的要求,随着计算机处理和存储信息能力的不断增强,如何将 信息以最自然、最方便、最有效的方式( 如语音方式) 送入计算机进行处理、 传输,已成为人们亟待解决的问题。语音识别技术正是解决这一问题的有效途 径。 自动语音识别技术的研究开始于上世纪4 0 年代末,起初的发展非常缓 慢。上世纪6 0 年代初期,随着计算机技术、微电子技术和数字信号处理技术 的高速发展,语音处理和识别技术在许多方面都出现了突破性的进展,使得语 音识别技术的研究出现了一个重大转折。 随着科技的发展和人们对语音识别技术的深入研究,人们对语音识别也提 出了越来越高的目标和要求。语音识别的最终目的就是像人与人之间谈话交流 信息一样,实现人机自由对话。也就是赋予机器听觉,使机器能听懂人的语言, 辨明话音的内容或说话人,将人的语音正确地转化为书面语言或有意义的符号, 或者进一步使机器能按照人的意志进行操作,实现工业生产的自动化、智能化。 可以肯定地说,语音识别技术必将成为未来信息产业中标志性的关键技术。 1 2 语音识别系统概述 语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关 键技术,语音识别技术与语音合成技术结合,使人们可以不用键盘。通过语音 命令来进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 研究语音识别的目的,就是让机器能够“听懂”人的自然语言,这个美好的愿望 甚至在计算机诞生以前就有了。但对语言的理解是一个非常复杂的过程,目前 的研究水平还只能做到“听出”人的自然语言,尚处于把语音信号转换为文字 序列的阶段。“听出”不等于“听懂”,在“听出”的基础上做到对内容的“理 解”,是未来语音识别研究的发展方向。近二十年来,语音识别技术取得显著 进步,开始从实验室走向市场。人们预计,未来1 0 年内,语音识别技术将进入 工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。 1 2 1 语音识别技术的基础 语音识别技术关系到多学科的研究领域,不同领域上的研究成果都对语音 识别的发展作了贡献。 机器识别语音的准确率与不同的说话人、不同的说话速度、不同的说话内 容、以及不同的环境条件有关。语音信号本身的特点造成了语音识别的困难, 这些特点包括多变性、动态性、瞬时性和连续性等。 计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前主流 的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可 大致分为三部分: ( 1 ) 语音特征提取:其目的是从语音波形中提取出随时间变化的语音特 征序列。 ( 2 ) 声学模型与模式匹配( 识别算法) :声学模型通常将获取的语音特征 通过学习算法产生。在识别时将输入的语音特征同声学模型( 模式) 进行匹配 比较,得到最佳的识别结果。 ( 3 ) 语言模型与语言处理:语言模型包括由识别语音命令构成的语法网 络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词 表语音识别系统,往往不需要语言处理部分。 声学模型是识别系统的底层模型,并且是语音识别系统中撮关键的一部 分。建立声学模型的目的,是提供一种有效的方法计算语音的特征矢量序列和 每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模 型单元大小( 字发音模型、半音节模型或音素模型) 对语音训练数据量大小、 系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统 词汇量的大小决定识别单元的大小。 语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可 以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必 须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言 的数学描述模型等相关方面。目前比较成功的语言模型,通常是采用统计语法 的语言模型与基于规则语法结构的命令语言模型。语法结构可以限定不同词之 间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。 语音识别过程实际上是种认识过程。就像人们听语音时,并不把语音和 语言的语法结构、语义结构分开来,因为当语音发音模糊时人们可以用这些知 识来指导对语言的理解过程,但是对机器来说,识别系统也要利用这些方面的 知识,只是如何有效地描述这些语法和语义还有困难,语音识别系统主要有: ( 1 ) 小词汇量语音识别系统。通常包括几十个词的语音识别系统。 ( 2 ) 中等词汇量的语音识别系统。通常包括几百个词至上千个词的识别 系统。 ( 3 ) 大词汇量语音识别系统。通常包括几千至几万个词的语音识别系统。 这些不同的限制也确定了语音识别系统的困难度。 一个典型的语音识别系统流程如图1 1 所示。语音识别本质上是一种模式 识别系统。它与常规的模式识别系统一样,包含有特征提取、模式匹配和参考 模式库三个基本单元。但是由于语音识别系统所处理的信息是结构复杂、内容 极其丰富的人类语言信息,因此它的系统结构比通常的模式识别系统要复杂的 多。 图l _ 1 语音识别的原理框图 1 2 2 语音识别技术的发展情况 我国语音识别研究工作起步于五十年代,但近年来发展很快,研究水平也 从实验室逐步走向实用。从1 9 8 7 年开始执行国家8 6 3 计划后,国家8 6 3 智能计算 机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术 的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与 优势,并达到国际先进水平。其中具有代表性的研究单位为清华大学电子工程 系与中科院自动化研究所模式识别国家重点实验室。 目前我国已经研制出语音识别专用芯片。芯片中包括了语音识别、语音编 码、语音合成功能,可以识别3 0 条特定人语音命令,识别率超过9 5 ,其中的 语音编码速率为1 6 k b i t s s 。该芯片可以用于智能语音玩具;也可以与普通电 话机相结合构成语音拨号电话机。这些系统的识别性能完全达到国际先进水平。 研发的成果已经迸入实用领域,一些应用型产品正在研发中,其商品化的过程 3 东北电力大学硕士学位论文 也越来越快。 1 2 3 语音识别技术的前景和应用 在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具 变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络,人们可 以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息:随着计 算机的小型化,键盘已经成为移动平台的一个很大障碍,想象一下如果手机仅 仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。语音识别正 逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合 使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个 具有竞争性的新兴高技术产业。 语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别 精度已经大于9 8 ,对特定人语音识别系统的识别精度就更高。这些技术已经 能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音 识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大 量的语音识别产品已经进入市场和服务领域。一些电话机、手机已经包含了语 音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语 音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游、银行信息,并且取得很好的结果。调查统计表明,多达8 5 以上的人对 语音识别的信息查询服务系统的性能表示满意。 可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的 语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种 各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要 建成这样一个系统仍然是人类面临的一大的挑战,我们只能朝着改进语音识别 系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识 别系统则是很难预测的。 1 3 语音识别研究的难点 语音识别系统经过了几十年的发展,已经取得了辉煌的成就。但是,现有 的语音识别系统还面临着许多困难,远远达不到广泛实用的要求,具体来讲, 主要表现在: ( 1 ) 自适应问题 语音识别系统的自适应性差,主要体现在对坏境的依赖性强,即需要保持 第i 章绪论 测试条件和训练条件的一致性。也就是在某种环境下采集到的语音训练系统只 能在这种环境下应用,否则系统性能将会严重下降;另外一个问题就是对用户 的错误输入不能正确响应,使用不方便。 ( 2 ) 噪声问题 目前的语音识别系统大多只能工作在安静的环境下,一旦在噪声环境下使 用,受噪音干扰,讲话人产生情绪或心理上的变化,导致发音失真、发音速度 和音调改变,必须寻找新的信号处理方法。常用的抑制噪声的方法可以概括为 四个方面:谱减法、环境规正技术、不修正语音信号而是修正识别器模型使之 适应噪声、建立噪声模型。 ( 3 ) 语音识别基元的选择问题 即如何根据存储空间和搜索速度的要求,选择合适的识别单元,如:词、 音节、音素等。一般来讲,欲识别的词汇量越多,所用基元应越小越好。 ( 4 ) 端点检测问题 端点检测是从一段语音中确定语音的起点和终点。准确有效的端点检测可 以节省处理时间,并能排除无声段的噪声干扰。端点检测的困难在于无声段或 发音前后人为呼吸等产生的杂音,使得语音的端点比较模糊。另外,当端点处 是弱摩擦音或弱爆破音或终点处是鼻音时,端点检测也较困难。 语音信号的端点检测是进行语音识别的重要且关键的第一步。研究表明, 即使在安静的环境下,语音识别系统一半以上的识别错误来自端点检测器。端 点检测技术的关键在于寻找稳定的语音参数。 目前,较有效的端点检测方法是语音信号的能量和过零率,实际实现时要 根据实验选择能量和过零率的阙值。 ( 5 ) 如何把语言学、生理学、心理学等方面的研究成果量化、建模并用于 语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音 识别中是非常重要的。 ( 6 ) 我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控 制机理等方面的认识还不很清楚;其次,把这方面的现有成果用于语音识别, 还有一个艰难的过程。 ( 7 ) 语音识别系统从实验室演示系统到商品的转化过程还有许多具体问题 需要解决,如:大词汇量连续语音识别的训练工作量和识别速度问题,拒识问 题以及关键词检测技术( 即从连续语音中去除诸如“啊”、“唉”的语气助词, 获得真正待识别的语音部分) 等等。 为了解决这些问题,研究人员提出了各种各样的方法,如语音识别自适应 技术、稳健语音识别技术等,这些方法已取得了一定的成绩。 不过,要使语音识别系统性能有大的提高,就要综合应用语言学、心理学、 生理学以及信号处理等各门学科有关知识,只用其中一种是不行的。 1 4 论文的主要工作 本文阐述了非特定人、小词汇量、孤立词语音识别系统的实现,主要研究 如何在实验室环境下实现一个简单的语音识别系统。以d s p 为核心芯片,通过 外扩存储器和c o d e c 芯片,完成语音处理板的设计,并通过在集成开发环境 c c s 下完成软件的设计,使d s p 目标系统能够可靠、有效地工作。在此基础 上,研究了基于孤立词的语音信号识别方法,采用线性预测倒谱系数对语音信 号进行特征提取,采用动态时间归整算法进行模式匹配,并在d s p 目标系统 中进行了实现。通过对2 0 个孤立词的语音信号样本的训练、特征提取和建立 特征库,并对测试样本进行识别测试,试验表明,这种基于d s p 的线性预测 系数的特征提取和d t w 的识别算法是有效的,其对孤立词的识别率可以达到 9 2 左右。 鉴于t m s 3 2 0 c 5 4 x 系列的c 语言和汇编语言编译器的高效率,考虑到系统性 能、开发周期、可维护性、可移植性、可继承性,本论文的算法采用c 语言实现。 第2 章语音识别的基本原理 语音信号的处理方法主要有时域分析法和频域分析法,时域分析方法是直 接对语音信号的波形进行分析,包括语音的短时平均幅度和能量,短时平均过 零率,短时自相关函数以及短时平均幅度差函数等等。利用这些参数可以检测 出语音信号的基因周期、辨别清浊音,更重要的是,它常用于语音信号的端点 检测,快速而准确的端点检测是正确进行语音识别的前提条件。 2 1语音识别系统的分类及构成 2 1 1 语音识别系统的分类 语音识别主要有两大类:语音识别和说话人识别。这两类语音识别系统都 要求对自然会话的识别率高。但目前的语音识别设备只有在某些限定的条件下 才能有较高的语音识别率。就说话人识别来说,可分为与文本有关和与文本无 关两类。从用途上可分为说话人辨认和说话人确认。前者判定某一待识别的声 音是多个话者中的哪一个,是多选一的问题;后者判定一个待识别的声音“是 或不是”某一特定说话者的语音,其输出只有肯定和否定两个结果。 就语音识别而言,也存在着不同的分类方法“1 : 1 按说话人分 可分为特定人和非特定人识别系统。前者只能识别固定某个人的声音。其 他人要想使用这样的系统,必须事先输入大量的语音数据,对系统进行训练: 而对后者,机器能识别任何人的发音。由于语音信号的可变性很大,这种系统 要能从大量的不同人( 通常3 0 4 0 人) 的发音样本中学习到非特定人的发音速 度、语音强度、发音方式等基本特征,并归纳出其相似性作为识别的标准。使 用者无论是否参加过训练都可以共用一套参考模板进行语音识别。这两类系统 的应用对象大不相同,为了达到良好的识别效果,其系统结构、特征参数选择、 识别方法都可能有极大的差别。对于非特定人的语音识别系统来说,由于要考 虑各种复杂因素,实现起来要比特定人的语音识别系统困难得多。 2 按发音方式分类 按发音方式语音识别系统可分为孤立词语音识别系统、连接词语音识别系 统和连续语音识别及关键词检出等。 孤立词语音识别系统指人在发音时,以单个词的发音方式向语音识别系统 输入语音,词与词之间要有足够的时间间隙,以便系统能够检测到始末点。采 用这种方式的语音识别系统已经有了较为成熟的算法,实现起来较为容易。连 接词语音识别系统指以词或词组为发音单位向系统输入语音。与孤立词发音相 比,这种发音方式比较自然,且输入效率也比较高。 中小词汇量连接词语音识别系统的识别率目前可以做得很高,并达到了实 用水平。连续语音识别系统指在输入语音时,完全按照人的最自然的说话方式 输入。这种系统是最方便的输入系统,但是,实现起来也是最复杂和最困难的。 关键词识别,也叫关键词检测,是一种特殊的语音识别技术,它的目的是 在说话人的连续话语中辨认和确定一些有具体应用决定的特殊词,而这些话语 可以包括许多其他的词和其他各种非语音现象,例如,咳嗽声、呼吸声、关门 声等。 3 按识别词汇量的大小分类 按词汇量的大小可分为小词汇量识别系统、中等词汇量识别系统、大词汇 量识别系统和无限词汇量识别系统。随着词汇数目的增加,潜在的词问相似性 会增加,系统的搜索运算开销及存储开销相应增加,识别系统的难度一般也会 增加。当系统所能识别的词汇量越大时,实现起来就越困难。 目前代表连续语音识别技术最高水平的语音识别系统是非特定人无限词汇 的连续语音识别系统。 4 从语音识别的方法分 可分为模板匹配法、随机模型法和概率语法分析法。这些方法都属于统计 模式识别方法。其识别过程大致如下:首先提取语音信号的特征构建参考模板, 然后用一个可以衡量未知模式和参考模板之间似然度的测度函数,选用一种最 佳的准则和专家知识做出决策,给出识别结果。 语音识别中,最简单的是特定人、小词汇量、孤立词的语音识别,最复杂、 最难解决的是非特定人、大词汇量、连续语音识别。 2 1 2 语音识别系统的构成 一个典型的语音识别系统的原理图如图2 - 1 所示:待识别的语音经过话 筒变换成电信号后加在识别系统的输入端,首先要经过预处理,预处理包括反 混叠失真滤波、预加重和端点检测。经过预处理后,语音信号的特征被提取出 来。常用的特征包括:短时平均能量或幅度、短时平均过零率、短时自相关函 数、线性预测系数、倒谱、共振峰等。根据实际需要选择语音特征参数,这些 特征参数的时间序列便构成了待识别语音的模式,将其与已经存储在存储器中 图2 1 语音识别系统框图 的参考模式逐一进行比较( 模式匹配) ,最佳匹配( 由判决规则确定) 的参考模式 便是识别结果。参考模式是在系统使用前获得并存储起来的,为此,要输入一 系列已知语音信号,提取它们的特征作为参考模式,这一过程称为训练过程。 最佳匹配结果的获得与特征矢量的选择、语音模型的好坏、参考模板是否准确 都有直接的关系,这也是目前语音识别过程中的一个难点。 2 2 语音信号的预处理 2 2 1 语音信号的采样和预处理 在对语音信号进行分析和处理之前,必须对所采集的语音信号进行预处 理。预处理包括语音信号的数字化、反混叠失真滤波、预加重、加窗及端点检 测等。 根据n y q u i s t 采样定理,如果模拟信号的频谱带宽是有限的( 例如不包含 高于f m 的频率成分) ,那么用不小于2f 的取样频率进行取样,则能从取样信 号中恢复出原模拟信号。就语音信号而言,浊音语音的频谱一般在4 k h z 以上 便迅速下降,而清音语音信号的频谱在4 k h z 以上频段反而呈上升趋势,甚至 超过了8 k h z ,以后仍然没有明显下降的趋势0 1 ,因此为了精确表示语音信号, 一般认为必须保留t o k l t z 以下的所有频谱成分,这意味着采样频率应当等于或大 于2 0k h z 。但是在许多实际应用中并不需要采用这么高的取样频率,实验表明 对语音清晰度和可懂度有明显影响的成分,最高频率约为5 7 k h z 。例如 i t u ( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n ,国际电信联盟) 在g 7 2 9 中提 出的语音编解码系统采样频率为8 k h z ,只利用了3 4k h z 以内的语音信号分量, 虽然这样的采样频率对语音清晰度是有损害的,但受损失的只是少数辅音,而 语音信号本身的冗余度又比较大,少数辅音清晰度下降并不明显影响语句的可 懂度。因此语音识别时常用的采样频率为8 k h z 、i o k h z 或1 6 k h z 。 语音信号在采样之前要进行预滤波处理“”。预滤波的目的是:( 1 ) 抑制输 入信号各频率分量中频率超过f s 2 的所有分量( 舀为采样频率) ,以防止混叠干 东北电力大学硕士学位论文 扰:( 2 ) 抑制5 0 h z 的电源干扰。预滤波处理相当于使用个带通滤波器对语音 进行处理。进行预滤波处理后,再采用合适的采样频率进行采样。 2 2 2 语音信号的预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,语音信号从嘴 唇辐射后有6 d b o c t ( 倍频程) 的衰减嘲。因此,在对语音信号进行分析之前, 一般要对语音信号加以提升,以使得语音信号的频谱变得平坦,压缩信号器的 动态范围,提高信噪比。提升的方法有两种:其一是用模拟电路实现:其二是 用数字电路实现。采用数字电路实现6 d b o c t 预加重的数字滤波器的形式为: y ( ,z ) = x ( n ) 一a x ( n - 1 ) ( 2 一1 ) 式中:x ( n ) 为原始语音序列:y ( n ) 为预加重后的序列;q 为预加重系数。 通常,n 的值取0 9 1 0 之间的数。 2 2 3 语音信号的加窗 语音信号是一种典型的非平稳信号,其特性是随时间变化的。但是,语音 的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度 来讲要缓慢得多,因此语音信号常常可假定为短时平稳的,即在l o 2 0 m s 这 样的时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。这样, 就可以采用平稳过程的分析处理方法来处理了。由于这个假定导出了各种“短 时”处理方法,以后讨论的各种语音特征参数的提取都基于这个假定。这种依 赖于时间处理的基本方法,是将语音信号分隔为一些短段( 帧) 再加以处理。这 些短段就好像是来自一个具有固定特性的持续语音片段一样。这些短段一般都 按要求重复( 常是周期的) ,对每个短段语音进行处理就等效于对固定特性的持 续语音进行处理。短段之间彼此经常有一些重叠,对每一帧的处理结果或是一 个数或是一组数。经过处理后将从原始语音序列产生一个新的依赖于时间的序 列,被用于描述语音信号的特征。 设原始语音信号采样序列为x ( m ) ,将其分成一些短段等效于乘以幅度为l 的移动窗w ( n m ) 。当移动窗幅度不是1 而是按一定函数取值时,所分成的短段 语音的各个取样值将受到一定程度的加权。 对语音信号的各个短段进行处理,实际上就是对各个短段进行某种变换或 施以某种运算,其一般式为: q = r x ( m ) w ( n m ) ( 2 2 ) 其o p t 表示某种变换,它可以是线性的也可以是非线性的,( x ( m ) 为输 入语音信号序列。q n 是所有各段经过处理后得到的一个时间序列。对语音信号 加窗时,用得最多的三种窗函数是矩形窗、汉明窗( h a m m i n g ) 、汉宁窗( h a n n i n g ) , 其定义分别为: fl ; o n l 一1 ( 1 )矩形窗:w ( n ) - j ( 2 3 ) 0 :其它 r k0 5 4 0 4 6 c o s ( 三至竺) :o n l 1 i l 一1 ( 2 )汉明窗:w ( n ) : ( 2 4 ) 10 ;其它 o 5 1 - c o s ( 器) o n l 1 ( 2 - 5 ) 其中l 为窗长。窗函数越宽,对信号的平滑作用越显著,窗函数过窄,对 信号平滑作用越不明显。对波形乘以窗函数,相当于在频谱范围内,对信号的 频谱进行窗函数的付里叶变换的卷积,或者是进行加权移动的平均。一般希望 窗函数具有以下的性质:频率分辨率高,即主瓣狭窄、尖锐;频谱泄漏少, 侧瓣衰减大。由于汉明窗在频率范围中的分辨率较高,而且侧辨的衰减大于 4 3 d b ,具有频谱泄漏少的优点,所以在语音信号的分析中,常用h a m m i n g 窗作 为窗函数。 2 3 语音信号的短时分析 由于语音信号的准平稳特性,任何语音信号数字处理算法和技术都建立在 短时分析的基础上。为了实现各种具体应用而做进一步的复杂处理之前,有一 些共同的短时分析技术。主要有:短时能量、短时过零率和短时自相关函数等。 2 3 1语音信号的短时能量 ,101 )m 窗宁汉 )0 语音信号短时能量定义为: e 。= x ( 研) w ( 以一m ) 】2 l i t = - - d 佗一6 ) 短时能量可用于: ( 1 ) 区分清音段和浊音段,语音为浊音时的短时能量值比清音时大得多。 根据语音信号短时能量值的变化,可大致判定清音和浊音的变化时刻。 ( 2 ) 对于高信噪比的语音信号,可以用来区分有无语音。此时,无语音信 号的噪声能量很小,而有语音信号时短时能量值显著地增大到某一个数值,由 此可以区分语音信号的起点和终点。 ( 3 ) 作为一种超音段信息,用于语音识别中。 但是,e n 值对于高电平信号非常敏感( 因为计算时用的是信号的平方) , 因此在实际使用时需加以处理,例如取对数等,以便将数值限制在一定的范围 内。 2 3 2 语音信号的短时过零率 在离散时间信号情况下,当相邻的两次抽样具有不同的代数符号时就称为 发生了过零,它表示一帧语音中信号波形穿过横轴( 零电平) 的次数。它可以用 相邻两个取样改变符号的次数来计算: 乙= is g n x ( m ) 一s g n x ( m - 1 ) 1w ( n r n ) ( 2 7 ) 其中,s g n 表示取符号。1 1 1 为窗的起点。w ( 1 3 ) 为窗函数。 由于浊音频谱主要集中在3 k h z 以下低频区域,超过4 k h z 后频谱幅度便迅速 下降;而清音频谱幅度在超过4 k h z 以后反而呈上升趋势,甚至超过8 k h z 以后仍 然没有下降的趋势,这表明清音频谱主要集中在高频区域。短时平均过零率粗 略地描述了信号的频谱特性,因而可以根据它来区分浊音和清音。另外,利用 短时平均过零率还可以从背景噪声中找出语音信号,以用于判断寂静无语音和 有语音的起点和终点位置m 7 ”。 2 3 3 语音信号的短时自相关函数 设s w ( n ) 是一段加窗的语音信号,其非零区间为n = 0 一1 ) 。s 。( n ) 的自 相关函数称为语音信号的短时自相关函数。用r 。( f ) 来表示,公式见( 2 8 ) 式: + 砷- 1 一l 凡( ,) = 钆( 砷o + z ) = 乱( 叻s ,o + ,) ( 2 8 ) n = o 易于证明,r ( f ) 是偶函数,即r ( f ) = 凡( 一,) 。民( d 在z = ( 一+ 1 ) 一一1 ) 区间之外恒为0 。r 。( ,) 的最大值在= 0 处,且r ( 0 ) 等于加窗语音的平方和, 即: r ( o ) = ( ( 2 9 ) 钆( 开) 的离散时域傅立叶变换s w ( e x p ( ,曲) 称为( 刀) 的短时频谱。 一l s ( e x p ( j w ) ) = ( n ) e x p ( 一j w n ) j f = 0 佗一1 0 ) 乱( e x p ( 一) ) 1 2 称为s ( n ) 的短时功率谱。假设s ( n ) 离散傅立叶变换是 s ( e x p ( j w ) ) ;w ( n ) 的离散时域傅立叶( d f t ) 是w ( e x p ( j w ) ) ;j g a ,s w ( c x p ( j w ) ) 是 s ( c x p ( j w ) ) 和w ( e x p ( j w ) ) 的周期卷积。采用方窗时求得的( e x p ( j w ) ) 与 s ( e x p ( j w ) ) 偏差较大( 这就是g i b b s 效应) ,为了减少这种效应,在求短时频谱时 一般采用汉明窗,在语音信号数字处理中,都是采用( 彩的离散傅立叶变换 咒( i ) 来代替s w ( c x p ( j w ) ) ,并且可以用快速的傅立叶变换f f t 完成由( 以) 到 瓯( 七) 的计算。为了使s w ( 七) 具有较高的谱分辨率,所取的d f t 以及响应的f f t 点数l 较( 强) 的长度要大。可以证明 & ( e x p ( j w ) ) 1 2 是凡( f ) 的离散时域付立 叶变换,其关系式见式( 2 1 1 ) : n - l is w ( e x p ( j w ) ) 1 2 = l o ( 1 ) e x p ( - j w l ) ( 2 一1 1 ) 线性预测分析法 9 1 是最有效的语音分析技术之一,它所包含的基本概念是: 一个语音取样的现在值可以用若干个语音取样过去值的加权线性组合来逼近。 在线性组合中的加权系数称为预测器系数。通过使实际语音抽样和线性预测抽 样之间差值的平方和达到最小值,能够决定唯一的一组预测器系数。线性预测 的基本原理是建立在语音的数学模型基础上,为估计数学模型中的参数,线性 预测法提供了一种可靠精确且有效的方法。 2 4 语音信号的特征参数 语音信号是冗余度很高的随机信号,在进行语音信号处理的时候,必须经 过特征提取才能有效地降低信号的冗余度,而语音特征的提取又是通过对语音 信号的分析来获得的。因此表征语音信号参数的准确性是语音处理正确的保证, 而提取的语音特征参数的简洁度又成为能否实时提取语音特征的关键。 语音参数的选择是整个语音识别系统的基础,对正确识别率有着直接的影 响,目前常用的特征参数【1 0 , 1 1 l 包括线性预测倒谱系数( l i n e a rp r e d i c t i o nc e p s t r u m c o e f f i c i e n t ,l p c c ) 、梅尔倒谱系数( m e 。f r e q u e n c yc e p s t r u mc o e f f i c i e n t , m f c c ) 等。l p c c 参数和m f c c 参数分别根据人的发声原理和昕觉感知原理,从人 的声音提取出能量分布谱,从中获得声纹的独特特征,这两种参数在实用中得 到了较好的效果。 。 在检测到语音的起止点后,就可以开始对检测出来的语音信号段进行分析 处理,从中抽取语音识别所需的信号特征。语音特征参数是分帧提取的,每帧 特征参数一般构成一个矢量,因此语音特征是一个矢量序列。语音信号中提取 出来的特征经过数据压缩后便成为语音的模板。显然,特征的选择的标准应尽 量满足:( 1 ) 能有效地代表语音特征,包括声道特征和听觉特征,具有很好的区 分性;( 2 ) 各阶参数之间有良好的独立性;( 3 ) 特征参数要计算方便最好有高效 的计算方法,以保证语音识别的实时实现。孤立单词语音识别系统的特征提取 一般需要解决两个问题,一个是从语音信号中提取有代表性的合适的特征参数, 即选取有用的信号表示:另一个是进行适当的数据压缩。而对于非特定人语音 识别来讲,则希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人 信息( 对特定人语音识别来讲,则相反) 。这也是信息压缩的过程。目前进行语 音特征分析有线性预钡t j ( l p ) 分析、m e l 参数和基于感知的线性预测分析。其中 最常用、最重要的方法之一是线性预测分析( l p c ) 法,这是由于: 1 它有效地解决了短时平稳信号的模型化问题,可把语音信号看成是由全 极点模型产生的。 2 能很好地逼近共振峰,提供谱估计。 3 提供的语音信号模型参数( 如基音、共振峰、谱、声道面积函数等) 简洁 而准确,计算量较小。便于实时处理。 4 可用于低频率传输的环境。 但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特 点。m e l 参数和基于感知线性预测分析提取的感知线性预测倒谱,在一定程度 上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。 采用这些技术,语音识别系统的性能有一定提高。 2 4 1 线性预测系数 线性预测分析的基本思想是:由于语音样点之间存在相关性,所以可以用 过去的样点值来预测现在或未来的样点值,即一个语音的抽样能够用过去若干 个语音抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测抽样之 间的误差在每个准则下达到最小值,来决定唯一的一组预测系数。而这组预测 系数就反映了语音信号的特性,可以作为特征参数,用于语音识别、语音合成等。 语音信号线性预测的基本思想是:语音信号的每个取样值,可以用它过去 若干个取样值的加权和( 线性组合) 来表示,各加权
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海驾校合同标准文本
- 代评职称合同样本
- 公司出售企业合同样本
- 代工成品销售合同标准文本
- 债务人合同样本
- 企管顾问合同标准文本
- 企业租赁机房合同样本
- 公路工程单位合同样本
- 买瓷砖定金合同标准文本
- 2025年商用办公房屋租赁合同样本
- 汽车维修质量保证制度
- 外研版(三起)(2024)三年级下册英语Unit 3 单元测试卷(含答案)
- 2024年广州市卫生健康系统招聘“优才计划”考试真题
- 重点营业线施工方案
- 餐饮店菜品成本计算表
- 《水土保持监测技术规范SLT 277-2024》知识培训
- 2025年江苏南京事业单位招聘(787人)高频重点模拟试卷提升(共500题附带答案详解)
- GB/T 33136-2024信息技术服务数据中心服务能力成熟度模型
- 《保护地球爱护家园》课件
- 雾化吸入疗法合理用药专家共识(2024版)解读
- 2024年度产学研合作与科研奖励协议3篇
评论
0/150
提交评论