




已阅读5页,还剩55页未读, 继续免费阅读
(信号与信息处理专业论文)小词汇量语音识别系统的实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 小词汇量语音识别系统是指词汇量在1 0 0 字以内的语音识别系统。在语音拨号电 话、家电遥控、工业控制等领域,小词汇量语音识别都有着广泛的应用,具有重要的 实用价值。实现高识别率的小词汇量语音识别系统并不困难,但如何解决识别率和系 统复杂度的关系,是目前这一研究领域中最重要的课题之一。 本文系统的研究了组成小词汇量语音识别系统的各种技术,并在此基础上提出了 一个小词汇量语音识别系统的实现方案。本文主要完成了下列工作: ( 1 ) 以分帧处理思想改进了端点检测方法,在采样期间可以进行特征提取和矢量 量化,提高了系统的实时性; ( 2 ) 采用单边自相关序列代替原始语音序列,提高了线性预测倒谱参数的抗噪性 能; ( 3 ) 用近邻划分的方法进行矢量量化,降低了识别过程的计算量; ( 4 ) 着眼于定点d s p 处理特性,对离散马尔可夫模型的训练和识别过程提出了一 些改进方案,减少了存储量和运算量。具体方法有:用加权合并的方法对多 训练序列b a u m w e l c h 重估公式优化,用增加指数位的方法解决前后向概率递 推过程中的下溢问题,以及结合v i t e r b i b e a m 和v i t e r b i w i n d o w 两种剪枝算 法的思路进行v i t e r b i 判分; ( 5 ) 就系统的每个关键参数进行实验和分析,给出了小词汇量语音识别系统的实 现方案,取得了识别率和复杂度较为均衡的结果。 本文的仿真系统最终性能为:孤立词特定人识别率9 3 0 ,连续语音特定人识别 率8 0 5 。 关键词:语音识别;隐含马尔可夫模型;倒谱;线性预测:端点检测:矢量量化 a b s tr a c t s m a l lv o c a b u l a r ys p e e c hr e c o g n i t i o ns y s t e mi st h o s ew h o s ev o c a b u l a r yi sl e s st h a n10 0 i t i so fg r e a tv a l u ei nt h ea p p l i c a t i o n so fs p e e c h - d i a l i n gt e l e p h o n e r e m o t ec o n t r o l l i n go f c o n s u m e rd e v i c e sa n di n d u s t r i a lc o n t r o l l i n g e ta 1 i ti sn o td i 伍c u l tt or e a l i z eas m a l l v o c a b u l a r y s p e e c hr e c o g n i t i o ns y s t e mo fl o we r r o rr a t ea tp r e s e n t h o w e v e r , h o wt ob a l a n c e b e t w e e nc o r r e c tr e c o g n i t i o nr a t ea n ds y s t e mc o m p l e x i t y , i so i l eo ft h em o s ti m p o r t a n t s u b j e c ti ns m a l lv o c a b u l a r ys p e e c hr e c o g n i t i o nr e s e a r c h t h i sp a p e rp r o p o s e sap r a c t i c a la l g o r i t h mu t i l i z i n gt h el p c c ( l i n e a rp r e d i c t i o n c e p s t r u mc o e f f i c i e n t ) p a r a m e t e r sa n dd h m m ( d i s c r e t eh i d d e nm a r k o vm o d e l ) a st h e a c o u s t i cm o d e l s s u m m a r i l y , t h i sp a p e rc o m p l e t e st h ew o r ka sf o l l o w i n g : ( 1 ) i m p r o v e st h er e a l - t i m ec h a r a c t e ro fe n d p o i n td e t e c t i o n ,m a k i n gs y s t e me x t r a c t i n g f e a t u r e sa n dv e c t o rq u a n t i z i n gw h e ns a m p l i n g ; ( 2 ) u s e so n e - s i d ea u t o c o r r e l a t i o ns e q u e n c ei n s t e a do fo r i g i n a ls p e e c hs e q u e n c e , i m p r o v i n gt h ea n t i - n o i s ec h a r a c t e ro f t h es y s t e m ; ( 3 ) u s e st h e f a s t n e r e s t - n e i g h b o r s e a r c hi nv e c t o rq u a n t i z a t i o n ,m a k i n gt h e v e c t o r - b o o ks e a r c hm o r ee f f i c i e n t ; ( 4 ) p r o p o s e ss e v e r a la d v i c eo nd h m m ,d e c r e a s i n gt h ew a s t eo fs t o r a g ea n do p e r a t i o n ; ( 5 ) a n a l y s e se v e r yk e yp a r a m e t e r si nt h i ss y s t e mt og e tt h ef i tr e s u l t t h ef i n a lp e r f o r m a n c eo ft h es i m u l a t es y s t e mi s :t h es p e a k e r - d e p e n d e n ti s o l a t e dw o r d s p e e c hr e c o g n i t i o n c o r r e c tr a t ei s9 3 o t h e s p e a k e r - d e p e n d e n t c o n t i n u o u ss p e e c h r e c o g n i t i o nc o r r e c tr a t ei s8 0 5 k e y w o r d :s p e e c hr e c o g n i t i o n ;h m m ;c e p s t r u m ;l p c ;e n d p o i n td e t e c t i o n ;v q i i 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版 权使用规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的 的复印件和电子版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学 位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描 等复制手段保存和汇编学位论文。 保密叵在l 年解密后适用本授权书 本学位论文属于 不保密口 ( 请在以上方框内打“4 ”) 作者签名:铩践驰作者签名:2 歪皇垫垒璺 指导导师签名: 致谢 三年的硕士学习生活,终于要划上一个句号了。在即将完成这篇学位论文之际, 我要对那些关爱过我,支持过我的人们表达我深深的谢意。 首先,我要感谢我的导师殷福亮教授。从迈进教研室的第一天开始,殷老师就以 他严谨的治学态度、渊博的专业知识、求实的科研作风熏陶着我们。他不单教我们如 何工作学习,还教我们如何做人。认真二字,是我从您身上学到的最大财富。 其次,我要感谢教研室的陈醋老师、马晓红老师以及郭成安老师、孔祥维老师、 邱天爽老师等所有指导过我的老师们。正是您们为我打开了信号处理世界的大门,让 我从驽钝无知迅速成长起来。从您们身上,我学到了许多信号处理方面的专业知识和 做人的道理。您们对我的关怀和帮助是我永远难以忘怀的。 此外,我还要感谢教研室所有的伙伴们。请恕我无法将你们的名字一一列出。能 生活和学习在教研室这个集体里,我感到十分骄傲和温馨。感谢你们为我做的一切。 最后,我要将此文献给我的家人和我的女友,你们的支持是我最大的动力。无论 现在还是将来,我都将努力奋斗以不辜负你们对我的殷切期望。 i i i 小词汇量语音识别系统的实现概论 1 1 语音识别简介 1 1 1 语音识别的意义 第一章概论 语音识别的研究目标是让机器在各种情况下,有效的了解、识别人的口语语音,从 而执行人的各项意图。这有两方面的研究方向,一种是将人类的口述语言逐字逐句翻译 为相应的文字或字符,如语音输入工具:另一种是对口述语言中所包含的要求或者询问 做出正确的响应,而不拘泥于所有词的正确,如手持电话中的语音命令。第二种的技术 难度要远远小于第一种。目前国内外对语音识别的研究主要在第一种。 语音识别是一项非常有实用价值的课题。自第次工业革命以来,机器的出现替代 了人类大量的手工劳动,给人类的生活带来了很大的变化。经过两百多年的发展,当今 社会中,机器更是在人类生产生活中无所不在,如工业控制系统、办公室自动化系统等, 它们的存在为人们带来了更为方便、舒适和高效的生活。但功能越来越强,结构越来越 复杂的机器对操纵者的技术、知识储备的要求也越来越高。如果能用人类最直接、方便、 自然的信息交流手段之一的语音作为人机对话的交流方式,不仅将劳动者的双手进一步 的解放,同时也令缺乏专业技能的业余人士能得心应手的操纵机器,这对发展生产力和 解放劳动力的促进是不言而喻的。另一方面,在某些特定条件下,不可能允许人们自由 的使用双手来进行各种操作,例如在驾驶汽车的时候,双手离开方向盘或者目光离开前 方是十分危险的,此时语音操作的意义就更加重大。因此可以说,只要在有机器的地方, 就有语音识别存在的价值。这也是国内外科研工作者投入大量财力和精力研究语音识别 的巨大动力。 语音识别是一门学科涵盖范围相当广的课题。信号处理学、语言学、生理学、模式 识别、人工智能,各种学科的学者都在为该课题贡献力量。语音识别的这种复杂性, 也给研究带来了前所未有的困难。 按照不同的分类标准,语音识别系统一般可以分为下面几种l l j : 按词汇量的大小,可以分为大词汇量语音识别系统、中词汇量语音识别系统和 小词汇量语音识别系统三种。现在大致的划分标准是:所识别词数在1 0 0 以下 的称为小词汇量,1 0 0 到5 0 0 之问的为中词汇量,超过5 0 0 的为大词汇量。随 着词汇量的增加,系统的实现也越来越困难。 按语音述说方式,可分为孤立词、连接词和连续语音三种。孤立词识别方式是 指说话人每次只说一个词、一个词组让系统进行识别:连接词识别方式一般特 指由十个数字连接而成的多位数字的识别:连续语音识别是指说话人以日常自 然的方式讲述并让系统识别。这三种方式的识别困难程度显然是逐次递增的。 按服务对象,可分为特定人和非特定人两种。特定人识别系统是指系统仅针对 一个用户;相对的,面对多个用户的识别系统为非特定人识别系统。后者的实 现难度远大于前者。 小词汇量语音识别系统的实现 概论 1 12 语音识别的历史和现状 语音识别的研究大约从上世纪五十年代初开始,但是当时的理论条件和物质条件 还不适宜语音识别的发展。直到六十年代中期,在计算机产业和数字信号处理学科迅 猛发展带来的契机下,语音识别终于作为一个重要的课题走向前台,并取得了实质性 的进展。我们简要回顾一下语音识别近五十年的历史1 2 j 。 1 9 5 5 年,b e l l 实验室的d a v i s 等人利用共振峰特征研制出了世界上第一台原始语音 识别系统。1 9 5 9 年,美国l i n c o l n 实验室的r o r g i e 和f o r g i e 首次采用数字计算机识别英 文的元音和以摩擦音开头的孤立字,这标志着计算机语音识别时代的开始。在六、七十 年代,一系列里程碑式的基础性突破为语音识别的发展奠定了基础。在语音学方面,瑞 典通信工程师f a n t 发表了著名的博士论文语音产生的声学理论;人们还对人的听觉 生理和心理进行了研究,提出了临界频带理论。在信号处理方面,线性预测编码( l i n e a r p r e d i c t i o nc o d i n g ,l p c ) 技术在7 0 年代被f | 本学者l t a k u r a 成功地应用于语音以别,成为 迄今为止最为有效的语音特征参数之一:前苏联科学家v i n t s y u k 在6 0 年代将动态规划 应用于模式识别,成为语音识别方法的重要基础;而日本学者s a k o e 和c h i b a 提出了动 态时间伸缩( d y n a m i ct i m ew a r p i n g ,d t w ) 算法,成为第一种通用的语音识别算法,在特 定人语音识别中获得了广泛的应用。8 0 年代以后,语音识别的任务开始由特定人孤立词 语音识别转向非特定人连续语音识别,识别的方法也逐渐从模板匹配方法转变到统计模 型方法。该期间最重要的成果是隐含马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 在语音 识别中的应用。在此期间,美国国防部的d a r p a 计划对语音识别研究起到了巨大的推 动作用。参加d a r p a 计划的各研究机构都推出了各种的识别系统,如c a r n e g i e m e l l o n 大学著名的s p h i n x 系统,b b n 公司的b y b l o s 系统等。b e l l 实验室以lr r a b i n e r 为首的小组则对英语数字串识别作了大量的研究,成为小词汇量语音识别的典范。同一 时期,人工神经网络( a r t i f i c i a ln e u t r a ln e t w o r k ,a n n ) 成为了新兴的语音识别方法。九 十年代以来,随着语音识别各方面问题的逐个解决,语音识别中最困难的非特定人大词 汇量连续语音识别已经达到了很高的性能。 目前,语音识别技术已经走入了一个相对成熟的时期,并正在逐步走出实验室,投 入实用。在大词汇量语音识别系统方面,比较成熟的有英国剑桥大学的h t k 系统p j , 对于广播语音,误识率达到1 6 2 ,对于理想环境下的语音数据,误识率已达到5 以 下;而难度很高的电话系统大词汇量语音识别,美国c a r n e g i e - m e l l o n 大学的s p h i n x i i 系统误识率为4 5 1 4 1 。投入商用的识别系统有i b m 公司的v i a v o i c e 系列,m i c r o s o f t 公司的o f f i c e 系列语音输入工具等,表现也十分优异。这些系统代表了当今语音识别技 术的最高水平。 在小词汇量语音识别方面也有长足的进展。英语数字语音识别的串识别率已达到 9 9 以上1 5 】;而具有高混淆度的英语字母的识别率也达到了9 7 以上1 6 】。同时各类电子 产品也逐渐内置语音识别系统,如高档手持电话,早已将语音指令作为一个不可或缺的 功能。 国内的语音识别开始于七十年代,经过三十余年的发展,汉语语音识别也获得了1 二 硕的成果。1 9 9 8 年的8 6 3 测试评比中,清华大学电子工程系以王作英教授为首的课题组 完成的汉语连续语音识别系统单字识别率达到9 0 以上,代表了目前国内的先进水平。 小侧汇量语音识别系统的实现 概论 在汉语小词表语音识别及应用方面,清华大学电子工程系以刘润生教授为首的课题组已 推出了基于非特定人汉语数码语音识别的语音拨号电话机,并正在从事语音识别专用芯 片的设计研究。除此之外,还有不少院校和科研机构在进行语音识别技术的研究,对汉 语语音识别的研究方兴未艾。 1 1 3 语音识别原理 虽然语音识别系统因为识别对象、词汇量大小和应用范围的不同而具体实现细节不 同,但其基本框架是相似的。一个典型的语音识别系统由预处理、端点检测、特征提取、 模板训练以及模式匹配五部分组成,如图1 1 所示。 孽孝静凋垂圆 预处理 端点检测| 圈1 - 1 语音识别基本原理 f i g u r e1 - 1p r i n c i p l eo f s p e e c hr e c o g n i t i o n 预处理是对输入的原始语音进行一些适当的处理,以增强语音信号的抗干扰性。基 于实时性和识别率两方面的考虑,这一阶段主要做一些较简单的工作,不宜使用过于复 杂的算法。 端点检测是指将有效语音和背景噪声区分的过程。精确的端点检测对提高识别率大 有裨益。但由于实际环境的复杂性和背景噪声的多样性,取得精确的语音端点目前仍是 一个难题。 语音信号中含有大量信息,这些信息有很大的冗余性和随机性。从语音信号中提取 语音识别所需的关键信息,摒弃无关信息,这就是特征提取的任务。同时,特征提取也 是一个信息压缩的过程。 模板的训练和匹配是整个语音识别流程中的关键部分。语音识别使用的主要语音模 型有d t w 、h m m 和a n n 。d t w 是比较早期的一种语音模型,目前多用于小词汇量特 定人孤立语音识别。a n n 是一种可训练的模型,可以随着经验的积累改善系统性能, 同时a n n 具有高并行性,因此很合适进行语音处理。但由于a n n 还是一门新兴技术, 尚有许多问题需要解决。本文的主要研究对象是h m m ,后文将详细论述。 1 2 汉语语音识别难点和发展方向 1 2 1 语音识别的难点 虽然语音识别技术的研究已经走过了漫长的五十年,也取得了可喜的成果,但离广 泛的实用还有较长距离,这和语音识别本身的复杂性是分不开的。目前语音识别主要面 临着以下四点困难: 小蒯_ j l 量语音识别系统的实现 概论 ( 1 ) 语音模型本身的缺陷。d t w 和h m m 都为语音识别的发展做出了杰出贡献, 但是这些算法都有一些与生俱来的缺陷,导致在解决不同的问题时表现各有差异。 ( 2 ) 识别率和算法复杂度的冲突。对于一个语音识别系统来说,希望所选的识别单 位数量尽可能少,因为词条数量越少越有利于识别时减少搜索范围:另一方面,希望所 选单位嵌在不同的上下文里变化越小越好。这是相互矛盾的,如果识别单位选为词,第 二条较容易满足,但是对于大词汇量的识别系统,所要存储的数据是一个天文数字:如 果识别单位选为音素,汉语和英语的音素都不超过6 0 个,但是因为协同发音的结果, 使同一个音素在不同的上下文环境里发音各不相同,给识别带来很大难度。 ( 3 ) 语音多变性带来的困难。人体生理结构是一个非常复杂的系统,因为性别、年 龄、身体状况以及文化程度的不同,讲述同一内容的语音也会有相当大的差异。就算是 同一个人,在不同的情绪和身体条件下语音也不尽相同,更不要说地方方言的影响了。 ( 4 ) 噪声的影响。抗噪一直是语音识别的重要课题之一。噪声引起的畸变给语音识 别带来巨大的困难。如何保证在不同环境下系统的稳定性,是相当长一段时间来困扰国 内外语音识别工作者的问题之一。 1 2 2 汉语语音识别的难点 在浩瀚的人类文化中,汉语是一门相当特殊的语言。方块字使汉语输入远不如英语 输入快捷方便,一度成为计算机在中国普及的制肘。如果汉语语音识别能够得到实用, 汉语输入将摆脱这一阴影。这使得汉语语音识别的研究价值非常突出。但同时汉语语音 的特殊性,使得汉语语音识别面临比西方语言严峻得多的困难,这主要表现在两方面口】: ( 1 ) 语音间的混淆度高。汉语纯元音字较多,例如“二”、“一”、“无”等。纯元音 的连续程度要远高于普通语音,例如“一二二一”这样的一个连续语音很难看出两个字 之间的分界点。其次,语音包容现象要远大于西方语言。语音包容现象指一个字的语音 包容了另一个字的全部音节,例如“我”包容了“哦”。高混淆性大幅降低了汉语语音 的识别能力。其三,汉语大部分字仅靠音调区分,同音字相当多,虽然可以通过文法来 加强识别效果,但带来的运算量和算法复杂度是西方语言识别所不能比拟的。 ( 2 ) 方言问题。中国是一个地大物博的国家,不同地方的方言使人之间的交流发生 困难,更不要说用机器识别。不同人的口音给汉语识别带来了相当大的困难。 目前汉语数码语音识别的串识别率尚未突破9 9 ,大词汇量语音识别也尚处起步阶 段,相比英语语音识别的识别率还有很大差距。汉语语音识别的研究任重而道远。 1 2 3 语音识别的发展方向 语音识别面l 临的各种困难,给国内外专家学者提出了巨大的挑战。现今语音识别的 发展方向和研究课题主要有以下几个方面: ( 1 ) 语言模型的完善。前面提到,语音识别模型仍有相当的缺陷。解决这个问题有 两个途径:一方面继续改进和完善现有模型,另一方面积极探求新的模型。目前,对人 工神经网络的研究正在如火如荼的展开。人工神经网络所拥有的优秀特性,吸引语音识 别研究者们眼光的汇聚。这将是一项非常有潜力的研究方向。 ( 2 ) 说话人自适应。为了解决不同人语音差距过大的问题,可以利用说话人自适应 小词汇量语音识别系统的实现 概论 的方法对系统参数进行微调,从而达到非特定人识别的目的。自适应方法的优点在于可 以充分利用已训练的数据,降低运算量。 ( 3 ) 抗噪的研究。如何在复杂的环境下得到稳定的结果,是一个从语音识别诞生开 始就不断研究的课题。这个问题的解决程度,直接影响到识别系统的实用价值。 ( 4 ) 关键词识别技术。对于语音自动应答机等语声响应系统和数据库查询系统而 言,这是一项非常实用的技术。用户的讲述有很大的随意性,但话语中的重要信息 关键词却基本固定。丢弃一些次要的话语信息,强调关键信息,人类的听觉认知系统也 是这样工作的。 ( 5 ) 小型化和实用化的研究。实用化才是语音识别研究的最终目的。目前比较成功 的语音识别系统都基于拥有强大c p u 和海量存储器的计算机。将性能良好的语音识别 系统搬上便携计算机( 如p d a ) 等脱机系统,是现在的研究方向之一。随着高速d s p 芯片性能的不断提高,一些较复杂的语音识别系统也得以脱机实现,使得语音识别系统 正在向实用化和小型化的目标不断迈进。 1 3 本文选题的依据和目标 本文的研究任务为研究小词汇量语音识别技术,提出了一个有实用价值的小词汇量 汉语语音识别系统实现方案。分析和讨论各关键部分常用算法,在兼顾识别率的情况下, 达到小型化和实时性的目的,以便本教研室后续研究工作的展开。 小词汇量语音识别系统是指词汇量在1 0 0 以下的语音识别系统,如数字串识别系统 等。小词汇量语音识别系统有广泛的实用价值。 ( 1 ) 语音控制。工业控制或者家电控制等场合,机器接受的指令相当有限。使用语 音识别技术进行语音控制,可以避免复杂的控制面板,简化控制程序,并可以有效的增 加控制距离,实现远程控制。 ( 2 ) 电话自动服务。在一些服务中心,如信用卡服务中心、移动电话服务中心等, 只需利用仅包含数字串和少数几个指令的小词汇量语音识别系统,便可以实现乜话白动 服务,节省大量人力。 小词汇量语音识别系统在算法复杂度和实现难度上比大词汇量语音识别系统小许 多,因此更容易小型化和实现实时处理。芯片化也是其发展趋势之一。小词汇量语音识 别系统将是应用最为广泛,最早走上实用的语音识别系统,与人们的生活息息相关。 小词汇量语音识别系统的技术已经相当成熟,实现高识别率并非难事。目前面对的 问题是如何在保持高识别率下降低算法的复杂度,减少运算量和存储量,使得系统能在 高速d s p 和集成电路上实时实现。本文作者所在的教研室正在进行这方面的工作。 考虑到本文研究的目标和应用范围,本文对研究任务有如下要求: ( 1 ) 本文在研究上将着重于实用化和小型化。采用的算法需要考虑定点d s p 的特 点,不能完全脱离d s p 的能力而采用一些过于复杂的算法;同时系统也需要保证一定 的识别率。在算法的改进过程中,也需满足上述要求。 ( 2 ) 本文系统的仿真平台是p c 机和c + + 语言。程序力争能模块化,增加程序的可 读性和再利用性,保证研究项目的可持续发展性,减少开发周期。 小例汇量语音识别系统的实现 1 4 本文结构安排 本文可以分作两部分。第二章、第三章和第四章为一部分,主要讨论识别系统中各 个重要部分的算法。其中第二章介绍端点检测的常用算法以及为提高实时性所做的工 作,第三章阐述两种倒谱特征和近邻划分矢量量化方法及其性能,第四章主要研究隐含 马尔可夫模型的训练和识别算法。第五章为第二部分,详细描述了小词汇量语音识别系 统实现过程中的重要细节,并对实验结果进行了客观的分析。最后在第六章给出了全文 的总结和展望。 小词汇量语音识别系统的实现端点榆测 第二章端点检测 端点检测的目的是鉴别数字语音信号中的有效信号。一般而言,只需检测出语音的 起止点,在比较复杂的识别系统中还需区分出清音段和浊音段。本章在语音短时分析的 基础上,详细介绍了两种端点检测的算法:v u s 和f r e d ,分析了两者的优缺点。最后 提出了一种可用于实时语音处理的端点检测方法。 2 1 数字语音信号的短时分析【8 】 2 1 1 语音信号的分帧和加窗 语音信号是一种准平稳信号,在足够短的时间间隔内,可以视作平稳信号。大部分 语音信号处理技术都是建立在语音信号这种“短时”特性之上的。 数字语音信号在采样之后,依次存入一个数据区。在语音信号处理中一般用循环队 列的方式来存储这些数据,以便用一个有限容量的数据区来应付数量极大的语音数据。 已处理完毕的数据依次抛弃,让出存储空间来存入新数据。在进行处理时,依次按帧从 数据区内取出数据,处理完毕后再取下一帧数据。 语音信号的帧长一般为1 0 m s 3 0 m s 。过长的语音帧会使得语音的短时特性不太明 显,因此3 0 m s 以上的帧长很少出现。分帧是一种人为的行为,往往难以满足语音区间 内( 如从辅音到元音、辅音或元音段中激励脉冲附近) 特性快速变化的需要。为了能保 证这些信息的获取,一般采用滑动分帧的方式,如图2 1 所示。相邻两帧的重叠部分称 为帧移,帧移和帧长的比值一般为0 0 5 。 已取出的一帧语音需要经过加窗处理。选 择窗函数时需要考虑的问题是窗长和窗类型。 如果窗长过长,加窗相当于语音信号通过一个 很窄的低通滤波器,满足不了快速特性的要 。,。求;窗长过短则不能提供足够的均化,以产生 图2 - 1 语音帧示意苗” 平滑的时域短时特征。一般而言,窗长和帧长 f i g u r e2 - 1s p e e c hf r a m e 翟萋著麓絮夏裔蒙蓑蒿菩嚣嘉姜昊挈嘉凼数伺矩彤筒午u 仪明筒。擞明筒削带苋灭丁,炬 形窗,边瓣衰减快,因此在语音信号处理中得到更广泛的应用。设窗长为n ,则矩形窗 函数表达式为: w ( ”) 2 l o , 其它 汉明窗函数表达式为: 删:0 5 4 - 0 6 4s ( 寿,胪0 - l 【0 , 其它 最后加窗语音信号为 ( 2 1 ) ( 2 2 ) 小刊汇量语音识别系统的实现端点检测 5 。( h ) = j ( h ) w ( n ) 。( 2 3 ) 2 1 2 语音信号的短时能量、短时平均幅度和短时过零率 语音信号的短时能量、短时平均幅度和短时过零率是语音信号的一组最基本的短时 参数,不仅在端点检测中反复使用,而且作为语音信号的基本特征之一在语音信号处理 的各个领域皆有其实用价值。 设窗起点为h = m 时,语音帧长,语音信号的短时能量用占。表示,其计算公式为: m + n 一1 e m = s :( 川 ( 2 4 ) 语音信号的短时平均幅度用m 。表示,其计算公式为: m + ,- 1 坂= i s w ( n ) l ( 2 5 ) m 。的优点在于计算小取样值时不会因为取平方而造成较大差距,在某些应用领域 比巳更有优势。 语音信号的短时过零率用z 。表示,用以表征一帧语音中语音信号波形通过横轴( 零 电平) 的次数。它可以用相邻两个取样改变符号的次数来计算,公式为: 1m :堂1 z r n = 寺 is g n s 。( h ) 卜s g n s ,0 一1 ) 】1 ) ( 2 6 ) 其中s g n 为符号函数,表示所计算对象的符号,即: 洲也= 眨, 如果信号是窄带信号,过零率可以比较准确的反映信号的频率特性,而对宽带信号 而言,过零率只能够粗略的描述信号的频率特性。语音信号不但是宽带信号,而且是时 变信号,因此过零率只是一种最简单的频率特性描述方法。 2 2v u s 和f r e d 算法 2 2 1v u s 算法 语音信号的端点检测,本质上是利用不同性质的语音和噪声的固有特性将其进行区 分。可资利用的特性有很多种,自相关函数、l p c 参数、倒谱系数等都可以用以进行端 点检测。理想条件下的语音非常干净,利用能量信息即可划分有音段和无音段,但在信 噪比较差的情况下,单靠能量不能够有效的将背景噪声剥离;另外,有时还需要进一步 的划分浊音段和静音段,此时就不得不使用一些比较复杂的判别方法。 v u s ( v o i c e u n v o i c e s i l e n c e ) 算法【9 】是通过比较语音的短时过零率、短时能量 ( 短时平均幅度) 来划分语音的有音段和静音段,以及浊音段和清音段的方法。这种方 法简单可靠,在噪声较单纯的环境下有很好的效果,是目前语音识别中应用最多的判别 小刊汇量语音识别系统的实现 端点榆测 方法。 语音的短时过零率、短时平均幅度虽然都是随机参数,但对于不同性质的语音具有 不同的概率密度。相同语音段中浊音的短时平均幅度最高,而短时过零率最低,而清音 的短时过零率最高,短时平均幅度高于静音而小于浊音,无声的短时平均幅度最低而短 时过零率居中。前面提到,过零率基本表征了语音频率的大小。浊音主要分布在3 k h z 以下低频区,超过4 k h z 以后幅度便大为下降;清音在4 k h z 以上幅度不降反升,甚至 到8 k h z 以上区域还有上升势头,而噪声在语音的各个频段普遍存在。这就是v u s 的语 音判别依据。 有些噪声的过零率和清音的相近,因此利用过零率区分语音区间并不可靠。一般的 方法是采用一个修正短时参数f ,表示一帧语音波形穿越某个非零电平的次数。当此电 平恰当的设置为一个接近于零的值时,对于清音f 仍有较高的值,而对于背景噪声f 将 相对较低。这是因为清音的强度终究比无声要高,将穿越电平提高一点对清音影响不大, 而无声的背景噪声将无法穿越此电平。因此用f 可以更准确的区分两者。本文设穿越电 平为0 0 2 。 实际中求过零率时,需要注意的一个问题是如果输入信号中有5 0 h z 或者a d 变换 器的直流偏移,就会使得过零率参数计算不准确。前一个问题的解决途径是令a d 变换 器前的防混叠带通滤波器的低端截频高于5 0 h z ;后一个问题的解决途径是算出每一帧 的直流分量并予以减除。 下面具体介绍v u s 算法的流程。因为本文的识别系统并不要求判别出清浊音,因 此本文只就语音的起止点判别进行介绍。流程如下: r 1 、计算阈值1 z c t ,1 t u 和1 t l 。 首先根据发音刚开始前已知无语音状态的连续l o 帧数据,计算出过零率的阈值 i z c t : i z c t = m i n i f ,1 z c t + 2 c r 】 ( 2 8 ) 其中i z c t 和盯分别为根据采样值算得的过零率均值和标准差。伊为定值, 般为2 5 。然后计算此1 0 帧数据的平均幅度,最大值为i m x ,最小值为i m n , 得到 和l 为: = 0 0 3 ( x m x i m n ) + i m n ,1 2 = 4 i m n ( 2 9 ) 于是得到高能量阈值刀u 和低能量阈值i t l 为: 刀u = a 优肌= m i n ( 1 , ,厶)( 2 1 0 ) 这里a 是一个经验常数,一般取5 ( 2 ) 根据平均幅度粗略搜索语音起点。 利用仃u 寻找能量较高的语音段。其前端起点f 为: f = a r g m a x 战( f ) 盯u 】,0 i 刀u 】,f f 肌ll z o ( i ) 1 z c t 】,0 i t l 】,骂i e , h ) ,j = f ,i + l ,i + 2 ( 2 ,1 8 ) 浊音段终点为: b , = a r g m i n ( r 2 ( ) r 2 m ) & ( e 0 ( ) e ,j = f ,“_ 1 ,i + 2 ( 2 1 9 ) 式( 2 1 8 ) 表示当连续3 帧语音满足高频能量低、低频能量高、总能量高时,即判 定为浊音起点;式( 2 1 9 ) 表示当连续3 帧语音满足低频能量、总能量低于阈值时, 则认为浊音结束。取且:。= 0 0 0 6 ,r i , h = 7 4 。 ( 4 ) 语音端点帧定位 从e 和最分别向语音的两端检测语音精确起点r 和精确终点马为: = a r g m a x ( r , ( j ) r l * ) & ( 岛( - ,) 瓯) ,0 i f ,j = i , i 一1 ,f - 2 ( 2 2 0 ) 小词汇量语音识别系统的实现 端点检测 b = a r g m i n 磊( _ ,) e f ,且 1 t lz o ( i ) i z c t 】 ( 2 2 4 ) i 并记标志位i s s t a r t = t r u e ; ( 民 1 t l 】( 2 2 5 ) 并记标志位 s s t a r t = f a l s e : ( 4 ) l s s t a r t = t r u e ,则开始对语音起始帧进行特征提取和矢量量化,将码本标号记 录;l s s t a r t = f a l s e ,则计算语音段长度,若过短则判定端点判别失败,否则将 记录的码本标号送交下一级识别。 从上述判别流程可以看出,此算法有以下特点: 保留了v u s 的运算量小和灵活性高的特点。因为此算法是从v u s 算法上衍生 而来,因此运算量和v u s 相当,和提取的语音特征无关。同时,因为基于帧处 理,因此精度不如v u s ,而和f r e d 相同,都是精确到帧。 提高了实时性。此算法有一定延时,因为需要将数据倒入缓冲区,故至少有5 0 m s 的算法延时,而且另开缓冲区的原因,存储量有一定消耗。但因为节约了采样 时问,在采样的同时即可进行特征提取,如果使用矢量量化,则存储量也大为 节省,因此在实时性上优于v u s 而略差于f r e d ,很容易用于实时系统上。 实验2 3 【实验目的】测试基于帧的v u s 算法在实际语音下性能 【实验方法l 在普通教研室环境下录入一段语音,并用基于帧的v u s 算法进行判别 其有效语音起止点。 【实验结果】图2 - 6 为判别结果。 - 1 6 - 小词汇量语音识别系统的实现端点检测 图2 - 6 汉语连续语音“大连理工大学”的判别结果 f i g u r e2 - 6d e t e c t i o nr e s u l to f m a n d a r i nc o n t i n u o u ss p e e c h d al i a nl ig o n gd ax u e ” 1 7 小侧汇量语音识别系统的实现 特征提取和矢量量化 第三章特征提取和矢量量化 本章分两部分。前半部分介绍特征提取的相关知识,重点讨论了两种倒谱系数特征: l p c c ( 线性预测倒谱参数) 和m f c c ( m e l 频标倒谱系数) ,并介绍了有效提高系统识 别率的若干方法;后半部分阐述矢量量化的相关知识,集中讨论了用近邻划分算法处理 码本的方法。 3 1 特征提取 3 1 1 语音特征简介 在语音识别系统中,模拟的语音信号在完成a d 转换后成为数字信号,但时域上的 语音信号很难直接用于识别,大量的冗余信息给数据存储和运算造成困难,模糊语音的 本质特征,影响识别率。因此我们需要从语音信号中提炼语音的本质特征,一方面可以 获得语音的关键性信息,另一方面也起到数据压缩的作用。 特征提取是识别过程中一个非常重要的环节,选取的特征直接影响到识别结果。 不同的特征对不同语音的敏感度也不一样。优秀的语音特征应该对不同字音特征间距 离较大,而相同字音特征间距离较小。若以前者距离与后者距离之比为优化准则,则 该值越大,语音特征越优秀。另外,特征的数目也是一个值得商榷的问题。特征数应 该尽量减少,以减少计算量,但过少的特征无法恰当描述原始语音,而使得i 别率下 降。 语音特征提取方法是整个语音识别的基础,因此受到广泛的重视【”_ ”。经过几十 年的发展,目前的语音特征提取方法主要分为三类: ( 1 ) 基于线性预测分析的提取方法。这一类的典型代表是l p c c 倒谱系数。 ( 2 ) 基于频谱分析的提取方法。这一类的典型代表是m f c c 倒谱系数。 ( 3 ) 基于其它数字信号处理技术的特征分析方法。如小波分析【1 8 】【1 9 】、时域频域分 析【2 0 j 、人工神经网络分析【2 l 】等。 目前的语音识别系统大多采用前两种语音特征提取方法 2 2 1 ,本文将详细介绍。 3 1 2 语音的倒谱分析 信号的倒谱又叫做倒频谱。设信号通过一个特征系统d 】变
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 钉钉管理员培训
- 餐饮服务行业
- 踩影子中班课件
- 锅炉安全运行知识
- 临夏现代职业学院《专业导学(物流管理)》2023-2024学年第二学期期末试卷
- 苏州大学应用技术学院《创意文化产业》2023-2024学年第二学期期末试卷
- 山东电力高等专科学校《软件安全与漏洞分析》2023-2024学年第二学期期末试卷
- 吉林大学《英语视听说A》2023-2024学年第一学期期末试卷
- 2025文具店转让合同范本
- 2025至2031年中国毛衣横编机行业投资前景及策略咨询研究报告
- 年度广告物料制作安装 投标方案(技术方案)
- 中国糖尿病血酮监测专家共识
- 2024年辽宁高考地理真题试题(原卷版+含解析)
- 第16课 经济危机与资本主义国家的应对(课件)-【中职专用】《世界历史》(同课异构)(高教版2023基础模块)
- 广州市白云区金广实验学校2022-2023学年七年级下学期期中考试英语试题
- HJ 997-2018 土壤和沉积物 醛、酮类化合物的测定 高效液相色谱法(正式版)
- 俄罗斯介绍模板
- 50以内加减法练习题
- 全民国家安全教育日培训课件模板(可编辑)
- 江苏省盐城市建湖县2023-2024学年七年级下学期期中语文试题
- 印刷厂常用生产工艺、设备作业指导书一整套
评论
0/150
提交评论