语音识别技术文献综述_第1页
语音识别技术文献综述_第2页
语音识别技术文献综述_第3页
语音识别技术文献综述_第4页
语音识别技术文献综述_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音识别技术综述The summarization of speech recognition张永双苏州大学 苏州 江苏摘要本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。关键词:语音识别;特征;匹配AbstactThis article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with.Key words: speech recognition;character;matching引言语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。1.语音识别技术的发展历史语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。60年代计算机的应用推动了语音识别技术的发展,提出两大重要研究成果:动态规划(Dynamic Planning, DP)和线性预测分析(Linear Predict, LP),其中后者较好的解决了语音信号产生模型的问题,对语音识别技术的发展产生了深远影响。70年代,语音识别领域取得突破性进展。线性预测编码技术(Linear Predict Coding, LPC)被Itakura成功应用于语音识别;Sakoe和Chiba将动态规划的思想应用到语音识别并提出动态时间规整算法,有效的解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在同一时期,统计方法开始被用来解决语音识别的关键问题,这为接下来的非特定人大词汇量连续语音识别技术走向成熟奠定了重要的基础。80年代,连续语音识别成为语音识别的研究重点之一。Meyers和Rabiner研究出多级动态规划语音识别算法(Level Building,LB)这一连续语音识别算法。80年代另一个重要的发展是概率统计方法成为语音识别研究方法的主流,其显著特征是HMM模型在语音识别中的成功应用。1988年,美国卡内基梅隆大学(CMU)用VQ/HMM方法实现了997词的非特定人连续语音识别系统SPHINX。在这一时期,人工神经网络在语音识别中也得到成功应用。进入90年代后,随着多媒体时代的来临,迫切要求语音识别系统从实验走向实用,许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、NTT等著名公司都为语音识别系统实用化的开发研究投以巨资。最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dectate系统。这些系统具有说话人自适应能力,新用户不需要对全部词汇进行训练便可在使用中不断提高识别率。当前,美国在非特定人大词汇表连续语音隐马尔可夫模型识别方面起主导作用,而日本则在大词汇表连续语音神经网络识别、模拟人工智能进行语音后处理方面处于主导地位。国在七十年代末就开始了语音技术的研究,但在很长一段时间内,都处于缓慢发展的阶段。直到八十年代后期,国内许多单位纷纷投入到这项研究工作中去,其中有中科院声学所,自动化所,清华大学,四川大学和西北工业大学等科研机构和高等院校,大多数研究者致力于语音识别的基础理论研究工作、模型及算法的研究和改进。但由于起步晚、基础薄弱,计算机水平不发达,导致在整个八十年代,我国在语音识别研究方面并没有形成自己的特色,更没有取得显著的成果和开发出大型性能优良的实验系统。但进入九十年代后,我国语音识别研究的步伐就逐渐紧追国际先进水平了,在“八五”、“九五”国家科技攻关计划、国家自然科学基金、国家863计划的支持下,我国在中文语音技术的基础研究方面也取得了一系列成果。在语音合成技术方面,中国科大讯飞公司已具有国际上最领先的核心技术;中科院声学所也在长期积累的基础上,研究开发出颇具特色的产品:在语音识别技术方面,中科院自动化所具有相当的技术优势:社科院语言所在汉语言学及实验语言科学方面同样具有深厚的积累。但是,这些成果并没有得到很好的应用,没有转化成产业;相反,中文语音技术在技术、人才、市场等方面正面临着来自国际竞争环境中越来越严峻的挑战和压力。2.语音识别系统的结构主要包括语音信号的采样和预处理部分、特征参数提取部分、语音识别核心部分以及语音识别后处理部分,图2-1给出了语音识别系统的基本结构。图2-1 语音识别系统的基本结构图语音识别的过程是一个模式识别匹配的过程。在这个过程中,首先要根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模式。而在识别过程中要根据语音识别的整体模型,将输入的语音信号的特征与已经存在的语音模式进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音相匹配的模式。然后,根据此模式号的定义,通过查表就可以给出计算机的识别结果。3.语音识别系统的分类根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。4.语音识别系统的基本识别方法一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模式匹配的方法以及利用人工神经网络的方法。4.1基于语音学和声学的方法该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段还没有达到实用的阶段。4.2模式匹配的方法模式匹配方法的发展比较成熟,目前已达到实用阶段。在模式匹配方法中,需经过四个步骤:特征提取、模式训练、模式识别和判决。4.2.1特征提取特征提取方法主要采用以下三种: 基于LPC的倒谱参数(LPCC)分析法,基于Mel系数的Mel频标倒谱系数(MPCC)分析法,基于现代处理技术的小波变换系数分析法。在这些方法中,MFCC方法比LPCC方法的识别效果稍好一些,而且MFCC符合人们的听觉特性,在有信道噪声和频谱失真的情况下具有较好的稳健性,其不足之处是MFCC方法中多次用到FFT,故算法的复杂程度远大于LPCC方法。因此,在安静的环境下,目前比较成熟和最常用的语音特征提取方法还是LPCC方法。在条件不好的环境下,则宜选用MFCC方法。而小波变换法则是一种新兴的理论工具,要获得较高的识别率还有许多问题有待研究,但与经典的方法相比,小波变换法有着计算量小、复杂程度低、识别效果好等许多优点,研究前景十分乐观,是研究发展的一个方向。4.2.2模式识别模式识别常用技术有三种:动态时间规整(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)。(1)动态时间规整(DTW)语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素) 的始点和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。上世纪60 年代日本学者Itakura 提出了动态时间规整算法。算法的思想就是把未知量均匀地伸长或缩短,直到与参考模式的长度一致。在这一过程中,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模型特征对正。在连续语音识别中仍然是主流方法。同时,在小词汇量、孤立字(词) 识别系统中,也已有许多改进的DTW 算法提出。(2)隐马尔可夫模型(HMM)隐马尔可夫模型是20世纪70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM 模型的。HMM是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态) 发出的音素的参数流。可见HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。(3)矢量量化(VQ)矢量量化是一种重要的信号压缩方法。与HMM 相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k 个样点的每一帧,或有k 个参数的每一参数帧,构成k维空间中的一个矢量,然后对矢量进行量化。量化时,将k 维无限空间划分为M 个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比。4.3人工神经网络的方法利用人工神经网络的方法是80 年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统, 模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性, 其强的分类能力和输入- 输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点, 目前仍处于实验探索阶段。由于ANN 不能很好的描述语音信号的时间动态特性, 所以常把ANN 与传统识别方法结合, 分别利用各自优点来进行语音识别。5.语音识别所面临的问题(1) 就算法模型方面而言,需要有进一步的突破。目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展。(2) 就自适应方面而言,语音识别技术也有待进一步改进,做到不受特定人、口音或者方言的影响,这实际上也意味着对语言模型的进一步改进。(3) 就强健性方面而言,语音识别技术需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或嗓音,个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音,如何让语音识别技术也能达成这一点是一个艰巨的任务。(4) 多语言混合识别以及无限词汇识别方面:将来的语音和声学模型可能会做到将多种语言混合纳入,用户因此就可以不必在语种之间来回切换。此外,对于声学模型的进一步改进,以及以语义学为基础的语言模型的改进,也能帮助用户尽可能少或不受词汇的影响,从而可实行无限词汇识别。(5) 多语种交流系统的应用:是将语音识别技术、机器翻译技术以及语音合成技术的完美结合,全世界说不同语言的人都可以实时地自由地交流,不存在语言障碍。可以想见,多语种自由交流系统将带给我们全新的生活空间。(6) 语音情感识别:近年来随着人工智能的发展,情感智能跟计算机技术结合产生了情感计算这一研究课题,这将大大的促进计算机技术的发展。情感自动识别是通向情感计算的第一步。语音作为人类最重要的交流媒介,携带着丰富的情感信息。如何从语音中自动识别说话者的情感状态近年来受到各领域研究者的广泛关注。6.结论以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语本身特有的问题也有待解决。7.参考文献1 柳春 语音识别技术研究进展J 甘肃科技 2008/092 杨尚国 语音识别技术概述J 福建电脑 2006/083 熊燕 抗噪声语音识别技术研究J 中国科技信息 2006/074 刘筠 一种新型语音识别系统J 成都大学学报(自然科学版) 2008/035 马斌 基于小波变换的D

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论