语音识别技术文献综述_第1页
语音识别技术文献综述_第2页
语音识别技术文献综述_第3页
语音识别技术文献综述_第4页
语音识别技术文献综述_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音辨认技术综述Thesummarizationofspeechrecognition张永双苏州大学苏州江苏摘要本文回顾了语音辨认技术的发展历史,综述了语音辨认系统的结构、分类及基本方法,分析了语音辨认技术面临的问题及发展方向。关键词:语音辨认;特性;匹配AbstactThisarticlereviewthecoursesofspeechrecognitiontechnologyprogress,summarizethestructure,classificationsandbasicmethodsofspeechrecognitionsystemandanalyzethedirectionandtheissueswhichspeechrecognitiontechnologydevelopmentmayconfrontwith.Keywords:speechrecognition;character;matching引言语音辨认技术就是让机器通过辨认和理解过程把语音信号转变为相应的文本或命令的高技术。语音辨认是一门交叉学科,所涉及的领域有信号解决、模式辨认、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音辨认技术及其应用已成为信息社会不可或缺的重要组成部分。1.语音辨认技术的发展历史语音辨认技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能辨认十个英文数字发音的实验系统:Audry系统。60年代计算机的应用推动了语音辨认技术的发展,提出两大重要研究成果:动态规划(DynamicPlanning,DP)和线性预测分析(LinearPredict,LP),其中后者较好的解决了语音信号产生模型的问题,对语音辨认技术的发展产生了深远影响。70年代,语音辨认领域取得突破性进展。线性预测编码技术(LinearPredictCoding,LPC)被Itakura成功应用于语音辨认;Sakoe和Chiba将动态规划的思想应用到语音辨认并提出动态时间规整算法,有效的解决了语音信号的特性提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在同一时期,记录方法开始被用来解决语音辨认的关键问题,这为接下来的非特定人大词汇量连续语音辨认技术走向成熟奠定了重要的基础。80年代,连续语音辨认成为语音辨认的研究重点之一。Meyers和Rabiner研究出多级动态规划语音辨认算法(LevelBuilding,LB)这一连续语音辨认算法。80年代另一个重要的发展是概率记录方法成为语音辨认研究方法的主流,其显著特性是HMM模型在语音辨认中的成功应用。1988年,美国卡内基-梅隆大学(CMU)用VQ/HMM方法实现了997词的非特定人连续语音辨认系统SPHINX。在这一时期,人工神经网络在语音辨认中也得到成功应用。进入90年代后,随着多媒体时代的来临,迫切规定语音辨认系统从实验走向实用,许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、NTT等著名公司都为语音辨认系统实用化的开发研究投以巨资。最具代表性的是IBM的ViaVoice和Dragon公司的DragonDectate系统。这些系统具有说话人自适应能力,新用户不需要对所有词汇进行训练便可在使用中不断提高辨认率。当前,美国在非特定人大词汇表连续语音隐马尔可夫模型辨认方面起主导作用,而日本则在大词汇表连续语音神经网络辨认、模拟人工智能进行语音后解决方面处在主导地位。国在七十年代末就开始了语音技术的研究,但在很长一段时间内,都处在缓慢发展的阶段。直到八十年代后期,国内许多单位纷纷投入到这项研究工作中去,其中有中科院声学所,自动化所,清华大学,四川大学和西北工业大学等科研机构和高等院校,大多数研究者致力于语音辨认的基础理论研究工作、模型及算法的研究和改善。但由于起步晚、基础薄弱,计算机水平不发达,导致在整个八十年代,我国在语音辨认研究方面并没有形成自己的特色,更没有取得显著的成果和开发出大型性能优良的实验系统。但进入九十年代后,我国语音辨认研究的步伐就逐渐紧追国际先进水平了,在“八五”、“九五”国家科技攻关计划、国家自然科学基金、国家863计划的支持下,我国在中文语音技术的基础研究方面也取得了一系列成果。在语音合成技术方面,中国科大讯飞公司已具有国际上最领先的核心技术;中科院声学所也在长期积累的基础上,研究开发出颇具特色的产品:在语音辨认技术方面,中科院自动化所具有相称的技术优势:社科院语言所在汉语言学及实验语言科学方面同样具有深厚的积累。但是,这些成果并没有得到很好的应用,没有转化成产业;相反,中文语音技术在技术、人才、市场等方面正面临着来自国际竞争环境中越来越严峻的挑战和压力。2.语音辨认系统的结构重要涉及语音信号的采样和预解决部分、特性参数提取部分、语音辨认核心部分以及语音辨认后解决部分,图2-1给出了语音辨认系统的基本结构。图2-1语音辨认系统的基本结构图语音辨认的过程是一个模式辨认匹配的过程。在这个过程中,一方面要根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特性,在此基础上建立语音辨认所需的模式。而在辨认过程中要根据语音辨认的整体模型,将输入的语音信号的特性与已经存在的语音模式进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音相匹配的模式。然后,根据此模式号的定义,通过查表就可以给出计算机的辨认结果。3.语音辨认系统的分类根据辨认的对象不同,语音辨认任务大体可分为3类,即孤立词辨认(isolatedwordrecognition),关键词辨认(或称关键词检出,keywordspotting)和连续语音辨认。其中,孤立词辨认的任务是辨认事先已知的孤立的词,如“开机”、“关机”等;连续语音辨认的任务则是辨认任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不辨认所有文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。根据针对的发音人,可以把语音辨认技术分为特定人语音辨认和非特定人语音辨认,前者只能辨认一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音辨认系统更符合实际需要,但它要比针对特定人的辨认困难得多。此外,根据语音设备和通道,可以分为桌面(PC)语音辨认、电话语音辨认和嵌入式设备(手机、PDA等)语音辨认。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的辨认系统。4.语音辨认系统的基本辨认方法一般来说,语音辨认的方法有三种:基于声道模型和语音知识的方法、模式匹配的方法以及运用人工神经网络的方法。4.1基于语音学和声学的方法该方法起步较早,在语音辨认技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段还没有达成实用的阶段。4.2模式匹配的方法模式匹配方法的发展比较成熟,目前已达成实用阶段。在模式匹配方法中,需通过四个环节:特性提取、模式训练、模式辨认和判决。4.2.1特性提取特性提取方法重要采用以下三种:基于LPC的倒谱参数(LPCC)分析法,基于Mel系数的Mel频标倒谱系数(MPCC)分析法,基于现代解决技术的小波变换系数分析法。在这些方法中,MFCC方法比LPCC方法的辨认效果稍好一些,并且MFCC符合人们的听觉特性,在有信道噪声和频谱失真的情况下具有较好的稳健性,其局限性之处是MFCC方法中多次用到FFT,故算法的复杂限度远大于LPCC方法。因此,在安静的环境下,目前比较成熟和最常用的语音特性提取方法还是LPCC方法。在条件不好的环境下,则宜选用MFCC方法。而小波变换法则是一种新兴的理论工具,要获得较高的辨认率尚有许多问题有待研究,但与经典的方法相比,小波变换法有着计算量小、复杂限度低、辨认效果好等许多优点,研究前景十分乐观,是研究发展的一个方向。4.2.2模式辨认模式辨认常用技术有三种:动态时间规整(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)。(1)动态时间规整(DTW)语音信号的端点检测是进行语音辨认中的一个基本环节,它是特性训练和辨认的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置,从语音信号中排除无声段。在初期,进行端点检测的重要依据是能量、振幅和过零率。但效果往往不明显。上世纪60年代日本学者Itakura提出了动态时间规整算法。算法的思想就是把未知量均匀地伸长或缩短,直到与参考模式的长度一致。在这一过程中,未知单词的时间轴要不均匀地扭曲或弯折,以使其特性与模型特性对正。在连续语音辨认中仍然是主流方法。同时,在小词汇量、孤立字(词)辨认系统中,也已有许多改善的DTW算法提出。(2)隐马尔可夫模型(HMM)隐马尔可夫模型是20世纪70年代引入语音辨认理论的,它的出现使得自然语音辨认系统取得了实质性的突破。目前大多数大词汇量、连续语音的非特定人语音辨认系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立记录模型,将之看作一个数学上的双重随机过程:一个是用品有有限状态数的Markov链来模拟语音信号记录特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程事实上就是一个双重随机过程,语音信号自身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为抱负的一种语音模型。(3)矢量量化(VQ)矢量量化是一种重要的信号压缩方法。与HMM相比,矢量量化重要合用于小词汇量、孤立词的语音辨认中。其过程是:将语音信号波形的k个样点的每一帧,或有k个参数的每一参数帧,构成k维空间中的一个矢量,然后对矢量进行量化。量化时,将k维无限空间划分为M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大也许的平均信噪比。4.3人工神经网络的方法运用人工神经网络的方法是80年代末期提出的一种新的语音辨认方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力和输入-输出映射能力在语音辨认中都很有吸引力。但由于存在训练、辨认时间太长的缺陷,目前仍处在实验探索阶段。由于ANN不能很好的描述语音信号的时间动态特性,所以常把ANN与传统辨认方法结合,分别运用各自优点来进行语音辨认。5.语音辨认所面临的问题(1)就算法模型方面而言,需要有进一步的突破。目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机的确理解人类的语言,就必须在这一点上取得进展。(2)就自适应方面而言,语音辨认技术也有待进一步改善,做到不受特定人、口音或者方言的影响,这事实上也意味着对语言模型的进一步改善。(3)就强健性方面而言,语音辨认技术需要能排除各种环境因素的影响。目前,对语音辨认效果影响最大的就是环境杂音或嗓音,个人能故意识地摒弃环境嗓音并从中获取自己所需要的特定声音,如何让语音辨认技术也能达成这一点是一个艰巨的任务。(4)多语言混合辨认以及无限词汇辨认方面:将来的语音和声学模型也许会做到将多种语言混合纳入,用户因此就可以不必在语种之间来回切换。此外,对于声学模型的进一步改善,以及以语义学为基础的语言模型的改善,也能帮助用户尽也许少或不受词汇的影响,从而可实行无限词汇辨认。(5)多语种交流系统的应用:是将语音辨认技术、机器翻译技术以及语音合成技术的完美结合,全世界说不同语言的人都可以实时地自由地交流,不存在语言障碍。可以想见,多语种自由交流系统将带给我们全新的生活空间。(6)语音情感辨认:近年来随着人工智能的发展,情感智能跟计算机技术结合产生了情感计算这一研究课题,这将大大的促进计算机技术的发展。情感自动辨认是通向情感计算的第一步。语音作为人类最重要的交流媒介,携带着丰富的情感信息。如何从语音中自动辨认说话者的情感状态近年来受到各领域研究者的广泛关注。6.结论以上介绍了实现语音辨认系统的各个方面的技术。这些技术在实际使用中达成了较好的效果,但如何克服影响语音的各种因素还需要更进一步地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但辨认技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语自身特有的问题也有待解决。7.参考文献[1]柳春语音辨认技术研究进展[J]甘肃科技2023/09[2]杨尚国语音辨认技术概述[J]福建电

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论