汉语语音识别技术的研究与发展_第1页
汉语语音识别技术的研究与发展_第2页
汉语语音识别技术的研究与发展_第3页
汉语语音识别技术的研究与发展_第4页
汉语语音识别技术的研究与发展_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、汉语语音识别技术的研究与发展作者 : 张 宜( 广西广播电视大学计算中心广西南宁530022) 摘要 本文通过对我国汉语语音识别技术研究的历程和研究方法进行分析概括,详细论述了汉语语音识别系统的构成及其所涉及的识别基元选取、特征参数提取、模式识别方法等关键技术,指出了目前汉语语音识别技术研究所面临的问题及对策。1 概述语音是人类交流和交换信息中最便捷的工具和最重要的媒体,因此,语音识别在多媒体技术中有着及其重要的位置。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,在近半个多世纪以来一直是人们研究的热点,其研究成果已广泛应用于人类社会的

2、各个领域。与图像识别技术相比,语音识别有着许多独特的优势:携带信息量大、处理响应快、无需专门训练、周边设备简单、应用领域广阔、经济效益可观等等。也正因为如此,汉语作为全世界近1/4人口的母语,多年来一直受到国内外的广泛关注,我国汉语语音识别技术的研究也一直在紧跟国际语音识别技术研究的步伐稳步发展,其研究历程可分为以下三个阶段:二十一世纪70 年代至 80 年代中期的引进、移植阶段。这时期,我国汉语语音识别技术的研究起步不久,因此以吸收和引进国外理论和技术为主,通过对汉语语音识别的实验研究和方法改进,成功的进行了以孤立字小字表、特定人、实验室环境条件为主的汉语语音识别研究,为汉语语音识别技术的研

3、究和发展奠定了基础。80年代90年代初期的自成体系阶段。该时期在国家863智能计算机主题专家组对汉语语音识别研究立项的推动下,在基础理论研究和实现技术上有较大的进展,逐渐走出一条适合汉语特点的研究路子,将汉语语音识别技术的研究拓展到连续语音、中大字表、非特定人语音识别及说话人识别等领域,逐渐形成自己的研究体系,缩小了与国际研究水平的差距。90 年代中期以来的成熟阶段。该阶段在国家863智能计算机主题专家组每一至二年举行一次的全国性语音识别系统测试活动的推动下,使汉语语音识别技术在细化模型的设计、参数提取和优化、以及系统的适应能力上取得了一些关键性的突破,汉语语音识别技术进一步成熟,并开始向市场

4、提供应用产品。目前,我国对大词汇量连续语音识别系统的研究已经接近国外最高水平,具典型代表是清华大学开发的连续语音识别系统THEESP该系统对汉字的识别率达到98.7,拼音自选识别率达到79.4,句子识别率约为 62.5。下面,根据该领域的研究成果,对汉语语音识别系统的构成和所涉及的 关键技术,以及所面临的主要问题进行探讨。2汉语语音识别系统的基本构成及工作原理汉语语音识别与其它语言的语音识别一样,实质上属于一种模式识别, 其系统的构成如图1所示。赭输人一鼬理JjaM® L 财而f识别鼬其中,预处理部分包括语音信号的采样、反混叠滤波、自动增益控制, 去除声门激励和口唇辐射的影响以及设备

5、、环境引起的噪声影响等等,并涉 及语音识别基元的选择和端点检测等关键性问题;特征提取部分的作用是从 语音信号波形中提取一组或几组能够描述语音信号特征的参数,如平均能 量、过零数或平均过零数,共振峰、倒谱、线性预测系数,以及音长、音调、 声调等超音段信息函数等等,特征提取是模式识别的关键;训练部分和模式 库部分是一个不可分割的整体,训练是建立模式库的必备过程,在识别之前 进行,通常是让不同类型的讲话人多次重复相同的语音发音,系统从这些原 始的语音样本中去除冗余,保留关键数据并按一定规则对数据加以分类,从 而形成作为语音识别判断标准的语意等。模式库的内容除现场训练提取以 外,通常还包括建立在以往或

6、经验基础上的语音专家知识库信息;模式匹配 部分是整个系统的核心,其作用是根据语音和不同的层面按照相应的准则求 取待测语音特征参数和语音信息与模式库中相应模板之间的测度,从而形成 系统认为最佳的识别输出。3汉语语音识别中的关键技术3.1 语音识别基元的选取作为人类唯一的会意文字,汉语有着与其它语言孑然不同的特色:以字 为最小语音单位,而且每一个汉字的发音对应于一个音节,在常用的 6000 多个汉字中,全部汉字音节只有 1281个,如果不考虑声调(四声:阴平、 阳平、上声、去声),真正独立的汉语无调单音节字只有412个。由于音节不仅是听觉上能够自然辨别出来的最小语音单位,也是音义结合的基本语言 单

7、位,因此,在汉语语音识别中的基元选择,音节无疑最佳方案,这也是汉 语孤立词和小词汇量汉语语音识别系统研究一直沿用的方法。作为大词汇连续汉语语音识别系统,由于字与字和词与词之间没有明显沿用全音节作为语音识别基元的传统方法,其识别率受到很大限制。因此,为了更好地描述汉语连续语音中的细节,提高识别率,作为语音识别61 个)和按不同韵头(共6种:a、o、e、i、u、u)进行分类细化后的声母、韵母基元(共 161 个)。3.2 语音特征参数的提取语音特征参数的提取,是模式识别成败的关键。在汉语语音识别系统中,主要采用以下三种特征提取方法:基于LPC的倒谱参数(LPCC分析法。该方法的典型代表是以基于 D

8、urbin 或Levinson迭代算法求解“维纳霍夫方程”获得 LPC预测系数为基础 进而得到的LPC的倒谱参数(LPCC)。基于Mel系数的Mel频标倒谱系数(MPCC分析法。该方法以基于FFT的频 谱余弦变换为基础,根据 Mel 曲线将语音信号频谱分为若干个频带,每个频带的能量经FFT变换对应一组MFCC数。基于现代处理技术的小波变换系数分析法。该方法将语音信号与一个在时域和频域均具有良好局部化性质的小波函数族进行积分(小波变换), 从而把信号分解成一组位于不同频率和时段内的分量,即选择小波函数为某类平滑函数的一阶导数,则经小波变换后的局部最大值反映信号的尖锐变化(即声门闭着点),而局部最

9、小值则反映信号的缓慢变化,从而获得反映基音周期的小波语音特征参数。在以上语音特征参数的提取方法中,MFC%法比LPCCT法的识别效果稍好 一些,而且MFCCf合人们的听觉特性,在有信道噪声和频谱失真的情况下具有 较好的稳健性,其不足之处是 MFC%法中多次用到FFT,故算法的复杂程度远 大于LPCCT法。因此,在安静的环境下,目前,比较成熟和最常用的语音特征 提取方法还是LPCCT法。在条件不好的环境下,则宜选用MFCCT法。而小波变 换法则是一种新兴的理论工具,要获得较高的识别率还有许多问题有待研究,但与经典的方法相比,小波变换法有着计算量小、复杂程度低、识别效果好等许多优点,研究前景十分乐

10、观,是研究发展的一个方向。3.3 模式识别模式识别以距离测度为准则,对于传统的语音识别系统是一个按一定测度算法实现被识别特征参数与模式库中的模板进行最优模式匹配的过程。而对基于人工神经网络(ANN的新型语言识别系统,其模式识别过程则有所不同:首先其模式库是分布式的,即采用一些模拟人类思维过程的算法,在训练过程中通过自学习建立类似于传统语言识别系统中模式库的参数系统,但这些参数以分布方式存在于不同网络层的节点之中;其次是通过模拟人类联想过程逐层将有关参数与被识别特征进行匹配距离计算和比较,最终形成最佳匹配的识别结果。在汉语语音识别系统中常用的识别技术有以下几种:3.3.1 动态时间规整(DTW技

11、术DTM采用一种最优化的算法动态规整法,通过将待识别语音信号的时间轴进行不均匀地扭曲和弯曲,使其特征与模板特征对齐,并在两者之间不断的进行两个矢量距离最小的匹配路径计算,从而获得两个矢量匹配时累积距离最小的规整函数。这是一个将时间规整和距离测度有机结合在一起的非线性规整技术,保证了待识别特征与模板特征之间最大的声学相似特性和最小的时差失真,是成功解决模式匹配问题最早和最常用的方法。DTWfe的不足之处是运算量大、对语音信号的端点检测数过大和未能充分利用语音信号的时序动态信息等等。因此, 主要用于孤立词、小词汇等相对简单的汉语语音识别系统。3.3.2 隐马尔柯夫模型(HMM技术HMMfc与DTW

12、fe不同,首先,其模式库不是预先存贮好的模式样本,而是通过反复的训练过程,用迭代算法(如Baum Welch 算法等) 形成一套与训练输出信号吻合概率最大的最佳HMMK型参数:X=f (九,A,B),其中,冗为初始状 态概率分布;A为状态转移概率分布;B为某状态下系统输出的概率分布。这些 参数均为反映训练中语音的随机过程的统计特性下的数字参数,不是模式特征参数本身。 其次, 在识别过程中,采用基于一种在最佳状态序列基础上的整体约束最佳准则算法 Viterbi算法,计算待识别语音序列与 HMM1型参数人之间 的似然概率Py y /入达到最大值所对应的最佳状态序列作为识别输出。这其 中也是一个反映

13、待识别序列与 HMM1型参数状态序列最大关联的随机过程的统 计过程,因此,HMMf法可以看成一个数字上的双重随机过程,这种机制合理地 模仿了人类语言活动的随机性,是一种更为理想的语音识别模型。研究结果表明,HMM?法虽然在训练过程中的处理比 DTWJ法要复杂,但识 别过程则远比DTW方法简单,在孤立词和小词汇的汉语识别中,识别率要高于 DTWJ法,而且解决了 DTW无法实现的连续语音识别的应用问题。因此,在汉语 语音识别中,HM0法不仅可用于孤立词识别系统中,而且在连续语音识别、说 话识别等方面也得到广泛的应用,是目前汉语语音识别技术的主流。根据随机函数白不同特点,HMMK型分为离散HMMDH

14、MM、连续HMIMCHMM 和平连续HMMSCHMM以及基于段长分布的 HMMDDBHMIW类型。其中:CHMM 的识别率虽高,但计算量大,其典型就是 BellLab的语音识别系统;DHMMR别 率略低些,但计算量最小,旧M公司的ViaVoice中文语音识别系统,就是该技 术的成功典范;SCHMM识别率和计算量则居中,其典型产品就是美国著名的 SPHINX®音识别系统;而DDBHMM对上述经典HM0法的修正,计算量虽大, 但识别率最高。3.3.3 矢量量化(VQ 技术矢量量化技术,是一种用一个K维矢量来表示一个原来用K个标量表征的语音信号的波型帧或参数帧,然后对矢量进行整体量化的方法

15、。在语音识别前,先在多次反复的训练中采用 LBG算法(由Linde,Buzo和Gray三人在1980年首次 提出)对大量的K维矢量进行以最佳邻近准则和最小失真准则的统计划分,使其从无限的矢量空间聚类划分为 M个有限的区域边界,而每个区域有一个中心矢量 值,即码字,故共有M个码字,各码字的下标或序号的集合则构成了一本反映训 练时K 维矢量的码书,也称训练矢量集码书。在语音识别时,实质上是一个将K维待处理矢量与已有的码书中的M个区域边界进行比较,找出与该待测输入矢量距离最小的码 字序号来代替其识别结果的过程。由于码字的序号是矢量量化技术中存贮和传输的主要参数,因此, 具有高效的数据压缩性能和信息保

16、密性能,不足之处是训练过程中的计算方法复杂且计算量过大。因此,真正应用于语音识别的是改进后的有限状态矢量量化( FSVQ技 术和带学习功能的矢量量化(LVQ2技术,其中,FSVQ勺计算量小,而且利用 了状态转移函数,根据上一次的状态和量化结果来确定一下个量化状态,适用于与上下文有关的语音识别;LVQ2M用其自适应性的学习功能进行码书优化,即在一定条件下,将错误的参考矢量移到远离输入矢量的地方,而将正确的参考矢量移到离输入矢量更近的地方,从而提高识别率。FSVQF口 LVQ般术在孤立词和连续语音的汉语语音识别中也得到应用,但没有DTVfe术和HMMfe术普遍。3.3.4 人工神经网络(ANN技术

17、ANN1用于模拟人脑组织结构和思维过程的一个前沿研究领域,基于ANNB语音识别系统通常由神经元、训练算法及网络结构等三大要素构成。ANNK用了并行处理机制、非线性信息处理机制和信息分布存贮机制等多方面的现代信息技术成果, 因此, 具有高速的信息处理能力,并且有着较强的适应和自动调节能力,在训练过程中能不断调整自身的参数权值和结构拓扑,以适应环境的和系统性能优化的需求,在模式识别中有着速度快、识别率高等显著特点,近几年来一直是国内外语音识别系统研究的方向和热点。目前用于汉语语音识别研究的 ANN0E要有:基于反向传播(BP)算法的多层 感知机(MLP神经网和基于Kohonen提出的仿生人类大脑皮

18、层信息特征区形成 的生理过程特征照射(SOM神经网等,其识别率已高于传统的 HMMf法。而具有良好的动态时变性能和结构的时延神经网络( TDNN) 和良好的动态时间关联特性的循环神经网络(RNN ,则是目前大词汇量连续汉语语音识别研究的热点。3.3.5 混合型模式识别技术由于汉语的特殊性和复杂性,单一模式识别的识别率往往受到一定的限制。为了提高识别率,将不同的识别模式结合起来构成混合型模式识别的汉语语音识别系统是目前研究的一个方向,其主要应用有:动态时间规正法与隐马尔柯夫模型法混合的DTW HMMK式、矢量量化法与隐马尔柯夫模型法混合的 VQ- HMMK 式、隐马尔柯夫模型法级联式和多层决策树

19、式的 HMM- HMMK式。旧M公司的 ViaVoice中文语音识别系统就是NQ-HMME合模式的典范,类似的国内产品还 有方正友文系统和Dutty 语音识别系统。由于独立的人工神经网普遍存在着时间规整问题和训练过程复杂、识别时间过长等缺点,因此,如何与传统的方法相结合,形成优势互补的ANNf DTWANN 与VQ和ANNf HMMI合的新型汉语语音识别技术,以有效解决汉语语音识别中 同音字多、声调不明、界限不清、新词不断出现等诸多与其它语言语音识别所不同的特殊难题,已成为ANNS汉语语音识别系统的研究方向。4 汉语语音识别的难点及对策我国的汉语语音识别技术的研究虽然取得了很大的突破,但与人类

20、的识别水平相比还存在着很大的差距,应用产品还难以满足人们的需求。汉语语音识别技术面临的难点和主要问题除了有着与其它语言的语音识别技术存在共性问题的一面,也有着由于汉语自身特点而特殊的方面,归结起来,有以下几大类型:环境影响问题:这是各种语音识别系统普遍存在的的顽健性如何提高的共性问题, 包括环境噪声影响、说话人距离和位置变化的影响以及说话人心理和生理变化的影响等等。有效解决这些难题,实际上是各种语音识别技术研究共同面临的艰巨任务。克服环境噪声影响问题的方法通常有:谱减法消噪技术、环境规正技术、 噪声建模技术、识别模型修正技术等等;克服说话人距离和位置变化的影响可采用多话筒跟踪拾音技术;对于克服

21、说话人心理和生理变化引起的语音变异造成的影响,以引入模仿人类语音听觉感知机理的人工智能技术对模式识别部分进行增强和改进的方法较为有效。连续语音问题:由于汉语中纯元音的字和词远比其它语言多,而这些字和词的发音所产生的语音波形很难找出其分界点,使得语音识别极易混淆。解决的办法是利用最优方法改善语音特征结构及参数,如引入声调特征和增大不同语音在特征空间的距离等等,以减少语音的混淆程度。模糊语音问题:由于汉语同音字多、词汇丰富而引起的说话人在表达不同的词语时, 听起来却十分相似的特殊问题,由此造成语音识别难的问题也比其它语言的同类问题要严重。解决这类问题的对策,是在模式识别部分引入分级增强技术和语义专家知识库技术,提高系统分辨模式识别细节的能力。协同发音问题:由于上下文环境的影响,使得相同的字或词有着不同的语音特性, 这种由音段文脉所引起协同发

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论