下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于动态贝叶斯网络的异步整词-发音特征语音识别模型
声音检测系统在实验室环境下取得了巨大成功,但在实际应用中,由于背景噪声和通信通道等因素的影响,检测率急剧下降。一种原因是传统的语音识别都是从语音信号出发,很少考虑语音的发音机理。而人在发音过程中都会伴随有发音器官(舌头、嘴唇)的运动,文中称之为发音特征(ArticulatoryFeatures,AFs)。非线性语音学指出这些发音器官的运动具有异步性。研究表明,对发音特征建模,模拟发音器官的运动及其异步性,不仅能更好地解释协同发音现象,而且语音识别系统也更具鲁棒性。目前,DBN以其强大的表示能力和通用的学习、推理算法,已成为语音识别研究中的热点。Zweig首先采用DBN模拟标准的隐马尔可夫模型(HMM),实现了孤立词的语音识别。后来,Bilmes等人在该模型的基础上增加了词层和语言层,构建了能用于连续语音识别的单流动态贝叶斯网络模型。对于模型中词的构成,Bilmes提出了两种方式,一是每个词采用固定个数的整词状态数来描述,构成基于整词-状态的单流DBN(WS-DBN)模型;二是每个词采用它对应的音素序列来描述,构成基于整词-音素的单流DBN(WP-DBN)模型。近年来,MIT的人工智能实验室在结合发音特征的语音识别问题上也做了大量工作,提出了一种具有整词-发音特征结构的语音模型(WA-DBN),引入了发音特征异步检查节点。但在相关文献中,对发音特征间的约束关系及条件概率分布,以及前后帧发音特征之间及其与其他节点之间的关系,并没有给出详尽的描述和定义。本文在WA-DBN模型的基础上,对发音特征流之间的异步关系重新进行了约束,并定义了在该约束关系下各发音特征节点及异步检查节点的条件概率分布,构建了一种新的异步WA-DBN模型(AWA-DBN)。最后,利用图模型处理工具包GMTK实现了AWA-DBN模型,以及WS-DBN和WP-DBN模型,并在连接数字语音库Aurora5.0上进行了语音识别实验。词识别结果表明,AWA-DBN模型比WP-DBN模型具有更高的识别率和更强的系统鲁棒性。在进行发音特征建模之前,首要工作就是选择合适的发音特征集。发音特征是指发音器官(Articulator)的配置或运动信息,诸如声带的振动、舌头的起伏、口形的变化等。发音特征描述的是语音产生的源头和过程,对常规声学信号来说,这些特征是隐藏的。到目前为止还没有统一的发音特征定义,但有一些特征是大多文献通常采用的,例如place、manner等。本文采用的发音特征集是发音特征的组合,如表1所示。其中发音特征L描述的是发音器官嘴唇所处位置(position)及张开度(degreeofopening)。对位置而言,有P=protruded(伸出、突出);L=labial(唇音的,表示嘴唇通常所处的位置);D=dental(齿音的,表示唇齿相接时的位置)。对嘴唇张开度而言,有CL=closed(闭合);CR=critical(临界闭合状态);N=narrow(张开度小);W=wide(张开度大)。对于描述舌尖和舌体的发音特征T,有D=inter-dental(舌尖处于上下齿之间,如[th],[dh]),A=alveolar(齿槽音,如[t],[n]),P=palatal(上颚音,如[sh]),R=retroflex(卷舌音,如[r]),CL=closed,CR=critical(临界闭合,如[s]),N=narrow(如[r]),M=medium,PH=pharyngeal(咽喉的,如[aa]),MN=medium-narrow,W=wide,V=velar(软腭音,如[k],[ng]),U=uvular(悬垂的,指舌头一般所处的位置)。对于描述软腭和声门的发音特征G,有C=closed(软腭关闭);O=open(软腭打开);CL=closed(声门关闭);CR=critical(声门处于临界关闭状态,此时表现为浊音);O=open(声门打开,清音)。图1给出了三帧的模型描述,但在实际应用中可对Chunk块进行适当扩展,从而显式描述语音的发音过程。图中实线箭头表示确定性条件概率,虚线箭头表示随机条件概率。模型中各节点的具体含义如下:Word(W)———当前词;WordTransition(WT)———如果值为1,表示词发生转移;LPosition、TPosition、GPosition(LP、TP、GP)———发音特征L、T、G在某个词中的位置;LTransition、TTransition、GTransition(LT、TT、GT)———如果值为1,表示发音特征发生转移;L、T、G———词中具体的发音特征;ChecksynLT(CLT)———如果值为1,表示L、T发音特征同步或处于限制状态内的异步;ChecksynLTG(CLTG)———如果值为1,表示L、T、G发音特征同步或处于限制状态内的异步;AudioObs(O)———音频观测向量。2.2基于模型的概率关系的描述图1中的联合条件概率关系表示为:4实验与结果分析4.1实验模型及结构本实验是在ETSI(EuropeanTelecommunicationsStandardInstitute)录制的连接数字语音库Aurora5.0上进行,包括zero到nine以及oh这11个单词,另外加上静音sil和停顿sp,共13个词,22个音素。该实验中选取3个说话人的语音样本,其中每人200句作为训练样本,40句作为测试样本。为了测试模型对背景噪声的鲁棒性,还对测试样本施加了不同信噪比的噪声。音频信号选用窗长为25ms的Hamming窗,采用13维的PLP特征,1维的能量特征,以及一阶和二阶差分特征向量,形成共42维特征向量。实验采用华盛顿大学的图模型工具包GMTK(GraphicModelsToolKits)来构建所需要的发音特征级模型结构。对于混合高斯采取了隐马尔可夫模型处理工具包HTK中增加高斯的策略,先建立单高斯模型进行训练,然后进行一次分裂以增加高斯个数,再进行训练,重复该步骤以达到需要的高斯个数为止。对于WS-DBN模型,每个词采用8个状态来描述,静音采用3个状态,而停顿和静音共享静音的中间状态,每个状态产生的观测向量用一组混合高斯模型(GMM)参数来描述,对WS-DBN模型共需训练91组GMM参数。对WP-DBN模型,又将其细分为两种模型结构,一是每个音素对应一个音素状态,共需训练22组GMM参数,模型标记为WP-DBN1;二是每个音素对应3个音素状态,但这3个音素状态共享一组GMM参数,所以最终仍为22组GMM参数,这种情况可以理解为音素绑定,模型标记为WP-DBN3。对本文提到的模型,根据词内异步程度,也分为三种模型结构:AWA-DBN1、AWA-DBN2和AWA-DBN3,分别表示词内各发音特征流间的异步状态数最多不超过一个状态、两个状态和三个状态。另外类似于音素三状态情况,每个发音特征也采用三状态结构。该语音库只涉及到11个单词,用到的发音特征T只有4维,L为14维,G为3维,共形成168种发音特征组合,所以模型需建立168组GMM。4.2音素三状态模型本文采用的评价标准是词识别正确率(Corr),定义如下:其中H表示识别结果中除去删除、替换单词后正确识别词的个数,N表示原始脚本中词的个数。表2即是各个模型在不同信噪比条件下的词识别正确率。分析上面数据,得到以下结论:(1)整词-状态DBN(WS-DBN)模型具有最高的识别率,这是因为音素和发音特征是被所有词共享,而整词状态属于每个词单独拥有,更适合于小词汇量孤立词语音识别。(2)音素三状态(WP-DBN3)模型将每个音素细分为3个状态,对音素进行了更精细建模,也即对词进行更精细建模,所以该模型的识别结果要比音素单状态模型(WP-DBN1)的结果好。(3)整词-发音特征DBN(AWA-DBN)模型的识别结果稍微高于整词-音素DBN(WP-DBN)模型的识别结果,这是因为AWA-DBN采用3个发音特征流来对词进行建模,利用发音特征间固有的异步性能更准确地描述发音过程。另外随着信噪比的降低,可以发现,结合发音特征的DBN语音模型表现出了比音素级DBN语音模型更强的系统鲁棒性。5单次语音识别实验本文构建了发音特征异步的语音识别模型(AWA-DBN),定义了在约束条件下发音特征节点的条件概率分布,并在ETSI录制的标准语音库Aurora5.0上做了连接词的语音识别实验。结果表明,具有整词-发音特征结构的AWA-DBN模型比整词-音素结构的WP-DBN模型具有更高的识别率和更强的鲁棒性。虽然整词-状态DBN(WS-DBN)模型具有最高的识别率,但该模型只适合于小词汇量语音识别,并不适合于大词汇量连续语音识别,所以结合发音特征的DBN模型就成了最有前景的语音识别模型。在未来工作中,会将该模型扩展为结合发音特征的多流语音识别模型,使得输入流同时包含音频特征流和视频特征流,以期在噪声环境下得到更高的语音识别率,提高语音识别系统的鲁棒性。1发音特征2分阶段dbn模型aw-dbn与发音特征相结合2.1形态同步机制本文构建的异步整词-发音特征DBN(AWA-DBN)语音识别模型如图1所示。顶层为词层,隐层为发音特征层,底层为音频观测向量,其中发音特征层由3个流构成,分别为3个发音特征流L、T、G,各流在词内异步、词边界同步。其中下标t表示当前时间片,t-1表示前一时间片。该模型不同于WS-DBN、WP-DBN之处在于引入了节点CLT和CLTG,这两个节点的作用是检查并限制各个流之间的异步程度。由于模型描述的是词边界同步,从而各发音特征流间的异步程度用它们在词中位置的绝对距离表示,这同WA-DBN模型中的定义一致。其中节点CLT检查发音特征流L、T间的异步程度a=|LP-TP|,CLTG则检查3个发音特征流的异步程度。在WA-DBN模型中,节点CLT与CLTG服从不确定性条件概率分布,用来检查当前时刻各发音特征流间是否存在异步。本文的AWA-DBN模型中,节点CLT与CLTG服从确定性条件概率分布,它们不仅检查当前帧中各发音特征流的异步关系,而且根据检查结果影响并控制下一帧中各发音特征在词中所处的状态。因此定义这两个节点的概率关系为:其中m为各流间的最大异步状态数,如果a>m有CLT=0;如果b>m则有CLTG=0。根据发音器官的运动机理,m的值一般限制在3~4之内,可以在实验中进行设置和调整。当发音特征流L、T间的异步程度超过规定的最大异步状态数时,本模型采取以发音特征L为基准,修正T,使得两个流间的异步程度始终保持在最大异步状态数之内;对于3个发音特征流,则采取以L、T为基准,修正G。概率关系描述为:本文采用混合高斯模型(GMM)来描述由发音特征组合到观测向量的概率分布,公式如下:它描述的是第j种发音特征组合的GMM,其中l1、l2和l3分别为发音特征流L、T和G的状态数,N为3个发音特征流的状态组合数,q、m和n分别为3个发音特征在某词内所处状态的一个索引值。3单高斯模型的建立本文模型中的节点变量,既有可观测变量,又有不可观测变量,属观测不完全的DBN模型,因此模型的训练和学习采用期望最大化(EM)算法。令x为所有实例中的所有观测值,χ为所有实例中的所有可观测变量,y代表所有实例中的全部隐变量,Θ是概率模型的所有参数,那么EM算法就是通过迭代并最大化模型的极大似然估计的辅助函数来找到最优的模型参数Θ赞,即其中Θ与Θ′表示模型原有的和迭代新产生的参数。假设不完全观测数据的混合概率分布为:其中Θ=(α1,…,αM,θ1,…,θM),为第i个高斯分量函数的参数,M为混合高斯个数,y={yj}Jj=1,yj∈{1,…,N}为第j个发音特征状态组合取值实例,为隐变量,不可观测,J为观测实例个数。在DBN和HMM的语音识别系统中,通常都是先训练单高斯模型,然后再分裂高斯个数,进行循环迭代训练。因此首先要建立N个发音特征组合产生观测向量的单高斯模型。为不改变公式(2)的描述方式,将N个单高斯模型与公式(2)中的M个高斯分量相对应,即令M=N。此时如果yj=i,那么第j个观测实例则由第i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版苗木种植基地土壤检测与分析合同4篇
- 承包给农民工砍筏兰竹合同(2篇)
- 二零二五年度农药农膜环保处理技术合同范本4篇
- 二零二五年度泥水工施工技能竞赛组织与培训合同2篇
- 美容院与医疗机构合作开展抗衰老服务合同范本4篇
- 2025版电子商务平台卖家免责条款合同范本4篇
- 二零二五年度储煤场租赁合同环保合规性审查范本4篇
- 2025年度托管班儿童安全教育与合作合同
- 二零二五年度垃圾处理劳务分包合同封面3篇
- 2025年度塔吊司机应急救援预案编制合同4篇
- 人教版(2025新版)七年级下册数学第七章 相交线与平行线 单元测试卷(含答案)
- GB/T 44351-2024退化林修复技术规程
- 完整2024年开工第一课课件
- 从跨文化交际的角度解析中西方酒文化(合集5篇)xiexiebang.com
- 中药饮片培训课件
- 医院护理培训课件:《早产儿姿势管理与摆位》
- 《论文的写作技巧》课件
- 空气自动站仪器运营维护项目操作说明以及简单故障处理
- 2022年12月Python-一级等级考试真题(附答案-解析)
- T-CHSA 020-2023 上颌骨缺损手术功能修复重建的专家共识
- Hypermesh lsdyna转动副连接课件完整版
评论
0/150
提交评论