基于.-filler模型的语音关键词识别_第1页
基于.-filler模型的语音关键词识别_第2页
基于.-filler模型的语音关键词识别_第3页
基于.-filler模型的语音关键词识别_第4页
基于.-filler模型的语音关键词识别_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

...wd......wd......wd...xxxx大学毕业设计〔论文〕任务书课题名称基于Filler模型的语音关键词识别学生姓名xxxxxxx所在院x系x队专业电子信息工程学号xxxxxxxxxxx申请学位级别工学学士指位x系x教指姓名xxxxx技术职务教授二○一一年二月课题名称基于Filler模型的语音关键词识别其他指导教师姓名、单位xxxxxxx课题主要任务与要求:语音关键词识别是语音识别的一种特殊情况,是处理自然语言、实现人机语音交互有效的解决方案之一,并成为语音识别领域的另一个研究热点。1.了解语音识别根基知识,深入了解语音关键词识别技术。2.了解国内外对于语音关键词识别技术研究的现状和开展方向。3.掌握基于Filler模型的语音关键词识别的方法。备注系〔或教研室〕审批意见:课题难易程度适中,理论与实践相结合,适合作为本科毕业设计课题。签〔章〕2011年2月28日学院训练部审批意见:签〔章〕年月日基于Filler模型的语音关键词识别技术摘要关键词识别是语音识别的一个重要领域。本文对基于filler模型的语音关键词识别进展了研究,它主要应用在实时的命令词检测和对话系统。研究重心为关键词识别系统的检出策略和确认方法。在基于垃圾模型的关键词系统中,常利用似然比方法进展语音确认。研究了一种基于竞争模型的加权似然比融合语音确认方法,通过联合目标模型与其竞争模型的似然比对子词的置信度进展估计,引入了最小确认错误准则训练融合的权重系数。实验说明该方法优于传统的似然比方法。通过分析关键词检测系统的置信特征,选择动态垃圾得分、似然比和驻留概率等特征计算关键词候选的置信度,这些特征的组合能够明显提高系统的拒识性能。关键词:关键词识别,filler模型,似然比AbstractKeywordsrecognitionisanimportantareainthespeechrecognition.Inthispaper,weinvestigatefillermodelbasedkeywordrecognition,whichismainlyusedinreal-timevoice-commandanddialoguesystems.Thefocusofourresearchisthekey-worddetectionalgorithmandspeechverificationmethodsinthekeywordrecognitionsystem.Thelikelihoodratiotest-methodisoftenusedforutteranceverificationproblem.Acompetingmodelwasbasedonweightedlikelihoodratioverificationmethodisstudied,wherethesub-wordconfidencemeasureisestimatedbycombinationoflikelihoodratioscoresoftargetmodelwithitscompetingmodels,andtheweightconfidentsarederivedbyminimumverificationerrorcriteriatraining.Experimentresultsshowthatthelikelihoodratioapproachisbetterthantraditionalmethods.Byanalyzingthecharacteristicsofconfidence,weselectthedynamicgarbagescore,likelihoodratioandthedurationprobability.Thecombinationofthesefeaturescansignificantlyimprovethefalserejectionperformance.Keywords:Keywordsrecognition,fillermodel,likelihoodratio目录摘要[5]:类型I错误:错误拒绝(FalseReject,FR):系统没有检测到语音中应该出现的关键词;类型Ⅱ错误:错误承受(FalseAlarm,FA):系统检测到的关键词在语音中没有出现,是假冒的关键词。显然,漏报减少就会导致虚警增加,反之亦然。在关键词检测系统中,一般都是尽可能多地检出关键词候选,然后通过置信度打分进展据识分析,高于置信度门限的候选承受,低于门限的拒绝。因此关键词检测系统的性能除了取决于检出模块外,也严重依赖置信度的评估方法。系统往往调整置信度门限,使关键词检测系统的两类错误之间之问有一个折衷,这个门限称为系统的工作点。在关键词系统中,定义衡量类型I类错误的指标为拒识率,类型Ⅱ错误的指标为误警率。拒识率=误警率=其中,待检关键词总数是指给定的关键词表中的关键词总数。C是一个常数,其作用是使误警率和拒识率处于同一尺度,本文评测规定C=1。可以使用检出率来评价关键词的检测性能:检出率=在关键词检测系统中,如果从低到高调整置信度判决门限,就可以得到一条误警率—拒识率变化曲线图,称之为检测错误折中曲线(DetectionErrorTradeoff,DET),如以下列图所1-3所示。●理论等错误率●理论等错误率图1-3DET曲线图DET曲线反映拒识率随着误警率变化的趋势,在置信度门限取某特定值时,可以得到误警率=拒识率,该点称为等错误率〔EER〕点。DET曲线反映系统的综合性能,DET下方所围的面积越小越好,EER反映系统工作点的情况,EER越小说明系统工作点性能越好。一般情况下,系统的工作点是随需求而定的,是在误警率和拒识率的一个折中,实际应用时应根据DET曲线性能,结合实际需求选择适宜的置信度门限。由于误警率和拒识率与置信度门限有关,因此,DET曲线除了可以度量检测系统的性能,也可用来比拟置信度计算方法的优劣。召回率和查准率是信息检索的重要评估方法,也可以用来评估关键词系统的检出性能,对整个关键词检出结果集的质量进展量化评价。召回率(Recall):又称查全率,对某一个查询项,检测出的正确关键词个数与参考关键词总数的比值。查准率(Precision):对某一个查询项,检出的正确关键词个数占检出的关键词总数的比值。对关键词检出结果按照置信度得分由高到低排序,通过11点标准查全率下的查准率曲线来观察系统的性能,如图1-4所示。这11点对应查全率分别为(0%,10%,20%,…,100%)时的查准率,缺值局部取附近的结果进展插值平滑。平均查准率是这11个点的算术平均,而平均召回率对应曲线在平均查准率处的结果。图1-4召回率-准确率曲线图1.4关键词识别与连续语音识别的关系首先,关键词识别的任务是在连续的话语中识别出给定的词,因而它首先是一种连续语音识别;但它又不要求把整个的语音流全部识别出来,因此可以说关键词识别是连续语音识别的一个分支。其次,对发音人的要求又不可能像对连续语音识别发音人那么高,因此关键词识别又不同于连续语音识别。考虑如下五个方面的差异,KWR与CSR有时又被当作两个不同的问题来处理:(1)模型的训练问题:CSR模型往往要经过的不同发音人(尤其是可以包括使用者在内)的大量数据进展训练。KWR则不大可能让被识别对象对其模型进展大量的训练。(2)词汇表问题:CSR要求每个待识别的词(或单元)必须是一个有限词表中的一个,它的词汇表是封闭式的;而KWR允许输入的语音包含关键词词表外的任何词,它的词表是开放式的。(3)语法或词法问题:CSR要求输入语音中的词序列受限于一个有限状态语法网络,也就是说它要求输入严格符合它所假定的一组句式模型;而KWR则无此要求,它不需要输入符合某种句式模型。(4)发音人的态度:对一个CSR系统,发音人能够意识到自己正在与机器进展交流,希望所说的话能够被机器正确识别,故而他们一般持合作的态度,也能够根据系统的提示重新发音;但在KWR系统中,说话人常常是毫无准备的,多数情况是处于自然会话的发音方式,也不太可能重复不太清楚的语句。(5)环境:CSR系统由于用户的配合往往在比拟安静的环境中使用,而KWR则可能遇到噪音大的环境。由于这些差异,CSR的错误率用百分之几衡量,而KWR的(误警和漏识)错误率,则要高出一个数量级,常常用百分之十几来衡量。1.5论文研究的内容论文对关键词识别技术的假设干问题进展了研究,论文的研究工作涉及领域是基于垃圾模型的关键词检测技术。图1-5给出了作者的研究思路和方法。基于垃圾模型的关键词检测技术主要应用于对话系统、命令控制和特定领域信息咨询,系统要求实时性高、误警要少。作者对影响系统性能的因素做了分析,设计了一个基于垃圾模型的关键词检测系统。为了增强系统的拒识能力,通过两种方法来提高确认效果,从算法上对传统的似然比确认方法进展了改良,提出了基于竞争模型的加权似然比融合语音确认方法。关键词识别技术关键词识别技术基于垃圾模型的关键词检测技术系统设计确认性能不佳基于竞争模型的加权似然比融合语音确认方法联合多特征确认〔似然比,驻留概率,OLG得分〕提高了系统语音确认效果图1-5论文的研究思路和研究内容由于理解一句话,可以从多个层次、多个角度去理解,从这个角度出发我们选择了关键词驻留概率和OLG得分,以及似然比得分来提高系统置信特征,提高了系统的语音确认效果。1.6论文构造安排本论文共分为四章。第一章,绪论,主要介绍关键词识别系统的产生和现状及研究意义和内容,以及关键词识别与连续语音识别的联系。第二章,基于垃圾模型的关键词检测模块的设计,首先介绍了基于垃圾模型的关键词检出原理和常用方法,然后对影响系统性能的因素做了分析。设计了一个基于垃圾模型的基线系统。第三章,对垃圾模型中关键词确认方法进展了研究,提出了一种基于竞争模型的加权似然比融合语音确认方法,通过联合目标模型与其竞争模型的似然比对子词的置信度进展估计,引入了最小确认错误准则训练融合的权重系数。在置信预测特征选择方面,介绍了关键词动态垃圾得分与驻留概率置信特征,并联合这两个特征与似然比计算候选关键词的置信度。第四章,总结与展望,对论文的所有工作进展总结,并对进一步的研究提出几点建议。第二章基于Filler模型的关键词检测技术基于Filler模型的关键词检测(KeywordSpotting,KWS)系统可以说是最早最经典的关键词识别系统,在实时性要求高的场合,如人机对话,语音拨号等环境,研究人员倾向于使用这种关键词检测系统。只需要从连续语流中检测一组给定的关键词,而不需要对所有的语音进展识别。这类系统往往需要比拟快速地检测出需要的词,而且要具有一定的据识能力,减少系统的误操作或者误报。对这类弱语法约束条件下的置信度计算,主要是利用声学置信度,在要求比拟高的情况下,也可以参加一些语法约束信息进展辅助判别。2.1基于filler模型的关键词检出原理在基于垃圾模型的关键词系统中,垃圾模型用来吸收关键词之外的各种语言现象,包括集外词(OOV),常见的非语言现象(背景噪声、咳嗽、喘气)。关键词检测系统的任务是从连续语流中检测出给定的关键词,并给出相应的置信度,一般不需要对全文进展识别。从解决关键词检测问题本身来说,我们一般有以下三种根本方法:(1)对输入语音用LVCSR系统进展全文识别,给出相应的文本结果,再从这些文本结果中检索给定关键词。这种方法的优点在于可以充分利用语言模型知识,对误报的压制能力比拟强;缺点在于速度比拟慢,对集外词缺乏灵活性,受语法外〔Out-Of-Grammar,OOG〕局部语音的影响比拟大。这种方法比拟适合于实时性要求不高,集外词比拟少的场合。(2)用关键词加上垃圾网络的方式检索关键词,这种方法速度比拟快,对垃圾词不敏感,检出率比拟高;缺点在于只能用声学信息检测关键词,误报比拟多,更换词表时需要重新进展声学匹配。(3)用音素或音节识别器构建音素或音节的词图,再根据相似度到词图上检索需要的关键词,这种方法相当于上述两种方法的折衷,优点是相比照拟灵活,而且更换词表不需要重新进展声学匹配,缺点是对词图的容错能力要求比拟高,比照拟短的关键词检测不利。从上面的三种方法比照来看,LVCSR的系统不是很适合关键词检测的任务,缺乏灵活性,而且关键词通常是人名、地名等出现频率不是很高的词,甚至是集外词。因此,目前的关键词检测系统大多采用后面两种框架。根据允许输入语音的自由程度,KWS可以分为输入完全符合规则语法的系统、无限制的系统和介于二者之间的系统。Keyword1Keyword1Keyword2KeywordMFiller1FillerN关键词模组垃圾模型模组关键词检测系统搜索网络类型IFiller1Filler1Filler2Filler3FillerM。。。。。。Keyword1Keyword2Keyword3KeywordN。。。。。。Filler1Filler2Filler3FillerM。。。。。。关键词HMM串垃圾模型模组垃圾模型模组关键词模组关键词检测系统搜索网络类型II图2-1基于垃圾模型的关键词检测系统搜索网络图2-1(a)和图2-1(b)给出了两种常用的基于垃圾模型的KWS系统搜索网络,前者用于检出无限制语音流中可能含有的任意多个关键词。而后面加了一个约束,仅允许一句话中出现一个关键词,适合于简单的命令控制场合或语音命令菜单。理论上说,关键词也可以从垃圾模组的识别基元组合出来,因此,为了检测出关键词,防止关键词被垃圾模型吞没,必须对垃圾网络加上一定的惩罚或对关键词网络进展奖赏,通过调整这个惩罚或者奖励的权重,就可以调节系统的检出率,但同时误报率也会发生相应变化,需要通过置信度评估来拒绝掉假冒的关键词,此过程称为关键词确认。框图中垃圾模型模组有两个根本作用:一是作为填充网络〔Fillers〕对非关键词局部语音进展建模和过滤;二是作为背景模型,对关键词的声学得分进展归一化,计算关键词的声学置信度。理想的垃圾模型应有足够的能力吸收除关键词之外所有剩余的语音信号,同时与关键词模型之间又有足够远的距离,使其不具备竞争关键词所对应的语音段的能力。根据垃圾模型的来源不同,关键词检出算法可以分为三类:明确垃圾模型、动态垃圾模型、滑动窗方法。(1)明确垃圾模型。明确垃圾模型就是要对垃圾模型模组的Filler〔补白〕建设实际的物理模型。建设模型的方法可以细分为两种:一种是子词补白,补白与关键词共享同一套子词单元模型集,补白模型由子词模型拼接组合而成。子词一般为比关键词更小的发音单元,如声韵母和音节,关键词则是这些小的发音单元的串接,通过调整关键词的奖赏分数来区别关键词和补白模型。子词补白方法在实际使用中修改关键词集的定义时无须重新训练子词模型,具有较好的灵性。缺点则是补白模型多、算法复杂度高。另外一种是集外补白,专门为Filler建设HMM或GMM声学模型。集外补白模型完全独立于关键词所对应的声学模型集,可以只包含一个通用的补白模型,也可以是假设干个补白模型构成的集合。在训练集外补白模型时,将训练数据中除关键词之外的额外输入分为假设干类,其中的每一类训练一个模型。集外补白方法的优点是构造简单、算法复杂度低,尤其在训练数据较少的应用或嵌入式系统中用途较广,但由于其补白模型比拟简单,对非关键词的拟合能力不如子词补白。(2)在线垃圾(OnlineGarbage,OLG)模型。对于图2-1(a),如果把垃圾模型模组拿掉,就可以构成基于OLG的KWS系统。OLG模型是虚拟的模型,OLG模型的思想是在Viterbi搜索过程中,对每一个语音帧,计算所有存活于关键词的语音识别单元的似然分数,识别单元可以选音素、状态,对每一帧语音,OLG的得分是该帧信号对应的N个最优匹配单元的平均分,在这种方式下,OLG不是最正确的匹配者,但肯定属于较优匹配者,只有当一段语音同关键词比拟匹配时,关键词的整体成绩才可望在与OLG的竞争下胜出。和明确垃圾模型相比,OLG具有较好的鲁棒性。这是因为,在噪音环境下时,对于一段语音,所有的HMM模型都匹配不好,打分都低了,最终导致在线垃圾模型的得分也相应降低。而在明确垃圾模型的情况下,所有的模型打分都不准确,混淆子词的打分很容易超过目标子词,从而导致关键词检测系统的性能下降,降低了系统的鲁棒性。实验证明,当关键词个数很少时,OLG模型的性能会变得很差。另外,由于没有真正对集外词发音建模,在线垃圾模型的时间对齐的效果不如明确垃圾模型。(3)滑动窗算法。这种算法不使用补白模型,而是基于这样的思想:即一开始从语音数据的第一个点开场进展搜索,在得到结果后再选择下一个搜索起点进行下一轮搜索,直至认为没有可能再出现关键词为止。由于可以从语音的任意起点开场搜索,这种方法的好处在于最大限度地提高了关键词的检出率,但同时也带来误警率较高,运算量大等问题,所以不如前两种方法应用广泛。2.2影响关键词系统性能的因素在基于垃圾模型的KWS系统中,影响其系统性能的因素主要有:(1)声学模型的选取。由于不像LVCSR存在语言模型的指导,声学模型对KWS系统影响至关重要。从模式识别的角度来看,声学基元建模除了描述数据中所蕴含的反响其本质的分类信息,还要增加模型间的区分能力,才能获得较好的分类效果。传统声学模型训练采用基于最大似然准则(MaximumLikelihoodEstimate,MLE)的训练方法,算法比拟成熟,语音训练时有快速算法。但MLE只使用目标模型自身的数据训练,忽略了模型之间的区分性,因此这种方法并不一定能够获得最正确的分类性能。对于实际语音信号来说,其分布往往不满足高斯分布的假设,因此为了提高声学模型的区分能力,可以采用区分性训练方法,如基于最大互信息(MaximumMutualInformationEstimation,MMIE)的训练方法、基于最小分类误差准则(MinimumClassificationError,MCE〕的训练方法、基于最小音素错误率(MinimumPhoneError,MPE)的训练方法等。其中,MMIE通过最大化所有句子的期望辨识率来优化模型参数。MCE通过直接最小化损失函数,到达最小化分类错误的目标。MPE最大化所有句子的期望辨识率,强调音素层次的正确率,通过最大化所有可能语句的音素正确率,到达最大化所有句子辨识率的效果。值得一提的是,JiangHui最近提出了最大分类边界(LargeMarginTraining)HMM,该方法利用支持向量机思想,通过最大化目标模型与竞争模型的分类边界获取比MCE更好的泛化能力。在关键词检测系统中,补白模型的HMM的对系统的影响也很大,在普通话KWS设计方面,郑方在HarkMan关键词检测系统的研究中指出:补白采用音节建模要优于声韵母建模和音素。在集外补白模型训练方面,严斌峰提出了基于数据驱动的改良合并分级聚类算法的补白模型训练方法,首先通过聚类对所有的关键词模型(HMM)进展分类,然后对某一关键词,找出与其同类的其他所有关键词对应的语音样本,通过聚类算法训练出该关键词的补白模型。陆正中把集外补白模型按照发音特点划分为13类,每一类聚类形成一个HMM模型,以提高解码速度。在模型构造方面,郑方等人提出的从左向右可跳转的补白模型,如图2-2所示,通过多尺度来吸收集外词。112N……Sink图2-2从左向右可跳转的补白模型(2)网络转移系数的选择。通过调节网络转移权值可以检测出关键词,网络转移权值其实是给系统增加相应的语言模型得分,郑方通过训练关键词和Filler转移的bigram语法提高关键词的检测率。转移权值与关键词的长度有关,INRIA对转移系数函数进展了研究,比拟了几种转移权值函数的性能。通常,网络转移系数需要人工来调节。防止人工调整的一个方法是采用不同尺度声学模型,以较精细的声学模型描述关键词的HMM,以较粗的声学模型描述非关键词的HMM,这样可以防止关键词被Filler模型吞并,但这种方法对声学建模精度要求比拟苛刻。(3)发音模糊现象实际发音和训练语音有一定差异,由于发音不标准容易导致系统检测率低,可以通过扩大关键词表来提高鲁棒性,例如要检测“hunan〞(湖南),可以在关键词表中增加“funan〞来增加系统对略带口音的普通话发音的适应能力。除了可以从字典扩展模糊发音,还可以从模型级入手,建设嵌入式多模板(EMM),对各种个性特征如口音、上下文关联信息等进展机器划分,在词法树中利用模糊弧分裂技术,识别时自动地把同一语音的各种不同情况分开。(4)关键词的长度对系统的影响关键词的长度对检测性能影响比拟大,通常关键词越长,检出率越高,梁家恩在2005年863连续语音开发集测得三字词的误报率比两字词低10%以上。在限定领域中,基于规则语法的关键词识别系统的识别能力好于无规则的KWS系统,其原因就是由于长时段语句(如句子)比词更加稳定,通过语法规则无形中延伸了关键词的长度,从而提高了关键词的检出能力。在对话系统中,Kawahar提出用“Keyphrase〞的方法来进展关键词检出。梁家恩通过关键词的合成词构建局部语法网络,将关键词检测的问题转换成关键词短语的检测问题,从而延长了关键词的长度,得到语言增强后的置信度,作为整个关键词的置信度。(5)关键词确认模块的性能关键词确认的目标是在几乎不影响正确关键词的检出率的前提下,尽可能地降低误警率。虽然关键词识别算法中也可以通过调整关键词和补白模型的权重来实现误警率的下降,但相应的要以牺牲检出率为代价。目前的关键词检测系统通常都是放松关键词检出局部的限制,尽可能多的检测出关键词,然后通过关键词确认技术去掉置信得分较低的候选。近年来,很少见到关键词检出算法的文章,语音确认算法成为关键词系统的研究重点。除了语音确认算法外,也有人研究确认门限自适应,以适应不同环境条件的变化。Lopez-Cozar等描述了一个快餐预定系统,在该系统中他们使用了一种AdaptiveConfidenceThreshold的策略,在交谈过程中可以根据环境条件的变化,动态调整置信度阈值,通过这样提高对话中句子理解率和减少对话回合数。2.3关键词检测基线系统设计方案我们的关键词检测系统是在Julian语音识别器的根基上开发的,Julian是日本京都大学和日本IPA(Infonnation-technologyPromotionAgency)联合开发的基于有限状态语法的开源连续语音识别引擎。由于我们针对的任务为无限制语音流,采用图2-1(a)的拓扑构造来设计基于垃圾模型的关键词系统。采取先检出后认证的策略,通过网络转移权值来平衡系统的漏报和误报。通过实验发现,加大垃圾模组的惩罚系数,对提高系统的检出率有一定影响,但同时会带来更多的误报,而对关键词奖赏要比对垃圾网络惩罚的效果要好,在同样检出率的情况下,误报要少得多,但解码的速度比拟慢。我们把系统的关键词奖赏权重设置为:Wi=C*length〔KWi〕,其中C为常数,关键词的转移权重与关键词所包含的声韵母基元个数Length(KWi)有关,经过实验确定C=6到达最正确效果。考虑到实时性和系统性能,采用扩展的声韵母单元(XIF)作为系统识别单元。我们在实验中发现,用音节基元作为补白模型,虽然检出效果得到很大改善,但由于要扩展的路径太多,导致解码速度很慢,虽然可以通过Beam剪枝去除得分较低的路径,但依然不能满足实时要求,所以垃圾模型模组局部改为采用声韵串接的音节模型,包括sil和全部音节模型,共计403个模型。通过共享前缀词典树组织搜索网络,由于利用了识别单元在发音方面的共性,搜索空间被大大减小,搜索效率得到了提高。由于垃圾模型仅起到吸收集外词的作用,并不需要识别出其真正的内容,我们在Viterbi解码的过程中,对每个时刻点完毕的所有补白,仅允许其累计概率最大的项进展扩展。这样不但能使解码速度得到很大提升,而且使系统占用的内存很小,系统的检出率也不受影响。最终,我们设计的关键词检测基线系统如图2-3所示。Keyword1Keyword1Keyword2KeywordMb+iz+a0关键词模组垃圾模型模组关键词确认GGkw1Gkwm…GG选择累积分最大的路径扩展图2-3基线KWS系统方案第三章关键词语音确认方法3.1基于似然比的关键词语音确认算法在统计学习理论中,假设检验是研究地比拟深入的一个课题。受说话人确认技术的启发,Rahim和Sukkar等人提出利用假设检验解决置信度计算问题。他们把用假设检验方法解决语音置信度问题称之为似然比(LR)方法。假定某段语音特征矢量O被识别成某个词W,语音确认问题可以用统计学的假设检验来描述。定义:H0:原假设,O被正确识别为W;H1:备择假设,O被正确识别为非W。LR=lnPO|其中,W称为W的反词模型或备择模型。可以通过多种方式计算似然比。Rose和Paul考虑到关键词似然得分的时变特性,在进展似然比打分时使用了图3-1的并行“背景网络"得到似然比分数,背景网络为音素循环网络。这种方法较为简单,有一定强健性,但由于参加音素循环网络进展识别,计算代价比拟高。--+关键词—补白网络背景网络语音图3-1通过背景网络获取关键词似然比得分在以HMM为根基的语音识别系统中,词通常由子词串接而成,可以先通过关键词-补白网络产生包含关键词和补白的识别结果,由识别结果回溯得到关键词的词边界,然后通过时间对齐得到关键词的子词边界,把似然比的计算分解到子词层计算,最终关键词的LR分数由子词似然比的计算结果得到。相比上面提到的“背景网络"方法,这种方法精度要高,而且计算代价比拟低。子词层的似然比可以表示为:LR=lnP其中λ为目标子词对应的HMM模型,λ为其对应的反词模型。通常似然比的结果动态范围比拟大,Lee指出,似然比可以通过S函数进展非线性变换,压缩到[0,1]区间,转换为置信度的形式。CM=11+exp⁡其中α>0,控制S函数的平滑程度。需要注意的是,这里的CM只具备比拟意义,而不具备概率函数意义。似然比方法具有较好的统计学理论根基,计算速度快。在基于垃圾模型的KWS系统中,通常采用这种方法进展语音确认。由于反词包括目标子词的补空间,而这个补空间显然范围是很广的,很难用确切的数学模型来描述,所以似然比方法的难点在于如何对反词模型建模,确认算法性能的好坏主要取决于对备择假设概率密度函数的拟合能力。用于求反词模型得分的方法可以分为两类:(1)训练明确反词模型这种方法需要利用语料库来训练反词的HMM模型。Eduardo把反词模型分为两局部:POλ=cP其中λim称为冒充模型,用来对混淆音建模,λim利用与目标子词最容易混淆的前N个子词的语料训练得到。λbg称为背景模型,用所有的训练语料生成。λim和λbg采用与目标模型同样的HMM构造,不同的是背景模型含有较多的混合高斯分量(通常32)。直接用极大似然准则训练的HMM效果较差,需要利用区分性训练方法来进展模型参数调整。最小确认错误(MinimumVerificationError,MVE)是最常用的反词模型训练算法,通过广义概率下降(GeneralizedProbabilisticDescent,GDP)算法求取使确认函数最优的参数值,来到达参数优化的目的。反词模型的好坏,不但跟训练算法有关,还与参与训练的样本有关,Jiang提出了一种在解码过程中动态收集竞争样本的方法,训练明确反词模型的方法据识效果好,但缺点是训练过程比拟繁琐和复杂。另外,由于实际应用环境的样本难于采集,反词模型通常是在干净语音库训练的,实际应用时无形中造成了模型与数据的不匹配,不利于任务域移植。(2)利用模型集来构造反词模型和在线垃圾模型思想一样,这种方法利用模型空间内除目标模型外的其它模型来构造反词模型,获取反词模型得分。假定模型空间中除目标模型λ之外的其它模型为λi1≤i≤N。最简单的方法是在λV0O=这相当于用1-Best竞争模型表示反词模型。如果取前M个竞争项的平均,此时有:V1O=Sukkar提出更通用的公式来计算似然比:V2O=其中α为调整参数,当α取比拟大的值时,反词得分取决于与目标模型竞争较多的模型。当α→∞时,上式相当于竞争模型中的最大项,此时:V2Chao提出一个利用竞争说话人和通用背景模型(UBM)来计算LLR的框架,并通过KernelFisherDiscriminant(KFD)来提高说话人确认的区分性。实际中,通常不需要在整个模型空间来构造反词模型,而仅用与目标模型的竞争集(CompetingSet,CS)来构造反词模型就可以收到满意的效果。这是由于Viterbi搜索算法是寻求最优路径的方法,实际结果往往为识别结果较为接近的模型,Jiang通过图3-2阐述了基于近邻竞争模型的语音确认方法。其思想是可以把模型空间加以划分,目标模型的竞争模型都分布在以目标模型为圆心不同半径的圆周上。与目标模型竞争强度越大的模型在模型空间中距离圆心越近,在识别时这两个模型越容易混淆。竞争模型空间竞争模型空间目标模型空间全体模型空间图3-2基于近邻空间的语音确认思想示意图如果目标模型所在的近邻空间为A1,其竞争模型空间为A2,可以通过目标模型的竞争模型来进展语音确认,从而降低运算量。此时,假设检验问题转换为:H0:原假设,O真实来自A1;H1:备择假设,O真实来自目标模型的竞争模型空间A2-A1;在Jiang[6]的论文中,提出以HMM模型均值向量为圆心,给不同维的语音特征给予不同近邻空间的语音确认方法,该方法在噪声环境下获得较好确认效果。利用模型集来构造反词模型,和训练明确反词HMM模型的方法相比,移植性好,而且省去了训练反词的繁琐步骤。本章我们将主要针对这种方法进展研究,并提出一种新的基于竞争模型的加权似然比融合的语音确认方法。3.2基于竞争模型的加权似然比融合的语音确认方法分析上一节利用竞争模型集构造反词模型的方法,不难发现,所采用的方法都比拟简单。在正确参考答案为“ci〞的情况下,分析下面两种情况:●目标模型为“ci〞,竞争集中最大的竞争模型为“si〞;Vo(O)=C。●目标模型为“ci〞,竞争集中最大的竞争模型为“ca〞;Vo(O)=C。两者似然得分一样,但显然第一种情况比第二种情况更加可靠。这是因为我们的感觉中“si〞与“ci〞发音比拟接近,两者发音更容易混淆。这启发我们,在利用似然比方法时,除了考虑似然比分数外,还要考虑竞争模型的区别,即:各个竞争模型对于区分目标模型的作用是不同的。出于这种考虑,我们提出基于竞争模型的加权似然比融合的语音确认方法。对竞争模型加权来构造反词模型的方式有多种,一种加权方式是采用概率算术平均,即:POλ其中λi为目标模型λ的竞争模型。wi为调节权值,满足POλ比拟这两种形式,对于概率算术平均方式,如果目标模型λ与其所有的竞争模型无关,或者P(O|λi)的值都非常小,会有P(O|λ)≈0。由于通常在log域计算反词输出似然分,不允许出现PV===其中:X=P(O|λ)P(O|这样就把似然比问题转化为以下的参数优化问题:FO=W其中θ=(w1+w2+⋯从上式可以看出,以前提到的很多计算似然比的方法都是所提方法的特例,当竞争集最大值项的权值为1,其余项的权值为+∞时,上式相当于(3-5)式的最大竞争模型法。当取前N-Best竞争项为1,其余项为+∞时,上式相当于(3-6)式的N-Best竞争项法。3.2.1基于MVE的参数优化加权向量和阈值可以通过许多方法来优化,如线性分类器,神经网络、支持向量机等训练算法。由于在这里我们碰到的问题是语音确认问题,我们引入最小确认错误(MVE)算法进展计算。MVE是一种有监视的区分性训练算法,是MCE算法在语音确认领域的推广,在说话人确认和语音确认领域得到广泛应用,常用于HMM模型或反词模型的参数优化。MVE将语音确认错误巧妙地嵌入进目标函数,将参数求解转换为使误警率和误接收率最小的参数估计问题。在实际使用时,MVE算法通常与梯度下降(GDP)算法结合在一块使用,通过GDP求取使目标函数最优的参数值,从而到达最小确认错误的目的。假定语音O的识别结果为子词u,Λ=w1⋯dO,Λ=其中,δ(O,u)为标示函数,是识别结果与实际参考答案比拟的真实判别。δO,u=-1u∈Correct结合〔3-12〕和〔3-13〕式可以知道,在正确分类时:δO,u=-1且WTX>θ或者δO,u=+1且WTX≤θ,此时有dO,Λ<0;在错误分类时:δO,u由于此时有d(O,Λ)不是一个连续函数,无法用GDP优化算法对其进展迭代优化,通常引入S函数将其转换为连续可微函数lwlO,Λ=其中γ是大于0的可调参数,用于控制确认损失函数l(O,Λ)的平滑程度。显然l(O,Λ)是d(O,Λ)的单调增函数。l(O,Λ)的值主要取决于错误分类的数据,由于l(O,Λ)为连续函数,可以用GPD算法来进展优化,使得l(O,Λ)的经历期望值最小。在训练集上,定义期望确认损失函数为:L(O,Λ)≈1Mj=1在GPD算法下,Λ通过以下迭代公式求得:Λn+1=Λn其中ε为学习率,n为迭代次数。在满足下面两个条件下算法收敛:n=1∞εn=∞,同时由于要求wi>0,我们令wi∂L(O.=1Mi=1同理,可以得:∂L(o,Λ)∂θ如果用全部模型来计算似然比显然计算量有些过大,可以考虑只选择距离目标模型较近的那些竞争模型。竞争模型可以通过专家先验知识和数据驱动的方式获得,这里我们利用数据驱动的方式获得竞争模型,采用KL(KullbackLeibler)测度来计算声学模型之间的距离,KL测度也是说话人识别中经常采用的一种模型测度。dλi,上式中,Ni和Nj,代表各自模型的训练样本个数,Qik是训练模型λi的第K个样本,非负性:如果声学模型有足够精度,对于绝大多数训练样本应该满足条件PQikλ自反性:显然有dλ对称性:显然有dλ3.2.2我们采用扩展的声韵母集合进展语音确认,包括27个声母、38个韵母,每个模型3个状态。每个状态含有8个高斯混合分量。语音采用8KHz/16位采样,帧长25ms,帧移10ms。语音特征采用39维MFCC特征,包括对数能量和12维MFCC参数静态特征以及其一阶、二阶差分特征。由于声母和韵母之间不易混淆。所以,对于声母目标模型,可以选用除去目标模型的全部声母集模型作为目标模型的竞争集(CS)。同样,对于韵母,采用除目标模型外的全体韵母作为目标模型的竞争集。为了进一步降低运算量,我们在以上竞争集的根基上进一步缩小范围,对每个目标模型,在863语音库训练集上通过KL测度选择15个与其最接近的模型,按照KL距离由小到大排序,构成式〔3-10〕的15维似然比特征向量,称为CS(15)。对于竞争集,我们通过MVE训练算法对每个子词求取加权向量W和阀值θ。下面是具体MVE训练过程:〔1〕对所有的子词,初始化合成权重系数及阈值,令最易混淆项的似然比加权值wi=1,其余项的似然比加权值为0。阀值〔2〕用音素解码器得到输出结果,并与标准答案做比照,得到真实的分类对错标志δ(O,u);〔3〕用GDP算法根据式(3-18)、(3-19)迭代更新各个系数。本实验中εn取1/n重复(2)、(3)过程,直到损失函数收敛为止。图3-3等错误率随MVE迭代次数的变化情况上图是在竞争集为CS(15)时,我们得到的系统等错误率随训练次数变化的曲线,如图3.3所示。可以看出,EER曲线的变化中间会出现一些波动,在迭代11次后,EER稳定并收敛。最终的EER从0.3563下降到0.2961。接下来验证所提方法的语音确认效果。测试系统为词表大小为130个关键词的关键词检测系统,测试集包含有1300句语音,数据取自863试集的F50、M50文件。关键词的置信度由所含子词的似然比通过以下公式计算得到:CW=1其中L为关键词的子词个数,参数β为幅度调节参数,本实验中β=1。实验比拟四种方法确实认效果:LLRmax:采用(3-4LLRcs采用(3-6)式LLRwcs:采用提出的加权的似然比方法,加权系数和阀值由MVE训练得到,竞争模型集采用LLRwcs(15):方法同LLRwcs,但通过实验得到等错误率曲线如图3-4所示,测得的等错误率如表3-1所示。从中可以看出,仅用竞争集中最大竞争项来表示反词的方法确认效果比拟差。图3-4语音确认方法的DET曲线比拟采用基于竞争模型似然比加权的方法(LLRwcs)比不加权的方法(LLRcs)等错误率下降了2.35%,说明加权的似然比方法收到了较好的效果。比拟LLRwcs和采用竞争模型的方法LLRwcs(15)表3-1不同似然比计算方法的EERMethodLLLLLLLLEER0.23100.21950.19600.19933.3多置信特征联合提高语音确认效果用置信特征进展语音确认[7]也是置信度研究的一个重要领域,正如我们理解一句话,可以从多个层次、多个角度去理解。置信特征可以来自声学层、语言层、语法层和语音层。Chase对常用声学预测特征进展了分析,对一些声学特征进展了分析;Zhang对词图和解码特征进展了研究,提出一些基于词图的语言层特征;StephenCox[8]提出了用浅层语义分析来进展语义层置信度估计,RuhiSarikaya[9]在对话系统中提出利用词层和概念层置信分来计算语义置信度;Gustavo采用一种基于动态规划对齐的方法给识别结果对齐打分。在国内这方面研究,付跃文提出利用局域词图计算的词后验概率与词长、相邻词的后验概率等几种实时预测子进展融合;孙辉提出了上下文相关置信度特征,考虑到当前待确认词与其前序词和后序词之间的相关性。似然比和词后验概率是目前公认的两种最有效求取置信度的方法。词后验概率的方法需要通过生成lattice或词图才能计算,而生成lattice的过程非常费时,无法到达实时要求。所以,对于基于垃圾模型的KWS系统,通常采用声学似然比特征为主,其它特征为辅的策略。常用的融合特征有:关键词似然比、帧归一化的关键词似然分、时间驻留特征、候选关键词的上下文特征、时间对齐特征。除了寻找好的预测特征外,许多研究人员还试图通过分类器来提高置信效果,常用的预测特征融合方法有:线性判别分析、神经网络、决策树、支持向量机、Boosting。另外,还可以借助训练算法优化融合的系数,这些准则有:最大似然准则,互熵准则、最小错误分类错误等。Jiang—Hui[10]指出,预测特征不一定越多越好,必须要考虑该特征的来源,许多相关的预测特征组合并一定能够提高置信度的效果。所以,我们在选择特征时考虑以下两个方面:1)特征之间应尽量来自不同知识源;2)由于基于垃圾模型的关键词系统对实时性要求高,预测特征应较易获得。3.3.1在线垃圾模型提高语音确认效果的理论研究我们选择三个特征用于提高语音确认效果,包括:关键词的似然比特征、驻留特征和在线垃圾(OLG)得分。在线垃圾模型最早用于无补白模型的关键词检出,国内对OLG模型的研究的比拟多,张国亮提出了基于OLG的关键词动态确认方法,将关键词检出和验证过程合二为一,利用OLG进展动态语音确认。梁家恩[11]指出,在线垃圾模型相当于基于后验概率方法的表达。陈一宁[12]利用在线垃圾模型计算N-Best音节格的置信分数,收到较满意的效果。需要说明的是,计算OLG分数可以在关键词模型空间,也可以在补白模型空间,我们采用的OLG得分来自关键词解码空间,目的是用其估计关键词与竞争词的距离。因为,似然比特征并没有考虑关键词之间的影响,识别中的冒充错误大多是由于竞争关键词胜过真实关键词造成的,竞争的关键词越多时,这种错误出现的越多。所以,我们引入关键词在线垃圾得分进展关键词确认,实验结果说明,这三个特征的融合能较好的提高确认效果。下面介绍计算关键词驻留特征和在线垃圾得分的方法。(1)关键词驻留特征。文章[13]提到了经典隐马尔可夫模型的缺陷,HMM是一阶的齐次马尔可夫链的随机函数,这种齐次假设导致HMM状态的驻留长度(即段长)服从指数分布,从数学上得到了简化;但是指数分布意味着在某一状态驻留时间越短则概率越大,特别是零长度驻留的概率最大。这与大多数语音信号的实际段长分布不符,如汉语中辅音的长度分布就相当集中。如果段长服从指数分布,则状态转移概率就是零长度驻留概率,可知零长度驻留概率远大于其真实值,所以经典HMM中的状态转移概率太大,导致了搜索过程中会出现一些插入错误,这是经典HMM的齐次假设的不合理性造成的。相比而言,伽马分布更接近语音段长的真实分布。我们需要提取驻留特征增加关键词确实认能力。显然,如果一个词驻留过短就极可能是插入错误,应该给予其较低的分数。我们采用David提出的方法对子词状态驻留概率打分。假定子词驻留概率符合伽玛分布:pt=K(α,ρ)exp⁡(-αt)t其中t为驻留时间,Kα,ρ=αρΓρ,α=E(T(t))VAR(T(t))〔ρ=E2(T(t))子词驻留特征为子词驻留概率的对数取值:dt=ln上式中,lnK定义关键词的驻留概率为其包含子词的驻留特征的最小值。DP=minid〔2〕关键词在线垃圾分数在构成关键词的状态空间中,取每帧得分最高的N个状态的似然得分sn(oF=lnP(O|λ)-其中tb、tc是关键词的起始和完毕时刻点,从上式可以看出,计算关键词的在线垃圾得分的其实是似然比方法的表达。但与似然比方法区别的是,反词局部由竞争的关键词的状态得分形成。当竞争的关键词较多时,其得高分的存活状态必然较多,导致其OLG分数增加,此时F值变小。当竞争的关键词较少时,OLG分数下降,此时F值变大。所以,该特征在一定程度上表达了关键词与竞争关键词的距离。此种方法还具有一定的抗噪性,一般说来,OLG是随识别语音特征的变化而动态变化的,在噪声环境下,关键词得分发生变化,OLG3.3.2实验结果实验用到的关键词检测系统和测试语音同上一节,首先我们验证OLG分数的语音确认效果,OLG分数的形成主要取决于每帧的前N-Best个竞争状态,调节N的取值,得到的不同N值下的语音确认效果,如图3.5所示。调整N的值就可以调整关键词确认的宽严程度,N越大越宽,可以看出在每帧取得前30个最正确状态来计算在线垃圾分数时有较好的效果,N过大和过小,关键词确认性能会有所下降。图3-5OLG中模型参数N的DET曲线比拟接着比拟联合关键词似然比、驻留特征和在线垃圾得分特征的语音确认效果,这里仍然采用Sukkar提出的LLRcs方法为基线似然比特征,驻留特征所需的参数由863语音库训练得到,对于OLG特征,每帧取得前30图3-6联合关键词预测特征的DET曲线比拟图3-6给出了联合置信特征进展语音确认的DET曲线,表3-2给出了确认方法的EER比拟。表3-2联合关键词预测特征的EERMethodLLSLLLLEER0.21950.22630.19250.1882可以看出,OLG特征确实认效果不如似然比方法。联合似然比和OLG置信特征后的EER比似然比方法对应的EER下降了0.027,这说明这两个置信特征具有一定的互补性。进一步,通过参加驻留特征后使系统的DET曲线变得比拟平滑,系统稳定性有所增强。联合似然比、OLG和驻留概率这三种置信特征使得系统的EER下降为0.1882,比基线系统的EER下降了0.0313,比联合两种特征的方法EER下降了0.0043。实验结果说明,我们选择的三个特征具有一定的互补性,联合这些特征能在一定程度上提高语音确认效果。第四章总结与展望4.1内容总结本文对基于Filler模型的关键词检测技术进展了研究,对该关键词检测系统的设计、关键词检出策略和置信度评估进展了分析,并通过实验证明了其有效性。本文主要奉献为:基于垃圾模型的关键词系统中的语音确认算法。在基于垃圾模型的关键词系统中,常利用似然比方法进展语音确认。提出了一种基于竞争模型的加权似然比融合语音确认方法,通过联合目标模型与其竞争模型的似然比对子词的置信度进展估计,引入了最小确认错误准则训练融合的权重系数。实验说明该方法能够有效提高语音确认效果。在置信预测特征选择方面,联合关键词动态垃圾得分、似然比和驻留概率作为预测特征计算关键词候选的置信度,在使系统实时性没有明显下降的情况下明显提高系统的拒识性能。4.2研究展望本文虽然对基于Filler

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论