通信类中英文翻译、外文文献翻译_第1页
通信类中英文翻译、外文文献翻译_第2页
通信类中英文翻译、外文文献翻译_第3页
通信类中英文翻译、外文文献翻译_第4页
通信类中英文翻译、外文文献翻译_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

美国科罗拉多州大学关于在噪声环境下对大量连续语音识别系统的改进 噪声环境下说话声音的识别工作简介在本文中,我们报道美国科罗拉多州大学关于噪声环境下海军研究语音词汇系统方面的最新改进成果。特别地,我们介绍在有限语音数据的前提下,为了了解不确定观察者和变化的环境的任务(或调查方法),我们必须在提高听觉和语言模式方面努力下工夫。在大量连续词汇语音识别系统中,我们将展开MAPLR自适应方法研究。它包括单个或多重最大可能线形回归。当前噪声环境下语音识别系统使用了大量声音词汇识别的声音识别引擎。这种引擎在美国科罗拉多州大学目前得到了飞速的发展,本系统在噪声环境下说话声音系统(SPINE-2)评价数据中单词错识率表现为30.5%,比起2001年的SPINE-2来,在相关词汇错识率减少16%。介绍为获得噪声环境下的有活力的连续声音系统的声音,我们试图在艺术的领域做出计算和提出改善,这个工作有几方面的难点:依赖训练的有限数据工作;在训练和测试中各种各样的军事噪声存在;在每次识别适用性阶段中,不可想象的听觉溪流和有限数量的声音。在2000年11月的SPIN-1和2001年11月SPIN-2中,海军研究词汇通过DARPT在工作上给了很大的帮助。在2001年参加评估的种类有:SPIIBM,华盛顿大学,美国科罗拉多州大学,AT&T奥瑞哥研究所,和梅隆卡内基大学。它们中的许多先前已经报道了SPINE-1和SPLNE-2工作的结果。在这方面的工作中不乏表现最好的系统我们在特性和主模式中使用了自适应系统,同时也使用了被用于训练各种参数类型的多重声音平行理论(例如MFCC、PCP等)。其中每种识别系统的输出通常通过一个假定的熔合的方法来结合。这种方法能提供一个单独的结果,这个结果的错误率将比任何一个单独的识别系统的结果要低。美国科罗拉多州大学参加了SPIN-2和SPIN-1的两次评估工作。我们2001年11月的SPIN-2是美国科罗拉多州大学识别系统基础上第一次被命名为SONIC(大量连续语音识别系统)的。在那次评估中,我们单独的最好的系统在9x的实时性的解码速率下,有37.5%的错误率,在那篇论文中,我们描述了当前在通常识别系统发展的形式和工作依靠模式方面的改进•我们之所以关心这些问题,是因为这些问题是关系到在单独识别系统下降低噪声环境下说话声音的错识率,而不考虑那些工作中的识别融合问题。噪声环境下说话者工作任务.这个在噪声环境下的语音工作任务采用了ARCON通信实践,本实践的发展是源于测试通信系统和在战略航中伪装工作的说话音之间的合作,一个起发射办公者的作用(例中,武器控制系统,一个激光火炮和能源);另一个起接受办公者的作用(例如雷达和声纳装置)。每个角色在隔离房间中单独发声,使用军事设备和一个适当的用于模仿的声音装置设备。在这次训练中,两个参与者通过查清和证实栅栏(格子)的位置(X轴,y轴坐标)去搜索和破坏目标。这种位于SPINE—2中的格子能从诊断测试中组成含糊的句子。SPINE—2工作需要,这个格子位置的作用是组成了最小含糊军事用语(对话)。在每次过程中,通过典型的大声说话者,军事的噪声环境被描述。这个SPINE—1的评估数据包括六个噪声环境:1.飞机携带控制决定中心2.AWACS飞机3.—个军事工具(媒体)4.一个军事领域5.—个办公环境6.—个安静环境。SPINE—2通过考虑增加到军用坦克和直生机环境下的各种噪声类型扩展了SPINE—1的数据。当通过一个类似通信通道的环境中时,每一种类型中来的噪声被通过头部损坏的麦克风记录。在本文中,我们仅考虑没有编码的声音频道中的说话声识别系统。这个大量连续语音识别系统的ASR引擎.3.1当前ASR的体系设计我们当前用于实践的2001年11月的SPINE--2是应用了SONIC而设计的。即美国科罗多州大学大量连续说话声系统。SONIC是基于连续密度的隐马尔可夫声音模式。背景依靠三角电话,声音模式是依靠决定树的。每种模式有三个发射地域(空间),用伦琴可能密度功能作为过度模式。特征参数被提取,(例如12个MFCC参数,能量和这些参数第一•第二方面的不同点)从而得到一个39维的特征向量(参数)。这个网络的研究工作落在重构一个稳态树。这个识别器包含一项两个通往研究的目标。其中第一个过程包含时间同步。被用于研究的迭代的修剪梁。允许通过的声音模式和3.4种语法•语言模型(用一个大概的有效的方式)在第一个过度模式中被引用。第一个过程给出了句子结束点的框架。在第二个过程中,这个句子格子结果被改变成一个句子表/串。先进的语言模式(例如活动句子和基础概念)能被用作重新划分使用A*算法的句子表或为获得满意的结果去计算.预测句子的后验概率。SONIC提供了一个整体的环境。这个环境包括合成语音活动搜索,说话声增加和各种特征及模式基础适应的一般方法。这个识别设计为快速通往新的语言环境提供支持。在2002年里,SONIC从英语识别中被推广到西班牙语和日语等等语言中去了。3.2当前意义上的提咼我们2001年的SPINE—2系统代表(象征)了我们在大量连续语音识别系统方面的最初成就。这个系统目前使用一个广阔的字典结构。它包括三点基础等级语法语言模式组成的人类决定的复合性词汇,单回归梅尔模式和全球广泛的各种变体以及通常意义上的三点式声

音模式。自从2001年11月后,我们开始研究更加高效的词汇树。这种词汇树将拼凑声音模式,支持四种语法输入,完成数据引导语言合成,重组外加特征参数(例如对数频谱声码器,VTLN等)和说话人自适应模式。4.SPINE系统概述如表1所示,我们的SPINE体系包括一个高度完整的语言感应器和多路识别通路。在每次识别过程中,声音感应器根据当前的自适应声音模式重新划分结构。这个语音感应器将产生的噪音视频转化为声音单元,并且每个声音感应器的识别单元中的LVCSR被应用。这时,这个输出结果(一个可信的格子或声音串)被用于声音自适应模式和一个非监督方式下的类型。那时,这个自适应声音模式被再次应用到一个被提高的分割,识别假想和一系列新的适应体系参数。为了提高识别和识别假想两个方面,这个完整的自适应程序被多次重复使用。SpeechZ'1 .(0??1TSpeechZ'1 .(0??1TVAD|ModelsLVCSRAdaptationFigure1:DiagramofSPINEmulti-parecognirionsearch.当SPINE工作时,我们会发现分割和识别器之间的紧密的组成部分是识别器的最关键组成部分。进一步说,我们认为这个完整的方式是在噪音环境下如何将一些简单的方式应用到语音的识别活动中来的。以下的部分将从细节上描述我们的识别体系。4.1训练数据作为SPINE—2系统评估的声音和语言训练数据不仅保留了先前SPINE—1的训练和测试,而且为了SPINE—2系统的提高,还发展了训练和测试的部分。对于SPINE—2的评估,在将数据和识别设备载入我们最终的系统时,我们的识别装置以1.1小时的发展测试数据。表格1总结了本课题中所用于实验的训练数据。TrainingDataSourceNumberofUtterancesTotalHours(Talk-Time)SPINE-1train'' 11.973SPINE-1eval.12,0797.3SPINELtrain6.1293.4SPINE-2dev.1.941L1Total '' 32,122' 20.5Table1:SPEME-2evaluarious^teintrainingdataa)声音模式这个大量连续声音识别系统的声音训练是基于对使用了被迫排成直线的迭代和位于堆的决定树的足够估计。在华尔街旅行的声音模式中最初使用了将某物排成直线的方式。在被迫排成直线的迭代中,我们在依靠型模式中使用了一个单独的最大可能线形回归方式和各种变体来提高每个说话部分的直线排列的质量。直线排列完后,模式被决定树估计,程序被重复用于提高队列和模式参数的估计。在第一个声音模式过程中,我们使用了标准的39维MFCC参数的有依靠性的(进入语和通过语)三角电话。在第二个阶段(自适应过程)声音模式是通过对数到频谱声码器类型和声音道束长度使其正常化的。4.3语言模式对于2001年11月的SPINE—2的评估工作,正如表格1所示的,从32千赫兹的声音中,我们提高发展了一级种语法的语言模式。这个工作是基于这样的事实而进展的。从SPINE—1到SPINE—2的转变主要是电报和在战场环境下用于完成目标搜索的特征任务。我们的语言等级模式是基于3种语言等级的:行(X坐标)列(Y坐标)和名字(用户名)。SPINE—2的训练数据通过检测被分成行和列。在这项任务中,这里有被分成多重等级模式的句子。例如,被拼作VOX(奥斯卡女性胜利者)有基本的行格的因素。(在SPINE—2中“胜利”和“奥斯卡”时行等级的组成部分)。为了处理这些含糊不清的事情,我们设置了一个半自动化的系统,这种系统源于为DARPA通信任务而发展训练的N种语法等级模式。为了提高识别力,这个语言工作模式同样包括复合词。在2001年11月的语言模式中包括115个复合词。这些复合词被人类视察的训练数据所决定。在本文中,我们考虑到通过使用决定词汇复合的引导数据方法来提高SPINE的语言模式。这种方法使用了直接的和间接的几何平均去决定候选词汇的复合。当前,我们的语言模式使用的被聚类的语言数据有1664个词汇量,同时包括180个复合词。4.4语言分割在自适应过程中我们的语言分割方法是估计分割边界,并且在决定性工作中使用自适应语音模式系统。这个分割包括(有声的和无声的)两种状态的隐马尔可夫模型。隐马尔可夫模型是每个ASR(自适应系统)所具有的动力学结构。通过不依赖于决定树聚类模式的语言状态,一个语言状态由高四种复合物所构成。(0)一个无声的状态通过所有的无声的不依赖的状态所复合构成(例如呼吸笑•沉默等)。隐马尔可夫模型(有关于语言的600个混合复合词和关于无声的288个混合复合词)是正常的。例如这个混合体将总体的总量看成一。一个迭代的研究表现为每个会议中使用两个隐马尔可夫模式。通过最好的有轨道的网络通道,有声和无声的分界点被决定。通过使用被隔离少于0.25的两个富有启发性的语言分割,使分割被提高,同时少于0.1秒的语言分割被删除。最终,为了避免摩擦产生的中断的或其他低能量的声音的干扰,我们将所有语言分割被0.25秒的时隙所加宽。我们需要指出的是:这个语言分割方法(手段)避免了训练分割有声和无声的必要,同时也避免了声音在VAD和部分满足自适应声音模式过程之间的不匹配现象。4.5声音自适应在SPINE工作中,说话者和环境都是十分广泛的。所以,这个声音自适应识别系统能与测试条件相适应时至关重要的。为处理这些情况,我们已经引进了几种技术,能在两个较宽的等级(特征基础和模式基础)技术上被考虑。在特征基础技术中,观察者例如特征矢量输入到语音识别系统中和模式基础的特征参数(例如HMM和各种类型)被修改。通常情况下,特征提取的例子有:对数倒频谱声码器,通常地域的声音长度和通常的倒谱种类。在CMS中,对数倒频谱特征向量的周期平均值被估计,同时,(1)从对数频谱特征参数中被计算。在VTLN中,最好的因素通过识别的手抄本给出的,由最大可能线性自适应数据所决定。这些过程伴随着通常的特征类型。在SPINE的训练和解码体系中,这些方法已经被引用。模式及出资适应方式能被进一步分类成两个大的等级:直接的和间接的。在直接的自适应中,隐马尔可夫模式参数被直接引用。然而,在间接的方式中,一系列共享的变体首先被估计,然后被应用到隐马尔可夫模式中。通常,最大后验性估计被用作直接方式,通过许多知识的确组合使满溢的数据稀疏。在间接方式中,这种变体通常在最大可能状态下估计。当前,在最大后验性方面,同时应用了这两种方法,并且证明提高了结果。一些自适应模式是可行的:监督的战胜非监督的。在非监督的情形下,这个抄本是不可知的,并且应该不估计成一些形式,或者作为一个单独的最好的串,或者是一个句子格子。在增加性的自适应系统中,模式去适应充足的数据而变得可用,并且新的模式被用作对即将来临的数据的解码。反过来说,就是即将来临的数据被用作(再次)适应模式。在阻止的自适应系统中,当所有数据可行(就绪)时,自适应才开始工作。我们来考虑下面几个自适应列表:最大可能线形回归(MLLR)(1)增加的/区间(2)单极的/多极的(3)最好的串/单词格子最大后验线性回归(MAPLR)(1)区间(2)最好的串/单词格子(3)回归等级树我们最初的SPINE—2系统使用了一个等级,阻止性的最大可能线性回归方式和各种变体能从一段话中得知语音识别的单词后验概率。尽管在Hub--5工作方面取得了一些成就,但是在SPINE—2工作中从单一级的回归到六等级的回归的扩展起了关键作用。我们认为这是由于在SPINE的工作中,比起Hub--5来说,使用了较小数量的自适应数据。这将激励我们去为一个物力学的多种的使用回归等级树的MAP自适应系统去奋斗。在下一阶段中,我们将报道拥有更多自适应性的技术。5.评估工作用于2001年11月的SPINE—2的评估数据包括64对说话者3.5小时的立体录音(其中2.8小时用于真正意义上的说话)。按平均值计算,128个会议的每个边界包括1.3分钟(78秒)的说话准备活动。5.1分割对于我们的SPINE—2来说,当自动的和手动的语言分割被使用时,通过计算分类框架和单词错误率来评估声音分割。我们最初的系统是使用单回归类的梅尔方式和对角线协方差变换。结果如表格一所示。我们可以看到,在收集声音的活动中,有一个最初的以7.44%为比率的分类框架。第一个自适应过程结束后,分割提供较少的错误率(最初分类框架的错误率是6.93%),并且这个识别系统能更好地重新鉴定已经被误认为是说话声的安静环境。(例如,插入语句的数量从172下降到108)。在自动和手动的分割之间,单词错误率有明显的不同(纯粹的0.5%)。ProcessingStageAutomaticHand(a)忙)何F■irst-Pass7.44%17241.8%41.0%MLLR-16.95%10833.9%33.4%MLLR-26.93%11233.2%32.7%表格2:分割的演示总结。结果被用作(a)说话声/安静环境框架分类的错误率;(b)在安静的环境下插入语音的数目。(c)自动分割的单词的错误率。(d)手动电报分割的单词错误率。5.2单词错误分析表格3通过迭代的自适应过程和对于各种SPINE—2的完全实时性的结构的分析总结了单词的错误率。在表格3中,反复地说“0”是第一个识别过程。实时性因素在1.7GHz的英特儿奔腾4的单独过程中被测试(计算)。实时性因素包括在自动分割中的过程时间。在设有自适应性的基础的系统下,我们发现在1.8x实时性的条件下错误率为41.8%,更进一步说,仅基于梅尔方式的变换的增加性自适应系统,在说话过程中,以模式为代价能减少将近10%的错误率。事实上,如表3所示是基于通常意义上的提高。这个一种通道增加的自适应系统于我们的多通道的自适应系统进行了比较,在9x的实时性下,2001年11月的系统有37.5%的错误率。在第二个自适应通道中,但回归梅尔方式和对角线协方差变换的使用,使单词的错误率下降(丛41.8%下降到33.2%),然而,正如许多在方面2报道的,在2000年和2001的创作中,可能是由于缺少足够的自适应数据(新增加的多于一个的变换通常降低了系统的功能。在表格3中,33.8%的单词错误率比33.2%的单词错误率)。最终,使用了单级的输出最佳比重的单词后验概率,比起单独基线的MELL回归方式和不一致的变换来说,提供了一个减少错误率的方法。进一步地说,这种用于单词格子标志的综合技术提高了纯粹的0.4%。但是,我们要指明,这个提高以较高的计算频率为代价的。(例如:16.4x的实时性比6.4x的实时性)。SystemDescriptionWordErrorRate(%)RealTimeIterOEter1Iter2何Baseline,NoAdapt.41.8亠--1.8(b)SinglePassInc.Adapt37.7——20(c)1Reg.ChssMLLR41.833.933.25.29)6Reg.ChssMLLR41.834.233.846⑹Single-BestMAPLR41.833.331.96.4(0LatticeMAPLR41.83Z731.516.4表格3:SPINE—2评估系统的单词错误率和实时性因素:(a):没有说话人适应的基础系统;(b):在单级过程中有增加性的体系合作;(c):没有全球范围的单级梅尔回归;(d):使用6个等级的梅尔回归体系;(e):6结论这篇论文说明了当前美国科罗拉多州大学的SPINE—2评估系统的几方面的改进。当前,我们使用了CU最新发展的Sonic的ASR体系。目前在16.4的实时性条件下,我们最好的单级识别系统的单词错误率大约是31.5%。比较而言,在相同的条件下,基于MFCC特征参数的最好单机识别系统的错误率是32.5%。我们需要指出的是这两个最好的系统有各自的88和121的实时性因素。基于上面这些比较,我们认为本论文中提到系统再次象征了SPINE—2的单级识别的艺术性区域。RECENTIMPROVEMENTSINTHECL:SONICASRSYSTEM

FORXOISYSPEECH:THESPINETASKBjyanPellomandKadriHaciogluCenterforSpokenLanguageResearch

UniversityofColoradoatBoulder

{pellom^hacloglu}©cslr.Colorado・eduABSTRACTInthispaperwereportonrecentimprovementsmtheUniversityofColoradosystemibitheDARPA.,rNRLSpeechinNoisyEmironments(SPINE)task.Inparticular,wedescribeoureffortsonimprovingacousticandlanguagemodelingforthetaskBudinvestigatemethodsforonsnpemsedspeakerandenvironmentadaptationfromliimteddata.WeshowthatrheMAPLRadaptationmethodontperfbnnssingleandmultipleregressionclassMLLRontheSPINEtask.OurcurrentSPINEsystemusestheSonicspeechrecogniiionenginethatwasrecentlydevelopedattheUniversityofColorado.Thisswtemisshowntohaveawordenorrateof31.5%ontheSPINE-2evaluationdata.Theseiniproveinentsamounttoa16%reducrioninrelativeworderrorratecomparedtoourpreviousSPINE-2systemfieldedintheNov.2001DARPA/NRLevaluation.INTRODUCTIONTheSpeechinNoisyEnvironments(SPINE)taskattemptstomeasureandinspireiiiiproveinentsinstate■血亡processingforrobustcontinuonsspeechlecognilion[1].Thetaskhasseveralchallenges:limitedtask-dependenttrailingdata(~20hours),multiplemilitarvrnoiseenvironmentsitibothtrainingandtesting.UDsegmentedaudiostreamsaswellasalimitedamountofspeechpertasksessionforrecognizeradaptation.InNovembeiof2000(SPINE-1)andNovember2001(SPIKES')theNavalResearchLaboratory7(NRL)evaluatedsystemsonthetaskwithsupp-ortbyDAKPA.Pairicipatrngsitesinthe2001evaluationincluded:SRI:EBM,University7ofWasiiington:UniversityofColorado(CU):AT&T,theOregonGraduateInstitute(OGI):MississippiState,ATR,andCarnegieMellonUniversity(C'MU).SianyofthesesiteshavepreviouslyreportedresultsonSPINE-1[2-4]andSPINE-2tasks[5-8].Thebestperformingswtemsonthattasku^edadaptationineitherthefearureofmodel・domamandalsoincludedtheuseofmultipleparallelspeechfecognizeistrainedfromseveralfeaturetyp<es(e.g.?MFCC:PLP,rootcepstrum).Outputfromeachrecognizerisgenerallycombinedthroughah^othesisfiisionmethodtoproduceasingl£outputthatislowerthanth£enorratesofanysinglerecognizer(e.g.?se«[5,6]).TheUniversityofColoiadoparticipatedinbothSPINE-1[4]BudSPINE-2evaluations.OurNaveniber2001systemwa&foithefirsttimebasedontheUniversityofColoradospeechrecognizernamedSome[9].Duringthatevaluationoursinglebestlecognizeioutputhadanofficialerrorrateof37.5%atadecodingspeedof9timesreal-rime.Inthispaper,wedescriberecentimprovementsbothmtennsofgenerallecogxiizerdevelopmentandtask-dependentmodeling.Wefocusonissu亡£relatedtoloweringtheerrorrateofoursingle-bestrecognizerfieldedontheSPINEtaskanddonotconsidertheissueofrecognizerfiisioninthiswork.THESPINETASKTheSPINEtaskusestheARCONComniimicabiliWExercise(ACE)thatwasoriginallydevelopedtotestconmiuiiicaticinsystems[10]andconsistsofcollaborationbetweenapairoftalkerswhoparticipatemabattleshipsimulation.OneparticipantplaystheroleofaFiringOfficer(e.g.^controllingweapon5>vstem^suchasalasercannonandmines)whiletheotherparticipantpbystheroleofaSearchOfficer(e.g..mamiingtheradarandsonarequipment).Eachplayerissituatedina.separatedsoundisolatedroomandusemilitaryhandsetsandheadsetstharareappropriateforthesimulatedacousticconditions.Duringrheexercise,thetwoparticipantscollaboratetosearchanddestroytargetsbydeclaringandconfirminggridlocations(x-axis&y-ax:iscoordinares)tofireupon.ThegridlocationsinSPINE-1consistedofconfiisablewordsftomtheDiagnosticRhym亡Test(DRT).ForSPINE-2.thegridpointsconsistedoflessconftisablemilitmiywords.Foreachbooth,noiseindicativeoftypicalmilitaryenvironmentsisplayedtliiougliloudspeakers.TheSPINE-1evaluationdataconsideredsixnoiseetwironnients:aircraftcarriercontroldecisioncenter,AWACSairplane;amilitaryvehicle,amilitaryfieldshelter,anofficeenvironmentandaquietenviiomnent.SPINE-2extendsonSPINE-1databyconsideringthesixnoiseinadditiontomilirai>rtankandhelicoptereuvironmeDts.Theresultingnoisyspeechfromeachboorhisrecordedthroughhead-wornniicfophonesbeforebeingpassedthroughasimulatedconmiunicatioDSchannel.Inthispaperweconsideronlyspeechrecognitiononthenou-codedspeechchannel.THESONICASRENGESE3.LCurrentASRSystemArchitectureOurmostrecentfieldedevaluations^teminNovember2001(SPINE-2)wasdesignedusingSoni.c:TheUniversityofColoradolargevoca.bulai^rcontinuousspeechrecognitionsystem[9].SonicisbasedoncontinuousdimityhiddenMarkov(CDHMM)acousticmodels.Contextdependenttripboneacousticmodelsareclusteredusingdecisiontre^s.Eachmodelhasthreeemittingstateswithgammaprobabilitydensityfimetionsfordurationmodeling.Featuresareextracted曲12NfFCCs.energy;andthefirstandseconddiSerencesoftheseparameters,resultingmaieaturevectorofdimension39.Tliesearchnem-orkisareentrantstatictree-lexicon.Therecognizerimplementsatwo-passsearchstrategy.Thefirstpassconsistsofatime-s^Tichronous,beain-pronedViterbitoken-passingsearch.Crosswordacousticmodelsand3-gramor4-gramlanguagemodels(inanapproximateandefficientway)areappliedinthefirstpassofsearch.Thefirstpasscreatesalatticeofwordends.Duringthesecondpass,theresulringword-latticeisconvertedmtoaword-graph.Advancedlanguagemodels(e.g.dialog-actandconceptbased,longspan)canbeusedtorescorethewordgraphusinganA擀algorithmortocomputeword-posteriorprobabilitiestoprovideword-levelconfidencescores.Sonicprovidesanintegratedenviroiuneiitthatincorporatesvoiceactivitydetectio口(VAD):speechenliancementaswellasvariousfeatureandmodel-basedadaptationandDormalizationmethods.Therecognitionarcliitecnweprovidessupportforrapidportabilitytonewlanguages.In2002?Sonicwasport亡d&omEnglishtotheSpanish,'Turkish,andJapaneselanguages.GeneralRecentImprovementsOurSPINE-2systeminNov.2001representedominitialmiplementationoftheSonicspeechrecognizer.Thefieldedsystemusedaflatstnicturedlexicon,class-basedtrigramlanguagemodelconsistingofmanuallydeterminedwordcomponndEi.smglelegressioniterativeMLLRmeanandglobalvariancescalingtransform:andgeneralizedtriphoneacousticmodels.SinceNov2001.weincludedanefficientlexicaltreesearch,integratedadecisiontriphoneacousticmodeltraineraddedsupportfor斗-gramsintoourfirst-passsearch,miplementeddata・dni/£iLwordcompounding,andincorporatedadditionalfeaturenoimaJizarioii(cepstralvariancenomiahzation,VTL-N)andspeakeradaptation(MAPL-Radaptation)methods.SPINESYSTEMOVERATE科OurSPINEsystemconsistsofanovelinregratedspeechdetectionandmultiplepassrecognitionsearchasshowninFigure1.Duringeachrecognitionpass,avoiceactivity'detector(VAD)isd\Tiaffiicallyconstmcted&omtheaurenradaptedsystemacousticmodels.TheVADgeneratesasegmentationofthenoisyaudiomtoutteianceunitsandLVCSRisperfomiedoneachdetectedspeechregion.Theresultingoutput(aconiidencetaggedlatticeorwordstring)isthenusedtoadapttheacousticmodelmeansandvariancesinanunsupeni^edfashion.Theadaptedacousticmodelsarethenreappliedtoobtainanimprovedseginentation,recognitionh^othesi^,andnewsetofadaptedsj^stemparamerers.Theintegratedadaptationprocedurecanberepeatedseveraltimesresultinginsequentialmiprovementstobothsegmentationandrecognitionhypotheses.Figure1:DiagramofSPINEmulti-passrecognirionsearch.FortheSPINEtask:wehavefoundthattightcouplingbetweenthesegmentationandfecognirionsystemisessentialforrobustperformance.Furthermoreweillustratehowthisintegratedapproachleadstosimplermethodsforvoiceactivitydetectionfornoisyenvifonments.ThefollowingsectionsdescribeourcurrentswtemfortheSPINEtaskindetail.4・LTrainingDataAcousticandlanguagemodeltrainingdatafortheSPINE-2evaluationconsistedofconversationsthatwereusedforbothtrainingandtestinginrhepreviousSPINE-1evaluationandconversationsideslistedastrainingsnddevelopmenttestfortheSPINE-2evaluation.FortheSPINE-2evaluationweoptimizedourrecognizersettingsontheprovided1.1-hourdevelopmenttestdatabeforeiucarporatmgboththedataandrecognizeriugsmtoourfinals^tem.Table1sumniaiizesthetramuigdatausedinrheespeiimentsdescribedinthispaper.TrainingDataSourceNumberofUtterancesTotalHours仃alk-Time)SPINE-1train11.9738.7SPINE-1evat.12,0797.3SPINE-2train6,129加SPINE-2dev.1,9411.1Total32,12220.5Table1:SPESE-2evaluationsystemtrainingdata4J.AcousticModelTheacoustictrainerforSonicisbasedonsequentialestimationusingViterbiforcedalignmentandphoneticdecisiontreestateclustering[12].Alignmentswereinitiallyboot-strappedosmgWallStreetJournalacousticmodels.DuringViterbiforcedahgnmenrweusedssingleMLLRmeanandvariancetransfofinonrhegendei-dependentmodelstoimproverhealignnienrqualityforeachspeakersession.Afteralignment,themodelsareestimatedusingdecisiontreestateclostenngandtheprocedureisrepeatedtoobtainimprovedalignmentsandmodelparameterestimates.Ourfirst-passacousticmodelsconsistofgendei-dependenc(mthin-wordandcross-word)tnphone^osmgstandard39-dimeDsionalMFCCfeatnies.Oursecond-pass(adaptationpass)acousticmodelsarenormalizedbybothcqistralvarianceandvocaltractlength[13].LanguageModelFortheSPINE-2evaluationinNov.2001wedevelopedaclassN-gramlanguagemodeltrainedfromthe32kutterancessho\minTable1.Thisworkwasmotivatedbythefactthatthegrid-pointlabelswerechanged&omSPEME-1toSPINE-2andclasslanguagemodelsprovidedaconvenientmeansforcaprurmgthetaskspecificwordusagefortargetingobjectsinthebattlesMpgame.Ourclasslanguagemodelwasbasedon3wordclasses:row(x-axis),colunrn(\r-axis)?andname(username).WordsweregroupedintorowandcolumnclassesthroughmspechonoftherrainingdataforSPINE-2.Inthista^kthereareseveralwordsthatcanbemodeledasbelongingtomultipleclasses.Forexample,thespokenwordsinthespellingof"'VON"(readas"VictorOscarNancyjoverlapwithelementsoftherowgridaxisclass('Victor'and"Oscar"arepartoftherowclassinSPINE-2).Todealwiththeseambiguities,weutilizedasenii-automaredtaggingswtenioriginallydevelopedfortrainingclassN-grammodelsfortheDARPAC^oniniiMiicatortask.Thetasklanguagemodelalsocontainswordcompoundsforimprovedrecognition.OurlanguagemodelfieldedinNov.2001contained115compoundsdeterminedbymanualinspectionofthetrainingdata.InthispaperweconsideredimprovingtheexistingSPINElanguagemodelbyusingthedatadrivenmethodproposedin[14]fordetemiiuiugwordcompounds.Thismethodusesrhegeometricalaverageofthedirectandreverse-bigranstodeteniiinecandidatewordcompounds.Ourcurrentlanguagemodelusingdatadrivenwordcompoimdclusteringhasavocabularyof1664wordsandincludes180wordcompounds.AudioSegmeutfHiouOuraudioseginentarionmethodirerarivelyestimatessegmentboundariesbetw>eenadaprationpassesandusestheadaptedsystemacousticmodelsindecision-making.Thesegmenterconsistsofa2-stafe(speedi/non-speecli)hiddenMarkovmodelthatisd^TiamicallyconstnictedoneachASKadaptationpass.Aspeechstateisconstmctedbycombiningthetop4mixturecomponents(bymixtureweight)fromthecontext-independentspeechstatesofourdecisiontreeclusteredmodels.Asilencestateisconstructedfromallmixtuiecomponentsofnon亡tchcontext-independentstates(e.g.3breath,laughter,garbage^silence).TheresultingHMMstates(600mixturecomponentsforspeech,288mixturecomponentsforsilence)arenormalizedsuchthatthemixtureweightssumtoone.AViterbisearchisperformedovereachsessioniismgthe2-stateHMMmodel.Thespeech/silenceboundariesaredeterminedthroughback-traciiigthebestpartthroughrhenetwork.Tliesegmentationsareimprovedusing2heuristics:(i)speechsegmentsseparatedbylessthan0.25aremerged,(ii)speech^egment^thatarelessthan0.10secondsindurationaredeleted.Finally,allspeechsegmentsaredilatedby0.25secondstoavoidcutoffofweakfticativesandotherlow-energy7sounds.Wepointoutthatthisaudiosegmentationapproachavoidsthe口ecessityofminingseparatespeech'non-speechmodelsandalsoavoidsacousticmismatchbetweenVADandsystemacousticmodelsinsubsequentadaptationpasses.4丘.AcousticAdaptationIntheSPIKEtaskbothspeakerandenvironmentvariabilityarequitelarge.So,theadaptationofthespeechrecognizertobettermatchthetestconditioniscrucial.Tocopewhsuchvariabilitywehaveiinplemeutedseveralteclmiquesthatcanbeconsideredmtwobroadclasses:feature-basedandmodel-basedtechniques.Infeatuie-basedmethodstheobsei\rations,i.e.thefeaturevectorsinputtothespeechrecognizer,andinmodel-basedmethodstheparametersoftheacousticmodels;i.e.HMMmean^andvariances,aremodified.Examplesoffeatine-basednomiahzationarecepstralmeauisubtraction(CMS),vocaltractlengthnormalization(VTLN)andcepstralvariancenoimahzation.InCX1Sthelong-teniiaverageofcepstralfeaturevectorsisestimatedandsubtractedfromthecomputedcepstralfeaturevectors.InVTLN?thebestwarpingfactorisderernunedbylinesearchingoverarangeofvaluestomaximizethelikelihoodoftheadaptationdata,giventherecognizedtranscription.The^eprocessesarefollowedbyffeatmevariancenomiaJization.ThesemethodshavebeenappliedduringbotbtraininganddecodinginourSPINEsystem.Model-basedadaptationmethodscanbefiinhercategorizedintotwobroadclasses:directandindirect.Indirectadaptation,theHMMmodelparametersaredirectlyadapted.However^intheindirectmethodasetofsharedrransfonnationsarefirstestimaredandthenappliedtotherespectiveHMMmodels.Usuallythemaximum3posteriori(MAP)estiinarionisusedforthedirectmethodbyincorporating^omea.priori,knowledgetoovercomedatasparseness.Intheindirectmethodthetiansfomiationsareosuallyestimatedmtheniaximunilikelihood(ML)sense.Arecentworkin[15,16]untfiesbothmethodsmtheMAPsenseanddemonstratesimprovedperformance.Severalmodesofadaptationarepossible;supen-isedvs.,unsiipenisedandblockvs.mcremental.Intheunsupendsedcase,thetranscriptionisnotkncrwnandshouldbeestimatedmsomefomi;eitherasasinglebeststringorawordlattice.Inincrementaladaptationthemodelsareadaptedasenoughdata,becomesavailable,andthenewmodelsareu^edtod亡cod亡theincomingdata=which,inturn,isusedtoreadaptthemodels.Inblockadaptation,theadaptationisstartedafteralldataisavailable.Weconsiderseveraladaptationschemes:likelihoodlinear代gr亡昭ionChfLLR):mcreniental/block,(ii)singleclassmultipleclasE>:(iii)beststring/wordlatticehlax血wma Im旳i代g代mon(hlAPLR):(i)block(ii)be^tstring/wordlattice(iii)regressionclasstree.OurinitialSPINE-2systemusedasingleclass,blockMLLRmeanandvariancetfansfomiusingthebeststringiromthespeechrecognizertaggedwithconfidencescores(wordposteriorprobabilities)derivedfromawordgraph.DespitesomeimprovementmtheHub-5task,extendingfromasingleregressionclassto6classesdegradesperfbimanceintheSPINEtask.WebelievethiskduetothesmalleramountofadaptationdatainSPINEcomparedwithHub-5.Thismotivatedustoworkwithadynamic卞亡rsionofmultipleclassMAPadaptationusingregressionclasstrees.Inthenextsection,wereportperformancegainsobtainedwithmoresophisticatedadaptationtechniques.EK4LUATIONTheNovember2001SPINE-2evaluationdataconsistedof64talker-pairconversationstotaling3.5hoursofstereoaudio(2.8hoursoftalk-time).Onaverage,eachofthe128conversationsidescontains1.3minutes(78seconds)ofspeechacthiw.5.L..SegmentationAudiosegmentationwasevaluatedbymeasuringtheframeclassificationandworderrorratesforourbaselineSPINEsystemwhenautoinaricandhand-labeledspeechsegmentswereused.Ourbaselines^temusessingleregressionclas^MLLRmeananddiagonalcovariancetransform.ResultsareshowninTable1.Weseethatthevoiceactivitydetectionmethodhasaninitialframeclassificationrateof7.44%(Tablela).Afterthefirstadaptationpassthesegmenterproducesfewererrors(finalframeclassificationerrorrateof6.93%)andth£recognizerisbetterabletorejectsilenceregionsthathavebeenmisclassifiedasspeech(e.g.?thenumberofinsertedwordsdropsfrom172to108).Theworderrorratedifferencebetweenautomaticandhand-segmenteddataisnegligible(0.5%absolute).ProcessingStageAuiofnaticHand(a)(b)(C)(d)First*Pass7.44%17241.8%41.0%MLLR-16.95%10833.9%334%MLLR-26.93%11233.2%32.7%Table2:SegmentationperbrrnancesuniniarvrResultsareshounfor(a)speech-silencefemeclassificationerrorrate;(b)numberofinsertedwordsduringsilenceregions;(c)worderrorrateforautomatic$£ginentation;(d)worderrorrateforhand-labeledsegmentation.AVordErrorAualyshTable3summarizesworderrorrates(WER)acrossiterativeadaptationpassesandtotalreal-timeprocessingfactorsforseveralSPINE-2systemconfigurations.Iteration"(FjnTable3reierstofirst-passrecognition.Real-timefoctorsaremeasuredonasingleprocessor1.7GHzIntelPentium4andincludeprocessingtimeincurredthroughautomaticEegnientariou.Ourbaselinesystemwithoutadaptationwasfoundtohavea41.8%WERat1.8xreal-time.FurthermoreincrementalonlineadaptationbasedonlyonMLLR.meantransformationprovidesnearlya10%relativereductioninerrorwithamodestcostintermsofprocessingspeed.Iniact?basedonthegeneralmiprovemenrslistedmSection3.1.thus1-passincremenraladaptationgystemcomparesfavorablywithourmultiplepassNov.2001systemwhichhasa37.5%WEKatreal-time.Theuseofsingleregressioncla^sMLLRmeananddiagonalcovariancetransformsiteratedover2adaptationpassespiovidegaconsiderablereductioninerror(errordropsfrom41.8%to33.2%).However,asmanysitesreportedinboththe2000and2001workshops,increasingtomorethanonetransformgenerallydegradesswtemperformanceperhapsduetolackofsufficientadaptationdata.(33.8%WERcomparedwith33.2%WERinT^ible3d).Finally,theNIAPLRalgorithmusingthesiugle-bestword-posteriorprobabilityweightedoutputprovidesameasurablereductionitierrorcomparedtothebaselineofasingleregressionMLL-R.meanandvariancetransfonn.Further,thegeneralizationofthetechniquetooperateontheword-htticerepresentarionprovidesanadditionalgainof0.4%absolute.Howeve匚wepomroutthatthisimpro^remeiitconiesatahighercompotationalcost(e.g.?lfi.4xreal-timecomparedwith6.4x).SystemDescriptionWordEnrorRate(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论