语音信号处理第_第1页
语音信号处理第_第2页
语音信号处理第_第3页
语音信号处理第_第4页
语音信号处理第_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、9.5 9.5 连续语音识别连续语音识别系统系统9.6 9.6 连续连续语音识别系统的性能评测语音识别系统的性能评测9.6.1 9.6.1 连续语音识别系统的评测方法以及系统复连续语音识别系统的评测方法以及系统复杂性和识别能力的测度杂性和识别能力的测度9.6.2 9.6.2 综合评估连续语音识别系统时需要考虑综合评估连续语音识别系统时需要考虑的其他因素的其他因素 9.5 9.5 连续语音识别系统连续语音识别系统在连续语音识别系统中,一段语音信号(例如一个句子)在连续语音识别系统中,一段语音信号(例如一个句子)经特征提取后,得到一个特征矢量的时间序列经特征提取后,得到一个特征矢量的时间序列 ,假

2、设该特征矢量序列可能包含的一个词序列为假设该特征矢量序列可能包含的一个词序列为 ,那么连续语音识别的任务就是找到对应观测矢量序列那么连续语音识别的任务就是找到对应观测矢量序列 的最可能的词序列的最可能的词序列 。这个过程如果按照贝叶斯准则就。这个过程如果按照贝叶斯准则就是:是:上式表明,要找到最可能的词序列上式表明,要找到最可能的词序列 ,该词序列必须使,该词序列必须使P(W)P(W)与与P(A/W)P(A/W)的乘积达到最大。第一项的乘积达到最大。第一项P(W)P(W)是是W W独立于语独立于语音信号特征矢量的先验概率,由语言模型决定。音信号特征矢量的先验概率,由语言模型决定。P(A/W)P

3、(A/W)的的特征矢量序列特征矢量序列A A在给定在给定W W下的条件概率,由声学模型决定。下的条件概率,由声学模型决定。IaaaA,2112.nWw wwAWWWWPWAPAPWPWAPAWPW)()/(maxarg)()()/()/(maxargW在连续语音识别系统中利用语言模型的目的是找出符合句法在连续语音识别系统中利用语言模型的目的是找出符合句法约束的最佳单词序列,并且减少观测矢量序列约束的最佳单词序列,并且减少观测矢量序列 A A 和词序和词序列列 W W的匹配搜索范围,提高识别效率。的匹配搜索范围,提高识别效率。传统的连续语音识别方法中,语音识别处理和语言句法分析传统的连续语音识别

4、方法中,语音识别处理和语言句法分析过程一般都是采用阶层性的处理方式进行统合,即先用语音过程一般都是采用阶层性的处理方式进行统合,即先用语音的声学模型和输入信号进行匹配,求得一组候选单词串的声学模型和输入信号进行匹配,求得一组候选单词串(列),然后利用语音的语言模型找出符合句法约束的最佳(列),然后利用语音的语言模型找出符合句法约束的最佳单词序列。这种方法存在如下两方面的问题,语音处理和单词序列。这种方法存在如下两方面的问题,语音处理和语言处理相互之间不施加约束,必然增加许多不必要的中间语言处理相互之间不施加约束,必然增加许多不必要的中间结果,从而既增加计算量又增加误识别的可能;两个非紧结果,从

5、而既增加计算量又增加误识别的可能;两个非紧密结合的模块之间传递信息时,一般要产生信息丢失,因而密结合的模块之间传递信息时,一般要产生信息丢失,因而影响识别精度。影响识别精度。较好的方法应该是把句法分析的语言处理过程结合进语音识较好的方法应该是把句法分析的语言处理过程结合进语音识别过程中,实现帧同步的语音别过程中,实现帧同步的语音语言处理的统合。当然,这语言处理的统合。当然,这样实现起来就复杂的多,一般采用的方法往往是把声学模型样实现起来就复杂的多,一般采用的方法往往是把声学模型和语言模型结合在一个有限状态自动机的框架里进行处理。和语言模型结合在一个有限状态自动机的框架里进行处理。下面我们举例来

6、说明这种识别方法。下面我们举例来说明这种识别方法。W上面的计算过程对于输人观测矢量序列上面的计算过程对于输人观测矢量序列i=1,2,.,Ii=1,2,.,I以及有限状态自动以及有限状态自动机中全部状态反复进行后,最终识别结果的单词序列可以由下列算法从机中全部状态反复进行后,最终识别结果的单词序列可以由下列算法从语句最后一个单词开始顺序求得语句最后一个单词开始顺序求得(Back-Trace(Back-Trace方法,简称为回溯法方法,简称为回溯法) )。声学基元模型声学基元模型:识别模型的基元单位的选择对于识别性能影:识别模型的基元单位的选择对于识别性能影响很大。对于汉语而言可以采用韵母和声母作

7、为识别用基元响很大。对于汉语而言可以采用韵母和声母作为识别用基元模型。由于汉语中韵母和声母的长度不同,所以如果采用模型。由于汉语中韵母和声母的长度不同,所以如果采用HMMHMM作基元模型的话,可以采用两种不同长度构造的作基元模型的话,可以采用两种不同长度构造的HMMHMM。系统语言模型系统语言模型:一般来说,对于词汇量较大的连续语音识别一般来说,对于词汇量较大的连续语音识别系统,用系统,用CFGCFG、双词文法和三词文法建立语言模型的较多。、双词文法和三词文法建立语言模型的较多。假定用假定用CFGCFG来建立系统的语言模型,则能够描述连续语音识来建立系统的语言模型,则能够描述连续语音识别系统整

8、个被识别语句的别系统整个被识别语句的CFGCFG的非终端记号数、终端记号数的非终端记号数、终端记号数和改写规则数反映了语言模型的规模;而系统语言模型的复和改写规则数反映了语言模型的规模;而系统语言模型的复杂度(杂度(PerplexityPerplexity)则反映了该连续语音识别系统的语句识)则反映了该连续语音识别系统的语句识别难易程度。别难易程度。句法分析和单词的预测方法句法分析和单词的预测方法:为了说明句法分析和单词的预:为了说明句法分析和单词的预测方法,我们可以考虑图测方法,我们可以考虑图9-79-7中中“我要预约我要预约. .”部分句子以部分句子以及它的右侧单词预测过程及它的右侧单词预

9、测过程 根据以上的过程,从终端记号根据以上的过程,从终端记号numnum 、adjadj、pronpron、nounnoun可以预测出单可以预测出单 词词“二间、双人的、我、女同志、二间、双人的、我、女同志、 房间、停车场房间、停车场”。在上述的单词预。在上述的单词预 测和路径更新法中,可以通过限制测和路径更新法中,可以通过限制 路径长度,避免由于左递归规则路径长度,避免由于左递归规则 而引起的无限循环。而引起的无限循环。 9.6 9.6 连续语音识别系统的性能评测连续语音识别系统的性能评测 近年来语音识别尤其是连续语音识别的研究已取近年来语音识别尤其是连续语音识别的研究已取得了可喜的进步,正

10、向实用系统发展。在这样的系得了可喜的进步,正向实用系统发展。在这样的系统纷纷推出的时候,如何合理地评价和比较它们的统纷纷推出的时候,如何合理地评价和比较它们的性能,对于改进和完善现有系统设计,提高系统性性能,对于改进和完善现有系统设计,提高系统性能,便于优势互补,减少研究工作的重复性和盲目能,便于优势互补,减少研究工作的重复性和盲目性,适时地引导语音识别研究向着期望的目标发展,性,适时地引导语音识别研究向着期望的目标发展,都有着重要意义。都有着重要意义。 9.6.1 9.6.1 连续语音识别系统的评测方法以及系统复杂性和识别能力的连续语音识别系统的评测方法以及系统复杂性和识别能力的测度测度语音

11、识别系统的评价研究就是要研究一套公认的评价标准和科学语音识别系统的评价研究就是要研究一套公认的评价标准和科学合理的评测方法,来衡量、评定不同识别系统和不同处理方法之合理的评测方法,来衡量、评定不同识别系统和不同处理方法之间的优劣,预测在不同使用条件下的系统性能。间的优劣,预测在不同使用条件下的系统性能。然而不同的连续语音识别系统一般都是针对不同的识别任务,各然而不同的连续语音识别系统一般都是针对不同的识别任务,各自具有不同的任务单词库和任务语句库。和孤立字识别系统可以自具有不同的任务单词库和任务语句库。和孤立字识别系统可以采用共同的任务和词库进行评测相比,较难制定统一的评价标准采用共同的任务和

12、词库进行评测相比,较难制定统一的评价标准和方法。现在一些国家采用的方法主要有和标准的系统比较的方和方法。现在一些国家采用的方法主要有和标准的系统比较的方法、和人的知觉能力进行比较的方法以及使各系统适用于标准的法、和人的知觉能力进行比较的方法以及使各系统适用于标准的单词库后再进行比较的方法等。单词库后再进行比较的方法等。在这些评测比较中使用的标准系统的一般配置主要是:使用在这些评测比较中使用的标准系统的一般配置主要是:使用LPCMCCLPCMCC(LPCLPC美尔倒谱系数)或者美尔倒谱系数)或者MFCCMFCC特征参数、特征参数、Bi-GramBi-Gram语言模语言模型以及型以及2 2段段DP

13、DP匹配法(由基元模型联结得到最佳单词序列)等。系匹配法(由基元模型联结得到最佳单词序列)等。系统识别性能的评价测度主要有系统识别率、信息损失度、使系统统识别性能的评价测度主要有系统识别率、信息损失度、使系统的识别率和人的听取率相当而应附加给系统的噪声级别大小等。的识别率和人的听取率相当而应附加给系统的噪声级别大小等。 1. 1. 评价评价连续语音识别系统性能的系统识别率等测度连续语音识别系统性能的系统识别率等测度连续语音识别系统中一般采用音素、音节或单词的识别率来连续语音识别系统中一般采用音素、音节或单词的识别率来评测系统性能。这时除了有正确率的指标,错误率中还必须评测系统性能。这时除了有正

14、确率的指标,错误率中还必须考虑置换率、插入率和脱落率各占多少。一般常用的系统指考虑置换率、插入率和脱落率各占多少。一般常用的系统指标有如下所示的正确率(标有如下所示的正确率(Percent CorrectPercent Correct)、错误率和识)、错误率和识别精度(别精度(AccuracyAccuracy):以上的识别结果中的正确说、插入数、置换数和脱落数的求取,以上的识别结果中的正确说、插入数、置换数和脱落数的求取,可以采用目测的方法求得。也可以分别把识别结果和输入语句可以采用目测的方法求得。也可以分别把识别结果和输入语句用音素、音节或单词序列表示,然后通过用用音素、音节或单词序列表示,

15、然后通过用DPDP法对两虚列进行法对两虚列进行匹配求得。匹配求得。 2. 2. 评价系统识别任务复杂性的测度评价系统识别任务复杂性的测度在连续语音识别系统中不仅要考虑词库中的单词数,而且还在连续语音识别系统中不仅要考虑词库中的单词数,而且还要考虑系统识别任务中被识别语句的数量和难易程度。一般要考虑系统识别任务中被识别语句的数量和难易程度。一般来说,在连续语音识别系统中都是利用语言模型来描述系统来说,在连续语音识别系统中都是利用语言模型来描述系统识别任务的,在这种描述中系统受语法的限制越小则识别越识别任务的,在这种描述中系统受语法的限制越小则识别越困难,反之则越容易。因此在对系统进行比较评价时,

16、必须困难,反之则越容易。因此在对系统进行比较评价时,必须首先判断系统识别任务语句受语法约束的程度,既所谓系统首先判断系统识别任务语句受语法约束的程度,既所谓系统识别任务复杂度,然后在此基础上通过比较系统识别精度,识别任务复杂度,然后在此基础上通过比较系统识别精度,来评价系统识别算法的好坏。来评价系统识别算法的好坏。 表示在语言模型规定下的系统识别任务复杂性的测度主要有表示在语言模型规定下的系统识别任务复杂性的测度主要有系统静态分支度(系统静态分支度(Static Branching FactorStatic Branching Factor,简称为,简称为 )和平均输出数(和平均输出数(Fan

17、outFanout,简称为,简称为 )、系统识别任务的熵)、系统识别任务的熵(EntropyEntropy)和识别单位的分支度)和识别单位的分支度(Perplexity)(Perplexity)等。等。SFAF系统静态分支度和平均输出数系统静态分支度和平均输出数:为说明的方便,设语言为说明的方便,设语言L L是是由有限状态自动机描述的。由有限状态自动机描述的。 是状态是状态j j的出现概率、的出现概率、n(j)n(j)表示在状态表示在状态j j输出的识别单位语数(单词、音节或音素等)。输出的识别单位语数(单词、音节或音素等)。则系统静态分支度和平均输出数由下列式(则系统静态分支度和平均输出数由

18、下列式(9-269-26)和式()和式(9-9-2727)定义:)定义:当各状态的出现概率相等时系统静态分支度和平均输出数相当各状态的出现概率相等时系统静态分支度和平均输出数相等,并且系统静态分支度和平均输出数的值和描述的语言模等,并且系统静态分支度和平均输出数的值和描述的语言模型有关。系统的静态分支度和平均输出数的值越大,则系统型有关。系统的静态分支度和平均输出数的值越大,则系统识别复杂度越高。识别复杂度越高。 )( j系统识别任务的熵和识别单位的分支度系统识别任务的熵和识别单位的分支度: :设在由语言模型规设在由语言模型规定的语言定的语言L L中,中,S S、P(S)P(S)、K(S)K(

19、S)分别表示识别处理单位语的时分别表示识别处理单位语的时间序列、序列间序列、序列S S出现的概率和出现的概率和S S的长度(当的长度(当S= S= 时时K(S)=kK(S)=k),则语言),则语言L L中每一序列的平均信息量(熵:中每一序列的平均信息量(熵:EntropyEntropy)可用下列式定义:可用下列式定义:同时,语言的语句集中每一个识别处理单位的熵,可由如下同时,语言的语句集中每一个识别处理单位的熵,可由如下式表示:式表示:kwww,1)(log)()(2SPSPLHS)(log)()(1)(20SPSPSKLHS从而我们可以知道,因为语言从而我们可以知道,因为语言L L每一个处理

20、单位的熵是每一个处理单位的熵是 。所以,从前一个单位语预测后续单位语时,平均需要有所以,从前一个单位语预测后续单位语时,平均需要有 回的回的 的判断操作。也就是说,要从的判断操作。也就是说,要从 个出现概率相个出现概率相等的单位语中选择等的单位语中选择1 1个单位语。因此下列式被定义为系统任个单位语。因此下列式被定义为系统任务语言模型的分支度务语言模型的分支度(Perplexity)(Perplexity):因为这里的因为这里的 不依赖于识别处理的单位,而且和描述不依赖于识别处理的单位,而且和描述系统任务语句的语言模型的形式无关,因此比较适合用于比系统任务语句的语言模型的形式无关,因此比较适合

21、用于比较各系统任务的复杂程度。显然分支度越大则识别工作越困较各系统任务的复杂程度。显然分支度越大则识别工作越困难,反之这个值越小在识别时后续预测单词就越容易确定,难,反之这个值越小在识别时后续预测单词就越容易确定,有利于提高系统的识别率,所以系统分支度有利于提高系统的识别率,所以系统分支度 是一是一个评测系统的重要指标。个评测系统的重要指标。)(0LH)(0LHNoYes/)(02LH)(02)(LHpLF)(LFp)(LFp下面我们就不同的语言模型来考虑系统任务语句的熵和分支下面我们就不同的语言模型来考虑系统任务语句的熵和分支度的计算方法。设语言度的计算方法。设语言L L是由有限状态自动机规

22、定的。是由有限状态自动机规定的。 表示在状态表示在状态j j单位语单位语 的出现概率。则在状态的出现概率。则在状态j j的每一单位的每一单位语的熵由下列式定义:语的熵由下列式定义:语言语言L L中每一个单位语的熵由下列式定义:中每一个单位语的熵由下列式定义:)|(jwPwSjwPjwPjwH)|(log)|()|(20当语言当语言L L是由上下文无关文法是由上下文无关文法(CFG)(CFG)规定的时候,各语句的长规定的时候,各语句的长度分布可以由实际的抽样算出。则系统任务的熵以及分支度度分布可以由实际的抽样算出。则系统任务的熵以及分支度可由下列步骤求出。设可由下列步骤求出。设 和和 分别表示语

23、句长度为分别表示语句长度为k k的概的概率以及由语言率以及由语言L L生成的长度为生成的长度为k k的语句的总数。则有:的语句的总数。则有:同时语言同时语言L L的语句集中每一个识别处理单位的熵,可由如下的语句集中每一个识别处理单位的熵,可由如下式表示:式表示:kPkN当语言当语言L L是由双词文法(是由双词文法(Bi-GramBi-Gram)或三词文法()或三词文法(Tri-GramTri-Gram)规定的时候,则系统任务的熵以及分支度可由下列步骤求出:规定的时候,则系统任务的熵以及分支度可由下列步骤求出:一般来说对于某测试输入语句,分支度也可由如下方法直接一般来说对于某测试输入语句,分支度

24、也可由如下方法直接计算求得。假定系统的测试语句输入计算求得。假定系统的测试语句输入是是 ,则从单词(或音节、音素等)出,则从单词(或音节、音素等)出现概率的角度,测试分支度定义如下:现概率的角度,测试分支度定义如下:其中,其中,# #和和* *分别表示句头和句尾。分别表示句头和句尾。nwwwS.2, 111111213121),|(*1),|(1),|(1)|(1)|#(1(nnnnPwwPwwwPwwwPwwPwPF另外如果我们从单词预测的角度去考虑测试分支度,即假定另外如果我们从单词预测的角度去考虑测试分支度,即假定在部分单词序列在部分单词序列 后面被预测到的单词数是后面被预测到的单词数是

25、 (即分(即分支数),则测试分支度可由如下式定义,它是由各个时刻分支数),则测试分支度可由如下式定义,它是由各个时刻分支数几何乘积平均得到的。支数几何乘积平均得到的。我们可以利用上述方法求出每一测试输入语句的分支度,然我们可以利用上述方法求出每一测试输入语句的分支度,然后取平均值既得到测试语句集的分支度。后取平均值既得到测试语句集的分支度。12, 1.twwwicnnPcccF121).(9.6.2 9.6.2 综合评估连续语音识别系统时需要考虑的其他因素综合评估连续语音识别系统时需要考虑的其他因素连续语音识别系统的性能,最终是以识别率来评价的。但识连续语音识别系统的性能,最终是以识别率来评价

26、的。但识别率除了决定于识别算法等中心技术以外,还受到其他因素别率除了决定于识别算法等中心技术以外,还受到其他因素的影响,例如,识别对象中词汇量的多少,识别对象间声的影响,例如,识别对象中词汇量的多少,识别对象间声学特性的相似程度等。系统是针对特定话者还是多数话者学特性的相似程度等。系统是针对特定话者还是多数话者或者非特定话者的识别系统,即使是特定话者识别系统,也或者非特定话者的识别系统,即使是特定话者识别系统,也有容易识别的话者(有容易识别的话者(sheepsheep)和较难识别的话者()和较难识别的话者(goatgoat)之)之间的区别。间的区别。 系统是孤立发音(单词或音节单位)、词组系统

27、是孤立发音(单词或音节单位)、词组单位发音(例如汉语习惯上的发音停顿的位置)、还是连续单位发音(例如汉语习惯上的发音停顿的位置)、还是连续发音;是正规的朗读语音还是较自由的会话语音。发音;是正规的朗读语音还是较自由的会话语音。 发音发音环境的情况,是隔音室、安静的房间还是噪声环境。话筒环境的情况,是隔音室、安静的房间还是噪声环境。话筒的位置在什么地方,是否是位置自由的。语音的频带限制的位置在什么地方,是否是位置自由的。语音的频带限制等处理设备的电器效应,例如是否是电话语音带宽等。)等处理设备的电器效应,例如是否是电话语音带宽等。)其他方面,如通用性、经济性、鲁棒性、识别速度,是否能其他方面,如通用性、经济性、鲁棒性、识别速度,是否能够进行在线识别(够进行在线识别(On-LineOn-Line)、语言模型的覆盖率等。)、语言模型的覆盖率等。 另外特征参数、匹配时的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论