《模式识别原理与应用》课件第12章_第1页
《模式识别原理与应用》课件第12章_第2页
《模式识别原理与应用》课件第12章_第3页
《模式识别原理与应用》课件第12章_第4页
《模式识别原理与应用》课件第12章_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第12章语音识别12.1

语音识别的基本原理12.2

说话人识别12.3

语种识别12.4关键词识别12.5连续语音识别习题12.1语音识别的基本原理本节主要讨论语音识别的基本原理,包括系统结构、特征提取和分类模型。12.1.1语音识别系统的结构典型语音识别系统结构框图如图12-1所示,一个完整的语音识别系统包括预处理、特征提取、模型建立、模式匹配和判决规则等5个部分。图12-1语音识别系统结构框图语音识别是属于人工智能领域中的一项技术,本质上讲,语音识别技术是一个语音信号模式识别问题,它由训练(或注册,Training)和识别(或测试,Testing)两个阶段完成。从训练语音中提取语音特征、建立参考模型并储存的过程称为训练阶段;从待识别语音中提取语音特征,依据参考模型进行比较和判决的过程称为识别阶段。12.1.2语音信号的预处理

由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dB/倍频程跌落,为此要在预处理中进行预加重。预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。一般用具有6dB/倍频程的提升高频特性的预加重数字滤波器实现,它一般是一阶的FIR滤波器,即(12-1)式中,μ值接近于1,典型值为0.94。语音信号是非平稳过程、时变的,但由于人的发音器官的运动速度较慢,因此可以认为语音信号是局部平稳的,或短时平稳的。语音信号分析常通过分段或分帧来进行,一般每秒的帧数约为33~100,分帧既可用连续的方法,也可用交叠的方法,在语音信号中常用“短时分析”表述。短时分析实质上是用一个窗截取信号,如果采用矩形窗,则其高频部分的吉布斯(Gibbs)效应必将影响语音信号的高频部分,一般用高频分量幅度较小的窗形,以避免这些影响。例如,汉明(Hamming)窗的带宽是矩形窗的两倍,但带外衰减却比矩形窗大得多。12.1.3语音识别的特征提取语音识别系统中的特征提取即提取出适合分类的某些信息特征(如说话人,或语言特征,或关键词特征),此特征应能有效地区分不同的模式,而且对同种方式的变化保持相对稳定。了由于说话内容的语义特征、说话人的个性特征和语言特征总是交织在一起的,目前还没有找到将三者很好地分离的方法。尽管如此,语音信号的特征参数仍从不同侧面反映出说话人的个性、语言特性和语义特性,仍是语音识别特征的重要来源。考虑到特征的可量化性、训练样本的数量和系统性能的评价问题,目前的语音识别系统主要依靠较低层次的声学特征进行识别。语音识别特征大体可归为3类:

(1)线性预测系数及其派生参数,如线性预测系数(LPC)、线谱对系数、线性预测倒谱系数(LPCC)及其组合等参数。(2)由语音频谱直接导出的参数,如基音(Pitch)及其轮廓、美尔频率倒谱系数(MFCC)、感知线性预测(PLP)参数、口音敏感倒谱系数(ASCC)。

(3)混合参数。混合参数是由上述不同的参数组成的矢量。下面简要介绍几种常用的参数。

1.基音周期

基音周期是指发浊音时声带振动所引起的准周期运动的时间间隔,是声带振动频率F0的倒数。基音周期的检测方法大致可分为三类:

(1)时域估计法,即直接由语音波形来估计基音周期,如自相关法、平均幅度差法(AMDF)等。

(2)变换域法,将语音信号变换到频域或倒谱域来估计基音周期,如倒谱法等。

(3)混合法,即先将信号提取声道模型参数,然后利用它对信号进行逆滤波,得到音源序列,最后再利用自相关法或AMDF求得基音周期。(12-2)式(12-2)把语音信号s(n)建模成为一个P阶的AR过程。对于浊音段,此系统受准周期冲激串激励;对于清音段,该系统则受随机噪声序列激励。此模型的参数有浊音/清音判决、浊音语音的基音周期、增益常数G及数字滤波器参数αk。利用该传输函数可得到语音信号s(n)合成的差分方程:(12-3)从式(12-3)可以看出,s(n)是前P个语音信号采样值s(n-1),s(n-2),…,s(n-P)的线性组合,因此该语音产生模型通常被称为线性预测(LP)模型或自回归(AR)模型。αk(k=1,…,P)为线性预测系数,是从语音信号中提取出来的。声道形状在时间上是变化的,所以预测系数也是时变的。根据语音信号的短时平稳性,可以认为语音在每一个分析帧(10~30ms)上是非时变的,从而计算得到一组预测系数。计算预测器系数的常用方法为自相关法,它的思想是使预测误差e(n)的均方值最小。e(n)定义如下:(12-4)其中:α0=1;称做s(n)的预测值或估计值。算αk的准则是使E[e2(n)]极小,故令得到一个线性方程组:(12-5)其中(12-6)称为语音短时自相关系数,N为语音帧的样点数,P为预测器阶数。用德宾(Durbin)算法解方程式(12-5),可得αk(k=1,…,P)。

3.线性预测倒谱系数(LPCC)同态信号处理就是将非线性问题转化为线性问题来进行处理的一种方法。对语音信号产生过程建模成一个激励信号通过时变系统的过程,即一个卷积的过程,卷积作为一个非线性问题可使用同态处理来解决。

LPC系数可以用来估计语音信号的倒谱,这也是语音信号短时倒谱分析中一种特殊的处理方法。式(12-2)的声道模型的传输函数H(z),其冲激响应为h(n),首先求序列h(n)的倒谱。因为H(z)是最小相位的,所以可以求出和αk之间的递推关系为(12-7)由式(12-7)可以直接从预测系数αk推得倒谱,由于这个倒谱是从线性预测系数得到的,因此又称之为LPC倒谱(LPCC)。由于LPCC利用了线性预测中声道传输函数H(z)的最小相位特性,因此避免了一般同态处理中求复对数而带来的相位卷绕的问题。

4.美尔频率倒谱系数(MFCC)

MFCC不同于LPCC,它是在频谱上采用滤波器组的方法计算出来的,这组滤波器在频率的美尔(Mel)坐标上是等带宽的。这是因为人类在对1000Hz以下的声音频率范围的感知遵循近似线性关系,对1000Hz以上的声音频率范围的感知不遵循线性关系,而是遵循在对数频率坐标上的近似线性关系。美尔刻度与频率的关系如图12-2所示。美尔刻度与频率的关系式为(12-8)图12-2美尔刻度与频率的关系

MFCC正是基于这个现象提出的,它的计算过程如图12-3所示。语音信号在经过加窗处理后变为短时信号,用FFT计算它的能量谱之后,通过一个具有40个滤波器的滤波器组,前13个滤波器在1000Hz以下是线性划分的,后27个滤波器在1000Hz以上是在美尔坐标上线性划分的。如果表示第k个滤波器的输出能量,则美尔频率倒谱CMel(n)在美尔刻度谱上可以采用修改的离散余弦变换(DCT)求得,其中,P为MFCC参数的阶数。(12-9)图12-3MFCC计算过程

5.差分参数通常语音信号的动态参数能较好地反映语音信号的时变特征,因此在获得每帧信号的特征参数后,还要计算相应的差分参数。假设当前所获得的特征倒谱参数是P维,那么一阶差分特征的计算如式(12-10)所示:(i=1,2,…,P)(12-10)其中:dCep表示动态特征;Cep表示倒谱;K是求差分的帧的范围;α为因子,用来换算这些特征。式(12-10)也可写成(12-11)类似地,二阶差分特征可由下式获得(12-12)12.1.4语音识别的模型建立

模型建立是指在训练阶段用合适的模型来表征这些特征参数,使得模型能够代表该语言的语音特性。对模型的选择主要应从语音的类型、所期望的性能、训练和更新的难易程度以及计算量和存储量等方面综合考虑。当前有多种模型可供选择,一般可分为以下四类。

(1)模板匹配模型。从每种模式的训练语句中提取相应的特征矢量,这些特征矢量称为模板。识别时,从语音信号中按同样的处理法提取测试模板,并且与其相应的参考模板相比较。模板匹配模型的不足之处在于不能全面地反映样本分布及统计特性,适应性较差。典型模板匹配模型有最近邻(NearestNeighbor,NN)模型、动态时间规整(DynamicTimeWarping,DTW)模型和矢量量化(VectorQuantization,VQ)模型。

(2)概率统计生成模型(又称参数模型)。语音信号具有短时平稳性,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析,可以利用均值、方差等统计量和概率密度函数进行分类判决。概率统计生成模型采用某种概率密度函数来描述语音特征在特征空间的分布情况,并以该概率密度函数的一组参数作为语音模型。概率统计生成模型由于考虑了语音的统计特性,能较全面地反映语音的统计信息,其优点是不用对特征参量在时域上进行规整。典型的概率统计生成模型有隐马尔可夫模型(HiddenMarkovModel,HMM)和高斯混合模型(GaussianMixtureModel,GMM)。

(3)神经网络(ANN)模型。人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的稳健性,其性能近似理想的分类器。其缺点是训练时间长,动态时间规整能力弱。目前常用的神经网络有多层感知器(MLP)、径向基函数(RBF)网络、自组织映射(SOM)网络和支持向量机(SVM)网络等。

(4)融合模型。把以上分类方法与不同特征进行有机组合可显著提高语音识别的性能。下面简要介绍动态时间规整模型、矢量量化模型、隐马尔可夫模型和高斯混合模型。

1.动态时间规整(DTW)模型由于语速、语调、重音和韵律的变化,语音信息存在时变因素,从而使得测试模板和参考模板在时间尺度上可能不完全一致。因此,需要将识别模板与参考模板进行时间对齐,按照某种距离测度计算两模板间的相似程度。模板序列与输入序列不均匀匹配得分z定义为(12-13)其中,模板标记j(i)是由基于最近邻原则的动态时间规整法(DTW)给出的。DTW算法使z最小化,将两个信号进行时间上的对齐。在时间对齐后,最终的距离和是匹配得分的基础。

2.矢量量化(VQ)模型矢量量化最早用于数据压缩编码,后来很多研究人员将其用于语音识别。一般采用LBG算法把训练数据进行聚类生成码本,即参考模板的集合。识别时,对输入矢量进行矢量量化,以量化产生的失真度作为判决标准。L帧测试语音矢量(x1,x2,…,xL)的匹配得分为(12-14)其中,C是参考模板的集合。

VQ模型不需要对时间进行对齐,具有复杂度低、精度较高以及判断速度快的优点。

3.隐马尔可夫模型(HMM)隐马尔可夫模型把语音建模成由可观察到的符号序列组成的随机过程,符号序列是发声系统状态序列的输出。HMM为有限状态的随机过程,从状态si到状态sj的转移概率为aij=p(sj|si);对应于状态si,语音特征x(随机向量)的概率密度函数为p(x|si)。由给定模型M产生具有L帧语音特征向量(连续)x1,x2,…,xL的似然值为(12-15)其中,S={1,2,…,Q}表示所有可能状态的集合。对于离散的语音特征向量,上式中的p(x1,x2,…,xL|M)和p(xi|si)为相应的概率。在使用HMM识别时,为每个说话人(或音节、音素)建立发声模型,通过训练得到状态转移概率矩阵和语音特征向量的概率密度矩阵(或概率矩阵)。识别时计算未知语音在状态转移过程中的最大似然值或概率,根据最大似然值或概率的模型进行判决。

HMM模型广泛用于说话人识别、语言辨识、关键词检出和连续语音识别中,具有良好的性能。此外,HMM模型不需要时间规整,可节约判决时的计算时间和存储量。不过,HMM模型训练的计算量较大。

4.高斯混合模型(GMM)高斯混合模型本质上是一种多维概率密度函数,可以用来表示语音特征矢量的分布。一个具有M个混合数的D维GMM,其概率密度函数用M个高斯分量的加权和来表示,即(12-16)其中:x是一个D维的观测矢量;wi(i=1,2,…,M)为混合权值,满足为D维高斯密度函数,即(12-17)其中:μi为均值矢量;Σi为协方差矩阵;D是参数的维数,例如,取LPCC参数17维,或取参数组合后的维数。高斯混合模型可由各均值矢量、协方差矩阵及混合权值来描述,可表示为三元式λ={wi,μi,Σi},i=1,2,…,M。在GMM模型中,首先对特征矢量进行聚类,把每一类看做是一个多维高斯分布函数;然后,求出每一类的均值、协方差矩阵和出现的概率,得到每种模式的训练模板;最后,将观测序列代入每个模板,对应于最大的后验概率的模板为所识别的对象。12.1.5语音识别的判决准则

在识别阶段,用训练阶段建立的语音模型对测试语音的特征参数进行某种形式的模式匹配,从而得出相似性得分,并依据特定的规则给出最终的识别结果。对于模板匹配模型,比较J个模板和测试语音x的距离,距离最近的模板种类则判决为该测试语音的语言种类,即(12-18)其中,为第j种语言的模板。对于概率生成模型,判决规则为J个模型中的哪个模型对x产生的后验概率最大,就判决测试语音x属于哪种模型,即(12-19)其中,λj为第j种概率生成模型。对于神经网络模型,判决时就是看属于哪一类的可能性最大。对于多类的分类问题,常常转化为多个两类分类问题的组合问题,而且两类问题往往更适于用判别模型来解决。12.2说话人识别12.2.1说话人识别的基本原理说话人识别的基本原理是利用说话人的语音为每一个说话人建立一个能够描述此说话人特点的模型,作为此说话人语音特征参数的标准模板,然后针对采样而来的语音信号进行比对,从而实现判别说话人身份的目的。根据说话人识别的目的和判决模式的不同,可将说话人识别分为说话人辨认和说话人确认。说话人辨认是指通过一段语音从已有的有限个说话人集合中分辨出说话人身份,是“多选一”的模式识别问题。说话人确认是指通过说话人的一段语音证实该说话人是否与他所声称的身份一致,系统只需给出接受或拒绝两种选择,是“一对一”的模式识别问题。进一步,若考虑待识别的说话人是否在注册的说话人集合内,则说话人辨认分为开集(Openset)辨认和闭集(Closeset)辨认。在多数情况中,用语音对说话人进行身份验证的都被归类为说话人确认。依据语音内容的不同,可将说话人识别分为文本相关(TextDependent)、文本无关(TextIndependent)和文本提示(TextPrompt)三种。文本相关的说话人识别是指规定语音内容,即注册和识别时说同样的话。文本无关的说话人识别是指不规定语音内容,即注册和识别时可以说任意的话,系统对发音内容没有先验知识。文本提示的说话人识别是指从有限的语音中提示用户说一段话,它可以归为与文本相关的说话人识别。说话人识别系统的典型结构框图如图12-4所示,其中,图12-4(a)为说话人辨认系统,图12-4(b)为说话人确认系统。说话人识别包括训练和识别两个阶段:

(1)在训练阶段,每个说话人重复一定次数的发音,然后分析每次发声的语音段,以提取特征,并利用某种模型算法,形成每个说话人的参考模板。其中,关键在于选取能够唯一表征人的有效而可靠的参量。

(2)在识别阶段,对语音信号进行特征分析,然后计算与参考模板的距离,选取产生最小值的结果输出。说话人确认系统则是计算待识特征与声明说话人模板的距离,并与设定的阈值比较,若高于阈值则拒绝判决,低于阈值则接受判决。其中,关键在于如何规定相似性的测度,使相似性计算简单、可靠;并能考虑到人在不断变化的情况,使系统可靠工作。图12-4说话人识别系统的结构框图(a)说话人辨认;(b)说话人确认图12-4说话人识别系统的结构框图(a)说话人辨认;(b)说话人确认12.2.2说话人识别系统举例

1.说话人辨认说话人辨认实验集合中共有30个说话人,每个人分别录制5分钟左右的电话录音,由于是与文本无关的实验,因此录制的语音内容任意。录制时采用8kHz采样,16bit量化,然后存成语音文件。每个人取大约30s的语音用作训练,其余的用于测试。语音经过预加重后,通过加窗得到语音帧,加窗选用256点的汉明窗,帧移为10ms,去除静音帧。每帧语音提取12阶LPCC特征参数。说话人辨认系统的性能可以直接用错误率EID或正确率CID来表示:(12-20)(12-21)这里,ntot、nerr和ncor分别表示总测试数、错误数和正确数。训练时,将每两个人的训练语音用SVM进行训练,并将训练结果即支持向量SV作为这两个人的模型存储下来。在说话人辨认的测试阶段,需要对测试语音进行与训练语音同样的处理,提取语音特征参数,再用训练后的模型按照判决规则的两种方法之一进行判决,最终输出辨认结果。说话人测试语音为集合中30个人的非训练语音的任意3s左右长度的有效语音,进行说话人辨认实验,正确率为91.4%。

2.说话人确认

说话人确认实际上是检测问题,其性能通常用漏警错误率Emiss和虚警错误率Efa来表征。漏警错误率是指当目标说话人存在时未能检测出的概率,虚警错误率是指当目标说话人不存在时错误检测出的概率。Emiss和Efa的计算式为实验语料库采用NIST说话人识别测试语料库,语音文件为电话信道下8kHz采样μ率压缩格式,选取20个目标说话人(10男10女),每个说话人有大约2min的训练语料。语音经过预加重后进行加窗处理,窗函数使用汉明窗,窗长为256个样本点。然后对每一帧提取12阶MFCC语音特征参数,帧移为10ms。用每个说话人的训练语音训练每个说话人的GMM模型,每个模型具有64个高斯混合成员。背景说话人模型的训练是通过对随机挑选的60个任意非目标说话人的语音训练的GMM模型,模型有2048个高斯混合成员。用SVM对每个目标说话人的训练语音和背景说话人模型进行训练,得到每个目标说话人的SVM模型。目标说话人的训练语音和背景说话人模型进行训练,得到每个目标说话人的SVM模型。这里采用等错误率(EER)来进行判决和评价,将漏警和虚警率结合起来成为一个单一数字,利用二者相等的点的判决阈值的进行说话人确认,得到等错误率为6.1%。12.3语种识别12.3.1语种识别的基本原理语种识别技术本质上是一个语音信号的模式识别问题,它由训练(或注册,Training)和识别(或测试,Testing)两个阶段完成。从各种语言的训练语音中提取特征,建立参考模型的过程称为训练阶段;从待识别语音中提取语言特征,依据参考模型对语音段的语言种类进行判断的过程称为识别阶段。语种识别系统结构如图12-5所示,一个完整的语言辨识系统包括预处理、特征提取、模型建立、模式匹配和判决规则等5个部分。图12-5语种识别系统结构类似于说话人识别,语种识别可分为闭集辨认和开集辨认。闭集辨认就是指待辨认语言的已注册,系统辨认该已注册说话人的语言种类。开集辨认是指待辨认语言不一定属于已注册的语言集合。语种识别系统把句子作为一个整体来处理,进而获得一种语言区别于其他语言的信息。语种识别所用的信息包括音韵信息、音素配位信息、韵律信息和语言信息。

(1)音韵信息。音素是音的最小单位,也就是语音的最小音段。对于不同的语言,音素的数量和种类存在差异。(2)音素配位信息。每种语言都有一种制约不同音素排列组合的规律,对于不同的语言,音素之间的排列组合方式的差别很大。

(3)韵律信息。对于不同的语言,时长特征、说话速率、基音轮廓(语调)和重音等有很大差异。

(4)语言信息。每种语言都有自己的词汇、自身的语法规则、句型模式。12.3.2语种识别系统举例本节介绍一种将音韵信息、韵律信息和音素配位信息三者结合起来进行语种识别的算法。该算法采用段级特征参数,对音素没有进行精确的识别,而是在自动分段的基础上利用高斯混合模型标识得到一组“伪音素”符号,从而将语音信号转化为符号序列,进而建立语言模型。算法流程如图12-6所示。图12-6算法流程示意图

1.GMM标识器

对于任一个特征矢量xt,其在第i个模型第j个高斯混元中的概率值pij(xt)描述了xt属于这个混元的概率。因此,xt在高斯混合模型λi下的伪音素标识sti可由下式得到:(12-24)在很多语言中元音和辅音具有十分不同的音素配位信息,为了得到更加合理的标识序列和更为精细的语言模型,可以考虑对元音段和辅音段分别建立GMM标识器,在元音段GMM标识器的输出标识前面加上符号“V”,在辅音段GMM标识器的输出标识前面加上符号“C”。具体实现框图如图12-7所示,其中自动分段算法采用前后向散度算法。图12-7基于自动分段的双GMM标识器

2.n元语言模型

设有一个符号序列S=(s1,s2,…,sN),其中si∈W,W为符号集合。根据Bayes法则,S出现的概率P(S)可分解成如下形式:(12-25)其中,P(si|s1,s2,…,si-1)是si紧跟在符号序列s1,s2,…,si-1后出现的概率。在实际应用中,通常假设S是一个n阶马尔可夫链,即si紧跟在序列s1,s2,…,si-1后出现的概率等同于它紧跟在其中n-1个符号之后出现的概率,如下式所示:(12-26)其中,n为固定值。根据上式统计得出的语言模型即称为n元(n-gram)语言模型。对于伪音素符号序列来说,由于符号集合M一般比较小,可以考虑使用四元甚至五元语言模型。的值可由序列在训练语料中出现的总次数与序列出现的总次数相比得到,即(12-27)其中,C(S)是序列S在训练语料中出现的总次数。

3.实验结果实验中用到的所有数据都来源于OGITS多语言电话语料库,语音信号经过8kHz采样,16bit量化。对英语、德语、日语、汉语、西班牙语五种语言进行识别,每种语言选取50个说话人的全部语音作为训练语音,每个说话人的训练文件长度约为60s。语料库中五种语言剩下的语音作为测试集,测试时所有语音均被划分为6s的语音段。实验中采用段级参数,语言模型的阶数取为四元,元音和辅音GMM标识器的混元个数取为相同,分别对64、128、256个混元的三种情况进行识别。实验结果如表12-1所示。12.4关键词识别

12.4.1关键词识别的基本原理关键词识别是连续语音识别的一个分支,因为关键词识别的任务是在连续的无限制的自然语音流中识别出给定的词,但它又不要求把整个的语音流全部识别出来;另外,关键词识别无法对发出自然语音流的发音人提出任何要求。因此,可以说关键词识别与连续语音识别有相同之处,但又有其独特之处。关键词识别系统由于其任务的特殊性,系统组成有其独特的结构。汉语关键词识别系统结构可用图12-8表示。图12-8关键词识别系统的一般结构如图12-8所示,音节边界估计和确认部分并不是必需的。音节边界估计首先对输入语音进行粗略分段,利用能量信息和音调信息大致分出音节边界。这种系统大多以音节为识别基元,而且系统的识别性能很大程度上取决于前端音节边界估计的结果。确认是指发音确认,其概念类似于说话人识别中的说话人确认,也是通过置信度计算决定是否拒识。因为关键词识别系统不需要识别出所有发音,除关键词以外的都称为填料或废料,所以大多数关键词识别系统的参考模板都采用关键词模板加填料模板的形式,其语法网络结构如图12-9所示。其中系统的操作点可以通过设置词间的转移权重wkn(1≤n≤N)和wfn(1≤n≤M)来调节。图12-9关键词加填料的语法网络结构图12.4.2关键词识别系统举例

1.关键词语音库系统的语音库是面向电话信道,对语音信号进行8kHz采样,8bit量化,采用词作为识别基元,检测任务为20个城市名(北京、上海、天津等)。由于在此系统中需要对非关键词、背景噪声和各关键词分别建立HMM,因而要求对训练语音中各部分进行进一步标识。对非关键词、背景噪声和各关键词分别建立标识文件。在训练时,根据这个标识文件即可很方便地取出相应的语音段进行相应的训练。

2.训练系统的具体实现

(1)特征提取。将得到的数字信号用1-0.95z-1进行预加重、分帧(帧长36ms,帧移12ms)和窗化(采用汉明窗),提取LPC倒谱系数作为特征矢量。为了使特征矢量更好地表征语音信号所携带的语义信息,选用LPCC及其一阶差分构成特征矢量。

(2)训练得到每个关键词的HMM参数:参数A(转移概率)和B(观察概率)。状态数N取12,采用无跳转从左至右的HMM模型,每状态的混合数M不固定,主要由该状态的持续时间决定,状态持续时间越长,混和数M就越多,反之M就越少(10≤M≤20)。至于状态持续时间概率和词持续时间概率,假定两者的概率分布是正态分布,可以根据K-均值分割算法第(2)步求得的最佳状态序列直接计算得到状态持续时间的均值和方差。

3.识别系统的具体实现

首先利用声卡对待检测语音进行8kHz采样,每样点8bit量化。然后,对其进行预处理,粗判语音信号起始点,若检测到有话部分,则对其进行特征提取,得到观察序列O。这几步与训练部分类似,在此不再重复。结合待检测语音的语法网络图,采用帧同步Viterbi解码算法使观察序列与参考模板序列按最佳方式进行匹配,并得到最终的检测结果。实验结果表明可以获得89.2%的平均检出率和8.5%的平均虚报率。12.5连续语音识别

12.5.1连续语音识别的基本原理目前主流的连续语音识别方法是基于统计模式识别的基本理论。连续语音识别系统是一个典型的模式识别系统。它的系统组成如图12-10所示,包括语音录入、特征提取、解码和搜索算法、音字转换等步骤,其中声学模型和语言模型在训练阶段完成。图12-10连续语音识别模型

1.声学模型声学模型是识别系统的底层模型。声学模型的设计和语言发音特点密切相关。首先要选择识别单元,通常单元有音素、音节和单词三种,具体选择哪一种,由具体任务决定。选择出识别单元后,识别单元通常用模型来表征,一般选择HMM模型来描述。

2.语言模型语言模型包括由识别语音命令构成的语法网络和由统计方法构成的语言模型。当前语言模型的研究更多地集中在统计语言模型上。它是用概率统计的方法来揭示语言单元内在的统计规律。常见的统计模型有N-gram模型。

N-gram模型基于如下假设:第n个词的出现只与前面n-1个词相关,而与其他任何词都不相关。因此,由w1,…,wn组成的句子的先验概率为(12-28)其中,P(wi|wi-n+1…wi-1)表示在给定历史信息wi-n+1…wi-1的条件下,选取词wi的概率。在实际应用中,只考虑零个、一个或两个历史信息,形成了Uigram模型P(wi)、Bigram模型P(wi|wi-1)和Trigram模型P(wi|wi-1,wi-2)。

3.音字转换

在中文语音识别中,音字转换就是将识别出的无调音节串转换成汉字。中文常用的字有6763个,而无调音节只有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论