




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
回顾5.5隐马尔科夫模型的各种结构类型5.6隐马尔科夫模型的一些实际问题第5章隐马尔科夫模型5.5隐马尔可夫模型的各种结构类型
按照HMM的状态转移概率矩阵(参数)分类各态历经型或遍历型HMM(ErgodicHMM)
:严格的讲,所谓的遍历模型就是经过有限步的转移后,系统能达到任何一个状态。即系统从一个状态允许转移到任何一个状态。在某些应用系统中,常遇到的是一步遍历模型,即经过一步跳转,系统可达到任何一个状态。这样的HMM的状态转移矩阵中的每一个元素均为大于零的数,没有零元素。显然,各态历经型HMM不符合时间顺序的要求,因为它可以回到以前到过的状态,所以只能用于不要求时间顺序的语音信号处理,如:与文本无关的说话人识别等。从左到右型HMM(Left-to-RightHMM):所谓的从左到右模型,就是指随着时间的增加,状态的转移只能是从左到右进行或停留在原来的状态,而不能出现返回到以前状态的情况,即从编号高的状态(如第状态)到编号低的状态(如第n-1或n-2等等状态)跳转的情况(这实际上是一个时序的问题,因为按照时间顺序,总是从编号低的状态向编号高的状态转移)。因此,其状态转移矩阵具有如下的形式,它是一个上三角矩阵,而表示终止状态的最后一行除了最后一个元素外全为零(当终止状态没有自转移时,则最后一行全为零)。另外从状态转移结构上HMM还有其他的一些变体,如由图5-5(c)所示的由两条并行的从左到右模型组成的HMM,又称为HMM网络。它不是一般的情况,是由标准模型组合的变体,用于特殊的应用场合。这种模型较复杂,所以性能一般要比单个左右模型要好。
按照HMM的输出概率分布(B参数)分类
离散HMM(DHMM):离散HMM就是上面一直在介绍的HMM。在这种HMM中,每一个状态的输出概率是按观察字符离散分布的,每一次转移时状态输出的字符,是从一个有限的离散字符集中按照一定的离散概率分布选出的。在语音信号处理中,经过特征分析后,语音信号先被分割成若干帧,每帧求取一个特征参数向量,即每帧是用一个特征参数向量表示的。此时若要使用离散HMM,则需要将语音特征参数向量的时间序列进行矢量量化,通过矢量量化使每一帧语音信号由特征参数向量表示转变为用码字符号表示的形式。
连续型HMM(ContinuousHMM,简称为CHMM):在连续HMM中,由于可以输出的是连续值,不是有限的,所以不能用矩阵表示输出概率,而要改用概率密度函数来表示。即用表示:在和之间观察矢量的输出概率。这里称为参数的概率密度分布函数,输出的概率可以通过计算出来。一般用高斯概率密度函数,由于是多维矢量所以要用多元高斯概率密度函数根据协方差矩阵是全协方差矩阵还是对角协方差矩阵,可以把连续HMM分成全协方差矩阵CHMM和对角协方差矩阵CHMM。另一方面,由于在实际的语音信号处理系统中,往往用一个高斯概率密度函数不足以表示语音参数的输出概率分布,所以一种常用于语音信号处理的概率密度函数,称之为“高斯元混合密度”,即用多个高斯概率分布的加权组合来表示输出概率密度函数。连续混合密度HMM为多个正态分布线性相加的HMM系统,当M值较大(如M为4或5)时,系统的识别率较高,但其运算量较大。另一方面,每个模型中每个状态的概率密度由M个正态分布函数叠加而成,它比前者有更多的自由度,因而逼近实际分布的效果更好一些,这样识别效果也会更佳,随着词汇量的增加,这一优点更加突出,因而,对一些大词汇量的与说话人无关的语音识别系统,连续混合密度HMM受到重视。半连续型HMM(Semi-ContinuousHMM:简称为SCHMM):离散HMM的模型参数少,对训练数据量要求不高,而且离散HMM的计算量较少,易于实时实现,但是离散HMM的缺点是识别精度不高。连续型HMM虽然不使用离散概率分布不需要对输入信号进行量化,从而提高了识别率,但这是以运算量的增加为代价的,而且连续型HMM尤其是连续混合密度HMM的模型参数教多,训练数据不够时训练的模型精度较低。为了结合这两种模型的优点,弥补这两种模型的缺点。人们提出了半连续型HMM,它的输出概率的形式如下式所示:这样,对于离散HMM,半连续型HMM用多个正态分布线性相加作为概率密度函数弥补了离散分布的误差;对于连续型HMM,半连续型HMM用多个各状态共有的正态分布线性相加作为概率密度函数弥补了参数数量多,计算量大的缺陷。
其他一些特殊的HMM的形式
空转移(NullTransitions):在这种类型的HMM中,系统的输出是与转移弧相联系的,允许不产生输出的转移,即从一个状态转移到其他状态时,无观察符号(或矢量)输出。这样的转移称为空转移。在连续语音识别系统中,单词或语句的HMM都是由基元HMM的连接形成的,一般在连接时,一个基元HMM的终止状态和一个基元HMM的初始状态相连接,这种连接产生的转移弧就是空转移,如图5-6所示。所以在大词汇连续语音识别系统中大量使用了这种模型。
基元HMM的连接
参数捆绑(Parametertieing):参数捆绑的基本思想是在HMM的不同状态转移弧的参数之间建立一定的关系,使得不同状态转移弧使用相同的参数,其目的就是使模型中的独立的状态参数减少,从而使得参数估计变得较为简单。参数捆绑是解决训练数据不足问题的重要方法,因为模型的参数越多,则需要的训练数据数量就越大,否则训练出的模型精度就不够。所以可以通过参数捆绑来降低模型参数数量,减少对训练数据量的压力。参数捆绑常用于两个或多个状态的输出观察向量的概率密度分布近似相同的情况,提取的语音特征参数可以认为在这些状态转移弧上符合相同的分布。实际上,在如图5-7所示的连续型HMM中,一个状态的自转移弧和互转移弧的参数必须进行参数捆绑,因为,对于一个训练参数的时间序列,实际上互转移弧上只通过了一帧的语音数据,而用一帧的语音数据估计正态分布概率密度函数是不可能的。
具有参数捆绑的连续型HMM
5.6隐马尔可夫模型的一些实际问题
下溢问题在计算HMM的三个问题时,需要计算前向变量和后向变量,他们是通过递归运算求得的,例如在Viterbi算法中,计算前向变量所用的递归公式如下:
在上式中,和项均为小于的1数(甚至远小于1),因此在实际运算中,较要小,随着t的增加,就有明显得降低,最后,该变量变得非常小,以致会超出计算动态范围的下限,即使采用双精度运算,当t相当大时,几乎所有的都趋向于0,后向变量的计算也有类似的情况,这就是计算中的下溢问题。因此,在进行相关计算时,必须加入定标过程。
参数的初始化问题
从理论上而言,基于标准ML(MaximumLikelihoodMethod,简称为ML法)判据的Baum-Welch前后向重估训练算法能够给出似然函数的局部最大点,一个关键的问题是如何恰当地选择HMM的初始参数,使局部最大值尽量的接近全局最优点。此外,好的初值选择还可以保证达到收敛所需的迭代次数最小,即计算效率较高。初始概率和状态转移系数矩阵的初值较易确定。由迭代算法可知,如果任何一个参数的初值定为0,那么以后的迭代运算中恒为零。因此,通常对这两组参数的初值设置为均匀分布之值或非零的随机数,据有关文献介绍,和的初值设置对识别率的影响不是太大。参数B的初值设置较其它两组参数的设置更至关重要也更困难。对离散型HMM等较简单的情况,B的设置较容易,可以采取均匀的或随机的设置每一字符出现的概率初值。在连续分布HMM的B中,包含的参数越多越复杂,则参数初值的设置对于迭代计算的结果越至关重要,一种较简单的B初值的设置方法是用手工对输入的语音进行状态划分并统计出相应的概率分布作为初值,这适合于较小的语音单位。对于较大的语音单位,目前普遍采用分段K-均值算法,该算法的基本思想和计算流程如图5-8所示。
用分段K-均值算法求模型的参数初值
提高HMM描述语音动态特性的能力为了保证HMM计算的有效性和训练的可实现性,基本的HMM模型本身隐含了以下三个假设:假设1:状态转移概率与观察序列无关,且时不变;假设2:状态观察概率密度函数与过去状态无关;假设3:状态观察概率密度函数与过去观察无关。由于语音是发音系统连续变化所产生的,具有很强的相关性,以上基本HMM的假设无疑是不合理的。因此,虽然隐马尔可夫模型是现在最流行的语音识别模型,然而基本型的HMM采用状态输出独立假设是它的一个固有的缺陷。它影响了HMM描述语音信号时间上帧间相关动态特性的能力。
为了弥补这一缺陷,最早人们采用的方法是在利用语音静态参数的同时,增加如下式(5-63)所示的语音的动态特性参数,即以时刻t(帧)为中心,(帧)为幅度的线性回归系数:然而这些扩展都没有从根本上解决HMM假设的不合理性,因而其对识别性能的改进也必然是有限的。因此,基于语音段的统计建模方法正是在此基础上于八十年代末、九十年代初应运而生了,提出许多方法,如使用线性或非线性预测器法、利用多项式回归函数法、利用条件概率HMM的方法和复数帧段输入HMM方法等。
利用语音帧间相关信息最直接最简便的方法,是采用相继的复数帧组成的特征参数矢量作为输入特征量的方法。这种方法最初是由井手等人提出,Ostendorf等人把这一方法推广到了连续语音识别系统。利用这一设想,可以较好地改善传统输出独立HMM的缺陷,是一种有效而简便的利用帧间相关信息的方法。HMM训练方法的改进
现在作为HMM的模型的代表性训练方法是被称为Baum-Welch算法的最大似然推定法(ML法)。这种方法是以学习样本生成的似然函数值最大为学习准则,而没有考虑各学习类别之间的关系,所以不能保证用ML法训练的模型产生的识别误差率为最小,即模型间鉴别力最大。针对HMM的模型的训练方法的问题,提出了许多改进的训练方法。其中,基于最小分类误差基准的学习方法(MinimumClassificationErrorMethod,以下简称MCE法)效果较好。
直接利用状态持续时间分布概率的HMM系统
由Viterbi算法以及上面介绍的k-均值HMM训练法可以知道,实际上语音信号中各个稳定段是与相应的HMM状态相对应的。然而在标准HMM中,观察符号(矢量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国道跨河流大桥危桥改造工程实施性施工组织设计
- 2025年税务师的考题变化趋势研究试题及答案
- 2025年山东潍城区十笏园文化投资有限公司招聘笔试参考题库附带答案详解
- 2025年鄂尔多斯金港湾国际赛车城发展公司招聘笔试参考题库含答案解析
- 2025年江苏东海城市建设投资发展有限公司招聘笔试参考题库含答案解析
- 2025年山西吕梁市中阳张子山煤业有限公司招聘笔试参考题库含答案解析
- 2025年江西赣州市坤巽古建设计院有限公司招聘笔试参考题库含答案解析
- 教师资格笔试实践心得试题及答案
- 理性分析信息系统项目管理师考试学习质量标准试题及答案
- 有关中暑的试题及答案
- 皮肤科玫瑰痤疮的临床表现和诊断学习培训课件
- 高考日语复习:日语形容词用法专项课件
- 马克思主义与社会科学方法论概述(课件)
- 城市道路养护技术规程
- 新生儿发热护理查房课件
- 第四节土石坝的稳定分析
- 2023年国家药监局直属单位公开招聘笔试参考题库(共500题)答案详解版
- JGT116-2012 聚碳酸酯(PC)中空板
- 重症血液净化血管通路的建立与应用中国专家共识(2023版)
- 公司差旅费报销单
- 《第三节祖国的宝岛-台湾》教学设计(安徽省市级优课)-八年级地理教案
评论
0/150
提交评论