语音识别特征提取算法的研究及实现_图文_第1页
语音识别特征提取算法的研究及实现_图文_第2页
语音识别特征提取算法的研究及实现_图文_第3页
语音识别特征提取算法的研究及实现_图文_第4页
语音识别特征提取算法的研究及实现_图文_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、西北大学硕士学位论文语音识别特征提取算法的研究及实现姓名:惠博申请学位级别:硕士专业:计算机软件与理论指导教师:冯宏伟20080619摘要语音信号具有很强的时变特性,在较短的时间间隔中语音信号的特征可看作基本保持不变,这是语音信号处理的一个重要出发点。语音识别率的高低,也都取决于语音信号特征提取的准确性和鲁棒性。因此,语音信号特征提取在语音信号处理应用中具有举足轻重的地位。论文首先研究了语音识别的基本知识,主要包括语音识别的原理;语音信号处理的基本知识;各种语音识别和训练的方法。在此基础上本文完成的工作有:、着重研究了目前使用广泛的美尔频率倒谱系数()参数,以维参数为例,采用增减分量的方法分析

2、了高阶参数缺失对识别率的影响,找出了对噪音不敏感的高阶参数,在识别率变化不大的情况下对维参数进行了优化组合。、使用根据动态时间规整()模型实现了一个连接数字串语音识别系统,并进行了实验分析。系统的组成模块和语音识别系统的基本构成模型一致。在实现时选用了美尔频率系数()。、实验过程中发现了汉语数码易于混淆的问题,在模板训练方法和参考模板两方面做了改进,提出了使用多对特征矢量序列进行鲁棒性训练和进行声韵母分割来构造参考模板的方法。、最后本文研究了汉语连续语音识别中的声学建模方法,给出了识别汉语易混淆词的方法。本文通过对实际语音识别系统各个部分的实验和研究,为进一步开发实用性语音识别系统的工作做了基

3、础性的工作。关键词:语音识别端点检测美尔频率倒谱系数动态时间规整,:,:、,一,一、,()、,、,:,西北大学学位论文知识产权声明书本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论文收录到中国学位论文全文数据库或其它相关数据库。保密论文待解密后适用本声明。学位论文作者签名:鏖廛指导教师签名:妒年月日砌莎年石月驴日西北大学学位论文独

4、创性声明本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:。霪何砂心年么月日第一章绪论语音识别技术及其应用语音是人类交流信息最自然、最方便、最有效的手段。随着电子计算机技术的广泛应用,如何利用语言的这一特点让人简单、快速、准确、方便的使用计算机,使计算机能更好的为人类服务,成为人类努力追求的目标。“阿里巴巴与四十大盗”的

5、故事说明让机器能听懂人说话,执行人的口头指令,是人类古已有之的理想。语音识别简单的说,就是让计算机能听懂人说的话,并做出相应的反应。语音识别技术的研究广泛的涉及到声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科,因此一个识别效果良好的语音识别系统,需要考虑包括说话人的心理状态、输入设备、说话环境多方面的因素。语音识别的应用范围极为广泛,可应用于各行各业,如医疗卫生服务、语音拨号、智能玩具、智能家居、宾馆服务、军事监听、股票交易、翻译系统、汽车导航、信息网络查询、工业控制等等。语音识别广泛涉及声学、语言学、语音学、生理科学、数字信号处理、

6、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科,是一门新兴的交叉学科。语音识别系统就其不同要求可以分为一下几类:根据对说话人说话方式的要求,可以分为孤立词语音识别系统,连接词语音识别系统以及连续语音识别系统;根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统;根据词汇量的大小,可以分为小词汇量,中等词汇量,大词汇量以及无限词汇量语音识别系统。国内外语音识别技术的发展历史及其现状国内外语音识别技术的发展历程国外从上世纪年代初就开始研究语音识别技术,世界上最早能够识别语音的系统是年实验室开发的乜,还有年普林斯顿大学实验室开发的单音节词识别系统。早期的识别方法基本上都是用模拟电

7、路实现待测语音和参考语音的运算关系。年代以后,各种语音识别的研究才开始展开,实验室的研究成果是解决了语音在时间标尺上的非均匀问题。年,前苏联科学家首次将动态规划算法(,)应用于语音分析。年代语音识别开始快速发展,研究重心是孤立词语音识别。时间归整技术眠刀(册,)搭配基于线性预测编码(,)的谱系数提取,使得孤立词识别的效率大大提高,线性预测技术在语音识别领域从此得到广泛的应用,并且演化出多种线性预测参数形式和多种谱距离测度。比较有代表性的系统有:大学()的、的大词汇量自动语音听写系统和实验室用于通迅的与话者无关的语音识别系统。年代,语音识别研究进一步走向深入,连接词和大词汇量连续语音识别成为研究

8、热点,统计模型取代模板匹配的方法成为主流。隐马尔可夫模型(,)成为大词汇量连续语音识别系统的基础。结合矢量量化技术,于年开发了,这是世界上第一个非特定人大词汇量连续语音识别系统。能识别包括个词汇的个连续语句,在语言复杂度为且环境匹配时,识别率可以达到,经过多次改进,其识别率达到。年代,随着信号特征的提取和优化技术、声学模型的细化、自然语言理解领域中语言模型的建立和解码搜索算法技术的不断成熟,出现了比较成功的大词汇量、连续语音识别系统,比如的系列、的、的。我国的语音识别研究比国外晚一些。但是国家现今比较重视,国家智能计算机主题专家组为语音识别技术专门立项,专家组每一到两年举行一次全国性的语音识别

9、系统测试,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。目前,我国大词汇量连续语音识别系统的研究已接近国外最高水平。但从目前的市场应用范围来看,语音产品的实际应用还很狭窄,这说明语音技术产品还存在缺陷,达不到市场化、商品化的要求,在技术上还要有很多工作要做。语音识别技术发展现状近年来,在语音识别领域非常活跃的课题为鲁棒性语音识别、说话人自适应技术、大词汇量关键词识别算法、语音识别的可信度评测算法、基于类的语言模型和自适应语言模型以及深层次的自然语言的理解,研究的方向也越来越侧重于口语对话系统。目前说话人自适应技术的研究已经取得相当大的进步,出现了一些比

10、较成熟的技术,如声道归一化技术、最大似然线性回归算法(,)、贝叶斯()自适应估计算法。目前,针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟,已经能够满足通常应用的要求,并逐步投入了实用【。而非特定人、大词汇量、连续语音识别仍是目前阶段语音识别研究的重点和难点。语音识别面临的主要问题目前的语音识别还做不到使机器能如同人类一样能“听懂”或理解自然语言,像人与人之间的语言交流一样。主要原因是目前研究工作进展缓慢,主要技术理论没有突破。虽然各种新的修正方法不断出现,但其普遍性和实用性还存在问题。具体的来说有如下:、语音识别系统的鲁棒性差,对环境依赖严重;、语音识别系统的灵活性差,不能适应

11、人类灵活、自然的说话方式;、连续语音流中语音信号的声学特征随与之前后相连的语音的不同而有很大的变化,且各语音单位之间不存在明显的界线,语音切分很困难;、语音特征变化大。语音特征随发音人的不同、发音人生理或心理状态的变化而有很大的差异;、语音的模糊性,同音词大量而普遍存在;、对韵律信息的利用不足;韵律信息指的是说话之中的重音、语调等超音段信息;如何在语音识别中结合韵律信息还有待进一步的研究;、自然语言的多变性难以借助于一些基本语法规则进行描述,语法、语义规则定义困难。对于汉语语音识别来说除具有一般语音识别的特点外,还有其独特的方面,因为:、汉语字以单音节为单位,发音时间短,不像英语以多音节为主;

12、、汉语有大量的同音字;汉语由个左右的声母和韵母组成多个无调音节和多个有调音节,音节与音节之间相似性大、易混淆;、中国民族众多,不同地区之间发音变化很大,方言多;、汉语的字词不分使得词的切分成为汉语语言理解与处理独有和首要的问题;、灵活自由的语言表述难以用汉语语言知识表示方法来表达。本课题研究的背景及内容特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信

13、,语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。因此,语音信号特征提取在语音信号处理应用中具有举足轻重的地位。目前,语音识别技术中最流行的特征参数时基于声道模型和听觉机理的()和()参数,而在低频段具有较高的谱分辨率,对噪声的鲁棒性优于,更适合语音识别。但与人听觉系统非凡的感知能力比较,不管是还是参数,在不利的噪声环境下,其鲁棒性都会急剧下降。如何在特征提取过程中抽取保持语音信号最重要的特征参数,成为一个急需解决的问题。本课题从维参数出发,研究了高阶参数对语音识别系统的影响,找出了对噪音不敏感的高阶参数,在识别率变化不大的情况下并对维

14、参数进行了优化组合,在通用机上实现了一个连接数字串的语音识别系统。在实验中发现汉语易混淆数码的参数模板之间同样具有很强的相似性,因此我们在系统的改进中主要改进了易于混淆的参数模板,取得了较好的效果,最后指出了如何实现连续汉语语音识别系统的方法。本文通过对实际语音识别系统各个部分的实验和研究,为进一步开发实用性语音识别系统的工作做了基础性的工作。本文的内容结构论文结构安排如下:第一章简要介绍了语音识别技术及应用,发展现状,面临的问题,最后阐述了本论文的结构。第二章简要介绍了语音识别的基础,包括语音识别的原理和基本的语音识别系统的构成,语音的预处理,语音信号的特征提取。第三章主要介绍了典型的语音识

15、别及训练方法,包括动态时间弯折算法(),隐型马尔可夫模型()和人工神经网络()的原理等。第四章首先从语音信号预处理,特征提取及识别等环节介绍了语音识别系统的实现,对美尔频标倒谱系数()做了深入研究,然后分析了参数各分量对于识别率的贡献,在识别率变动不大的情况下,提出了一种优化的参数,最后在机上用完成一个连接数字串的语音识别系统。第五章就系统中存在的汉语数码易于混淆的问题给出了解决方法,指出了彻底解决易混淆汉语数码的方法。第六章对全文所做的工作进行了总结并提出了下一步研究的方向。第二章语音识别的基础一个典型的语音识别系统包括语音信号预处理,特征提取,模型的训练与识别等几个主要环节。语音信号的预处

16、理语音信号的采样和量化语音信号是一个时间和幅度都连续变化的一维模拟信号。而语音识别的过程是一个对语音信号进行数字处理的过程,在对语音信号处理之前,必须要对其进行数字化,这个过程就是模数()转化。模数转化过程要经过采样和量化两个过程,从而得到时间和幅度上的离散数字信号。根据奈奎斯特采样定律,采样频率应为原始信号频率的两倍以上,才能使采样过程中不会丢失信息,而且能从采样信号中准确的重构原始信号的波形。正常人的发音范围是从到左右,因此在实验中,本文对语音信号的采样频率均为。圈日圈日模拟信号采样语音信号的预加重量化数字信号图转换示意图由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,语音信号从嘴唇辐

17、射后,高频端大约在以上有倍频的衰减。因此,在对语音信号进行分析之前,一般要对语音信号加以提升(预加重)。预加重的目的是滤除低频干扰,尤其是或者的工频干扰,提升对语音识别有用的高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。语音信号的预加重一般在模数转化后进行,利用倍频的一阶数字预加重滤波器实现。其函数为:()其实现框图为:其中()为原始语音信号,()为预加重后的语音信号。为预加重滤波器的系数,取值范围一般在,本文取二()预加重前的波形()预加重后的波形()预加重前的频幅()预加重后的频幅图语音信号的预加重语音信号的加窗处理语音信号是一种非平稳信号,为了能对语音信号进行处理,我

18、们可以假定在之间语音信号是平稳的,语音频谱特性和语音特征参数恒定。因此需将语音信号划分为一个一个的短时段,每一个短时段称为一帧,为了从詈拉语音信号中切去出样本信号,就要用时间窗函数乘以原始语音信号,这种操作就称为加窗。在语音信号数字处理中常用的窗函数有矩形窗,汉宁窗和汉明窗。汉宁窗:()汉明窗:三一其他一,旦),二一。(各)对语音信号加窗的函数为:一其他其他一。()】(一聊)其中表示信号处理方法,()为语音帧序列,()为各个语音帧上的窗函数。窗函数的选择对语音信号的短时分析影响很大,窗函数越宽对信号的平滑作用越好,窗函数的主瓣宽度要窄,旁瓣要尽可能小,使能量尽量集中在主瓣中,以抑制频谱的泄露。

19、目前应用最为广泛的是汉明窗。仉厂,、氤臃矩弋语音信号的端点检测端点检测在语音识别中有着重要的作用。其目的是从语音信号中检测处语音信号段和噪音段,准确的端点检测不仅可以减少计算量,而且可以提高系统的识别率。目前端点检测的算法有很多,基于双门限比较法的端点检测,基于滑动窗口的语音端点检测算法豳等等。常用的端点检测是基于限比较法例的端点检测,就是根据语音信号的特征参数(能量和过零率)进行清音、噪音判别,从而完成端点检测的。下面做以介绍:语音信号的短时能量定义如下:【工(垅)(?)石()(刀一肌)】加卅一,一工(朋)()(刀)宰办(甩)其中()()为窗函数,为窗长。从能量上来说,浊音的能量大于清音的能

20、量,因此短时能量可以用来判断清音和浊音,进一步也可以进行有声和无声判断,连字分界等。语音信号的短时过零率定义如下:()()()其中是符号函数:()()、,、,():,一其他过零率间接反应了语音的频谱特性,它把语音信号分成了多个通道,因此可以用过零率对语音信号进行频谱分析。基于双门限比较法的端点检测,就是通过语音信号的短时能量和过零率来判断一段语音信号的端点。在检测的开始由于语音信号的能量会比较大,因此先设置一个较大的门限瓦用来确认语音已经开始,再取一个较低的门限正来确认语音真正的起点和终点,同时使用采用一个较低的过零率门限乃来判断语音间隔。以下是英文数码的端点检测运行结果:零雾爹篓霉爹擎震曩爹

21、雾霉篙鬟雾鬻霈褰霪?爹雾霉鬻锄:,知,扎”?:,“镰:,蟹,叱?峨,能”;一苷盘静?。二鞭。筠,、一一诤;,盛。刘。置:。燕呷。而狮删”:一“。卯;“?。:。瓷、一;。一。一一?一?誊,耄?鎏:霉一:,!秀,一“:。:”口誊,:。磊长“秘,。,。:?巍,。一。一;、“。?蚤毽,甏一。;。:蛩一:。二鼍一冬?,瓷。,?。一。一。:。“。;。一;?,“,。;壤。善,鬻一一“。毫;、。?砒,毫。鼍氇。:。,尊;二蕊。豫娃,”,!巍盛琵。邋图英文数码的端点检测结果语音信号特征参数的提取经过对语音信号的预处理之后就要进行特征参数的提取,在语音信号的特征提取中对特征参数的要求是:、能有效代表语音特征,具有

22、良好的区分性:、特征参数之间有良好的独立性;、特征参数易于计算,最好能保证语音识别的实时实现。一般将语音信号的特征参数分为两类:第一类为时域特征参数,通常是将一帧语音信号中的各个时域采样直接构成一个参数矢量;第二类为变化域特征参数,这种参数是将一帧语音信号进行某种变化后产生的参数矢量,目前常用的为频域特征参数。语音信号的时域特征参数语音信号的时域特征参数主要为短时过零率、短时能量和基因周期等。短时过零率和短时能量前面已经介绍过,它们是语音信号端点检测中的重要参数。基音周期也是语音信号中一个非常重要的参数,基音是指发浊音时声带振动的周期性,基音周期则是声带振动频率的倒数。由于基音周期只具有准周期

23、性,所以只能采用短时平均方法估计该周期,这个过程就称为基音周期检测。基音周期的检测方法大概可分为三类:、波形估计法,直接使用语音波形来估计基音周期,分析出波形上的周期峰值等。、相关处理法,先将信号提取声道模型参数,然后利用它对信号进行逆向滤波,得到音源序列,最后再利用自相关法求出基音周期。、变化域法,将语音信号变化到频域或者倒谱域来估计基音周期,虽然基音周期估计效果好,但这种方法的计算量较大而且复杂。语音信号的频域特征参数在语音信号的频域特征参数中,目前使用最为广泛的是线性预测倒谱系数()和美尔频率倒谱系数()。线性预测倒谱系数的主要思想是利用语音信号采样点之间的相关性,用过去的样点值来预测现

24、在或者未来的样点值,也就是一个语音信号的抽样能够用过去若干个语音抽样或者它们的线性组合来逼近。线性预测倒谱系数是线性预测系数在倒谱域中的表示。线性预测倒谱系数的求取过程如下图所示:语音图计算框图一般计算系数的公式如下:()(,)薯(一言)吒(刀一尼),刀咖)喜(一等)州加其中)为倒谱系数,口。为预测系数,为预测系数的阶数,为倒谱系数的阶数。使用倒谱可以提升参数的稳定性,而且能够主要反应声道响应,但是由于参数在频谱上是通过线性逼近得到的,因此不能很好的反应出入耳听觉特性,且包含了语音高频部分的噪音。美尔频率倒谱系数与线性预测系数不同,它是将人耳听觉感知特性与语音的产生相结合的一种特征参数。实验发

25、现人耳对不同频率的语音具有不同的感知能力,在以下,感知能力与频率成线性关系,在以上,感知能力与频率成对数关系。为了模拟这种人耳的感知特性,人们提出了频标的概念,意义为:为的音调感知程度的。具体关系定义为:,厶(蒜)其中丘为实际线性频率,厶为频标。参数计算过程如下:、对语音信号进行预处理,加窗分帧将其变为短时信号。、通过将短时时域信号转化为频域信号只(厂),并计算其短时能量谱只(国):(国)只(厂),(,)、在频标内三角带通滤波器(个)加于坐标得到滤波器组巩(尼),转化关系为:厶。()、计算能量谱尸(缈)经由此肌,滤波器组的输出,取帧计算的方法是:采集中心频率在以上和以下的各个:片州沪丢)蹦尼)

26、矧,凡一,二,、表示第七个滤波器,表示滤波器个数。其中以(尼)表示滤波器组,其中心频率从一采样频率间频率分布,中心频率为(),肌,其公式设计为:(尼),肋)一(肋面)七(),七()(一)厂(肼)黩厂(埘)七厂(肌)()一厂(聊)一、系数埘(,)在美尔刻度谱上可以采用离散的余弦变换(肋)求得。,、占,、万、(加似)(刀乩瑚(刀:肌)“、”一。,标准的倒谱参数只反映语音参数的静态特性,认为不同帧间的语音是不相关的,实际上由于发音的物理条件限制,不同帧间语音一定是相关的,变化是连续的,所以在识别参数中还使用一阶差分倒谱参数,其定义为:。(刀)寺善卜()、丕。尸。其中为常数,一般取,都表示一帧语音参数

27、,在实际使用中通常将参数和差分参数合并为一个向量,作为一帧语音信号的参数。综上所述,参数与参数相比,参数具有以下优点:、语音的信息大多集中在低频部分,而高频部分易受环境噪声干扰。参数将线性频标转化为频标,强调语音的低频信息,从而突出了有利于识别的信息,屏蔽了噪声的干扰。参数是基于线性频标的,所以没有这一特点。、参数无任何前提假设,在各种情况下均可使用。而汉语数码语音识别需要对辅音有较强的分辨能力,如,等,所以参数在汉语数码语音识别中优于参数。、参数提取过程中需要变换,我们可以由此顺便获得语音信号频域上的全部信息,有利于端点检测、语音分段等算法。本章小结本章讨论了语音识别系统的信号处理技术,包括

28、语音信号的模数转化,端点检测及特征提取等方面的知识,目的是对语音信号处理有个大致的认识,为后面的研究打下基础。第三章语音识别的模型及其训练方法语音识别系统本质上是模式识别系统。语音识别过程就是根据模式匹配原则,按照一定的相似性度量法则,使未知模式与参考模式库中的某一个参考模型获得最佳匹配的过程。目前语音识别比较常用的识别方法主要有模板匹配法,以动态时间规整(,)为代表;随机模型法,以隐马尔可夫模型(,)为代表;基于人工神经网络(,)的识别方法。动态时间规整算法()模板匹配法是多维模式识别系统中最常用的一种相似度计算方法,是最早用于语音识别的方法。在训练过程中,经过特征提取和特征维数的压缩,针对

29、每个模式类各产生一个或几个模板,识别阶段将待识别模式的特征矢量与各模板进行相似度计算,然后判别它属于哪个类。这种方法采用某种非线性时间对准算法,解决了发音长短不一的问题。常用的是基于最近邻原则的动态时间规整方法,简称,是效果最好的一种非线性时间规整模板匹配算法,在孤立词语音识别中获得了成功的应用。算法与算法在相同环境条件下,识别效果相差不大,但是所处理的数据量小,分析速度快。就是将发音在时间轴进行弯曲,以使两次发音能够更好的匹配。假设参考模板为:(,),测试模板为:(,),其相似度用距离,来表示,假设和分别是和中任意选择的帧号,(),()则表示两帧之间的距离。在算法中通常采用欧式距离,距离越小

30、相似度越高。若则可以直接计算,否则要考虑将(),()对齐,对齐采用线性扩张的方法,如果可以将线性映射为一个帧的序列,再计算它与(),(),()之间的距离,但这样的计算没有考虑语音中各个段在不同情况下的持续时间会产生的变化,因此识别效果不好,更多情况下是采用动态规划们()的方法。算法就是要寻找一个最佳的时间规整函数,使被测语音模板的时间轴非线性地映射到参考模板的时间轴,使总的累积失真量最小。,加图算法的搜索路径如上图所示将测试模板的各个帧号在一个二维直角坐标系中的横轴上标出,把参考模板的各帧号在纵轴上标出,通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网格,网格中的每一个交叉点(,)表示测

31、试模板中某一帧与训练模板中某一帧的交汇点。动态规划算法可以归结为寻找一条通过此网格中若干格点的路径,路径通过的格点即为测试模板和参考模板中进行距离计算的帧号。路径不是随意选择的,首先任何一种语音的发音快慢都有可能变化,但是其各部分的先后次序不可能改变,因此所选的路径必定是从左下角出发,在右上角结束。假设路径通过的格点依次为(缟、。),(吩、),(刀、),其中(。、。)(、),(拧、)(肌肜)。路径可以用函数(,)描述,其中?,(),()。为了使路径不至于过分倾斜,可以将路径限于一个平行四边形区内,它的一条边斜率为,另一条边斜率为。如果路径已通过了格点(、伤一。),那么下一个通过的格点(珥、)只

32、可能是下列三种情况之一:“(碍、饬)(吩一、刀二)(、)(、)(吃、)(椎、研)按照上述约束条件,定义路径代价函数饥(孙,)】,其意义为从起始点(、埘。)出发到当前点(、所;)的各帧失真累计值,有如下递推公式:毗、玛)聊),、)】书盯),黼眈、玛)】、(、玛)、嘲)其中瓴),(,)】为当前点(玎,、,)对应的帧(璩)和(,)的帧失真,【(嘞、)为前一点(传、纠)的路径代价函数。这样从(,)出发搜索,反复递推,直到(、旧点就可以得到最佳路径,而且(,)为最佳路径所对应的最小失真。改进的动态时间规整算法传统的算法的缺点是模板匹配的运算量太大,当两个模板的长度较大时,训练和识别算法的运算量就相当大。

33、实际上,在匹配的路径中限定了规整路径的斜率,因此许多网格点是达不到,所以平行四边形外的网格点是不需要计算的,另外也没必要保存所有帧的匹配距离矩阵和累积距离矩阵。改进型算法大大提高了运算效率,它把实际路径分为三段:(,托),(五,五),(五十,),其中专(一),专(一),以和都取最相近的整数。如图)所示,由此也得出了对和长度的限制条件,当限制条件不满足时,不进行动态规划匹配,在坐标轴上的每一帧与坐标轴一瘩(三聊。,的计算公式如下:五,托图匹配路径约束示意图若出现咒鼍的情况,此时匹配的路径三段为(,五),(,以),(以,)。对于坐标轴每前进一帧,虽然所要比较的坐标轴上的帧数不同,但规整特性是一致的

34、,累积距离如下式所示:(、)氏)(一、)、一、一)、)其中和分别表示累积距离和帧匹配距离。隐马尔可夫模型隐马尔可夫模型是世纪年代以来语音识别领域取得的重要成果。它是一个双重随机过程,一方面隐马尔科夫模型()用隐含的状态对应于声学层各相对稳定的发音单位,并通过状态转移和状态驻留来描述发音的变化,这是基本随机过程;但是实际问题比马尔可夫模型所描述的更复杂,观察到的序列并不是与状态一一对应,另一方面它引入了概率统计模型,不再用动态时间对齐的方法求匹配距离,而是用概率密度函数计算语音参数对隐马尔科夫模型()的输出概率,通过搜索最佳状态序列,以最大后验概率为准则找到识别结果。这种由马尔可夫链演变而来,第

35、一重的状态转移序列对外界隐含的模型,称为隐马尔可夫模型。删的种类的结构有三种,第一种是经历各态的第二种是二转移第三种是三转移图经历各态的图二转移图三转移的马可夫链都是一样的,不同的是观察序列的概率分布,也就是语音识别系统中的,根据这个,把分为两大类,离散()和连续(),对应的分布参数是一个概率矩阵,而对应的分布参数是观察序列的输出概率密度函数:、在中,中直接存储每个状态产生的某个观测事件的概率,(,),在情况下,观察序列为符号序列,为一状态概率矩阵:乜(七),;,它满足:(),其中为状态概率矩阵的个数,为状态序号,识别时篁直接使用算法即可求出(兄)。、在中,曰中每个状态对应于一个观察概率密度函

36、数,观察序列为向量序列(设维数为),就是个维的概率密度函数的集合:刀以(,一,其中为观察向量空间中的任一向量,每一个密度函数都满足归一的条件。(),表示第,状态的观察概率空间,在语音识别领域中,的识别效果最好。模型三参数、万防,万:,万为初始分布,用于描述观察序列在时刻的所处状态。属于模型中各状态的概率分布,即:万(),满足:乃、,为状态转移概率矩阵,这里只考虑一喻,当前所处状态口,只与前一时刻所处状态靠。有关,即:牙(,吼一,墨,最,。)(,岛吼一)它满足上面节里提到的二转移特别适合语音识别系统,是因为语音信号是随时间变化的信号,其状态只能驻留或者往后转移,所以最后的这个模型特别适合进行语音

37、信号建模。那么,在语音信号的特定环境下,如果,那么就有鸣,也就是说,语音信号的状态不能向前转移,只能向后面的高状态转移,因此,有万。状态的跳转也不能太大:如,同样,对于最后状态,有删,如下所示:口口、,为语音观察序列中任一观察(它是随机变量或随机向量)在各状态的观察概率空间中的分布(概率密度函数或者是概率分布函数),中,巧()勺(,如,)表示某一状态,对应概率密度函数的个数;()表示某一概率密度函数;下面三个是概率密度函数的三参数:,表示第个状态,第,个混合高斯函数的权。表示第个状态,第,个混合高斯函数的均值矢量表示第个状态,第,个混合高斯函数的协方差矩阵严格来讲,模型的状态数、高斯函数个数也

38、是里的参数,但是这两个参数已经包含在么,召里。么口口口口口口口口口口口口口口口口图与语音参数的关系模型三问题如果用模型完成语音识别,有三个问题需要解决:、输出概率的计算问题给定观察序列:,和模型五(,万),如何计算观察序列对模型的输出概率()。、确定最优状态序列若已知一个系统的三项特征参数(,),给定一个观察序列:听,如何确定一个最佳的状态序列【。,:,纵】。、调整参数如何调整仞,),使(元)最大。模型三算法、前向后向算法这个算法用来解决的第一个问题:给定一个观察值序列,丁以及一个模型(石,),计算由模型允产生出的概率(允)。(兄)最直接的求取方法如下:对一个固定的状态序列,有:(,允)兀(,

39、)():()()(在,的状态下,取得的概率乘积)。其中(,)吼;巳舻吃,对于给定旯,产生的概率为(旯)万吼口州:口忆。钉,因此在旯条件下和司时发生的联合概率为:()(,兄)旯)所有丌吼。()口蚋:(:)口机衙,()争儿仍,可以看出其计算量比较大,由(一)次乘法和个加法,因此一个比较有效的算法:前向后向算法是解决此问题的有效算法(以下对幺的形式简记为)()前向算法定义前向变量为:。()(。,:,),表示给定删模型参数,部分观察序列为,:,),并且在时刻缎于状态幺的概率。那么,有:初始化:对,有口()万包()递推:对,有口川()()口扩()终止:()口()式子中:(川):。状态观察序列(口(,)(

40、)格形结构()计算前向变量口州(力的递推过程图前向算法示意图()后向算法与前向算法类似,定义后向变量为屈()(,兄),是在给定模型下,从时刻开始到观察结束这一段的观察序列为川,且在时刻处在状态只的概率。类似前向算法,有初始化:对有屏()递推:对一,一,;有,尼()口扩(,。)层。()终止:(兄)屈()前向一后向算法是一种格形结构,后向变量的递推过程如下图:尼()夕(力图后向算法计算()示意图、算法这个算法用来解决的第二个问题,也就是说,给定一个观察值序列,和一个模型旯协,),如何确定一个最佳状态序列,:,】的问题。最佳的意义有很多种,由不同的定义可得到不同的结论。这里讨论的最佳意义上的状态序列

41、是指使(,旯)最大时确定的状态序列。比较广泛应用准则是:在任意时刻,选取最可能发生的状态,使(,旯)尸(吼,旯)成立,则令,这可用算法来实现,其描述如下:定义瓯()(,旯)那么,求取最佳状态序列的过程为:初始化:对,有万()万(),伊()递推:对,有色(歹)懋一,(咖肜),纪),()口扩终止:尸围驯,;防()】路径回溯,确定最佳状态序列:缈(二),。、算法这个算法用来解决的第三个问题,也就是:给定一个观察序列:,如何训练一个仿,),(允)最大,即参数重估问题。算法的基本思想是根据观察值序列和选取的初始模型仞,),求取一个新模型万(矛,一,百)。可以证明,(万)(允),即由重估公式得到的万比在表示观察值序列方面好,重复这个过程,逐步改进模型参

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论