HMM基本原理及在语音识别中的应用.ppt_第1页
HMM基本原理及在语音识别中的应用.ppt_第2页
HMM基本原理及在语音识别中的应用.ppt_第3页
HMM基本原理及在语音识别中的应用.ppt_第4页
HMM基本原理及在语音识别中的应用.ppt_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第10章语音识别,10.1概要,1,10.2 hmm基本原理及在语音识别中的应用,2,10.1概要,语音识别以语音为研究对象,涉及生理学、心理学、语言学、计算机科学,以及信号处理等多个领域,最终以实现人与机为目的的语音识别系统是孤立词(词)语音识别系统、接续语音识别系统分为两个方向:一个根据对说话者的依存度可以分为特定人和非特定人的语音识别系统;二个根据词汇量的大小可以分为小词汇量、中词汇量、大词汇量、无限词汇量语音识别系统。 不同的语音识别系统,虽然设定订正和实现的详细情况不同,但是所采用的基本技术是类似的。 典型的语音识别系统如下一页的图所示。 主要包括预处理、特征提取、训练识别网络。 在

2、预处理、语音识别系统中,音频信号预处理主要包括抗混叠滤波器环、预加重和端点检测等。 1抗混叠滤波器环和预加重声音信号的频谱成分主要集中在3003400Hz的范围。 因此,需要用防混叠带通滤波器取出该范围内的声音信号的频谱成分,对声音信号进行采样获得离散的时域声音信号。 另外,通过采样定理,如果天线计程仪信号的频谱带宽是有限的,则以2fm或更高的采样频率进行采样,使得所得到的信号可以完全唯一地代表原始天线计程仪信号,因此为了防止混叠失真和噪声干扰作用,可以精确地执行采样该滤波器被称为逆折叠滤波器或者逆伪滤波器。 由于来自预加重和嘴唇的声音辐射具有6dB/oct衰减,所以期望在处理声音信号之前以6

3、dB/oct的比率将信号升高(或加重),以使得输出信号的电平近似。 2端点检测、声音信号的开始点的判别在任何一个语音识别系统中都是不可缺少的构成要素,可以用差分方程式定义的数字滤波器。 一般的端点检测方法有以下两种。 (1)在短时间平均幅度端点检测中,需要校正信号的短时间能量,其中,短时间能量的校正与平方运算相关,因此平方运算必须扩大幅度不同的相邻采样值之间的幅度差,这给窗的幅度选择带来了困难,其中在短时间平均幅度中表达语音能量在一定程度上是困难的(2)短时间平均过零率离散信号的相邻2个采样值具有不同的符号时会发生过零现象,将每单位时间的过零次数称为过零率。 如果离散时间信号的包络曲线是窄带信

4、号,则过零效率可以比较准确地反映该信号的频率。 对于宽带信号的情况,过零效率仅可以粗略地反映信号的频谱特性。 10.1.2语音识别特征提取和特征提取也被称为前道工序处理,其相关联的内容是特征点之间的距离度量圈套。 特征提取:为了通过对不同的声音寻找其内在特征来判别未知声音,必须对每个语音识别系统进行特征提取。 特征的选择对认识效果很重要。 另外,还考虑特征残奥仪表的校正计算量。 孤立词语音识别系统的特征提取通常需要解决两个问题:一个是从语音信号提取(或测量)代表性的适当特征残奥表(即选择有用的信号表示)。 另一个是进行适当的数据压缩。 在非特定人物声音识别中,优选特征残奥仪表尽可能多地反映语义

5、信息,尽量减少说话者的私人信息(在特定人物声音识别中相反)。 从信息论的角度来看,这也是一个信息压缩的过程。 语音信号的特点主要有结构域和频率结构域两种。时域特征:短时平均能量、短时平均过零率、共鸣峰值、基音周期等频率域特征:线性预测系数(LPC )、LP倒频谱系数(LPCC )、线光谱对残奥计(LSP )、短时频谱、Mel频率倒谱系数(MFCC )等。 当前时间和频率特征、即时频谱被组合以提取特征残奥,所述特征仪表利用了语音信号的时序信息并且基于诸如感知线性预测(PLP )分析之类的听觉模型。线性预测系数(LPC )、线性预测性分析从人的发声反应历程开始,通过对声道的短管级联反应模型的研究,

6、认为系统的传递函数符合全极点数字过滤烟嘴的形式,某时刻的信号可由前几个时刻的信号的线性组合估计。 通过使得实际音频采样值与线性预测采样值之间的平均误差(MSE )最小,可以获得线性预测系数LPC。 根据语音生成的模型,语音信号S(z )是线性相移因果稳定系统V(z )受到信号E(z )激励产生的输出。 在时域中,音频信号s(n )是系统的单位采样响应v(n )和激励信号e(n )的日式榻榻米中断。 基于声音的声道模型是在下式中叙述的全极点模型:根据最小平方误差来推定该模型残奥仪表ak,得到线性预测编码化(LPC )算法,求出LP系数(p是预测器次数)。 LPC的修正方法有自相关性法(Levin

7、son-Durbin莱文森-杜宾法)、协方差法、格型法等。 保证了该音响学特征的迅速有效地广泛使用。 另外,2LPC倒频谱系数(LPCC )、倒频谱系数是针对信号的z变换的数字模拟函数的逆z变换,通常来说,获得信号的傅立叶变换并取模型的对数后,获得傅立叶逆变换。 主要优点:语音生成过程中的激励信息可以比较彻底地去除,反映信道响应,并且在很多情况下,只需要几个倒频谱系数就可以很好地描绘语音的共振峰特性。3Mel频率倒谱系数(MFCC )、Mel频率倒谱系数将信号频谱的频率轴变换成Mel尺度,然后变换成倒频谱域来获得倒频谱系数。 (1)短时傅里叶变换信号以获得频谱。 (2)求出频谱宽度的平方,即能

8、量频谱,用一组三角滤波器对频率域进行能量带通滤波器。 (3)取滤波器的输出的对数,然后,如果进行2M点傅立叶逆变换则能够获得MFCC。 这里,MFCC系数的数量l通常取最低的1216。 频谱失真测量的定义通常不使用零阶倒频谱系数,是因为反映倒频谱能量。 所述频率域的带通滤波器环的能量谱的过滤是因为一个多分量信号的总能量应该是每一正交分量的能量的和。 4 .零被代言宽度(ZCPA ),特征残奥仪表的好坏直接决定系统的识别性能。 为了使识别系统具有鲁棒性,需要提取出的特征残奥仪表具有强的噪音耐受力。 由于人类的听觉系统在噪声环境下工作良好,如果语音识别系统能够模拟人类听觉感知的处理特性,那么噪声环

9、境下的识别率一定会提高。 近年来,基于听觉模型的声音特征提取方法在声音识别领域受到重视。 零被代言宽度特征ZCPA是基于人类听觉特性的化学基特征之一。 下图示出了基于人耳听觉特性的ZCPA特征提取原理图,该系统包括带通滤波器面包车、过零检测器、峰值检测器、非线性压缩和频率接收器。 带通滤波器面包车包括16个FIR滤波器,其中过零检测器、峰值检测器和非线性压缩部分用于模拟耳蜗基底膜,而非线性压缩部分则模拟听觉神经纤维。 从过零检测器取得频率信息,从峰值检测器取得强度信息,进行非线性压缩之后,在频率接收机合成频率信息和强度信息,将最后在16路径得到的信息与声音信号的特征量进行合成。10.1.3语音

10、识别方法,一般语音识别的方法有4种:基于声道模型和语音知识的方法模式匹配的方法统一模型方法基于人工神经网络的方法基于声道模型和语音知识的方法很早,还没有达到实用阶段。 目前常用的方法有以下三种,目前这些个均已达到实用阶段。 模式匹配的一般技术是矢量量化(VQ )和动态时间规则(DTW ),即集成模型方法对神经网络来说是反向传播(BP )网络、径向基函数网络(RBF )和小波,其中神经网络用于语音识别,隐马尔可夫模型(HMM )是常见的本文着重介绍经典隐马尔可夫模型及其在语音识别中的应用。 另外,模式配对法存在四个步骤:特征提取、数字键训练、数字键大板块分类、判决用于语音识别。 其原理分块图为,

11、训练过程:输入语音预处理后,提取语音信号的特征,并基于其化学基制作所需的数字键大板块,制作此数字键大板块的过程称为训练过程。 识别过程:基于语音识别总体模型,将输入语音信号的特征与存在的语音数字大板块(参考模式)进行比较,找出最适合输入语音的数字大板块。 并且,根据该数字大板块编号的定义,通过调查表能够得到校正计算机的识别结果。 动态时间规则(DTW )算法思想:均匀扩展或缩短未知量,直至与参照模式的长度一致。 在时间规则过程中,未知单词的时间轴不会均匀扭曲或弯曲,使其特征与模型的特征相符。 DTW应用动态修订方法在孤立语音识别中得到了良好的性能。 但是,不适合连续语音大词汇语音识别系统,现在

12、被HMM模型和ANN所代替。 隐马尔可夫模型对语音信号的时序结构建立了统一修正模型,并将其视为数学上的双重随机过程:一个是使用具有有限状态数的Markov链来模拟语音信号的统一修正特性变化的隐式随机过程,另一个是与Markov链的各状态有关的观测序列的随机过程。 前者用后者来表示,但前者的具体残奥仪表不可订正。 基于HMM孤立词语音识别原理图,使用HMM进行语音识别实际上是一种概率运算。 在根据训练定径套数据校正了模型残奥仪表之后,测试集数据仅单独校正各模型的条件概率(维特比算法),将该概率最大作为识别结果。 除训练所需的演算量大外,识别时的演算量只有模式配对法的几分之一。 人工神经网络(AN

13、N )在语音识别中的应用是当前研究的热点。 人工神经网络本质上是一种自适应非线性动力学系统,模拟人的神经活动原理,具有自适应、并行性、鲁棒性、容错技术与学习特性。 目前用于语音识别的神经网络有多层感知器、Kohonen自组织神经网络和预测神经网络。 神经网络反映了人脑功能的基本特征,具有自我组织性、适应性、连续学习能力。 这样的网络是可以训练的,可以随着经验的积累而改变自己的性能。 对于云同步来说,由于其高度并行,所以这些个可以进行快速的判定,具有容错技术,尤其适用于解决难以用诸如语音识别的算法来表述的可得到大量样本的问题。 基于神经网络语音识别原理图,神经网络语音识别方法与传统方法不同:提取

14、语音特征残奥表后,根据神经网络大量连接权对输入模式进行非线性运算,最令人兴奋的输入点表示与输入模式对应的分类。 神经网络的连接权系数在使用中继续根据识别结果的正确与否自适应地修改。 比较而言,神经网络识别系统接近人类感知过程。另外,在将矢量量化技术应用于语音识别时,一般将矢量量化的码本作为语音识别的参考数字键大板块即系统辞典中的各(字)字,作为该(字)字的参考数字键大板块来制作查询密码本。 对于识别时任意输入的声音特征向量序列,计算相对于该序列的每个码本的总平均的失真量化误差。 与总平均失真误差最小的码本对应的(字)词成为识别结果。矢量量化在语音识别中的应用、10.2 HMM基本原理以及在语音

15、识别中的应用、10.2.1隐马尔可夫模型马尔可夫过程(或马尔可夫链)直观解释在已知系统的当前状态(当前)的条件下是“未来”和“过去”这一过程也被称作不记忆的单随机过程。 如果这样的单个随机过程的可能值(状态)是离散的,那么也可以称为没有存储的离散随机过程。 的双曲馀弦值。 假设有一个系统,可以认为它随时处于有限的多个状态。 在均匀隔开的时间间隔上,系统的状态以一系列的概率变化(包括保持在原始状态)。 该概率值与状态相关,并且因为该状态对应于可观测的物理上通告,所以被称为可观测马尔可夫过程。 不可测量(随机)的双随机进程只可通过另一组随机进程来观测,而另一组随机进程产生观测序列(行为),所述组行

16、为是不可测量的。 因此,这种双随机过程称为隐马尔可夫模型(或隐马尔可夫过程)。 通常,将HMM称为无记忆离散双工随机过程,因为假定与HMM相对应的状态是离散的并且其演进是无记忆的。 隐性马尔可夫过程是双随机过程:用于描述非稳态信号的短时间稳态段的统一特征(信号的瞬态特征,可直接观测)的另一重要过程是每个短时间稳态段中的下一个短时间稳态段,即短时间统一特性的动态特性(在观察序列中隐含地) 基于此双随机过程,HMM能够解决一个问题,例如如何识别具有不同残奥仪表的短时间稳态信号段及如何跟踪它们之间的变换。 人类语言的过程也是这种双重随机的过程。 由于语音信号本身为可观察的序列,它是脑内(不可观察)、

17、基于语言需求和语法知识(状态选择)产生的音素(语、文)的残奥仪表流,因此HMM确实可以非常正确地描述语音信号的生成过程已经在许多实验中证明。 (1) N模型的状态数。 状态的集合用(2) M观测象征符数表示。 即,可以为每个状态输出的观测象征符的数量。 观测符号集合表示为(3) A状态跃迁几率分布。 状态跃迁几率的矩阵有、以及一个隐马尔可夫模型由、(4) B状态的观测象征符概率分布决定。 (5)初始状态分布。 为了完全描述隐马尔可夫模型,必须指定状态数n、观测象征符数m以及三个概率密度a和b的和。 由于这些个的残奥仪表之间有一定的联系,为了方便起见,HMM多为简单记录。10.2.2隐马尔可夫模型的三个基本问题是: (1)了解观测序列和模型,以及如何有效地校正观测序列出现的概率,以便在给出HMM的形式后将其实际应用。 (2)已知观测序列和模型,在某种意义上如何选择最佳状态序列。 (3)给出观测序列,如何调整残奥仪表使条件概率最大。 第一个问题的解决方案是做评估已知模型和观测序列、如何做评估该模型(与给定序列匹配)或如何对模型评分的问题的算法,该问题通常用被称为“前向-后向”的算法解决(1) 前向算法首先在前向变量(即,给定的模型条件)下生成t个在先的部分观测象征符序列,并且定义t个时刻处于状态Si的概

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论