HMM在语音识别中的应用课件_第1页
HMM在语音识别中的应用课件_第2页
HMM在语音识别中的应用课件_第3页
HMM在语音识别中的应用课件_第4页
HMM在语音识别中的应用课件_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

在语音识别中的应用

报告人:林常志HMM1

语音识别

声学

信息论语音语言学

信号处理

人工智能

模式识别数理统计听写机

查询系统电话拨号残疾人用品消费电子……实际应用学科基础语音识别技术基础与应用2信息获取预处理特征提取分类器设计分类决策训练过程模式识别系统的基本构成3analysisPatterntrainingTemplatesormodelsPatternclassifierDecisionlogicspeechRecognizedspeechLPCCMFCCTestpatternReferencepatternSearchalgorithm语音识别系统的基本构成4语者无关/相关词表大小孤立词vs.连续语音环境噪声等语音识别的几个关键因素

51.DynamicTimeWarping(DTW)2.HiddenMarkovModelling(HMM)3.Multi-layerPerceptron(MLP)常用模式匹配方法

6

AndreiA.MarkovRussianstatistician1856–1922马尔可夫链理论

7s1s2s3N=3t=0q0=s3有N个状态,S1,S2…SN一阶离散马尔可夫模型

下一个时刻所处的状态是随机出现的在每个时刻t,系统只能处于唯一一个状态qt存在一个离散的时间序列

t=0,t=1……当前状态当前状态qt只与前面相邻的一个状态qt-1有关,与其他状态无关8s1s2s3一阶离散马尔可夫模型

11/21/21/32/39s1s2s3一阶离散马尔可夫模型

11/21/21/32/3aij---转移概率并且满足如下的标准随机约束条件:10下雨多云晴天0.30.20.60.40.20.10.30.10.8下雨---状态1多云---状态2晴天---状态3一阶离散马尔可夫模型

11问题:连续8天的天气状况为“晴天-晴天-晴天-下雨-下雨-晴天-多云-晴天”的概率是多少?一阶离散马尔可夫模型

晴天晴天晴天下雨下雨晴天多云晴天0.80.80.10.40.30.10.212晴天晴天一阶离散马尔可夫链晴天下雨下雨tt+1晴天-晴天-晴天-下雨-下雨-晴天-多云-晴天晴天多云晴天t-1马尔可夫链13信号统计理论模型起源于60年代后期Baum和他的同事首先提出Baker(CMU)和Jelinek(IBM)在70年代早期实现在语音处理上的应用隐马尔可夫链(HMM)理论

14123a12a21a22a11a23a32a13a31a33每个硬币代表一个状态;每个状态有两个观测值:正面H和反面T;

每个状态产生H的概率为P(H);

每个状态产生T的概率为1-P(H)隐马尔可夫链—三个硬币隐马尔可夫模型

15对比两个模型可见:马尔可夫模型的观测序列本身就是状态序列;隐马尔可夫模型的观测序列不是状态序列;隐马尔可夫链—三个硬币隐马尔可夫模型

16状态总数N;

每个状态对应的观测事件数M;

状态转移矩阵每个状态下取所有观测事件的概率分布起始状态隐马尔可夫模型的参数

17问题一:给定模型参数和观测序列,如何快速求出在该模型下,观测事件序列发生的概率?——估计问题问题二:给定模型参数和观测序列,如何找出一个最佳状态序列?——解码问题问题三:如何得到模型中的五个参数?——学习问题隐马尔可夫模型的三个基本问题18估计问题:前向算法和后向算法解码问题:Viterbi算法学习问题:Baum-Welch算法如何解决三个基本问题

19估计问题—前向算法定义前向变量:

表示模型下,在时刻t,观测事件为Ot,状态为i的概率。

s1s2sNsj时刻tt+1a1ja2jaNj20估计问题—前向算法递归求解:初始:递归:中止:21StateT123123N2(1)2(2)2(3)2(N)3(1)3(2)3(3)3(N)1(1)1(2)1(N)1(3)T(N)T(3)T(2)T(1)22估计问题—后向算法定义后向变量:

表示从终止时刻T到时刻t+1的观测事件序列是,并且时刻t的状态是i的概率

s1s2sNsi时刻tt+1ai1ai2aiN23估计问题—后向算法递归求解:初始:递归:24解码问题—Viterbi算法找一个状态序列,这个状态序列在t时状态为i,并且状态i与前面t-1个状态构成的状态序列的概率值最大

s1s2sNsj时刻tt+1a1ja2jaNj25三硬币隐马尔可夫模型

状态1状态2状态30.50.750.250.50.250.75P(H)P(T)

观测序列O=(HHHHTHTT)

设初始状态概率和状态转移概率都是1/3,忽略这些概率s1s2s3s1s2s3s1s2s3s1s2s3s1s2s3s1s2s3s1s2s3s1s2s30.50.75t0.250.75*0.50.7520.75*0.250.752*0.50.7530.752*0.250.753*0.50.7540.753*0.250.754*0.50.754*0.250.7550.755*0.50.7560.755*0.250.756*0.50.756*0.250.7570.757*0.50.757*0.250.75826三硬币隐马尔可夫模型

状态1状态2状态30.50.750.250.50.250.75P(H)P(T)

观测序列O=(HHHHTHTT)

设初始状态概率和状态转移概率都是1/3,忽略这些概率s1s2s3s1s2s3s1s2s3s1s2s3s1s2s3s1s2s3s1s2s3s1s2s30.50.75t0.250.75*0.50.7520.75*0.250.752*0.50.7530.752*0.250.753*0.50.7540.753*0.250.754*0.50.754*0.250.7550.755*0.50.7560.755*0.250.756*0.50.756*0.250.7570.757*0.50.757*0.250.75827学习问题—Baum-Welch算法表示t时状态为i以及t+1时状态为j的概率

表示t时状态为i的概率

28学习问题—Baum-Welch算法表示时刻1经过状态i次数;

表示在时刻T内,状态i转移到状态j的总次数,除以在时刻T内,状态i被经过的总次数;

表示在时刻T内,经过状态j,并且状态j对应的观测事件为vk的总数除以时刻T内,经过状态j的总数。

291.前向后向算法计算P(O|λ);2.Baum-Welch算法求出最优解λ*=argmax{P(O|λ)};3.Viterbi算法解出最佳状态转移序列;4.根据最佳状态序列对应的λ给出候选音节或声韵母5.通过语言模型形成词和句子经典HMM语音识别一般过程

30Baum-WelchRe-estimationSpeechdatabaseFeatureExtractionConverged?l1l2l7HMMwaveformfeatureYesNoend经典HMM语音识别训练过程31SelectmaximumRecognizedwordSpeechFeatureextractionLikelihoodcomputationl1LikelihoodcomputationlV...P(X|l1)P(X|lV)HMM1HMMV经典HMM语音识别识别过程

32语音信号预处理与特征提取声学模型与模式匹配语言模型与语言处理HMM语音识别系统的实现

33语音信号预处理与特征提取振动在空气中形成压力波动传感器的动作时变的电压信号34语音信号预处理与特征提取3536语音信号预处理与特征提取37语音信号预处理与特征提取38特征选取:1)幅度(或功率)2)过零率3)LPC预测系数特征矢量4)LPC倒谱特征矢量(LPCC)5)Mel倒谱参数(MFCC)6)前三个共振峰F1、F2、F3以梅尔刻度式倒频谱参数(MFCC)为例:语音信号预加重分帧加窗快速傅立叶变换三角带通滤波器逆傅立叶变换

特征参数计算短时能量语音信号预处理与特征提取39模型基元声韵母:声母22个,韵母38个音节:412个音节,1282个有调音节词模型的结构选取

各态历经从左至右声学模型与模式匹配

40参数初始化:起始状态概率(π)

状态转移概率(A)

观测序列概率(B)

根据观测序列概率表示方法的不同:离散的HMM(DHMM)

连续的HMM(CHMM)

半连续的HMM(SCHMM)

声学模型与模式匹配41DHMM:离散的符号作为观测量bj(x)bj(k)bj(x)CHMM:

观测量为连续概率密度函数每个状态有不同的一组概率密度函数SCHMM:观测量为连续概率密度函数所有状态共享一组概率密度函数声学模型与模式匹配

42采用统计语法的语言模型基本原理:采用大量的文本资料,统计各个词的出现概率及相互关联的条件概率,并将这些知识与声学模型结合进行结果判决,减小误识。

设W=w1,w2,…,wQ,其概率表示为:

P(W)=P(w1,w2,…,wQ)=P(w1)P(w2|w1)……P(WQ|W1,W2,…WQ-1)

UnigramBigramTrigram语言模型与语言处理

43anwhatthin

hasawhatthink

hadwatchthin

awhensee

are组合t(frame:只有一个候选44HasanwhatthinHasawatchthinHas为首词有2种选择:trigramHasawatchthinP(hasawatchthin)=p(hasawatch)*p(a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论