




已阅读5页,还剩18页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,语音识别文献综述,专业:通信工程学生:顾文武学号:S151000805,.,目录,研究背景与意义语音识别技术语音建模单元声学模型语言模型结语与致谢,研究背景语言是人类相互交流最常用、最有效、最重要和最方便的通信形式。随着计算机的快速发展,人们生活的方方面面都离不开计算机,那么让计算机理解语言显得十分重要,语音识别技术也将是实现社会生活信息化和智能化进程中不可或缺的一环1。近期,通过采用深度神经网络技术,微软大大提升了语音识别的准确率,错误率降低至18.5%。但是它还是一个科研项目,实验条件十分理想。,一、研究背景及意义,.,一、研究背景及意义,研究意义如今语音识别技术虽然有了显著提高,但是仍存在诸多问题有待解决2,如:1)语音信号会受到上下文的影响而发生变化;2)发音人以及口音的的不同会导致语音特征在参数空间分布的不同;3)同一发音人心理和生理变化带来的语音变化;4)不同的发音方式和习惯引起的省略、连读等多变的语音现象;5)环境和信道等因素造成的语音信号失真问题。,.,二、语音识别技术,语音识别就是让机器能够理解人类语言,使它们能更好地对人的意图做出正确反应。语音识别系统是一种模式识别系统,是建立在一定的硬件平台和操作系统之上的一套应用软件。语音识别的建模大致分为2个步骤:训练阶段得到相应“模板”,识别阶段利用搜索算法的到最优解。,.,二、语音识别技术(是什么?),其中,X用表示语音信号,W表示文字序列。前一部分代表语言模型,表示一个文字序列本身的概率,也就是这一串词或字本身有多“像一句话”;后一部分代表声学模型,表示给定文字后翻译成这种语音信号的概率,即这句话有多大的可能发成这串音。,.,三、语音建模单元,语音识别中建模单元的选取需要考虑一致性、共享性和可训练性3。语音识别根据任务的不同,可以将音素、音节或者词作为基本的建模单元。在LVCSR的研究中,通常使用比较细致的音素作为建模单元。其次,常用上下文相关的音素建模方法(例如常用的三元音素建模)来对语音中的协同发音现象进行建模。,.,四、声学建模,常用的声学建模方法包含以下三种:(这个地方也应该有文献引用吧!某某人提出什么方法啥的,常用的方法的话就把最初那个人提出来就好了,不过,也可以不用酱紫)基于模式匹配的动态时间规整法(DTW)-它基于动态规划的思想,解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题。隐马尔可夫模型法(HMM)-是在马尔可夫链的基础上发展起来的,它是一种基于参数模型的统计识别方法。基于人工神经网络识别法(ANN)-以数学模型模拟神经元活动,将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域。,.,四、声学建模,动态时间规整DTW4(这里是文献引用,吗?标错了吧)(dynamictimewarping)思想:由于语音信号是一种具有相当大随机性的信号,因此在与已存储模型相匹配时,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模板特征对正。特点:用时间规整手段对正是一种非常有力的措施,对提高系统的识别精度非常有效。,.,四、声学建模,隐马尔可夫模型法5(HMM)HMM思想是:HMM模仿人的言语过程,可视作一个双重随机过程。一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程;另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程。HMM2个重要假设一阶马尔可夫假设:HMM当前时刻t所处状态st只和前一时刻的状态st-1有关,与此前或者未来的其他时刻的状态都无关;输出无关假设:当前时刻的输出值仅受当前状态的概率密度支配,与历史上已经产生的其他输出值和状态无关。,.,四、声学建模,3.HMM建模的3个基本问题-评估问题,解码问题和训练问题a、HMM数学表示HMM数学表示,表示观测序列,代表HMMK个有限状态,代表初始时刻HMM处于K个状态的分布概率,A代表状态转移矩阵,B代表不同状态下的输出概率分布函数。b、评估问题在观测向量O和HMM模型之间存在着隐藏的状态序列,任何一个可能的状态序列都能以一定概率产生观测向量O。所以对于,需要首先计算出HMM模型按照特定的状态序列S进行跳转时产生O的概率,再将所有可能存在的状态序列对应的概率进行累加,即,.,四、声学建模,根据一阶马尔科夫假设根据输出无关假设最终化简为物理意义:首先,HMM由初始状态以的概率跳转到状态S1,并随之以输出概率产生观测向量O1,依次下去,一直到达T时刻。,.,四、声学建模,c.解码问题解码问题是在给定HMM模型和观测序列O以后,需要搜索出中生成O的最可能的状态序列。常见的viterbi解码算法6(收索算法),先定义了时刻t位于状态i的最优序列概率Vt(i),即:,.,四、声学建模,递归计算,.,四、声学建模,d.训练阶段语音识别中HMM模型参数值的估计目前依然没有一个可靠的闭式解,通常采用的是迭代训练的方法,每次都在旧的HMM基础之上,利用最大似然准则7对参数进行优化。经典算法期望最大化算法、前后向算法各自特点:EM算法能够有效地处理HMM中由于状态序列的隐藏造成的不完全数据情况下的HMM参数更新问题。BW算法可以非常高效的从训练数据中积累统计量,作为HMM参数更新时所需要的必要信息。,.,四、声学建模,同时选择不同的生成概率密度,离散分布或者连续分布,都可以使用HMM进行建模。据输出概率的不同,HMM可以分为DHMM(离散HMM)、CHMM(连续HMM)和SCHMM。各类方法的评价:DHMM需要对观测值进行矢量量化(VQ),VQ会带来一定的误差,而且VQ码本的生成与HMM的训练是分离的,因而DHMM的精度不高。CHMM采用连续概率密度函数来描述观测矢量,从而提高了模型的精度,但是计算量极大。于是Huang等人提出了性能介于CHMM和DHMM之间的SCHMM,使各方面得到平衡。,.,四、声学建模,基于人工神经网络识别法进入21世纪第二个十年,伴随着近几年机器学习领域深度学习(deeplearning,DL)理论的兴起,自动特征学习技术的成功,深度神经网络(deepneuralnetwork,DNN)成功应用于语音识别8。同时,神经网络还可以与HMM综合应用于声学建模。思想:由神经网络完成静态的模式划分问题,用HMM完成时间对准问题,使神经网络更容易地应用于连续语音识别系统。优势:这种方法克服了ANN在描述语音信号时间动态特性方面的缺点,进一步提高了语音识别的鲁棒性和准确率。,.,五、语言模型,由于声学信号的动态时变、瞬时和随机性,单靠声学模式的匹配与判断不可能完成语音的无误的识别和理解。语言模型分为2大类:基于统计的语言模型,基于知识的语言模型。其中基于统计的语言模型处主流地位。思想:它通过对大量实际语料的统计来获得词与词之间的连接信息,从而评价一个词串是否为语言中合理的语句。用例:NGram统计模型是最初引入而且应用最广泛的一种语言模型,该模型,最初由Jelinek等人提出9,取得了一定的效果。,.,五、语言模型,但是,统计语言模型也有它的不足,就是无法刻画词间长距离的约束关系。为了突破统计语言模型的限制,将自然语言结构信息(语法信息、语义结构信息融入到语言模型中,对语言模型进行改进,提出了基于语言模型的自适应研究10。思想:语言模型的自适应通常结合背景文字语料库预测,是语音同一时期或同一领域的文字语料训练出较鲁棒的自适应语言模型。,.,全文总结,首先,感谢老师和师兄们在各个方面的指导。其次,由于自己时间,能力有限,本报告中如有错误和不足,欢迎同学,师兄以及老师指出。本报告主要梳理了语言识别在建模方面,特别是基于HMM在声学建模方面的一些研究成果,因为大部分优秀文献都是英文,所以读起来比较吃力,但是收获还是有的,特别是训练自己快速学习陌生领域的能力有较大提高。,.,参考文献,1刘潇.语音识别系统关键技术研究D.哈尔滨工程大学,2006.2周盼.基于深层神经网络的语音识别声学建模研究D.中国科学技术大学,2014.3LeeKF,HonHW.Speaker-independentphonerecognitionusinghiddenMarkovmodelsJ.Acoustics,SpeechandSignalProcessing,IEEETransactionson,1989,37(11):1641-1648.4VintsjukTK.RecognitionofwordsoforalspeechbydynamicprogrammingJ.Kibernetia,1968,81(8).5RabinerLR.AtutorialonhiddenMarkovmodelsandselectedapplicationsinspeechrecognitionJ.ProceedingsoftheIEEE,1989,77(2):257-286.6ViterbiA.J.Errorboundsforconvolutionalcodesandanasymptotieallyoptirnumdecodingalgorithm,IEEETransonIT,13(2),1967.7GauvainJL,LeeCH.MaximumaposterioriestimationformultivariateGaussianmixtureobservationsofMarkovchainsJ.Speechandaudioprocessing,ieeetransactionson,1994,2(2):291-298.8HintonG,DengL,YuD,etal.Deepneuralnetworksforacousticmodelinginspeechrecognition:ThesharedviewsoffourresearchgroupsJ.SignalProcessingMagazine,IEEE,2012,29(6):82-97.9BahlLR,JelinekF,MercerRL.AmaximumlikelihoodapproachtocontinuousspeechrecognitionJ.PatternAnalysisandMachineIntelligence,IEEETransactionson,1983(2):179-190.10BellegardaJR.Statisticallanguagemodeladaptation:reviewa
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 些属于劳务合同样本
- 个体工商合同样本
- 劳务安全人员合同标准文本
- 剪辑拍摄合同范例
- 创业股民投资合同样本
- 代写标书采购合同标准文本
- 兼职合同标准文本保密义务
- 公司自行清算合同标准文本
- 劳务技术服务合同标准文本
- 低价装修高价承租合同样本
- 喷口送风计算
- 毕业设计(论文)-ZJ-600型罗茨真空泵设计
- 浅谈河北地下水资源开采情况及引发的灾害
- 2023年04月2023年北京外国语大学管理及教辅岗位招考聘用笔试题库含答案解析
- 镇区核心区城市设计
- MT 194-1989煤矿用巷道支架试验方法与型式检验规范
- GB/T 23861-2009婚姻介绍服务
- GA 38-2021银行安全防范要求
- 总论天然药物化学课件
- 《宠物美容》考试复习题库500题(汇总版)
- 女性青春期教育(4-6年级)课件
评论
0/150
提交评论