语音识别论文(长文档排版)_第1页
语音识别论文(长文档排版)_第2页
语音识别论文(长文档排版)_第3页
语音识别论文(长文档排版)_第4页
语音识别论文(长文档排版)_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、摘 要语音作为人机交互的新方法,因其灵活性、便捷性备受关注。语音识别在工业、金融、商业、文化、教育通信、医疗、家庭服务、消费电子产品等诸多领域都有广阔的应用前景,已经成为计算机领域非常活跃的课题之一。本论文从语音识别的过程出发做了以下几方面研究:1) 简明介绍了语音识别技术的发展历程和趋势,分析了当前语音识别面临的主要问题。2) 研究语音信号处理的关键技术,包括预处理、端点检测、特征参数提取等。端点检测作为语音识别的前端预处理部分,其正确性直接影响语音识别的准确率。本文讨论了基于双门限算法语音信号端点检测算法。通过实验仿真可看出该算法的有效性。在特征提取方面,着重研究了LPCC和MFCC两种特

2、征参数。由于特征向量都是高维的,需要对数据作降维处理,这里介绍了SVD、PCA、ICA和特征选择四种方法。3) 为了改善小样本情况下语音识别的效果,引入基于支持向量机的语音识别方法,讨论了支持向量机多类分类策略和训练算法。4) 分析现实需求,设计一个基于微软的Speech SDK 5.1的语音家庭辅助护理系统,完成系统并做出了改进总结。关键词:语音识别,端点检测,特征提取,支持向量机,语音辅助护理系统 AbstractAs a new method for human-computer interaction, the voice system has drawn extensive atte

3、ntions because of its flexibility and convenience. Boasting brilliant prospect of application in spheres including industry, finance, business, culture, educational communication, medicine, home care, and e-products, etc, the voice system has become one of the hot subjects for the computer circle. T

4、his paper mainly carries out researches on the following aspects in the speech recognition process: 1)This paper briefly introduces the developing process and tendency of speech recognition technology, and analyzes the major problems facing the speech recognition development. 2)This paper researches

5、 on the key technologies of voice signal processing, including preprocessing, end point detection, and feature parameter extraction, etc. As a part of preprocessing of the front end of speech recognition, the correctness of end point detection directly impacts on the accuracy of speech recognition.

6、This paper discusses the detection method of voice signal end point based on double-threshold algorithm. Through simulative experiments, we can see the effectiveness of this algorithm. In regard to the feature extraction, this paper gives the emphasis to two feature parameters which are LPCC and MFC

7、C. As feature vectors are all high-dimensional, the dimensionality reduction of data should be processed. Altogether 4 methods including SVD, PCA, ICA and feature selection are introduced hereby. 3)In order to improve the effect of speech recognition of small sample, the speech recognition method ba

8、sed on support vector machine is introduced. This paper discusses the classification strategy and training algorithm of support vector machine. 4)By analyzing practical needs, this paper designs a Microsoft-based Speech SDK 5.1 voice home auxiliary care system, completes the system and makes the imp

9、rovement conclusion. 5)Key words: speech recognition; end point detection; feature extraction; support for vector machine; voice auxiliary care system. 目 录第一章 绪论1.1 选题背景语音识别是语音信号处理的重要分支1234。从计算机诞生之日起至今,人与计算机系统的交互过程中绝大多数输入方式采用的是手动输入。随着计算机技术的不断发展,计算机应用越来越普遍化、日常化。传统的输入方式占用了人们的双手和视线,极大限制了计算机系统的使用灵活性。传统的

10、人机交互模式已经不能满足人们的需要,人们希望能在保证信息质量的前提下,能将信息以更自然、更方便、更快捷的方式输入到计算机及其他相关信息处理设备中。建立良好的人机交互界面逐渐成为计算机应用技术的一个重要研究方向。语音识别技术就是在这样的大背景下被提出并发展起来的。语音是人类日常生活中进行交流的主要方式和媒介,它在人机交互方面拥有天生的优势自然、灵活、方便。通过语音直接对计算机系统进行信息输入,把人们的双手从枯燥繁琐的输入活动中解放出来,提高了计算机系统的使用灵活性。同时,使得盲人、上肢残疾人等特殊人群也可以方便的与计算机系统进行信息交流,扩大了计算机系统的使用人群范围。语音识别在工业、金融、商业

11、、文化、教育通信、医疗、家庭服务、消费电子产品等诸多领域的应用前景广阔,具有深远的实际意义。另一方面,语音识别技术具有极强的理论研究价值。人类语音信号与其他自然界信号、人工信号在很多方面存在共性。语音信号处理技术的研究成果可以运用到其他领域,促进信息技术的全面发展。语音识别作为人工智能的一个分支,与其他更广泛的识别模式具有很多相似性,研究中的一些思想和方法可以推广到更广泛的领域。1.2 论文选题与结构作为一种新的语音识别方法,基于支持向量机语音识别尚处于发展阶段,人们抱着积极的态度对其进行各项研究探索。本论文旨在探讨支持向量机(SVM)理论在语音识别上的应用,研究基于支持向量机(SVM)语音识

12、别的关键问题,并将其拓展到实际应用领域。选题意义包括以下几点:探讨语音识别新方法,丰富语音识别理论体系,促进语音识别发展;探讨支持向量机对语音识别的理论支持,改善小样本情况下语音识别系统的识别效果;将基于支持向量机的语音识别新技术拓展到应用领域,为实际应用提供新的方法论和实用技术。本文系统阐述基于支持向量机(SVM)的语音识别关键技术及实现方法,对实际问题提出改进方法。论文的安排如下:第一章介绍了语音识别技术的选题背景和研究应用,可以看成本文的研究意义。第二章对简述了语音识别技术的发展历程和当前主要面临的问题,并介绍了语音识别的主要原理和识别流程。第三章研究语音信号的预处理技术,包括信号数字化

13、、预加重、分帧和加窗等,介绍了时域声学参数短时能量E、短时平均幅度M及短时过零率Z,并探讨了基于双门限算法语音信号端点检测算法。第四章研究语音特征的提取算法,介绍线性特征倒谱系数(LPCC)和美尔特征参数(MFCC)的提取方法。并讨论了包括SVD,PCA,ICA和特征选择等特征降维的方法。第五章研究了基于支持向量机(SVM)语音识别方法,介绍了相关统计学习理论,讨论了多类分类和训练方法。第六章分析当前社会需求,设计了一套基于微软的Speech SDK 5.1语音家庭辅助护理系统。具体介绍了语音库的建立、识别模块、系统实现等关键步骤,并总结了系统需改进的地方。第七章对论文的主要工作进行了简要总结

14、,指出了研究过程的不足,并对进一步的工作做出展望。 第二章 语音识别技术综述语音识别(Speech Recognition)是将自然语音转换成机器能够识别的文本或命令,最终实现采用自然语音与计算机进行流畅交互的目的。语音识别是一门涉及面很广的学科,与声学、语音学、计算机、信息处理、模式识别、心理学等学科均有密切关系。它的应用十分广泛,如语音拨号、语音导航等。此外,语音识别技术还可以和其他技术结合在一起,如自然语言处理,语音合成等。2.1 语音识别技术的发展及现状对语音识别的研究始于20世纪50年代,AT&Bell实验室基于共振峰提取技术开发了特定人孤立英文数字语音识别系统Andry,揭

15、开了语音识别技术研究的序幕。经历了半个多世纪的发展,语音识别研究经历了三个大的阶段15:6070年代:语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术被提出并逐渐发展成熟,有效解决了语言信号特征提取和不定长时间动态匹配的问题,并被运用到特定人语音识别中,取得了良好效果。这一时期的语音识别研究多以孤立词识别为主。80年代:语音识别研究进一步深入。MFCC提取技术开始被普遍采用。此时语音识别研究最显著的特点是从基于模板的方法转向统计模型的方法。隐马尔可夫(HMM)模型理论被成功应用到语音识别中。而HMM模型的运用,使得连续词识别成为可能。大词汇量连续语音识别成为逐渐成为语音识别研究的

16、重点。90年代之后:语音识别技术愈加成熟,一些市场化的产品开始出现。理论研究方面,人们开始探究如何将其他领域的思维方法运用到语音识别领域。人工神经元网络(ANN),支持向量机(SVM)等思想被引入到语音识别领域。自然语言的识别研究也开始发展。我国语音识别研究工作起步较晚,直到20实际80年代初才逐渐兴起,但是这并不影响中国在这一领域紧跟国际步伐,短时间内已经在汉语音节识别方面取得进展。国家对此也相当重视,把语音识别相关课题列入“863”计划。近年来,我国在汉语语音识别研究方面更是取得了突飞猛进的发展,在某些方面已经处于世界领先水平。从孤立词识别到大词汇量连续词识别,从基于模板模型到基于统计模型

17、,语音识别发展到今天,人们的研究重点主要集中在三个方面:识别系统鲁棒性,如抗噪处理、识别系统自适应性、拒识算法研究等;识别拓展,如大词汇量连续词识别、语音情感识别、地域性口音语音识别等;识别方法,如HMM的改进、矢量量化(VQ)算法、人工神经网络(ANN)的引入、支持向量机(SVM)的引入等。对于其他方面,识别方法是基础,是决定识别系统性能的重要因素。目前语音识别系统的识别方法主要包括四种678:基于声道模型和语音知识的方法、模板匹配的方法、人工神经网络的方法以及基于统计分析的方法。隐马尔科夫的基础理论9101112是1970年前后由Baum等人建立了,后被运用到语音识别领域。这一识别方法在过

18、去的一段时间内很流行,流行的原因可以归功于它简单的算法结构和它相对于其它语音识别方法的清晰高效性。性能,特别是精度,是评价一个语音识别系统实际价值的关键因素。隐马尔科夫(HMM)算法的特点是引入了概率统计模型,用概率密度函数来计算语音特征参数对隐马尔科夫模型的输出概率,以最大后验概率为识别准则,这更有利于连续语音识别。语音识别系统经常根据它的需求,如是处理特定的还是非特定说话者,处理单个词汇的输入还是连续的一个句子的输入,来进行分类。如今,该技术能够轻松达到对非特定说话者的精确识别,当识别由非特定说话者说出的连续数字字串时,错误率仅有2-3%。更进一步,但在非特定说话者以特定的语法限制说出连续

19、1000个词时,一些使用HMM的系统证实可以达到96%的识准率。这些结果说明了语音识别系统在指定的应用中的有用性和可用性。另外,近年来人工神经网络(ANN)113也被大量运用。它的特点是通过复杂而广泛的连接网络将大量的简单计算单元联合起来共同解决问题,一定程度上模拟人脑思维活动,是最接近人脑认知过程的一种模型,这个特点让人工神经网络在语音识别方面具有特别意义。与传统的语音识别方法相比,人工神经网络不再拘泥于信号符号化串行处理,而是采取一种分布式处理方式。分布式结构可以实现信息的分布存储,具备了很强的容错性、自适应性以及自我学习能力。同时,由于信息处理时并不依靠单一计算模块,可以实现数据并行处理

20、,又具有极高的计算效率。所以,在语音识别方面,人工神经网络具有天然优势。这些主流识别方法在应用取得了不少优秀成果。但是他们都有自身缺陷。虽然隐马尔科夫模型显著地改善了当前语音识别系统的性能。但完全流利的、非特定说话者的语音识别仍是一个普遍存在并等待着解决的问题。例如,目前尚没有一个系统能够识别没有限制(话题)的对话语音,也没有一个好的方法使用借助于有限语料库的统计方法去推断语言的结构。而且,HMM模型的高识别率是建立在样本集充分大的基础上的,一旦样本数量偏少整个识别系统的识别错误率将呈指数趋势升高。而在实际问题中,数量样本往往有限。而且,传统方法的依赖的实际风险最小化(ERM)原则还会导致人工

21、神经网络(ANN)过学习问题。这些都限制了它们在实际应用中的推广。人们认识到这些缺陷,并致力于寻找一种新的方法提高系统性能。支持向量机(Support Vector Machine)14151617是Cortes和Vapnik于1995年首先提出的,是一种新型机器学习方法。它专门针对样本数目有限情况,目标是在现有有限信息的条件下得到最优结果。它以统计学习理论的VC维和结构风险最小化原理为基础,可以通过有限的样本,在模型的复杂性和学习能力之间寻找最佳平衡点。支持向量机在很大程度上解决了模型选择与过学习问题、非线性和维数灾难以及局部极小点等问题,在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中,具有良好的推广泛化能力,是现有语音识别问题的良好解决方案,逐渐被语音识别领域重视,成为语音识别方法研究的重要方向。2.2 语音识别系统从本质上来说,语音识别属于模式识别的一种,即通过对具体的个别样本的分析得到相关的特征,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论