语音识别技术论文_第1页
语音识别技术论文_第2页
语音识别技术论文_第3页
语音识别技术论文_第4页
语音识别技术论文_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、摘要:语音识别技术是一门涉及面很广的交叉学科。随着新理论的提出和应用,语音识别 技术取得了很大的进步,许多产品已经得以实际的应用,但在其进一步的发展进程中,还有 许多棘手的问题有待解决。关键词:语音识别;动态时间规整算法;人工神经元网络1背景介绍语言是人类特有的功能,是人们思维最重要的寄托体,是人类交流最主要的途径。语音 是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。语言和语音与人类 社会科学文化发展紧密相连。语音识别技术是让机器接收,识别和理解语音信号,并将其转换成相应的数字信号的 技术。它是一门交叉学科,涉及到语音语言学、数理统计、计算机、信号处理等一系列学 科。2发展历史

2、1952年贝尔实验室的Davis等人研制成功了能识别十个英文数字发音的Audry系统, 标志着语音识别技术研究工作开始。20世纪60年代计提出了动态规划(Dynamic programming)和线性预测分析技术(Liner Predictive)等重要成果。20世纪70年代, 语音识别领域取得了突破。实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别 系统。20世纪80年代语音识别研究进一步走向深入基于特定人孤立语音技术的系统研 制成功,隐马尔可夫模型和人工神经元网络(Artificial Neural Network)在语音识别中的成 功应用。进入20世纪90年代后语音识别系统开始从实

3、验室走向实用。我国对语音识别的 研究开始于20世纪80年代,近年来发展迅速,并取得了一系列的成果。3具体应用随着计算机技术、模式识别等技术的发展,适应不同场合的语音识别系统相继被开发 出来,语音识别及处理技术已经越来越突现出其强大的技术优势。近三十年来,语音识别 在计算机、信息处理、通信与电子系统、自动控制等领域的应用越来越广泛。在许多政府部门、商业机构,语音识别技术的应用,可免除大量操作人员的重复劳动, 既经济又方便。如:语音邮件、IP电话和IP传真、电子商务、自动语音应答系统、自动 语音信箱、基于IP的语音、数据、视频的CTI系统、综合语音、数据服务系统、自然语音 识别系统、专家咨询信息服

4、务系统、寻呼服务、故障服务、秘书服务、多媒体综合信息服 务、专业特别服务号(168自动信息服务系统,112、114、119等信息查询系统)等。许多 特定环境下,如工业控制方面,在一些工作环境恶劣、对人身有伤害的地方如地下、深水 及辐射、高温等)或手工难以操作的地方,均可通过语音发出相应的控制命令,让设备完成 各种工作。当今,语音识别产品不仅在人机交互中,占到的市场比例越来越大,而且在许多领域 都有了广阔的应用前景,在人们的社会生活中起着举足轻重的作用。4语音识别系统原理语音识别一般分为两个步骤:学习阶段和识别阶段。学习阶段的任务是建立识别基本 单元的声学模型以及语言模型。识别阶段是将输入的目标

5、语音的特征参数和模型进行比较, 得到识别结果。语音识别过程如图所示。下面对该流程作简单介绍:ritUJ-,仁畚数一一一I Q诺音堆到*国互I序:_ ft*,* *Q由魂、由|(1)语音采集设备如话筒、电话等将语音转换成模拟信号。(2)数字化一般包括预滤波、采样和A/D变换。该过程将模拟信号转变成计算机能 处理的数字信号。(3)预处理一般包括预加重、加窗分帧。经预处理后的信号被转换成了帧序列的加 窗的短时信号。(4)参数分析是对短时信号进行分析,提取语音特征参数的过程,如时域、频域分 析,矢量量化等。(5)语音识别是目标语音根据特征参数与模型库中的参数进行匹配,产生识别结果 的过程。一般有模板匹

6、配法、随机模型法和神经网络等。(6)应用程序根据识别结果产程预定动作。(7)该过程是语音模型的学习过程。5现有算法介绍语音识别常用的方法有:模板匹配法、人工神经网络法。模板匹配法是语音识别中常用的一种相似度计算方法。模板匹配法一般将语音 或单词作为识别单元,一般适用于词汇表较小的场合。在训练阶段,对用户语音进行特征 提取和特征维数的压缩,这个过程常用的方法是采用矢量量化(VQ)技术。然后采用聚类 方法或其他方法,针对每个模式类各产生一个或几个模板。识别阶段将待识别的语音模式 的特征参数与各模板进行相似度的计算,将最高相似者作为识别结果。但由于用户在不同 时刻发同一个音的时间长度有较大随意性,所

7、以识别时必须对语音时间进行伸缩处理。研 究表明,简单的线性伸缩是不能满足要求的。由日本学者板仓在70年代提出的动态时间 伸缩算法(DTW)很好的解决了这一问题。DTW算法能够较好地解决小词汇量、孤立词 识别时说话速度不均匀的难题。DTW算法示意图如图所示。设测试的语音参数共有M帧矢量,而参考模板有N帧矢量,且M手N,则DTW就是 寻找一个时间归整函数tn=f(tm),它将测试矢量的时间轴tm非线性地映射到模板的时间 轴tn上,并使该函数满足第k帧(k=1,2, . M)测试矢量I和第取)帧(f(k) = 1,2. N) 模板矢量J之间的距离测度之和最小:。2邸出-1血史1一J六Q)at另外,在

8、实际识别系统中,语音的起点或终点由摩擦音构成,环境噪声也比较大,语 音的端点检测会存在较大的误差。DTW算法起点点可以固定在(tm,tn) = (1,1),称为固定 起点;也可以选择在(1,2)、(2, 1)等点,称为松驰起点。同样,中止点可以选择在(M,N) 点,称为固定终点;也可以选择在(N 1,M)、(N,M 1)等点,称为松弛终点。松弛的 DTW算法的起始点从(1, 1)、(1, 2)、(2, 1)等点中选择一最小值,终止点从(M,N)、 (M,N-1)、(M-1,N)等点中选择一最小值,两语音样本之间的相互距离在相应的点放松后选 择一最小距离。松弛DTW可以克服由于端点检测不精确引起

9、的误差,但运算量加大。人工神经网络法。现实世界的语音信号会随着许多特征如:说话人语速、语调 以及环境的变化而动态变化的,想要用传统的基于模板的方法建立一个适应动态变化的语 音识别系统是非常困难的。因此需要设计一个带有自学习能力的自适应识别系统,以便可 以适应语音的动态变化。人工神经网络由神经元、网络拓朴和学习方法构成。人工神经网络拓朴结构可分为反 馈型和非反馈型(前馈型)。学习方法可分为监督型和非监督型。各种人工神经网络模型 中应用得最典型的是采用反向传播(Back Propagation)学习算法的多层前馈网络。多层 前馈型网络如图所示。除上述介绍的几种常用的方法外,还有许多其它的识别方法以

10、及改进算法。6尚未解决的问题及值得研究的方向(1)就算法模型方面而言,需要有进一步的突破。声学模型和语言模型是听写识别 的基础。目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型, 而要使计算机确实理解人类的语言,就必须在这一点上取得进展。(2)语音识别的自适应性也有待进一步改进。同一个音节或单词的语音不仅对随着 的讲话者的不同而变化,而且对同一个讲话者在不同场合不同上下文环境中也会发生变化。 这意味着对语言模型的进一步改进。(3)语音识别技术还需要能排除各种环境因素的影响。目前,对语音识别效果影响 最大的就是环境杂音或噪音。要在嘈杂环境中使用语音识别技术必须有特殊的抗噪麦

11、克风 才能进行,这对多数用户来说是不现实的。在公共场合中,如何让语音识别技术能有摒弃 环境嗓音并从中获取所需要的特定声音是一个艰巨的任务。虽然在短期内还不可能造出具有和人相比拟的语音识别系统,但在未来几年内,语音 识别系统的应用将更加广泛,各种语音识别系统产品将陆续进入我们的生活。语音识别各 个方面的技术正在不断地进步,一步步朝着更加智能化的方向发展。参考文献1 杨尚国,杨金龙.语音识别技术概述J 福建电脑,2006 ,(8 ).2 孙宁,孙劲光,孙宇.基于神经网络的语音识别技术研究J.计算机与数字工程, 2006.3 Phil Woodland. Speech Recognition. Speech and Language Engineering-State of the Art (Ref. No. 1998/499).4 Morgan, N. Bourlard, H.A.Neural networ

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论