版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 中国地质大学(武汉) 数字语音处理课程论文 语音(yyn)识别技术浅析【摘要(zhiyo)】语音(yyn)识别是让机器自动识别和理解语音信号,并把语音信号转变为相应的文本或命令的技术,语音识别作为信息技术中一种人机接口的关键技术,具有重要的研究意义和广泛的应用价值。本文具体阐述了语音识别概念、语音识别原理、模式匹配算法等基本知识,并简要介绍了语音识别技术在各领域的应用。【关键词】语音识别;语音识别概念;语音识别原理;模式匹配算法 Simple analysis of speech recognition technologyAbstract:Speech recognition is to
2、make the machine automatically identify and understand the speech signal, and transform the speech signal into a corresponding text or command, speech recognition as a key technology of human-computer interface in information technology, it has important research significance and broad application v
3、alue. This paper elaborates on the basic knowledge of speech recognition,such as concept ,basic principle ,the pattern matching algorithm ,and briefly introduces the application of speech recognition technology in all fields.Key words:speech recognition;recognition concept;recognition principle;patt
4、ern matching algorithm引言:语言是人类创造的,是人类区别于其他地球生命的本质特征之一。语音是语言最本质、最自然、最直接的表现形式或载体,是人类交流中最常用的工具。让机器能够听懂人类语言,是人类梦寐以求的理想。用语音实现人机交往主要包括3项技术,即语音识别、自然语音理解和语音合成。作为智能计算机研究的主导方向和人机语音通信的技术,语音识别技术在工业、交通、军事、医学、民用诸方面,特别是在计算机、信息处理、自动控制、通信与电子系统等领域有着广泛的应用。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。1 语音识别概念 语音识别是将人类的声音信号转
5、化为文字或者指令的过程。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域。 根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括(boku):根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。 语音(yyn)识别原理2.1 语音信号(xnho)时域模型语音是
6、由空气流激励声道产生的。对于浊音、清音和爆破音三种不同类型的音来说,激励源是不同的。浊音激励源是位于声门处的准周期脉冲序列,清音的激励源是位于声道的某个收缩区的空气湍流(类似于噪声),而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。语音生成系统分为三个部分,在声门(声带)以下,称为声门子系统,它产生激励振动,是激励系统:从声门到嘴唇的呼气通道是声道系统:语音从嘴唇辐射出去,所以嘴唇以外是辐射系统。因此,完整的语音信号的数学模型可以用三个子模型:激励模型、声道模型和辐射模型的串联表示。语音信号产生的时域模型如图1所示: 图1 语音信号时域模型2.2 语音信号分析基础 语音信号的
7、分析主要有时域分析和频域分析两种,其他还有倒谱域分析等。语音信号是一种典型的非平稳信号。语音的形成过程与发音器官的运动密切相关,这种物理运动比起声音振动速度来讲要缓慢得多,因此语音信号可假定为短时平稳的,其频谱特性和某些物理参数在10-30ms时间段内是近似不变的,对语音信号进行处理都是基于这个假设。 语音信号的时域分析参数主要(zhyo)有短时能量、短时平均幅度、短时过零率等,这些参数主要用在语音端点检测中。频域分析参数主要有基音频率、滤波器组参数、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱对参数(LSP)、MEL频率倒谱系数(MFCC)等。2.3 语音(yyn)识别系统面对
8、不同的任务,语音识别系统有不同的设计方案,但是其模型思想和系统的结构是大致相同的。其基本思想为: 将语音信号加在识别系统的输入端,首先进行预处理,再根据人的语音特点(tdin)建立语音模型,对输入的语音信号进行分析并抽取所需要的特征,在此基础上建立语音识别所需要的模板。在识别过程中,要根据语音识别的模型,将计算集中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略找出一系列最优的与输入语音匹配的模板,然后根据此模板的定义找出对应的识别结果。语音识别系统结构如图2所示: 图2 语音识别系统结构2.3.1语音信号的数字化为了分析说话人的语音,就要将话筒中传来的语音信号转换成计算
9、机所能处理的数字信号。通过对语音信号特性的分析表明,浊音语音的频谱一般在4KHz以上便迅速下降。而清音语音信号的频谱在4KHz以上频段反而呈上升趋势,甚至超过了8KHz以后仍没有明显下降的苗头。实验表明语音清晰度和可懂度有明显影响的成分最高频率约为5.7KHz。而语音信号本身的冗余度又比较大,少数辅音清晰度下降并不明显影响语句的可懂度。因此语音识别时常用的采样频率为10KHz或16KHz。2.3.2 语音信号的预处理语音信号中含有丰富的信息,预处理的目的就是要找到信号中语音开始和结束的位置,也就是需要对语音进行端点检测。有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使
10、识别系统具有良好的识别性能。整个预处理过程分为以下3步:预加重,为了消除声门激励和口鼻辐射的影响,需要对语音信号作预加重理。它的目的在于消除低频干扰尤其是50Hz的工作频率干扰,将对语音识别更为有用的高频部分的频谱进行提升。使信号的频谱变的平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析。预加重数字滤波器一般是一阶高通数字滤彼器。 语音分帧,语音信号常常可假定为短时平稳的,即在10-20ms这样的时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。这样就可以采用平稳过程的分析处理方法来处理了。这种处理的基本方法是将语音信号分隔为一些短段即分帧再加以处理。分帧可
11、以采用连续分段的方法,也可采用交叠分段的方法。一般采用交叠分段的方法,即帧与帧之间有交叠,交叠的目的(md)是使帧与帧之间平滑过渡,保持其连续性。语音信号处理的帧长一般取20ms,为了减小语音帧的截断效应,通常需要进行加窗处理。语音信号的分帧示意图如图3所示: 图3端点检测,端点检测的目的就是从连续的声音中间检测出每一段语音的起始点和终止点,从而达到(d do)节省系统资源,方便实时分析的效果。一种广泛流行的行之有效的语音起止点的判别方法是所谓的两级判决法。具体说,首先用短时能量作第一次判别,然后在此基础上用短时平均过零率作第二次判别。2.3.3语音(yyn)信号特征参数提取特征提取就是对语音
12、信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得语音信号中表征人的基本特征的信息。因此,特征信息必须能够有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。线性预测分析是最有效和广泛的语音分析技术之一,其基本思想是: 语音信号采样点之间存在相关性,可以用过去的若干采样点或者它们的线性组合预测现在或将来的样点值。可以通过使实际语音采样值和线性预测采样值之间的均方误差最小得到一组唯一的线性预测系数( LPC)。线性预测倒谱系数( LPCC) 是线性预测系数( LPC) 在倒谱域中的表示。该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数。LPCC参数的优点是计算量小
13、,易于实现。 模式匹配算法 目前针对各种特征参数提出的模式匹配方法的研究越来越深入。典型的方法有:矢量量化方法、高斯混合模型方法、隐马尔可夫模型方法、动态时间规整( DTW)方法和人工神经网络方法。这些方法都有各自的优点和缺点。其中DTW算法对于较长语音的识别,模板匹配运算量太大,但对短语音的识别既简单(jindn)又有效,而且并不比其他方法识别率低,特别适用于短语音、与文本有关的说话人识别系统,并能解决发音长短不一的匹配问题,因此在孤立词识别中既简单又有效。语音信号具有很强的随机性,不同的发音习惯,发音时所处的环境不同,心情不同都会导致发音持续时间长短不一的现象。如单词最后的声音带上一些拖音
14、,或者带上一点呼吸音,此时(c sh),由于拖音或呼吸音会被误认为一个音素,造成单词的端点检测不准,造成特征参数的变化,从而影响测度估计,降低识别率,因此在语音识别时,首先有必要对语音信号进行时间规整 。由于在此之前就已经对语音信号进行了加窗分帧,因此可以认为每一个(y )语音模板都可以用R = R(1),R(2) ,R(m) ,R(M) 来表示,其中,R(m) 为第m帧的语音特征矢量,M为总帧数。动态时间规整是把时间规整和距离测度计算结合起来的一种非线性规整技术。假设测试和参考模板分别用T 和R 表示,为了比较它们之间的相似度,可以计算它们之间的距离D T,R,距离越小则相似度越高。为了计算
15、这一失真距离,应从T和R 中各个对应帧之间的距离算起。在DTW算法中通常采用欧氏距离,设n 和m 分别是T 和R 中任意选择的帧号,则有: D T(n),R(m)=因为一般情况下参考模板和待匹配模板的长度不相等,MN,因此要考虑将T( n) 和R(m)对齐,对齐主要采用的是动态规划(DP)的方法。 将测试模板的各个帧号n=1 N在一个二维直角坐标系中的横轴上标出,把参考模板的各帧号m=1 M在纵轴上标出,通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网格,网格中的每一个交叉点( n,m) 表示测试模式中某一帧与训练模式中某一帧的交汇点。DP算法可以归结为寻找一条通过此网格中若干格点的路径
16、,路径通过的格点即为测试和参考模板中进行距离计算的帧号。路径不是随意选择的,所选的路径必定是从左下角出发,在右上角结束。DTW算法示意图如图4所示: 图4传统的DTW算法虽然可以成功的应用于小词汇量语音识别,但是它并不是一种有效的利用统计方法进行训练的算法,其主要缺点是模式匹配的运算量太大。对于2个模式分别长为M帧和N帧,其动态规划的总运算次数为M* N 次才能(cinng)找到时间弯折函数。当帧长度较长以及进行大词汇量的孤立词语音识别时,这个问题就更加突出。因此,若希望该算法能顺利移植到单片系统之上,必须对算法进行改进以便对计算量进行限制。假设(jish)在匹配过程中路径通过的所有格点依次为
17、(n1,m1) ,( ni,mi) ,(nM,mN)。因为匹配过程遵循(zn xn)路径最短的原则,可以认为,最短路径一定不至于太过倾斜,因此,为了减少计算量,可以约束路径的斜率在一定范围之内。这里采用02之间,故若路径已经通过了点( ni,mi) ,那么它之前的点只可能是(ni- 1,mi) ,(ni -1,mi -1)和(ni-1,mi-2) 之间的一个。如图5所示: 图5这样,匹配过程中许多格点实际上是达不到的,因为每一列各格点上的匹配计算只用到了前一列的3个网格,可以大大缩短匹配中的计算量。设dT( ni) ,R(mi)表示两帧之间的距离,有:D( ni,mi) = dT(ni) ,R
18、(mi)+D(ni-1,mi-1),D(ni-1,mi-1)= minD(ni-1,mi),D(ni-1,mi-1) ,D(ni-1,mi-2),按照此种算法计算出的最小累计距离的路径即为最佳路径。 语音识别技术的应用语音识别技术(jsh)有着非常广泛的应用领域和市场前景。在语音输入控制系统中,它使得人们可以甩掉键盘,通过识别语音中的要求、请求、命令或询问来作出正确的响应,这样既可以克服人工键盘输入速度慢,极易出差错的缺点,又有利于缩短系统的反应时间,使人机交流(jioli)变得简便易行,比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中,人们通过语音命令,可以方便地
19、从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译,即通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言的语音输入翻译为另一种语言的语音输出,实现跨语言交流。语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发,并在军事领域首先应用、首获成效的,军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前,语音识别技术已在军事指挥和控制自动化方面得以应用。比如,将语音识别技术应用于航空飞行控制,可快速提高作战效率和减轻飞行员的工作负担,飞行员利用语音输入来代替传统的手动操作和控制各种开关和设备(shbi),以及重新改编或排列显示器上的显示信息等,可使飞行员把时间和精力集中于对攻击目标的判断和完成其它操作上来,以便更快获得信息来发挥战术优势。 结语本文结合课本所学知识以及查阅相关资料对语音识别技术作了一个浅显的分析,其中关键点在于模式匹配算法,这里主要介绍了动态时间规整(DTW)算法,并对传统的DTW算法作了一定的改进。语音识别技术的研究工作对于信息化社会的发展,人们生活水平的提高等方面有着深远的意义。随着
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 市场部年终工作总结工作计划课件模板
- 2024年度二手电脑交易合同书2篇
- 2024年磨豆机行业政策分析:磨豆机行业标准提升产品质量
- 赞美母爱的力量
- 二零二四年度城市轨道交通建设项目施工合同3篇
- 二零二四年度版权许可使用合同标的及使用期限规定3篇
- 二零二四年度体育运动器材采购与销售合同3篇
- 片形吸虫病的临床护理
- 2024年度医疗器械维修保养合同2篇
- 二零二四年农产品订购合同3篇
- 炼钢厂安全生产教育培训课件
- 拼音四线三格A4打印版
- 机械专业职业生涯发展报告
- 生物技术为精准医疗注入新动力
- MBD数字化设计制造技术
- 部编版道德与法治五年级上册中华民族一家亲第一课时课件
- 2024年金融科技行业的数字化金融培训
- 医疗服务中的人文关怀
- 《商务经理区域》课件
- 急诊护理人文关怀标题课件
- 家校携手家校共育家长会
评论
0/150
提交评论