![语音识别方法及发展趋势分析_第1页](http://file3.renrendoc.com/fileroot_temp3/2022-6/6/d1c2bd7b-241d-4c18-ba7d-8e6e7bbd7a33/d1c2bd7b-241d-4c18-ba7d-8e6e7bbd7a331.gif)
![语音识别方法及发展趋势分析_第2页](http://file3.renrendoc.com/fileroot_temp3/2022-6/6/d1c2bd7b-241d-4c18-ba7d-8e6e7bbd7a33/d1c2bd7b-241d-4c18-ba7d-8e6e7bbd7a332.gif)
![语音识别方法及发展趋势分析_第3页](http://file3.renrendoc.com/fileroot_temp3/2022-6/6/d1c2bd7b-241d-4c18-ba7d-8e6e7bbd7a33/d1c2bd7b-241d-4c18-ba7d-8e6e7bbd7a333.gif)
![语音识别方法及发展趋势分析_第4页](http://file3.renrendoc.com/fileroot_temp3/2022-6/6/d1c2bd7b-241d-4c18-ba7d-8e6e7bbd7a33/d1c2bd7b-241d-4c18-ba7d-8e6e7bbd7a334.gif)
![语音识别方法及发展趋势分析_第5页](http://file3.renrendoc.com/fileroot_temp3/2022-6/6/d1c2bd7b-241d-4c18-ba7d-8e6e7bbd7a33/d1c2bd7b-241d-4c18-ba7d-8e6e7bbd7a335.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、语音识别改进方法及难点分析模式识别结课小论文学院:化工与环境学院学号:2120151177姓名:杜妮摘要:随着计算机技术的不断发展,人工智能程度也越来越高,作为人工智能的一部分模式识别也在模型和算法上愈发成熟。本文根据近105年文献,分析最新声音识别的方法和应用。关键字:模式识别 声音识别 方法 应用随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。语音识别大致的流程包括:特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键
2、技术,语音识别在过去的几十年里取得了飞速的发展,人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各步骤,以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献,分析目前语音识别流程中的技术进展和趋势,并在文章最后给出几项语音识别在日常生活中的应用案例,从而分析语音识别之后的市场走势和实际利用价值。一、语音识别的改进方法(一) 特征提取模块改进特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数
3、据量。语音信号的特征分析是语音信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信,语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。目前,针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟,已经能够满足通常应用的要求,并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是目前阶段语音识别研究的重点和难点【1】。由于考虑到人耳的听觉特性, Mel 倒谱系数或感知线性预测系数【2】已经成为目前主流的语音特征向量提取方法之一,加上它们的一阶、二阶差分以及对特征向量进行归一化处理以后, 在
4、大词汇量连续语音识别问题上取得不错的结果。语音识别技术中最流行的特征参数时基于声道模型和听觉机理的LPCC(Linear Predictive Cepstral Coeficients)和MFCC(Mel Frequency Cepstral cocficients)参数,而MFCC在低频段具有较高的谱分辨率,对噪声的鲁棒性优于LPCC,更适合语音识别。但与人听觉系统非凡的感知能力比较,不管是LPCC还是MFCC参数,在不利的噪声环境下,其鲁棒性都会急剧下降。如何在特征提取过程中抽取保持语音信号最重要的特征参数,成为一个急需解决的问题。对语音识别实际应用过程中的噪声问题,付丽辉给出了一种新的抗
5、噪声的特征提取算法,即先利用小波变换将语音信号进行小波子带分解,再根据人耳的听觉掩蔽效应,由谱压缩的技术,将小波变换后的子带语音信号进行压缩,从而提取其对应的语音特征。通过MATLAB软件建立实验平台,仿真实验结果表明该语音特征可以在噪声环境下得到较高的识别率。新的特征参数即充分利用了小波的抗噪声特性又有效地降低了语音识别中的训练环境和识别环境间的失配,具有抗噪声的特点【3】。为克服FIR滤波器存在的通阻带特性差、滤波器阶次高等缺点给语音识别系统带来的不利影响,黄丽霞等人采用Laguerre滤波器组代替过零峰值幅度特征提取中使用的FIR滤波器组进行前端处理。在仔细研究FIR滤波器参数确定方法的
6、基础上,详细介绍了La-guerre滤波器原理及参数计算方法,并给出了计算结果。孤立词、非特定人语音识别实验结果表明,使用Laguerre滤波器不仅使识别系统抗噪性能优于使用FIR滤波器,而且滤波器阶数也大为下降【4】。陈斌等人提出了一种基于最小分类错误(Minimum classification error,MCE)准则的线性判别分析方法 (Linear discriminant analysis, LDA),并将其应用到连续语音识别中的特征变换。该方法采用非参数核密度估计方法进行数据概率分布估计;根据得到的概率分布,在最小分类错误准则下,采用基于梯度下降的线性搜索算法求解判别分析变换矩阵
7、。利用判别分析变换矩阵对相邻帧梅尔滤波器组输出拼接的超矢量变换降维,得到时频特征。实验结果表明,与传统的MFCC特征相比,经过本文判别分析提取的时频特征其识别准确率提高了1。41%,相比于HLDA (Heteroscedastic LDA)和近似成对经验正确率准则 (Approximate pairwise empirical accuracy criterion, aPEAC) 判别分析方法,识别准确率分别提高了1.14%和0.83%【5】。(二) 声学模型训练改善声学模型是语音识别系统的底层模型,是语音识别系统中最为关键的一部分。其目标就是提供一种有效的方法,计算语音的特征矢量序列和每一个
8、发音模板之间的距离。传统的声学建模方式大都基于隐马尔科夫框架,采用混合高斯模型(Guassian mixture model,GMM)来描述语音声学特征的概率分布。针对传统的“隐马尔科夫模型- 高斯混合模型”声学模型,目前常用的解决方案有: 结构化协方差矩阵/精度矩阵建模方法【6】, 即假设不同协方差矩阵或其精度矩阵由若干个低秩(通常是秩为1 的) 基矩阵的线性叠加得到, 各高斯混元通过某种方式共享一组相同的基矩阵;本征三音子(Eigentriphone) 建模方法【7】, 将上下文相关状态进行聚类, 将每一类状态的均值矢量限定在一个线性子空间中, 通过估计子空间中的低维坐标矢量来重构状态的均
9、值矢量,从而得到更为精确的参数估计; 子空间高斯混合模型(Subspace Gaussian mixture model, SGMM)【8】,将高斯混元的均值和权重限制在一个全局参数子空间中, 因此每一个状态可以用一个或若干个低维参数子空间中的矢量来表示, 从而提高模型参数估计的稳健性。与传统的高斯混合模型相比,SGMM 声学模型大大压缩了模型尺寸, 并且可以利用集外数据对参数子空间进行估计,因此特别适用于训练数据量受限条件下的语音识别【9】。张文林等人提出从语音信号声学特征空间的非线性流形结构特点出发,利用流形上的压缩感知原理,构建新的语音识别声学模型。将特征空间划分为多个局部区域,对每个局
10、部区域用一个低维的因子分析模型进行近似,从而得到混合因子分析模型。将上下文相关状态的观测矢量限定在该非线性低维流形结构上, 推导得到其观测概率模型。最终每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定。基于RM 语料库的连续语音识别实验表明,相比于传统的高斯混合模型(Gaussian mixture model,GMM) 和子空间高斯混合模型(Subspace Gaussian mixture model, SGMM),新声学模型在测试集上的平均词错误率(Word error rate,WER) 分别相对下降了33。1% 和9。2 %【10】。由于隐马尔科夫
11、属于典型的浅层学习结构,仅含单个将原始输入信号转换到特定问题空间特征的简单结构,而目前识别挑战越来越严峻,在大量的数据下其性能将会受到限制。随着人工智能的进一步发展,人们开始利用人工神经网络(artificial neural network,ANN)来模拟人类大脑存储及处理信息的相应模型。目前,微软、IBM、Goolge等许多国际知名语音研究机构都投入了大量的经历开展深层神经网络的研究。近年来,微软利用上下文相关的深层神经网(context dependent deep neural network,CD-DNN)进行声学模型建模,并在大词汇连续语音识别上取得相对于经鉴别性训练HMM系统有句
12、错误率相对下降23.2%的性能改善,掀起了深层神经网络在语音识别领域的热潮【11】。为了克服经典语音识别建模方式在大数据环境下的局限性,张晴晴等人提出利用卷积神经网络来完成海量数据下的语音识别。她提出,音识别中,卷积神经网络( Convolutional neural networks, CNNs)相比于目前广泛使用的深层神经网络(deep neural network,DNNs),能在保证性能的同时,大大压缩模型的尺寸。她在文章中深入分析了卷积神经网络中卷积层和聚合层的不同结构对识别性能的影响情况,并与目前广泛使用的深层神经网络模型进行了对比。在标准语音识别库TIMIT以及大词表非特定人电话
13、自然口语对话数据库上的实验结果证明,相比传统深层神经网络模型,卷积神经网络明显降低模型规模的同时,识别性能更好,且泛化能力更强【11】。(三) 语音模型训练改进随着语音识别技术的不断发展, 语言模型在语音识别中的作用也显得越来越重要。由于声学信号的动态时变、瞬时和随机性, 单靠声学模式的匹配与判断不可能完成语音的无误的识别和理解。一些较高层次的语言知识的利用可以在声学识别的层次上减少模式匹配的模糊性, 从而提高识别的准确性。并且一个大词汇量连续语音识别系统必须在每一时刻检测是否遇到语音发音边界, 这样许多不同的字或词将会从不同的语音流中识别出来。为了消除这些字或词之间的模糊性, 语言模型是必不
14、可少的。语言模型可以提供字或词之间的上下文信息和语义信息。语言模型不仅用在语音识别系统中, 而且可以用在机器翻译、信息检索等研究领域【13】【14】。基于隐马尔科夫模型的参数语音合成系统,在采用线谱对参数表征语音频谱特征时,传统MGE训练中使用的欧氏距离生成误差计算方法并不能较好地反映生成频谱与自然频谱之间的真实距离。因此雷鸣等人提出一种基于感知加权线谱对(Line Spectral Pair,LSP)距离的最小生成误差(Minimum Generation Error,MGE)模型训练方法,采用与谱参数无关的对数谱间距(Log Spectral Distortion,LSD)定义的生成误差函
15、数来改善这一问题,但改进后主观效果不明显,且运算复杂度很高【15】。为了克服语音身份确认中语音分割、特征提取和鲁棒性差的困难,朱秉诚等人在深入分析叩齿声音波形特性后,提出一种了一种利用叩齿声音进行身份确认的方法这种方法使用二阶微分方程建立齿震动发声的近似模型,以此为基础提出基于叩齿声音信号的身份确认方法。经过实验证明,叩齿声音信号稳定性强,处理复杂度低于声纹信号,应用于身份识别性能优良。该方法和经典的支持向量机、最近邻算法相比,运算量低,所需训练样本少。【15】(四) 识别搜索算法改进搜索就是在由语句构成的空间当中,按照一定的优化准则,寻找最优句子的过程,也就是利用已掌握的知识(声学知识、语音
16、学知识、词典知识、语言模型知识以及语法语义知识等),在状态(指的是词组、词、建模单元或HMM 的状态)空间中找到最优的状态序列。近年来, 由于信息技术和互联网技术的飞速发展, 人们越来越多地利用嵌入式便携设备作为获取信息的工具。而语音识别技术作为自然方便的人机交互手段, 也已经应用于越来越多的嵌入式设备上。但是由于嵌入式设备的系统资源配置与PC有着很大的不同, 其对计算复杂度和内存消耗有着更为苛刻的限制,尤其是嵌入式设备为满足其低功耗一般都采用尽可能小的动态内存。所以一些较成熟的PC上的语音识别任务往往受限于嵌入式设备自身有限的计算能力和存储量。【17】目前世界上主流的语音识别系统基本是采用H
17、MM框架。基于HMM的语音识别系统通常由声学模型、发音词典、搜索空间、搜索算法模块组成。其中搜索算法是决定系统性能的关键,它决定了如何使用各种资源,而搜索算法又和搜索空间密不可分,搜索空间的构造不仅本身影响着内存的占用,而且也影响着搜索的效率。传统的状态树搜索算法18是让每个词条通过查找发音字典取得音素序列,音素序列根据声学模型里面的决策树19得到相应的音素状态序列。状态搜索树的合并策略是如果两个单词的音素状态序列前缀一致,合并相同的部分,虚节点不允许合并。解码搜索过程中采用基于时间同步的令牌传递(token passing)算法20。开始识别时在root节点放置一个初始令牌(token),之
18、后每来一帧语音数据,在已有的搜索空间中按其拓扑顺序进行令牌传递,每一个令牌记录识别得分并且包括回溯信息。识别过程中为了加快搜索速度,采用动态束剪枝搜索算法21仅使得分较高的令牌继续传递;识别结束时从词尾节点处取得得分最高的令牌并将其回溯,即可得到首选识别结果。邵健等于提出了一种新的高效的树搜索算法,即在原有的基于状态音素搜索树中合并没有分枝的连续的单儿子节点序列成一个节点,称之为超音素节点,超音素节点需要保存被合并的多个节点的状态信息,用状态音素序列来表示。对于SP节点和词标示节点这两类特殊节点同样不作合并。实现了基于超音素搜索树的词条动态添加和删除功能,使得内存占用减少为状态树搜索的40%【
19、22】。2009年蔡塔等人提出了嵌入式语音识别中一种高效的图搜索算法,通过分离声学层和词法层来构建2层图搜索空间,其中声学层记录声学模型相关信息,词法层记录词表语法信息.利用这样简洁的搜索空间可以使语音识别的解码过程更加紧凑有效.实验结果表明,与基线系统相比,所提出的双层图搜索算法在系统解码速度相对提高10%的情况下,系统的动态内存占用仅为基线的8%.【23】二、语音识别的发展分析语音识别的应用范围极为广泛,可应用于各行各业,如医疗卫生服务、语音拨号、智能玩具、智能家居、宾馆服务、军事监听、股票交易、翻译系统、汽车导航、信息网络查询、工业控制等等。语音识别广泛涉及声学、语言学、语音学、生理科学
20、、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科【24】。虽然语音识别近30年内得到了极大地发展,也取得了较为广泛的应用,但应该看到,语音识别依然存在很多问题需要我们解决:(一) 语音识别难点问题分析语音识别还做不到使机器能如同人类一样能“听懂”或理解自然语言,像人与人之间的语言交流一样。主要原因是目前研究工作进展缓慢,主要技术理论没有突破。虽然各种新的修正方法不断出现,但其普遍性和实用性还存在问题。具体的来说有如下:l、语音识别系统的鲁棒性差,对环境依赖严重;2、语音识别系统的灵活性差,不能适应人类灵活、自然的说话方式;3、连续语音流中语音信号的声学特征随与之前后
21、相连的语音的不同而有很大的变化,且各语音单位之间不存在明显的界线,语音切分很困难;4、语音特征变化大。语音特征随发音人的不同、发音人生理或心理状态的变化而有很大的差异;5、语音的模糊性,同音词大量而普遍存在;6、对韵律信息的利用不足;韵律信息指的是说话之中的重音、语调等超音段信息;如何在语音识别中结合韵律信息还有待进一步的研究;7、自然语言的多变性难以借助于一些基本语法规则进行描述,语法、语义规则定义困难。(二) 汉语语音识别特点与难点分析对于汉语语音识别来说除具有一般语音识别的特点外,还有其独特的方面,因为:1、汉语字以单音节为单位,发音时间短,不像英语以多音节为主;2、汉语有大量的同音字;
22、汉语由60个左右的声母和韵母组成40多个无调音节和1200多个有调音节,音节与音节之间相似性大、易混淆;3、中国民族众多,不同地区之间发音变化很大,方言多;4、汉语的字词不分使得词的切分成为汉语语言理解与处理独有和首要的问题;5、灵活自由的语言表述难以用汉语语言知识表示方法来表达。技术服务于生活,生活产生需要,需要又将进一步反作用于技术发展。根据对目前语音识别的技术困难分析,想必语音识别领域未来将针对以上种种语音识别中存在的困难和壁垒,做出新的成果。参考文献【1】. 王炳锡,屈丹,彭煊,实用语音识别基础M国防工业出版社2005年1月,5657【2】. Dahl G E,Yu D。context
23、-dependent pre-trained deep neutral networks for large-vovabulary speech recognition。 IEEE Trans Audio Speech Lang Process,2012,20(1):30【3】. 付丽辉 抗噪声的小波谱压缩特征提取算法在语音识别中的应用。J。量子电子学报。第4期。2009【4】. 黄丽霞,张雪英 Laguerre滤波器在抗噪语音识别特征提取中的应用J。计算机工程与应用。第四期。2008【5】. 陈斌等。基于MCE准则的语音识别特征线性判别分析J。自动化学报。第40卷第6期。2014年6月。【6
24、】. Povey D, Burget L, Agarwal M, Akyazi P, Kai F, Ghoshal A, Glembek O, Goel N, Kara¯µat M, Rastrow A, Rose RC, Schwarz P, Thomas S。 The subspace Gaussian mixture model a structured model for speech recognition。 Computer Speech & Language, 2011, 25(2): 404-439【7】. Ko T, Mak B。 Eigentri
25、phones for context-dependent acoustic modeling。 IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(6): 1285-1294【8】. Olsen P A, Gopinath R A。 Modeling inverse covariance ma-trices by basis expansion。 IEEE Transactions on Speech and Audio Processing, 2004, 12(1): 37-46【9】. Qi J, Wa
26、ng D, Tejedor J。 Subspace models for bottleneck features。 In: Proceedings of the 14th Annual Conference of the International Speech Communication Association。 Lyon, France: ISCA, 2013。 1746-1750【10】. 张文林。基于声学特征空间非线性流形结构的语音识别声学模型【J】,自动化学报。第41卷第5期,2015,12【11】. Dahl G E,Yu D。context-dependent pre-train
27、ed deep neutral networks for large-vovabulary speech recognition。 IEEE Trans Audio Speech Lang Process,2012,20(1):30【12】. 张晴晴。卷积神经网络的连续语音识别J。工程科学学报。第37卷,第9期,1212-1217,2015年9月【13】. Croft , W。B。 and J 。Lafferty , Language Modeling for Informatioan Retrieval M 。 2003 :Kluwer -Academic Publishers 【14】.
28、Ney , H 。, One decade o f statistical machine translation n:1996-2005 C / IEEE Workshop on Automatic Speech Recognition and Understanding (Asru ),2005 :2-2。【15】. Lei Ming。Minimum Generation Error Training Based on Perceptually Weighted Line Spectral Pair Distance for Statistical Parametric Speech Synthesis。J。2010:Pattern Recognition and Artificial Intelligence。【16】. 朱秉诚等
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房屋买卖合同协议书范本下载
- 直播劳务的合同
- 图书销售合同
- 商铺转让租赁合同范本
- 提高团队协作能力的技能培训课程
- 鱼种产品购销合同书样本年
- 2025合同模板修缮修理合同范本
- 隧洞施工合同范本
- 装修房屋托管合同范本
- 购房协议合同
- 成人手术后疼痛评估与护理团体标准
- zemax-优化函数说明书
- 2021年《民法典担保制度司法解释》适用解读之担保解释的历程
- 第02讲 导数与函数的单调性(学生版)-2025版高中数学一轮复习考点帮
- 湖南财政经济学院《常微分方程》2023-2024学年第一学期期末试卷
- 游戏账号借用合同模板
- 2022年中考英语语法-专题练习-名词(含答案)
- 2011年公务员国考《申论》真题卷及答案(地市级)
- 多元化评价体系构建
- 商业模式的设计与创新课件
- AQ/T 4131-2023 烟花爆竹重大危险源辨识(正式版)
评论
0/150
提交评论