第五章 实验及总结_第1页
第五章 实验及总结_第2页
第五章 实验及总结_第3页
第五章 实验及总结_第4页
第五章 实验及总结_第5页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章实验及总结5.1实验准备及步骤实验平台为Windows平台上,采用Matlab数学工具通过完成程序而实现的。本实验主要采用DTW算法实现语音识别。首先,我们使用windows自带的录音器,分别由我和合作者黄博录入了4组数据(1人两组),每组8个音频文件,本别为从“一”到“八”的汉语发音。其中一组为参考模板,另外一组为测试模板。首先用wavread函数读入wav文件,用mfcc函数获得其MFCC参数,用vad函数对其进行端点检测,并保存语音部分的MFCC参数到参考模板的机构数组ref(i).mfcc中。我们比较一下两个人的语音端点检测的短时信号图:图5-1说话者A发音的vad输出(1)——横轴:时间(单位:秒)纵轴:能量——(单位:eV)(上图)语音原始信号;Energy短时能量(单位:eV);ZCR过零率(单位:%)图5-2说话者A发音的vad输出(2)——横轴:时间(单位:秒)——纵轴:能量(单位:eV)(上图)语音原始信号;Energy短时能量(单位:eV);ZCR过零率(单位:%)图5-3说话者B发音的vad输出(2)——横轴:时间(单位:秒)——纵轴:能量(单位:eV)(上图)语音原始信号;Energy短时能量(单位:eV);ZCR过零率(单位:%)Vad函数的功能就是通过端点检测功能甄别出语音信号的起始点与结束点,图中的红线就是程序标记的语音信号始末点,可以看出,杂音基本被排除,效果是非常明显的。同时,从以上三个图的对比可以看出,不同发音者的发音波形及特性有较明显区别。原始波形中,发音者A的波形在横轴两端不对称,而发音者B的波形在横轴两端比较对称;能量波形中,两者的区别更加明显:发音者A的能量高峰在语音后部,发音者B的能量高峰在语音前部;过零率波形中也可以明显看出两个人的区别。端点检测下的短时能量分析只是语音识别的第一步,但是通过该步骤已经可以粗略的区别出不同发音者,并且可以进一步分析发音者语音信号的特点。由此证明了端点检测在语音识别中是非常重要的。5.2实验结果及讨论本实验的MATLAB运行环境中输出结果如下列图所示:图5-4说话者A的两组语音匹配结果及距离匹配矩阵图6说话者B的两组语音匹配结果及距离矩阵从输出记过看,识别具有了一定程度的正确度。为了进一步验证结果,看一下匹配距离矩阵dist的数据如下图所示:距离矩阵的对角线上是正确匹配模板的对应分数,可见对角线上的8个数值中有50%都是在本行中最小的,由此验证了识别结果的正确性。图5-5说话者B的两组语音匹配结果及距离匹配矩阵图5-6说话者A和B的语音匹配结果及距离匹配矩阵图5-7说话者A和B的匹配矩阵的三维曲面图图5-8说话者A和B的匹配矩阵的的三维柱状图图5-9说话者A和B的匹配矩阵的灰度视图结果显示:说话者A的自匹配识别率为89%,说话者B的自匹配识别率也为89%,而A和B之间的识别率为62%。图5-4,图5-5,图5-6中的匹配矩阵元为每个语音信号和参考模板中所有共8个语音信号的匹配距离,可以看出,在正确识别情况下,矩阵对角线上的矩阵元是本行中最小的(同一个语音信号和自己匹配距离最小),在匹配失败的情况下,对角线上的矩阵元也是次最小的。这一结果说明了DTW的可靠性和稳定性。图5-7,图5-8,图5-9以不同方式直观的显示了矩阵元的大小关系。X轴表示说话者A的语音信号编号,Y轴表示说话者B的语音信号编号,Z轴表示矩阵元的大小。三维曲面图中的蓝色部分,灰度图中的全黑色部分为数值较小区域,可以看书,这个区域基本是在对角线上的。灰度图中的红色连线便显示了黑色方块分布在对角线上及附近。自匹配的识别准确率达到90%,而不同发音者之间的识别率有明显下降,为60%。这也是显示出DTW算法在非特定人语音识别中不如特定人语音识别准确。文献[1]指出,使用DTW算法的特定人孤立字语音识别率能高达近100%,而我们始终无法达到这一效果。有几方面的原因:1.录音设备和程序偏简单。一个非常良好和精确的模板库是高效率语音识别系统的基础。我们使用简易麦克风和windows自带录音程序可能无法建立一个完备的模板库。2.DTW算法自身的缺陷。DTW自身算法只适用于孤立字语音识别,而且是简单字。因此识别机理上更加先进的HMM和ANN方法能够满足更高的要求。对DTW算法进行改进(比如端点检测)已经提高了该算法的识别率。3.DTW算法仅限于孤立字的语音识别,而连续语音的识别目前来说还比较难以达到高的识别率,这也是今后语音识别课题研究发展的方向。5.3实验结论课题最终在MATLAB平台的基础上基本实现了个别个体的特定语音识别,基本上达到了预定的目的。基于DTW模型的语音识别简单的说就是通过MATLAB的程序段,将待识别的语音信号与数据库中的模板进行相似度对比,将相似度最高者最为识别结果输出,同时DTW的识别效率取决于参考模板的清晰度以及广泛度,如果能够建立一个范围庞大而且清晰的特定人语音库,将能够大大提高语音识别的效率。我们的试验由于时间以及外部设备的关系,难以组建一个非常精确的参考样本,因此识别的效率略微偏低,不过已经足够说明DTW识别算法在特定人孤立字语音识别中的巨大作用。本文对于DTW算法提出了几条在实际操作中切实可行的改进建议,并对MFCC参数编程和ANN的应用进行了探讨。在程序中,由于受数据库的局限,并没有实现对于语音的模糊识别,但个别个体的特定语音识别也具有广泛的用途。参考文献:[1]RabinerL,JuangBH.FundamentalsofSpeechRecognition,Prentice-HallInternational.Inc,1999,p.17[2]D.G.Childers,Matlab之语音处理与合成工具箱(影印版),清华大学出版社,2004,p.45-51[3]黄文梅,熊桂林,杨勇,信号分析与处理—MATLAB语言及应用,国防科技大学出版社,2000,p.37-40[4]杨行峻,迟惠生,“语音数字信号处理”,电子工业出版社.1995[5]张焱,张杰,黄志同,语音识别中动态时间规整和隐马尔可夫统一模型数据采集与处理1997年03期p.218-222[6]何强,何英,MATLAB扩展编程[M],清华大学出版社,2002p.345-347[7]RabinerLandJuangBH.IntroductiontohiddenMarkovmodels,IEEEASSPMag,vol.3,no.1,4-16,1986[8]HuangXD.HiddenMarkovModelsforSpeechRecognition,EdinburghInformationTechnologySeries.1999(7):136-202[9]RabinerL,AtutorialonhiddenMarkovmodelsandselectedapplicationsinspeechrecognition,Proc,ofIEEE,77(2)257-286,1989[10]Jen+TzungChien,PredictiveHiddenMarkovModelSelectionforSpeechRecognition,IEEETransactiononSpeechandAudioProcessing,vol.13,No.3,May2005[11]谢锦辉,隐Markov模型(HMM)及其在语音处理中的应用,华中理工大学出版社.[12]ChristophGerber,AGeneralApproachtoSpeechRecognition,ElectronicWorkshopsinComputing,1995[13]XuBo,FENGYuguang,YUJinsong,IntelligentclassifierfordynamicfaultpatternsbasedonHiddenMarkovModel[14]MATLABPrimer,seventhedi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论