基于MATLAB的语音识别DTW算法设计_第1页
基于MATLAB的语音识别DTW算法设计_第2页
基于MATLAB的语音识别DTW算法设计_第3页
基于MATLAB的语音识别DTW算法设计_第4页
基于MATLAB的语音识别DTW算法设计_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

概 研究的目的和意 国内外发展状 国外研究历史及现 国内研究历史及现 语音识别系统的概 MATLAB中的语音信号的采 wavrecord函 wavplay函 语音信号的端点检 语音信号端点检测的流 短时能 过零率的计 双门限端点检 语音识别参数提 MFCC的基本原 特定人语音识别算法-DTW算 DTW算法原 DTW算法流程及实验成 GUI界面的设 图形顾客界面设计工具的启 测试与分 总 致 参考文 附 基于MATLAB的特定人语音识别算法设化通信过程中最基础、最重要的构成的一部分。由于人类进入信息社会节奏加紧,语MATLAB平台下先语音信号的端点检测、预解决,然后提取特性参(DTW)算法进行匹配,算出匹配成果。最后在顾客开发界面(GUI界面)直观地呈(model,测试库试及识别的语音,011,1~9的数字以对应数字做为文献名的命名。核心词:端点检测;MFCC;DTWAudry系统,它是第一种能够识别十个英文数字的语音识别系统。70年代初。这首先是由于计算机技术的发展为语音识别的实现提供了硬件和软件的可2080年代末:人们终于在实验室突在语音识别中的成功应用。HMMAT&TBellRabinerHMM2090年代中后期实验室研究中得到了不停的提高。比IBMViaVoice和DragonSystemWhisper,SunVoiceTone等。IBM1997ViaVoice语音识别系统,第二年又开发出能ViaVoice'98。它带有一种32,00065,000词,95%。该系统对新闻语音识别含有较高的精度,是现在含有代清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码94.8%(不定长数字串和96.8%(定长数字串5%96.9%(不定长数字串)98.7%(定长数字串5000词邮包校核非特定人持续语音识别系统的识别率达成98.73%,前三选识别率达99.96%;并且能够识别普通话与四川话两种语言,达成实用规定。1998年以来始终由国外公司垄断的历史。2-1语音输 训

2.1MATLAB语音信号的采集也能够使用Windows中的“录音机”录制成.wav格式。而在MATLABwavrecordwavread函数读入,wavplay函数播放,uiputfile函数保存。wavrecordwavrecord的使用方法:y=wavrecord(n,Fs);y=n为样本个数,Fs1102516000,ch为通道12ch1Audiorecorder函数也能够用来录制音频,但在本次设计的操作上,普通采用的语wavrecordwavplaywavplay函数的使用方法:y为输入信号,Fs16int16Windows的音频设备进行播放,3-1所示为采集到的信号波形图。3-14-1status4-1归一化:为了背面解决方便,普通将读取的语音信号进行归一化到[-如“S“C)4-24-2当语音信号幅度超出这个门限时,就当作语音开始,当幅度减少到门限下列时就认为语音结束。x(n),n20-30ms一段,相10ms10-20ms的交叠。由于采样频8kHz的采样频率,30ms240N10ms80M。inxi(n)=x[(i-iNNe(i)|xi(n)e(e(i)x2ne(e(i)logx2n但是这种算法并不可靠,由于人的发音有浊音和清音之分,浊音为声带振动发出,幅其短时能量普通比较小。如声母“c”等的幅度就很低。因此基于短时能量的算法对这些语音信号几乎无能为力。ZCR(i) |xi(n)xi(n1)1。语音和噪声的重要区别在它们的能量上,4-3所示。语音段的能量比噪声段的大,n帧语音信号的短时能量En的定义为:xxE2E mxnn段短时语音,N为帧长。由于在计算时En用下式来替代:En |xn(m)为过零。过零率就是样本变化符号次数,定义语音信号)Zn为:nnnZ11|sgn[x(m)]sgn[x(m1)]nnn2m - 4-3(II)4-4(II)64的短时0值附近来回>δ=0.01。4-3数字“6”4-4数字“4”status分析,status能够分为四种状态:4-54-5双门限端点检测顾名思义需要两级检测,即短时能量检测和短时过零率检测。在4个门限,即分别为短时能量和短时过零率各设立一种高门限EHigh、EowZHgh、ZLow则认为进入了过分段。在过分段中,由于参数数值较小,还不能拟定与否真的进入语音段,只有两个参数的其中一种超越了高门限才被认为是进入语音段。当参数降至低门限则认为进入结束。另外,尚有两种可能会引发端点检测的误判:一是短时噪音引发的误判,此时则需要引入最小语音长度门限进行噪声鉴定,即语音段时间不大于一20ms间空隙引发的误判,此时需要设定最大静音长度门限来减少识别的错误率,本系统所训练和识别的都为单字,故无需设立此门限。4个门限的设定至关重要,门限设定的好坏将直接影响端点MFCC参数的规定以下:为了确保语音识别的实时实现,计算特性参数方便,MFCC5-1所示。Mel频率5-1MFCCMelfMel2595log(1f/MFCCFFTS(n),Mel频率下的功率谱。这必须在计算先前在语音频谱范畴之内设立的几个带通Hm(n)m=0,1,…,M-1;n=0,1,…,N/2-FFT的方便。滤波器是一种简朴的三角形的频域滤波器的中心频率,FM是均匀地8KHz。MFCC系数。MFCC特性系数的计算过程S(n)5-2所示。5-2DTW在各离散频率点上将S(n)Hm(n)的乘积并相加,得到MPm,m=0,1,……特定人语音识别算法-DTWHMMHMM算法相称的复DTW算法。DTW检测来拟定。已存入模板库的各个词条称为参考模板,一种参考模板能够表达为M为该模板所包含的语音帧总数,R(m)m帧语音特性矢R中各个对应帧之间的距离算起。设nm分别是TR中任意选择的帧号,DTW算法中普通采用欧氏距离。性扩张的办法,如果N<M能够将T线性映射为一种M帧的序列,再计算它与6-1所示。它的一条边1,终点为(N,M6-1DTW由于在模板匹配过程中限定了弯折的斜率,因此平行四边形之外的格点对应的帧3个网格,因此没有必要保存全部的帧匹配距离矩阵和累积距离矩阵。充足运用这两个W(1,xa(xa+1,xb(xb+1,,其中:xa=(2M-N)/3,xaxbMN2M-2N-x轴上yy轴上[ymin,ymax]间的帧进行比较,yminymax的计算公式为:2x+(M-2N),xb<x≤Nx/2+(M-N/2),xa<x≤N(1xb(xb+1xa(xa+1Nxy轴上的帧数不同,但弯折特性是同样D(x,y)=d(x,y)+min[D(x-1,y),D(x-1,y-1),D(x-1,y-DTWDTWDTW6-2输 输6-2DTW下来进行动态规划,为每个格点(i,j)1D,2DD(n,m)输出,作为模板匹配的成果。MATLAB(MFCCDTWdist距离。最后得出成果,6-3所示。6.3GUI光标、按键、窗口、菜单、图标、对话框和文本等多种图形对象构成的顾客界面构成了图形顾客界面(GB与顾客的交互办法,使命令窗口不是唯一与BI的使用办法;顾客也不必要理解命令是怎么样执行的,顾客只需通过与界面交互就能够使指定行为能够对的执行。7-1GUI设计模板,选择自7-1GUIGUI界面中放置组件,GUIGUIDEFIGM文献,FIG文献会提示保存途径。双击界面区域内的按钮就会弹出属性窗口,能够修改自己GUI组件后,接下来最重要的一步就是编程每个按钮的回调函数,实现自viewsviewscallbacksMATLABGUIGUI。然后单击菜单栏中7-2的顾客开发界面。所录制的语音,通过保存(uiputfile函数,顾客就能够保存数个录制的语音。通过读取(uigetfile函数,顾客能够打开文献并读取语音信号波形。7-2录制完毕后,点击分析模块中的语音识别控件,系统就会将之前录制好的参考模B7-3。7-3DTW算法来实现语音的识8kHz20ms25680,采用汉明0~10model(参考库,test(测试库)中有若干个1-186%。12345678900-89787998210302311201-1在本次设计也存在着许多需要改善的地方,例如:GUI界面功效比较单一,GUI机器只能识别一种孤立的词、音节等,而不能进行少量词汇的语音识别;DTW算法只选定题目设计到完毕设计,老师总是给我们细心引导和耐心解说。从选课题题目到设计的顺利完毕,陈杰老师都始终予以我耐心的指导。MATLAB[J].北京:电子工业出版社[4]何强,何英.MATLAB[M].[5].MATLAB7.0(修订版).北京:人民邮电出版社,.5[6]DTW[J].微机计算机信息..2[8]DTW[J]..7[9]惠博.语音识别特性提取算法的研究与实现[D].西北大学[10][J].9[11]沈宏余,李英.语音端点检测办法的研究[J].科学技术与工程..8谭保华,熊健民,刘幺和.语音识别技术概述[J].郧阳师范高等专科学校学报赵力.语音信号解决[M].北京:机械工业出版社MFCC蔡妍.语音信号端点检测办法的研究[硕士学位论文][D].江南大学,朱淑琴.语音识别系统核心技术研究[硕士学位论文][D].刘金伟,黄樟钦,侯义斌基于片上系统的孤立词语音识别算法设计[J]计算机工程DTW李景川,董慧颖.一种改善的基于短时能量的端点检测算法[J].沈阳理工大学学报,.6王嘉梅.基于MATLAB的数字信号解决与时间开发.西安:西安电子科技大学出版社 MFCC吴亚栋.语音识别基础[R].上海交通大学计算机系,雷静.语音识别技术的研究及基本实现[D].张雄伟,陈亮,杨吉斌.当代语音解决技术及应用[M].张志敏,郭英,王博.一种基于倒谱特性的语音端点检测改善算法[J].电声技术MATLAB[J].计算机时代徐剐,徐华中.语音信号端点检测的实验研究[J].福建电脑胡光锐,韦晓东.基于倒谱特性的带噪语音端点检测[J].电子学报于迎霞,史家茂.一种改善的基于倒谱特性的带噪端点检测办法[J].计算机工程相征,朗朗,王静.基于基音频能值的端点检测算法[J].安徽工程科技学院学报,functionvarargout=%GUIM-filefor GUI,byitself,createsanewGUIorraisesthe % H=GUIreturnsthehandletoanewGUIorthehandle theexisting% GUI('CALLBACK',hObject,eventData,handles,...)callsthe functionnamedCALLBACKinGUI.Mwiththegiveninput% GUI('Property','Value',...)createsanewGUIorraises existing Startingfromtheleft,propertyvaluepairs appliedtotheGUIbeforeGUI_OpeningFunctiongets unrecognizedpropertynameorinvalidvaluemakesproperty AllinputsarepassedtoGUI_OpeningFcnvia% *SeeGUIOptionsonGUIDE'sTools Choose"GUIallowsonly instancetorun%%Seealso:GUIDE,GUIDATA,%Copyright-TheMathWorks,%Edittheabovetexttomodifytheresponsetohelp%LastModifiedbyGUIDEv2.530-Apr-%Begininitializationcode-DONOTEDITgui_Singleton=1;gui_State= mfilename, gui_Singleton,...'gui_OpeningFcn',@GUI_OpeningFcn,... @GUI_OutputFcn,... [],... ifnargin&&ischar(varargin{1})gui_State.gui_Callback=if[varargout{1:nargout}]=gui_mainfcn(gui_State,

gui_mainfcn(gui_State,%Endinitializationcode-DONOT%---ExecutesjustbeforeGUIismadefunctionGUI_OpeningFcn(hObject,eventdata,handles,%Thisfunctionhasnooutputargs,see% handleto% reserved-tobedefinedinafutureversionof% structurewithhandlesanduserdata(see% commandlineargumentstoGUI(see%ChoosedefaultcommandlineoutputforGUIhandles.output=hObject;%Updatehandlesstructureguidata(hObject,handles);%UIWAITmakesGUIwaitforuserresponse(see%%---Outputsfromthisfunctionarereturnedtothecommandline.functionvarargout=GUI_OutputFcn(hObject,eventdata,% cellarrayforreturningoutputargs(see% handleto% reserved-tobedefinedinafutureversionof% structurewithhandlesanduserdata(see%Getdefaultcommandlineoutputfromhandlesstructurevarargout{1}=handles.output;%---Executesonbuttonpressinfunctionpushbutton1_Callback(hObject,eventdata,% handletopushbutton1(see% reserved-tobedefinedinafutureversionof% structurewithhandlesanduserdata(seeglobala;guidata(hObject,handles);%---Executesonbuttonpressinfunctionpushbutton2_Callback(hObject,eventdata,% handletopushbutton2(see% reserved-tobedefinedinafutureversionof%handles structurewithhandlesanduserdata(seeGUIDATA)globala;guidata(hObject,handles);%---Executesonbuttonpressinfunctionpushbutton3_Callback(hObject,eventdata,% handletopushbutton3(see% reserved-tobedefinedinafutureversionof%handles structurewithhandlesanduserdata(seeGUIDATA)globala;guidata(hObject,%---Executesonbuttonpressinfunctionpushbutton4_Callback(hObject,eventdata,% handletopushbutton4(see% reserved-tobedefinedinafutureversionof%handles structurewithhandlesanduserdata(seeGUIDATA)globala;files(*.*)'},'◻◻◻¨◻◻◻◻◻◻');str=strcat(pathname,filename);guidata(hObject,handles);%---Executesonbuttonpressinfunctionpushbutton5_Callback(hObject,eventdata,% handletopushbutton5(see% reserved-tobedefinedinafutureversionof%handles structurewithhandlesanduserdata(seeGUIDATA)globalm1;globalx1;global file','MultiSelect','on');%guidata(hObject,%---Executesonbuttonpressinfunctionpushbutton11_Callback(hObject,eventdata,% handletopushbutton11(see% reserved-tobedefinedinafutureversionof% structurewithhandlesanduserdata(seeglobalb;guidata(hObject,handles);%---Executesonbuttonpressinfunctionpushbutton12_Callback(hObject,eventdata,% handletopushbutton12(see% reserved-tobedefinedinafutureversionof%handles structurewithhandlesanduserdata(seeGUIDATA)globalb;files(*.*)'},'◻◻◻¨◻◻◻◻◻◻');str=strcat(pathname,filename);guidata(hObject,handles);%---Executesonbuttonpressinfunctionpushbutton14_Callback(hObject,eventdata,% handletopushbutton14(see% reserved-tobedefinedinafutureversionof%handles structurewithhandlesanduserdata(seeGUIDATA)globalb;guidata(hObject,handles);%---Executesonbuttonpressinfunctionpushbutton13_Callback(hObject,eventdata,% handletopushbutton13(see% reserved-tobedefinedinafutureversionof%handles structurewithhandlesanduserdata(seeGUIDATA)globalb;guidata(hObject,%---Executesonbutton

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论