研二模式识别语音_第1页
研二模式识别语音_第2页
研二模式识别语音_第3页
研二模式识别语音_第4页
研二模式识别语音_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DTW:语音信号;短时;MFCC;动态时间规近年来,语音识别已经成为一个非常活跃的研究领域。在不远的将来,语音识别技术有可能作为一种重要的人机交互,辅助甚至取代传统的键盘、鼠标等输入设备,在个人计算机上进行文为广阔的发展前景2。在特定人孤立词语音识别中,最为简单有效的方法是采用DTW(DynamicTimeWar,动态时本文就是在基础上来进行语音信号参数的分析与语音信号的识别的。语音信号是一种典型的非平稳信号。但是,由于语音的形成过程是与发音的运动密切相关是最早使用,也是应用最广泛的法,这种方法直接利用语音信号的时域波形。时域分析通常过零就是信号通过零值。对于连续语音信号,可以其时域波形通过时间轴的情况。对于离符号的次数。单位时间内的过零数称为平均过零数。短时过析通常用在端点侦测,特别是用来短时分析在运用离散时间变换分析语音信号的变化时,会遇到这样的问题,即单一的变换并时间变化的频谱信息,诸如时变峰和谐波。具体而言,通常将信号的每一时刻与其相邻时刻信号的变换相联系,这样就可以及时信号的频谱变化。语音信号的短时变换见程序所述。可以验证,在短时分析中对于同一种窗函数而言,其通带宽度与窗长成反比。如果希望分析的时间分辨率和频率分辨率是相互的,这是短时本身所固有的弱点。短时傅通过基于和短时频域分析,能够得出[7]:第一,长窗具有较高的频率分辨率,但具有较低的时间分辨率。从一个周期到另一个周期,峰是要发生变化的,这一点即使从语音波形上振峰从一个周期到另一个周期所发生的变化。当然,激励源的谐波结构也从短时频谱上了。第三,在对语音信号进行短时分析时,窗长需要折衷考虑。一方面,短窗具有较好的时间分辨够较好反映短时语音信号的频谱,窗越宽这种近越好。1所示:1DTW2通常,规整函数被限制在一个平行四边形的网格内,如图2所示。它的一条边斜率为2,另一条1,终点为(N,M由于在模板匹配过程中限定了弯折的斜率,因此平行四边形之外的格点对应的帧匹配距离是不3充分利用这两个特点可以减少计算量和空间的需求W22(1xa(xa1,xxb,,其中:xa=(2M-N)/3,xaxbM和Nx轴上的每一帧不再yy轴上[ymin,ymax]间的帧进行比较,yminymax的计算为:2x+(M-2N),xb<x≤Nx/2+(M-N/2),xa<x≤N(1,xb(xb+1,xa(xa+1,Nxy轴上的帧数不同,但弯折特性是一样的,累积距离D(x,y)=d(x,y)+min[D(x-1,y),D(x-1,y-1),D(x-1,y-验语音数据,是在条件下利用PC机录制。采用8000kHz采样频率、16bit量化、单声道的N256M128点。ω(n)=0.54-0.46cos(2πn/(N-1)),0≤n≤N-H(z)=1-0.937时能量设置2个门限ampl和amph,以及过零率阀值zcr。语音起始点从第11帧开始检测,其流程3。语音结束点的检测方法与检测起点相似,但此时从后向前搜索。图 本文选取能够反映人对语音的感知特性的Mel频率倒谱系数(MFCC)12。09的对软件编程也有了一定的理解,为将来从事这方面的课题打下了坚实的基础。:[1].语音编码[M].西安:西安电子科技大学:

扩展编程

.实用语音识别基础[M].:国防工业 [4]初,等.语音信号处理[M].:国防工业[5].语音信号处理[M].哈尔滨:哈尔滨工业大学::[7],等.实用语音识别基础[M].:国防工业

:[8]林波,.基于DTW改进算法的弧立词识别系统的仿真与分析[J].,2006,30(4):56-:

[10].语音信号端点检测算法研究[D].长沙:湖南师范大学fori=1:10[x1x2]=vad(x);fori=1:10 %采样 %语音信 xlabel('Frequencyinrad/sample')ylabel('MagnitudeindB') xlabel('Frequencyinrad/sample')ylabel('Phaseindegrees') %变换% %FFT%title('fft变换后信号') %反变换%title('ifft后信号%短时变 % % %计算把数据x共分成多少段 %FFT的长度 fori=1:Tn %FFT变换 %0for %TFtitle('短时变换时频图')fori=1:10[x1x2]=vad(x);fori=1:10forfori=1:10fprintf('测试模板%d的识别结果为:%d\n',i-1,j-1);functiondist=dtw(t,r)fori=1:nforfori=2:nforj=1:mififj>2functionf=enframe(x,win,inc)if(nwin==len=win;len=if(nargin<3)inc=len;nf=fix((nx-len+inc)/inc);indf=inc*(0:(nf-1)).';inds=(1:len);f(:)=x(indf(:,ones(1,len))+inds(ones(nf,1),:));if(nwin>1)w=f=f.* function[x,mn,mx]=me ifnargin<6ifnargin<5ifnargin<4%converttofftbinnumberswith0forDCtermbl=n*((f0+fl)*exp([01pp+1]*lr)-f0);ifany(w=='y')r=[ones(1,b2)fpfp+1p*ones(1,fn2-b3)];c=[1:b3+1b2+1:fn2+1];v=2*[0.5ones(1,b2-1)1-pf+fppf-fpones(1,fn2-b3-1)0.5];

r=[fp(k2:k4)1+fp(1:k3)];c=[k2:k41:k3];v=2*[1-pm(k2:k4)pm(1:k3)];ifelseifany(w=='m')ifnargout>1function%mel %DTC系数fork=1:12xx=filter([1-%MFCCfori=1:size(xx,1)fori=3:size(m,1)-2%mfccmfccccc=[mfunctionmaxsilence=3;%3*10ms=30msminlen=15;%15*10ms=150ms%%amp=sum(abs(enframe(filter([1-forn=1:length(zcr)switch ifamp(n)>amp1确信进入语音段elseifamp(n)>amp2zcr(n)>zcr(2)可能处于语音段else%静音状态case

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论