语音信号处理课程设计资料上传分析_第1页
语音信号处理课程设计资料上传分析_第2页
语音信号处理课程设计资料上传分析_第3页
语音信号处理课程设计资料上传分析_第4页
语音信号处理课程设计资料上传分析_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、语音信号办理课程设计资料上传分析语音信号办理课程设计资料上传分析23/23语音信号办理课程设计资料上传分析讲义课程设计目的:深入认识专业课程知识的应用,增强实践训练内容简介:步骤:查阅资料,认识相关基本理论知识运转调试程序,实现设计要求,并理解程序运转结果撰写课程设计报告基于MATLAB的语音信号时域、频域特色分析语音信号办理是研究用数字信号办理技术和语音学知识对语音信号进行办理的新兴的学科,是当前发展最为迅速的信息科学研究领域的核心技术之一。经过语音传达信息是人类最重要、最有效、最常用和最方便的交换信息形式。同时,语言也是人与机器之间进行通讯的重要工具,它是一种理想的人机通讯方式,因此可为信

2、息办理系统建立优异的人机交互环境,进一步推进计算机和其余智能机器的应用,提升社会的信息化程度。语音信号办理是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交织学科。固然从事这一领域研究的人员主要来自信号与信息办理及计算机应用等学科,但是它与语音学、语言学、声学、认知科学、生理学、心理学等好多学科也有特别亲近的联系。课程设计内容内容归纳:1、基于MATLAB的语音信号时域特色分析经过学习、资料查阅,自己设计程序,给出某一语音信号的短时过零率、短时能量、短时自相关特色的分析结果,并分析语音信号的基音周期。2、基于MATLAB的语音信号频域特色分析经过学习、资料查阅,自己设计程序,给出某一

3、语音信号的短时谱、倒谱、语谱图的分析结果,并语音信号的基音周期或共振峰。3、基于MATLAB的语音信号的LPC分析经过学习、资料查阅,自己设计程序,给出某一语音信号的LPC分析结果,并分析语音信号的基音周期和共振峰。1、基于MATLAB的语音信号时域特色分析一、目的语音信号是一种非安稳的时变信号,它携带着各种信息。在语音编码、语音合成、语音鉴别和语音增强等语音办理中无一例外需要提取语音中包括的各种信息。语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。语音信号分析可以分为时域和变换域等办理方法,此中时域分析是最简单的方法,直接对语音信号的时域波形进行分析,提取的特色参数主要有语

4、音的短时能量,短时均匀过零率,短时自相关函数等。本设计内容要求掌握时域特色分析原理,并利用已学知识,编写程序求解语音信号的短时过零率、短时能量、短时自相关特色,分析结果,并能掌握借助时域分析方法所求得的参数分析语音信号的基音周期及共振峰。1二、原理1.窗口的选择经过对发声机理的认识,语音信号可以以为是短时安稳的。在550ms的范围内,语音频谱特征和一些物理特征参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取1030ms。我们采纳一个长度有限的窗函数来截取语音信号形成分析帧。平常会采纳矩形窗和汉明窗。图1.1给出了这两种窗函数在帧长N=50时的时域波形。)n(w2矩形窗1hanm

5、ing窗1.80.91.60.81.40.71.20.6)1n0.5(0.8w0.40.60.30.40.20.20.10204060020406000samplesample图1.1矩形窗和Hamming窗的时域波形矩形窗的定义:一个N点的矩形窗函数定义为以下w(n)1,0nN0,其余hamming窗的定义:一个N点的hamming窗函数定义为以下0.540.46cos(2nw(n)=),0nNN10,其余这两种窗函数都有低通特征,经过分析这两种窗的频率响应幅度特征可以发现(如图1.2):矩形窗的主瓣宽度小(4*pi/N),拥有较高的频率分辨率,旁瓣峰值大(-13.3dB),会以致泄漏现象;

6、汉明窗的主瓣宽8*pi/N,旁瓣峰值低(-42.7dB),可以有效的战胜泄漏现象,拥有更光滑的低通特征。所以在语音频谱分析经常使用汉明窗,在计算短时能量和均匀幅度时平常用矩形窗。表1.1比较了这两种窗函数的主瓣宽度和旁瓣峰值。2矩形窗频率响应0-20Bd/度-40幅-60-8000.10.20.30.40.50.60.70.80.91归一化频率(f/fs)Hamming窗频率响应0Bd/度-50幅-10000.10.20.30.40.50.60.70.80.91归一化频率(f/fs)图1.2矩形窗和Hamming窗的频率响应表1.1矩形窗和hamming窗的主瓣宽度和旁瓣峰值窗函数主瓣宽度旁瓣

7、峰值矩形窗4*pi/N13.3dBhamming8*pi/N42.7dB2.短时能量因为语音信号的能量随时间变化,清音和浊音之间的能量差异相当明显。所以对语音的短时能量进行分析,可以描绘语音的这类特色变化状况。定义短时能量为:nEnx(m)w(nm)2x(m)w(nm)2mmnN1,此中N为窗长特别地,当采纳矩形窗时,可简化为:Enx2(m)m图1.3和图1.4给出了不一样矩形窗和hamming窗长的短时能量函数,我们发现:在用短时能量反响语音信号的幅度变化时,不一样的窗函数以及相应窗的长短均有影响。hamming窗的成效比矩形窗略好。但是,窗的长短影响起决定性作用。窗过大(N很大),等效于很

8、窄的低通滤波器,不可以反响幅度En的变化;窗过小(N很小),短时能量随时间急巨变化,不可以获取光滑的能量函数。在11.025kHz左右的采样频率下,N选为100200比较适合。短时能量函数的应用:1)可用于区分清音段与浊音段。En值大对应于浊音段,En值小对应于清音段。2)可用于区分浊音变成清音或清音变成浊音的时间(依据En值的变化趋势)。3)对高信噪比的语音信号,也可以用来区分有无语音(语音信号的开始点或停止点)。无信号(或仅有噪声能量)时,En值很小,有语音信号时,能量明显增大。311度度0幅幅0样-1样-1采采020004000600080001000012000140001600018

9、000020004000600080001000012000140001600018000samplesample量42N=50量2N=50能能1时0时0短20004000600080001000012000140001600018000短2000400060008000100001200014000160001800000samplesample104量N=150量N=150能5能2时0时短20004000600080001000012000140001600018000短02000400060008000100001200014000160001800000samplesample量101

10、0N=250量5N=250能能5时0时短20004000600080001000012000140001600018000短02000400060008000100001200014000160001800000samplesample量20量10N=350N=350能10能5时时短0短20004000600080001000012000140001600018000sample20量量020004000600080001000012000140001600018000sample10能10N=450能5N=450时0时0短短0200040006000800010000120001400016

11、00018000020004000600080001000012000140001600018000samplesample图1.3不一样矩形窗长的短时能量函数图1.4不一样hamming窗长的短时能量函数3短时均匀过零率过零率可以反响信号的频谱特征。当失散时间信号相邻两个样点的正负号相异时,我们称之为“过零”,即此时信号的时间波形穿过了零电平的横轴。统计单位时间内样点值改变符号的次数具可以获取均匀过零率。定义短时均匀过零率:Znsgnxmsgnx(m1)w(nm)msgnx(n)1,x(n)0此中sgn为符号函数,1,x(n)0,在矩形窗1nZnsgnx(m)sgnx(m1)2NmnN1条件

12、下,可以简化为:短时过零率可以大体预计语音的频谱特征。由语音的产生模型可知,发浊音时,声带振动,尽管声道有多个共振峰,但因为声门波引起了频谱的高频衰落,所以浊音能量集中于3KZ以下。而清音因为声带不振动,声道的某些部位堵塞气流产生类白噪声,多数能量集中在较高频率上。高频率对应着高过零率,低频率对应着低过零率,那么过零率与语音的清浊音就存在着对应关系。.图1.5为某一语音在矩形窗条件下求得的短时能量和短时均匀过零率。分析可知:清音的短时能量较低,过零率高,浊音的短时能量较高,过零率低。清音的过零率为0.5左右,浊音的过零率为0.1左右,两但者分布之间有互相交叠的地域,所以单纯依赖于均匀过零率来正

13、确判断清浊音是不行能的,在实质应用中常常是采纳语音的多个特色参数进行综合判决。短时均匀过零率的应用:1)差异清音和浊音。比方,清音的过零率高,浊音的过零率低。其余,清音和浊音的两种过零落布都与高斯分布曲线比较符合。2)从背景噪声中找出4语音信号。语音办理领域中的一个基本问题是,如何将一串通续的语音信号进行适合的切割,以确立每个单词语音的信号,亦即找出每个单词的开始和停止地址。3)在孤立词的语音识别中,可利用能量和过零作为有话无话的鉴别。10.5度幅样采0-0.5200040006000800010000120001400016000180000sample86量能4时短202000400060

14、00800010000120001400016000180000sample0.50.4率零0.3过均0.2平时0.1短0200040006000800010000120001400016000180000sample图1.5矩形窗条件下的短时均匀过零率4、短时自相关函数自相关函数用于衡量信号自己时间波形的相似性。清音和浊音的发声机理不一样,因此在波形上也存在着较大的差异。浊音的时间波形表现出必定的周期性,波形之间相似性较好;清音的时间波形表现出随机噪声的特征,样点间的相似性较差。所以,我们用短时自相关函数来测定语音的相似特征。短时自相关函数定义为:Rn(k)x(m)w(nm)x(mk)w(n

15、mk)m令mnm,并且w(m)w(m),可以获取:N1kRn(k)x(nm)w(m)x(nmk)w(mk)x(nm)w(m)x(nmk)w(mk)mm0图6给出了清音的短时自相关函数波形,图7给出了不一样矩形窗长条件下(窗长分别为N=70,N=140,N=210,N=280)浊音的短时自相关函数波形。由图1.6、图1.7短时自相关函数波形分析可知:清音凑近于随机噪声,清音的短时自相关函数不拥有周期性,也没有明显崛起的峰值,且跟着延时k的增大迅速减小;浊音是周期信号,浊音的短时自相关函数呈现明显的周期性,自相关函数的周期就是浊音信号的周期,依据这个性质可以判断一个语音信号是清音还是浊音,还可以判

16、断浊音的基音周期。浊音语音的周期可用自相关函数中第一个峰值的地址来估量。所以在语音信号办理中,自相关函数常用来作以下两种语音信号特色的预计:1)区分语音是清音还是浊音;2)预计浊音语音信号的基音周期。50.080.060.040.020-0.02-0.04-0.06-0.08050100150200250300清音0.10.05)k(R0-0.05-0.1050100150200250300延时k图1.6清音的短时自相关函数)k(R)k(R)k(R)k(R5N=700-5020406080100120140160180200220延时k5N=1400-502040608010012014016

17、0180200220延时k10N=2100-10020406080100120140160180200220延时k10N=2800-10020406080100120140160180200220延时k图1.7不一样矩形窗长条件下的浊音的短时自相关函数5、时域分析方法的应用1)基音频率的预计第一可利用时域分析(短时能量、短时过零率、短时自相关)方法的某一个特色或某几个特色的结合,判断某一语音有效的清音和浊音段;其次,针对浊音段,可直接利用短时自相关函数预计基音频率,其方法是:估量浊音段第一最大峰的地址,再利用抽样率计算基音频率,举例来说,若某一语音浊音段的第一最大峰值约为35个抽样点,设抽样频

18、率为11.025KHZ,则基音频率为11025/35=315HZ。但是,实质上第一最大峰值地址有时其实不必定与基音周期符合。一方面与窗长相关,另一方面还与声道特征相关。基于此,可采纳三电平削波法先进行预办理。2)语音端点的检测与预计可利用时域分析(短时能量、短时过零率、短时自相关)方法的某一个特色或某几个特色的结合,判断某一语音信号的端点,特别在有噪声搅乱时,如何正确检测语音信号的端点,这在语音办理中是富裕挑战性的一个课题。三、附录(参照程序)1)短时能量(1)加矩形窗a=wavread(beifeng.wav);subplot(6,1,1),plot(a);N=32;fori=2:66h=l

19、inspace(1,1,2.(i-2)*N);%形成一个矩形窗,长度为2.(i-2)*NEn=conv(h,a.*a);%求短时能量函数Ensubplot(6,1,i),plot(En);if(i=2)legend(N=32);elseif(i=3)legend(N=64);elseif(i=4)legend(N=128);elseif(i=5)legend(N=256);elseif(i=6)legend(N=512);endend(2)加汉明窗a=wavread(beifeng.wav);subplot(6,1,1),plot(a);N=32;fori=2:6h=hanning(2.(i-

20、2)*N);%形成一个汉明窗,长度为2.(i-2)*NEn=conv(h,a.*a);%求短时能量函数Ensubplot(6,1,i),plot(En);if(i=2)legend(N=32);elseif(i=3)legend(N=64);elseif(i=4)legend(N=128);elseif(i=5)legend(N=256);elseif(i=6)legend(N=512);endend2)短时均匀过零率a=wavread(beifeng.wav);n=length(a);N=320;subplot(3,1,1),plot(a);h=linspace(1,1,N);En=conv

21、(h,a.*a);%求卷积得其短时能量函数Ensubplot(3,1,2),plot(En);fori=1:n-1ifa(i)=0b(i)=1;elseb(i)=-1;endifa(i+1)=0b(i+1)=1;else7b(i+1)=-1;endw(i)=abs(b(i+1)-b(i);%求出每相邻两点符号的差值的绝对值endk=1;j=0;while(k+N-1)nZm(k)=0;fori=0:N-1;Zm(k)=Zm(k)+w(k+i);endj=j+1;k=k+N/2;%每次挪动半个窗endforw=1:jQ(w)=Zm(160*(w-1)+1)/(2*N);%短时均匀过零率endsu

22、bplot(3,1,3),plot(Q),grid;3)自相关函数N=240Y=WAVREAD(beifeng.wav);x=Y(13271:13510);x=x.*rectwin(240);R=zeros(1,240);fork=1:240forn=1:240-kR(k)=R(k)+x(n)*x(n+k);endendj=1:240;plot(j,R);grid;2、基于MATLAB分析语音信号频域特色一、目的信号的傅立叶表示在信号的分析与办理中起侧重要的作用。因为对于线性系统来说,可以很方便地确立其对正弦或复指数和的响应,所以傅立叶分析方法能完美地解决好多信号分析和办理问题。其余,傅立叶表

23、示使信号的某些特征变得更明显,所以,它能更深入地说明信号的各项红物理现象。因为语音信号是跟着时间变化的,平常以为,语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出。输出频谱是声道系统频率响应与激励源频谱的乘积。声道系统的频率8响应及激励源都是随时间变化的,所以一般标准的傅立叶表示固然适用于周期及安稳随机信号的表示,但不可以直接用于语音信号。因为语音信号可以以为在短时间内,近似不变,因此可以采纳短时分析法。本设计内容要求掌握短时傅里叶分析原理,会利用已学的知识,编写程序预计短时谱、倒谱,画出语谱图,并分析结果,在此基础上,借助频域分析方法所求得的参数分析语音信号的基音周期或共振峰。二、原理

24、1、短时傅立叶变换因为语音信号是短时安稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为:Xn(ejw)x(m)w(nm)ejwmm(2.1)此中w(n-m)是实窗口函数序列,n表示某一语音信号帧。令n-m=k,则获取Xn(ejw)kw(k)x(nk)ejw(nk)(2.2)于是可以获取Xn(ejw)ejwnw(k)x(nk)ejwkk(2.3)假设Xn(ejw)w(k)x(nk)ejwkk(4)则可以获取Xn(ejw)ejwnXn(ejw)(5)相同,不一样的窗口函数,将获取不一样的傅立叶变换式的结果。由上式可见,短时傅立叶变换有两个变量:n和,所以它既是时序n的失散函数,又是角频率的连续

25、函数。与离散傅立叶变换迫近傅立叶变换相同,如令=2k/N,则得失散的短时傅立叶吧以下:nj2k/N)nX(eX(k)x(m)w(nm)ej2km/N,(0kN1)m(6)2、语谱图水平方向是时间轴,垂直方向是频率轴,图上的灰度条纹代表各个时刻的语音短时谱。语谱图反响了语音信号的动向频率特征,在语音分析中拥有重要的适用价值。被成为可视语言。语谱图的时间分辨率和频率分辨率是由窗函数的特征决定的。时间分辨率高,可以看出时间波形的每个周期及共振峰随时间的变化,但频率分辨率低,不足以分辨因为激励所形成的细微结构,称为宽带语谱图;而窄带语谱图正好与之相反。9宽带语谱图可以获取较高的时间分辨率,反响频谱的迅

26、速时变过程;窄带语谱图可以获取较高的频率分辨率,反响频谱的精良结构。二者相结合,可以供给带两与语音特征相关的信息。语谱图上因其不一样的灰度,形成不一样的纹路,称之为“声纹”。声纹因人而异,所以可以在司法、安全等场合获取应用。3、复倒谱和倒谱Z变换,其表达式以下:复倒谱x(n)是x(n)的Z变换取对数后的逆xZ1lnZx(n)(7)倒谱c(n)定义为x(n)取Z变换后的幅度对数的逆Z变换,即c(n)z1ln|X(z)|(8)在时域上,语音产生模型其实是一个激励信号与声道冲激响应的卷积。对于浊音,激励信号可以由周期脉冲序列表示;对于清音,激励信号可以由随机噪声序列表示。声道系统相当于参数缓慢变化的

27、零极点线性滤波器。这样经过同态办理后,语音信号的复倒谱,激励信号的复倒谱,声道系统的复倒谱之间满足下边的关系:s(n)e(n)v(n)(9)因为倒谱对应于复倒谱的偶部,所以倒谱与复倒谱拥有相同的特色,很简单知道语音信号的倒谱,激励信号的倒谱以及声道系统的倒谱之间满足下边关系:cs(n)ce(n)cv(n)(10)浊音信号的倒谱中存在着峰值,它的出现地址等于该语音段的基音周期,而清音的倒谱中则不存在峰值。利用这个特色我们可以进行清浊音的判断,并且可以预计浊音的基音周期。4、基音周期预计浊音信号的倒谱中存在峰值,它的出现地址等于该语音段的基音周期,而清音的倒谱中则不存在峰值。利用倒谱的这个特色,我

28、们可以进行语音的清浊音判决,并且可以预计浊音的基音周期。第一计算语音的倒谱,而后在可能出现的基音周期周边找寻峰值。假如倒谱峰值超出了早先设置的门限,则输入语音判断为浊音,其峰值地址就是基音周期的预计值;反之,假如没有超出门限的峰值的话,则输入语音为清音。5、共振峰预计对倒谱进行滤波,拿出低时间部分进行进行逆特色系统办理,可以获取一个光滑的对数谱函数,这个对数谱函数显示了输入语音段的共振峰结构,同时谱的峰值对应于共振峰频率。经过此对数谱进行峰值检测,就可以预计出前几个共振峰的频率和强度。对于浊音的声道特征,可以采纳前三个共振峰来描绘;清音不具备共振峰特色。三、参照结果短时谱10originals

29、ignal10.50-0.5-1024681012x10短时谱500-50-1004050100150200250300图2.1短时谱语谱图图2.2语谱图倒谱和复倒谱图3、4是加矩形窗和汉明窗的倒谱图和复倒谱图,图中横轴的单位是Hz,纵轴的单位是dB。11加矩形窗时的倒谱10.50-0.5-1050100150200250300加矩形窗时的复倒谱50-5050100150200250300图2.4加矩形窗时的倒谱和复倒谱图加汉明窗时的倒谱10-1-2050100150200250300加汉明窗时的复倒谱20100-10-20050100150200250300图2.3加汉明窗时倒谱和复倒谱图基

30、音周期和共振峰预计10度幅谱-1倒-2-30100200300400500600点数NBd/度1000幅-100-2000100200300400500600时间/ms12图2.5倒谱图分析第15帧此中第一峰值出此刻第2个样点,窗长为512(64ms),抽样频率为11KHz,说明基音频率就在这个点上,其基音频率为5.5KHz,基音周期为0.182ms。四、附录(参照程序)1)短时谱cleara=wavread(beifeng.wav);subplot(2,1,1),plot(a);title(originalsignal);gridN=256;h=hamming(N);form=1:Nb(m)

31、=a(m)*h(m)endy=20*log(abs(fft(b)subplot(2,1,2)plot(y);title(短时谱);grid2)语谱图x,fs,nbits=wavread(beifeng.wav)specgram(x,512,fs,100);xlabel(时间(s);ylabel(频率(Hz);title(语谱图);3)倒谱和复倒谱1)加矩形窗时的倒谱和复倒谱cleara=wavread(beifeng.wav,4000,4350);N=300;h=linspace(1,1,N);form=1:Nb(m)=a(m)*h(m);endc=cceps(b);c=fftshift(c)

32、;d=rceps(b);d=fftshift(d);subplot(2,1,1)plot(d);title(加矩形窗时的倒谱)13subplot(2,1,2)plot(c);title(加矩形窗时的复倒谱)(2)加汉明窗时的倒谱和复倒谱cleara=wavread(beifeng.wav,4000,4350);N=300;h=hamming(N);form=1:Nb(m)=a(m)*h(m);endc=cceps(b);c=fftshift(c);d=rceps(b);d=fftshift(d);subplot(2,1,1)plot(d);title(加汉明窗时的倒谱)subplot(2,1,

33、2)plot(c);title(加汉明窗时的复倒谱)3、基于MATLAB的语音信号LPC分析一、目的线性展望分析是最有效的语音分析技术之一,在语音编码、语音合成、语音鉴别和说话人鉴别等语音办理领域中获取了广泛的应用。语音线性展望的基本思想是:一个语音信号的抽样值可以用过去若干个取样值的线性组合来迫近。经过使实质语音抽样值与线性展望抽样值的均方偏差达到最小,可以确立独一的一组线性展望系数。采纳线性展望分析不但可以获取语音信号的展望波形,并且可以供给一个特别好的声道模型。假如将语音模型看作激励源经过一个线性时不变系统产生的输出,那么可以利用LP分析对声道参数进行估值,以少许低信息率的时变参数精确地

34、描绘语音波形及其频谱的性质。其余,LP分析还可以对共振峰、功率谱等语音参数进行精确预计,LP分析获取的参数可以作为语音识其余重要参数之一。因为语音是一种短时安稳信号,所以只好利用一段语音来预计模型参数。此时有两种方案:一种是将长的语音序列加窗,而后对加窗语音进行LP分析,只要限制窗的长度就可以保证分析的短时性,这类方案称为自相关法;另一种方案不对语音加窗,而是在计算均方预测偏差时限制其取和区间,这样可以导出LP分析的自协方差法。本设计内容要求掌握LPC原理,会利用已学的知识,编写程序预计线性展望系数以及LPC的推演参数,并能利用所求的相关参数预计语音的端点、清浊音判断、基音周期、共14振峰等。

35、二、原理语音产生的系统模型图:以声管模型为基础的LPC模型1LP分析基根源理LP分析为线性时不变因果稳固系统V(z)建立一个全极点模型,并利用均方偏差准则,对已知的语音信号s(n)进行模型参数预计。假如利用P个取样值来进行展望,则称为P阶线性展望。假设用过去P个取样值Sn1,Sn2,Snp的加权之和来展望信号当前取样值Sn,则展望信号Sn为:pSnaknk(1)k1此中加权系数用ak表示,称为展望系数,则展望偏差为:pensnSnsnaknk(2)k1要使展望最正确,则要使短时均匀展望偏差最小有:Ee2nmin(3)e2n0,(1kp)ak(4)令i,kEsni,Snk(5)最小的可表示成:0

36、,0pak0,kmink1(6)15明显,偏差越凑近于零,线性展望的正确度在均方偏差最小的意义上为最正确,由此可以计算出展望系数。经过LPC分析,由若干帧语音可以获取若干组LPC参数,每组参数形成一个描绘该帧语音特色的矢量,即LPC特色矢量。由LPC特色矢量可以进一步获取好多种派生特色矢量,比方线性展望倒谱系数、线谱对特色、部分相关系数、对数面积比等等。不一样的特色矢量拥有不一样的特色,它们在语音编码和鉴别领域有着不一样的应用价值。自相关法在最正确线性展望中,若用下式定义的时间均匀最小均方准则取代(3)式的会集均匀最小均方准则,即令1Np12Nn0enmin(7)事实上就是短时自相关函数,因此

37、Riki,k(8)RkESn,Snk(9)依据安稳随机信号的自相关性质,可得i,kRik,i1,2p;k0,1p(10)由(6)式,可得:pminR0akRk(11)k1综上所述,可以获取以下矩阵形式:a1R1R1RP1R0a2R2R0RP2(12)R1a3R3anRP1RP2R0Rp值得注意的是,自相关法在计算展望偏差时,数据段S0,S1,Sn1的两端都需要加P个零取样值,因此可造成谱预计失真。特别是在短数据段的状况下,这一现实更为严重。其余,当展望系数目化时,有可能造成实质系统的不稳固。自相关解法主要有杜宾算法、格型算法和舒尔算法等几种高效递计算法。3协方差法假如在最正确线性展望中,用下式

38、定义的时间均匀最小均方准则取代(3)式的会集均匀最小均方准则,则可获取近似的方程:1N12nminNnep(13)16可以看出,这里的数据段两端不需要增加零取样值。在理论上,协方差法计算出来的预测系数有可能造成展望偏差滤波器的不稳固,但在实质被骗每帧信号取样足够多时,其计算结果将与自相关法的结果很凑近,因此稳固性一般是可以保证的(自然这类方法也有量化效应可能引起不稳固的弊端)。协方差解法的最大长处在于不存在自相关法中两端出现很大展望偏差的状况,在N和P相差不大时,其参数估值比自相关法要精确的多。但是在语音信号办理时,常常取N在200左右。此时,自相关法拥有较大偏差的段落在整个语音段中所占的比率

39、很小,参数估值也是比较正确的。在这类状况下,协方差法偏差较小的长处就不再突出,其缺少高效递计算法的弊端成为了限制要素。所以,在语音信号办理中常常使用高效的自相关法。4全极点声道模型将线性展望分析应用于语音信号办理,不但是为了利用其展望功能,更因为它供给了一个特别好的声道模型(拜见上述“语音产生的系统模型图”)。将式(2)所示的方程看作是滤波器在语音信号激励下的输入输出方程,则该滤波器称为展望偏差滤波器,其e(n)是输出偏差。变换到z域,P阶展望偏差滤波器的系统函数为piHz1i1iaz(14)可以看出,假如将展望偏差e(n)作为激励信号,使其经过展望偏差滤波器的逆滤波器H(Z),即Hz11AZ

40、1paizii1(15)则H(Z)的输出为语音信号s(n),也就是说,H(Z)在展望偏差e(n)的激励下可以合成语音。所以,H(Z)被称为语音信号的全极点模型,也称为语音合成器。该模型的参数就是P阶线性展望的展望系数aii1,2,p。因为展望偏差含有语音信号的基音信息,所以对于浊音,模型的激励信号源是以基音周期重复的单位脉冲;对于清音,激励信号源e(n)是自噪声。语音信号的全极点模型是一种很重要的声道模型,是好多应用和研究的基础。5模型增益G模型的激励信号Gen表示为:pGensnaisnii1(16)展望偏差e(n)如式(2),这样当实质的展望系数与模型系数相等时,有nGen(17)这说明激

41、励信号正比于偏差信号,其比率常数等于模型增益G。平常假设偏差信号的能量等于输入激励信号的能量,所以可以获取:N1N1G2e2m2mEnm0m0(18)17对于式中的激励信号en,主要分为浊音和清音两种状况。此中为浊音时,考虑到此时实际的激励信号为声门脉冲,所以可以将激励信号表示为n0时的单位抽样。为了保证这个假设建立,要求分析的区间应该大体和语音基音周期的长度相等。当语音为清音时,我们假定激励信号en为一个零均值、单位方差的安稳白噪声过程。采纳自相关解法时,浊音的模型增益为pEnRn0aiRniG2i1(19)清音计算模型增益的公式和浊音相同。三、参照结果我们使用的原始语音为“北风”,采样频率

42、为11000Hz,运转程序见附录。在这里我们取第30帧进行观察,线性展望阶数为12,看到图3.1所示的原始语音帧的波形,展望语音帧波形和它们之间展望偏差的波形。图3.2为原始语音帧和展望语音帧的短时谱和LPC谱的波形原始语音波形10-12468101204原始语音和展望语音波形x100.50-0.5501001502002503000展望偏差0.20-0.2501001502002503000图3.1原始语音帧、展望语音帧和展望偏差的波形短时谱1000度幅-100-200010203040506070频率/dBLPC谱200150度100幅500010203040506070频率/dB18图3

43、.2原始语音帧和展望语音帧的短时谱和LPC谱的波形这里我们可以改变线性偏差的阶数来观察语音帧的短时谱和LP谱的变化状况,如图3.3。P1=51000度幅-100-200102030405060700频率/dBP1=101000度幅-100-200102030405060700频率/dBP1=201000度幅-100-200102030405060700频率/dB图3.3展望阶数对语音帧短时谱和LPC谱的影响从图中可以看出,P越大,LPC谱越能反响出语音短时谱的细节部分,但LPC谱的光滑度随之降落。因为我们的目的不过用LPC谱反响声道综合效应的谱的表示式,而详尽的谐波形状是经过激励谱来控制的,所

44、以LPC谱只要可以表现出语音的共振峰的结构和谱包络就可以,所以从计算复杂性的角度分析,展望阶数P应该适中。图3.4是原始语音和展望偏差的倒谱波形,我们可以从被骗算出原始语音的基音周期。从图中看出两峰值之间的间隔为40点左右,基音周期为40/11000=3.6ms,频率为278Hz左右。原始语音帧倒谱10Bd/-1-2501001502002503000语音帧展望偏差倒谱10Bd/-1-2050100150200250300语音帧图3.4原始语音和展望偏差的倒谱波形图3.5给出了原始语音的语谱图和展望语音的语谱图,经过比较发现,展望语音的展望成效还可以,基音频率相差无几。19原始语音语谱图60y

45、cn40euqre2000100200300400500600700800900Time展望语音语谱图60ycn40euqre2000100200300400500600700800900Time图3.5原始语音的语谱图和展望语音的语谱图三、附录(LPC分析参照程序)MusicSource=wavread(bei);Music_source=MusicSource;N=256;%windowlength,N=100-1000;Hamm=hamming(N);%createHammingwindowframe=input(请键入想要办理的帧地址=);%originiscurrentframeorigin=Music_source(frame-1)*(N/2)+1):(frame-1)*(N/2)+N);Frame=origin.*Hamm;%ShortTimeFourierTransform%s1,f1,t1=specgram(MusicSource,N,N/2,N);Xs1,Ys1=size(s1);fori=1:Xs1FTframe1(i)=s1(i,frame);endN1=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论