基于MATLAB语音信号检测分析及处理_第1页
基于MATLAB语音信号检测分析及处理_第2页
基于MATLAB语音信号检测分析及处理_第3页
基于MATLAB语音信号检测分析及处理_第4页
基于MATLAB语音信号检测分析及处理_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

于B理第一章绪论Matab是矩阵实验室(MatrixLaboratory)的简称,是美国MathWrs司高括Matlab和Simulink两。1.1Matlab简介B是英文MATrixLABoratoy矩阵实验室的缩写早期的B用N语言编写的尽管功能十分简单但作为免费软件还是吸引了大批使用者。经过几年的校际流传,在JohnLittle。CleveMoler和SteveBanger合作,于1984年成立s出B第一版版。从这时起B的核心采用C语言编写,功能越来越强大,除原有的数值计算功能外,还新增了图形处理功能。s于2的0;4年推出了4.2版扩充了4.0版的功能,尤其在图形界面设计方面提供了新方法1997年春5.0版问世5.0程9的3版在很多方面又进一步改进了B语和Simulink3.0达到了高平;200年10月,0使界与C语言接口及性与的Simulink4.0版的新功能也特别引人注目2001年6月推出的1版及Simulink4.1版,功能已经十分强大2002年6月推出的5版及Simulink5.0版,在计算方法图形功能用户界面设计编程手段和工具等方面都有了重大改进;2004年,s公司推出了最新的ML.0版,其中集成了最新的7编译器Simumlink6.0仿很。Matab主要面科学算、可化以交互式序设计高科计算环。它将数分析阵计算科数据视化以非线性态系的建模仿真等诸多强功能集在一易于使的视环境中科学研程以必须行效计众科领供一面决案代当国1于B理。MATB的优势(1)工作平台编程环境十分友好(2)编程语言简单易用3)(4(5用(6(7。语言的特点B语言被称为第四代计算机语言其利用丰富的函数资源,使程序员从繁琐的程序代码中解放出来,其最突出的特点就是简洁。B了C和N言的冗长代码,给用户带来最直观、最简洁的程序开发环境,下面简单介绍一下B的主要特点。语言简洁紧凑,使用方便,库函数十分丰富B程序书写的形式自由利用丰富的库函数避开了繁琐的子程序编程任务由于库函数都是由本领域的专家编写,所以不必担心函数的可靠性。高效方便的矩阵和数组运算,B语言不需要定义数组的维数,并给出了矩阵函数、特殊矩阵函数、特殊矩阵专门的库函数,使得在求解信号处理、这。B。B立M的的C语语的、C型。B的图形功能强大。在C和N语言里,绘图都很不容易,但在BB还具有较强的编辑图形界面的能力。B拥有功能强大的工具箱,主要用来扩充其符号计算功能、图示建模仿真功能、文字处理功能以及与硬件实施交互功能。源程序的开放性强。除内部函数以外,所有B的核心文件和工具箱文件都是可读可改变的源文件用户可通过对源文件的修改以及加入自己的文件构成新的工具箱。2于理自4成放不。1.2语音概述1.2.1语音简介负和进行社会活动的最基本手段,因此我们要对语音信号进行处理分析,优化人类通人好音。目的是从包含语音的一段信号中找出语音的起始点及结束点,从而只存储和处理有效语音信号。有效的端点检测不仅可以减少数据的存和处理时间而且能排除无声段的噪声干扰端点检测的困难在于无声段或者语音段前后人为呼吸等产生的杂音语音开始处的弱摩擦音或弱爆破音以及终点处的鼻音,这些使得语音的端点比较模糊,需要综合利用语音的各种信号特征从而确保定位的精确性避免包含噪音信号和丢失语音信号近年来出现了很多种端点检测的方法如短时能量短时过零率、语用。安语端差,检。3于理1.2.2研究背景及意义语音是语言的声学表现形式语言是人类特有的功能声音是人类常用的信自,机着、,。。办的、事和、系,并领,者。话些因为在实际环境中没有完全纯净的语音信号,一般都会伴有噪声或其它干扰。语音检测的任务就是判断待处理信号是语音还是非语音从输入信号中找到语音部分的起止点语音检测是语音识别语音增强以及语音编码等中的一个重要环节。有效的语音检测技术不仅能减少系统的处理时间提高系统的处理实时性而且能排除无声段的噪声干扰,从而使后续工作的性能得以较大提高。4于B理第二章语音信号处理2.1语音信号特点语音信号是随时间变化的一维信号由一连串的音组成各个音的排列有一音信号般在200H~350z将显有3KHz~4KHz。从,动。在5s的范围内,音信的频谱性和些物特征参基本保持变样我就可将平过程的理方和理引入到音信的短时处中。此,“短时析技术”贯于语音析的过程。成音和音”果为“声成“声”浊音”、“清音”三类。一个音节由元音和辅音构成。元音在音节中占主要部分。所有元音都是浊音。在汉语普通话中,每个音节都是辅音一元构成的。在信号处理中,语音按其激励形式的不同可分为2类:(1)浊音当气流通过声门时如果声带的张力刚好使声带发生张弛振荡式的振荡产生一股准周期的气是1规率的器。(2)清音当气流通过声门时,如果声带不振动,而在某处收缩,迫使气流高速通过这一收缩部分而产生湍流就得到清音清音是由不规则的激励产生的,发清音时声带不振动,其时域波形不具有周期性,自相关函数没有很强率。5于B理2.1.1语音信号的“短时谱”对于非平稳信号,它是非周期的,频谱随时间连续变化,因此由傅里叶变换得到的频谱无法获知其在各个时刻的频谱特性如果利用加窗的方法从语音流中取出其中一个短段,再进行傅里叶变换,就可以得到该语音的短时谱。2.1.2基音周期浊为频估计低于期在域取。2.2语音信号预处理为了消除因为人类发声器官本身和因一些采集语音信号的设备等所引起的,预能。2.2.1预加重在进行语音信号数字处理时为了获取一段语音信号的时域波形首先要将语音信号转换成电信号,再用A/D转换器将其变为离散的字化采样号。己经数字化语音信号依次进一个数据由于语音号的平功率受声门激励和口鼻辐射影响高频端大约在800Hz以上按6/倍跌即6dBot2倍频或20dBdc10倍频),是的,中图1的6于B理程语音 样 化 重 窗帧 法理图1语处理预加重一般是在语音信号数字化之后,用具有6/倍频程的提升高频特性的预加重数字滤波器来实现,它一般是一阶的数字滤波器:H(1z (21)式中的值近于1。有要复信要做预重号谱求际频时对测量值进行去加重处理,即加上6/倍频程的下降的频率特性来还原成原来的特性。2.2.2帧语音信号检测首先要进行分帧处理,然后依次判断每一帧是否为语音的端在窗窗以点。号同准为10ms~20ms。图2帧移7于B理图2滑,值一为005窗数号)号:S)· (2-2)由于窗函数一般取为S(n)中间大两头小的光滑函数这样的冲激响应所对应的滤波器具有低通特性其带宽和频率取决于窗函数的选取用得最多的三种窗函数是矩形窗、汉明(Hmmig)和汉窗(Hannig),它们的定义如下:矩形窗:,,

0nN1其他

(23)汉窗:40.46cs(n(NnN1,他汉窗: 51cosnN),0 ,其他

(24)(25)式中N数(n)度影响很大为此应该选择合适的窗口使其短时参数能更好地反映语音信号的特性变化以上这些窗函数的幅度频率响应都具有低通特性它们的主瓣宽度和旁瓣高度如表11所示。表1-11s长的各种窗主瓣宽度旁瓣高度矩形 汉明 汉宁主瓣宽度 0.81Hz旁瓣宽度 -13dB

1.19Hz 1.87Hz-43dB -32dB从表中可知最瓣8于理信。2.3语音信号分析但性,板信。2.3.1时析语号是号时分析方法应用最广泛的一方法种方法直利用语音号的时波形时分析通常于最基的参数分均,参。。析特可信信。2.3.2析参预。1法和9于B理和音为。(1谱号(m)为X(ew)则Xew)与(m)的n n n n式1-6。X(ew)N1(m)em (26)n nm0语的谱为X(ew)有np(ew)X(ew) (27)n n语的时率的幅的方所短功谱算法为G(ew)n(2)谱离

X(ew)2 (28)n语信的谱析通同处来现同信处也为态滤波是非性题为性题处方由于语音信号可视为声门激励信号和声道冲击响应的卷积可以对语音信号进行解卷倒谱能很好表示语音的特征在强噪声环境下可通过倒谱系数求得倒谱距离使用倒谱距离来作为端点检测的特征。信号的倒谱也可以定义为信号的能量谱密度函数(叻的对数的傅里叶级数展开式的系数,logs(w)c(new (29)nc即倒系,过谱数倒距几d为n ceppd4.3429cepp(3)熵

(c(n)c(n))22(c(n)c(n))2 (2-0)1 0 1 0n1熵(用H表示)物质的杂程的一种映。熵H代表X的信息量,X的概率分布越模,越难断,0于B理n则X为 Hplogp (1)iini12法,过语误映。,的。原。1于B理第三章语音信号检测3.1清音浊音检测3.1.1信号采集该设计以本人的声音为分析样本。可得出声音的采样频率为z且用d电子信息的音频信sx对换)并画出频谱图如图1所示,程序如下:; %率xwara(i.a';; %读号“息”fgr(1))po() %做形tite始音信波形;xlabel(样点数; %x轴是“样点数”yae(幅值; %y轴名字是“幅值”gridon;N2;n=:-1;;a;f0lg())f/nhy;

%对x换%求值换fgr(1)sbo(2)la; %做图xlabel(频率(;yae(幅值');tte原始信号频谱图;grdon;2 n于B n图1 图集在200kHz到4.5kHz之间,从声音频谱的包络来看,样本声音的能量集中在25Hz)以内0.4以外高分少所信度似为1.1Hz,由样理得fs2fo2*2.55Z。3.1.2短时能量和短时平均幅度能量是语音的一个重要特性由于语音信号的能量随时间变化清音和浊音短:E[x(m)(nm[x(m)(nmnm mnN1

(31)其,W(n)函,N窗特当形,为:E(m)nm

(32)由此表明,窗口加权短时平均能量En相当于将“语音平方”信号通过一个单位函数响应为h(n)的线性滤波器的输出。本次语音信号的短时平均能量和短时平均幅度如下图2所示及程序如下:N4;Y=aved(inwv';LetY;3于B理LLlnghY)N;fgr(2)E=s(-*0;frii1(L1*40,t=(i0;E(ismtm.ep;dj[(-*4;)ptj,m,'; %绘制短时平均能量线xlabel(帧数');ylae(短时能量';tte时平均能量;grdon;短度Mns(s)NMnzeo(,L-)20;frii1(L1*40,t=(i0;M()s(b(m)N;dfgr(2)j[(-*4;sbo(2)poj,Mnb); %绘线xlabel(帧数');yae(短时平幅度';tte时平均幅度;grdon;4于B理图2度由上图发现,语音浊音段的短时平均能量远远大于清音段的短时平均能量。因,短时平均能量En的计算给出了区分清音段与浊音段的依,即En浊)>En清。根据En由高到低的跳变可定出浊音变为清音语音的时,En由低向高的跳变可定出清音变为浊音语音的时刻,而只有浊音才有基音周期,清音的基音周期为零。故清浊音判断是基音检测的第一步。该算法中窗口选择汉明窗,选择汉明窗的理由是窗函数的选取原则为窗函数截取后的x(n)尽量是中间大两头小的光滑函,冲激响应对应的滤波器具有低通特性。从汉明窗的构成及频率响应特性上看,汉明窗具有这种特性,而矩形窗及汉宁窗则稍逊之。汉明窗虽然主瓣最带宽大),但旁瓣最通带外的衰减大),可以有效地克服泄露现象,具有更好的低通特性。故选择汉明窗而不选择别的窗函,能使短时平均能量En更能反映语音信号的幅度变化。短时能量函数的应:1)可用于区分清音段与浊音段En值大对应浊音,En值小对于清音段。2)可用于区分浊音变为清音或清音变为浊音的时间(根据En值的变化趋势。3)对高信噪比的语音信号,也可以用来区分有无语音(语音信号的开始点5于B理En显。3.1.3短时过零率过零率可以反映信号的频谱特性对于连续语音信号可以考察其时域波形我为“零”。过数特别是用来估计清音的起始位置和结束位置。短时平均过零率定义为:Zs[[ms[x(mw(nm)nm

(33)在形条下可简为2NnZ1 [x(m)[x(mn2NnmnN1

(34)短过率以略计的谱性语的模可浊音时声振,管道个振,由声波了谱高衰,因浊能集于3Z以下清由声不动声某部阻塞频。.为息”的短时过零率的波形图如下图3所示及程序如下:Znzeo(1(L1)20);frii2(L1*40,tm1=inYi:i20);tpsnYi:+01;Ziua(ptp;dfgr(3)j=1(L-)24];pt,nb; %绘制短率线6于B理xlabel('帧数');ylabel(短时过零率');tte时过零率;grdon;图3 率率为5为1左右,两但者分布之间有相互交叠的区域所以单纯依赖于平均过零率来准确判断清浊音是不可能的在实际应用中往往是采用语音的多个特征参数进行综合判决。短时过零率的应用:1)区别清音和浊音。清音的过零率高,浊音的过零率低。此外,清音和浊音的两种过零分布都与高斯分布曲线比较吻合。2)从背景噪声中找出语音信号。语音处理领域中的一个基本问题是,如何将一串连续的语音信号进行适当的分割以确定每个单词语音的信号亦即找出每个单词的开始和终止位置。3)在孤立词的语音识别中,可利用能量和过零作为有话无话的鉴别。7于B理3.2语音信号端点检测3.2.1基于短时能量和短时过零率的双门限端点检测原理双门限法是利用短时能量和过零率的乘积进行检测的在基于短时能量和过零率的双门限端点检测算法中首先为短时能量和过零率分别确定两个门限一个过过。:,由于采集的声音信号中最初的短时段多为无声或背景噪声,这样就可以利用已知为“静态”的最初几帧(一般取10帧信计算过零阀值zr及高值amp(低量阀)和amp1高能阀)。过零率公式:r(i)N1x(n)x(n) (35)i in1计算amp2和am1时首计最初10帧信号每的短平能或均幅度E,最大记为max,小为min。本文在计算短时能量之前滤扰是z或z言,代为)量:;;。过限ap1、am2、zr1、zc2,其中am2、zc2分别为短易外amp1、zr1是比高门,数比大信必达一定的强该限可被过低限超未就语信的始可能是时间很短的噪声引起的。高门限被超过则可以基本确信是由于语音信号引起的。8于B理程量s率的到个。能通到续。3.2.2双析1、置双在B软件环境下进行仿真实验。文中语音信号样本是在实验室安静环境下采用麦克风进行录音,以wav格式存储为较纯净的语音样本实验所加的噪声为伪随机加性高斯白噪声实验中对较纯净语音样本进行加噪,形成不同SNR的带噪语音样本,然后分别对较纯净的语音样本和加噪后的语音样本进行语音端点检测并对它们的检测结果进行比较在语音端点检测之前首先要对被测的语音信号进行预处理等,包括分帧加窗等。文中加Hmmaing窗通过特性为(1-0941的波预加对他数进设置如设置音帧度,移长,T取2,门限阀值设置等。2、性能准则在各种各样的信号处理系统中噪声信号相对于有用信号而言所造成的都是干扰和破坏作用但是噪声却是普遍存在的噪声信号一般分为加性噪声和非况。(1声。态分布,记为N(,2),其中和2为分布的参数,分别为高斯分布的期望和方差特别当=0,2=1时,X的分布为标准正态分布。(2)信噪比比,,:92s(于B2s(SNR10gSN其中S、N分别表示原始信号功率与噪声信号功.而波形信号计算式为:R10(e(n)2)中I为原始语音信号,n;p1为原始信号功率p2为噪声信号功率。文中采用的端点检测通过在较纯净语音信号中加入加性高斯噪声然后对其进行语音端点检测改变信噪比值观察在高信噪比和低信噪比条件下双门限语音端点检测结果通过实验仿真图比较和分析噪声对各算法语音端点检测结果的影响。3、分析基于短时能量和短时过零率的双门限语音端点检测算法是结合短时能量和过零率各自优点来进行检测,双门限端点检测图中红色竖线用来表示语音起点线,绿色竖线表示语音终点线,其检测的实验仿真图如3.7所示:functionsnr=SNR(I,In)p1=1/length(I)*norm(I)^2;p2=1/length(I)*norm(In-I)^2;snr=10*log(p1/p2);endtm1efaexllnt(x-),FrmLn,Framln);tmp=enrae(x2:engh()),Frmen,Fraee;sgs(p.tp<;difs=(mp1tmp)>002;zrsmsin.dfs,2);图4端检测音语测图0于B理图5SN=2.7图图6SN=2.7图图4从语成。图5比S7测。图6可比7终。图4图5图6纯(7比(7信,,,率容。1于B理3.3基于倒谱特征的语音端点检测3.3.1征倒谱能很好表示语音的特征,因此在大多数语音识别系统中选择倒谱系数作为输入特征矢量在噪声环境下短时能量与其它特征参数都不能很好地区分语音段与非语音段,因此可采用倒谱系数来作为端点检测的参数,运用倒谱特征来检测语音端点也是目前语音识别系统中比较典型的方法之一。3.3.2离号),倒换为c(n。信号倒的一种义是信号能量信倒谱的一种定义是信号能量谱密度函数S()的对数的傅里叶反变换,或者可以将号s(n的倒谱c(n)看成是gS()即gS()c(nen (36)n式,c(n)为倒系,且c(n)=c(n),c(0)算2=1gS() (7)23.3.3理如何很好地提取语音信号声道特性的谱包络,并用少量参数表示出来,在语音识别、语音合成和语音编码中都是最重要的问题。按照语音产生模型的理论,语音信号是由激励信号与声道响应相卷积产生的要想提取反映声道特性的谱包,只取。根据Parseval定理,对于两个不同信号(n)和s(n)其倒谱差异的均方值0 1用倒谱距离表示:2 d2 1gS()gS()2dcep 1 2 =(c(n)c(n))2 (38)1 0ncS式中d为倒谱距离,(n)和c(n)分别是对应于谱密度函数()和S()cScep 0 1 0 1的倒谱系数。信号与其倒谱是一一对应的变换,因此倒谱的均方距离可以反映两个信号比如语音与背景噪)谱的,谱离作端测判参属于2于B理。1算用C中避免了复对数中相位卷绕的繁琐处理C谱中用C。C倒数(8~32)后可较好地表征道特性但它是按实际频率尺度的倒谱系数C美尔倒谱系数算法效率较高,既考虑了声道激励,又兼顾人耳听觉,理论上具有一定的可行性。(1)线性预测系数LPC通过用C特干语样的性合近计按某析帧(时)内实际的各语音样本与各预测得到的样本间差值的平方和最小准则,可以决定唯一的一组预测系数,即C。(2)C谱C性预测分析推定的声道模型系统函数为语音信号的倒谱指的是信号能量谱密度函数S()的对数的傅立叶变换用测量倒谱距离的方法来判断每一帧信号是语音信号还是噪声信号根据每一帧信号与噪声的倒谱距离的轨迹就可以进行语音端点检测C(LC于线测系数相,避相,复且C用T算在B中采用迭代算法计算C:n%算C数;;;;当n<n_lpc时,采用下述算法来计算c谱rc;r1;endend3于B理;;rk;r1ifi=1%对于阶数为1,2要特殊处理MC(1,j)=lpcc1(j)+a*MC(1,j+1);endifi==2MC(2,j)=(1-a^2)*MC(1,j+1)+a*MC(2,j+1);endendendlpcM(,);图7图2骤的C谱出:(1)预处理。对z采样信号进行预加重处理,然后分帧加窗,帧长取30msS(240个采样点),移1,对加20点hg窗。(2离d。数p取1,抽样信号起始10帧cepsi是背景噪声,利用这10帧的前5帧倒谱系数的统计平均值作为背景嗓声倒谱系数的估计值用向C表(315计这10帧后5帧谱平0中c(n)表,c(n)1 0为对应于C的。0(3)算d值逐计倒系数,然由帧号倒系和噪cep4于B理过(3-15)式计算倒谱距离。(4)确定判决门限。采用类似于短时能里检测法的动态门限判决准则,设定两个门限1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论