于基小波包分析的声音特性提取-学位论文_第1页
于基小波包分析的声音特性提取-学位论文_第2页
于基小波包分析的声音特性提取-学位论文_第3页
于基小波包分析的声音特性提取-学位论文_第4页
于基小波包分析的声音特性提取-学位论文_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE第PAGEIV页共41页成都信息工程学院学位论文基于小波包分析的声音特性提取论文作者姓名:申请学位专业:申请学位类别:论文提交日期:基于小波包分析的声音特性提取摘要说话人识别就是利用说话人的语音特征对说话人身份进行辨识或确认。与语音识别一样,说话人识别也是在提取原始语音信号某些特征参数的基础上,建立相应的模板和模型,然后按照一定的判决规则进行识别。其中前期特征参数提取的效果直接影响到后期识别的准确性。本设计完成了一个基于小波包分析的声音特征参数的提取模型。论文首先介绍小波分析理论的基本知识,阐述了小波理论、小波分析在声音特征提取方面的应用,然后在分析MFCC提取原理的基础上,结合小波包分析理论,得到特征参数。用特征参数提取方法通过对两个人的数字音频样本提取的特征参数对比来观察各个参数之间的区别。仿真实验证明该提取方法可以作为区别说话人的声音特征提取方法,配合识别算法可以达到较高的识别率。关键词:小波包;梅尔倒谱系数;特征参数ExtractionofFeatureCoefficientBasedonWaveletPacketAnalysisAbstractSpeakerRecognitionistousethespeakerfeatureontheidentityofthespeakeridentificationorconfirmation.Aswithspeechrecognition,speakerrecognitionistoextractsomecharacteristicparametersoftheoriginalspeechsignalbasedontheestablishmentofappropriatetemplatesandmodels,andaccordingtosomedecisionrulesforrecognition.Oneearlyfeatureextractiondirectlyaffectstheeffectoflatetherecognitionaccuracy.Thedesigniscompleted,awaveletpacketanalysisbasedonasimplemodelofthevoicefeatureparameterextraction.Paperfirstintroducesthebasicsofwaveletanalysistheory,Describedthewavelettheoryandwaveletanalysisintheapplicationofsoundfeatureextraction,andthenwecangettwocharacteristicparametersbasedontheanalysisofMFCCextractionandthetheoryofwaveletpacketanalysis.Featureextractionmethodusedbydigitalaudiosamplesoftwocharacteristicparametersextractedcomparedtoobservethedistinctionbetweenthevariousparameters.Simulationresultsshowthattheextractionmethodcandistinguishthespeaker'svoiceasafeatureextractionmethod,withtherecognitionalgorithmcanachievehigherrecognitionrate.Keywords:Waveletpacket;Melcepstral;Parameter目录论文总页数:21页1引言 11.1课题背景 11.2国内外研究现状 11.3本课题研究的意义 11.4本课题研究的方法 12小波理论 22.1小波分析背景 22.2小波变换简介 22.3从傅里叶变换到小波分析 22.4提升小波变换概述 32.5小波包分析 32.6小波信号分析在声音处理中的应用 43常见声音特征参数提取算法 43.1分类 43.1.1线性预测倒普系数法(LPC) 53.1.2梅尔滤波器提取法(MEL) 63.1.3小波变换法(DWT—MFC)[3] 63.1.4小波包分析法(WPTC) 73.2算法比较 74基于小波包分析的声音特性提取实现 84.1概述 84.2总体结构 84.3程序设计 84.3.1语音信号分帧、加窗 84.3.2Mel滤波器组 94.4音频特征参数提取结果 104.5特征参数结果分析 13结论 18参考文献 18致谢 20声明 21第21页共26页1引言1.1课题背景声音识别的迅速发展以及高效可靠的应用软件的开发,使声音识别系统在很多方面得到了应用、这种系统可以用声音指令拟应用特定短句实现“不用手”的数据采集、其最大特点就是不用手和眼睛,这对那些采集数据同时还要完成手脚并用的工作场合尤为适用。由于每个人的声音千差万别,因此声音可以用作安全认证的依据之一。别人可以模仿你的签字,猜测你的密码,甚至能留下你的指纹,但要模仿你的声音就有点太苛刻了。美国的一座智能化大厦就采用了声音识别的方式。到达公司门口,你必须通过安全检查。电子门卫通过你的声音来辨别你是不是该公司的工作人员是否给你开门。1.2国内外研究现状国际上对声音识别研究已经相当成熟。我国目前生物识别行业内厂商有200多家,数量虽然不少,从统计上来看其中96%的从事指纹识别技术的相关产品的研究和开发,导致了产品趋同化明显,档次低、规模小;但从IBG统计世界各生物识别技术市场占有率看,指纹识别为36%,声纹识别占有11%的份额。这说明目前我国生物特征识别产品的发展是极度不平衡,未来几年是多元化的技术产品的协调发展、促进国内该领域和谐发展的最佳时期,也将成为涉足各个生物特征识别产品的企业成长和获得利润的关键期。1.3本课题研究的意义伴随着生物特征识别技术的发展,声纹识别技术与生俱有的优势随着技术与产品的应用结合,必将成为今后生物识别领域最为主流的技术之一,会在不久的将来为人们创造出更加智能的生活。通过本次设计加深对声纹识别前期技术声音特征参数的学习与研究。1.4本课题研究的方法设计一基于小波包分析的声音特征提取,然后提取两男声语音样本特征参数并进行数据分析。

2小波理论2.1小波分析背景1807年Fourier提出傅里叶分析,1822年发表“热传导解析理论”论文1910年Haar提出最简单的小波1980年Morlet首先提出平移伸缩的小波公式,用于地质勘探。1985年Meyer和稍后的Daubeichies提出“正交小波基”,此后形成小波研究的高潮。1988年Mallat提出的多分辨度分析理论(MRA),统一了语音识别中的镜向滤波,子带编码,图象处理中的金字塔法等几个不相关的领域。2.2小波变换简介小波分析属于时频分析的一种。传统的信号分析是建立在傅里叶(Fourier)变换的基础上的,但是,傅里叶分析使用的是一种全局的变换,即要么完全在时域,要么完全在频域,它无法表述信号的时频局域性质,而时频局域性质恰恰是非平稳信号最根本和最关键的性质。为了分析和处理非平稳信号,人们对傅里叶分析进行了推广乃至根本性的革命,提出并发展了小波变换、RandonWigner变换、分数阶傅里叶变换、线性调频小波变换、循环统计量理论和调幅-调频信号分析等。——标识在系统中的所有接收器、实时消息(Real-timeMessages)——用于MIDI部件之间的同步和独占消息(ExclusiveMessages)——厂商的标识代码。其中,短时傅里叶变换和小波变换也是因传统的傅里叶变换不能够满足信号处理的要求而产生的。短时傅里叶变换分析的基本思想是:假定非平稳信号在分析窗函数g(t)的一个短时间间隔内是平稳(伪平稳)的,并移动分析窗函数,使f(t)g(t-t)在不同的有限时间宽度内是平稳信号,从而计算出各个不同时刻的功率谱。但从本质上讲,短时傅里叶变换是一种单一分辨率的信号分析方法(因为它使用一个固定的短时窗函数),在信号分析上还存在着不可逾越的缺陷。小波变换是一种信号的时间—尺度(时间—频率)分析方法,它具有多分辨率分析(Multi-resolutionAnalysis)的特点,而且在时频两域都具有表征信号局部特征的能力,是一种窗口大小固定不变,但其形状可改变,时间窗和频率窗都可以改变的时频局部化分析方法。即在低频部分具有较高的频率分辨率和较低的时间分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率,很适合于探测正常信号中夹带的瞬态反常现象并展示其成分,所以被誉为分析信号的显微镜。2.3从傅里叶变换到小波分析傅里叶变换是众多科学领域(特别是信号处理、图像处理、量子物理等)里的重要的应用工具之一。从实用的观点看,当人们考虑傅里叶分析的时候,通常是指(积分)傅里叶变换和傅里叶级数。它是整个时间域内的积分,没有局部化分析信号的功能,完全不具备时域信息,也就是说,对于傅里叶谱中的某一频率,不能够知道这个频率是在什么时候产生的。这样在信号分析中就面临一对最基本的矛盾:时域和频域的局部化矛盾。在实际的信号处理过程中,尤其是对非平稳信号的处理中,信号在任一时刻附近的频域特征都很重要。如柴油机缸盖表面的振动信号就是由撞击或冲击产生的,是一瞬变信号,单从时域或频域上来分析是不够的。这就促使人们去寻找一种新方法,能将时域和频域结合起来描述观察信号的时频联合特征,构成信号的时频谱。这就是所谓的时频分析法,亦称为时频局部化方法。小波分析方法是一种窗口大小(即窗口面积)固定但其形状可改变,时间窗和频率窗都可改变的时频局部化分析方法。即在低频部分具有较高的频率分辨率和较低的时间分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率,所以被誉为数学显微镜。正是这种特性,使小波变换具有对信号的自适应性。2.4提升小波变换概述传统的第一代小波变换是在欧氏空间内通过基底的平移和伸缩构造小波基的,不适合非欧氏空间的应用,因此小波提升方案应运而生,它是构造第二代小波变换的理想方法。提升的实现形式给出了小波完全的空间域解释,它具有许多优良的特性:结构简单、运算量低、原位运算、节省存储空间、逆变化可以直接反转实现,以及可逆的整数到整数变换,便于实现。在高速处理、移动手持设备、低功耗设备的应用中具有很大的吸引力。提升小波在1996年由Sweldens提出后,在许多领域都得到了广泛应用。原有小波的基础上构造出更有效的适用于特殊应用的小波。它从另一个角度给小波的构造和性质作出了解答。同时,它也把数值分析领域的“细分插值”、“均值插值”、“高阶矩”、“欧拉算法”等概念和小波分析的“消失矩”、“尺度函数”、“小波函数”等概念巧妙地融为一体。2.5小波包分析短时傅里叶变换对信号的频带划分是线性等间隔的。多分辨分析可以对信号进行有效的时频分解,但因为其尺度是按二进制变化的,所以在高频段其频率分辨率较差,而在低频段其时间分辨率较差,即对信号的频带进行指数等间隔划分。那么,在对信号分解的过程中,是否对高频信号能再进行小波分解呢?回答是肯定的,这就要用到小波包分析方法。小波包分析(WaveletPacketAnalysis)能够为信号提供一种更加精细的分析方法,它将频带进行多层次划分,对多分辨分析没有细分的高频部分进一步分解,并能够根据被分析信号的特征,自适应地选择相应频带,使之与信号频谱相匹配,从而提高了时—频分辨率,因此小波包具有更广泛的应用价值。关于小波包分析的理解,可以以一个三层的分解进行说明,其小波包分解树如图1所示。图1小波包分解树状图2.6小波信号分析在声音处理中的应用(1)小波分析在语音基音周期检测的应用。人在发音过程中,由于声门闭合形成气流脉冲,引起声带振动,气流脉冲(声带振动)的频率称为基音频率声门闭合瞬间,气流急剧增加,对应在语音波形上即为在该瞬间有一个明显的跳变,可认为是信号的奇异点。每相邻两次声门闭合时间间隔即为瞬态基音周期,而大量瞬态基音周期的均值即为基音周期。所以,只要能检测到因声门闭合产生的语音波形突变,就可求出基音周期。小波变换为检测这类信号突变提供了强有力的工具。由信号的突变检测原理可知,选择光滑函数的一阶导数作为小波,通过定位语音信号小波变换的幅值极大值点位置,就可精确检测到因声门闭合产生的语音波形的突变点。(2)小波分析在语音波形编码中的应用。对该语音编码算法的抗误码性能进行计算机仿真研究的基础上,设计、集成了以C30、C40作为信号处理器的实时水声通信系统。(3)小波分析在语音混合编码中也有相当重要的应用。3常见声音特征参数提取算法3.1分类我们可以把提取技术分为两个个基本类型:LPC倒谱特征矢量(LPCC)和Mel倒谱参数(MFCC)。提取算法关键取决于振荡器的实现。特征提取完成从语音信号提取出对语音识别有用的信息,它对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息。一般而言,由于倒频谱(cepstrum)有着能将频谱上的高低频分开的优点,因此被广泛地应用在语音识别的研究上,例过去常用的线性预测编码导出的倒频谱参数(LPCC)和梅尔频率倒谱参数(MFCC)等都是常用的语音特征。3.1.1线性预测倒普系数法(LPC)线性预测分析技术是目前被广泛应用的特征参数提取技术,许多成功得以应用的系统都采用基于线性预测技术提取的LPC倒谱系数作为系统的特征矢量。这里讲的LPC倒谱其实是复倒谱,所谓复倒谱就是信号通过Z变换以后取对数,再求反Z变换而得到的。线性预测分析方法是一种谱估计的方法,而且其声道模型系统函数H(z)反映了声道的频率响应和原始信号的谱包络,因此用lgH(z)做反Z变换即可求出其复倒谱系数。该复倒谱系数根据线性预测模型直接得到,因此又称之为LPC倒谱系数(LPCC)。之所以线性预测分析(LPC)法是目前进行语音特征分析的最有效、最重要的方法之一,这是由于:(1)它有效地解决了短时平稳信号的模型化问题,可把语音信号看成是由全极点模型产生的。(2)能很好地逼近共振峰,提供谱估计。(3)提供的语音信号模型参数(如基音、共振峰、谱、声道面积函数等)简洁而准确,计算量较小,便于实时处理。(4)可用于低数率传输的环境。(5)将LPC参数形成的模型参数储存起来,在语音识别中提高识别率和减少识别时间。在MATLAB语言处理工具箱中已经提供了LPC系数的函数。这个函数的名字就是lpc,它的语法为:a=lpc(x,p)这里x为一帧语音信号,p为计算LPC参数的阶数。常x为240点或256点的数据,p取10~12,对语音识别已经足够了。但要采用迭代算法计算LPC倒谱参数则需要自己再另行编写一段复倒谱递推程序,其推导公式为:h(0)=0(n≤0)h(1)=(1≤n≤p)(n>p)其中为LPC系数,而p为其阶数,一般LPC倒谱系数的阶数一般取8~32阶就可以比较好的表征声道特征。3.1.2梅尔滤波器提取法(MEL)如下图所示,由于语音信号在时域上的变化快速而不稳定,所以通常都将它转换到频域上来观察,此时它的频谱会随着时间作缓慢的变化。所以通常将加窗后的帧经过快速傅立叶变换(FFT),求出每帧的频谱参数。再将每帧的频谱参数通过一组N个(N一般为20~30个)三角形带通滤波器所组成的梅尔频率滤波器,将每个频带的输出取对数,求出每一个输出的对数能量(logenergy)Ek,k=1,2...N。再将此N个参数进行余弦变换(cosinetransform)求出L阶的Mel-scalecepstrum参数。图2Mel倒频谱特征参数提取流程图余弦转换公式如下:,m=1,2,…L上面用MFCC进行特征提取方法,用MATLAB语言书写程序如下:f=fft(s);x=melbankm(24,256,8000);n2=1+floor(n/2);z=lof(x*abs(f(1:n2)).^2);c=dct(z);c(1)=[];3.1.3小波变换法(DWT—MFC)[3]DWTMFC是在基本类型MFCC基础上把小波变换引入MFCC参数的提取,用离散小波变换代替傅里叶变换,其中梅尔滤波器组不变图3DWT.MFC流程图3.1.4小波包分析法(WPTC)小波包分析可以看作是将信号通过一系列不同频带范围的带通滤波器,从而获得信号在各频带内的信息。因此本文采用小波包分析代替MFCC中离散傅里叶变换,对小波分解后每个频带内的系数求得对数能量,再进行DCT变换,即可得带小波包系数[1]。图4小波包分析法结构图3.2算法比较(1)在语音特征的提取中,预加重和汉明窗两部分是必不可少的,其参数的选取关系决定了提取语音特征的正确与否。(2)LPC是语音分析的重要手段,它能很好地进行谱估计,即可作为语音特征的参数。因此仅用12个LPC系数就能很好地表示复杂语音信号的特征,这就大大降低了信号的冗余度并有效地减少了计算量和存储量,使之成为语音识别和语音压缩的基础。(3)倒谱也是语音的特征参数,是研究系统特性的有效数据,在实际运作中大多数语音识别系统都会采用倒谱参数来作为有关距离的度量。LPC倒谱系数是描述说话人声道特性的,广泛应用于声纹识别。(4)从目前使用的情况来看,Mel刻度式倒频谱参数是描述人耳听觉特性的,在大词汇量语音识别应用中已逐渐取代原本常用的线性预测编码导出的倒频谱参数,原因是它考虑了人类发声与接收声音的特性,具有更好的鲁棒性。(5)小波包分析法代替MFCC中离散傅里叶变换,对小波分解后每个频带内的系数求得对数能量,再进行DCT变换,具有小波离散法的优点又较MFCC简化了步骤。4基于小波包分析的声音特性提取实现4.1概述利用说话人的语音特征对说话人身份进行辨识或确认。与语音识别一样,说话人识别也是在提取原始语音信号某些特征参数的基础上,建立相应的模板和模型,然后按照一定的判决规则进行识别。但说话人识别是力图找出不同人之间的差别,而语音识别则侧重于对不同说话者的差别进行归一化。说话人识别的关键问题之一就是提取反映说话者个性的语音特征参数。目前常用的特征参数包括线性预测倒谱系数(LinearPredictionCepstrumCoefficient,LPCC)、梅尔倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)等,这两种参数虽然在实用中取得了较好的效果,但这些方法的鲁棒性、适应性、和推广能力都有限,特别是特征参数大都采用平稳信号的分析方法提取的,即只能人为的将语音信号分割成10~30ms的小帧来满足短时平稳的要求。小波理论是一种非平稳信号的分析方法,采用多分辨分析的思想,非均匀的划分时2频空间。本次设计采用小波包分析特征参数的提取,采用小波包分析代替MFCC中离散傅里叶变换。4.2总体结构小波包分析信号时,低频部分和高频部分同时进行正交分解,它将频带多层次分割,能根据分析信号的特征,自适应地选择相应频带,匹配于信号频谱,小波包分解后,各个频段的信号时域分辨力降低,采用信号重构方法,把某一频段的成分进行重构,可提高其时域分辨力。总体结构图如下:图5系统总体结构模型4.3程序设计4.3.1语音信号分帧、加窗这里的分帧是为了提高特征参数提取的精度,而不是为了满足平稳假设的条件。functionf=enframe(x,win,inc)nx=length(x);nwin=length(win);if(nwin==1)len=win;elselen=nwin;endif(nargin<3)inc=len;endnf=fix((nx-len+inc)/inc);f=zeros(nf,len);indf=inc*(0:(nf-1)).';inds=(1:len);f(:)=x(indf(:,ones(1,len))+inds(ones(nf,1),:));if(nwin>1)w=win(:)';f=f.*w(ones(nf,1),:);end4.3.2Mel滤波器组特征提取是从语音信号中提取出对语音识别有用的信息,它对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息。美尔频标倒谱系数(MFCC)考虑了人耳的听觉特性,将频谱转化为基于MEL频标的非线性频谱,然后转换到频谱域上。由于充分考虑了人的听觉特性,而且没有任何前提假设,MFCC参数具有良好的识别性能和抗噪声能力。MFCC是采用滤波器组的方法计算出来的,这组滤波器在频率的梅尔坐标上是等带宽的。functionccc=wtcc(x)bank=melbankm(24,64,22400,0,0.5,'m');bank=full(bank);bank=bank/max(bank(:));fork=1:12n=0:23;dctcoef(k,:)=cos((2*n+1)*k*pi/(2*12));endw=1+6*sin(pi*[1:12]./12);w=w/max(w);xx=double(x);xx=filter([1-0.9375],1,xx);e=1.0e-006;t=pd8(xx);t=t';[c,d]=size(t);c2=log(bank*t+e);c1=dctcoef*c2;c2=c1.*w';c2=c2';fori=1:32m(i,:)=c2;enddtm=zeros(size(m));fori=3:size(m,1)-2dtm(i,:)=-2*m(i-2,:)-m(i-1,:)+m(i+1,:)+2*m(i+2,:);enddtm=dtm/3;ccc=[mdtm];ccc=ccc(3:size(m,1)-2,:);4.4音频特征参数提取结果表1两男声样本“1--4”特征参数提取1—8列小波包系数的能量列数(相应频率)声音12345678男A数字“1”的声音特征参数提取结果-19.1762-6.3377-0.8914-14.5067-18.9248-14.781810.820119.9517男A数字“2”的声音特征参数提取结果-15.4975-9.0090-3.5209-10.5052-27.3442-12.20609.738622.3757男A数字“3”的声音特征参数提取结果-14.4774-8.3300-3.4101-10.1762-25.6394-11.15299.076122.5569男A数字“4”的声音特征参数提取结果-13.0305-7.0567-1.1795-13.2753-20.4196-12.55459.143620.3470男B数字“1”的声音特征参数提取结果-19.1762-6.7393-3.0196-14.3797-23.5850-13.069615.972526.0445男B数字“2”的声音特征参数提取结果-19.3994-11.9852-4.3884-9.0358-31.6931-15.050612.229929.1440男B数字“3”的声音特征参数提取结果-18.1887-10.9988-5.1990-6.5235-28.1043-11.375511.734125.5349男B数字“4”的声音特征参数提取结果-17.4147-11.1379-4.0426-13.0118-27.5517-11.314112.773627.7249男B第二次发数字“1”的声音特征参数提取结果-19.1487-5.9441-0.4996-15.2670-23.4189-10.411715.730624.7091男B第二次发数字“2”的声音特征参数提取结果-19.3555-11.5930-4.0854-6.6733-29.9998-16.179613.145428.3704表2两男声样本“1--4”特征参数提取9—16列小波包系数的能量列数(相应频率)声音910111213141516男A数字“1”的声音特征参数提取结果12.5740-3.1443-5.1494-0.0000-0.00000.00000.00000.0000男A数字“2”的声音特征参数提取结果14.7159-3.0995-6.0191-0.00000.000000.0000-0.0000男A数字“3”的声音特征参数提取结果13.3458-2.6221-5.9615-0.0000-0.00000-0.00000.0000男A数字“4”的声音特征参数提取结果12.0474-2.4197-5.2808-0.000000.000000.0000男B数字“1”声音特征参数提取结果15.2974-2.6978-6.0493-0.00000.000000.0000-0.0000男B数字“2”的声音特征参数提取结果15.3234-2.9979-7.1283-0.000000.0000-0.00000男B数字“3”的声音特征参数提取结果14.5424-2.7691-6.3092-0.00000.00000.0000-0.0000-0.0000男B数字“4”的声音特征参数提取结果13.7395-2.2206-6.7310-0.00000-0.00000-0.0000男B第二次发数字“1”的声音特征参数提取结果14.1953-3.2283-6.0987-0.0000-0.00000.0000-0.00000.0000男B第二次发数字“2”的声音特征参数提取结果15.5054-3.2414-6.9300-0.00000-0.00000-0.0000表3两男声样本“1--4”特征参数提取17—24列小波包系数的能量列数(相应频率)声音1718192021222324男A数字“1”的声音特征参数提取结果0.00000.0000-0.00000.00000.000000.00000.0000男A数字“2”的声音特征参数提取结果00.00000.000000.00000-0.00000男A数字“3”的声音特征参数提取结果0-0.000000.00000-0.00000.00000.0000男A数字“4”的声音特征参数提取结果0.0000-0.0000-0.00000.00000.00000.0000-0.00000.0000男B数字“1”的声音特征参数提取结果00.0000-0.0000-0.00000.00000.000000男B数字“2”声音特征参数提取结果0.000000.0000-0.0000-0.00000.0000-0.0000-0.0000男B数字“3”的声音特征参数提取结果00.0000-0.000000.00000.000000男B数字“4”的声音特征参数提取结果-0.0000-0.0000-0.00000.00000.00000.0000-0.0000-0.0000男B第二次发数字“1”的声音特征参数提取结果0.00000-0.00000-0.00000.000000男B第二次发数字“2”的声音特征参数提取结果-0.000000.00000.00000.00000.0000004.5特征参数结果分析(1)由4.4中特征参数比较图6男A各个发言特征参数对比图表4男声A样本“1--4”特征参数提取小波包系数的能量每两两之间差值列数男A不同发音参数差值第1列第2列第3列第4列第5列第6列“1”与“2”2.02902.67132.6295-4.00158.4194-2.5758“1”与“3”1.00891.99232.5187-4.33056.7146-3.6289“1”与“4”-0.43800.71900.2881-1.23141.4948-2.2273“2”与“3”-1.0201-0.6790-0.1108-0.3290-1.7048-1.0531“2”与“4”-2.4670-1.9523-2.34142.7701-6.92460.3485“3”与“4”-1.4469-1.2733-2.23063.0991-5.21981.4016列数男A不同发音参数差值第7列第8列第9列第10列第11列第12-24列“1”与“2”1.0815-2.4240-2.1419-0.04480.86970“1”与“3”1.7440-2.6052-0.7718-0.52220.81210“1”与“4”1.6765-0.39530.5266-0.72460.13140“2”与“3”0.6625-0.18121.3701-0.4774-0.05760“2”与“4”0.59502.02872.6685-0.6798-0.73830“3”与“4”-0.06752.20991.2984-0.2024-0.68070从上图及差值表可以发现在3—5列数值上有很大差别有些部分数值上基本无差别。这些信号在前11列小波包系数能量上的差别表明了语音只在前11列的相应频率上有能量差别。而特征参数(小波包系数能量)从12列部分开始,几乎是0,这就表明这些不同的语音信号在其他频率上基本没有能量。(2)由5.4.1与5.4.2特征参数比较可以从以下图中清晰看出图7男A与男B发“1”时特征参数对比图图8男A与男B发“2”图9男A与男B发“3”图10男A与男B发“4”时特征参数对比图表5男声A、B样本“1--4”特征参数相对应之间差值1—6列列数男A男B同一发音特征参数差值第1列第2列第3列第4列第5列第6列“1”5.70770.40162.1282-0.12704.6602-1.7122“2”3.90192.97620.8675-1.46944.34892.8446“3”3.71132.66881.7889-3.65272.46490.2226“4”4.38424.08122.8631-0.26357.1321-1.2404表6男声A、B样本“1--4”特征参数相对应之间差值7—24列列数男A男B同一发音特征参数差值第7列第8列第9列第10列第11列第12-24列“1”-5.1524-6.0928-2.7234-0.44650.89990“2”-2.4913-6.7683-0.6075-0.10161.10920“3”-2.6580-2.9780-1.19660.14700.34770“4”-3.6300-7.3779-1.6921-0.19911.45020观察以上四图及差值表较明显看出同一人发音在1—2和6—11列相对的频率上区别不大,而不同人不同人的发音区别在这些列上有了很大的区别。(3)5.4.2与5.4.3特征参数比较图11男B两次发“1”时特征参数对比图图12男B两次发“2”时特征参数对比图表7男声B样本“1--2”特征参数两次同一发音相对应之间差值1—6列列数男B同一数字重复发音特征参数差值第1列第2列第3列第4列第5列第6列“1”0.02750.79522.5200-0.88730.16612.6579“2”0.04390.39220.30302.36251.6933-1.1290表8男声B样本“1--2”特征参数两次同一发音相对应之间差值7—24列列数男B同一数字重复发音特征参数差值第7列第8列第9列第10列第11列第12-24列“1”-0.2419 -1.3354-1.1021-0.5305-0.04940“2”0.9155-0.77360.1820-0.24350.19830由上面两图及差值表可清晰发现同一人发同一个音在第1和11列上差别最小。总之不同人语音的特征参数差别在1—2和6--11列上,而同一个人不同语音差别在3—5列上。结论本次论文借鉴MFCC提取的方法,用小波包分析来提取语音的特征参数。从仿真数据分析发现:区别不同人的发音的频点和区别同一人不同发音的频点分别在不同的频带

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论