基于音频比对的声纹识别技术_第1页
基于音频比对的声纹识别技术_第2页
基于音频比对的声纹识别技术_第3页
基于音频比对的声纹识别技术_第4页
基于音频比对的声纹识别技术_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第26卷第4期佛山科学技术学院学报(自然科学版)2008年7月JournalofFoshanUniversity(NaturalScienceEdition)文章编号:100820171(2008)0420001205.26No.4Vol.2008Jul基于音频比对的声纹识别技术王东,陈俊龙,张鸿贤(佛山科学技术学院计算机系,广东佛山528000)摘要:为了克服声纹识别技术在应用中存在识别率低、。通过大量实验分析,建立了一系列声纹识别的音频特征模型,。与传统的声纹识别技术相比,声纹识别的准确率提高了20%。关键词:声纹识别;音频特征;中图分类号:TN912.:A,声纹识别技术逐渐成为了研究热点

2、。声纹识别属于生物特征识别技术,是一种根据语音波形所反映的说话人生理和行为特征的语音参数的技术。声纹识别系统主要包括两部分:特征提取和模式匹配。特征提取的任务是选取惟一能表现说话人身份的有效且稳定可靠的特征,并以此作为身份验证的依据;而模式匹配的任务是把提取的音频特征与训练时提取的音频特征进行相似性匹配。1基本的声学特征在对音频进行采样的过程中,需要从采样的样本数据中提取表征说话人惟一特征的音频特征参数,即能代表原始音频中主要信息的参数1,2。1.1短时能量音频短时能量体现了音频信号的幅值随时间的变化情况,其主要作用是区分话音成分和非话音成分,即用来区分“有说话区”和“无说话区”,也可以用作语

3、音端点检测。音频信号的短时能量定义为En=NN-1ii=mSn(i)(n-m)2,(i)=1,0iN-10,otherwise,(1)式(1)中,m=0(N-1),如果i的起点不是从i=0,而是某个整数m,那么相应的能量求和范围为m(N-1)。1.2短时过零率过零率定义为单位时间内的过零次数,其应用主要包括两类:一类是用于粗略描述信号的频谱特性,另一类是用于判别一段音频信号中是否有语音。由于一般的过零率定义计算得到的值易受干扰,因此对其计算模型作出如下改进:设一个门限T,将过零的含义修改为超过正负门限,可得下式Zn=m=-󰃜sgnx(n)-T-sgnxn-1-T󰃜

4、;+󰃜sgnx(n)+T-sgnxn-1+Tn-m。(2)1.3质心和均方根质心反映音频帧内信号的基本频率带。收稿日期:2008203226作者简介:王东(19702),男,黑龙江甘南人,佛山科学技术学院讲师。佛山科学技术学院学报(自然科学版)第26卷K322j32jjMj=St=1(t) K,Ci=jM Mj=1j=1。(3)均方根用于衡量音频信号的强弱。32Ri=Mj=12j 32。(4)1.4Mel倒谱系数人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是一个对数关系。Mel倒谱系数充分利用人的听觉系统这种特殊的感知特性,从而比较有效地表征人

5、的音频特征。为计算Mel倒谱系数,首先应计算音频的频域信息,对音频帧进行快速傅立叶变换,将时域信息xi(n)(n1,Num)转换为频域信息yi(n)(n0,Num-1),Num-1yi(n)=en=0-jnk Numxi(n+1),k0,(5)式(5)中j为虚数单位1kHz),并按“1kHz以下以线性的形式计算11个频率点,1kHz12个频率点”的原则确定出24个频点的频率fi(i1,24)fffff12=20Hz=1000Hz=f=i-11+11fHz。(6)1324f14=24=22000Hz根据上式的计算结果,代入下式,即可计算出对应的Mel频率Fi=6ln600+(600)2+1,(7

6、)计算Mel倒谱系数:利用24个三角带通虑波器分别与傅立叶变换得到的频域信息yi(n)(n0,Num-1)求卷积,得到每个频率点的对数能量pi(n)(n1,24),根据该频点能量进行余弦变换(DCT)即可得到Mel倒谱系数24) (8)MFCCi=pi(k) cos(k-d1,2,12。2k=1式(8)中,d代表取Mel倒谱系数的个数(本文取前12个)。2音频特征建立过程按照图1所示过程建立语音特征3。图1原始音频数据处理流程2.1音频数据预处理无论采用哪一种采样频率都会产生数据量过大的问题。因此,在提取音频特征之前,必须对原始音频数据进行Haar小波变换以压缩音频信息。Haar小波函数定义为

7、1,当0x<1 2(9)(x)=-1,当1 2x<1。0其他第4期王东等:基于音频比对的声纹识别技术3设有一段有N个数据的原始音频为X=x1+x2+xN(Nmod2=0),用Haar小波变换为(10)xi=,i=1,2,N 4,j=4 (i-1)+1,2把原始音频数据压缩后,对音频数据进行细化,即做分帧处理:设一个音频序列的采样频率为fs,实(1000 32),每个音频的数验采用22050Hz,采样位数为Ws,每个子带的数据个数为K=fs Ws 20据个数为Num=K 32,xn(n1,Num)为帧音频数据集,si(j)(j1,32)为第i帧第j子带的音频数据集。2.2音频帧的划分

8、对于音频信号处理,可假定为短时平稳,即在1020ms内,其频谱特性和一些物理特征是稳定不变的,然后采用平稳过程分析方法进行处理。对音频数据进行特征提取前,首先把音频数据进行分帧处理。把每20ms采集的音频数据作为一帧,相邻两帧之间重叠10ms,;然后,把每帧的数据平均分成32个子带。音频帧的划分如图2所示。图2音频帧划分示意图2.3语音端点检测在对音频数据进行特征提取前,先把特征有效音频序列分离出来。而新的音频序列都是包含了惟一可代表说话人的主要特征,即进行语音端点检测。根据式(1)计算短时能量,得到音频的短时能量En,然后根据式(2)计算得到音频的短时过零率Zn。至此可根据短时能量判断一个字

9、的末点。通常情况下,短时平均幅度值降低到该音节中最大短时平均幅度的1 16左右,就可以认为该音节已经结束了。而语音的开端,其短时能量的大小与背景噪声的短时能量相差不大,为了能够正确地找到音节的起点,本文采用双门限前端检测,其方法如下:语音开始以后会出现能量较大的浊音,设一个较高的门限Th用以确定语音已经开始,再取一个比Th稍小的门限Tl,用以确定真正的起点N1和结束点N2。判断清音与无话的差别,是采用另一个较低的门限T1,求越过该门限的“过零率”。只要T1取得合适,如图(3)所示。为了下文所述的模式匹配计算方便,对每段有效音频只取固定的音频帧数324。图3语音端点检测示意图2.4提取特征参数有

10、了上述的基础,就可以对经过上述处理的音频序列进行音频特征参数的提取。首先根据质心和均方根的定义及式(3)和(4),计算得到每个音频帧的质心Ci和均方根Ri。然后根据式(5)对每一个音频正进行快速傅立叶变换,把时域信息转化为频域信息。并按照式(6)计算出24个频率点fi(i1,24),把fi(i1,24)代入式(7)得到24个频率点分别对应的Mel频率。最后利用24个三角带通虑波器分别与傅立叶变换得到的频域信息yi(n)(n0,Num-1)求卷积,得到每个频率点的对数能量pi(n)(n1,24),把每一个音频帧的对数能量pi(n)(n1,24)代入式(8),进行余弦变换(DCT)即可得到Mel倒

11、谱系数。到此,对每个音频帧都提取了包括:短时能量、短时过零率、质心、4佛山科学技术学院学报(自然科学版)第26卷均方根以及Mel倒谱系数的音频特征参数。3音频特征匹对模型对待检测音频特征的匹对模型如图4所示。图4音频特征匹对模型3.1建立特征模型在提取特征参数的过程中,已经得到了一系列能表征人的身份的音频特征参数。对于每一个音频帧,根据音频特征参数:1个质心、1个均方根以及12个Mel倒谱系数,14维的特征模型。把质心Ci和均方根Ri作为一个特征向量V=(Ci,Ri),把特征向量Vi12个Mel倒谱系数构成的特征向量作为另一个样本向量。3.2模式匹配在音频帧所提取的14,把每个音频帧的12个M

12、el12个补偿倒谱系数作为另一个样本向量。夹角越小,表示相似度越高,反之,相似度越低3.3质心和均方根比对_首先把被测音频中每个音频帧的特征向量Vi(k)与样本向量Vi中心音频帧的位置一一对应起来,然后把Vik和代入式(11)计算出夹角。对计算出i的余弦值cosi,然后利用反三角函数计算出夹角i的值的所有的,判定i求出平均值1是否成立,如果成立,则表明被测音频与样本音频相似,否则不相似5。cosi=2_()Ci+Ri2(k)(k)(k),(k)(11)(Ci)2+(Ri)2式(11)中,Ci表示样本音频中的第i帧的质心,Ci(k)表示被测音频第i帧的质心;Ri表示样本音频中的第i帧的均方根,R

13、i(k)表示被测音频中第i帧的均方根,。1是经过大量实验确定的一个阀值3.4Mel倒谱系数比对利用倒谱平均消去法,计算补偿倒谱系数。首先把倒谱系数的期望定为零,那么就有5N(12)Avi(j)=MFCCi(j)j1,音频帧数,MFCCi(j)=MFCCi(J)-Avi,Nj=1式(12)中,N为倒谱系数的个数,Avi为第i个帧的倒谱系数的平均值,MFCCi(j)为补偿后的倒谱系数。把上述计算得到的每一个音频帧补偿后的倒谱系数作为一个12维向量5Mi=(MFCCi(1),MFCCi(2),MFCCi(12),_(13)首先把被测音频中每个音频帧的特征向量M后把M_(k)i_(k)i与样本向量Mi

14、中心音频帧的位置一一对应起来,然_和Mi代入式(14)计算出夹角i的余弦值cosi,然后利用反三角函数计算出夹角i的值并求出_平均值,判定2(2是经过大量实验确定的一个阀值)是否成立,如果成立,则表明被测音频与样本5音频相似,否则不相似。cosi=(MFCCi(1)+(MFCCi(12)22(14)(MFCC(MFCCi(1)+i(12)224总结与展望通过对音频特征的筛选以及对提取音频特征方法的改进,在较理想的环境下,能把声纹识别的准确第4期王东等:基于音频比对的声纹识别技术5率提升到60%左右。由于在提取音频特征前对噪音的过滤效果还没达到预期的目标,音频特征还没有建立足够多,以及硬件设备精

15、良等问题对本识别率都造成了一定的影响。在后续工作中,应继续完善音频特征模型,改进匹配算法,力求把声纹识别的准确率逐步提高,进而把声纹识别技术应用到实际中。参考文献:1郭兴吉.基于特征的音频比对技术J.河南师范大学学报,2006,34(2):35238.2张万里,刘桥.Mel频率倒谱系数提取及其在声纹识别中的作用J.贵州大学学报,2005,22(2):2072210.3易克初.语音信号处理M.北京:国防工业出版社,2000.4姚天认.数字语音处理M.武汉:华中科技大学出版社,2002.5同济大学应用数学系.线性代数M.4版.北京:高等教育出版社,2006.Voice-printtechnologybatchingWANlong,ZHANGHong2xiantofComputer,FoshanUniversity,Foshan528000,China)Abstract:Inordertoovercomesomeshortageswhileusingvoice2printrecognitiontechnology,suchaslowrecognitionrate,instabilityanunrecognizedspeechandsoon.Throughalotofexperimentalhasbeendonetorecognizeaseriesofvoicefeaturesmode

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论