下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于MATLAB的声纹识别系统软件的设计作者:张敏敏马骏龚晨晓陈亮亮郑茜茜来源:科技视界2013年第22期张敏敏马骏龚晨晓陈亮亮郑茜茜(温州医科大学信息与工程学院,浙江温州325000)【摘要】本文基于MATLAB,利用语音模型匹配的方法设计并完成了一个与文本相关的声纹识别软件系统。系统预先由麦克风向计算机录入各个说话人的语音样本,经预处理、基音周期和MFCC参数提取、多重迭代训练后得到各说话人语音的隐马尔可夫(HMM)参考模型。实验时将输入的语音样本进行测试,根据被测试语音模型和参考模型的匹配度来进行识别。实验结果表明,本系统的识别率将随着训练次数的增多而提高,系统基本可达到高于85%的正确
2、识别率和实时识别的要求。【关键词】声纹识别;Matlab;MFCC参数;HMM模型0引言声纹识别技术1为生物识别技术的一种,也称为说话人识别,分为说话人辨认和说话人确认2。目前,市场上已经出现了一些声纹识别的应用,比如在军事情报方面,用于电话领域的监听与追踪;在监狱管理中,用于亲情通话对象的管控;在司法取证方面,语音声纹分析识别用于司法鉴定,还有社保身份认证、电话语音声纹考勤甚至现在非常流行的声纹锁屏3等等。每个人的说话声音由于音色的不同可以被区分开来,本文所涉及到的声纹识别系统软件的设计4便是提取了声纹中的特征参数,把它作为本系统声纹识别技术的依据。与此同时,声纹识别分为文本相关的(Text
3、-Dependent)和文本无关的(Text-Independent)两种4。本识别系统为与文本相关5的声纹识别系统,要求用户按照规定的内容发音,建立好说话人的声纹模型,在后期进行语音识别时需要按规定的内容发音进而进行说话人身份的辨别。1声纹识别系统设计本系统整体流程分为设计分为5步:预处理、提取特征参数(基音周期、倒谱系数等)、建立参考模型、带入测试模型、进行匹配。HUS9(1)预处理:包括采样和量化(即A/D转换)、预加重处理、加窗、依据短时能量谱的语音端点检测等几个处理过程。(2)提取特征参数:为了能够表征说话人语音中说话人特定器官结构或习惯行为,便需要提取特征参数,并且该特征参数对同一
4、说话人应具有相对稳定性。基音周期6:产生发音时声门的开启和闭合引起声带的周期性振动,形成周期性的脉冲串,用来描述这一串脉冲气流的周期称为基音周期。这种参数的提取主要是基于说话人发声器官,如声门、声道和鼻腔等的特殊结构而提取出说话人语音的短时谱特征(即基音频率谱及其轮廓)。本系统利用自相关函数法(ACF)检测基音周期,由于周期信号的自相关函数将在时延等于函数周期的点产生一极大值,因此通过计算自相关函数可以估计语音信号的基音频率,以此方法获得基音周期(基音频率的倒数就是基音周期)。自相关函数的数学计算公式为:倒谱系数7:目前主流的声纹特征参数有LPC以及基于Mel频率的倒谱系数(Melfreque
5、ncycepstralcoefficients,MFCC)。实验中证明,MFCC是目前声纹特征中识别率最高的一种,本系统便是提取Mel频率倒谱系数MFCC用来模拟人耳听觉系统的感知能力,描述语音信号在频率域上的能量分布。Mel倒谱系数MFCC的提取过程如下:对语音信号进行预处理。离散傅里叶变换(DFT):是信号完成从时域至频域的转换。生成Mel滤波器组。计算经Mel滤波器组加权后的能量值。做离散余弦DCT变换。(3)建立参考模型:常见的识别模型有模板模型(动态时间规整方法DTW、矢量量化方法VQ)、概率模型(隐马尔科夫模型HMM、高斯混合模型GMM),以及目前正在发展中的人工神经网络(ANN)
6、方法。本实验采用的隐马尔科夫模型HMM8,并将该模型确定为本系统的模式匹配方法。使用HMM模型可以用短时模型描述平稳段的信号,而且还可以解决每个短时平稳段是如何转变到下一个短时平稳段的问题。本过程目的是对所提取出来的说话人语音特征进行学习训练,建立声纹模板或语音模型库,或对系统中已有的声纹模板或语音模型库进行适应性修改。(4)带入测试模型:将用于测试的语音样本参数代入,得测试模型,与参考模型一一匹配(5)进行匹配:在识别过程中,声纹识别系统要根据系统已有的声纹模板或语音模型库对输入语音的特征参数进行模式匹配计算,从而实现识别判断,得出识别结果。2实验与结果在声纹识别系统的测试实验中,从所在班级
7、随机抽取了15名学生(其中男生10名、女士5名),每人6个样本,共计90个语音样本,男性说话人有Yjd,Zsl,Mj,Zqy,Gcx,Mgj,Mz,Mjp,Srf,Jd,女性说话人有Hj,Whj,Gxx,Yhr,Zm。在使用该语音库的前提下,要求他们对指定文本“温州医科大学”应用普通话进行自然发音,录制环境为室内。并把每一个说话人的6份样本中3份样本用于训练,3份样本用于测试,建立不同的HMM模型,观察不同训练的样本数对识别结果的影响。实验表明,运用MATLAB建立的HMM模型确实可以进行说话人身份的识别,本系统的识别率为85%以上,但如果增加训练次数,则识别率也会相应地得到提高。在系统实时处
8、理上,由于MFCC参数计算量比较大,所花费的计算时间较长,使得本系统的实时性受到了考验,另外由于MFCC参数的计算涉及到DFT计算、对数计算,这使得整个计算的动态范围受到了影响以至于影响本系统的精确度。3声纹识别技术的研究进展声纹识别技术仍需要在研究方法和市场应用进行相应的改进,一方面,要寻找更为优良的研究方法,另一方面,由于建模方法的选择与使用都会对声纹识别结果带来很大的影响,这要求我们能够寻找到一种更为稳定的声纹特征参数来帮助说话人身份的识别,一方面,要保证乃至提高系统的精确性,另一方面,也要保证独一性,能够区分不同说话人的特质。随着声纹技术的不断发展,所对应的声纹市场也日趋成熟,必定会与
9、当今的信息化时代相契合,提供一种切实有效的安全保障。【参考文献】1 HYPERLINK /view/116450.htm%5b0L /view/116450.htm0L.2JosephP.Campbell,Jr.Speakerrecognition:atutorialJ.ProceedingsoftheIEEE,1997,85:1437-1462.3/OL.4陈怀琛数字信号处理教程:MATLAB释义与实现M.2版北京:电子工业出版社,2008.Chi-WeiChe,Qi-guangLin,Dong-SukYuk.AnHMMApproachtoText-PromptedSpeakerVerificationC/The1996IEEEInternationalConferenceonAcoustics,SpeechandSignal.ProcessingConferenceProceedings,1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园防骗防拐演练
- 知荣辱课件教学课件
- 食品安全与健康相关
- 退行性脊椎病X线
- 酶促反应原理临床治疗
- DB1304T 488-2024大丽花露地栽培技术规程
- 聪聪课件 教学课件
- 高温烫伤应急预案演练
- 肺全切术后护理查房
- 运动治疗仪器及使用方法
- 汽车租赁项目可行性分析报告
- 6-7高原弥散式氧气机说明书
- 重金属废水采用反渗透技术工艺处理的原理
- 研究生课程《广义函数与Sobolev空间》教学大纲
- 妇幼保健院重点学科带头人选拔与考核激励机制
- 部编教材九年级历史(上)全册教案
- 农业部-世界银行气候智慧型农业项目
- 高中化学基础知识竞赛试题及答案共六套
- 大班科学《我们身体的洞》22张幻灯片
- 唐雎不辱使命课件(共张PPT)
- 武汉理工网络《证券法》试题及其答案
评论
0/150
提交评论