基于mfcc与短时能量混合特征的异常声音识别

上传人：1*** IP属地：广东上传时间：2023-11-03 格式：DOCX 页数：5 大小：40.60KB 积分：12 举报 版权申诉

全文预览已结束

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于mfcc与短时能量混合特征的异常声音识别

0异常声音的识别在过去的10年里，视频监控系统被广泛应用于人们的生活中。但是当被观测目标离开观测范围时,视频监控系统性能将会大幅度降低,而且直接监控目标会涉及侵犯隐私。与视频监控系统相比,音频监控系统具有复杂度小、成本低、高效性且能够充分保护隐私等诸多优点。因此,近年来音频监控系统开始受到越来越多研究人员的广泛关注。在音频监控系统中,特征参数和分类器的选择直接影响系统的复杂度和识别性能。普遍采用的分类器有支持向量机(SupportVectorMachine,SVM)、隐马尔可夫模型(HiddenMarkovModel,HMM)和高斯混合模型(GaussianMixtureModel,GMM)等。文献提出采用12维MFCC系数和GMM分类器来训练识别四种声音,得到的平均识别率为80%以上。文献提出应用在家庭生活中的音频监控系统,该系统提取1s异常声音的MFCC系数作为特征参数,采用AdaBoost算法对异常声音进行检测,取得了较好的检测结果。但是这种算法需要大量的训练样本,同时要求异常声音的长度为等长(1s),限制了这种算法的使用范围。文献提出应用于铁路环境下的音频监控系统,采用MFCC特征训练GMM分类器,对尖叫声和枪声进行识别。但是这种算法只是针对两种异常声音,没有考虑多种异常声音同时存在的情况。因此,本文将音频监控系统推广到日常生活中,选择电梯作为实验背景,搜集在电梯中容易出现的5种异常声音,如报警声、尖叫声、哭泣声、小孩哭泣声和撞击声作为实验素材。本文采用MFCC系数与短时能量相结合的方式作为异常声音的特征参数,训练GMM,达到了较好的识别效果。与单独采用MFCC系数作为特征参数相比,识别率有了明显的提高,计算量没有明显的增加;与MFCC系数和一阶差分相结合的作为特征参数的方式相比,本文算法的计算复杂度较低,同时识别率相差不大。1资源参数提取音频特征参数提取是指从音频信号中获得一种能够描述音频信号特征的过程。在特征提取之前,需要对原始样本进行预处理,使得能更好地提取特征。1.1预处理假设输入的音频信号为x(n),预处理过程如下。1一体化处理归一化处理的目的是消除不同样本声音大小的差异,将样本幅度值限定在[-1,+1]。2预料预加重一般是用具有6dB/倍频程的一阶数字滤波器来实现,如式(1)所示:H(z)=1-μz-1(1)其中μ为常数,一般取0.97。3复制到视听信号的频带通常是重叠的为了避免信号间断,一般取256点为一帧,帧间重叠为128点。1.2mfcc的本构模型MFCC是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率感知的非线性特性,反映了音频短时幅度谱的特征,因此在异常声音识别中得到了广泛应用。MFCC的提取方法是将预处理后的信号xt(τ)作频域变换后,将对数能量谱依照Mel标度分布的三角滤波器组作卷积,再对滤波器组的输出向量作离散余弦变换(DiscreteCosineTransform,DCT),这样得到的前n维向量称为MFCC,如式(2)所示:Ct(n)=∑m=1MSt(m)cos(πn(m−0.5)M)Ct(n)=∑m=1ΜSt(m)cos(πn(m-0.5)Μ);0≤n<M(2)其中:n为所取MFCC个数;Ct(n)为第t帧的第n个MFCC系数;St(m)为音频信号的对数功率谱;M为三角滤波器个数,本文取24。舍去代表直流成分的Ct(0),得到Ct(1),…,Ct(n),取n为12作为MFCC系数Ct(n)。然后根据式(3)对MFCC系数进行一阶差分,得到一组MFCC差分系数Dt(n):Dt(n)=∑i=−kkCi(n+i)∑i=−kki2ue001⎷ue000ue000(3)Dt(n)=∑i=-kkCi(n+i)∑i=-kki2(3)其中k为常数,一般取2。1.3音频信号的时差能量音频信号的能量随着时间变化比较明显,音频信号的短时能量分析给出了反应这些幅度变化的一个合适的描述方法。对于音频信号xt(τ),短时能量:(En)t=∑τ=0L−1|xt(τ)|2(4)(En)t=∑τ=0L-1|xt(τ)|2(4)其中:(En)t为第t帧的短时能量;τ为一帧内的样本点;L为帧长,本文取256。1.4特征矢量的获取本文选取MFCC与短时能量构成组合参数的理论依据如下。1)短时能量是音频信号最基本的短时参数之一,它表征一帧音频信号能量的大小,是音频信号一个重要的时域特征。2)由一帧音频信号求出的短时能量是一个标量值,与其他参量构成组合参数不会使原特征矢量的维数明显增加。特征矢量的维数越少,则需要的运算复杂度越小。另外,获取短时能量的运算并不复杂。3)短时能量是时域特征,而MFCC参数是人耳听觉感知特征,两者之间的相关性不大,它们反映的是音频信号的不同特征,应该有较好的效果。本文将MFCC系数与短时能量混合得到的特征矢量记为MFCC_E。特征矢量的排列顺序是将短时能量(En)t作为MFCC_E特征矢量的第1维,将原始MFCC的12维作为特征矢量MFCC_E的第2维到第13维。2gmm在教学过程GMM本质上是一种基于参数估计的多维概率统计模型,它认为每一种声音的特征在特征空间中都形成特定的分布,并且可以用多个高斯分布组合对它的特征分布进行拟合。不同参数的高斯分布组合可以用来表征不同的声音,即每种声音的特征参数对应一个GMM。GMM已经广泛应用于说话人识别和语音识别中。本文所用的GMM训练过程如图1所示。训练过程是按照文献中的方法,采用从训练样本中提取的特征矢量来训练GMM,对于有5种声音的异常声音识别系统,每种声音用一个GMM来代表,得到5种声音的模型参数。最终得到描述每种声音的整个GMM的三元式如式(5):λ={Pi,μi,Σi};i=1,2,…,N(5)其中:Pi为混合分量的权值;μi为均值矢量;Σi为协方差矩阵;N为混合阶数。本文所用的样本识别过程如图2所示。识别过程是采用从测试样本中提取的特征矢量,结合GMM分类器,通过求取后验概率的最大值得到每类单个测试样本的识别结果,最后将每一类所有测试样本的识别结果相加,求出每类声音的总体识别率。3结果3.1实验方法和样本所有实验都运行在PC机的WindowsXP操作平台上,PC机的主频为1.5GHz,内存为1GB,编程主要使用的是Matlab7.0。实验中的参数如下:声音种类为报警声、尖叫声、哭声、小孩哭声和撞击声,每类声音有30个样本;采样率为16kHz,量化为16b,帧长16ms(256个采样点),帧移(128个采样点);训练样本随机选择总样本数的80%,识别样本为剩余20%样本;每组实验做10次,列出每类声音的平均识别率,最后对相同混合阶数下所有声音的识别率求平均值作为评价标准。3.2特征参数的复杂度本实验研究GMM混合阶数对识别性能的影响,从而选择适合的混合阶数。实验中所用混合阶数分别为8、12和16。识别模型为GMM,N表示不同的混合阶数。表1、2列出了两种特征在不同混合阶数下的识别性能。为了得到较高的识别率,同时要有较低的复杂度,本文对不同阶数、不同特征矢量进行了复杂度的研究。复杂度的评判准则是指运行程序所需要的时间,单位为s。表3、4分别列出了训练复杂度和识别复杂度。从表1～2中可以看出,无论是采用特征参数MFCC_E或MFCC+MFCC_D特征矢量,当GMM阶数从8逐渐增加到16时,识别率逐渐上升;同时可从表3～4中得到,阶数越高,所需训练和识别复杂度也越大。3.3不同浓度mfcc的识别结果本实验研究不同特征矢量对识别性能的影响,从而证明MFCC_E识别率最高且复杂度较低。实验采用特征矢量分别为MFCC(维数为12)、MFCC与一阶差分MFCC_D(维数为24)、MFCC_E(维数为13),识别模型均为GMM,表5～6中混合阶数分别为16和12,识别结果如表5～6所示。从表5、6中均可以看出,当混合阶数N相同的情况下:1)特征矢量MFCC_E比MFCC得到的识别率提高6%,这表明MFCC与能量的混合特征识别率高于单独使用MFCC;2)特征矢量MFCC+MFCC_D比MFCC得到的识别率高;3)特征矢量MFCC_E比MFCC+MFCC_D识别率高。但是从表3～4也可以看出,MFCC+MFCC_D训练复杂度几乎是MFCC_E的2倍,是MFCC的3倍,而它们的识别复杂度相差并不大。3.4在单次给药后,知识特性测试将本文算法的识别结果与文献、进行了对比,结果如表7所示。从表7中可以看出,相对于原始特征MFCC,MFCC_E取得了比原始MFCC更高的识别率。其主要原因是加入短时能量后,一方面增加了特征的维数,另一方面增加了特征所包含的声音的信息量。从实验结果可以验证,短时能量中包含有用的声音信息。综上所述,综合考虑特征的识别率和复杂度,可以看出,MFCC_E比MFCC和MFCC+MFCC_D的识别率高,而且训练和识别复杂度明显低于MFCC+MFCC_D,略高于MFCC,这就证明MFCC与短时能量的结合识别率高,相对复杂度较低,有效提高了分类器的识别性能。4异常声音的识别本文将MFCC,差分MFCC以及短时能量三种特征用于GMM的训练与识别中,实验证明使用MFCC与能量混合特征比文献单一使用MFCC特征得到的识别率高,对异常声音分类更准确,识别率可达到90%以上,而且特征维数较低,相对复杂度不高;所用的GMM分类器也改善了文献中所用的AdaBoost分类器因样本数较小而导致系统性

人人文库> 全部分类> 专业文献 > 学术论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于mfcc与短时能量混合特征的异常声音识别

文档简介

温馨提示

最新文档

评论

基于mfcc与短时能量混合特征的异常声音识别

文档简介

温馨提示

最新文档

评论

相关文档