基于动态时间规整的孤立咳嗽声识别_第1页
基于动态时间规整的孤立咳嗽声识别_第2页
基于动态时间规整的孤立咳嗽声识别_第3页
基于动态时间规整的孤立咳嗽声识别_第4页
基于动态时间规整的孤立咳嗽声识别_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于动态时间规整的孤立咳嗽声识别         摘  要 本文通过对咳嗽声特性的分析,在对咳嗽声进行预处理后,提取咳嗽的Mel频率倒谱系数作为特征参数,建立咳嗽模板库。采用基于动态时间规整算法的模板匹配方法对特定人的孤立咳嗽进行识别,实验证明,通过将咳嗽声的特性和语音识别方法的结合,动态时间规整算法在对孤立咳嗽声识别中有很好的准确性和可靠性。   关键词 特征提取;Mel频率倒谱系数;动态时间规整;咳嗽声识别1  引言   咳嗽是机体的一种保护性动作,以

2、消除呼吸道的分泌物、渗出物及侵入呼吸道的异物1。多数患者未能完整对自身的咳嗽特征进行描述,比如咳嗽的症状、发作时间、频率等,影响了咳嗽的及时诊断和合理治疗。因此,有必要进行咳嗽的实时监测及其特征的识别。   至今这种对咳嗽严重性的评估,主要依靠主观措施,如咳嗽反射敏感性、患者对自身症状的感觉、咳嗽可视模拟测评、生活质量问卷、咳嗽症状描述和患者的日记等。 从而使大部分的咳嗽监测器的诊断受到人为的影响较大。   利用可靠的咳嗽检测算法可以减少大量需人工分析的数据,甚至可以做到去除人工分析的过程,因此,要提高咳嗽声识别系统的有效性,这就要求有一种算法能够识别出

3、大部分在特定录音中的咳嗽声,同时又能够将它与其它的具有相似特性的声音区分开来。文章在参考了国内外关于咳嗽声识别的研究现状,并比较了咳嗽声识别与语音识别的关系,提出使用动态时间规整算法作为本文咳嗽声识别的主要算法。2  基本定义2.1  咳嗽发生机制   咳嗽表现为深呼吸气后,声门关闭,继而以突然剧烈的呼气,冲出狭窄的声门裂隙产生咳嗽动作和发出声音。2.2  Mel频率倒谱系数12(MFCC)   频率f与Mel频率B之间的转换公式为:       

4、0;(1)   MFCC的提取及计算过程如图1所示。   (1)原始咳嗽声信号y(n)通过预加重、分帧、加窗处理后,得到每帧的时域信号x(n)。   (2)将得到的每帧时域信号进行离散傅立叶变换(DFT)。        (2)   其中,X(k)为线性频谱,N为DFT的窗宽。   (3)线性频谱经过Mel频率滤波器组处理后为M(t),然后对其进行对数能量处理,得到结果为d(m)。图1  Mel频率倒谱系数(MFCC

5、)提取过程图2  通过Mel频率滤波器组得到Mel频谱   其中Mel频率滤波器组为在语音的频谱范围内设置的若干个带通滤波器,M为滤波器的个数。每个带通滤波器的传递函数为:                                 &

6、#160;    (3)                                        f(m)可以用下面的方法定义:    (4)&

7、#160;  其中,Ss为采样频率,而B-1为B的逆函数:,而滤波器的频率应用范围的最低频率为f=100Hz和最高频率为f =4000Hz,在实验中为了减少甚至消除交流电的影响,滤波器的个数取M=26,即可以得到26维的MFCC倒谱系数。考虑到让得到的结果对噪声和谱估计误差有更好的鲁棒性,将经过Mel滤波器组得到的Mel频谱取对数能量,其传递函数为:                (5)   (4)将上述对数频谱d(

8、m)经过离散余弦变换(DCT)变换到倒频谱域,得到Mel频率倒谱系数(MFCC):   (6)   以上参数称为静态参数,为了描述咳嗽声帧之间的相关性,引入了动态参数一阶差分和二阶差分。2.3  模版匹配技术12   模版匹配法是模式识别中最常用的一种相似度计算与匹配方法,把具有不同人的咳嗽声信号经过特征提取变换后作为不同的模版,构建一个基于模版匹配的简单的咳嗽声识别系统,如图3所示,是该咳嗽声识别系统的原理框图。图3  基于模版匹配的咳嗽声识别原理框图2.3.1 相似度度量   在基

9、于模板匹配的咳嗽声识别系统中,对原始的咳嗽声信号进行训练得到一系列的特征模板,将其存储于模板库中。而在识别过程中采用相似度度量来进行模板匹配,将特征模板库中的各个模板称为参考模板,用R来表示;在模板库建好后,又将待识别的输入咳嗽声信号通过预处理和特征提取得到特征矢量序列,称为待检测模板,用W表示12。   参考模板用RR(1)、R(2)、R(m)、R(M)表示,其中M为参考模板所包含的咳嗽帧的总数,r为咳嗽帧的时序标号,R(r)为第m帧的咳嗽特征矢量。   待检测模板用WW(1)、W(2)、W(n)、W(N)表示,其中N为参考模板所包含的咳嗽帧的总数,w

10、为咳嗽帧的时序标号,W(w)为第n帧的咳嗽特征矢量。   待检测模板和参考模板之间的总体相似度可以用它们之间的失真来度量,从W、R中的每个对应帧之间的失真算起,假设r、w为W、R中的任意选择帧号,这两帧之间的帧失真表示为DW(w),R(r)。2.3.2  动态时间规整(DTW)   考虑到咳嗽声识别的过程中,进行训练或者识别时,即使每次尽量以同样的方式去录制一个咳嗽,其持续时间的长度也会随机改变,而且不同病人的咳嗽相对时长也时不可预测的。所以,需要对特征参数序列模式重新进行时间的对准,为了有效的解决这个问题,采用动态时间规整算法(DTW)。&#

11、160;  动态时间规整算法是寻找一条通过各个交叉点的从起始点到终止点的帧失真度总和为最小的最佳路径,其路径搜索算法12:   (1)初始化:    在搜索的过程中路径的选择不是任意的,一般对路径中各点处路径的斜率的最大和最小做出了规定,最大斜率为2,最小斜率为0.5。设定路径初始关系为(0,0),r=1,N,w=1,M。   (2)当时,求 :    求所有可能的wi,满足限定条件:ri=i且 (ri,wi)R    遍历所有wi,进行下列各步计算: 

12、其中             (3)由dN,M即可得到路径的总失真度;   (4)由i=N时点(N,M)向前回溯,得到最佳路径:   若在回溯过程中出现,那么终止算法。3  验过程   首先针对特定人,采取了63个咳嗽声样本,运用多模板平均训练算法,其算法   (1)设定最大模板失真阈值:a。   (2)从采集的咳嗽声样本集中取出样本,假设第一个咳嗽声样本形成的特征矢量序列为:

13、Sample1=S11,S12,S1n,另一个特征序列为:Sample2=S21,S22,S2n,通过DTW算法计算它们的失真度,如果小于a,那么则转(3),否则转(2)。   (3)通过回溯法得到DTW搜索的最优路径序列:(r1,w1),(r2,w2),(rt,wt)。   (4)新的模板取为Sample1、Sample2的时间规整后的平均,即:Sample Sample1,Sample2,SampleL,SampleT,其中SampleL0.5×(S1LS2L)(L1,2,T)。   通过上述的算法,实验中用63个样本来

14、训练,获得了7种类型的咳嗽声样本的模板。在采集特定人的咳嗽声样本时,也采集了其孤立的语音样本33个,同样运用这个算法训练20个样本,得到3个语音模板。在识别时,待识别的咳嗽声信号矢量序列用DTW算法分别求得与每个模板的总失真度,然后根据总失真度的大小来判断待识别咳嗽声接近哪个模板,即是属于哪一类咳嗽声或者是非咳嗽声。4  实验结果   在实验中,采样频率为16000HZ,DFT的窗宽N=512,最大模板失真阈值a0.45。其中模板1模板7为咳嗽声模板,模板8模板10是语音模板。如表1所示,输入待识别的信号为咳嗽声时,经过DTW算法后计算的得到失真度,选取最小的,即

15、最接近模板1,是属于跟模板1类似的咳嗽。当输入的待识别信号为语音信号时,如表2可以看到,运用DTW算法进行比较,得到结果是跟模板8比较接近,即是属于语音类的信号。表1  待识别信号为咳嗽声的识别结果模板 12345678910失真度1.31543.88264.26694.45244.41575.53854.90117.13924.90114.9011表2  待识别信号为非咳嗽声的识别结果模板 12345678910失真度5.22753.83797.19477.81933.13957.92864.20152.144.20154.2015   &#

16、160;   在实验中,运用动态时间规整算法(DTW)对从医院病房采集同一个病人的96个咳嗽声和33说话声音进行训练和识别,其结果如表3所示。由于采集的咳嗽样本存在比较严重背景音的影响,因而识别率受到了的影响。表3  DTW 算法识别结果模板类型 咳嗽声类说话声类识别率89.5890.95  探讨   虽然咳嗽声的识别可以参考语音识别技术,但咳嗽声的识别与语音识别又有着不同。   (1)根据语音产生的离散时域模型,语音识别主要区分清音与浊音。清音是气流通过声道中狭窄缝隙形成湍流,造成噪声源;而浊音的声源则是气流通过声门时所产生的周期脉冲。由咳嗽的医学定义,咳嗽声是否更接近浊音,因其由大量气流通过声门而产生声音,因此是否可以通过引入其它生理特征信号,如呼吸流量等,与咳嗽信号一起作为识别参数,而得到更好的识别效果。   (2)在语音识别中,不同语音由不同的浊音表征,而不同的浊音又是以声道的不同来表征的。而咳嗽的机理原因是为把呼吸道的分泌物、渗出物及侵入呼吸道的异物排出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论