(计算机应用技术专业论文)婴儿啼器声的特征分析与识别.pdf_第1页
(计算机应用技术专业论文)婴儿啼器声的特征分析与识别.pdf_第2页
(计算机应用技术专业论文)婴儿啼器声的特征分析与识别.pdf_第3页
(计算机应用技术专业论文)婴儿啼器声的特征分析与识别.pdf_第4页
(计算机应用技术专业论文)婴儿啼器声的特征分析与识别.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机应用技术专业论文)婴儿啼器声的特征分析与识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j 西华大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 ,若有不实之处,本人愿意承担相关法律责任。 学位论文作者签名:袁风泠指导教师签名: 日期: b o a 万 日期: 场f i 6 西华大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,在校 攻读学位期i - 1 论文工作的知识产权属于西华大学,同意学校保留并向国家 有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,西 华大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复印手段保存和汇编本学位论文。( 保密的论文在解 密后遵守此规定) 学位论文作槲:细玲指删鲐铭纩 日期:加心 日飙矽歹 j 西华大学硕士学位论文 摘要 对婴儿来说,啼哭声是一种通讯的方式,一个非常有限的,但类似成年人进行交流 的方式。它也是一种生物报警器,向外界传达着婴儿生理和心理的需求。 基于啼哭声声波携带的信息,婴儿的身体状况才能被确定,疾病才能被检测出来。 因此,有效辨识啼哭声,成功地将婴儿啼哭声“翻译 成“成人语言 ,让我们能够读 懂啼哭声的含义,有重大的实际意义。 由于婴儿啼哭声与语音的关联,现在有越来越多的研究人员着手将语音处理技术和 模式识别的方法运用在婴儿啼哭声的分类上,随着语音处理技术的高速发展,也为婴儿 啼哭声的识别提供了强有力的支持。 本文对婴儿啼哭声的分类识别进行了一定程度的研究,所做的工作主要有以下几个 部分: 将婴儿与成年人在发声结构和发声原理上分别进行了比较,了解两者的异同。从婴 儿啼哭声的特性上入手,采用合适的技术对其进行分析处理。 数据库的建立。由于目前没有统一规范的婴儿啼哭声数据库,而且研究者所在的领 域不同,对婴儿啼哭声分析的侧重点也不同,造成了对婴儿啼哭声类别的划分有多种方 式。综合考虑各方面的因素,在实验中,对婴儿啼哭声是按照疼痛和非疼痛来进行划分。 预处理分析过后,重点讨论婴儿啼哭声的参数提取。通过分析常用的特征参数,包 括线性预测系数( l p c ) 、线性预测倒谱系数( l p c c ) 、m c l 倒谱系数( m f c c ) 等,分析各自 的优势和不足,选用m f c c 参数用于婴儿啼哭声分析中,并选取不同的阶次来观察对疼 痛的和非疼痛的婴儿啼哭声识别率的影响。考虑到婴儿声道构造独特,通常啼哭声的基 音频率较高,而m f c c 参数对婴儿啼哭声在其高频部分的信息提取工作不如在其低频部 分的效果好,因此另外引用一种反向m c l 频率倒谱系数,即i m f c c ,这种参数对婴儿 啼哭声的高频部分的信息获取具有很大的优势,与m f c c 形成了优势互补。将m f c c 与i m f c c 两者结合使用,即形成组合特征,同样也选取不同的阶次来考察对疼痛的和 非疼痛的婴儿啼哭声识别率的影响。最终,通过实验结果验证,使用组合特征的识别率 要比单独使用一种参数时有所提高。 对婴儿啼哭声的识别算法分析中,探讨了三种常用的识别算法,但根据当前样本较 少、婴儿啼哭声的特性、以及运算量的大小三个方面的综合考虑,确定将在孤立词的识 别中运用非常广泛的d t w 算法用于对疼痛的和非疼痛的婴儿啼哭声的识别中。 关键词:婴儿啼哭声;c c ;i m f c c ;d t w 算法 婴儿啼哭声的特征分析与识别 a b s t r a c t t h ec r yo fi n f a n t si saf o r mo fc o m m u n i c a t i o n , w h i c hi sv e r yl i m i t e d , b u ts i m i l a rt ot h e w a yo fc o m m u n i c a t i o no fa d u l t s i ti sa l s oab i o l o g i c a la l a r m ,w h i c hc o n v e y st h ep h y s i c a la n d p s y c h o l o g i c a ln e e d so f i n f a n t st ot h eo u t s i d ew o r l d b o t ht h ep h y s i c a lc o n d i t i o no fi n f a n t sc a nb es u r ea n dd i s e a s ec a nb ed e t e c t e db a s e do n t h ei n f o r m a t i o nc a r r i e db yt h ew a v eo fi n f a n t s c r y t h e r e f o r e , t h ee f f e c t i v ei d e n t i f i c a t i o no f c r ya n d t r a n s l a t i n g c r yi n t o a d u l tl a n g u a g e s u c c e s s f u l l yc a nm a k eu su n d e r s t a n dt h e m e a n i n go fi n f a n tc r y , w h i c hh a sg r e a tp r a c t i c a ls i g n i f i c a n c e a sm f a n tc r yi sa s s o c i a t e d 丽t hv o i c es i g n a l ,n o w a d a y sm o r ea n dm o r er e s e a r c h e r sh a v e s t a r t e dt ou s et h et e c h n o l o g yo fv o i c ep r o c e s s i n ga n dm e t h o do fp a t t e r nr e c o g n i t i o ni n t ot h e c l a s s i f i c a t i o no fm f a n tc r y t h er a p i dd e v e l o p m e n to ft e c h n o l o g yo fv o i c ep r o c e s s i n ga l s o p r o v i d e sas t r o n gs u p p o r t t ot h er e c o g n i t i o no fi n f a n tc r y i nt h i s p a p e r , ac e r t a i nd e g r e eo fr e s e a r c hw o r ko fm f a n tc r yr e c o g n i t i o nh a v eb e e n e x p l o r e da sf o l l o w s : t h ei n f a n tc r ya n dv o i c es i g n a lh a v eb e e nc o m p a r e dt of i n dt h ed i f f e r e n c et h r o u g h p h o n a t i o n s t r u c t u r ea n dp r i n c i p l e so fp h o n a t i o n u s i n gt h ea p p r o p r i a t et e c h n o l o g yt oa n a l y s i s m f a n t c r y t h ed a t a b a s ei se s t a b l i s h e d s i n c et h e r ei sn ou n i f i e ds t a n d a r d i z e di n f a n tc r yd a t a b a s e a n dr e s e a r c h e r sf r o md i f f e r e n ta r e a sa l s of o c u so nd i f f e r e n ta s p e c t s t h e r e f o r e ,t h em f a n tc r yi s c a t e g o r i z e db yav a r i e t yo ft y p e s c o n s i d e r i n ga l lf 融o r s ,t h em f a a tc 搿i ss o r t e db yp a i n f u l a n du n p a i n f u li ne x p e r i m e n t s a f t e rp r e p r o c e s s i n g ,t h ef o c u so fi n f a n tc r yi sp a r a m e t e re x t r a c t i o n t h r o u g ha n a l y z i n gt h e a d v a n t a g ea n dd i s a d v a n t a g eo fc o m m o n l yu s e dp a r a m e t e r s ,w h i c hi n c l u d el i n e a rp r e d i c t i o n c o e f f i c i e n ta n dl i n e a rp r e d i c t i o nc e p s t n u nc o e f f i c i e n ta n dr e e lf r e q u e n c yc c p s t r u mc o e f f i c i e n t e t c ,t h ec h o i c eo fp a r a m e t e rf o ri n f a n tc r yi sm e lf r e q u e n c yc 印s t r u mc o e f f i c i e n t , a n ds e l e c t d i f f e r e n to r d e rt oo b s e r v ee f f e c to fr e c o g n i t i o nr a t eo nt h ep m n f u la n du n p a i n f u li n f a n tc r y t h e nt a k i n gt h eu n i q u ei n f a n tt r a c ks t r u c t u r ea n dt h eh i g hp i t c hf r e q u e n c yo fi n f a n tc r yi n t o a c c o u n t , t h ei n f o r m a t i o ne x t r a c t i o no fi n f a n tc r yi nl o wf r e q u e n c yi sb e t t e rt h a ni nh i g h f r e q u e n c yb yu s i n gr e e lf r e q u e n c yc c p s t r u mc o e f f i c i e n t , ai n v e r t e dr e e lf r e q u e n c yc e p s t r u m c o e f f i c i e n ti sm e n t i o n e d t h en e wp a r a m e t e rh a sag r e a ta d v a n t a g eo nt h eh i g hf r e q u e n c yp a r t t oo b t a i ni n f o r m a t i o n , i sac o m p l e m e n t a r ym e r i tt or e e lf r e q u e n c ye c p s t r u mc o e f f i c i e n t e v e n t u a l l ym df r e q u e n c yc c p s t m mc o e f f i c i e n t a n di n v e r t e dm e lf r e q u e n c yc e p s t n m a c o e f f i c i e n tw i l lb eu s e da sac o m b i n a t i o n , t h a ti st h ef o r m a t i o no fc o m b i n e dp a r a m e t e r s ,a l s o s e l e c td i f f e r e n to r d e rt oo b s e r v ee f f e c to fr e c o g n i t i o nr a t eo nt h ep a i n f u la n du n p a i n f u li n f a n t i i 西华大学硕士学位论文 c r y t h ee x p e r i m e n tr e s u l t ss h o w ,c o m p a r e dw i t hu s i n gas i n g l ep a r a m c t o r , t h er e c x ) g n i t i o nr a t e o fc o m b i n a t i o i lo ft h et w op a r a m e t e r sh a sb e e ne v e n t u a l l yi n c r e a s e d t h r e ec o m m o n l yu s e da l g o r i t h m so f r e c o g n i t i o nh a v eb e e na n a l y z e d b u ta c c o r d i n gt ot h e s t a t eo faf e ws a m p l e sa n dt h ef e a t u r eo fi n f a n tc r ya n dt h es i z eo fc o m p u t a t i o n ,t h ed t w r e c o g n i t i o na l g o r i t h mw h i c hi sb r o a di nt h er e c o g n i t i o no fi s o l a t e dw o r dh a sb e e nd e t e r m i n e dt o u s ei nt h ep a i n f u la n du n p a i n f u li n f a n tc r y k e yw o r d s :i n f a n tc r y ;, m f c c ;i m f c c ;d t wa l g o r i t h m 婴儿啼哭声的特征分析与识别 目录 摘! i 2 兽i a b s t r a c t i i 1 绪论1 1 1 背景意义1 1 2 发展现状与趋势2 1 3 本文主要工作及结构5 1 3 1 主要工作5 1 3 2 总体结构5 2 婴儿啼哭声信号分析与处理7 2 1 婴儿啼哭声信号与语音信号的关联7 2 1 1 发声结构7 2 1 2 发声原理9 2 2 婴儿啼哭声识别系统的基本理论1 0 2 3 本章小结1 2 3 婴儿啼哭声信号的前端处理1 3 3 1 婴儿啼哭声信号的预处理1 3 3 1 1 婴儿啼哭声信号的采样和量化1 3 3 1 2 预加重1 4 3 1 3 分帧1 4 3 1 4 力口窗。1 5 3 1 5 端点检测1 6 3 2 婴儿啼哭声信号的特征提取算法2 3 3 2 1 线性预测系数( l p c ) 2 3 3 2 2 线性预测倒谱系数( l p c c ) 2 6 3 2 3m e i 频率倒谱系数( m f c c ) 2 8 3 2 4 优化的m f c c 算法3 l 3 3 本章小结3 4 4 婴儿啼哭声识别算法研究。3 5 4 1 动态时间规整( d n d 3 5 4 1 1 基本原理3 5 西华人学硕士学位论文 4 1 2 算法步骤3 7 4 1 3 模板训练算法3 8 4 2 隐马尔可夫模型( h m m ) 3 9 4 3 人工神经网络( a n n ) 4 0 4 4 本章小结4 1 5 实验结果与分析4 2 5 1 实验原理4 2 5 1 1 婴儿啼哭声信号处理过程4 2 5 1 2 实验环境介绍4 3 5 2 数据库的建立4 3 5 2 1 数据对象分析。4 3 5 2 2 数据来源4 4 5 2 3 数据库描述4 4 5 3 婴儿啼哭声信号预处理4 5 5 4 特征参数提取5 0 5 5 实验数据分析5 4 5 5 1m f c c 特征参数5 4 5 5 2 组合特征参数5 5 5 5 3 实验结论5 7 5 6 本章小结5 7 结j 沧。5 8 参考文献6 0 攻读硕士学位期间发表的论文及科研成果。6 3 致谢6 4 v 西华大学硕七学位论文 1 绪论 1 1 背景意义 哭声是婴儿沟通的方式,就像我们的口语沟通,只是婴儿还不会说话,这是他唯一 能表达的方式。从离开母体的一刹那,婴儿就用哭来向世人宣布,他来到了这个世界。 这第一声啼哭的意义是非常重大的。 人们已经发现,婴儿的啼哭声以其声波形式传递着很多信息。对于刚出生的婴儿, 啼哭声是一种通讯的方式,一个非常有限的,但类似成年人进行交流的方式。由于啼哭 声对于婴儿来说是一种主要的通信功能,是由大脑直接支配,所以任何使婴儿感到不舒 服的状态的直接反映就是哭。 实际上,婴儿啼哭声是一种生物报警器。它向外界传达着婴儿生理和心理的需求, 以促使婴儿照顾者及时做出反应。婴儿啼哭声有两个关键的地方:一方面,婴儿啼哭声 本身是受脑神经支配的,而脑神经是负责调节自主神经系统和紧急信号状态;另一方面, 在正常环境中,对任何一位婴儿照顾者而言,婴儿随时都有可能会哭。这使得一听到啼 哭声,婴儿照顾者就会产生一种想要行动的本能反应。 婴儿啼哭声能使婴儿与其照顾者之间形成一种很强烈的交感神经系统【l 】。这种状态 通常有两种反应,分别为”f i g h t ”和”f l i g h t 。一位不负责任的婴儿照顾者对待婴儿啼哭时 可能会采取远离哭声的办法;然而一位负责任的婴儿照顾者可能会采取积极地行动,通 过安抚婴儿,找到问题的根源来消除警报。 研究发现,婴儿啼哭声不仅仅是婴儿的行为,也是人类行为体系中的一部分,因为 在人类进化过程中,为了使新生儿能够存活下来,需要向外界求助以获得基本需求。而 如何向外界求助以及向外界求助什么,都是通过啼哭声来表达的。 鉴于婴儿啼哭声信息处理过程在本质上是一种模式识别过程。因此,我们可以通过 使用语音识别技术来处理相应的问题。 而语音识别的一个根本问题是合理的选用特征,语音参数的选择是整个语音识别系 统的基础,对正确识别率有着直接的影响。鉴于此,如果我们能够合理选用语音信号处 理中参数提取和分类识别的方法,将对婴儿啼哭声的分析起到极大地帮助。因为婴儿在 舒适愉快的状态下是不会哭闹的,他们哭闹,大体上有两种原因:一是有所需求或需求 没有得到满足;另一个是被病痛所困扰。 一般来说,有经验的婴儿照顾者可以粗略的听出婴儿啼哭声的改变,并根据不同特 点的啼哭声采取不同的措施。然而,自婴儿出生后,婴儿身上的疾病通常要几个月甚至 婴儿啼哭声的特征分析与识别 长达数年才能被察觉【2 】。对于这些存在缺陷或患有某种疾病的婴儿发出的异常的啼哭声, 很大私使上不能够及时做出判断。如果错误的进行了判断或延误了判断时间,都会对婴 儿的成长带来不可估计的伤害。而如果能够及早地发现这些隐患,通过适当的医学治疗 就可以有效避免。 基于啼哭声声波携带的信息,婴儿的身体状况才能被确定,疾病才能被检测出来。 因此,完全有必要借助以语音信号处理技术为基础的客观分析方法来深入研究婴儿的啼 哭声,并使之成为辨别婴儿疾病的一种可靠的科学辅助手段。 对婴儿的啼哭声进行深入细致的研究,将为婴儿疾病的早起诊断、疗效评价和预后 估计提供科学依据,语音处理技术的发展为婴儿啼哭声分析技术提供了强有力的支持, 随着科技的发展,如何将语音识别领域中成熟的技术和研究方法运用在啼哭声分析上, 有效地将婴儿的啼哭声频率“翻译”成“成人语言 ,让我们能读懂婴儿啼哭声的含义, 有重大的实际意义。 1 2 发展现状与趋势 哭是婴儿出生后生命的象征,也是第_ 种与外界交流的工具。婴儿通过哭声来向外 界传递他们的生理需求或者疾病。早期的研究者表明婴儿啼哭声中包含了很多有用信 息,涵盖了婴儿生理、心理以及疾病情况。 婴儿啼哭声的研究最早是从二十世纪六十年代斯堪纳维亚的一个w a s z h o c k c r t 小 组了 :始的1 3 1 。然而,随着语音信号处理技术的发展,有更多的方法被用于这个领域,如 时域分析、频域分析、频谱分析以及语谱分析。而不同类型的啼哭声所包含的内容也有 极人地f 别,如健康婴儿啼哭声,疼痛婴儿啼哭声以及患有某种疾病婴儿啼哭声【4 ,5 】,所 表达的内容都不尽相同。早产的婴儿和新陈代谢紊乱的婴儿通常要比普通婴儿啼哭的频 j 棼啦芍。这也表明了此类婴儿可能有疾病困扰,需要及时进行医学治疗。m i c h c l s s o n 6 】 用声谱图来区分健康啼哭声与非健康啼哭声。通过改进的声谱图来区分不同的啼哭声, 其中包含患有脑膜炎,甲状腺机能减退的婴儿。s c h o n w e i l e r i 7 母】发现健康婴儿与听力受 损婴儿的啼哭声持续时间上也有不同。在阿普伽新生儿评分中,早产婴儿比普通婴儿得 分低l l ,通常是3 分或更低( 阿普伽新生儿评分:对新生儿总体身体状况的一种评价系 统,以0 ,l ,2 三个等级按五项标准进行:心律、呼吸力、肌张力、肤色、刺激反射性。 五个分数加到一起,最佳得分为1 0 分) 。 由于婴儿啼哭声与语音信号的相似之处,有越来越多的研究人员采用语音信号处理 技术砧啼哭声进行初步处理。语音信号的数字表示方法可分为两类,一类是波形表示, 另一类足参数表示。第一类主要是通过取样和量化的方法将模拟的语音信号转换为数字 2 两华大学硕士学位论文 语音信号;第二类的基础则是把语音信号看作是某个模型在一定激励下产生的输出信 号,而激励源和模型的参数便作为语音信号的表示【l l 1 2 】。考虑到语音信号自身的特点, 其数字处理的方法可以是时域的,也可以是频域的。 经过语音信号处理后再采用模式识别技术对婴儿啼哭声进行判断。模式识至j j j ( p a t t e r n r e e o g n i t i o n ) 删表征事物或现象的各种形式的( 数值的、文字的和逻辑关系的) 信息进 行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人 工智能的重要组成部分。 婴儿啼哭声识别系统的建立需要三步,分别是预处理、特征提取和分类算法的建立。 其中重点是特征参数的提取和分类算法的建立。 由于婴儿的啼哭声跟成人的语音都是由结构相似的发声器官产生,所以通常是采用 类似于语音信号提取和识别的算法。 婴儿啼哭声中含有丰富的信息,但如何从中提取出对啼哭声识别有用的信息? 这就 是特征提取要做的工作,它对婴儿啼哭声进行分析,并去除对啼哭声识别无关的冗余信 息,获得影响婴儿啼哭声识别效果的重要信息。 在特征参数提取技术方面,线性预测( l i n ep r e d i c t i o n ,l p ) 分析技术是目前应用广泛的 特征参数提取技术,许多成功的应用系统都采用l p 技术提取的倒谱参数,即 l p c c ( l i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t ) 。但是线性预测模型是纯数学模型,它没有 考虑到人类听觉系统对语音的处理特点。 m e l 频率倒谱系数( m f c c ,m e lf r e q u e n c yc e p s t r u mc o e f f i c i e n t ) 在一定程度上模拟了 入耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验表明,采用这 种技术,语音识别系统的性能在一定程度上有提耐1 3 , 1 4 。也有研究者尝试把小波分析技 术应用于特征提取,但目前性能难以与上述技术相比,有待进步研究【l 孓1 7 】。 模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型 参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹 配。 语音识别技术所应用的模式匹配和模型训练技术主要有以下三种:1 、动态时间规 整( d t 、聊;2 、隐马尔可夫模型( h m m ) ;3 、人工神经网络( a n n ) 。 动态时间规整( d y n a m i ct i m ew a r p i n g ,d t w ) 算法,是基于动态规划的思想,把时间 归正和距离测度计算结合起来的一种技术。它是语音识别中出现较早、较为经典的一种 算法【1 8 铷】。d t w 技术在二十世纪九十年代就得到了广泛的应用,是语音识别中一种很 成功的分类算法。它在提高稳健性和抗噪性能方面的进步,极大地提高了语音识别的效 果,使得语音识别技术取得了实质性的进展。 3 婴儿啼哭声的特征分析与识别 隐马尔可夫模型( h i d d e nm a r k o vm o d e l s ,h m m ) 作为语音信号的一种统计模型,今天 正在语音信号的各个领域包括婴儿啼哭声研究中获得了广泛的应用。其理论基础是在二 十世纪七十年代前后,由b a u m 等人建立起来的。随后,由美国的b a k e r 和j e l i n c k 等人 将其成功的应用到语音识别中来。由于美国贝尔实验室( b e l l ) r a b i n e r 等人在二十世纪八 十年代中期,对h m m 进行了详细的介绍,这才使从事语音信号处理的各国研究人员对 h m m 有了一定程度的了解和熟悉,进而逐渐成为了一个公认的研究方向,也是目前语 音识别技术等模式识别领域的主流研究途径。 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) 在语音识别领域的应用是在二十世纪 八十年代中后期发展起来的。它是一个高度复杂的非线性动力学系统。其核心思想是通 过大量简单的处理单元并行连接来构成一种信息处理系统。由于a n n 的训练识别算法 实现起来较为复杂,并且识别率不见得比统计模型的语音识别率高。因此,在目前这种 算法还是处于研究阶段,更多的适用于科研处及实验室等场所。本质上,a n n 是一个 自适应非线性动力学系统。它模拟了人类神经元是如何活动的,并具有自学、联想、推 理等能力。由于a n n 可以进行自我更新,并具备并行处理及容错能力,因而存在很高 的研究价值。 c a n o 2 l 】通过实验将正常婴儿与患疾病婴儿的啼哭声单元进行区分,在实验中他们从 声波频率中提取1 2 种不同特征,对每个声音样本,都达到了8 5 的识别率。 r e y e s o r o z c 0 瞄】对耳聋婴儿与正常婴儿进行区分,识别结果从7 9 0 5 上升到9 7 4 3 。 p e t r o n i 和m a l o w a n y i 2 3 】用三种不同的神经网络方法,分别是简单前向聿申经网络( s i m p l e f e e d f o r w a r dn e u r a ln e t w o r k ) 、循环神经网络( r e c u r r e n tn e u r a ln e t w o r k s ,r n n ) 和延时神 经网络( at i m e - d e l a yn e u r a ln e t w o r k - t d n n ) 来识别三类不同的啼哭声,结果表明用前向 神经网络取得了很高的识别率。b a r a j a s 和r e y e s l 2 4 1 采用支持向量机算( s u p p o r tv e c t o r m a c h i n e ,s v m ) ,提取m e l 频率倒谱系数( m f c c ,m e lf r e q u e n c yc e p s m t mc o e f f i c i e n t ) 进行 疼痛啼哭声识别。而o r o z c o 和g a r c i d 2 5 】用l p 方法( l i n e a rp r e d i c t i o nt e c h n i q u e ) 从啼哭声 样本中提取声学特征,然后通过前向神经网络算法进行识别,也取得了不错的效果。 从西班牙的一名电子工程师p e d r om o n a g a s 发明的一种对婴儿情感需求进行判断的 仪器”w h yc r y 吐2 6 】,到现在的”c r yt r a n s l a t o r 【2 7 j ,可以看到对婴儿啼哭声的研究有了一 定的进步。这个i p h o n e 应用程序提出可以在十秒钟内判断出婴儿为什么哭,是因为饥饿、 想睡觉、不舒服、觉得压抑或者有点无聊,这样婴儿看护者就可以根据不同情况采取不 同措施。但由于其可靠性不高,功能单一,导致实用性不强。因此,如果想对婴儿啼哭 声达到很高的识别率,想让其能够更好的投入到实际应用中,有望继续研究。 4 西华大学硕士学位论文 目前,国内少有将医学与模式识别系统相结合,靠采用更科学的办法对婴儿啼哭声 加以判断,多是靠主观定性分析的方法来研究。而国际上已经开始将模式识别领域的知 识用到了婴儿啼哭声分析中,力图得到更客观的结果,这不仅是对日常需求的识别,更 希望能在某些疾病的综合诊断上效果更好。 1 3 本文主要工作及结构 1 3 1 主要工作 本文的主要工作是基于婴儿啼哭声的理论分析,以及婴儿啼哭声与语音的关联。将 语音识别系统中的关键技术用于婴儿啼哭声的分类中,重点对它的特征提取方法做了详 细阐述。考虑到婴儿啼哭声的特殊性,相应的对特征参数的提取过程进行了一定程度的 优化,引用了一种新的特征参数i m f c c 。由于i m f c c 与传统的特征参数m f c c 的互补 性,因此,在实验过程中,通过将两者组合使用,以期达到更好的提取效果。而在识别 算法上,根据婴儿啼哭声的独特性,并结合当前样本较少的情况,最终选用在孤立词识 别中效果显著的d t w 算法运用到婴儿啼哭声分类系统中。最后,将传统的特征参数提 取方法和优化后的特征参数提取方法分别在d t w 算法下的效果进行了比较。 1 3 2 总体结构 论文总体结构如下: 第一章绪论部分简要介绍了婴儿啼哭声的背景意义、发展现状和趋势,并对本文的 工作内容进行了阐述。 第二章首先介绍了婴儿啼哭声信号与语音信号的关联。分别从两个方面来说明,其 一为发声结构;其二为发声原理。将婴儿啼哭声与语音进行比较,掌握婴儿啼哭声的特 点,有利于后续选择婴儿啼哭声的分析处理方法。最后介绍了婴儿啼哭声识别系统的基 本理论,通过前部分的分析,对婴儿啼哭声识别过程中的各个阶段所需的技术都进行了 总体的考虑。 第三章是婴儿啼哭声信号的前端处理。这章包括两个环节,分别为婴儿啼哭声信号 的预处理和特征参数提取。首先介绍了预处理阶段所用到的技术。接下来重点介绍了特 征参数提取算法,分别列举了三种常用的算法,通过分析比较,将m f c c 参数用于婴儿 啼哭声的特征提取上具有明显优势。然后,根据婴儿啼哭声的特殊性,引用一种新的特 征提取算法i m f c c ,由于i m f c c 与m f c c 的互补性,在实验过程中,考虑将两种特征 参数结合使用,有望达到更好的识别效果。 5 婴儿啼哭声的特征分析与识别 第四章是对婴儿啼哭声识别算法的研究。提到了常用的三种识别算法,分别为 d t w 、h m m 、a n n 。对h m m 和a n n 都简要阐述了各自的原理和特点,重点介绍了 d t w 算法,它在孤立词的识别中运用非常广泛,效果也很显著。因此,考虑将其用于 婴儿啼哭声的识别中。 第五章是实验结果与分析。主要讲到五个方面的内容。首先给出实验原理;其次说 明了数据的来源以及数据库的建立;再次是对婴儿啼哭声信号进行预处理,并对实验过 程进行讲解;预处理过后,就是婴儿啼哭声的特征参数的提取阶段,在这里会论述所选 取特征参数的原因,以及用不同的特征参数提取的效果比较;最后就是对实验数据进行 的分析。 第六章总结了全文的主要工作,给出了相应的分析,然后讨论了论文的不足之处, 并对今后的研究方向进行了展望。 6 西华大学硕士学位论文 2 婴儿啼哭声信号分析与处理 2 1 婴儿啼哭声信号与语音信号的关联 由于婴儿啼哭声的发声原理与语音的发声原理有相似之处,为了能够更好的了解婴 儿啼哭声的特点,首先从成年人的发声结构入手,比较婴儿的发声结构与成年人的发声 结构的异同;然后再讨论婴儿啼哭声发声原理与语音发声原理的联系和区别。 2 1 1 发声结构 成年人产生语音的发音器官自上而下包括:上、下唇( 1 i p ) 、口腔( o r a lc a v i t y ) 、鼻腔 ( n a s a lc a v i t y ) 、l 咽( p h a r y n x ) 、喉( b r y n ) 、气管( t r a c h e a ) 及肺g l j ( 1 u n g ) 等。它们共同形成 了一个连续的管道,如图2 1 所示。 图2 1 成年人发音器官示意图 ( 注:( 1 ) 唇;( 2 ) 齿;( 3 ) 齿龈:( 4 ) 硬腭;( 5 ) 软腭:( 6 ) 小舌;( 7 ) 舌尖:( 8 ) 舌前;( 9 ) 舌后;0 0 ) 舌根; q d 咽头;声带:口腔;o d 鼻腔) f i g 2 1 s c h e m a t i cd i a g r a mo ft h ea d u l t s v o c a lo r g a n s ( n o t e :( 1 ) l i p ;( 2 ) t c c t h ;( 3 ) c f i n g i v a ;( 4 ) h a r dp a l a t e ;( 5 ) s o f tp a l a t e ;( 6 ) u v u l a ;( 7 ) t o n g u et i p ;( 8 ) t o n g u e b l a d e ;( 9 ) t o n g u eb a c k ;o o ) h y o i d ;o d p h a r y n x ;0 2 ) v o c a lc o r d s ;( 1 3 ) o r a lc a v i t y ;a 4 ) n a s a lc a v i t y ) 声道是由咽腔、口腔和鼻腔三个空气腔体组成,其外形变化是时间的函数。声道是 自声门、声带之后最重要的、对发音起决定性作用的器官。而口腔则是声道中最重要的 一个部分,它的形状大小可以根据唇、舌、牙齿以及腭的变化而进行相应的调整。此外, 舌头的活跃度最高,不仅整个舌体能够前后左右的自由活动,而且它的尖端部分、中间 部分和边缘部分都能自主活动。因为舌头极其重要,所以像元音的发音就是以舌头的位 婴儿啼哭声的特征分析与识别 置来进行分类的。唇部则是位于口腔末端,它在发音过程中也起着至关重要的作用,因 此产生了圆唇的发音规则,并且,唇部也可以根据需要变成展开的形状或者圆形的形状。 硬腭软腭都参与了发音的过程,其中软腭是发鼻音与否的关键【2 引。 与成年人相比,婴儿的喉部位置接近头骨底部,并且婴儿的喉部与猿类相似,都处 于一个很高的位置,这使得婴儿的鼻腔到肺部形成了一个密闭的气道( 如图2 2 所示) 。 婴儿能将他她的喉部位置上移到鼻咽处,而软腭和会厌则起到了一个双层密闭的效果, 当空气进入鼻腔,通过喉部和器官进入肺部的同时,液体从小喉流进食道。从婴儿的声 道剖析中,我们可以看出这和神经控制系统很相似,即婴儿需要用鼻子来呼吸,因为当 他们的鼻子堵塞时通常他们不能用嘴来呼吸。 图2 2 婴儿发音器官示意图 ( 注:l i :唇;h p :硬腭:t :舌:m :下颚;s p :软腭:e :会厌;l a :喉) f i g 2 2s c h e m a t i cd i a g r a mo ft h ei n f a n t s v o c a lo r g a n s ( n o t e :l i :l i p , h p :h a r dp a l a t e , t :t o n g u e , m :m a n d i b l e , s p :s o f tp a l a t e , e :e p i g l o t t i s , l a :i a r y n x ) 在婴儿的成长发育过程中,其喉部的位置会逐渐下降,到三个月大时喉部降到咽部 的位置。这时,从鼻腔到喉部不再能形成一个密闭的气道了。与此同时,掌控呼吸的神 经控制系统开始进行调整,使得婴儿可以用嘴来呼吸。 根据达尔文的自然选择过程,神经调整系统的更改是可以被理解的。经过了三个月, 由于婴儿喉部的位置太低,以至于不足以形成一个密闭的气道,所以用鼻子来呼吸不再 是唯一的选择。另外,不管婴儿是否通过他们的鼻子来进行呼吸,外来物体都可以存在 于喉部。当然,如果婴儿的鼻子被阻塞了,那么他们用嘴来呼吸就成了唯一的选择。然 而,这并不是说婴儿在三个月大时“学会了”用嘴呼吸,也不是说婴儿在啼哭中“学会 了 调节子声门气压。 8 西华大学硕士学位论文 婴儿的咽腔和声道相对较短,喉部位于声道较高的地方,咽部和会厌是紧密相接的, 口咽通道处于一种倾斜状,而不是一种直角状,舌头的绝大部分位于前端,正是这种独 特的声道结构才使得婴儿啼哭声的鼻音化现象十分严重【2 引。 2 1 2 发声原理 对于成年人而言,呼吸时,空气经过呼吸系统进入肺部。在说话过程中,腹肌收缩, 进而排出肺部的空气,形成了气流,而这个气流正是语音信号产生的原动力。气流经过 气管到达了位于气管上方的咽喉。其中喉部是由甲状软骨、杓状软骨、环状软骨以及会 厌软骨四块软骨组成。甲状软骨位于颈部,即俗称的喉结。从甲状软骨到杓状软骨之间 的部分成为声带( v o c a lc o r d s ) 。声带具有韧性,可以自如的闭合。声带振动产生声音,振 动频率越高,则声音音高越高,反之亦然。由于声音会受到口腔舌头动作的影响,所以 气流经过咽喉、口腔后被进一步调制发出了不同的语音。 上述语音信号产生的机理图如图2 3 所示。 , 图2 3 语音信号产生的机理图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论