基于hmm的动物情绪识别_第1页
基于hmm的动物情绪识别_第2页
基于hmm的动物情绪识别_第3页
基于hmm的动物情绪识别_第4页
基于hmm的动物情绪识别_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于hmm的动物情绪识别

语言不仅包括意义信息,还包括人们的情感信息。随着人机智能交互和心理监测等方面的应用需要,语音信号的情绪心理识别,成为语音信号处理领域一个新的研究方向。在空间飞行中,航天员生活和工作在密闭舱体里,所处空间狭小、与外界隔绝,同时始终处于失重状态,在高工作负荷的情况下,还可能影响到睡眠,此类环境会引起人的心理状态改变,产生烦躁、焦虑等负性应激情绪,并会在语音中体现。由于语音信号是一种最易获取的信息之一,目前国内应激情绪的语音识别尚处起步阶段,国外研究较早,主要集中在航空、航天等军事环境领域。1972年,美国海军航空医学研究实验室研究了愤怒、恐惧、悲伤下的语音基频变化规律,期望用于航空环境的心理监测。2000年,北约(NATO)的技术研究组织(RTO)对军事环境应激语音技术做了系统研究,包括战斗机控制语音、飞机失事语音和睡眠剥夺下等多种应激语音(stressedspeech),获得了很有价值的研究成果。本项目通过采集模拟航天环境下的语音,实现语音的应激情绪(烦躁负性情绪)识别。此项研究作为航天员心理监测的新途径,可为及时了解航天员情绪状态,进行心理支持提供参考依据。1应激情绪的语音识别载人航天飞行中密闭环境和失重状态是始终存在的环境因素,加之生物节律和工作强度等影响,有时还可能出现睡眠障碍。针对上述情况,本题在72h心理隔绝及睡眠剥夺(psychologicalisolation&sleepdeprivation,PI&SD)实验、60d头低位卧床(head-down-tiltbed-rest,HDT-BR)实验,以及环控生保(environmentcontrolandlifesupport,ECLS)密闭舱(sealedmodule,SM)60d实验中采集语音材料,进行应激情绪的语音识别研究。研究主要侧重提取非线性情绪识别特征,并运用隐马尔可夫模型(hiddenMarkovModel,HMM)技术来实现小词汇量、特定人的烦躁-平静情绪识别。1.1语音材料的采集在该领域的研究中,语料的选择上通常有3种类型:自然语音(spontaneousspeech)、诱导语音(elicitedspeech)和表演语音(actedspeech)。自然语音是说话人在真实情况下情绪的自然流露,说话人往往事先并不知道其语音会被用于研究,因而语音材料中携带的情绪信息最为真实和直接,但此类语音材料在获取上十分困难。诱导语音在很大程度上依赖于如何成功营造一个刺激环境,这一环节很重要但较难于控制实现,同时这两类语音都涉及伦理道德和版权等诸多问题。表演语音获取具有实验条件易于控制、可重复的特点,给研究带来便利,但语音体现情绪的真实程度往往得到质疑。目前国内已有的研究均采用表演语音,而自然语音和诱导语音未见报道,国际上自然和诱导语音使用也很少。本题在3项实验中录制语音,通过发音人自评结果和结合情绪自评量表(SAS)得分,提取发音人真实的烦躁情绪语料,属诱导语音。本题在3项实验中录制语音,录音时记录发音人自评的情绪状态,并填写情绪自评量表(SAS)。语料采用录音笔录制,采样频率8kHz,16位量化,可满足语音特征分析要求。语音分析帧长32ms(256点),帧移10ms(80点)。语音材料由单音节[a]、[i]、[u]和天地通信时常用的10条短句(2至7音节)组成,这些语句语义中性,并且是口语化的陈述句,由受试者在自然状态下读出,每条语料发音4~10遍。在心理隔绝及睡眠剥夺实验中(简称PI&SD实验),8名男性受试者(心身健康,每次实验人数3人),在心理隔绝实验室停止与外界交流,同时睡眠剥夺72h。在实验前2次和实验中6次(每天12:30以及2:30左右各1次)采集语音材料,每条语料发音6~10遍。获得语料7072句(平静对照1768条,应激语音5304条)。在60d头低位卧床实验中(简称HDT-BR实验),6名男性受试者(心身健康)-6°头低位卧床,模拟失重状态60d,录制他们实验前以及实验中第8、21、35、40、43、45、50天的语音材料,每条语料重复10遍。获取语料6240句(平静对照780条,应激语音5460条)。在环控生保密闭舱60d实验中(简称SM实验),3名男性受试者(心身健康)在环控生保密闭舱工作生活60d,模拟乘员长时间居留在人工大气环境中。录制他们实验后和实验中第37、39、43、45、47、55、59天的语音材料,每条语料重复4遍。获取语料1248句(平静对照156句,应激语音1092句)。3项实验共录制语料14560句,其中平静对照2704句,应激语音11856句。1.2情绪语料及其选择在录音语料里将发音人自评为烦躁的语料及SAS量表中得分最高时的语料作为烦躁情绪语料。将3项实验前后录制的对照语音,发音人自评为平静的语料及量表中得分较低的作为平静情绪语料。PI&SD实验获取平静语料1360句,烦躁语料1560句。HDT-BR实验平静语料600句,烦躁语料1200句。SM实验平静语料120句,烦躁语料360句。烦躁语料的选择见表1~3。总计5200句,其中平静语料2080句,烦躁语料3120句。1.3愤怒易怒的识别1.3.1调幅-频率缓变的信号特性在对语音的情绪识别中,首先要寻找最有效的携带情绪信息的语音特征参数。本文从语音生成的机制入手,根据现有的涡流非线性理论和目前已成熟的线性理论,采用非线性能量算子与传统语音分析参数相结合的方法,探索有效的情绪识别特征。语音产生模型的声学基础是认为发音时来自肺部的气流以平面波形式在声道中传播。这一理论模型多年来一直作为研究人员进行语音信号处理的基础。而Teager等发现,声道中传播的气流除平面波外,在声带和伪声带区域还存在涡流,而且是非线性的。根据上述理论,Teager通过工程化处理,提出了一种能够反映涡流非线性作用的信号瞬时能量参数,称为Teager能量算子(Teagerenergyoperator,TEO)。对于连续信号x(t),能量算子的定义为:Ψc[x(t)]=[x˙(t)]2−x(t)x¨(t)(1)Ψc[x(t)]=[x˙(t)]2-x(t)x¨(t)(1)Kaiser提出离散信号s(n)的TEO运算公式:Ψ[s(n)]=s2(n)-s(n+1)s(n-1)(2)可以看出,信号s(n)在n点的TEO只与该样本点和它的时域差分有关,它仍保持与原始信号相似的局域性。由于受情绪的影响,发音人的声带及声道肌肉的紧张度会发生变化,或松弛或紧张,根据非线性涡流理论,这会影响到声道内涡流的相互作用。Hanson在对应激环境下的语音分析中发现,平静状态发音和应激环境下发音,存在非线性成分的改变。因此,在情绪识别特征分析中引入TEO可研究非线性部分的作用。特征1:基于频域TEO的Mel倒谱系数(NFD_Mel)由于不同情绪下,语音能量会在不同频段上偏移,这种能量分布的差异经过频域TEO变换后会更为明显。且有研究表明,在语音信号的频域,谱峰信息(peaks)要比谱谷(valleys)信息对语音的感知贡献更大,因此基于频域TEO的非线性变换会使能量高时的谱峰信息得到强调,使识别系统更好区分不同情绪。NFD_Mel的实现过程如图1所示,首先对情绪语音信号预加重,分帧、加哈明窗;再对每帧采样点进行FFT,计算功率谱值s(i),对功率谱各点计算TEO值:Ψ[s(i)]=s2(i)-s(i+1)s(i-1)(3)然后用一组三角形滤波器Hm对经TEO变换后的谱值进行Mel域带通滤波,再对滤波器组的输出求自然对数和离散余弦变换,得到特征NFD_Mel。特征2:基于幅频特性的Mel倒谱参数(AF_Mel)在Teager提出非线性涡流理论后,Maragos以之为基础,提出了调幅-调频模型作为新的语音模型。他指出,对于幅度和频率缓变的带通语音信号x(t),其能量算子TEO是一个不仅与信号幅度a(t)有关,而且与频率ω(t)有关的量,这就是它的幅频特性:Ψ[x(t)]≈a2(t)ω2(t)(4)由上式可以看出,与一般的能量运算不同,在发音人情绪的影响下,语音的幅度和频率信息会发生改变,则TEO也会随之变化。因此在频域计算频谱强度与对应频率的积,来研究TEO的变化,该特征即考虑幅度又考虑频率,可提高辅音在情绪识别的贡献。提取过程见图2,语音的预处理同前,对每帧信号FFT得到功率谱值s(i),并计算功率谱与对应频率乘积的平方,然后再经过Mel域带通滤波,求对数和离散余弦变换得到AF_Mel。1.3.2情绪识别模型型突出型本题研究的是特定人、小词汇量的平静-烦躁情绪识别。基于HMM技术已经成为语音识别领域的主流技术,本文将其作为情绪识别的识别方法。对每个发音人分别建立2种HMM情绪模型(平静、烦躁),模型采用有回跳的5状态3混合的HMM模型作为识别模型,结构见图3。语料中每条语句重复4~10遍,其中3~4遍用于训练HMM模型,剩余1~7遍作为测试样本,进行识别检测。平静语料中810句用于训练模型,1270句用于识别,烦躁语料1210句用于训练模型,1910句用于识别。本文使用正确识别率R描述语音情绪识别性能:R=HN×100%(5)R=ΗΝ×100%(5)其中N为该情绪的总测试样本数,H为该情绪的正确识别样本数。识别特征矢量为识别特征和它们的一阶差分。2情绪识别的识别率表4分别给出3项实验的识别结果和平均识别率,可以看出:两个识别特征NFD_Mel、AF_Mel的平静和烦躁的情绪识别率都较高,且分数接近。SM实验中最高,达到100%,其次是HDT-BR实验,识别率分别为98.6%、98.4%,PI&SD实验分别为97.3%、97.4%。3项实验NFD_Mel、AF_Mel的烦躁平均识别率都略高于平静,使用特征NFD_Mel高出0.5%,使用特征AF_Mel高出0.3%,总识别率均值分别为98.6%。说明频域的TEO变换和运用TEO幅频特性的识别特征可很好识别模拟航天环境中的烦躁情绪。而识别率较高的原因,主要与小词汇量,二选一识别有关。本题作为模拟航天环境下应激情绪语音识别的初次探索,实验人数和句表数目较少,研究的情绪类型也仅为平静和烦躁,今后根据实际的应用需要,将在受试者人数、语料、应激情绪类型上做扩充。情绪语料库的建立可考虑与社会心理学的研究实验相结合,录制涉及人数广泛,语料内容丰富的情绪语料,在语料类型上将偏重连续自然的语音,而不仅仅是短句。同时,识别特征上还可结合生理参数、图像参数等信息对情绪进行综合识别,以期改善和提高情绪识别率。3研究的主要成果本题建立了包含72h睡眠剥夺、60d头低位卧床、60d密闭舱实验的应激语料库(语料14560句,应激语句11856条,平静语句2704条,烦躁语句3120条),可为后续进一步研究提供数据基础。采用基于TEO的非线性理论,建立了基于频

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论