基于语音的模糊案例推理情感识别算法研究_第1页
基于语音的模糊案例推理情感识别算法研究_第2页
基于语音的模糊案例推理情感识别算法研究_第3页
基于语音的模糊案例推理情感识别算法研究_第4页
基于语音的模糊案例推理情感识别算法研究_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 摘要一台智能的计算机应能观察、理解人类情感并根据使用者的情感自动调整交互环境。如何使计算机能够准确地识别人类的情感具有重大的理论和实际意义。人类情感识别主要包括:表情情感识别,语音情感识别,生理信号情感识别等。语音情感识别作为人类情感识别的重要部分越来越受到国内外研究人员的重视,在计算机已知人类语音的前提下,通过分析语音中包含的情感信息,自动识别出说话人的情感类别,是智能人机交互的重要组成部分。语音情感识别的研究包含:语音信号情感特征分析,提取语音情感特征方法,建立语音情感识别模型,语音情感识别算法。本文的主要研究工作有以下部分:(1)语音特征识别;(2)在语音情感识别阶段,提出用模糊规则用

2、于语音情感识别,因为模糊规则在模型不清楚的环境中有着出色的表现;()在语音情感识别阶段,本文在深入研究基于案例的推理(CBR)和WANG算法的基础上,提出了一种将两者融合的方法,即基于模糊规则的案例推理;(4)本文采用柏林语音情感库作为训练和测试样本库。关键词:情感特征,语音情感识别,模糊规则,WANG算法AbstractOne intelligence computer should notices and understands the users' emotion; the intelligence computer should also change the human-ma

3、chine interface environment if the users' emotions change. How to make the computer exactly recognize the emotion of human has significant meanings not only in theory but also in practical. The research of human emotion recognition mainly contain: Facial Expression Recognition,speech emotion rec

4、ognition, physiological signals emotion recognition.As one part of human affective computing, Speech emotion recognition has attracted lot of researchers' interest in this field, suppose computer has human speech information, after detail with the speech that contain human emotion information, t

5、he computer should automatically recognize speaker's emotion that is important part of intelligence human-machine interaction.The research of speech emotion recognition generally considered several parts: speech signal Emotional characteristics analysis, extraction speech signal Emotional charac

6、teristics method, build speech emotion recognition model, speech emotion recognition algorithm. The main researches of this paper are as follows:(1)extract speech signal Emotional characteristics;(2)In speech emotion recognition model aspect, we propose use fuzzy rules to replace the speech emotion

7、recognition model for fuzzy rules can do a good performance in a system when the system model is not clear;(3)In speech emotion recognition algorithm aspect, after study of Case Base Reasoning(CBR) theory and WANG algorithm, we combine two of them together, that is Fuzzy Case Based Reasoning.(4)In t

8、his paper we use Berlin speech emotion data base as the training and test data base.Keywords:Speech feature extraction, Speech emotion recognition, Fuzzy rules, WANG algorithm1、 引言近年来计算机的快速发展为人们的日常生活、学习、工作带来了不可替代的作用,然而人们对计算机的要求也越来越高。现在的计算机已经不能满足人们对智能计算机的要求。智能的计算机首先要识别人类的情感,这就是美国麻省理工大学媒体实验室Picard教授提出

9、的情感计算(Affective computing)的概念,即“情感计算是与情感相关,来源于情感或能够对情感施加影响的计算”。人们不仅希望智能的计算机具有强大的计算和存储能力,人们还希望它具有类似人类的智能,使人机之间的交流也能像人与人之间的交流一样自然和亲切。为了使计算机能够达到上述要求,计算机首先要能够正确地识别人类的情感。情感计算的研究主要包括:获取有人类情感一起的生理及行为状态特征,建立情感识别模型,根据识别算法对人类情感状态进行识别。语音情感识别的研究主要色含:语音情感特征的提取方法,建立语音情感识别模型,语音情感识别算法。本文的主要研究工作有:(1)在语音特征提取部分,如何提取能充

10、分代表人类情感的特征参数对于语音情感识别具有不可替代的道要意义。(2)在语音情感识别阶段,提出用模糊规则用于语音情感识别,因为模糊规则在模型不清楚的环境中有着出色的表现。由于WANG算法在决策融和阶段采用乘积的方式,存在易于将有用案例剔除的情况,因此,我们提出在决策融合阶段用均值的方式对WANG算法进行改进,用于语音情感识别。用改进的WANG算法对语音特征提取模糊规则,然后应用得到的模糊规则对语音进行情感识别。然后应用学习得到的模糊规则对语音情感进行分类,取得不错的分类率。(3)在语音情感识别阶段,本文在深入研究基于案例的推理(CBR)和WANG算法的基础上,提出了一种将两者结合的方法,基于模

11、糊规则的案例推理。该方法不但充分体现了模糊规则在模型不清楚情况下的优点,同时还拥有基于案例的推理在已解决案例可用为解决新问题的优越性。(4)本文采用柏林语音情感库作为训练和测试样本库,对上述方法进行了检验,通过实验结果可以看到本文提出的方法具有较好的情感识别率。2、语音情感识别方法在人与人的交流中,语音是主要交流方式,语音中往往带有说话者的情感状态,对于人类来说,识别说话者的情感状态不是一件很难的事情可是让计算机识别说话者的情感状态却不是一件简单的事。计算机为了识别说话者的情感状态,首先,要对说话者的语音信号预处理,提取语音信号的情感特征;然后建立一定的语音情感识别模型;最后根据某些识别方法判

12、断语音的情感类别。本章首先介绍几种情感的分类,然后介绍语音识别系统,语音识别系统主要包括:语音信号预处理,语音信号特征提取,语音情感识别。最后介绍常用的语音信号识别模型。2.1情感的定义和分类情感是态度这一整体中的一部分,它与态度中的内向感受、意向具有协调一致性,是态度在生理上一种较复杂而又稳定的生理评价和体验。情感包括道德感和价值感两个方面,具体表现为爱情、幸福、仇恨、厌恶、美感等等。至今对于情感的分类,仍然没有一个统一的结论,不同的研究人员根据自身的研究情况,提出了不同的情感分类方法,到底哪一种情感分类方法最为合理,目前仍然没有科学的证明。本来情感状态就是一个渐变的过程,对于某一种情感不能

13、用一个情感词汇描绘出来。表2.1是不同学者对基本情感分类的情况。在本文中,由于采用德国柏林语音情感数据库作为训练和测试数据库,所以根据柏林语音情感数据库的情况,选用高兴,愤怒,恐惧,焦虑,无聊,厌恶和正常等七种情感状态进行研究。表2.1 基本情感分类2.2语音情感识别一个完整的语音情感识别系统一般由三部分组成:语音信号预处理过程,语音信号特征提取过程,语音信号情感分类过程。语音情感识别系统如图2.2所示。一般的语音信号情感识别第一步要对语音信号进行预处理过程,这个预处理的目的是去除语音信号中的噪声、环境杂音,经过预处理的语音信号更能满足后续步骤的需要,以便更好地进行语音信号的特征提取,获得高精

14、度的语音识别结果。语音信号的情感状态可以根据语音信号的特征体现出来,语音信号的特征主要有时域特征和频域特征,普遍认为情感的变化主要由时域特征体现,时域特征主要包括:语音时间构造、振幅构造、共振峰构造。语音信号处理的最后一步是,语音情感识别,在语音信号情感识别的方法中主要有:主成分分析法(Principal Component Analysis,PCA),K 最近邻(K-nearest neighborhood),支持向量机(Support Vector Machines, SVM),神经网络(neural network, NN),隐马尔科夫模型(HMM)等方法。图2.2语音情感识别系统图3、

15、 语音情感特征提取本章通过对研究人员目前普遍采用的语音情感特征参数的研究分析,认为时域特征参数最能够提语音信号的情感状态,在柏林语音情感数据库上提取了主要的时域参数:时间构造、振幅构造、共振峰构造。3.1振幅构造参数提取在语音情感研究中,振幅构造被认为是必不可少的语音信号特征参数。因为人类在愤怒或者惊奇的时候,发音的音量就毁变大,当人类在悲伤或者沮丧的时候,发音就会变低。本文中,我们选取短时平均振幅的能量均值,能量的最大值,曲线局部极点个数三个特征作为振幅构造的参数。假设语音信号波形时域信号为x(1),加窗分帧处理后的第n帧语音信号为xn(m),则xn(m)满足:其中,n=0, T, 2T,

16、3T,., N为帧的长度,T为帧移的长度。假设第n帧语音信号xn(m)的短时能量用En表示,则有下面的计算公式:这里En是一个度量语音信号幅度值变化的函数,它有自身的一个缺点:对高电平非常敏感,这是由于计算时用的是信号的平方。因此,我们可以采用另外一个度量语音信号幅度值变化的函数短时平均幅度函数Mn计算公式为:所以能量的均值为:这里M为帧数。在得到语音信号的短时平均能量均值,能量曲线的局部极点就是曲线倒数为零的点,为能量的最值点。语音信号的短时能量和短时平均幅度函数Mn的主要作用:(1) 用于区分清音段和池音段。(2) 用于区分声母和韵母的分界,无声和有声的分界,连字的分界。(3) 用于语音识

17、别。3.2时间构造参数提取语音信号的时间构造主要有语音持续时间,短时过零率。我们主要研究语音持续时间。当说话者处于不同的情感状态时,语音的持续时间是不同的,因此语音持续时间对于语音情感识别是有作用的。对于相同的一个语句,说话者不同的状态语音的持续时间是不同的;当然,对于不同长度的语句,语音的持续时间是不同的,这时我们可以使用语速代替语音持续时间。3.3共振峰构造参数提取所谓共振峰就是元音激励进入声道产生的一组共振频率,不同情感状态的语音使声道产生的变化是不相同的,所以共振峰位置就会不相同。在声学参数中是与语音质量相关的重要参数。因此共振峰可以作为语音情感识别的特征参数,用于语音情感识别的研究中

18、。共振峰主要包括:共振峰频率和频带宽度,共振峰是区别不同韵母的重要参数。本文中采用线性预测法(LPC)求出14阶的预测系数,然后用预测系数估计出声道的频响曲线,用峰值检测法(Peak Picking)计算出共振峰的频率。本文选取第一共振峰的均值,最大值,最小值,变化范围以及变化率作为共振峰参数用于语音情感识别。4、 基于模糊规则的语音情感识在大部分的现实控制和信号处理问题中,关于处理,估计和实现等问题的主要信息可以划分为两大类:从传感器等测量的数字信息和从人类专家得到的语言信息。上述两类信息可以归纳为:数字序列和人类经验。如果把经验规则和数字序列结合起来使用,肯定会比单独使用他们当中的一个设计

19、的控制系统得到的控制效果好很多,这就是WANG算法的主要思想。模糊控制被认为是一种利用语言规则的有效方法,人工控制是一种更适合使用数字序列(成功的输入-输出数字对)的控制方法。现在的模糊控制一般只使用语言规则,人工控制一般只利用数字序列。所以,这就导致了这样一个设想:能不能将语音规则和数字序列结合起来,从而产生一种更加一般的系统解决方案,以解决控制设计类的问题?这种把语音规则和数字序列结合起来的方法产生模糊规则的方法,不仅使用了数字序列的信息也使用了语音规则信息,是一种更加全面,更加系统的规则。最后利用这个模糊规则库解决模型不易得到的控制或者分类问题。由于语音情感识别中的语音情感模型是比较复杂

20、的,因此,我们将这种模糊规则方法应用到语音情感识别中。4.1改进的WANG算法由于WANG算法是一种简单的,并且得到的模糊规则效果很好的模糊规则生成算法,在一些应用方面已经使用到这个方法。但是WANG算法在决策融合阶段使用乘积的方式,使一些案例被忽略,因此我们希望避免这种情况的发生。假设我们有一组案例:这里x1,x2,是输入,y是输出,在分类问题中y是这类问题的类别。我们选择多输入单输出是为说明我们是怎么样得到模糊规则的基本思想,这样的主要任务是从这一组案例中提取模糊规则,这个模糊规则的内容是关于我们用的改进的WANG算法是数据库中提取模糊规则,改进的算法包括四步:(1)首先将输入输出空间划分

21、成模糊区域。(2)然后提取模糊规则。(3)再然后给每条规则计算相应的规则强度。(4)最后精简模糊规则得到最终的模糊规则。4.2模糊规则在分类问题的应用图 4.1模糊规则在分类问题的作用模糊规则用于分类问题的整体框图如图4.1所示,首先对于己知的案例使用改进的WANG算法,提取案例库的模糊规则库,这个模糊规则库就包含了已知案例的所有信息,我们解决新问题时,就可以使用这个案例库。当有新问题出现时,这个新问题就会根据已有的模糊规则库,寻求新问题的最大可能解。在最终的决策融合阶段,我们通过一个投票过程选择最有可能的类别,在案例库中,相同的类别会进入到一个投票过程。5、 基于案例推理与模糊规则融合的语音

22、情感识别这种将基于案例的推理和改进的WANG算法融合的方法既可以保留基于案例的推理在利用以前案例的优点,又保留了模糊规则的简单和有效的优点。基于案例的推理和改进的WANG算法融合的方法作为语音情感识别的方法以前从来没有研究学者提出过,我们是首次尝试。5.1基于案例推理介绍基于案例的推理(Case-based Reasoning,简称CBR)是一种基于以前成功解决的案例用于解决新问题的推理方法,基于案例的推理169和人类在现实生活中解决未知问题的过程是相似的,都是根据以前相似问题的解决方法用于解决新问题。由于基于案例的推理在一般用途上的高度适应性,所以它逐渐被应用到很多领域。图5.1是基于案例推

23、理的整体结构图。当一个新问题出现时,它就作为这个系统的输入,基于案例推理的系统就会根据一些特征找出和这个问题相似的案例,通过修改找出案例的解决方法寻求新问题的解决方法。当新问题的解决方法被人们或者环境判断为有效以后,这一案例就会加入到案例库中,从而丰富案例库。所以基于案例推理的整体过程可以描述为:学习过去,建立经验,增加案例以提高性能。图5.1CBR系统的一般结构5.2基于案例推理和模糊规则的融合算法图5.2为总体的模糊-基于案例的推理系统构架图,对于给定的新问题,在案例库中寻找有用的案例。用改进WANG算法从案例库中提取模糊规则,新问题和已经解决案例的关系就是通过模糊规则连接他们之间的关系由

24、一个代表已解决案例对于新问题的有用性的值表示,值越大说明已解决案例对新问题的有用性越大。从案例库中得到这个值之后,我们通过修改已解决案例的解决方法得到新问题的解决方法。图 5.2基于案例的推理和模糊规则融合系统5.3CBR和模糊规则融合的方法用于语音情感识别本文实验的柏林情感数据由五男五女分别用愤怒(anger),厌烦(boredom),厌恶(disgust),害怕(anxiety/fear),高兴(happiness),悲伤(sadness),中性(neutral)七种情感朗读十句语句共535条语句。实验时,用九个人的语音语句学习模糊规则,用剩余的一个人的语音语句验证CBR和模糊规则融合的方法在语音情感识别的效果,重复九次。我们把隶属度函数的个数选为8,输入特征变量的区间是等长度。我们设定了一个阈值0.5,只有强度大于0.5时,才被在投票过程采用。表5.1是用CBR和模糊规则融合的方法在柏林情感数据库的仿真结果。表5.1CBR和模糊规则融合的方法在柏林情感数据库的仿真结果从仿真结果中可以看出,语音情感识别结果最好是编号为16的那一组,识别率得到了81.70%,语音情感识别结果最不好的是编号为12的那一组,识别率只有65.71%,用CBR和模糊规则融合的方法在柏林情感数据库的语音情

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论