语音信号处理第12章课件_第1页
语音信号处理第12章课件_第2页
语音信号处理第12章课件_第3页
语音信号处理第12章课件_第4页
语音信号处理第12章课件_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、12.1 概述随着信息技术的高速发展和人类对计算机的依赖性的不断增强,人机的交互能力越来越受到研究者的重视。在人机交互中需要解决的问题实际上与人和人交流中的重要因素是一致的,最关键的都是“情感智能”的能力。因此计算机要能够更加主动的适应操作者的需要,首先必须能够识别操作者的情感,而后再根据情感的判断来调整交互对话的方式。包含在语音信号中的情感信息是一种很重要的信息资源,它是人们感知事物的必不可少的部分信息。所以包含在语音信号中的情感信息的计算机处理研究,分析和处理语音信号中的情感特征、判断和模拟说话人的喜怒哀乐等是一个意义重大的研究课题。12.2 语音信号中的情感分类和情感 特征分析12.2.

2、1情感的分类要研究语音信号的情感,首先需要根据某些特性标准对语音情感做一个有效合理的分类,然后在不同类别的基础上研究特征参数的性质。 经过Plutchik等人的多年研究,通过在激活评价空间上对情感进行分析,认为情感分布在一个圆形的结构上,结构的中心是自然原点。由于各种情感在自然原点的周围排成了一个圆形,所以这种对情感进行分类的方法叫做“情感轮(Emotion Wheel)”。对于任何一个情感语句,可以根据其情感强度和情感方向,在情感轮所组成的二维平面中用唯一的一个情感矢量 来表示。其中情感强度表现为这个情感矢量的幅度值,而情感方向则表现为该情感矢量的角度。 不同于Plutchik的分类手段,F

3、ox提出的三级情感模型,则是按照情感中表现的主动和被动的程度不同将情感分成不同的等级,如表12-1所示。等级越低,分类越粗糙,等级越高,分类越精细。 12.2.2 情感特征分析语音之所以能够表达情感,是因为其中包含能体现情感特征的参数。情感的变化通过特征参数的差异而体现。因此研究从语音信号中提取这些反映情感的参数,对于情感语音识别等具有极其重要的意义。通常在语音情感识别时使用的主要特征参数包括以下内容。 Murray和Arnott总结了情感和语音参数的关系如表12-3所示。 当人处于愤怒的情感时,其生理特征较平时突出,如心跳加快、皮肤电压升高、血压升高等,这同时也影响到了语音特征参数的变化。首

4、先由于生理变化的缘故,胸腔的回声和呼吸声在语音信号中所占的比重将有所增加,振幅强度也大大高于普通的情感,语速也较普通语句快,是加速句和加强句的结合。为了增加生气的效果,基音在重音处语调的突变,成为了生气状态的一个重要特征。对于高兴时的情感,与愤怒情感时的生理特征有相似之处,它的声音中也往往带有呼吸的声音,但是和其它情感的主要不同之处在于,人处于高兴的状态时,它的基音变化通常是一条向上弯曲的曲线。句子的振幅强度也集中在句子的末尾的一两个字,整个句子的声调的调域要比平静语句高。句中非关键性的字和词的调形拱度就变得平坦一些,甚至失去本调,而成为前后相邻两调的中间过渡。 由于悲伤情感属于压抑情感类,所

5、以它的时长较平静语句慢,强度也大大低于其它各种情感,基音的变化也是一条向下弯曲的曲线。由于语速较慢的缘故,每一个字的读音彼此都拉得很开,所以字调的调形保留了其单字的调形,多字调的效果弱化。但由于在悲的语句中几乎每个字都夹杂了一定程度的鼻音,所以要进行鼻音化的处理,使悲的语句的调阈降低,整个语句趋于平坦化。恐惧情感在语速、基音、基音范围上同高兴情感、生气情感的语句相类似,不同的地方仅在于语句的清晰度较其它情感精确。在实际的识别过程中目前还没有找到识别该种情感的有效特征参数。厌恶情感由于和生气情感具有较高的相似性,在很多研究文献中被归入生气情感中进行研究,大部分的特征参数和生气情感类似。同生气时的

6、主要区别在于基音的变化率比较宽,并在语句末端有向下倾斜的趋势。在汉语语音情感信息处理的研究方面,作为基础研究,其超音段特征的研究将占较大比例。对于喜、怒、惊、悲四种情感,汉语语音信号的时间构造、振幅构造、基频构造和共振峰构造等特征的构造特点和分布规律,可以分析如下。时间构造的分析:分析情感语音 的时间构造主要着眼于不同情感 语音的发话时间构造的差别。我 们可以计算出每一情感语句从开 始到结束的持续时间,这一时间 包括句中的无声部分,因为无声 部分本身对情感是有贡献的。然后就情感语句的发话持续时间长度(以下简称为T)以及平均发话速率(音节/秒)和情感的关系进行了分析和比较。 从图12-2可以看出

7、,在发话的持续时间上,愤怒、惊奇的发音长度和平静发音相比压缩了,而欢快、悲伤的发音长度却伸长了。在被压缩的愤怒、惊奇中,愤怒的发音最短,其次是惊奇。欢快和悲伤相比,悲伤伸长很多,而欢快只是稍稍伸长。通过进一步的观察可知,这些现象的产生是由于和平静语音相比,在情感语音中一些音素被模糊地发音、拖长或省略掉了的缘故。根据上述分析结果,我们可以利用情感语音的时间构造很容易地区分欢快、悲伤和其它情感信号。也可以通过设定某些时间特征阈值,来区分欢快和悲伤的情感信号。振幅构造的分析:信号的振幅特征与各种情感信息具有较强的相关性。因此,在一些有关情感分析的研究中,振幅构造特性都是作为重要特征加以分析研究的。情

8、感语句的振幅构造分析,主要针对振幅平均能量以及动态范围(以下分别简称为A和A range)等特征量进行分析比较。 从分析结果可知,欢快、愤怒、惊奇3种情感发音信号和平静发音信号相比振幅将变大,相反地,悲伤和平静相比,振幅将减小。而且从听取实验可知,情感信号具有这样的倾向,即,欢快、愤怒、惊奇的平均振幅越大,悲伤的平均振幅越小,其情感效应表现的越明显。利用振幅特征,我们可以很清楚地把欢快、愤怒、惊奇和悲伤区分开来,另外,振幅特性也具有一定的区分欢快、愤怒和惊奇情感信号的能力。 基频构造的分析:基音频率也是反映情感信息的重要特征之一。为了分析情感语音信号基频构造的特征,首先要求出情感语音信号的平滑

9、的基频轨迹曲线,然后分析不同情感信号基频轨迹曲线的变化情况,找出不同的情感信号各自具有的基频构造特征。分析可知,不同情感信号轨迹曲线的的动态范围、整个曲线的基频平均值以及变化率(以下分别简称为F0, F0 range和F0 rate)等特征可以反映不同情感的变化。 和平静语音信号相比、欢快、愤怒和惊奇的平均基频、动态范围、平均变化率比较大,而相反,悲伤语音信号的则较小。对比较大的欢快、愤怒、惊奇来讲,惊奇语音信号的特征量最大,其次是欢快和愤怒。另外,通过观察语音信号的基频轨迹曲线,可以发现了一个区分惊奇和其它情感信号的重要特征,那就是惊奇情感信号的基频轨迹曲线在句尾的地方往往有上翘的特征。共振

10、峰构造的分析:共振峰是反映声道特性的一个重要参数。不同情感发音的共振峰的位置不同。分析时首先用LPC法求出声道的功率谱包络,再用峰值检出法(Peak Picking)算出各共振峰的频率。对于不同情感第一共振峰频率的平均值,动态范围和变化率(以下分别简称为F1 、F1 range和F1 rate)的分析结果如图12-7所示。图12-8是一句情感语句的四种不同的情感的第一共振峰频率的逐帧演示。 分析结论:综合以上从四个方面对含有四种情感的语音信号进行的分析比较,我们可以归纳出如表12-4所示的情感信号的特征规律。12.3 语音情感识别方法 12.3.1 主元分析法(PCA)对于要识别的数据,假设有

11、N个样本信号,使用的特征参数个数为K个。对这个样本信号求K个特征参数所对应的协方差阵,然后对协方差阵进行特征值分解得到K个特征值和相应的特征矢量。对于不同的情感,利用样本库中的样本分别计算不同的主元k相对于不同的情感类型j所具有的均值 和方差 。并用下列各式进行最大可分性处理。这里J是采用的情感的类型个数, 表示第k个主元在情感类别中的分离性, 表示第k个主元在情感类别中的集中性。用 来反映主元在情感类别中的辨别能力, 越大时,辨别能力越强。按顺序对K个主元进行排列,选取p个 较大的主元作为识别用的主元。识别时,首先获取识别用信号的特征参数矢量 ,并利用已知的各参数在不同情感中的均值和方差对该

12、特征参数进行标准化得到 (由于矢量中的各维元素的单位不统一,所以在多变量分析前,应把各维元素都化成均值为0、方差为1的正态分布参数)。然后将 对选取的各个主元的基向量 分别进行投影求和,获得待识别语音在各个有效主元的得分值 。 按上式计算不同情感中各有效主元的综合概率。最后选取概率最大的情感作为识别情感。利用主元分析方法进行语音信号情感识别的训练和识别流程如图12-9所示。 12.3.2 神经网络方法(ANN)对于情感识别的问题,首先对每个情感构造一个网络。这种类型的网络叫做OCON(One-class-in-one-network)。可以采用如图12-10所示的子网络并行结构,将提取出的特征

13、矢量输入到每个子神经网络中,每个子网络采用三层神经元的MLP结构,输出为一个界于0到1之间的数值,表示输入的参数矢量可能属于某种情感的似然程度。 对于每个子网络,首先构造一个神经网络结构,选定各层传递函数,根据给定一个衡量理想输出和实际输出的能量函数。不同情感子网络具有相同的结构,仅仅在权值上有所不同。利用这个函数对网络中各个节点的权值求偏导数来确定实际的权值,使每个子网络逼近于实际的情感概率模型。 在识别时,把获取的特征参数输入到不同的情感子网络中,对各个情感网络的结果进行判决来选择似然程度最大的情感作为识别结果。 12.3.3 混合高斯模型法(GMM)混合高斯模型(GMM)是只有一个状态的

14、模型,在这个状态里具有多个高斯分布函数。其中 是一个高斯分布函数,不同高斯分布之间的加权系数 满足条件:在训练时首先利用矢量量化(VQ)抽取各类情感中有效主元矢量集的码本,并对每个码字求出相应的方差,这样每个码字和相应的方差就可以组成一个高斯分布函数。在识别时,对于某个语音情感主元特征矢量来求取它相对于每个情感类别的概率值,概率最大的即为识别结果。12.4 情感语音的合成情感语音的合成属于语音的规则合成(Synthesis-by-Rule),这里包含两个方面的内容。其一是合成技术的选择,其二是合成规则的制定。 基音同步叠加技术(PSOLA),由于它既能保持原始语音的主要音段特征,又能在音节拼接

15、时灵活调整其基音、能量和音长等韵律特征,因而很适合于情感语音的合成。 根据对前面介绍的情感语句特征参数的考察以及听音者的主观感觉,可以初步总结出不同情感语音的韵律特征变化的规律。喜:含喜的语句的时长和平静的平叙句相当,但这主要是由句子的尾部带来的影响,句子的前部和中部都比相应内容的平静平叙句的语速要快一些。句子的振幅强度也集中在句子的末尾的一两个字,整个句子的声调的调域要比平静平叙句高。由于句子的前中部语速加快,受到生理原因和语法条件的制约,句中非关键性的字和词的调形拱度就变得平坦一些,甚至失去本调,而成为前后相邻两调的中间过渡。句尾的感叹词在平静平叙句中读轻声,在这里语气有很强的加重,并且调

16、形变成为先升后降的山包形。 怒:含怒的语句的时长约为平叙句的一半左右,其振幅强度也很高,是加速句和加强句的结合。句中的动词和修饰动词的副词的振幅强度比平均值要高一些。句子的调阈抬高,但调形不一定变平,有时它们的拱度甚至更加扩展了。句尾的感叹词的调形也不同于轻声,而变成类似于上声的声调。惊:含惊的语句的情况和含喜的语句相类似,不同的地方在于句尾的调形有上翘的趋势。整个句子的平均振幅强度比平静平叙句略高,原因在于句尾的平均振幅强度增高了。悲:含悲的语句的时长约为平叙句的一倍左右,其振幅强度也比平叙句低许多。由于每一个字的读音彼此都拉得很开,所以字调的调形保留了其单字的调形,多字调的效果弱化了。但由于悲的语句中几乎每

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论