语音信号处理第8章-语音信号情感处理课件

上传人：北*** IP属地：贵州上传时间：2022-12-02 格式：PPT 页数：58 大小：6.10MB 积分：25 举报 版权申诉

已阅读5页，还剩53页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第8章语音信号情感处理情感的声学特征分析实用语音情感的识别算法概述情感理论与情感诱发实验应用与展望何为情感？吃惊眉毛向上挑眼睛圆睁嘴唇无意识地张开恐惧双眉上扬，聚拢上眼皮上扬眼袋紧绷双唇向两耳水平方向略微拉伸悲伤上层眼皮下垂两眼无光两侧嘴角微微下拉情感行为识别：面部表情识别语音情感识别姿态识别生理模式识别：皮肤电反应呼吸心率体温脑电波等多模态情感识别8.1概述计算机要能够更加主动的适应操作者的需要，首先必须能够识别操作者的情感，而后再根据情感类型来调整交互对话的方式。对于情感信息处理技术的研究包括多个方面，主要有情感特征分析、情感识别（如肢体情感识别、面部情感识别和语音情感识别等）、情感模拟（如情感语音合成等）。近年来，语音情感的研究进展可以大致分为四个方面：一、情感特征的选择和优化；二、建模算法的研究；三、自然情感数据库的建立；四、关注情感模型适应能力的环境自适应方法，如上下文信息、跨语言、跨文化，和性别差异等。MITCMU东京大学早稻田大学日内瓦大学情绪研究实验室伯明翰大学国内外研究现状中科院计算所：研究带有表情和动作的虚拟人。中科院自动化所：基于生物特征的身份验证。中科院心理学所、生物所：情绪心理学、生理学研究中科院软件所：智能用户界面浙江大学：虚拟人物、情绪系统构造北京工业大学：多功能感知机同情感计算的融合研究。东南大学：语音情感识别南京航空航天大学：语音情感计算。中国科技大学：基于内容的交互式感性图像检索的研究重庆大学：智能服务、增强现实、环境感知、智能手表等，注重软件方面的研究。海南大学：军用无线局域网结构中的可穿戴计算机。哈工大：“具有六种面部表情及视觉的类人头像型机器人及行为研究”，于2004年研制出具有八种面部表情的仿人头像机器人系统，并进行了表情实验，实现了喜、怒、哀、乐、悲伤、严肃、吃惊、自然(中性)等8种表情。索尼公司的AIBO狗：第一个实现规模商品化的宠物机器人（2006年生产6万只，收益10亿美元），QRIO、SDR-4X等宠物机器人。为有情感交互能力的机器人及相关的研究打开了想象的空间。典型应用Pepper是一款人形机器人，由日本软银集团和法国AldebaranRobotics研发，可综合考虑周围环境，并积极主动地作出反应。机器人配备了语音识别技术、呈现优美姿态的关节技术，以及分析表情和声调的情绪识别技术，可与人类进行交流。8.2

情感理论与情感诱发实验1）基本情感论8.2.1情感的心理学理论基本情感论认为，人类的复杂的情感是由若干种有限的基本情感构成的，基本情感按照一定的比例混合构成各种复合情感。基本情感论认为情感可以用离散的类别模型来描述，目前大部分的情感识别系统，都是建立在这一理论体系之上的。在心理学领域对基本情感类别的定义还没有一个统一的结论，然而在语音情感识别的文献中，较多的研究者采用的是六种基本情感状态：“喜悦”、“生气”、“惊讶”、“悲伤”、“恐惧”和“中性”。人类情绪的基本类型

快乐愤怒恐惧悲哀1.快乐：追求并达到所盼望的目的。※快乐:盼望的目的达到后继之而来的紧张解除时的情绪体验。※愤怒:愿望不能达到或事与愿违，并一再受到妨碍的情况下产生的情绪体验。恐惧：由于缺乏处理或摆脱可怕的情景或事物的能力引起的情绪体验。悲伤：与失去所热爱的事物或所盼望的东西有关的体验。

8.2.1情感的心理学理论2）维度空间论维度模型，是由效价度和唤醒度组成的二维空间：1）效价度或者快乐度，其理论基础是正负情感的分离激活，主要体现为情感主体的情绪感受，是对情感和主体关系的一种度量；2）唤醒度或者激活度，指与情感状态相联系的机体能量激活的程度，是对情感的内在能量的一种度量。8.2.2实用语音情感数据库的建立1）概述语音情感数据库的建立，是研究语音情感的必需的研究基础，具有极为重要的意义。目前国际上流行的语音情感数据库有AIBO（ArtificialIntelligenceRobot）语料库、VAM（TheVeraamMittag）数据库、丹麦语数据库（DanishEmotionalSpeech，DES）、柏林数据库、SUSAS（SpeechunderSimulatedandActualStress）数据库等。8.2.2实用语音情感数据库的建立2）实用语音情感数据库的需求情感语料可以分为自然语音、诱发语音和表演语音三类。表演语料的优点是容易采集，缺点是情感表现夸张，与实际的自然语音有一定的差别。早期基于表演语料的识别系统，它的情感模型在实验室条件下是符合样本数据的，在实验测试中也能获得较高的识别率，但是在实际条件下，系统的情感模型与真实的情感数据不能符合的很好，导致应用中的技术瓶颈。面向实际应用的需求，实用语音情感数据库必须要保证语料的真实可靠，不能采用传统的表演方式采集数据。通过实验心理学中的方法来诱发实用语音情感数据，可尽可能的使训练数据接近真实的情感数据。8.2.2实用语音情感数据库的建立3）建立过程和一般规范参考国内外著名语料库及其相关的规范，实用语音情感数据库建立的流程主要包含五个步骤：制定情感诱发方式、情感语音采集、数据检验与补录、语句切分与标注和听辨测试。规范详细说明发音人规范描述发音人的年龄、性别、教育背景和性格特征等。语料设计规范描述语料的组织和设计内容，包括文本内容设计、情感选择、语料来源等。录音规范描述录音环境的软硬件设备、录音声学环境等技术指标。数据存储技术规范描述采样率、编码格式、语音文件的存储格式及其技术规范。语料库标注规范情感标注内容和标注系统说明。法律声明发音人录音之后签署的有关法律条文或者声明。8.2.2实用语音情感数据库的建立4）数据检验录音过程通常在安静的实验室内进行。每次录音后，应进行数据的检验与补录，及时对语音文件进行人工检验，以排除录音过程中可能出现的错误。例如，查看并剔除语音中的信号过载音段、不规则噪声（如咳嗽等）和非正常停顿造成的长时静音等。对于错误严重的录音文件，必要时进行补录。8.2.3情感语料的诱发方法1）通过计算机游戏诱发情感语料因为人类声音中蕴含的情感信息受到无意识的心理状态变化的影响，以及社会文化导致的有意识的说话习惯的控制，所以实用语音情感数据库的建立需要考虑语音中情感的自然流露和有意识控制。通过计算机游戏诱发情感的方法的优势在于通过游戏中画面和音乐的视觉、听觉刺激，能提供一个互动的、具有较强感染力的人机交互环境，能够有效的诱发出被试的正面情感与负面情感。8.2.3情感语料的诱发方法2）通过认知作业诱发情感语料除了游戏诱发以外，通过认知作业可诱发包括烦躁、疲劳和自信等心理状态下的情感。在一个重复的、长时间的认知作业中，采用噪声诱发、睡眠剥夺等手段可辅助诱发负面情绪。认知作业现场的情感识别具有重要的实际意义，特别是在航天、航空、航海等长时间的、高强度的工作环境中，对工作人员的负面情感的及时检测和调控具有非常重要的意义。烦躁、疲劳和自信等心理状态对认知过程有重要的影响，是评估特殊工作人员的心理状态和认知作业水平的一个重要因素。8.2.4情感语料的主观评价方法为了保证所采集的情感语料的可靠性，需要进行主观听辨评价，每条样本由10名未参与录音的人员进行评测。一般认为人类区分信息等级的极限能力为72，故可以引入九分位的比例标度来衡量信息等级。例如，采用标度1、3、5、7、9表示情感的五种强度，对应极弱，较弱，一般，较强，极强五个等级。由于采取多人评测，为了得到第

条情感样本的评价结果，需要将所有听辨人的测评结果进行融合，采用加权融合的准则得到该条情感样本的评判结果为：8.3

情感的声学特征分析8.3.1情感特征提取用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征三种类型：1）韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化，是对语音流表达方式的一种结构性安排。最常用的韵律特征有时长、基频、能量等。2）基于谱的相关特征被认为是声道形状变化和发声运动之间相关性的体现，使用的谱特征一般有线性预测系数、线性预测倒谱系数、美尔倒谱系数等。3）声音质量是人们赋予语音的一种主观评价指标，用于衡量声音质量的声学特征一般有：共振峰频率及其带宽、频率微扰和振幅微扰、声门参数等。8.3.1情感特征提取特征序号特征名称1-4短时能量的最大值、最小值、均值、方差5短时能量抖动6-7短时能量的线性回归系数及其均方误差8250Hz以下短时能量占全部短时能量的比例9-12基音频率的最大值、最小值、均值、方差13-14一阶基音频率抖动、二阶基音频率抖动15基音频率分段方差16-19基音频率一阶差分的最大值、最小值、均值、方差20-34第一、第二、第三共振峰频率的最大值、最小值、均值、方差、一阶抖动35-37第二共振峰频率比率最大值、最小值、均值38-890-12阶MFCC的最大值、最小值、均值、方差90-1410-12阶MFCC一阶差分的最大值、最小值、均值、方差142-144关联维数、最大Lyapunov指数和Kolmogorov熵8.3.2特征降维算法由于受到训练样本规模的限制，特征空间维度不能过高，需要进行特征降维。在具体的算法训练当中，几乎所有的算法都会受到计算能力的限制，特征数量的增加，最终会导致“维度灾难”的问题。常用的特征降维方法：LDA（LinearDiscriminantAnalysis）、PCA（PrincipalComponentsAnalysis）、FDR（FisherDiscriminantRatio）、SFS（SequentialForwardSelection）等。8.3.2特征降维算法1）LDA降维原理LDA用来特征降维的具体步骤如下：（1）中心化训练样本，并计算其类内离散度矩阵

和类间离散度矩阵。（2）计算样本的协方差矩阵，并对其特征值分解，将特征向量按照其特征值的大小进行降序排列，取前若干个特征向量组成投影矩阵。（3）计算投影到投影矩阵上的样本的类内离散度矩阵和类间离散度矩阵。8.3.2特征降维算法1）LDA降维原理（4）对

进行特征值分解，并将其特征向量按其特征值大小进行降序排列，取前c-1个特征值对应的特征向量组成新的投影矩阵。（5）将训练样本按照新的投影矩阵进行投影。（6）对测试样本进行中心化处理，并按照新的投影矩阵进行投影。（7）选择合适的分类算法进行分类。8.3.2特征降维算法2）PCA降维原理PCA是经常使用的特征获取方法之一，被称作是模式分类中的著名算法之一，是一种使用相当广泛的降低数据维度方法。PCA的目的就是利用一组向量基去再次表征获得的信息量，使新的信息量能够尽可能表达初始信息之间的关联，最后从中获取“主分量”，很大程度上减小多余信息的干扰。为了使得重构信号误差最小，需要选取特征矩阵特征值较大的特征矢量，而用该特征矢量重构系数作为信号的低维特征。8.4

实用语音情感的识别算法算法情感拟合性能优点缺点GMM高对数据的拟合能力较高对训练数据依赖性强SVM较高适合于小样本训练集多类分类问题中存在不足KNN较高易于实现，较符合语音情感数据的分布特性计算量较大HMM一般适合于时序序列的识别受到音位信息的影响较大决策树一般易于实现，适合于离散情感类别的识别识别率有待提高ANN较高逼近复杂的非线性关系容易陷入局部极小特性和算法收敛速度较低的混合蛙跳算法较高优化能力强，有利于发现情感数据中潜在的模式在迭代后期容易陷入局部最优，收敛速度较慢8.4.1K近邻分类器K近邻（KNN）分类算法，是一种较为简单直观的分类方法，但在语音情感识别中表现出的性能却很好。KNN算法分为如下四步：1）提取训练样本的特征向量，构成训练样本特征向量集合{X1,X2,…,Xn}；2）设定算法中K的值。K值的确定没有一个统一的方法（根据具体问题选取的K值可能有较大的区别）。一般方法是先确定一个初始值，然后根据实验结果不断调试，最终达到最优。3）提取待测样本的特征向量X，并计算X与

中每一样本的欧式距离D(X,Xl)。4）统计D(X,Xl)中K个最近邻的类别信息，给出X的分类结果。8.4.2支持向量机支持向量机是由Cortes和Vapnik等人提出的一种机器学习的算法，它是建立在统计学习理论和结构风险最小化的基础之上的。支持向量机在诸多模式分类应用领域中具有优势，如解决小样本问题、非线性模式识别问题以及函数拟合等。SVM算法是统计学习理论的一种实现方式。最基本思路就是要找到使测试样本的分类错误率达到最低的最佳超平面，也就是要找到一个分割平面，使得训练集中的训练样本距离该平面的距离尽量的远以及平面两侧的空白区域最大。8.4.2支持向量机在n维空间Rn中，对于两类问题进行分类时，设输入空间中的一组样本为(xi,yi)，yi∈{+1,-1}是类别标号。∈{+1,-1}在线性可分的情况下，存在多个超平面将两类样本分开，其中可以使得两个类别离超平面最近的样本与它的距离最大的那个超平面，称为最优超平面。8.4.2支持向量机设超平面方程为

使得推得则分类函数就是g(x)=wx+b，且分类函数归一化以后，两类中的所有样本都满足|g(x)|≥1，距离分类超平面最近的样本满足|g(x)|=1，分类间隔即为2/||w||。当||w||最小时，分类间隔最大。8.4.2支持向量机寻找最优分类面的问题就简化成一个简单的优化问题，即当约束条件为

，使得

最小。引入拉格朗日算子

α，原问题变成了一个约束条件下的二次优化问题：通过对系数w和b求导，并代入上式，则当约束条件为使得8.4.2支持向量机引入非线性映射后，假设Φ是低维输入空间Rn到高维特征空间F的一个映射，核函数k对应高维特征F中向量内积运算，即最优分类问题转化为一个约束条件

下的二次优化问题：得到最佳分类函数为8.4.2支持向量机1）多项式形式的核函数：2）径向基形式的核函数：3）S形核函数：8.4.2支持向量机上面介绍的是两类样本的分类问题，如果需要对

类问题进行分类，则需要对SVM进行组合。组合的策略有“一对一”和“一对多”。“一对多”的思想是在该类样本和不属于该类的样本之间构建一个超平面，假设总共有k个类别，则需要构建k个分类器，每个分类器分别用第

类的样本作为正样本，其余的样本作为负样本。该方法的缺点是样本数目不对称，负样本比正样本要多很多，故分类器训练的惩罚因子很难选择。“一对一”的方式是每两类样本间构造一个超平面，一共需要训练k(k-1)/2个分类器，最后识别样本时采用后验概率最大法选定待识别样本的类型，“一对一”的方法的缺点是训练的分类器比较多。8.4.3人工神经网络人工神经网络（ANN）是一种由大量简单处理单元构成的并行分布式数学模型。人工神经网络主要从两方面模仿大脑工作：从外界环境中学习和用突触权值存储知识。神经元是神经网络处理信息的基本单位，是由突触权值、加法器、激活函数三部分构成的非线性模型。8.4.3人工神经网络对于多层感知器，通常采用著名的BP算法来修正连接权值。下面简单介绍用于MLP训练的BP算法。训练分两步：第一步是计算MLP的输出值；第二步是用BP算法更新网络的连接权值。8.4.3人工神经网络具体步骤如下：1）设置初始权值及阈值，即设所有的权值及节点的阈值为一个小的随机数。2）给定新的输入值x1,…,xN及相应的理想输出信号d1,…,dM。

3）计算当输入x1,…,xN通过网络时的实际输出值y1,…,yM。对于网络中任一节点j，它的输出的计算步骤为：

8.4.3人工神经网络4）修正每个权值和阀值。从输出节点开始逐步向前递推，直到第一层。

当节点j是输出节点时，理想输出明确，δj可表示为

当节点j是隐含节点时，理想输出不明确，δj定义为

5）转移到第2步重复进行，直到各

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音信号处理第8章-语音信号情感处理课件

文档简介

温馨提示

最新文档

评论

语音信号处理第8章-语音信号情感处理课件

文档简介

温馨提示

最新文档

评论

相关文档