(生物医学工程专业论文)基于语义模型的情感语音识别技术研究.pdf_第1页
(生物医学工程专业论文)基于语义模型的情感语音识别技术研究.pdf_第2页
(生物医学工程专业论文)基于语义模型的情感语音识别技术研究.pdf_第3页
(生物医学工程专业论文)基于语义模型的情感语音识别技术研究.pdf_第4页
(生物医学工程专业论文)基于语义模型的情感语音识别技术研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东南大学硕士学位论文 a b s t r a c t e m o t i o np l a y sav e r yi m p o r t a n tr o l ei nh u m a nl i f e ,a n di ti sa ni n d i s p e n s a b l ei m p o r t a n t c o m p o n e n to ft h e i ro w nl i f ea n ds o c i a li n t e r a c t i o n w i t ht h ed e v e l o p m e n to fs c i e n o e , t h e p r o c e s s i n ga n da n a l y s i so fe m o t i o nw a sa l r e a d yb e c a m ea ni m p o r t a n tr e s e a r c hd i r e c t i o ni nt h e f i e l do fa r t i f i c i a li n t e l l i g e n c e t h ec o n t e n ti nt h i sp a p e ri se m o t i o n a ls p e e c hr e c o g n i t i o nb a s e do n t h es e m a n t i cm o d e l s ar e v i e wo ft h eh i s t o r yo fe m o t i o nt h e o r ya n dt h er e s e a r c ho fs p e e c he m o t i o na r ei n t r o d u c e d a tf i r s ti nt h i sp a p e r b a s e do nt h er e s u l t sc o m ef r o mt h er e s e a r c hw i t ht h ep h y s i o l o g i c a l p s y c h o l o g y , s o m ec l a s s i f i c a t i o n so f t h ee m o t i o na r el i s t t h e n ,t h ec h a r a c t e r i s t i c sa n dd i s t r i b u t i o n so fa m p l i t u d e ,t i m e ,p i t c ha n df o r m a n ts t r u c t u r e s a r er e s e a r c h e di nt h i sp a p e r b a s e do nt h er e s e a r c h ,w ec h o o s ea m p l i t u d e ,t h ed u r a t i o no fs p e e c h , t h er a t eo fs p e e c h , p i t c ha n df o r m a n ta sp a r a m e t e r si ns p e e c he m o t i o n a lr e c o g n i t i o n i np a t t e r nr e c o g n i t i o n , i nt h i sp a p e rw ef i r s t l yi n t r o d u c e dt h ec o n c e p to fe m o t i o n a ls e m a n t i c m o d e l s ,a n dd i s p l a y e dt h eb a s i cf r a m e w o r ko fe m o t i o n a ls e m a n t i cm o d e l s t h e n ,t w ol e a r n i n g m e t h o d s - - - - - - c a n o n i c a lc o r r e l a t i o na n a l y s i sa n dp a r t i a ll e a s ts q u a r e sr e g r e s s i o na n a l y s i s _ 一 w h i c ha r eu s e dt oe s t a b l i s hs e m a n t i cm o d e l sa r ei n t r o d u c e d c a n o n i c a lc o r r e l a t i o na n a l y s i si sak i n do fm u l t i v a r i a t es t a t i s t i c a lm e t h o dw h i c he x a m i n e s t h er e l a t i o n s h i p sb e t w e e nt h ev a r i a b l e so ft w og r o u p s t h r o u g hc a n o n i c a lc o r r e l a t i o na n a l y s i s , s o m eo ft h em a i nc o m p o n e n t sc a nb ef o u n df o r mc o m p l i c a t e dr e l a t i o n s h i p s t h e r e b yi ti s p o s s i b l et om a k eu s eo fal a r g en u m b e ro fs t a t i s t i c a ld a t at od oq u a n t i t a t i v ea n a l y s i se f f e c t i v e l y , a n dt or e v e a lt h ei n t r i n s i cr e l a t i o n s h i p sb e t w e e nt h ev a r i a b l e s p a r t i a ll e a s ts q u a r e sr e g r e s s i o na n a l y s i si san e wk i n do fm u l t i v a r i a t es t a t i s t i c a ld a t a a n a l y s i sm e t h o d ,w h i c he x t r a c t st h em o s te f f e c t i v ei n t e g r a t e dv a r i a b l eb yd e c o m p o s i n ga n d s e l e c t i n gt h ei n f o r m a t i o no ft h es y s t e m ,t oo v e r c o m et h em u l t i p l ec o r r e l a t i o n so f t h ev a r i a b l e si n t h es y s t e mm o d e l i n g i nt h i sp a p e r , t h e s et w om e t h o d sa r eu s e dt od ot h ee m o t i o n a ls p e e c hr e c o g n i t i o nb a s e do n t h es e m a n t i cm o d e l s a n db o t ho ft h e mh a v e9 0 0 dr e c o g n i t i o nr e s u l t s k e yw o r d s :e m o t i o n a ls p e e c hr e c o g n i t i o n 、s e m a n t i cm o d e l s 、c a n o n i c a lc o r r e l a t i o n a n a l y s i s 、p a r t i a ll e a s t - s q u a r e sr e g r e s s i o n i i 附图目录 附图目录 图1 - 1 基于l a p s 和1 a d s 的基本情绪反应 4 图l - 2 日本人的5 类基本情感的三维空间分布1 i 5 图l _ 3t a y l o r 的实验中愤怒、中性、快乐、悲伤的面部表情在三维空间的规律分 6 7 1 5 1 7 1 8 图1 4p l u t c h i k 提出的情绪三维模式 图2 - 1 语音信号的波形和振幅轨迹 图2 - 2 ( a ) 传统的短时自相关函数( b ) 修正的短时自相关函数 图2 - 3 ( a ) 短时自相关函数( b ) 短时平均幅度差函数 图2 - 4 图2 5 图2 - 6 图3 1 图3 2 卷积同态系统的组成 第一个子系统的组成 1 9 1 9 1 9 2 3 第三个子系统的组成。 各种情感语音的最大振幅参数 各种情感语音的平均振幅参数 图3 - 3 各种情感语音的发音持续时间参数。 图3 _ 4 各种情感语音的语速参数。 图3 5 各种情感语音的基音频率最大值参数 图3 - 6 各种情感语音的基音频率平均值参数 图3 7 各种情感语音的基音频率变化率参数 2 3 2 4 2 4 2 5 2 5 图3 8 各种情感语音的共振峰频率最大值参数 图3 - 9 各种情感语音的共振峰频率平均值参数 图3 1 0 各种情感语音的共振峰频率变化率参数 2 6 2 7 图3 1 1 情感语音特征提取流程图。 图3 1 2 ( a ) 语音信号振幅( b ) 发音持续时间标记 2 8 2 9 图3 1 3 语音信号的波形、能量( d b ) 、音节粗划分和音节细划分3 0 图3 1 4 ( a ) 语音信号波形( b ) 基音轨迹3 l 图3 1 5 ( a ) 语音信号波形( b ) 共振峰轨迹3 2 图4 - 1 图孓l 情感语义提取的基本框架。3 3 典型相关分析流程图3 8 图6 1 偏最d - - 乘回归建模示意图4 9 v 一 东南大学硕士学位论文 _ - - - _ _ 一 附表目录 表1 - 1 搿情感”及其相关词语在词典中的含义 l 表1 - 2 各国人对表情判断一致的百分数。2 表1 - 3 基于不同分类原理的基本情感分类 表l - 4 特征提取中的参数和算法选择 3 1 2 表3 - 1 人类语音参数和情感之间最般的对应关系2 2 表5 - 1 三种实验方案的识别结果 4 6 4 6表5 - 2 采用普通p c a 算法和最大可分性p c a 算法的识别结果 表昏l 采用偏最小二乘回归算法的识别结果 表6 - 2 采用普通p c a 算法和最大可分性p c a 算法的识别结果。 v i 5 4 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名:盒薹薹导师签名: 日期: 2 0 08 垆多, 第一章绪论 第一章绪论 1 1情绪理论概述 1 1 1 情感的定义 当对情感这个抽象主题进行探讨或研究时,首先需要回答的问题就是究竟什么是 情感? 让我们先从中英文词典中了解“情感”及其相关词语的文字解释,如表1 1 所示。 表1 1 “情感”及其相关词语在词典中的含义 “情感”相关解释来源 词语 情感对外界刺激肯定或否定的心理反应,如喜欢、现代汉语词典 愤怒、悲伤、恐惧、爱慕和厌恶等 感情对外界刺激比较强烈的心理反应现代汉语词典 情绪人从事某种活动时产生的兴奋心理状态现代汉语词典 e m o t i o n s t r o n gf e e l i n gi fa n yk i n d :l o v e ,j o y , h a t e ,f e 戤a n d 牛津高级英汉 g r i e fa r ee m o t i o n s 双解词典 上述的定义仅仅代表了“情感”最一般的意义范畴,已经有许多西方学者就情感的准 确定义展开了讨论。在文献f 1 1 中,总结了1 0 0 多位学者对于情感的定义。这些定义通常是 复杂的、难以理解的,这也从一个侧面反应出情感研究领域的复杂性。下面给出的,就是 其中的两个定义,由此可以窥见情感定义的多样性。 “e m o t i o n sc o n s t i t u t et h ep r i m a r ym o t i v a t i o n a ls y s t e mo fh u m a n s e a c ho ft h ep r i m a r y e m o t i o n ss u p p l i e si t so w n u n i q u ek i n do fm o t i v a t i n gi n f o r m a t i o n ” t o m k i n s “t i l e yh a v ea d a p t i v ef u n c t i o n sf o rt h ei n d i v i d u a l ;t h e yn e e dt ob ei n f e r r e df r o mv a r i o u s s o u r c e so fe v i d e n c e ;t 1 1 e ya r eb a s e do ns p e c i f i cc o g n i t i o n s ;a n dt h e yr e v e a ls o m e t h i n go fa n i n d i v i d u a l sa t t i t u d e sa n dm o t i v a t i o n s ” p l u t c h n i k 从上述文章可见,情感是一种心理状态或过程,虽然在心理学领域对情感的研究已经 有很长的时间,但是对情感下一个普适的定义还比较困难。由于研究方法的多样性和关注 点的不同,使得情感的定义和理论也多种多样,目前在科学界还没有对情感的定义取得一 致的意见。 o a t l e y 和j e n k i n s t 2 】认为情感是人与自己、人与人之间相互交流的手段,它是由感知到 的重要特殊事件,以及由思考和外部事件引起的行为、生理特征变化和主观体验组成。虽 东南大学硕士学位论文 然情感有重要的主观成分,但它却强烈依赖于诸多社会、文化因素。一般而言,存在某些 通用的情感类别,比如当婴儿出生时,我们高兴,在亲人死亡时我们悲伤,它们能被大多 数人在大多数时间所体验和表达。下一小节,文章将对情感的分类进行讨论和研究。 1 1 2 情感的分类 如何有效的划分情感类型一直是一个颇有争议的问题。但在情感研究中必须进行一定 的情感类型分类是研究者们的一个普遍共测3 1 。那么,情绪究竟应该如何分类? 是否存在 彼此独立的、具有人类普遍性的基本情绪类型? 简单的维度空间是否能够表示出千姿百态 的情绪? 对于这些问题心理学中有两种截然不同的观点。 ( 一)基本情绪论 一种观点认为人类的情感是由分立的基本情绪组成的,称为基本情绪论。 基本情绪论认为情绪在发生上有原型模式,即存在着数种基本的情绪类型,每种类型 各有其独特的体验特性、生理唤醒模式和外显模式,其不同形式的组合形成了所有的人类 情绪。从个体发展角度来看,基本情绪的产生是有机体自然成熟的结果。从生物进化的观 点看,情绪原型是适应和进化的产物,也是适应和进化的手段。 我国古代思想家苟子将情绪和情感分为好、恶、喜、怒、哀、乐六大类,倡导“六情 说”。法国哲学家笛卡尔( d e s c a r t e s ) 认为,人有惊奇、爱悦、憎恶、欲望、欢乐和悲哀六种 原始情绪,其他情绪都是它们的分支。在近现代,美国心理学家伊扎德( c e i z a r d ) 通过因素 分析列出了包括9 种情绪的“情绪分类表”:兴奋、喜悦、惊骇、悲痛、憎恶、愤怒、羞耻、 恐惧和傲慢。这些关于情感的分类都是基于基本情绪论的划分方法。 支持基本情绪论的最著名的研究是美国洛山机加州大学的心理学家伊扎德( 1 z a r d ) 和艾 克曼( e k m a l l ) 等人进行的面部表情和运动反应的研究【4 】。受达尔文人与动物的情绪表达 一书的启发,e k m a n 等人通过作实验来证明不同文化的面部表情具有共通性。他们要求新 几内亚被试者设想自己是某个故事情节中的人物,并尽可能表现出故事中人物的面部表情; 同时研究人员对他们的面部表情进行了录像;最后让各国学生观看这些表情,并要求进行 识别。他们对六种面部表情作了测定,发现五个国家的公民很容易地指出每种表情所代表 的情绪,结果如表1 - 2 所示: 表1 2 各国人对表情判断一致的百分数 2 第一章绪论 在中国,孟昭兰p j 等的实验也证明,中国婴儿和西方标准化基本情绪表情模式是一致 的:同样中国婴儿同中国成年人的基本情绪的表情也是一致的,社会化了的成人表情中仍 然保留着基本表情模式。l e v e n s o n 6 等以西苏门达腊的年轻人作为测试对象,指导他们运 动面部特定肌肉以外显基本情绪,并进行系列生理学测量,最后把测量结果与美国大学生 被试比较,结果发现与基本情绪相联系的自主神经系统的生理反应模式具有很大的跨文化 一致性,这样的实验结果证实各基本情绪存在着泛人类的特定的生理唤醒模式。 基于不同的研究基础和背景,不同研究人员对基本情绪的定义不尽相同,目前国际上 一些主要研究成果中的基本情绪定义由美国学者o n o n y 【7 j 归纳整理如下表1 - 3 所示: 表1 3基于不同分类原理的基本情感分类 研究人员基本情绪定义f 7 1 a m o l d e k m a n f r i e s e r 炬l l s w o r t h f 啕d a g r a y i z a r d j a m e s m c d o u g a l l m o w r e r o a t l e y j o h n s o n - l a i r d p a n k s e p p p u l t e h i k t o m k i n s w a t s o n 胎i n e ra n dg r a h a m 愤怒,厌恶,勇气,灰心,渴望,绝望,恐惧,憎恨, 希望,爱,悲哀 愤怒,厌恶,恐惧,欢喜,悲哀,惊奇 渴望,快乐,好奇,惊愕,契机,悲伤 愤怒,恐怖,焦虑,欢喜 愤怒,轻视,厌恶,苦恼,恐惧,内疚,好奇,欢喜, 羞愧,惊奇 恐惧,伤心,爱,愤怒 愤怒,厌恶,得意,恐惧,征服,慈善,惊愕 痛苦,快乐 愤怒,厌恶,焦虑,快乐,悲哀 预期,恐惧,愤怒,恐慌 接受,愤怒,希望,厌恶,欢喜,恐惧。悲哀,惊奇 愤怒,好奇,轻视,厌恶,苦恼,恐惧,欢喜,羞愧, 惊奇 恐惧,爱,愤怒 快乐,悲伤 对基本情绪的主要反对意见有【8 】= ( 1 ) 尽管上述实验证实了情绪的泛文化模式,但这方面的研究也显示了某些文化的差 异; ( 2 ) 信息学和语言学研究已经发现,基本情绪词的含义在不同语言之间具有显著差异; ( 3 ) 该理论来自于内省法,实际上并没有足够证据证明各基本情绪具有各自不同的神 经生理机制; ( 4 ) 面部表情识别的基础也许并不是基本情绪类型,而是面部表情在情绪体验的双极 3 维度上的位置,或者是面部表情诱发的行为预备模式等。 基本情绪论对于情绪心理学研究具有深刻影响,然而该理论也有其局限性。基本情绪 的概念使得人们研究局限于各基本情绪类型是否具有跨文化一致性;而实际上情绪在某些 方面具有泛文化性,但在另外的一些方面具有文化差异,这个问题被人们忽略了。基本情 绪研究使得人们倾向于把情绪定义为个体内部的状态,而忽略了情绪是在一个社会环境中 逐渐展开的过程。 ( 二) 维度空间论 与基本情绪论相对立的是维度空间论。它认为人类所有的情绪是由几个维度空间所组 成,特定的情绪状态只能代表一个从亲近到退缩或者是从快乐到痛苦的连续空间中的位置, 不同情绪之间不是独立的,而是连续的,可以实现逐渐的、平稳的转变,不同情绪之间的 相似性和差异性是根据彼此在维度空间中的距离来显示的。 ( a ) 效价度唤醒度二维情绪空间 最近2 0 年,情绪维度得到了许多研究人员的重视,但是对采用哪些维度还有许多争论。 最广为接受的维度模式,是如下两个维度组成的二维空间: ( 1 ) 效价度( v a l e n c e ) 或者快乐度( h e d o n i ct o n e ) ,其理论基础是正负情绪的分离激活, 这得到了许多研究的证明,主要体现为情感主体的情绪感受,是对情绪和主体关系的一种 度量; ( 2 ) 唤醒度( a r o u s a l ) 或者激活度( a c t i v a t i o n ) ,指与情感状态相联系的机体能量激活的 程度,是对情绪的内在能量的一种度量。 不高兴 被激励 入 j 高兴 平静 图l - l 基于i a p s 和l a d s 的基本情绪反应 g o l d s t e i n 和s t r u b e 分析了学生的自我情绪报告,他们发现在任何一天中正性和负性反 应的强度是互不相关的【们。行为研究显示,当情绪刺激呈现于左半球时,正性情绪增强; 而当情绪刺激呈现于右半球时,负情绪增强。n y k i i c e k 等的研究甚至证明了这两个维度组 4 第一章绪论 成的四个象限之间或者整个空间的不同区域之间具有自主神经系统活动的差异l 埘。 i a p s ( 国际情绪图片系统) 和l a d s ( 国际情感数字声音系统) 分别是一组情感场景的 标准图像和声音集合,用于对在媒体的刺激下人类的情感反应进行定量研究。唤醒度和效 价度组成的二维空间里,基于l a p s 和i a d s 的情绪反应组成了一个大致的抛物线形状。 b r a d l e y 等给被试者观看l a p s 图片,同时测量生理反应,并且在每次图片显示后用自 我评价模式去得到快乐度、激活度、优势度的等级评定。实验结果发现,虽然不是所有的 生理反应与情感自我评价发生一致的变化,但总的来说,情绪的生理反应模式与情绪自我 报告的二维模式是一致的。比如,皮肤电反应与唤醒度相一致,随着唤醒度的下降,皮肤 导电性也下降;而惊反射与情绪评价的效价度有关;在正性效价,惊反射强度随着快乐程 度增加而下降,对于负性效价,惊反射强度随着负性程度的增加而增加。 快乐度唤醒度二维情绪空间也有一定的局限性,因为不能区分所有的情绪,比如对于 同样是高唤醒低效价的愤怒和恐惧就无法明确区分。 最近几年,人们开始热衷于用趋近退缩( a p p r o a c h w i t h d r a w a l ) 来代替快乐度。趋避度 的优越性在于: ( 1 ) 它更具有生物学基础,所有生物对于环境事件的行为反应都可以用趋避性来表示, 而行为反应又是与情绪反应紧密相关的; ( 2 ) 趋避度能够对于快乐度无法区分的愤怒和恐惧作出区分,愤怒与正情绪一样导致 趋近事物,恐惧导致逃避。 同时,这样的维度分类又会产生其他的问题,比如愤怒和正性情绪都与趋近行为有关, 但是愤怒又属于一种负性情绪。 效 价 度 图1 - 2 日本人的5 类基本情感的三维空间分布【l l j 5 东南大学硕士学位论文 ( b ) 效价度唤醒度,控制度三维情绪空间 另外有相当多的一些心理学家认为情绪的模式分布在一个三维的情绪空间里。在效价 度唤醒度的基础上,又提出了控制度这一维度。控制维度体现的是人对情感的控制能力和 主动程度,比如轻蔑和恐惧,就处于控制维度不同的两端。 h e r i ns m i t h 和s h u u i c h i r o ui k e 以日本人的情感为研究对象,采用定量评估的方法,给 出了生气、恐惧、悲伤、高兴、满意这五种情绪在三维情绪的定位如图1 2 所示。 j g t a y l o r 等【1 2 1 让被试识别陌生人的表情( 包括中性、快乐、悲伤、愤怒四种表情) ,并 要求分别从评价( 相当于快乐度) 、唤醒和行为( 相当于趋避度) - - 个维度值对这些陌生面孔进 行表情识别,结果发现这4 种以基本情绪分类的表情各自成簇分布于三维空间中,尽管也 存在某些离散的分布,但这并没有影响规律性分布的趋势。 图1 3t a y l o r 的实验中愤怒、中性、快乐、悲伤的 面部表情在三维空间的规律分布【1 2 j 虽然维度空间理论可以在实验中找到许多支持的证据,但是也有一些其他的观点暴露 了维度空间理论所存在的问题。 ( 1 ) 情绪评价具有个体差异,某些人以维度的方式去感受并报告情绪,而另外有些人 体验和报告情绪的方式则更符合基本情绪理论1 1 3 1 : ( 2 ) 尽管一些研究证实正负情绪的半球差异,但是也有一些研究却并没有得到类似结 果。w a g e r 等1 1 4 1 综合分析了在1 9 9 2 年到2 0 0 2 年2 月之间进行的6 5 项不同脑成像研究结果, 得到的结论是:并没有充分的和一致的实验证据支持正负情绪加工的半球差异;分析认为 情绪活动半球差异是很复杂的,并且具有很大的区域特殊性。f e l d m a n 的通过实验表明激 6 第一章绪论 活维度和体验强度也并不是完全关联的【l 习。 ( 三) 基于基本情绪的维度空间论 心理学上关于这两种理论的观点虽然存在大量的争论,但是他们所内涵的基本观点也 许并不矛盾。人类确实存在着先天的基本情绪,但这和正负情绪的分离并不矛盾。对于一 切生物,情绪的原型也许只有两种,即快乐和不快乐。随着不断进化,在个体与环境交互 作用过程中,系统变得越来越细化。一直到人类,情绪高度分化,正情绪分化为快乐,喜 欢,爱等。负情绪分化为厌恶,愤怒,恐惧和忧愁,悲伤,痛苦等。刚出生的新生儿也许 只有基本情绪,但随着时间的推移,后天环境和学习的影响,使得情绪变得更为系统化和 复杂化,新的情绪类型不断增加( 如羞耻和尴尬等) 。而这样的生物进化和个体发展过程与 神经系统的不断进化和发育是分不开的。这就说明了既不是先天基因,也不是后天环境决 定情绪。 正因为基本情绪论和维度情绪论存在着一些联系,因此也有一些科学家试图将二者结 合起来。美国心理学家( r p l u t c h i k ) 所提出的一种情绪三维模式( 如图1 4 所示) 就承认了 基本情绪的存在。普拉切克的三维情绪模型反映了情绪在强度上的变化以及彼此之间的对 立性质。他以强度、相似性和两极性划分情绪,构成了如图l - 4 所示的锥体模型。此模型 的八个扇面表示8 种基本情绪:狂喜、警惕、悲痛、惊奇、狂怒、恐惧、接受和憎恨。在 图中,基本情绪在二维空间中具有一定的定位,比如快乐属于高唤醒、高正性;悲伤属于 低唤醒,高负性。 酊 蠢1lr 图1 - 4p l u t e h i k 提出的情绪三维模式 在他绘制的空间模型图上,最上面的八个扇面里代表八种情绪,它们最强烈,居于顶 端,沿扇面向下,越靠近底部,这种情绪就越微弱。在扇面上越邻近的情绪性质上越相似, 7 东南大学硕士学位论文 距离越远,差异越大,互为对顶角的两个扇形中的情绪则是相互对立的。如憎恨和接受, 是对立的两种情绪,靠近憎恨的悲痛与其比较近似,靠近接受的喜悦在性质上与其也更为 接近。 1 2情感语音识别发展概述 1 2 1 情感计算概述 计算机科学技术的迅猛发展对人类社会产生了巨大影响,一场信息革命正在酝酿。在 众多领域,计算机正逐渐代替人类完成一些极具挑战性的任务,为了使人类与计算机间能 够更加智能更加自然的交互,新型的人机交互技术正逐渐成为研究热点。 赋予计算机或机器人以人类式的情感,使之具有表达、识别和理解喜、怒、哀、乐的 能力,是和谐人机交互环境的重要组成部分。在人们的日常生活、工作、交流、处理事务 和决策中,情感能力同正常的理性思维和逻辑推理能力一样扮演着重要的角色。神经生理 学家d a m a s i o 研究发现,由于控制逻辑推理的大脑皮层和控制情感的边缘系统之间通道 的缺损,病人尽管具有正常甚至超常的理性思维和逻辑推理能力,但严重阻碍了决策能力 的运用【1 6 】。美国学者g o l e m a n 也认为情感能力是人类智能的重要标志【1 7 】如果能够将计算 机赋予类似于人类的情感能力,能够进行情感计算,使计算机能感知和表达情感,将更好 的实现计算机发展以人为本、为人服务的原则。 情感计算作为一个崭新的领域,目前日益引起国内外各研究机构的重视。第一次提出 “情感计算”这个概念的美国m i t 媒体实验室情感计算研究小组的领导人p i c a r d 教授在 1 9 7 9 年他的专著“a f f e c t i v ec o m p u t i n g ( 情感计算) ”中给出:“情感计算是关于、产生于、 或故意影响情感方面的计算”,情感计算的目的是通过赋予计算机识别、理解、表达和适应 人的情感能力来建立和谐人机环境,并使计算机具有更高的,全面的智能【l 踟。 在情感计算领域,目前世界各国都在积极地开展相关研究,取得了诸多成果,其中以 美国m i t 媒体实验室的工作较为突出。我国也在逐步开展情感信息处理的研究,并引起了 国家有关部门的关注。例如,在国家自然科学基金1 9 9 9 年的项目指南中“和谐人机环境 中的情感计算理论研究”被列为重点项目。同时,中国科学院自动化所、心理所以及国内 众多高校在情感信息处理的研究上也取得了一定的进展。2 0 0 3 年1 2 月8 日至9 日,由中 国科学院自动化所组织,在北京举行了第一届中国情感计算与智能交互学术会议,会议中 展示了国内各研究机构近几年来从认知、心理、模式识别、系统集成等不同角度在情感计 算领域取得的研究成果,弥补了国内情感计算领域的空白。 情感计算的研究对象目前主要是生理参数、人脸表情、肢体语言和语音信号这几个方 面。在这几个对象中,生理参数是位于最底层的研究对象。它较少受到文化背景和社会环 境的影响,仅仅与人类个体有关,所以研究时的重点主要集中在生理特征( 皮肤电、心跳、 呼吸等) 上。对于面部表情和肢体语言而言,他们是人的情绪的一种外露表现形式,同样 具有跨文化、跨区域等性质。以往的研究证实,在面部表情和肢体语言方面猩猩和人类具 8 第一章绪论 有较多的相似性。然而对于语音信号则不同,由于语言是随着人类的长期进化演变而来, 包含了强烈的社会和文化背景,它具有了语言学和非语言学双重特征。不同肤色、不同语 种的人在存在语言隔阂时,无法通过语言来沟通,但是仍然可以通过面部表情和肢体语言 来达到一些基本的理解。这也说明了语音信号中所存在的信息是高于面部表情、肢体语言 这个层次的。 语音信号作为语言的声音表现形式,是人类交流信息最自然、最有效、最方便的手段。 语音信号中的情感信息是重要的信息资源,它是人们感知事物必不可少的部分。例如同样 一句话,由于说话人表现的情感不同,在听者的感知上就会有较大的差别,所谓“听话听 音”就是这个道理。然而,传统的语音信号处理技术把这部分信息作为模式的变动和差异 噪声通过规则化处理给去掉了。实际上,人们同时接受各种形式的信息,怎样有效的利用 各种形式的信息以达到最佳的信息传递和交流效果,是今后信息处理研究的发展方向。因 此语音情感信息的研究,分析语音中的情感特征、判断说话人的喜怒哀乐是一个具有重大 意义的研究课题。 随着情感语音信息处理的发展,国内外的研究者也做出了相当多的工作。在国际口语 处理大会i c s l p ( i n t e r n a t i o n a lc o n f e r e n c eo ns p o k e nl a n g u a g ep r o c e s s i n g ) 的论文集中,有 关这个方面的研究论文逐渐增多。i s c a ( i n t e r n a t i o n a ls p e e c hc o m m u n i c a t i o na s s o c i a t i o n ) 在 2 0 0 0 年专门组织了一个名为“e m o t i o na n ds p e e c h ”的w o r k s h o p ,以情感和语音作为研究 的主要内容。在国内,也有中科院自动化所、心理所以及微软亚洲研究院等机构开始了初 步的研究和探索。 1 2 2 国内外研究现状和存在的问题 针对语音情感的研究,目前还存在许多问题。2 0 0 0 年由i s c a 举办的i s c aw o r k s h o po n s p e e c ha n de m o t i o n ,第一次针对情感语音研究提出了一个研究的框架。他们将情感语音研 究分为情感的理论基础、情感数据源的获取、情感数据的处理工具、语音信号中的情感特 性以及情感语音信号处理的应用几个方面。 ( 一)情感的理论基础 对情感理论的研究是一切有关情感研究的基础,主要从生理学、心理学方面研究情感 的形成、情感的组成方式和表达方式,从而为情感分析提供一个正确的情感区分手段。情 绪理论的研究最早可以追溯到公元前5 世纪赫拉克利特( h e r a c l i t u s ) 对情绪的研究。随后, 许多世界知名哲学家包括亚里斯多德( a r i s t o t l e ) 、迪卡尔( d e s c a r t e s ) 和斯宾诺莎( s p i n o z a ) 等 都对情绪理论方面做出过一定的贡献。到上个世纪5 0 年代,几种颇有影响的学说开始从认 知的角度研究情绪的功能,并明确地提出情绪不仅不是非理性的,而且非常理性化,才开 创了情感理论研究的新局面。 ( 二) 情感数据源的获取 情感数据库是进行语音情感分析的基本要素。一个完备的数据库,是算法分析的必要 条件,但目前从整个世界的研究情况来看,数据库的建立还处在一个较低的水平,主要是 9 东南大学硕上学位论文 真实情感材料的获取非常困难,公开共享的数据库几乎没有,同时由于这些数据库从属于 不同的语系,使得基于各自数据库的研究成果也难以共享。目前对情感材料的获取主要有 表演型数据、真实环境中的数据和激励数据这几种,表演数据主要是利用演员进行带有情 感朗读而得到,在实验室条件下模拟不同的情感,容易控制:激励数据主要是通过一些方 式激发说话者的某种情感,然后录下该说话者所说的话。这些途径得到的数据材料各有其 优缺点,在大部分研究人员的工作中主要还是采用表演数据。 ( 三) 情感语音识别 情感数据处理的主要研究对象是语音信号中对应特征参数的提取问题,语音信号中的 情感特性则是研究特征参数和情感类型的对应关系,也就是模式识别的问题,两者在一起 即是情感语音识别问题。 a 特征选取 参考各类文献及各国工作人员的研究,针对情感识别所采用的特征几乎大都是韵律特 征,比如基音、强度和持续时间等,以及在这几种特征的基础上衍生出的大量参数,比如 这些基本特征的均值、范围、轮廓变化等,在部分文献中,也考虑了语音特征的情况,比 如共振峰信息等,但是从总的结果和应用的情况来看,在情感语音处理中所采用的特征总 是局限在一个较小的范围,而到底何种特征能够较好的反映情感的信息还没有明确的结论, 关于这些特征以及衍生特征的有效性评价也在同步的进行当中b 9 1 。 另外,心理学和生理学研究人员也有一些新的发现,比如b r a n k a l 2 0 l 在其博士论文中谈 到有机体的心理生理状态同语音的产生机制有关,它受到语言的环境因素( 比如词汇、重音 和结构等) 作用,在不同层次上影响语音所包含的情感:a l t e r l 2 1 等人研究了韵律和音质之间 的关系,发现生气和高兴时的发音在喘气和沙哑等方面是不同的,一些特定的元音在结构 上的变化直接依赖于情感,而另一些元音则依赖于句子中的位置及话者是否用错了重读模 式。 有的研究人员还从语言学的角度考虑语音信号中的情感,考虑句子的语义成分,利用 语句的语义和语法提供说话人的情感线索。比如c a u l d w e l l l 2 2 1 ,b j 6 ms c h u i l e r t 2 3 1 的研究。从 语言学的角度对说话人的情感进行分析不失为一种好方法,但也存在不足之处,首先,需 要大量的先验知识,而且要求说话的人发音要清晰,才能保证较高的识别率,另外在对句 子进行语义分析时,又需要相关的语言知识,这又给情感分析增加了一层难度,所以在现 阶段较难实现。 b 模式识别 在模式识别方面,各国研究人员在情感语音处理领域几乎利用了所有的手段,新方法 的应用和对比层出不穷2 们9 1 ,神经网络分类器、b a y e s 分类器、k 最近邻分类器、s v m 、 g m m 、h m m 分类器都有被使用,比如a m i r t 2 4 1 等人使用距离测量分类器取得了正常状态 7 0 、高兴7 6 、悲伤8 3 、生气6 1 的识别率,整体识别率大约7 0 ;d e l l a e r t t 2 5 】等人使 用基音轮廓线作为特征,利用最大似然b a y e s 分类器,k e r n e l 回归分类器和k 最近邻分类 1 0 第一章绪论 器,来区分悲伤、生气、高兴和害怕,达到6 0 - 6 5 的精度;t a r 0 1 2 6 j 等人讨论了利用更多韵 律学附加信息来拓展情感的维数,并通过实验展示了将“结构特征”作为“韵律学特征” 的附加来提高多类情感的分类效率,使用了s v m 作为分类器,作了四类( 喜、怒、悲、平 常) 情感的识别研究,最后实现了7 3 的平均识别率;t y a m a d a 2 7 】等用神经网络的方法对 四类情感语音( 悲伤、兴奋、欢乐和愤怒) 进行识别,达到7 0 的识别率:b j 6 ms c h u l l e r 对 将h m m 运用于情感语音的研究作了进一步分析【2 明,他采用两种方法,一种是从语音信号 的基音和能量轮廓中提取参数,用单一状态h m m 对全局统一参数进行计算;另一种方法 使用了连续的h m m ,用语音信号的瞬时特征来取代全局参数,均取得较好效果。 虽然在情感语音识别上的研究进行了很多,但整个情感语音信息处理领域还处在一个 较低的水平。因为首先提取的有效特征有限,几乎所有的研究人员都是采用韵律特征或这 些特征的组合或衍生特征作为分析参数,其次,对于模式识别的手段,虽然有很多不同的 应用方法,但是由于研究项目中使用的数据各异,而使得这些文献间类比的可能性很小, m a j ap a n t i c 2 9 l 对近几年的1 4 个情感语音文献的结果进行了对比,发现文献中的研究对象 差异很大,结果各异,仅从识别率而言,就形成了从5 3 到9 0 这样的悬殊,而且不能说 识别率高的那种方法就一定比识别率低的那种方法好,这是不具有可比性的。 所以,综合以上介绍,我们可以看到情感语音的识别还处于一个探索和研究的阶段, 很多很多的问题和困难需要解决,对该领域的突破需要所有研究工作者的共同努力。 ( 四) 语音情感应用 作为语音情感研究的最终目标,语音情感处理应用则是综合前面的研究手段,对实际 的语音信号进行处理分析,应用于不同的领域,满足不同的需要。 语音情感信息的处理可以有很多的用途,比如:在语音理解和语音会话系统方面,利 用讲者的情感信息可以大大提高识别正确率和效率;在智能计算机和多媒体技术方面,它 也是当前虚拟现实技术的关键之一,利用这一技术可以模仿各种特殊的声学环境;该技术 还以用在测谎、电子游戏和辅助心理治疗等方面,以后的运用前景将会更广。 1 3本文的主要工作 情感语音识别技术主要包括两个问题:一是采用语音信号中的何种特征作为情感识别, 也就是特征提取的问题,一是如何将特定的语音数据进行分类,也就是模式识别的问题。 ( 一) 特征提取 本文首先对语音信号进行了分析,分别从时域、频域、倒谱域进行分析,提取语音信 号的特征参数。表1 4 列出了本文中对基本参数提取方法的选择。 然后,本文依次分析了语音信号的振幅构造、时间构造、基频构造和共振峰构造的特 点和分布规律,并以此作为情感语音特征选取的依据。 东南大学硕士学位论文 表1 _ 4 特征提取中的参数和算法选择 参数 采样频率帧长( 点)窗型算法 劳征 ( k h z ) 振幅 l l 2 5 6矩形窗帧内累加 基音频率 l l2 5 6 矩形窗白相关法 共振峰 1 12 5 6 汉明窗l p c 法 ( 二) 模式识别 a 典型相关分析 典型相关分析主要讨论两组变量间的相关性问题,把两组变量之间的复杂相关关系化 简,通过少数几个综合变量来反映两组变量的相关性质,同时也保证这些变量之间互不相 关。 本文将典型相关分析的方法运用于情感语音识别当中,研究情感语音信号与情感语义 模型之间的关系。并利用核技巧,引入核典型相关分析的方法,研究了非线性空间的情感 语音识别。 b 偏最小二乘回归分析 偏最小二乘回归分析是一种新型的多元统计数据分析方法。该方法集多元线性回归、 典型相关分析和主成分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论