




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、语音情感识别(语音情感识别(SER) 2021-6-292 目录目录 1. 1.SERSER背景背景 2. 2.SERSER应用应用 3. 3.SERSER发展与现状发展与现状 4. 4.SERSER流程流程 5. 5.情感理论和语音情感分类情感理论和语音情感分类 6. 6.情感语音数据库情感语音数据库 7. 7.情感语音特征情感语音特征 8. 8.SERSER方法方法 9. 9.SERSER研究举例研究举例 10.10.SERSER存在的问题及思考存在的问题及思考 11.11.主要参考文献主要参考文献 2021-6-293 1、 SERSER背景背景 2021-6-294 背景背景 主要用于
2、逻辑推理的计算机是否应该具有情感智能?主要用于逻辑推理的计算机是否应该具有情感智能? vMIT的的Minsky教授在教授在1985年的专著年的专著The Society of Mind 中指出:中指出:问题不在于智能机器能否有任何情感,而在于机器问题不在于智能机器能否有任何情感,而在于机器 实现智能时怎么能够没有情感。实现智能时怎么能够没有情感。 v情感计算情感计算:1997年年MIT媒体实验室的媒体实验室的Picard教授教授, Affective Computing,定义:与情感有关、由情感引,定义:与情感有关、由情感引 发或刻意影响情感的计算。现为研究热点。中国:王志良发或刻意影响情感的
3、计算。现为研究热点。中国:王志良 v情感计算包括情感计算包括3部分:部分:情感识别情感识别、情感理解、表示和计算、情感理解、表示和计算、 情感表达。情感表达。 其中,其中,SER:计算机通过语音判断人的情感:计算机通过语音判断人的情感 2021-6-295 语音情感识别语音情感识别 为什么研究语音情感识别呢?为什么研究语音情感识别呢? v语音是人与人之间沟通的重要手段,也是传递情感的重要媒语音是人与人之间沟通的重要手段,也是传递情感的重要媒 介,因而也就成为智能人机交互中人们期待的最为方便、自介,因而也就成为智能人机交互中人们期待的最为方便、自 然的交互方式之一。研究热点然的交互方式之一。研究
4、热点 2021-6-296 2、 SERSER应用应用 2021-6-297 应用应用 为什么我们需要为什么我们需要SERSER呢?呢? v服务业:服务业:电话通讯(呼叫中心)电话通讯(呼叫中心) v安全检测:安全检测:受害人呼救受害人呼救 v教育业:教育业:远程教学中的人文关怀,提高学习效率远程教学中的人文关怀,提高学习效率 v娱乐业:娱乐业:玩具(玩具(AIBO狗,狗,PLEO恐龙,小恐龙,小Q)、游戏)、游戏 v工业:工业:汽车(车载监控,安全性),手机,家电,情感香水喷射汽车(车载监控,安全性),手机,家电,情感香水喷射 器器 v医学:医学:情感虚拟人,情感交流情感虚拟人,情感交流 v
5、只要能够想到的地方只要能够想到的地方 2021-6-298 v小小Q vhttp:/ 2021-6-299 情侦宝情侦宝 v中科院自动化所中科院自动化所 v联通增值业务联通增值业务 2021-6-2910 3、 SERSER发展与现状发展与现状 2021-6-2911 发展与现状发展与现状 SEC是怎么发展起来的?谁在研究它?是怎么发展起来的?谁在研究它? v80年代末年代末90年代初,根据韵律控制人机年代初,根据韵律控制人机 会话的过程。会话的过程。 v90年代中后期开始快速发展。年代中后期开始快速发展。 2021-6-2912 国外国外 1.英国贝尔法斯特女王大学的情感语音组英国贝尔法斯特
6、女王大学的情感语音组 收集并创建了第一个大规模的高自然度声音情感数据库,收集并创建了第一个大规模的高自然度声音情感数据库,R Cowie, E Douglas-Cowie 教授,教授,2000年。重点研究心理学和语音分析。年。重点研究心理学和语音分析。 2.美国美国MIT媒体实验室情感计算研究所媒体实验室情感计算研究所 () Picard教授领导的情感计算组是世界上第一个大规模研究情感及其教授领导的情感计算组是世界上第一个大规模研究情感及其 计算的科研机构。计算的科研机构。 3.美国南加州大学语音情感组美国南加州大学语音情感组 (http:/
7、/emotion/index.php)Narnyana教教 授,情感语音的声学分析、合成和识别,以及有关笑声的授,情感语音的声学分析、合成和识别,以及有关笑声的 合成研究。合成研究。 2021-6-2913 国外国外 4、以色列、以色列Nemesysco公司公司 (http:/) 实际应用:以分层声音分析技术实际应用:以分层声音分析技术(LVA)在安全、在安全、 商业和个人娱乐领域为客户提供解决方案。商业和个人娱乐领域为客户提供解决方案。 5、日本、日本SGI研究院研究院 (http:/www.sgi.co.jp/solutions/bbu/ST/in dex.html
8、) 能感知人类情感的能感知人类情感的:KOTOHANA 2021-6-2914 国内国内 v普通话和西方语系有地域、文化差异,不能完全照搬。要研究普通话普通话和西方语系有地域、文化差异,不能完全照搬。要研究普通话SER 1.东南大学无线电工程系东南大学无线电工程系 赵力教授的实验小组在国内率先开展了普通话语音情感识别的研究,赵力教授的实验小组在国内率先开展了普通话语音情感识别的研究,2001,采用,采用PCA 南航电子工程系钱向民教授南航电子工程系钱向民教授 2.清华大学计算机科学与技术系清华大学计算机科学与技术系 蔡莲红教授领导的人机语音交互实验室蔡莲红教授领导的人机语音交互实验室 3.模式
9、识别国家重点实验室模式识别国家重点实验室 以陶建华博士为主的研究小组以陶建华博士为主的研究小组 4.台湾大同大学资讯工程学系台湾大同大学资讯工程学系 包苍龙教授领导的数据通讯与信号处理实验室包苍龙教授领导的数据通讯与信号处理实验室 v其他:其他:中科院自动化所中科院自动化所、中国社科院语言研究所、哈工大、浙大、华南理工、中国社科院语言研究所、哈工大、浙大、华南理工、 中科大、江苏大学等等中科大、江苏大学等等 2021-6-2915 期刊会议期刊会议 v国际语音通信协会国际语音通信协会(ISCA)每两年举办一次每两年举办一次Eurospeech和和Interspeech国际会议。国际会议。 v其
10、他会议:其他会议:ICASSP,ICSLP,ISCSLP 期刊:期刊: vpattern recognition,JCR-2 vIEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, JCR-1 vJOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, JCR-3 vSpeech Communication, JCR-4 vSignal Processing,JCR-3 vCOMPUTER SPEECH AND LANGUAGE,JCR-3 vIEEE Transactions on A
11、udio Speech and Language Processing,JCR-3 2021-6-2916 4、SERSER流程流程 2021-6-2917 SER流程流程 v语音情感数据库语音情感数据库 v预处理:预处理:A/D转换,高频部分预转换,高频部分预 加重(使信号频谱变得平滑)加重(使信号频谱变得平滑) v用窗函数分帧,如汉明窗用窗函数分帧,如汉明窗 v在每一个语音分析帧上提取瞬时在每一个语音分析帧上提取瞬时 特征特征,具体分为时域分析和变换,具体分为时域分析和变换 域分析。特征太多则需要域分析。特征太多则需要降维降维。 v训练,训练,可看成分类器,模式分类可看成分类器,模式分类
12、v识别,模式匹配,分类识别,模式匹配,分类 2021-6-2918 5、情感理论和语音情感分类、情感理论和语音情感分类 SERSER的前提的前提 2021-6-2919 情感理论和语音情感分类情感理论和语音情感分类 什么是情感?如何划分情感类型?什么是情感?如何划分情感类型? v情感属于人类经验的一个基本方面,它在人类使情感属于人类经验的一个基本方面,它在人类使 用文字符号前就早已存在,因此很难给出情感定用文字符号前就早已存在,因此很难给出情感定 义,因此划分情感类型也颇有争论。主要有义,因此划分情感类型也颇有争论。主要有以下以下 分类方法分类方法: 1.基本情感和复合情感基本情感和复合情感
13、2.情感空间模型情感空间模型 3.情感轮情感轮 4.三级情感模型三级情感模型 一般认为有六大类基本情感:一般认为有六大类基本情感: 恐惧恐惧(fear) (fear) 生气生气(anger)(anger) 高兴高兴(happiness)(happiness) 悲伤悲伤(sadness)(sadness) 吃惊吃惊(surprise)(surprise) 厌恶厌恶(disgust) (disgust) 复合情感由基本情感变化或混合得到复合情感由基本情感变化或混合得到情感的情感的 调色板理论调色板理论 1、基本情感和复合情感、基本情感和复合情感 2021-6-29 2021-6-2921 2、情感
14、空间模型、情感空间模型 v情感之间是连续和渐变的过程情感之间是连续和渐变的过程 v激励激励评价评价强度空间模型强度空间模型 v激活度或唤激活度或唤 醒度醒度 v评价度或愉评价度或愉 悦度悦度 v强度维度或强度维度或 控制维控制维 2021-6-2922 3、情感轮、情感轮 v情感用情感矢量情感用情感矢量E表示表示 v情感强度:情感强度:E幅度幅度 v情感方向:情感方向:E角度角度 v中心:没有情感中心:没有情感 v常用这八种情感常用这八种情感 2021-6-2923 4、三级情感模型、三级情感模型 v按照情感中表现的主动和被动的程度,由粗按照情感中表现的主动和被动的程度,由粗 到细。到细。 2
15、021-6-2924 6、情感语音数据库、情感语音数据库 SERSER的基础和对象的基础和对象 因为现阶段的因为现阶段的SERSER系统大多是基于语料库的统系统大多是基于语料库的统 计学习来实现的计学习来实现的 2021-6-2925 情感语音数据库情感语音数据库 有哪些现成的情感语音数据库呢?有哪些现成的情感语音数据库呢? v包括多种语言多个不同年龄不同性别说话者的大规模情感语音库至今还没有。包括多种语言多个不同年龄不同性别说话者的大规模情感语音库至今还没有。 1、Belfast英语情绪语料库英语情绪语料库 引导语料:由引导语料:由50位说话人根据引导文本,表达愤怒、恐惧、高兴、悲伤和中性这
16、五位说话人根据引导文本,表达愤怒、恐惧、高兴、悲伤和中性这五 种情感状态。种情感状态。 自然语料:从电视访谈节目中选取剪辑的自然语料:从电视访谈节目中选取剪辑的125位说话人的多种情感。位说话人的多种情感。 2、CREST情绪语料库情绪语料库 日本的国际电气通信基础技术研究所日本的国际电气通信基础技术研究所(ATR)录制,包含完全自然状态下的录制,包含完全自然状态下的1000小时情小时情 感语音,其中感语音,其中60%是日语语料,汉语和英语语料各占是日语语料,汉语和英语语料各占20%。 3、丹麦语情感语音库、丹麦语情感语音库 包括包括5种情感种情感:高兴、生气、惊奇、悲伤、平静。共高兴、生气、
17、惊奇、悲伤、平静。共260条语音。条语音。 2021-6-2926 情感语音数据库情感语音数据库 4、柏林情感数据库、柏林情感数据库 引导型情感语音。日常交流中常用的十个德语语句,共引导型情感语音。日常交流中常用的十个德语语句,共800句语句,含七种情感:句语句,含七种情感: 中性、愤怒、恐惧、高兴、悲伤、厌恶和惊奇。中性、愤怒、恐惧、高兴、悲伤、厌恶和惊奇。 5、汉语普通话情感语音数据库、汉语普通话情感语音数据库 (1)由中国科学院自动化研究所提供,所有的情感语料由专业和非专业人员)由中国科学院自动化研究所提供,所有的情感语料由专业和非专业人员 模仿情感进行录制,共模仿情感进行录制,共960
18、0条语音,包括条语音,包括6种情感种情感:高兴、生气、惊奇、恐惧、高兴、生气、惊奇、恐惧、 悲伤、平静。悲伤、平静。 (2)东南大学无线工程系制作完成,表演型情感语音。由)东南大学无线工程系制作完成,表演型情感语音。由10名善于表演的男名善于表演的男 性话者对性话者对4个语句分别用喜、怒、惊、悲四种情感各发音三次收集到情感语个语句分别用喜、怒、惊、悲四种情感各发音三次收集到情感语 句句480句。句。 v其他包括西班牙语、瑞典语、荷兰语等等。微软研究院,浙大其他包括西班牙语、瑞典语、荷兰语等等。微软研究院,浙大CCNT实验室的实验室的 MASC 2021-6-2927 情感语音数据的获取方法情感
19、语音数据的获取方法 自己怎样获取语音情感数据呢?自己怎样获取语音情感数据呢? v比较困难,方法:比较困难,方法: 1.演员表演:想象,朗读。一句话多种情感,去除语义的影演员表演:想象,朗读。一句话多种情感,去除语义的影 响。响。 2.虚拟环境中诱发情感:例如玩游戏。虚拟环境中诱发情感:例如玩游戏。 3.现实生活:最真实,较困难。现实生活:最真实,较困难。 4.广播、电视、媒体广播、电视、媒体 2021-6-2928 情感语音数据的获取的原则情感语音数据的获取的原则 vDouglas-Cowie提出了情感数据库建立必须依据的四个原则:提出了情感数据库建立必须依据的四个原则: v真实性真实性,数据
20、库中的素材应是人们所经历过的真实的情感,数据库中的素材应是人们所经历过的真实的情感 体验。体验。 v交互性交互性,数据库中的情感素材应是人们在人与人之间交互,数据库中的情感素材应是人们在人与人之间交互 过程中产生的,这样更接近于语音情感人机交互的目的。过程中产生的,这样更接近于语音情感人机交互的目的。 v连续性连续性,情感素材应在连续的情感场景中发生,存在着多,情感素材应在连续的情感场景中发生,存在着多 种情感状态的转移。种情感状态的转移。 v丰富性丰富性,数据库中的情感素材应尽可能地包含多媒体信息,数据库中的情感素材应尽可能地包含多媒体信息, 如声音,表情等。如声音,表情等。 2021-6-
21、2929 女:我从火车站怎么到你那?女:我从火车站怎么到你那? 男:我到火车站接你。(男:我到火车站接你。(正常正常,Level 0)。)。 女女:不,谢谢。告诉我去的路就行。:不,谢谢。告诉我去的路就行。 男男:我到火车站接你。(:我到火车站接你。(有点不高兴有点不高兴,Level 1)。)。 女女:只要告诉我去的路,我自己能去。:只要告诉我去的路,我自己能去。 男男:我到火车站接你!(:我到火车站接你!(有点急躁有点急躁,Level 2)。)。 女女:我自己去。:我自己去。 男男:我到火车站接你!(:我到火车站接你!(生气生气,Level 3)。)。 女女:你真要来接我呀?:你真要来接我呀
22、? 男男:我到火车站接你!(:我到火车站接你!(愤怒愤怒,Level 4)。)。 例如例如 2021-6-2930 7、情感语音特征、情感语音特征 不同的情感,不同的语音特征不同的情感,不同的语音特征 2021-6-2931 情感语音特征情感语音特征 不同情感对语音产生了什么影响?可以通过哪些特征反映出来呢?不同情感对语音产生了什么影响?可以通过哪些特征反映出来呢? v韵律特征:韵律特征:最主要的语音情感特征。如语速、音量、音调等,例最主要的语音情感特征。如语速、音量、音调等,例 如发怒时,都会增加。如发怒时,都会增加。 v语音特征:语音特征:振幅、共振峰频率、振幅、共振峰频率、基音基音频率、
23、持续时间等频率、持续时间等 2021-6-2932 特征应该具有的特点特征应该具有的特点 1.区分性。区分性。特征应具有很高的区别情感的能力,而在同类的情感语音发特征应具有很高的区别情感的能力,而在同类的情感语音发 生变化时保持相对稳定。生变化时保持相对稳定。 2.鲁棒性。鲁棒性。当语音受到诸如传输通道、噪声等的影响时,特征对这些影当语音受到诸如传输通道、噪声等的影响时,特征对这些影 响的敏感性较小。响的敏感性较小。 3.可表示性。可表示性。只有转化为易于计算机表示和计算的特征才能用于自动语只有转化为易于计算机表示和计算的特征才能用于自动语 音情感识别。音情感识别。 4.提取的效率。提取的效率
24、。特征提取的时间应越快越好,对于实时性要求较高的场特征提取的时间应越快越好,对于实时性要求较高的场 合特征提取的效率尤为重要。合特征提取的效率尤为重要。 2021-6-2933 情感语音特征情感语音特征 v情感语音特征的具体提取方法情感语音特征的具体提取方法 教材教材P85 v注意事项:注意事项: 韵律特征和语音特征要结合韵律特征和语音特征要结合 分析情感语音和分析情感语音和平静语音平静语音相对关系,找出这种相相对关系,找出这种相 对特征的构造、特点和分布规律。以消除语义影对特征的构造、特点和分布规律。以消除语义影 响。响。 2021-6-2934 8、 SERSER方法方法 SERSER本质
25、上属于模式识别本质上属于模式识别 2021-6-2935 SER方法方法 哪些模式识别的方法可用于哪些模式识别的方法可用于SER呢?哪些分类算法?呢?哪些分类算法? 1.PCA 2.决策树决策树 3.ANN 4.K近邻近邻 5.GMM 6.VQ、DTW、HMM 7.朴素贝叶斯朴素贝叶斯 8.SVM 9.集成学习算法:多个子分类器组合成一个模型,如集成学习算法:多个子分类器组合成一个模型,如Boosting, Bagging 10.EA、GA 11.半监督学习半监督学习 2021-6-2936 PCA 1 1、进行、进行规范化规范化处理,即将数据都转化为标准正态分布序列。处理,即将数据都转化为标
26、准正态分布序列。 2 2、假设有假设有M个样本信号,个样本信号,S个特征参数,个特征参数,J种情感类别。例如:种情感类别。例如:J=6,S=8。 分别计算第分别计算第s个特征参数相对于不同的情感类别个特征参数相对于不同的情感类别j所具有的所具有的均值均值js和标准和标准 差差js,并计算:,并计算: 第第s s个特征参数在情感类别中的个特征参数在情感类别中的分离性分离性: 集中性集中性: 辨别能力辨别能力: 3 3、对、对S S个参数按个参数按H Hs s由大到小排序,取前由大到小排序,取前q q个作为识别用特征。个作为识别用特征。 4 4、求出每种情感类别训练样本主元素特征矢量集的、求出每种
27、情感类别训练样本主元素特征矢量集的重心和方差重心和方差。 5 5、待识别样本的主元素向量和各类别重心的、待识别样本的主元素向量和各类别重心的马氏距离马氏距离,距离最近的即为识,距离最近的即为识 别结果。别结果。 2021-6-2937 识别引擎实例识别引擎实例 v中科院语音情感识别引擎中科院语音情感识别引擎 vhttp:/ v评价指标评价指标 识别率识别率 计算效率计算效率 2021-6-2938 9、SERSER研究举例研究举例 黄程韦黄程韦, 赵艳等赵艳等. 实用语音情感的特征分析与识别的研究实用语音情感的特征分析与识别的研究. 电子与信息学报电子与信息学报, 2011,33(1) 202
28、1-6-2939 语音情感数据的采集语音情感数据的采集 v语音情感数据的语音情感数据的采集采集:通过计算机游戏诱发情感。愉悦、烦躁、平静:通过计算机游戏诱发情感。愉悦、烦躁、平静 v依据依据:在实验心理学中,计算机游戏通过画面和音乐的视觉、听觉刺激,:在实验心理学中,计算机游戏通过画面和音乐的视觉、听觉刺激, 能提供一个互动的、具有较强感染力的人机交互环境,能够有效地诱发能提供一个互动的、具有较强感染力的人机交互环境,能够有效地诱发 出被试人员的正面与负面的情感。特别是在游戏接连胜利时,被试人员出被试人员的正面与负面的情感。特别是在游戏接连胜利时,被试人员 由于在游戏虚拟场景中的成功与满足,被
29、诱发出喜悦的情感;在游戏连由于在游戏虚拟场景中的成功与满足,被诱发出喜悦的情感;在游戏连 续失败时,被试人员在虚拟场景中受到挫折,容易引发包括烦躁在内的续失败时,被试人员在虚拟场景中受到挫折,容易引发包括烦躁在内的 负面情感。在进行较长时间的实验过程中,重复性的游戏操作和失败,负面情感。在进行较长时间的实验过程中,重复性的游戏操作和失败, 能顺利地诱发烦躁情感。能顺利地诱发烦躁情感。 v对于对于语句文本语句文本的设计,考虑到烦躁等实用语音情感识别的一个主要应用的设计,考虑到烦躁等实用语音情感识别的一个主要应用 领域为长期的航空、航天和航海任务所引发的负面情绪的评估,领域为长期的航空、航天和航海
30、任务所引发的负面情绪的评估,20句无句无 情感倾向性的工作用语短句选自国际海事组织情感倾向性的工作用语短句选自国际海事组织(IMO)发布的发布的标准航海标准航海 通信用语通信用语(SMCP)。 2021-6-2940 特征提取特征提取 v使用了使用了74个全局统计特征,前个全局统计特征,前36个为个为韵律特征韵律特征,后,后38个特征为个特征为音质特征音质特征。 韵律特征主要和韵律特征主要和激活度激活度的相关性较大,音质特征与的相关性较大,音质特征与愉悦度愉悦度的相关性较大的相关性较大 v特征特征1-10:短时能量及其差分的均值、最大值、最小值、中值、方差;:短时能量及其差分的均值、最大值、最
31、小值、中值、方差; v特征特征11-25:基音及其一阶、二阶差分的均值、最大值、最小值、中值、:基音及其一阶、二阶差分的均值、最大值、最小值、中值、 方差;方差; v特征特征26:基音范围;:基音范围; v特征特征27-36:发音帧数、不发音帧数、不发音帧数和发音帧数之比、发:发音帧数、不发音帧数、不发音帧数和发音帧数之比、发 音帧数和总帧数之比、发音区域数、不发音区域数、发音区域数和不发音帧数和总帧数之比、发音区域数、不发音区域数、发音区域数和不发 音区域数之比、发音区域数和总区域数之比、最长发音区域数、最长不音区域数之比、发音区域数和总区域数之比、最长发音区域数、最长不 发音区域数;发音区
32、域数; 2021-6-2941 特征提取特征提取 v特征特征37-66:第:第1、第、第2、第、第3共振峰及其一阶差分的共振峰及其一阶差分的 均值、最大值、最小值、中值、方差;均值、最大值、最小值、中值、方差; v特征特征67-69:250 Hz以下谱能量百分比、以下谱能量百分比、650 Hz以以 下谱能量百分比、下谱能量百分比、4 kHz以上谱能量百分比。以上谱能量百分比。 v特征特征70-74:谐波噪声比:谐波噪声比(HNR)的均值、最大值、最的均值、最大值、最 小值、中值、方差。谐波噪声比用来做为反映情感小值、中值、方差。谐波噪声比用来做为反映情感 变化的音质特征。变化的音质特征。 20
33、21-6-2942 降维降维 v采用采用fisher准则进行特征评价,选择前准则进行特征评价,选择前10个个 最佳特征。最佳特征。 2021-6-2943 可拒判的识别方法可拒判的识别方法 v拒判:实际环境中情感具有模糊和不确定性,存在不属于任何拒判:实际环境中情感具有模糊和不确定性,存在不属于任何 一种情感的情况。一种情感的情况。 v方法:方法:GMM+似然概率模糊熵似然概率模糊熵 v采用采用GMM对烦躁、喜悦和平静对烦躁、喜悦和平静3种情感进行建模,每种情感对种情感进行建模,每种情感对 应一个应一个GMM模型,通过最大后验概率准则判决。模型,通过最大后验概率准则判决。 vxi表示第表示第i
34、条语句样本,条语句样本,j表示情感类别表示情感类别j,最大后验概率可以表,最大后验概率可以表 示为:示为: vP(xi|j)通过每个情感的通过每个情感的GMM模型得到。模型得到。 vP(j)=1/C,1jC v待识别的样本判决为:待识别的样本判决为: 2021-6-2944 可拒判的识别方法可拒判的识别方法 v待识别的样本到达时,分别通过待识别的样本到达时,分别通过C种情感的种情感的 GMM模型,得到模型,得到C个个GMM似然概率密度值,似然概率密度值, 以以GMM似然概率密度值映射到似然概率密度值映射到0到到1之间作为之间作为 第第i个样本归属于第个样本归属于第j个情感类别的隶属度个情感类别
35、的隶属度 j(xi): 2021-6-2945 可拒判的识别方法可拒判的识别方法 v整理一下:整理一下: v对烦躁、喜悦和平静对烦躁、喜悦和平静3种情感类别的种情感类别的GMM模型,可以得到模型,可以得到3个个GMM似然似然 概率密度值,分别代表样本与概率密度值,分别代表样本与3个情感类别的符合程度。似然概率密度个情感类别的符合程度。似然概率密度 值构成的判决集合的模糊熵越高表示样本属于烦躁、喜悦和平静值构成的判决集合的模糊熵越高表示样本属于烦躁、喜悦和平静3种情种情 感的不确定程度越大,当模糊熵超过一定阈值感的不确定程度越大,当模糊熵超过一定阈值Th时则发生拒判,常数时则发生拒判,常数K 取
36、取/2。 v其中其中Th为实验中确定的模糊熵阈值。阈值的选取既要保证待识别的目标为实验中确定的模糊熵阈值。阈值的选取既要保证待识别的目标 情感类别得到正确的识别,又要兼顾未知的样本不确定的情感得到拒判。情感类别得到正确的识别,又要兼顾未知的样本不确定的情感得到拒判。 2021-6-2946 实验测试和结果实验测试和结果 2021-6-2947 10、SER存在的问题存在的问题及思考及思考 2021-6-2948 SER存在的问题存在的问题 (1)情感语音情感语音语料语料有效的获取方法。有效的获取方法。 (2)情感定义情感定义不明确,人们尚未对情感分类标准达成共识,不便于计算机语言描述。不明确,
37、人们尚未对情感分类标准达成共识,不便于计算机语言描述。 (3)尚未找到简单、可靠的语音尚未找到简单、可靠的语音情感特征情感特征参数。语音信号中包含除情感信息外的其它参数。语音信号中包含除情感信息外的其它 信息,并且,语音情感信息容易受环境、生理、心理、文化背景、语境、语义信息,并且,语音情感信息容易受环境、生理、心理、文化背景、语境、语义 等因素的影响。等因素的影响。 (4)情感情感特征的准确提取特征的准确提取是语音情感识别中的难点,例如基音周期的准确提取方法。是语音情感识别中的难点,例如基音周期的准确提取方法。 (5)缺乏高效、稳定的语音缺乏高效、稳定的语音情感识别算法情感识别算法,大多数算
38、法对实验数据的依赖性较强,鲜,大多数算法对实验数据的依赖性较强,鲜 有文献从算法机理上进行分析比较。有文献从算法机理上进行分析比较。 (6) 很多结论和方法都有其特定的适用条件,对这些研究成果很多结论和方法都有其特定的适用条件,对这些研究成果优化组合优化组合是一个重要是一个重要 的课题。的课题。 (7)评价评价时,需要大量的仿真测试,目前缺乏开发出合理有效的系统平台来完成这些时,需要大量的仿真测试,目前缺乏开发出合理有效的系统平台来完成这些 测试任务。测试任务。 2021-6-2949 11、主要参考文献、主要参考文献 2021-6-2950 学位论文学位论文 v1 赵腊生赵腊生. 语音情感特
39、征提取与识别方法研究语音情感特征提取与识别方法研究. 大连理工大连理工 大学博士学位论文大学博士学位论文, 2010 v2 陆捷荣陆捷荣. 基于流形学习与基于流形学习与D-S证据理论的语音情感识别研证据理论的语音情感识别研 究究. 江苏大学硕士学位论文江苏大学硕士学位论文, 2010 v3 刘佳刘佳. 语音情感识别的研究与应用语音情感识别的研究与应用. 浙江大学博士学位浙江大学博士学位 论文论文, 2009 v4 陈佳陈佳. 语音信号情感识别语音信号情感识别. 中南大学硕士学位论文中南大学硕士学位论文, 2008 2021-6-2951 学位论文学位论文 v5 谢环谢环. 基于特征选择与融合的语音情感识别研究与实现基于特征选择与融合的语音情感识别研究与实现, 南京航空航天大学硕士学位论文南京航空航天大学硕士学位论文, 2008 v6 尤鸣宇尤鸣宇. 语音情感识别的关键技术研究语音情感识别的关键技术研究. 浙江大学博士浙江大学博士 学位论文学位论文, 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 间出租全套物品合同范本
- 税务服务类合同补充协议
- 福田指标房买卖合同协议
- 美术培训授课合同协议书
- 笔记本定制采购合同范本
- 生产安全施工协议书模板
- 混凝土地泵租赁合同范本
- 电子合同买卖协议书范本
- 精装房材料工程合同范本
- 股东借款给公司合同范本
- 消夏啤酒节活动方案
- 油库及加油站典型事故案例分析
- YY 0026-1990热风循环烘箱
- 肩周炎的康复PPT通用课件
- GB/T 9766.3-2016轮胎气门嘴试验方法第3部分:卡扣式气门嘴试验方法
- GB/T 21923-2008固体生物质燃料检验通则
- GA/T 41-2019道路交通事故现场痕迹物证勘查
- 杭州市高层次人才分类认定申请表-
- 江苏医疗机构设置审批申请表
- 人教版二年级下册《有余数的除法》教学设计公开课
- 某某医院猴痘培训试题含答案
评论
0/150
提交评论