下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 基于改进型支持向量机的语音信号情感识别研究 胡明崔冉郭健鹏吴静然翟晓东Summary:语音信号包含了人类丰富的情感信息,本文从离散情感模型出发,选择了高兴、悲伤、愤怒和害怕4种基本情感作为研究对象,利用萤火虫算法实现了支持向量机参数自动寻优,从而提高了识别的效率。为了使测试数据更据代表性,选取了中文和德文数两种据库,400个样本进行训练和测试。实验表明,对SVM分類器进行优化在一定程度上提高了情感识别率。Key:语音信号;萤火虫算法;改进的支持向量机;情感识别:TP18 :A :1007-9416(2019)06-0109-020 前言机器情感这一研究领域从提出概念伊始,就伴随着伦理道德的疑
2、虑。而随着人工智能技术的发展,如何设计并实现一个具有情感识别的智能机器人显得尤为重要了。而其关键技术就是研究情感识别核心算法,不断提高识别的速度和准确率。目前情感识别研究领域中,最主要的途径就是通过对人的生理信息,例如声音信号、脉搏信号、脑电信号、面部表情、身体形态等一种信号分析或多种信号的多模分析,利用识别技术进行训练学习和类型识别判断。本文主要通过对语音信号的拾取、预处理、特征提取和类型识别,达到情感识别的目的,这一过程的核心是类型识别,也是近几年研究最多、成果最丰富的环节。本文利用改进的支持向量开展语音信号情感识别的研究,研究思路如图1所示。1 语音情感的分类人类的情感是一个复杂的系统,
3、属于心理学范畴,目前尚无一个统一的、标准的定义。人类的情感是人类对不同物理、事件体现出的反映,再通过人的语音、表情、动作、生理信号等各种外在的方式表达出来。各个国家心理专家、情感识别专家对情感有不同的分类依据和方法,主要有离散情感模型和纬度情感模型。离散情感模型,将人类的情感分为基本情感和复杂情感,且复杂情感是有基本情感的有机组合产生的,因此研究基本情感就显得尤为重要了。不同的心理学家将人类的基本情感进行了不同的分类,有的分为高兴和悲伤两种,而其它各种情感均是这两种情感的不同比例组合而成。而有的专家则将人的基本情感分为3-9种更加细腻的情感。纬度情感模型,则认为人的感情是连续的,不是离散的,主
4、要有二纬度情感模型和三维度情感模型,每个纬度分为正向积极方向和反向消极方向。本文主要从离散情感模型出发,重点研究公认的几种基本情感:高兴、悲伤、愤怒和害怕。2 语音情感的数据库样本选取语音情感的数据库是分析识别语音情感的前提。因为语言、方言、性别等因素不同,目前尚无公认的、统一的、标准语音数据库库。为了验证改进型支持向量机的准确率,本文选取两种语言的语音情感数据库:EMO-DB数据库和CASIA数据库1。2.1 CASIA数据库CASIA数据库是一个中文情感数据库,该数据库由中国科学院录制,分别录制了4名人员在6类不同情感(快乐、中性、愤怒、悲伤、害怕、惊讶)下的声音,采样频率16KHz,16
5、位AD采集量化,每种感情保留200句。根据本文设计需要,选取其中高兴(原数据库中的快乐)、悲伤、愤怒和害怕4类数据进行训练和测试,每类选取50句,如表1所示。2.2 EMO-DB数据库EMO-DB数据库是一个德语情感数据库,该数据库由柏林工业大学建立,是目前国际上相对标准和认可的数据库,分别录制了10名专业演员在7类不同情感(快乐、中性、愤怒、悲伤、恐惧、无聊、厌恶),共计录制800句,最终保留535句。根据本文设计需要,选取其中高兴(原数据库中的快乐)、悲伤、愤怒和害怕(原数据库中的恐惧)4类数据进行训练和测试,每类选取50句,如表2所示。3 语音信号的预处理语音信号具有随着时间变化而变化的
6、特性,而且是不稳定的,因此需要对语音信号进行预处理,从而去除干扰,获得高质量的信号2。语音信号的预处理过程如图2所示。考虑到小波变换处理语音信号时存在一定的局限性,本文采取了近期较为常用、不需要事先选定基函数的EMD算法对语音信号进行预处理,取得了较好的效果。4 语音信号情感特征参数的提取语音信号中的情感特征参数是其能表达感情的关键,包含了韵律特征、音质特征、基于谱的相关特征2。其中,韵律特征参数主要有语速、基因频率及短时能量,而音质特征参数主要有共振峰、声门参数,基于谱的相关特征参数主要有线性谱特征和倒谱特征。我们主要研究了梅尔频率倒谱系数(MFCC),基音周期,共振峰参数,短时过零率,短时
7、能量,能量抖动参数,时域及频域能量,平均功率,语速等参数,并通过对这些参数的分析,分别计算了它们的统计学特征,包括平均值、中位值、标准差、最小值、最大值、方差、变化率、一阶差分等。5 改进的支持向量机算法对语音信号情感的分类识别5.1 萤火虫算法优化支持向量机参数萤火虫算法(Firefly Algorithm,FA)是由Xin-she Yang教授于2008年提出的一种十分新颖的生物群智能优化算法,算法的灵感来源于对萤火虫群体行为的简化和模拟,一经提出就吸引了国内外大量学者的关注,是优化算法研究领域的热点之一3。本文选取FA算法对SVM的关键参数进行优化,建立FA-SVM模型4,主要流程如图3
8、所示。5.2 情感分类结果分析本文将从EMO-DB数据库和CASIA数据库中选取关于高兴、愤怒、悲伤、害怕等四类情感各50个,合计400个数据分别在SVM和FA-SVM模型中训练和测试,识别结果统计如表3所示。通过对表3的横向和纵向进行分析,可以得出,经过改进的支持向量机FA-SVM针对语音信号的情感识别率,比未经过优化的支持向量机的识别率有明显的改善,尤其是愤怒的识别最高,提高了11.1%,而高兴、 悲伤、害怕分别有4.1%、7.6%、5.6%的效果改善。Reference1 王艳,胡维平.基于BP特征选择的语音情感识别J.微电子学与计算机,2019,36(5):14-18.2 李晓琴.基于支持向量机的语音情感识别D.吉林:哈尔滨理工大学,2018.3 臧睿,李晶.基于维度加权的改进萤火虫算法J.计算机科学,2017,44(6A):123-125.4 曾建梅.改进的支持向量机用于脉搏信号的情感识别研究D.吉林:重庆理工大学,2016.数字技术与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年混凝土管桩购销协议版B版
- 沪科版九年级数学上册期末复习考点 第24章 圆知识归纳与题型突破(17类题型清单)
- 2024-2030年中国塑料中空成型机市场供需形势分析及未来发展策略研究报告
- 2024年版土地中介合同(精练)3篇
- 2024全新股东合作协议书下载:企业战略联盟与共同投资协议3篇
- 2024年三轮车维修保养及配件供应协议3篇
- 2024年桩基施工项目合作合同书版B版
- 2025年昆明货运资格证试题答案解析
- 2024年特定借款权让渡合同版B版
- 2025年陕西货运从业资格证考题500道
- DB65-T 4784-2024 冰川范围调查技术规范
- 药物化学智慧树知到答案2024年徐州医科大学
- 期末+(试题)+-2024-2025学年人教PEP版英语六年级上册
- 《物流信息技术与应用》期末考试复习题库(含答案)
- LNG加气站运营与维护方案
- 人教版数学六上第四单元《比》全单元教学设计
- 2024年下半年教师资格考试高中思想政治学科知识与教学能力测试试卷及答案解析
- LY/T 3371-2024草原生态状况评价技术规范
- 2024年中华全国律师协会招聘5人历年(高频重点复习提升训练)共500题附带答案详解
- 供货能力方案
- 四川2024年四川省公安厅招聘警务辅助人员186人笔试历年典型考题及考点附答案解析
评论
0/150
提交评论