




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多模态情感分析方法研究目录TOC\o"1-3"\h\u1引言 摘要:在社交媒体和互联网兴起的时代,人们在日常生活中产生的大量文本、图像、音频和视频等蕴含着丰富的情感信息的数据,通过这些数据来分析用户的情感状态便具有了重要意义。而在情感计算领域,多模态情感分析是一个重要研究方向,旨在通过综合文本、声音和视频等多种模态信息来更准确地理解和识别人类情感。本文提出了一种基于文本、声音、视频的多模态情感分析框架。首先,我们利用自然语言处理技术、声学特征提取方法和图像处理技术分别从文本、声音和视频中提取情感相关特征。然后,通过深度学习模型实现多模态数据的融合,并构建情感分类器进行情感识别。实验结果表明,与单一模态对比,多模态融合对于情感分析的准确性有很大地提升。本研究的成果可应用于社交媒体分析、人机交互、情感驱动的推荐系统等领域,具有广泛的应用前景。关键词:多模态;情感分析;1引言1.1情感分析研究目的和研究意义长期以来,人们致力于让计算机有效地与人类进行智能交互,就像许多科幻电影中的人工智能机器人,例如电影《钢铁侠》中的奥创机器人一样,不仅能拥有自我意识,甚至能在价值问题上也有了自己独立的见解。虽然目前这样的的机器人尚未完全实现,但是现实的人工智能已经有了飞速的发展,为此,计算机不仅需要识别自然语言,还需要通过这些语言准确地分析出其中蕴含的情感信息,因此,情感分析也成为了如今人工智能领域的热门方向[1]。情感分析,也称为情绪分析或意见挖掘,是自然语言处理(NLP)、文本挖掘和计算语言学的一个分支,其主要步骤包括对原始数据的情感特征提取,获取特征与情感标签之间的映射关系,预测数据中的情感类别并根据预测结果进行判断[2],旨在识别和提取文本中的主观信息。情感分析的重要性体现在其能够帮助人们理解个体或群体的情绪倾向、情感状态和意见,进而在商业智能、市场研究、公共关系、政治分析等领域发挥重要作用。早期的情感分析大多数是基于单模态或者双模态,并且主要聚焦于文本数据,如今,在许多行业中,基于文本的情感分析已经成为了一种常见的解决方案。它被广泛应用于电影票房业绩预测、股市业绩预测、选举结果预测等领域,但依靠文本数据是不能完全提取人类表达的所有情感,例如在模型对单一文本模态中“干得漂亮”一词的分析通常是积极的,但是如果加上夸张或带有讽刺的表情,就很可能变成消极的情绪,这时候多模态情感分析就被提出来解决这个问题[3]。多模态数据中蕴含着复杂的情感信息,应用传统单一模态的情感分析技术难以正确判别,需要将文本、声音、视频等不同类型的数据,经过提取模态特征和利用特征融合对模态进行处理,进而得到多模态特征并进一步分析获得情感极性分类。因此依靠多模态技术进行对复杂情感进行正确分析显得至关重要。传统多模态情感分析普遍应用的技术是分别提取单模态的低级特征,然后将特征表示经过特征融合获得多模态信息的联合表示,最后通过分类获得情感极性[4]。该做法保证了多模态数据的信息完整度,但是由于多模态的异质性,模态贡献度存在差异,模态各自含有的噪声信息以及模态融合后的冗余信息会对最终的分类结果造成干扰。2015年发布的一项多模态情感分析调查报告显示,多模态系统始终比最好的单模态系统更准确。在如今社交媒体、在线评论和数字通信兴起的时代,情感分析成为了一种重要的数据分析工具,能够帮助企业和组织洞察消费者情绪、监测品牌声誉、改进产品和服务,以及制定更有效的营销策略。1.2国内外研究现状情感分析一直是热门的研究课题,在语音识别(ASR)、自然语言处理(NLP)、计算机视觉(CV)等领域都有着很高的研究价值。但是基于单模态的情感分析难以应用复杂的多媒体环境,因此需要综合多种模态进行融合分析。本节通过介绍目前单模态与多模态在国内外的研究情况,梳理情感分析发展至多模态的脉络。1.2.1基于单模态研究现状首先,模态是指人接受信息的方式[5],在单模态情感分析领域,国内外诸多学者已经做了非常多的工作,文本、语音、图像模态的情感分析研究硕果累累,目前大多数情感分析的相关工作是以单一模态信息作为研究对象[6],且大多都基于传统的机器学习和深度学习来实现。单模态情感分析不需要考虑与其他情感信息的联系,因此获取数据相对容易且有针对性,但单一模态的识别准确性可能会略有逊色,且自身信息的噪声影响和被攻击带来的信息缺失也难以克服[7]。(1)文本情感分析原理文字是人们生活日常抒发情感最常用也是最基本的表达方式,中华文化博大精深,有着五千多年的历史文化,其中流传着许多的诗词歌赋,正是通过这些富有情感意义的诗词,将诗人笔下所描绘情感与意境在现代艺术中依然能展现出当时人们的思想情感与艺术魅力,因此,文本模态中所蕴含着的情感信息数据是庞大的,在情感分析领域,文本情感分析一直是最早和最成熟的研究方向之一。在早期的研究阶段,基于词典和规则的方法是使用频率较高的文本分析方法,利用匹配情感词典中的词汇来判断文本的情感倾向,由于需要人为地创建情感词典库,因此规模大都在几千词范围,规模小。情感词典库中包括积极和消极情感词的词典,或者是包含厌恶、恐惧、喜悦、愤怒、内疚、悲伤、羞耻等情感词的词典,英文情感词典库主要有WordNet-Affect。在目前研究阶段来看,机器学习算法方面,例如支持向量机、贝叶斯等方法。在深度学习方面,有着卷积神经网络、长短期记忆网络、注意力机制甚至是基于Transformer的预训练模型(如BERT、GPT等)等方法,这些方法都能够更好地捕捉文本的语义和情感信息,使得在自然语言处理领域发展迅速(2)声音情感分析原理声音情感分析旨在识别和分析人声中的情感特征,与文本的固定表达情感的方式不同,声音所蕴含的情感信息会受到不同程度因素的影响,例如人声的高低起伏、语速的快慢、音质差异甚至是方言等难以统一的因素,对于情感分析任务来说是一个艰难的挑战。甚至有时语音数据并不是那么完美,往往参杂了各种杂音和噪声,这使得机器识别起来更加复杂,在声音情感分析方法上,主要依赖于声学特征提取,如基频、能量、声谱特征等。早期研究人员利用隐藏半连续马尔可夫模型、遗传算法和高斯混合模型等机器学习和最优化算法进行语音情感判断并得到了较高的准确率。这些研究方法虽然扩宽了语音数据的特征提取角度,语音情感分析得以起步发展,但这些方法仍然没有摆脱繁琐的特征构建问题。随着机器学习和深度学习技术的兴起与运用,卷积神经网络和循环神经网络等神经网络模型相继被用作声音情感分析,这些模型能够更有效地处理声音信号,并从中提取情感相关的特征。使得声音情感分析的准确性得到了显著提升。(3)视频情感分析原理视频情感分析综合考虑了视觉和听觉两个模态的信息,旨在识别视频内容中的情感表达。成语“喜怒形于色”,形容一个人的情绪都写在脸上,这个成语具体指人内心的喜怒哀乐等情绪都会通过面部表情来表现出来,无法隐藏。因此,在视觉方面,表情是最能直观地体现一个人的情绪表现方法,在进行视频情感分析时,主要考虑人类面部表情的细微变化,也就是针对视觉方面进行分析。在早期的研究当中,研究人员提出了尺度不变特征变换、基于Gabor特征相位和定向梯度直方图等方法提取图片特征。在传统机器学习方面,Datta等人[13]将几何和纹理特征串联作为输入,通过SVM实现面部表情的分类,实验证明了联合特征的有效性。Liu等人[14]基于表情单元进行建模,提取密集的低层特征形成的时空流形提升判断效果。视频情感分析的关键挑战在于如何有效地提取和融合视觉特征(如面部表情、肢体动作)和声音特征。深度学习技术的发展,为计算机视觉领域提供了新能源,在视频情感分析中得到了广泛应用。特别是卷积神经网络(CNN)和循环神经网络(RNN)的结合模型对于图像特征能够有效地处理数据,并从中提取情感相关的特征,大大地提高了情感分析的准确率。1.2.2基于多模态研究现状由于人的情感表达是多种多样的,具有多种模态的,倘若只通过单一模态进行分析,一定会存在局限性,相同的文字,加上不同的面部表情和声音语调,得到的情感反馈往往可能大不相同。基于现实生活中,不同的场景有不同的需要,研究者将通过联合文本、声音、视频三种模态,利用不同模态特征的多样性,构建情感分析模型,挖掘接近现实的真实情感。相较于单模态方法,多模态情感分析通过整合更多样化的信息源,能够更全面地捕捉情感细节,从而提升情感识别的精确度与鲁棒性。因此,在多模态情感分析领域,全球许多知名机构进行了深入研究。例如,麻省理工学院的MIT媒体实验室专注于研究人机交互、媒体技术以及多模态感知等方面,涵盖了多模态情感分析的相关研究。斯坦福大学在自然语言处理、计算机视觉和机器学习等领域具有强大的研究实力,其中也包括多模态情感分析。牛津大学的计算语言学小组和计算机视觉小组等团队在多模态情感分析领域开展了研究。在国内,有一些机构也在多模态情感分析领域进行了研究,例如中国科学院自动化研究所在智能语音与语言理解实验室、清华大学计算机科学与技术系的多媒体实验室、上海交通大学计算机科学与工程系、北京大学计算机科学技术研究所的自然语言处理与人机对话实验室,都在不同程度上对文本、声音和视频等多模态数据情感分析进行研究。多模态情感分析是指综合运用文本、声音、视频等类型不一的模态信息数据进行情感的识别和分析。随着多媒体技术的发展及智能设备的普及化,人们在社交平台上使用文本、图片和视频等多种模式表达情绪的情况日益增多。与单一模态的区别在于,多模态分析能够统合不同模态的信息,如图文结合、视听结合,往往涉及两种或更多模态的信息融合以识别情绪。在早期研究阶段,由于计算资源的限制,机器学习领域的发展还处于初步阶段,情感分析主要是使用传统方法对单一模态如文本进行分析。但明显的,相较于只分析文字等单一的模态,多模态所蕴含的情感信息更丰富,计算机分析和识别将会更准确。多模态特征表示主要是通过学习更好的提取和表示模态信息,来达到有效利用多模态数据的互补性的目的。例如Zhao等人[8]提出了多模态预训练模型MemoBERT,该网络利用自监督学习从未标记的多模态数据中学习联合表示,通过对下游任务进行微调,将其作为遮蔽文本的预测去更接近预训练任务,对多模态数据集注释成本高和标签模糊问题做出有效解决。Williams等人通过对三种模态输入特征进行融合和双向LSTM进行模态序列学习,提供了深度学习网络输出的详细情绪分布,为以后多模态情感分析任务创建了一个稳健的基线。在情感分析领域,虽然已经成功地应用于文本数据的情感分析,但是对于视频和多媒体内容来说,这是一个研究不足的问题,这方面的研究较大的挫折是缺乏适当的数据库。现有的基于多模态的情感分析数据库包括IEMOCAP、CMU-MOSI和CMU-MOSEI等,这些数据库涵盖了多种语言、情感和媒体类型,为研究人员提供了丰富的研究资源。综上所述,研究多模态情感分析具有重要的理论和实践意义。理论上,它有助于深入探索不同模态之间的互补性和融合机制,丰富情感计算的理论体系。实践上,多模态情感分析可以应用于更广泛的场景,如视频内容分析、人机交互设计、情感驱动的推荐系统等,为人们提供更智能、更个性化的服务。1.3主要研究目的和内容本研究的目的源于当前情感分析领域存在的一些挑战和需求,包括单一模态情感分析的局限性、多模态数据融合的复杂性以及实际应用中对准确性和鲁棒性的高要求。因此,本文旨在提出一种高效的基于文本、声音、视频的多模态情感分析框架,以此提高情感分析的准确性和适用性。具体而言,本文的主要目标包括:提出一种多模态情感分析框架,能够有效地整合文本、声音、视频等不同模态的情感信息。开发相应的特征提取和数据融合技术,以提取各模态中的情感相关特征并实现有效的模态融合。构建和评估情感分类模型,探索不同模态融合策略对情感分析性能的影响。分析实验结果,讨论多模态情感分析的应用潜力和未来研究方向。2多模态情感分析框架介绍2.1多模态数据的收集和预处理本节主要介绍多模态情感分析框架,首先是收集和预处理包含文本、声音和视频信息的数据。数据收集可以通过社交媒体平台、在线视频网站或实验室录制等方式进行。其中,预处理包括:文本预处理:包括去除停用词、标点符号和无关字符,进行词干提取和词性标注,以及将文本转换为词向量或句向量。声音预处理:包括去除噪声、进行声音分段和标准化,以及提取声音特征如梅尔频率倒谱系数(MFCC)。视频预处理:包括视频帧提取、进行面部识别和追踪,以及提取视觉特征如光流和面部表情特征。图SEQ图\*ARABIC1多模态数据的收集和预处理2.2多模态数据特征提取方法特征提取是多模态情感分析的是一个复杂且关键的过程,目的是为了从原始数据中提取有助于情感分类的特征。整体流程包括以下几个步骤:首先,从原始数据中提取出各个单模态的特征。其次,使用卷积神经网络或循环神经网络等深度学习模型对这些单模态特征进行模态内的特征建模。接着,通过选用合适的特征融合策略来整合不同模态的特征。最后,将这些经过特征融合后的数据送入分类层,以输出情感分析的结果。这一过程有效地结合了不同模态的信息,提高了情感分析的准确性和深度,如图2所示。图2多模态情感分析整体流程图如果直接使用原始数据进行分析,不仅在训练模型方面难度较大,而且训练时间和数量也需要耗费大量精力。因此,特征提取可以通过不同的工具从原始数据中提取出单模态特征,再将单模态特征利用模型进行训练,以此来大大简化多模态情感分析的过程。本节将分别对文本、音频和视频模态常用的特征提取方法展开介绍。2.2.1文本特征提取如何对文本数据进行有效的特征提取,是自然语言处理领域最基本也是最重要的问题,目的是从原始文本数据中提取出对于后续分析和处理具有重要意义的特征信息。其中主流的方法包括词袋模型(BOW)、词嵌入(如Word2Vec和GloVe)和基于Transformer的预训练模型(如BERT和GPT)等。这些方法都能有效地提取出文本中的词汇、语法和语义信息等对情感分析等任务有用的特征,其中词嵌入往往是进行文本特征提取使用率最高的一种方法。词嵌入是自然语言处理(NLP)领域中的一项技术,它通过将词语转换为实数向量,使得词语能够以计算机可理解的数值形式呈现。这样的表示方式让计算机能够有效地处理和分析文本数据,是处理自然语言任务的基础技术之一。词嵌入通常是通过训练神经网络模型从大量文本数据中学习得到的。Word2Vec是在2013年由Mikolov等人首次提出的词嵌入模型,该模型对一个神经网络进行训练,学习词语的分布式表示,使得在向量空间中,语义上相近的词彼此接近。Word2Vec的核心优势在于其能够捕捉词与词之间的细微关系,从而提高自然语言处理任务的性能。Word2Vec有两种训练算法:连续词袋模型(CBOW)和跳字模型(Skip-gram)。GloVe是一种由斯坦福大学的研究人员在2014年提出的词嵌入技术。相较于基于局部上下文窗口的Word2Vec模型,GloVe的亮点在于综合利用全局统计信息(词与词共现频率)和局部上下文特征来生成词向量,这种方法有助于捕捉词语之间更加丰富的语义和语法关系。预训练语言表示模型BERT是由GoogleAI团队于2018年提出的,该模型在自然语言处理领域一直备受瞩目。其独有的特点便是它拥有双向训练架构,这使得模型能够更好更全面地理解语言上下文,并且通过预训练和随后的任务特定微调,使其能够被应用于多种NLP任务,包括文本分类、问答系统、命名实体识别等。2.2.1声音特征提取音频特征指的是通过分析音频信号,提取出对音频信号具有表征性的数字特征,表达情感通过声音是一种自然界生物随着进化而发展出的能力,而人类独特的语言能力进一步增强了这种能力,使得情感的表达通过声音变得更加丰富和细腻。提取语音情感特征[9]主要分为两个过程,一是从原始的语音信号中提取声学特征,如谱特征,并使用算法从声学特征中提取情感特征。二是统计情感特征,如取平均值、求方差等,可以寻找用以表示高度表征情感的语音情感特征。语音中的信息包含声学信息和语义信息[10],常用的声学特征包括基频(Pitch)、能量、梅尔频率倒谱系数(MFCC)和声调特征。利用深度学习模型如CNN和RNN也可用于提取声音特征。梅尔频率倒谱系数(MFCC)是在声音识别、声音处理以及音乐信息检索等领域被广泛使用的一种特征提取技术。因此,利用MFCC基于人耳对声音的感知特性,将声音信号转换为一组数值表示,用于捕捉声音的主要特征。相比其他音频特征,梅尔频率倒谱系数相对稳定且抗噪声能力强,能有效地描述音频信号的语音特征[11],MFCC的计算过程大致可以分为以下几个步骤:预加重:通过一个高通滤波器对信号进行预加重,以补偿高频部分的能量损失,增强高频信号。分帧将连续的声音信号分割成一系列短时帧,每个帧通常为20-40毫秒,帧与帧之间有一定的重叠,以保持连续性。加窗:将窗函数(如汉明窗)作用于对每个帧,以减少帧边缘的不连续性。快速傅里叶变换:采用快速傅里叶变换处理加窗后的每个帧,以获得频谱表示。梅尔滤波器组:使用一组梅尔尺度的滤波器对经过FFT处理得到的频谱进行滤波,模拟出人耳对不同频率声音的感知特性。对数转换:对滤波器组输出的能量取对数,将乘法运算转换为加法运算,并模拟人耳对声音强度的对数感知。离散余弦变换:利用离散余弦变换把取对数后的结果进行分析处理,去除掉滤波器组输出之间的相关性,并得到最终的MFCC特征,如下图2所示。图2MFCC特征提取流程2.2.3视频特征提取视频特征提取是从视频数据中提取有用信息的过程,目的是将视频内容转化为更加易于处理和分析的形式。这些特征可以是视觉的(如颜色、纹理、形状)、音频的(如声音强度、音调)、或是基于内容的(如物体识别、人脸识别)。视觉特征包括面部表情特征、肢体语言特征和场景特征。人脸表情作为人类最关键且最直观的情感表达方式,在计算机视觉和人工智能领域,利用人脸识别和追踪技术来进行情感分析一直是火热的课题。人脸表情识别的关键技术是视觉特征提取,是指通过提取人脸图像中最具有代表性的特征和特点,以用于分类和区别人脸表情。通过对图像特征的处理,系统可以人脸表情进行辨别,并将其映射到对应的情感类别,如快乐、悲伤、惊讶等。利用深度学习模型如3DCNN可用于提取视频特征。随着近几年深度学习技术的发展,又提出了MTCNN、FaceNet等网络模型,此外,为简化特征提取过程,多种用于视觉特征提取的工具包如OpenCV、Openface也被广泛使用。2.3多模态数据融合技术多模态数据融合是指将文本、声音和视频等各种不同类型的特征进行有效地结合,以提高情感分析的准确性。在情感分析技术发展初期,研究人员主要依靠文本、声音等单一模态来进行情感分析,但由于单模态情感分析存在着一定的限制,因此,同单一模态相比较,使用两种或两种以上的模态信息往往能将情感信息描述地更加准确、丰富。因此,深入挖掘和融合多种模态信息,能够提高情感分析性能,基于多模态数据的情感分析技术应运而生,常用的融合技术包括:特征级融合、决策级融合、混合级融合和模型级融合。下面将对这几种融合详细介绍。2.3.1特征级融合特征级融合,通常被称为早融合策略,涉及将来自不同模态的特征向量直接合并成一个较长的向量,并将其作为模型的输入。这种融合在特征层次上实现,即在特征输入过程中就已经开始合并不同模态的特征。通过这种方式,可以通过简单的拼接、相加、相乘或者更复杂的组合操作,有效地整合多种模态的信息,以增强模型对数据的理解和处理能力,如图3所示。图3特征级融合2.3.2决策级融合决策级融合,是指在决策层面上进行的特征融合策略,通常也被称为晚期融合。其核心是先单独训练各个不同模态的数据,使其能够充分捕捉各个模态中包含的情感信息。最后将各个模态得出的局部情感分类结果进行融合。通过这种策略,可以在决策阶段综合各模态的优势,从而提高整体的情感识别准确性。然后根据各自的分类结果进行投票或加权平均以得到最终的情感类别。如图4所示。图4决策级融合2.3.3混合级融合混合级融合结合了特征级融合和决策级策略的优势并相互弥补了两者的缺点。首先,利用特征级融合的方法将不同模态的特征拼接在一起,然后将得到的拼接特征输入到分类器中。同时,还将每种模态的特征分别送入对应的分类器中进行单独处理。最后,将这些分类器输出的结果采用决策级策略进行整合。这样的操作不仅提高了特征利用效率,还增强了模型对不同情感特征的综合识别能力。图5混合级融合2.3.4模型级融合模型级融合是指通过设计混合网络结构,如多模态融合网络(MFN)和交叉模态注意力网络,达到不同模态特征的互补和交互的目的。与特征级融合和决策级融合区别在于,模型级融合能够直接在网络结构中学习和利用不同模态之间的交互信息,这样不仅增强了模型处理复杂数据的能力,还减少了对多模态时间同步的依赖。这种融合方法在进行独立建模每个单模态的特征的同时,还综合考虑不同模态间的相关性,从而实现更高效和深入的数据分析。该方法主要是获得三种模态的联合特征表示,以及实现它主要取决于所采用的融合模型。模型级融合是更深层次的融合方法,为分类和回归任务产生更优化的联合判别特征表示。2.4情感分类模型的构建和训练构建情感分类模型是多模态情感分析的核心步骤,旨在根据提取的特征进行情感类别的判断。对于文本分析,传统的机器学习流程通常涵盖以下几个关键步骤:首先需要构建训练集,即收集数据并为数据打上情感标签。接着是提取训练数据中对理解文本情感倾向方面起着至关重要的作用的特征,例如情绪相关的词汇、特定的语法结构等。最后,采用各种机器学习模型对这些特征进行分析,以预测文本的情感倾向,其中使用频率比较高的模型包括支持向量机、朴素贝叶斯以及随机森林等。这些方法通过不同的算法原理来处理和分析文本数据,从而得出情感分析结果。支持向量机模型的识别率检验了将机器学习技术应用于情感分类工作的有效性[12]。对于语音分析,基于语音信号的产生机制来实现分析任务,一般的流程为:提取语音中能够反映情感倾向的特征参数,然后应用合适的识别方法确定语音中所包含的情感[13]。对于语音信号的识别,目前主流的研究方法有马氏距离判别法、神经网络法、主成分分析法(PCA)、隐马尔可夫模型(HMM)、混合高斯模型法(GMM)等。文献[14]采用完整语句作为全局特征进行情感识别,并总结了语音信号的不同情感特征分布规律。文献[15]在4种情绪语音信号的基础上增加了特征维数,提出一种改进型马氏距离判别式,将情感识别率提高到94%。对于视频情感分析,早期使用的传统方法大多数是手工提取的特征,例如Revina等人提出的whale-grasshopper优化算法,利用离散LBP和SIFT描述子进行人脸的特征提取[16],Liu等人提出了基于时空维度的模型STM-ExpLet,利用高斯混合模型将视频中的局部时空特征进行对齐处理,再进行情感分析[17]。3基于模态贡献识别和多任务学习的多模态情感分析模型本章提出基于模态贡献识别和多任务学习的多模态情感分析模(IdentifyingModalContributionNetwork,IMCN),不但对模态特征的提取进行创新利用,更在模态融合前充分考虑了不同模态信息对融合信息的影响。基于不同模态对多模态信息的贡献权重不同,以权重最大的文本模态为主,构建模态之间信息相关性网络。本章率先运用自注意力捕获模态内部特征相关性,接着使用跨模态注意力获得模态之间的依赖,进一步通过增益网络获得不同模态的增益系数,最后将单模态任务与多模态任务进行联合学习,充分降低噪声信息的干扰。利用两个主流CMU-MOSI,CMU-MOSEI数据集分别与主流对比模型的对比实验,以此来判断IMCN是否可以有效提升多模态情感极性判断的性能。3.1模型总体结构为了准确判断模态间贡献的差距,避免模态无关信息对融合特征的干扰,本章提出IMCN模型有效的利用模态贡献权重,通过模态增益网络进行特征的判断与融合,将单模态任务与多模态任务进行多任务学习提升模型的泛化性能。如图6所示,IMCN模型的结构主要分为四个部分:图6IMCN的模型框架图模态特征提取:该过程是提取各模态的原始特征,对于文本模态,采用BERT预训练模型来初始化词汇的特征向量;对于语音模态,采用COVAREP工具包来提取声学特征;而视觉模态则利用OpenFace等工具来提取与面部相关的特征。信息增益交互:利用自注意力机制和跨模态注意力机制构建模态增益网络(ModalityInteractionModule,MIM),检测模态间的关系,得到模态增益系数。模态更新:利用模态增益系数进行模态间的融合,综合利用多种模态语义信息,实现异质信息互补。多任务学习:构建单模态学习网络,与多模态情感分析共用相同的模态底层特征,提升模型泛化性能和学习效果。3.2模态特征提取针对给定数据集进行优秀的模态嵌入。在一个包含N个视频片段的数据集中,分别含有文本模态L、语音模态A和视觉模态V三种模态数据。通过预训练的BERT模型处理文本。BERT模型有12层,最后一层的第一个词向量可以作为整句的语义表示,用于下游任务。X其中,语音模态A通过COVAREP工具包基于语音的语调和情绪进行语音浅层特征的提取,主要包括:梅尔倒谱系数、音高、有声/无声分割特征、声门源参数等。然后,将提取的语音浅层特征经单向LSTM网络,进一步通过时序建模提取语音上下文表征。X其中,XA单向LSTM的隐藏状态输出表示,θA对于视频数据,首先将视频以30赫兹的频率分割成图片帧,通过MTCNN算法识别人脸,将人脸部分进行裁切并保存为相应尺寸图片,通过OpenFace提取面部HoG特征、面部形状和眼睛注视等浅层特征,然后,将获得的视觉特征同样利用单向LSTM网络在时间维度上建模获取上下文表征。X其中,XV表示视觉模态上下文表征,由视觉提取网络隐藏状态输出获得,θVLSTMXXXV其中,fL,f3.3信息增益交互在多模态中,文本模态拥有最多的信息量。IMCN利用多头注意力机制进行模态间的交互,设计了两个MIM模块分别检测文本与语音、文本与视觉的关系,判断语音模态和视觉模态对特征融合的增益程度。MIM的具体结构如图4-2所示。根据多头注意力的两个输入是否相同,可以分为多头自注意力和跨模态多头注意力。给定两个不同的输入Hm=ℎMHAℎeaAttentio其中,Wmc∈ℝd∗d代表参数矩阵,headi表示第两个MIM模块工作原理一致,主要包含模态内部层和模态交互层,以文本特征和语音特征在模块中的输入为例。首先,利用一维时域卷积使模态特征向量保持一致,方便进行注意力计算。XLXAXV然后,在模态内部层将输入的文本特征和语音特征分别进行多头自注意力计算,捕捉模态内部特征的相关性。DLDA其中,𝑀𝐻𝐴𝑠𝑒𝑙𝑓代表多头自注意力,其两个输入为相同的模态特征。最后,在模态交互层中,将经过自注意力后的特征𝐷𝐿和𝐷𝐴作为输入,挖掘文本与语音之间所有的潜在局部对齐,进一步推断整体相关性。DD其中,𝑀𝐻𝐴𝑐𝑟𝑜𝑠𝑠代表跨模态多头注意力,参照多头注意力公式,公式(4-15)中,𝑋𝐴代表输入𝐻𝑚,𝑋𝐿代表输入𝐻𝑐。3.4模态更新将模态交互层的输出DL、DA、DL→A和DA→L拼接,基于模态的特性和模态间的共性,通过前馈神经网络和Softmax激活函数,得到语音-文本、视觉-文本的模态增益概率p,如公式17所示:p=Softmax(其中,Wo代表权重矩阵,bo表示该层的偏置,将得到模态的增益概率pal和pvl与原模态特征进行点积运算,获得对融合有帮助的模态上下文特征。XX基于新的模态特征,重新与文本模态进行跨模态多头注意力计算,细化注意力层,扩展多位置专注的能力。由于模态增益网络的降噪处理,会损失一些模态特性信息,通过加入残差机制,提升模型泛化性能。FF将得到的Fal、Fvl、XL三种高层语义特征进行拼接融合,然后通过激活函数和全连接层进行情感分类,从而实现多模态情感分析的预测结果。FFy其中,Ffusion为多模态融合特征,𝑊𝑓1∈ℝ3𝑑∗𝑚和𝑊𝑓2∈ℝ𝑚∗1代表学习权重,bf1和bf2需要学习的偏置,ReLU为激活函数,ym表示预测的多模态情感极性。3.5多任务学习基于Yu等人[18]构建的自监督网络,可以提取到数据集中不存在的单模态情感标签,通过与相应多模态片段进行对齐,构建具有单模态情感标签的数据集,该数据集结构如图对文本、语音和视觉模态单独进行情感分析,将预测结果同ymXyLosLosLoss=αLos其中,𝑖∈{𝐿,𝐴,𝑉}表示不同的单模态,𝑊𝑖1∈ℝ𝑑∗𝑚和𝑊𝑖2∈ℝ𝑚∗1表示单模态学习所需的权重,𝑏𝑖1和𝑏𝑖2表示偏置,𝐿𝑜𝑠𝑠𝑖和𝐿𝑜𝑠𝑠𝑚分别表示单模态和多模态的损失函数,𝛼、𝛽、𝛾和𝛿为参与训练过程的参数。4实验设计与结果分析4.1数据集的介绍和划分在多模态情感分析的实验中,选择合适的数据集是非常重要的。一个好的数据集应该包含丰富的文本、声音和视频信息,以及对应的情感标签。目前主流的多模态情感分析数据集涵盖了CMU-MOSI、CMU-MOSEI、CH-SIMS、IEMOCAP和SEWA等。其中普遍包含了来源于电影评论、对话或社交媒体的多模态数据,并由专家或众包工人标注了相应的情感标签。为了更全面地评估模型的性能,我们将详细介绍其中三个备受瞩目的多模态情感评测数据集:CMU-MOSI、CMU-MOSEI以及CH-SIMS。CMU-MOSI数据集涵盖了许多来自YouTube的视频片段,并且在这些片段中含有说话人对不同的话题进行评论,例如电影、书籍或产品。数据集中的视频被标注了情感极性(正面、负面、中性)和情感强度。他的特点在于它结合了多种模态信息,包括文本(转录的语音)、音频(说话人的声音)和视觉(说话人的面部表情和肢体语言),这些不同的模态信息提供了更丰富的上下文,对提高情感分析的准确性有很大的提升。CMU-MOSEI数据集是CMU-MOSI数据集的增强版本,它涵盖了更多来自YouTube的23,454个视频片段,这些视频片段中的说话人对各种主题进行评论,包括电影、书籍、产品、政治等。他的特点在于它提供了丰富的多模态信息,包括文本(转录的语音)、音频(说话人的声音)、视觉(说话人的面部表情和肢体语言)以及其他相关的元数据。在这个数据集中的视频被标注了六种基本情感(快乐、悲伤、愤怒、恐惧、厌恶、惊讶)的强度以及情感极性(正面、负面、中性)。CMU-MOSEI数据集是目前最大、最全面的多模态情感分析数据集之一,广泛用于自然语言处理、计算机视觉、音频处理和机器学习等领域的研究。它为研究人员提供了一个平台,用于探索和开发利用多种模态信息进行情感分析和识别的技术。通过在这个数据集上训练和测试模型,研究人员可以更好地理解情感表达的复杂性,并提高情感识别和分析的准确性和鲁棒性。CH-SIMS是针对中文多模态情感分析的数据集,相比MOSI与MOSEI等单标签数据集,CH-SIMS额外提供了文本、音频与视觉单模态标签,CH-SIMS数据集的主要特点有数据集完全由中文构成,适合研究中文语境下的情绪识别与对话系统,含有多模态信息,除了文本,数据集还可能包括音频或视频数据,使研究者可以探索如何利用不同的信息源来更好地理解和生成对话。并且每段对话都伴随着情绪标注,这些标注帮助研究人员训练模型以识别和回应用户的情绪。CH-SIMS数据集通常用于以下研究领域,例如情绪识别:通过分析对话内容和语调,自动识别对话中的情绪状态。情感对话生成:生成反映适当情绪的对话回复。人机交互:改进机器理解人类情绪的能力,以提供更自然、更具同理心的交互体验。数据划分是实验设计的另一个关键步骤,它直接影响模型的泛化能力和实验结果的可靠性。数据集一般会被细分为训练集、验证集和测试集,这三者的比例可根据实验需求灵活调整。训练集被专门用于模型训练,验证集则用于选取和调整模型参数,测试集则被用来综合评估模型的最终表现。表1数据集的划分TrainValidTestCMU-MOSI1284229686CMU-MOSEI16326187146594.2实验设置4.2.1模型选择相较于以前的多模态情感分析,本章采用的是基于模态贡献识别和多任务学习的多模态情感分析模型,不但对模态特征的提取进行创新利用,更在模态融合前充分考虑了不同模态信息对融合信息的影响。基于不同模态对多模态信息的贡献权重不同,以权重最大的文本模态为主,构建模态之间信息相关性网络。选取的数据集主要是CMU-MOSI数据集和CMU-MOSEI数据集,利用在CMU-MOSI,CMU-MOSEI数据集上分别与主流对比模型的对比实验。对于CMU-MOSI数据集,批处理大小为16,初始学习率设置为1e-4,文本卷积核、语音卷积核和视觉卷积核大小均设置为5,文本dropout为0.4,语音dropout为0.1,视觉dropout为0.2。对于CMU-MOSEI数据集,批处理大小为32,初始学习率设置为1e-5,文本卷积核大小为5,语音卷积核大小设定为1,视觉卷积核大小设定为3,文本dropout为0.3,语音dropout为0,视觉dropout为0。具体实验参数见下表2所示。表2实验参数设置CMU-MOSICMU-MOSEI批处理1632初始学习率1e-41e-5文本卷积核55语音卷积核51视觉卷积核53续表2实验参数设置文本dropout0.40.3语音dropout0.10视觉dropou评价指标为了评估验证本章模型的性能,本文采用了多模态情感分析任务中最常见的两种类型的评价指标,分别是回归任务指标和分类指标,其中回归任务指标包括MeanAbsoluteError(MAE)和Pearsoncorrelation(Corr)。分类指标包括(Accuracy)、精确率(Precision)和F1分数(F1Score)。对于上述评价指标的详细介绍如下:准确率是在分类器处理目标数据集时,正确分类的样本数占总样本数的比例,表示模型预测正确的概率。准确率最大值为1,最小值为0。根据分类的数量不同,可分为二分类(Acc-2)与七分类(Acc-7)。Accuracy=其中,TP代表标签真实值与模型预测值均为正例的数量,FP代表标签真实值虽为负例但模型预测值为正例的数量,TN代表标签真实值与模型预测值均为负例数量,FN表示标签真实值虽为正例但模型预测值为负例的数量。F1-Score相当于查全率和查准率的调和平均值,其中最佳值为1.0,最差值为0.0,具体计算公式如下所示:F1Score=因此,F1可以同时考虑到模型精确率和召回率的评估,F1取值大小可以直观反映出模型性能,F1取值越大,模型的分类性能越强。平均绝对误差(MAE)是用来衡量预测模型或估计方法预测结果的精度。MAE是预测值和实际值之间差的绝对值的平均,提供了一个直观的误差度量,用来评估预测结果的准确性。MAE=皮尔逊相关系数,是衡量两个变量之间线性关系强度和方向的统计指标。它是最常用的相关性度量之一,广泛应用于统计学、科学研究以及社会科学等领域。Corr=其中,n代表样本数量,E是数学期望,σyi代表4.3不同模态和融合方法的比较分析为了评估不同模态和融合方法对情感分析性能的影响,通过实验与以下多模态情感分析基线模型进行了公平的比较,详细信息如下:EarlyFusionLSTM:早期融合LSTM(EarlyFusionLSTM,EF-LSTM)将三种模态的输入进行拼接得到融合特征,然后利用LSTM进行情感分析。LaterFusionDNN:与EF-LSTM相比,晚期融合DNN(LaterFusionDNN,LF-DNN)首先用DNN进行学习单模态特征,然后拼接输入进行分类器得到情感极性。TFN[19]:张量融合网络TFN通过计算模态基于外积的多维张量去捕捉单模态、双模态和三模态之间的相互作用。MFN:由Zaheh等人提出,利用门控记忆网络和Attention机制在时间维度上捕捉不同模态之间的交互信息[20]。MULT:利用跨模态Transformer,将辅助模态融入目标模态,得到6组跨模态融合特征后,再通过拼接与自注意力机制整合。表3对比实验结果(CMU-MOSI)ModelAcc-2Acc-7F1MAECorrEF-LSTM78.4835.3978.5194.8866.9LF-DNN78.6334.5278.6395.4865.84续表3对比实验结果(CMU-MOSI)TFN79.0834.4679.1194.7367.33Mult79.7136.9180.9587.9970.22MFN78.8735.8378.9092.6867.02IMCN84.140.3182.6487.569.94与基于特征级融合(EF-LSTM、TFN)模型相比,IMCN模型效果有大幅度提升,通过多头注意力机制能有效模态内的语义信息,实现模态之间上下文信息的交互和更高效的特征表征,说明特征级融合模型难以兼顾模态内的特征表示和模态间的信息交互。与基于复杂融合的两种模型(MFN、Mult)相比,IMCN模型在模态融合前设计的模态增益网络,有效的保证了融合特征信息真实性,而MFN等模型虽然考虑了模态间的交互,但最终的融合特征里含有过多的噪声信息,影响了多模态情感分析的性能。表4列举了IMCN模型与基线模型在CMU-MOSEI数据集上的性能比较,相较于表3,大部分模型的性能有了不同幅度的提升,证明随着数据集的扩大,模型可学习的多模态信息量显著增加,有效的提升了下游任务的性能。表4对比实验结果(CMU-MOSEI)ModelAcc-2Acc-7F1MAECorrEF-LSTM80.7950.0180.6760.0568.25LF-DNN82.7450.8382.5258.0270.87TFN81.8951.6081.7457.2671.41Mult84.6352.8484.5255.9373.31MFN82.8651.3482.8557.3371.82IMCN85.3651.4385.7458.9872.305结论本研究通过构建基于文本、声音、视频的多模态情感分析框架,采用了一种基于模态贡献识别和多任务学习的多模态情感分析。该模型通过模态增益网络确定不同模态对融合信息的增益关系,解决了当前不同模态特征含有的信息量不一,不同模态信息量不均衡及其对融合特征信息贡献不同的问题。此外,本模型采用自注意力机制来捕捉模态内的上下文信息关联性,并通过跨模态注意力机制探索不同模态间的相互依赖性。利用增益网络得到不同模态的增益系数,最后利用多任务学习提升模型泛化能力。通过在两个公共数据集上进行大量对比实验,证明了模型的有效性和可靠性。参考文献徐尚.基于文本、语音和图像的多模态情感分析技术研究[D].南京邮电大学,2023.陈彩华.基于语音、表情与姿态的三模态普通话情感识别[J].控制工程,2020,27(11):2023-2029.郭续,买日旦·吾守尔,古兰拜尔·吐尔洪.基于多模态融合的情感分析算法研究综述[J].计算机工程与应用,2024,60(02):1-18.陈飞宇.多模态情感分析算法研究[D].成都:电子科技大学,2022.SUNYY,JIAZT,ZHUHY.Surveyofmultimodaldeeplearning[J].ComputerEngineeringandApplications,2020,56(21):1-10.孔繁钰,陈纲.基于改进双向LSTM的评教文本情感分析[J].计算机工程与设计,2022,43(12):3580-3587.赵之文.多模态情感分析技术的应用研究[J].现代信息科技,2022,(第10期).registrationerrors[C]//Proceedingsof
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中外设备租赁合同书模板
- 2025企业法律顾问考试经济民商历年考点命题方向合同法总则
- 2025电子产品生产加工合同
- 2025简化版个人民间借款合同范本
- 2025工程承包中的合同违约问题
- 2025房地产合同模板
- 2025标准版小产权房购房合同
- 2025年地铁附近写字楼办公房屋租赁合同协议
- 《特例品牌研究分析》课件
- 《全球杰出女科学家》课件
- 仁爱版初中英语单词表(默写版)
- 企业防渗漏标准做法案例库图文丰富
- Unit 2 Listening and talking -高中英语人教版(2019)必修第一册
- 医院分娩记录单
- GB/T 17872-1999江海直达货船船型系列
- GB/T 12027-2004塑料薄膜和薄片加热尺寸变化率试验方法
- 中医手诊培训资料课件
- 消防主机运行记录表(标准范本)
- 应急处置措施交底
- Q∕GDW 12154-2021 电力安全工器具试验检测中心建设规范
- 第四章 金融监管(商业银行管理-复旦大学)
评论
0/150
提交评论