




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多模态数据融合与检索技术
多模态数据融合主要内容3.3多模态融合前沿方法3.2多模态融合传统方法3.1多模态数据融合介绍3.4多模态融合发展方向3.1多模态数据融合介绍3.1.3数据集介绍3.1.2国内外现状3.1.1多模态数据融合背景及意义3.1.4性能评判准则3.1.1多模态数据融合背景及意义多模态数据融合:模型在完成分析和识别任务时处理不同形式的数据的过程。多模态数据的融合可以为模型决策提供更多的信息,从而提高了决策总体结果的准确率,目的是建立能够处理和关联来自多种模态信息的模型。
3.1.1多模态数据融合背景及意义多模态数据检索应用实例:情感分析智能推荐语音识别多模态融合3.1多模态数据融合介绍3.1.3数据集介绍3.1.2国内外现状3.1.1多模态数据融合背景及意义3.1.4性能评判准则3.1.2国内外现状国际方面:卡内基梅隆大学MultiComp实验室提出了建模多模态数据中的潜在动态的概率图形模型,处理多个视图之间的时间同步的条件随机场模型等方法,并为多模态数据开发了新的深度神经网络表示。麻省理工学院Sentic团队为多模态情感分析提出了张量融合网络、上下文层次融合网络、模糊常识推理等先进算法。微软AI团队提出了大规模多模态训练模型,包括图像-文本的通用图像文字标识模型(UNITER)和视频-文本的HERO模型。国内方面:安徽大学汤进教授对光学与热红外两种图像的数据融合进行了大量研究,构建了一个大规模的多模态视频基准数据集。3.1多模态数据融合介绍3.1.3数据集介绍3.1.2国内外现状3.1.1多模态数据融合背景及意义3.1.4性能评判准则3.1.3数据集介绍MVSA数据集MVSA数据集是一个多视图情绪分析数据集,包含20392组从推特中收集的带有人工注释的图文对样本。3.1.3数据集介绍PinterestMultimodal数据集PinterestMultimodal数据集是通过抓取Pinterest上的公开可用数据,构建的4000多万张图像的数据集,并且每幅图像平均与12个描述句子相关联。3.1.3数据集介绍MELD数据集MELD数据集是一个对话情感识别的多模态数据集。其包含文本、音频和视频模态。MELD数据集有1400多个对话和13000个话语。对话中的每句话都被标记为七种情绪中的任何一种——愤怒、厌恶、悲伤、喜悦、中立、惊讶和恐惧。3.1.3数据集介绍UTD-MHAD数据集UTD-MHAD数据集是由四种模态数据共861个数据序列构成,主要应用于人体动作识别的数据集。这四种模态数据包括:RGB视频、深度视频、骨骼位置照片和可穿戴惯性传感器的惯性信号。3.1.3数据集介绍BerkeleyMHAD数据集一个用于人体动作识别的数据集,数据集中的数据由12个RGB摄像头、2个微软Kinect摄像头采集完成。该数据集由12个参与者通过5次重复执行的11个人类动作的659个数据序列组成。Montalbano手势数据集意大利姿态数据集,每一位参与者在相机面前都会在说着意大利语的同时展示手势。这些手势共包括20组,由27位参与者完成。SYSU-MM01数据集该数据集主要包括RGB图像和红外图像两种模态。这些图像主要是在在室内和室外环境中,从四个RGB相机和两个红外相机采集得到的。该数据集已划分成训练集和测试集,其中训练集包含395人的图像,其中RGB图像22258张,红外图像11909张。而测试集共有96人,有3803张红外图像用于查询。3.1.3数据集介绍多模态检索数据集信息总结数据集模态样本数MVSA图像+文本(异构)20392PinterestMultimodal图像+文本(异构)10MMELD图像+文本+声音(异构)1400UTD-MHADRGB+深度+骨片模型+惯性信号(异构)861BerkeleyMHADRGB视频+深度视频(异源)659MontalbanoRGB+深度+用户掩图+骨骼模型(异源)13858SYSU-MM01RGB图像+红外图像(异源)3034203.1多模态数据融合介绍3.1.3数据集介绍3.1.2国内外现状3.1.1多模态数据融合背景及意义3.1.4性能评判准则3.1.4性能评价准则精准率与召回率在数据集样本中通常会含有正样本与负样本,模型将会对输入的样本进行判定,即判定输入的样本属于正样本或者负样本。精准率(precision)表示判定为正的样本中有多少样本是真正的正样本,召回率(recall)表示样本中的正样本有多少被判定正确。真正例率(TruePositiveRate,TPR)和假正例率(FalsePositiveRate,FPR)的计算公式如下:3.1.4性能评价准则点击率点击率(HitRatio,HR)是在典型的基于隐反馈的top-N推荐任务中常用的评测指标。HR@N用来度量测试集中的正例是否出现在top-N推荐列表里。计算公式如下:规范化折扣累计增益规范化折扣累计增益(NormalizedDiscountedCumulativeGain,NDCG)同样是在典型的基于隐反馈的top-N推荐任务中常用的评测指标。比起HR@N,NDCG@N还考虑了测试集中的正例在top-N推荐列表中的位置,其中N是一个超参数。具体的计算方式为:主要内容3.3多模态融合前沿方法3.2多模态融合传统方法3.1多模态数据融合介绍3.4多模态融合发展方向3.2多模态融合传统方法3.2.3基于估计的融合方法3.2.2基于分类的融合方法3.2.1基于规则的融合方法3.2.1基于规则的融合方法线性加权融合线性加权融合是一种最简单、应用最广泛的融合方法。在该方法中,从不同的模态中得到的信息是通过线性的方式进行组合的。这些信息可以是底层视频特征(如视频帧中的颜色和运动线索),也可以是高层语义级决策(如某些事件的发生)。一般而言,线性加权融合要经历两个步骤:分数标准化和分数加权。分数标准化最简单的归一化技术是Min-max标准化。Min-max标准化最适合于匹配器输出的分数的边界——即最大值和最小值已知的情况。假设一组匹配分数为,则正则化分数的计算公式为:当从给定的匹配分数集估计最小值和最大值时,这种方法不是鲁棒的,因为该方法对用于估计的数据中的异常值高度敏感。当不同匹配器的分数在对数尺度上时,可以应用小数定标标准化方法,3.2.1基于规则的融合方法线性加权融合最常用的分数标准化技术是z值标准化,它是用给定数据的算术平均值和标准偏差计算的。如果事先知道匹配器的平均分值和分值的变化情况,则该方案可以取得较好的效果。如果没有任何关于匹配算法性质的先验知识,那么就需要从一组给定的匹配分数中估计分数的平均值和标准差。Tanh预测器正则化方法[29]是由Hampel等人引入的,其兼具鲁棒性和高效性,公式如下:式中和分别是Hampel估计器给出的真实分数分布的平均值和标准差估计。3.2.1基于规则的融合方法线性加权融合分数加权对分数进行标准化之后,便可对分数进行加权,完成线性融合。线性融合的一般方法可以这样描述:表示从第个媒体源(如音频、视频等)获得的特征向量或从第个分类器获得的决策。同时,让表示为第个媒体源或第个分类器的标准化权重。这些向量(假设它们具有相同的维数)通过使用求和或求积的方式进行组合,并由分类器使用以提供高级决策。与其他方法相比,这种方法的计算成本较低。然而,一个融合系统需要确定和调整权重,以最优地融合方式来完成一项任务。3.2.1基于规则的融合方法线性加权融合方法举例Neti等人研究如何将视觉线索和音频信号组合起来,用于提升自动机器识别的效果。他们从音频特征(如音素)和视觉特征(如发音嘴型)中获得说话人识别和语音事件检测的单独决策。然后采用线性加权和的策略来融合这些单独的决策。3.2.1基于规则的融合方法线性加权融合方法举例Lucey等人提出了随机二次分类器用于对口语单词的识别。该随机二次分类器使用了线性加权的融合策略。下图为该随机二次分类器的判决过程。首先单词识别器模块分别对音频和视频数据进行处理,得到他们分别的判决值,然后再根据音频数据的判决值以及视频数据的判决值的对数概率对单词进行二次判决。3.2.1基于规则的融合方法线性加权融合方法举例Foresti和Snidaro设计了一种用于视频监控的分布式传感器网络(DistributedSensorNetwork,DSN),其能够管理不同种类的传感器(如光学、红外、雷达等),以便在昼夜和不同天气条件下(如雾、雨等)运行。为了达到此目的,在此分布式传感器网络中使用了上文介绍的线性加权和的方法来融合物体的轨迹信息。3.2.1基于规则的融合方法线性加权融合方法举例多数投票多数投票是加权组合的一种特殊情况,其所有分类器的权重都是相等的。在基于多数投票的融合中,最终的决策是大多数分类器达成相同或相似的决策。特别的,对于二分类任务,分类器的数量必须是奇数且大于两个的。自定义规则与上述使用标准统计规则的方法不同,Pfleger等人提出了一种基于生成规则的决策级融合方法,用于集成来自手写字母和语音模态的输入。在这种方法中,每一种输入模态都可以用其使用的上下文解释,这些上下文是根据先前识别的属于同一用户的输入事件和对话状态来确定的。生成规则包含三类规则:同步规则、多模态事件解释规则和单模解释规则,它们共同发挥作用以促进融合过程。3.2多模态融合传统方法3.2.3基于估计的融合方法3.2.2基于分类的融合方法3.2.1基于规则的融合方法3.2.2基于分类的融合方法此类方法包括一系列分类技术,这些技术已用于将多模态观测的结果分类为一种预定义的类。这类方法有支持向量机、贝叶斯推理、D-S理论、动态贝叶斯网络和最大熵模型等。支持向量机支持向量机(SupportVectorMachine,SVM)是一个功能强大并且全面的机器学习模型,它能够执行线性或非线性分类、回归等任务。具体来说,在多媒体领域,支持向量机被用于包括特征分类、概念分类、人脸检测、文本分类、模态融合等不同任务。从多模态融合的角度,支持向量机用于解决模式分类问题。本节将首先从线性支持向量机和非线性支持向量机角度介绍支持向量机的核心概念,然后再介绍基于支持向量机的多模态数据融合方案。3.2.2基于分类的融合方法线性支持向量机下图为三种线性分类器示例。其中蓝色菱形块代表A类数据,橙色方形块代表B类数据,可以看出A类数据和B类数据是线性可分离的。图中的两条黑色实线和一条黑色虚线展示了三种可能的线性分类器的决策边界。两条黑色实线所代表的线性支持向量机分类器可以正确地将A、B两类数据区分开来,只是它们的决策边界与实例过于接近,当有新的实例出现出,可能会出现分类错误。黑色虚线代表的线性分类器没有对A、B两类数据进行正确地分类。3.2.2基于分类的融合方法线性支持向量机相比之下,下图黑色实线所代表的线性支持向量机分类器不仅将A、B两类数据分开,而且尽可能远离最近的训练实例。线性支持向量机分类器可以视为在类别之间拟合可能的最宽的街道(平行的虚线所示)。因此这也被称为大间隔分类(largemarginclassification)。决策边界是完全由街道边缘的实例所决定的,这些实例被称为支持向量。3.2.2基于分类的融合方法线性支持向量机如果严格地让所有实例都不在街道上,并且位于正确的一边,这就是硬间隔分类。硬间隔分类主要存在两个问题:首先,它只在数据是线性可分离的时候才有效;其次,它对异常值非常敏感,如下图中的异常数据将导致线性分类器找不到硬间隔。3.2.2基于分类的融合方法线性支持向量机下图为硬间隔分类的决策边界示意图。异常值将导致该硬间隔分类器无法很好地泛化。要避免这些问题,最好使用更灵活的模型。目标是尽可能在保持街道宽阔和限制间隔违例(即位于街道之上,甚至在错误的一边的实例)之间找到良好的平衡,这就是软间隔分类。3.2.2基于分类的融合方法非线性支持向量机之前的讨论是基于样本实例是线性可分的这样的假设的,但现实中,原始的样本空间也许并不存在一个能正确划分两类样本实例的平面。如下图一维原始样本空间所示,此原始样本空间只有一个特征,此样本空间中的A、B两类数据不是线性可分的。3.2.2基于分类的融合方法非线性支持向量机对于这种问题,可通过添加更多特征的方式,将原始样本空间映射到更高维的空间,使得在这个空间中样本实例是可分的,如下图二维样本空间示意图所示,添加了第二个特征,并令,在此高维的样本空间中,A、B两类样本实例便可完全线性分离(在图中被黑色虚线所代表的分类器所分离)。3.2.2基于分类的融合方法非线性支持向量机Adams等人采用了一种后期融合的方法,利用视频、音频和文本三种模态来检测视频中的语义概念(例如天空、火烟等)。该方案利用所有概念分类器的得分,构造一个向量作为语义特征传递给支持向量机进行分类。支持向量机在对音频、视频和文本得分进行分类之前,将所有概念分类器的得分合并到一个高维向量中。3.2.2基于分类的融合方法非线性支持向量机Ayache等人提出了一种核融合方案来使用视频和文本等模态信息对多媒体资源进行语义索引。该方案可以根据不同的模态特征选择不同的核函数,例如文本模态可以使用字符串核或词序列核来进行分类;其次,使用融合函数合并单模态核,以创建多模态核;最后,通过学习和分类步骤输出一个分类分数。3.2.2基于分类的融合方法非线性支持向量机在图像分类领域,Zhu等人提出了一种基于支持向量机的多模态融合框架,用于对空间坐标内嵌入文本的图像进行分类。该融合框架聚合过程遵循两个步骤:一,采用词袋模型对低层视觉特征进行分析来对给定图像进行分类。同时,文本检测器利用文本的颜色、大小、位置、边缘密度、亮度、对比度等特征发现图像中存在的文本行。二,使用成对的支持向量机分类器将视觉特征和文本特征融合在一起。3.2.2基于分类的融合方法贝叶斯推断贝叶斯推断方法根据概率论的规则对多模态信息进行组合,其既可以应用于早期融合,也可以应用于晚期融合。该方法的基本原理是组合从多种模态得到的观测或从不同分类器得到的决策,然后推导出一个观测或决策的联合概率的推论。若要融合从种不同的模态获得特征向量或决策(),假设这些模态是统计独立的,那么基于融合特征向量或融合决策的假设的联合概率可计算为:
用于正则化后验概率估计
。对所有可能的假设计算后验概率。根据最大后验概率估计,估计的假设取最大概率的值,即:贝叶斯推断方法具有多种优点:第一,基于新的观察结果,它可以逐步计算出假设成立的概率。第二,它允许任何关于假设的可能性的先验知识在推理过程中被利用。新的观测或决策用于更新先验概率,以计算假设的后验概率。第三,在缺乏经验数据的情况下,这种方法允许对先验假设使用主观的概率估计。3.2.2基于分类的融合方法贝叶斯推断Atrey等人在中期融合层次都采用了贝叶斯推断融合方法。下图为该贝叶斯推断融合方法工作流程示意图。3.2.2基于分类的融合方法贝叶斯推断在早期融合层面,Pitsikalis等采用贝叶斯推断方法对视觉特征和听觉特征向量进行组合。音频特征向量包括13个静态梅尔频率倒谱系数及其衍生物,视觉特征向量由6个形状和12个纹理特征拼接而成。基于组合特征,计算语音段的联合概率。在后期融合层面,Meyer等人融合了从语音和视觉模态获得的决策。其方法共分为三个步骤:步骤一、从语音中提取梅尔频率倒谱系数特征,从说话人的脸部提取嘴唇轮廓特征;步骤二、利用隐马尔可夫模型分类器分别对这两种特征进行概率分类,得到单独的决策;步骤三、使用贝叶斯推断方法融合这些概率估计值来估计语音数字的联合概率。Xu和Chua也使用贝叶斯推断融合方法来整合运动视频中检测到的偏移和非偏移事件的概率决策。通过融合视听特征、文本线索和领域知识以及使用隐马尔可夫模型分类器来检测这些事件。在这项工作中,作者已经表明贝叶斯推断的准确性与基于规则的方案相当。3.2.2基于分类的融合方法D-S理论虽然贝叶斯推断融合方法允许不确定性建模(通常采用高斯分布),但一些研究人员更倾向于使用Dempster-Shafer证据推理法(简称D-S理论),因为它使用置信值和似真值来表示证据及其对应的不确定性。此外,D-S理论方法对贝叶斯理论进行了推广,放宽了贝叶斯推断方法对假设相互排斥的限制,从而能够为假设的并集分配证据。D-S推理系统是基于“识别框架”的基本概念,该框架包含着一个具有所有可能的相互排斥的假设的集合。每个假设是由可信度(belief)和似真度(plausibility)所确定的。3.2.2基于分类的融合方法D-S理论可信度是指一个假设被检测为真时的置信下限,其约为所有支持假设的证据的总和;而似真度则表示该假设可能为真可能性的上限,即去掉所有反对假设的证据的剩余的部分。每一个假设都会被分配一个概率,即基本可信数,基本可信数反映了对于假设本身(而不去管它的任何真子集与前因后果)的可信度大小。关于假设的判决是由可信度和似真度所限定的置信区间来衡量的。当存在多个独立模态时,利用D-S理论规则可以对它们进行融合。准确地说,假设的基本可信数基于两个模态和,可以由下面公式进行计算。式中和分别为模态和的基本可信数。3.2.2基于分类的融合方法D-S理论举例Bendjebbour等人提出利用D-S理论融合雷达图像中有云和无云两个区域的基本可信数。他们在特征层和决策层两个层次上进行融合。在特征层,以像素强度作为特征,计算并融合基于两个传感器像素的基本可信数;在决策层,利用隐马尔可夫模型分类器得到的关于一个像素的决策作为基本可信数,然后对隐马尔可夫模型输出进行组合。Mena和Malpica使用了D-S理论融合方法对彩色图像进行分割,用于从地面、航空或卫星图像中提取信息。他们从单个像素、成对的像素、一组像素中提取同一幅图像的信息,然后利用D-S证据融合策略对基于位置分析的证据进行融合。Guironnet等人从TREC视频数据中提取颜色或纹理等低层特征描述符,并使用支持向量机分类器根据每个描述符识别预定义的概念(如“海滩”或“道路”)。支持向量机分类器输出采用D-S融合方法进行集成,称之为可转移信度模型(transferablebeliefmodel)。在生物特征学领域,Reddy将D-S理论用于融合手势传感器和脑计算接口传感器两个传感器的输出。融合结果表明,D-S融合方法有助于解决传感器的模糊问题。3.2.2基于分类的融合方法动态贝叶斯网络贝叶斯推断可以扩展成网络结构(或称为图结构),图结构中的节点表示不同类型的随机变量(观察值或状态),如音频和视频;边表示它们的概率相关性。下图为静态贝叶斯网络示例,用贝叶斯网络描述了一个讲话者检测问题。“讲话者”节点的值由“凉亭”节点的值及三个中间节点“可见的”,“正面的”和“讲话”的值确定,而这些中间节点的值又是由度量节点“皮肤”、“纹理”、“脸”和“声音”所推测出来的。静态贝叶斯网络示例中显示了节点之间的依赖关系。然而,该网络是静态的,这意味着这个例子只是描述了某一特定时刻的状态。3.2.2基于分类的融合方法动态贝叶斯网络当贝叶斯网络加入时间维度时,其工作方式转变为动态贝叶斯网络(DynamicBayesianNetwork,DBN)。3.2.2基于分类的融合方法动态贝叶斯网络隐马尔可夫模型用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来作进一步的分析。下图所示为隐马尔可夫模型的状态迁移过程。其中表示在时刻的隐藏变量,是观察者无法得知的变量。而表示在时刻观测的结果。如果假设观测到的结果为,即。隐藏条件为,即,则马尔可夫模型的概率为:,可见马尔可夫模型将该时间点前后的信息都纳入考量。3.2.2基于分类的融合方法动态贝叶斯网络举例Nefian等人使用了耦合隐马尔可夫模型(CoupledHiddenMarkovModel,CHMM),它是隐马尔可夫模型的泛化。耦合隐马尔可夫模型允许主干节点进行交互,同时拥有自己的观察结果。耦合隐马尔可夫模型适用于需要集成两个或多个流的多模态场景。在这项工作中,作者对音频特征(梅尔频率倒谱系数)和视觉特征(嘴唇区域的2D离散余弦变换系数)的状态异步建模,同时保持它们时间的相关性。该方法可用于语音识别。Bengio在特征级别提出了异步隐马尔可夫模型(AsynchronousHMM,AHMM)。异步隐马尔可夫模型是隐马尔可夫模型的一种变体,用于处理异步数据流。对描述同一事件的异步序列、语音流和视频(形状和强度特征)流的联合概率分布进行建模。Fisher等提出了一种无参数方法来学习音频和视频特征的联合分布。他们为了最大化映射随机变量之间的互信息,而估计了低维子空间上的线性投影。该方法被应用于音频、视频定位。Wu等人在ACM国际会议上提出了一项使用影响图方法(贝叶斯网络的一种形式)来表示图像的语义的多模态融合框架。此多模态融合框架将上下文信息(位置、时间和相机参数)、内容信息(整体和感知局部特征)与面向领域的语义本体(由有向无环图表示)融合在一起。3.2.2基于分类的融合方法最大熵模型在一般情况下,最大熵模型是一种统计分类器,它遵循信息理论的方法,根据它所具有的信息内容预测其属于某个特定类的观测的概率。最大熵模型假设分类模型是一个条件概率分布,为特征,为输出。假设满足所有约束条件的模型集合为:定义在条件概率分布上的条件熵为:最大熵模型的目标就是求得使最大的时候对应的。通过求最大似然估计可以求得最大熵模型的解。3.2.2基于分类的融合方法最大熵模型举例Magalhaes等人将这种基于最大熵模型的融合方法用于多媒体语义索引。在这项工作中,他们将基于文本和基于图像的特征融合起来进行查询关键字的检索。具体而言,他们将文本和图像特征映射到最优特征子空间,然后为每一个查询关键字提出了一个最大熵模型:为了估计最大熵模型,权重是唯一需要通过在整个数据集上最小化上述模型的对数似然值来计算的变量:因为其采用高斯函数来减小过拟合效果,因此对数似然函数的形式为:3.2.2基于分类的融合方法基于分类的融合方法优缺点对比本节主要介绍了基于分类的融合方法,主要包括支持向量机、贝叶斯推断、D-S理论、动态贝叶斯网络和最大熵模型。每种方法都有其优势与劣势,研究者应该根据实际的场景来酌情使用,以提高模型的效果。基于概率原理的贝叶斯推断融合方法提供了对新观测的简单集成和先验信息的使用。但是,它们不适合处理相互排斥的假设。此外,由于缺乏合适的先验信息,导致该方法的融合结果不准确。另一方面,D-S理论融合方法善于处理相互排斥的假设。但是,这种方法很难处理大量的假设组合。D-S理论融合方法已用于语音识别、运动视频分析和事件检测等任务。动态贝叶斯网络被广泛应用于处理时间序列数据。动态贝叶斯网络是使用时间数据的贝叶斯推断的变形。动态贝叶斯网络方法以其不同的形式(如隐马尔可夫模型)已成功地应用于语音识别、说话人识别与跟踪、视频镜头分类等多媒体分析任务。然而,在这种方法中,往往很难确定正确的动态贝叶斯网络状态。在各种基于分类的传统的融合方法中,支持向量机和动态贝叶斯网络得到了研究人员的广泛应用。支持向量机因其改进的分类性能而受到青睐,而动态贝叶斯网络被发现更适合建模时态数据。3.2多模态融合传统方法3.2.3基于估计的融合方法3.2.2基于分类的融合方法3.2.1基于规则的融合方法3.2.3基于估计的融合方法卡尔曼滤波卡尔曼滤波(Kalmanfilter,KF)允许对动态的数据进行实时处理,并从具有一定统计意义的融合数据中得到系统的状态估计。为了使该滤波器运行,假设一个带有高斯噪声的线性动态系统模型,状态空间方程如下:基于上述状态空间模型,卡尔曼滤波器不需要保存观测历史,只依赖于前一时间戳的状态估计数据。卡尔曼滤波器的使用仅限于线性系统模型,不适用于具有非线性特性的系统。对于非线性系统模型,通常使用卡尔曼滤波器的一种变体,即扩展卡尔曼滤波器(ExtendedKalmanFilter,EKF)。3.2.3基于估计的融合方法卡尔曼滤波卡尔曼滤波器和扩展卡尔曼滤波器也已经成功地用于目标的源定位和跟踪。下图为卡尔曼滤波器融合过程示意图,其展现了使用该卡尔曼滤波器进行单目标定位和跟踪的融合过程。在本地处理器部分使用基本卡尔曼滤波器处理视频传感器传入的数据,使用扩展卡尔曼滤波器处理音频传感器传入的数据(基于音频位置的估计是非线性估计的)。然后在融合中心内融合音频和视频估计的输出。3.2.3基于估计的融合方法粒子滤波粒子滤波是一套复杂的基于仿真的方法,常用于估计非线性和非高斯状态空间模型的状态分布。这些方法也被称为顺序蒙特卡罗(SequentialMonteCarlo,SMC)方法。在这种方法中,粒子代表了状态变量的随机样本,其中每个粒子都有一个相关的权值。粒子滤波算法包括预测和更新步骤:预测步骤根据每个粒子的动力学来传播,而更新步骤根据最新的感知信息来重估一个粒子的重量。虽然卡尔曼滤波器、扩展卡尔曼滤波器或逆卡尔曼滤波器仅对线性高斯过程是最优的,但当获取足够多的样本时,粒子滤波方法可以为非线性非高斯过程提供贝叶斯最优估计。3.2.3基于估计的融合方法粒子滤波举例Vermaak等人使用粒子滤波器来估计基于音频和视频的观察结果的预测。在其所提出的系统中使用了一个摄像头和一对麦克风,并根据存储的视听序列进行了测试。视听特征的融合发生在特征层面,这意味着来自两种模态特征的单个粒子坐标被合并来跟踪说话者。Perez等人采用粒子滤波方法融合二维物体形状信息和音频信息,用于说话人的追踪。与Vermaak等人的工作不同的是,后者使用了重要性粒子滤波的概念,其中音频信息专门用于生成一个重要性函数,来影响基于音频的观察似然的计算。虽然卡尔曼滤波器、扩展卡尔曼滤波器或逆卡尔曼滤波器仅对线性高斯过程是最优的,但当获取足够多的样本时,粒子滤波方法可以为非线性非高斯过程提供贝叶斯最优估计。主要内容3.3多模态融合前沿方法3.2多模态融合传统方法3.1多模态数据融合介绍3.4多模态融合发展方向3.3多模态检索前沿方法3.3.3基于图神经网络的融合方法3.3.2基于深度学习的融合方法3.3.1基于池化的融合方法3.3.1基于池化的融合方法三部分组成:第一部分为模态嵌入子网络,其对于语言、视觉和声音模态有不同的设计;第二部分是张量融合层(TensorFusionLayer,TFL),是为了解决不同模态之间交互的问题而设计的;第三部分是情绪推理子网络,其承接张量融合层的输出,并进行情感推理。(1)张量融合网络方法3.3.1基于池化的融合方法该融合方法可以认为是张量融合网络方法的等价升级版,其利用低秩权值张量分解提高多模态融合的效率并且不影响多模态融合的性能。首先低秩多模态融合方法通过将单模态输入分别传递到三个子嵌入网络中,得到单模态表示向量。然后低秩多模态融合方法通过与特定模态因子进行低秩多模态融合输出多模态表示向量。(2)低秩多模态融合方法3.3.1基于池化的融合方法进一步地,通过堆叠多项式张量池化块搭建了层次多项式融合网络。一个多项式张量池化块在一个“接收窗口”上运行,该“接收窗口”覆盖了所有八个时间点和三种模态的特征。这样,多项式张量池化块就可以捕获窗口内总共二十四个混合特征之间的高阶非线性交互作用。多项式张量池化块与一个小的“接收窗口”相关联,它自然地表现出局部相关性。(3)多项式张量池化方法3.3.1基于池化的融合方法通过对权重张量施加低秩控制,多模态低秩双线性池化(MultimodalLow-rankBilinearPooling,MLB)方法将双线性池的三维权值张量分解为三个二维权值矩阵。多个多模态因子分解双线性池化模型可以级联来建模输入特性之间的高阶交互,这被称为多模态因数化高阶池化(Multi-modalFactorizedHigh-orderPooling,MFH)方法。Ben-Younes等人提出的MUTAN是一种基于多模态张量的Tucker分解的方法,其使用Tucker分解将原始的三维权重张量算子分解为低维核心张量和MLB使用的三个二维权量矩阵。近期提出的BLOCK方法使用了一个基于块的超对角阵的融合框架,其利用块项分解来计算双线性池化。BLOCK将MUTAN泛化为多个MUTAN模型的总和,为模态之间的交互提供更丰富的建模。(4)其他基于池化的融合方法3.3多模态检索前沿方法3.3.3基于图神经网络的融合方法3.3.2基于深度学习的融合方法3.3.1基于池化的融合方法3.3.2基于深度学习的融合方法判别模型直接对输入数据X到输出数据Y之间的映射关系进行建模,模型参数是通过最小化一些提前设计好的目标损失函数学习而来。这类模型比较适合一些多模态学习任务,比如多模态数据分类任务,推荐系统,视觉问答(VisualQuestionAnswer,VQA),人类行为识别任务等。多层感知机也叫作前馈神经网络,是典型的深度学习模型。神经网络的基本组成单元是神经元,下图为单神经元结构示例。(1)多层感知机介绍3.3.2基于深度学习的融合方法常用的激活函数有用于高斯输出分布的线性激活函数,用于伯努利输出分布的Sigmoid型函数,用于多变量伯努利输出分布的softmax函数,整流线性单元ReLU函数及一系列变体等。(1)多层感知机介绍3.3.2基于深度学习的融合方法随着隐层数量的增多,该类模型可被称为多层感知机。当引入非线性的隐含层后,理论上只要网络结构足够深(隐藏层数目足够多)或网络结构足够宽(隐藏层的节点足够多),通过多层非线性变换多层感知机就可以拟合任意函数。图中每一层网络的输入都为上一层网络的输出,这意味着网络中不存在反馈,信号总是向前传播。(1)多层感知机介绍3.3.2基于深度学习的融合方法卷积神经网络对于图像数据的平移、缩放、倾斜或者其它一些形式的变形具有良好的容错能力。卷积神经网络结构具有局部连接和权值共享的特点。前一层的每个神经元只与后一层特定范围内的神经元存在连接。每个神经元只对局部感知,然后将局部的信息传到下一层综合起来就得到了全局的信息,使得连接具有稀疏性,这样将大大节约空间存储和训练所需时间。权值共享:理论证明,图像的各部分统计特性之间具有相似性和连续性,所以对于一幅图像上的不同位置,可以采用同样的滤波器学习完成一幅图像的一次特征映射,反映到结构设计上体现为同一层中某些神经元之间共享连接权重。(2)卷积神经网络介绍3.3.2基于深度学习的融合方法卷积神经网络结构上增加了特有的卷积层和池化层,数据信号在网络中的前向传播和残差反向传播也与多层感知机有所区别。(2)卷积神经网络介绍3.3.2基于深度学习的融合方法卷积神经网络深的各输入元素之间是相互独立的,输入与输出也是独立的。希望从数据中挖掘到上下文之间的关系从而更好的实现预测,递归神经网络针对序列模式设计的特殊结构可以利用输入数据的上下文的信息,使其广泛应用于文本生成、机器翻译、语音识别等领域。递归神经网络通过隐藏层信号在不同时间步之间的传递使得模型可以基于前面的信息学习后面的特征。(3)递归神经网络及长短期记忆单元网络介绍3.3.2基于深度学习的融合方法长短期记忆(Longshort-termmemory,LSTM)单元用于克服典型RNN不能学习双向的上下文、不能“记忆”长期信息等缺陷。能够解决长序列训练过程中的梯度消失和梯度爆炸问题,在更长的序列中有更好的表现。主要由遗忘门、输入门和输出门三部分组成,均采用sigmoid函数。(3)递归神经网络及长短期记忆单元网络介绍3.3.2基于深度学习的融合方法多模态卷积神经网络m-CNN为了充分捕捉语义关联,在端到端架构中设计了单词等级、词组等级和句子等级三种等级的融合策略。单词等级和词组等级的融合是指将句子中的部分单词或词组与图像的部分区域相融合。句子等级的融合则指整个句子和图像的整体相融合。设计了三个子网络,分别是:图像子网络、匹配子网络和评估子网络。(4)基于判别模型的多模态数据融合方案3.3.2基于深度学习的融合方法模态数据的兴趣相关产品相似模型(MultimodalInterest-RelatedItemSimilaritymodel,MultimodalIRIS将用户与产品的交互信息以及产品的图像数据与文本数据相融合,用于产品的推荐。MultimodalIRIS模型由三个模块组成,即多模态特征学习模块、兴趣相关网络(Interest-RelatedNetwork,IRN)和产品相似度推荐模块。(4)基于判别模型的多模态数据融合方案3.3.2基于深度学习的融合方法编码器是基于生成模型中常见的一种模型。通常意义的自编码器原理很简单,包括一个编码器和解码器,数学上都表现为输入信号的变换运算。编码器经变换运算将输入信号编码成信号,而解码器将经编码的转换成输出信号。自编码器区别于多层感知器的最重要的一点是采用无监督学习方式,训练时输入即输出,不需要额外的标签。输入层到隐含层为编码器,它可以从高维输入空间变换到低维隐含空间,即学习到数据的隐含表示。隐含层到输出层为解码器,利用学习到的隐含特征重构输出逼近原始输入数据。(5)基于生成模型的多模态数据融合方法3.3.2基于深度学习的融合方法典型的自编码器结构,输入层的通过编码器的编码过程得到隐藏层的低维向量,再通过解码器重构输出逼近输入的。(5)基于生成模型的多模态数据融合方法3.3.2基于深度学习的融合方法两模态深度自编码器首先从音频输入和视频输入中分别得到音频表示向量和视频表示向量,然后经过编码融合得到共享表示向量,最后经过解码器得到音频重建向量和视频重建向量。(5)基于生成模型的多模态数据融合方法3.3.2基于深度学习的融合方法注意力机制允许模型将注意力集中在特征图的特定区域或特征序列的特定时间点上。通过该机制,不仅仅可以提高性能,而且可以提高特征
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025《电视剧发行合同》
- 应对低温雨雪冰冻大风天气应急救援工作措施
- 2025专业咨询服务合同 咨询服务合同范本
- 2025年长治从业资格证模拟考试题下载货运
- 涵予serena连读规则
- 海因利德法则
- 2025年朔州货物运输驾驶员从业资格考试系统
- 2024年七月智能电表内置蓄电池防盗拆协议
- 2025年兰州货运从业资格证网上考试
- 蛋白质的互补作用名词解释生物化学
- 安全生产隐患识别图集 问题图片和整改图片对比 危险源识别(上)
- 土地征收回收补偿方案范本
- 建标 156-2011 特殊教育学校建设标准
- 贵州省普通国省干线二级公路改扩建工程 公路交通安全设施技术指导书(试行)2015-01
- 植物营养与肥料研究行业概述
- 开放性骨折处理
- 小学数学命题设计案例解析课件
- 临床血液学检验技术-第十章-第二节-常见出血性疾病及检验-课件
- 创新创业基础知到章节答案智慧树2023年延安职业技术学院
- 雷电的预防和应对
- GB/T 19632-2005殡葬服务、设施、用品分类与代码
评论
0/150
提交评论