小样本目标检测研究综述_第1页
小样本目标检测研究综述_第2页
小样本目标检测研究综述_第3页
小样本目标检测研究综述_第4页
小样本目标检测研究综述_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机科学与探索JournalofFrontiersofComputerScienceandTechnology167计算机科学与探索JournalofFrontiersofComputerScienceandTechnology小样本目标检测研究综述开放科学(OSID)1.广西大学计算机与电子信息学院,南宁5300042.北京市农林科学院信息技术研究中心,北京1000973.国家农业信息化工程技术研究中心,北京100097+通信作者E-mail:chend@摘要:目标检测是计算机视觉方向的热点领域,其通常需要大量的标注图像用于模型训练,这将花费大量的人力和物力来实现。同时,由于真实世界中的数据存在固有的长尾分布,大部分对象的样本数量都比较稀少,比如众多非常见疾病等,很难获得大量的标注图像。小样本目标检测只需要提供少量的标注信息,就能够检测出感兴趣的对象,对小样本目标检测方法做了详细综述。首先回顾了通用目标检测的发展及其存在的问题,从而引出小样本目标检测的概念,对同小样本目标检测相关的其他任务做了区分阐述。之后介绍了现有小样本目标检测基于迁移学习和基于元学习的两种经典范式。根据不同方法的改进策略,将小样本目标检测分为基于注意力机制、图卷积神经网络、度量学习和数据增强四种类型,对这些方法中使用到的公开数据集和评估指标进行了说明,对比分析了不同方法的优缺点、适用场景以及在不同数据集上的性能表现。最后讨论了小样本目标检测的实际应用领域和未来的研究趋势。TPSurveyofFew-ShotObjectDetection 1.SchoolofComputer,ElectronicsandInformation,GuangxiUniversity,Nanning530004,China2.ResearchCenterofInformationTechnology,BeijingAcademyofAgricultureandForestrySciences,Beijing100097,China3.NationalEngineeringResearchCenterforInformationTechnologyinAgriculture,Beijing100097,ChinaAbstract:Objectdetectionasahotfieldincomputervision,usuallyrequiresalargenumberoflabeledimagesformodeltraining,whichwillcostalotofmanpowerandmaterialresources.Atthesametime,duetotheinherentlong-taileddistributionofdataintherealworld,thenumberofsamplesofmostobjectsisrelativelysmall,suchasmanyuncommondiseases,etc.,anditisdifficulttoobtainalargenumberoflabeledimages.Inthisregard,few-shotobjectdetectiononlyneedstoprovideasmallamountofannotationinformationtodetectobjectsofinterest.Thispapermakesadetailedreviewoffew-shotobjectdetectionmethods.Firstly,thedevelopmentofgeneraltargetdetectionanditsexistingproblemsarereviewed,theconceptoffew-shotobjectdetectionisintroduced,andothertasksrelatedtofew-shotobjectdetectionaredifferentiatedandexplained.Then,twoclassicalparadigmsbasedontransferlearningandmeta-learningforexistingfew-shotobjectdetectionareintroduced.Accordingtotheimprovementstrategies基金项目:北京市科技计划项目(Z191100004019007);云南省烟草公司科技计划项目(2020530000241027)。ThisworkwassupportedbytheScienceandTechnologyProjectofBeijing(Z191100004019007),andtheTobaccoCompanyScienceandTechnologyProjectofYunnanProvince(2020530000241027).收稿日期:2022-06-06修回日期:2022-08-08刘春磊等:小样本目标检测研究综述55即Cb⋂Cn=∅。小样本目标检测方法的目标是通过在基类和新类数据集上训练得到一个模型,期待该模型可以检测出任意给定测试图像中的新类和基类标检测定义如图1所示。图1小样本目标检测示意图Fig.1Schematicdiagramoffew-shotobjectdetection小样本目标检测算法的训练过程一般分为两个阶段:第一阶段使用大量的基类数据Dbase进行模型se基训练阶段;第二阶段使用由少量的基类数据Dbase和新类数据Dnovel组成的平衡数据集Dfinetune对基模型Mbase进行模型微调,得到最终模型Mf,称之为微调阶段。整个训练过程如图2所示。1.2小样本目标检测的相关领域研究在通用目标检测的基础上,有一些其他新颖的研究方向,这些研究方向与小样本目标检测有相似之处,容易造成混淆,本节对这些研究方向进行简易的区分解释。零样本目标检测[18]在算法模型的训练阶段只使用可见类别,不可见类别的视觉信息不会被使用到,而用其语义等辅助信息参与训练,这些辅助信息正是零样本目标检测的研究重点。小样本目标检测可以使用少量的新类图像作为视觉方面的信息,同时借鉴零样本中不可见类别中辅助信息的使用;单例目标检测[19]是小样本目标检测的一个特例,其中每个新类只有一个标注对象信息;任意样本目标检测[20]将零样本或者小样本的情况同时考虑,即一个算法模型既可以解决零样本问题又可以处理小样本问题。还有一些其他的研究在小样本目标检测的基础上,新增加一些新的领域限定条件。为了避免灾难性遗忘,同时可以持续检测不断增加的新类别,提出了类增量小样本目标检测[21];半监督小样本目标检测[22]在不增加新类标注的情况下,将基类数据的来源修改为有标注的图像和没有标注的图像;弱监督小样本目标检测[23]相对于小样本目标检测的区别在于其数据集中新类标注不是实例级的,而是由图像级标注构成的。图2模型训练过程Fig.2Modeltrainingprocess图2模型训练过程Fig.2Modeltrainingprocess图3小样本目标检测及其相似任务的区别与联系Fig.3Differencesandconnectionsbetweenfew-shotobjectdetectionanditssimilartasks2023,17(1)计算机科学与探索JournalofFrontiersofComputer2023,17(1)计算机科学与探索图图5元学习基线方法FSRW算法架构图加明确本综述的研究范围,本文对这些相似概念做了简单的区分说明。同时,可以从这些领域寻找问题解灵感,将其应用到小样本目标检测方法。2小样本目标检测的两类经典范式目前的小样本目标检测方法可以概括为两种范式,基于迁移学习的范式和基于元学习的范式。基于迁移学习的范式是将从已知类中学习到的知识迁移到未知类的检测任务中。基于元学习的范式是利用元学习器从不同的任务中学习元知识,然后对包含有新类的任务通过元知识的调整完成对新类的检测。本章将对这两种范式的典型方法进行简述。2.1基于迁移学习的范式两阶段微调方法(two-stagefine-tuningapproach,TFA)[24]是迁移学习范式的基线方法,基于FasterR-CNN算法进行改进。TFA认为FasterR-CNN主干网络是类无关的,特征信息可以很自然地从基类迁移到新类上,仅仅只需要微调检测器的最后一层(包含类别分类和边界框回归),就可以达到远远超过之前方法的性能表现。整个方法分为基训练和微调两个阶段,如图4所示。在基训练阶段,整个模型在有着大量标注的基类上训练;在微调阶段,冻结网络前期的参数权重,由基类和新类组成的平衡子集对顶层的分类器和回归器进行微调。另外,TFA在微调阶段的分类器上采用余弦相似性测量候选框和真实类别边界框之间的相似性。由于小样本中每个新类别的样本量非常少,其高方差可能会导致检测结果的不可靠,TFA通过抽样多组训练样本进行评估,并且在不同组进行多次实验得到平均值。由于统计上的偏差,之前的评估标准无法完成不同算法的统一比较,TFA修改了原先的上建立了新的基准,检测基类、新类和全部数据集上的性能表现,提出了广义小样本目标检测基准。2.2基于元学习的范式一张图像中可能存在多个感兴趣对象,在小样本模型训练中只需要标注支持集中基类的边界框即可,元学习范式有两种标注方法,一种是将支持集裁剪为只包含目标实例的图像,另一种是在表示图像的RGB三通道外,再添加一个掩码通道组成四通道,第四通道使用数字1标注出感兴趣对象的边界框,其etectionviafeaturereweighting)[28]是小样本目标检测基于元学习的基线方法,架构图如图5,使用了上述第二种图图4迁移学习基线方法TFA算法架构图Fig.4ModelarchitecturediagramoftransferlearningbaselinemethodTFAFig.5Modelarchitecturediagramofmeta-learningbaselinemethodFSRW刘春磊等:小样本目标检测研究综述57③元学习范式除了通用目标检测模型外,还有一个需要获得类别级元知识的元学习器,而迁移学习范式只需要在通用目标检测模型上改进即可。③元学习范式除了通用目标检测模型外,还有一个需要获得类别级元知识的元学习器,而迁移学习范式只需要在通用目标检测模型上改进即可。3小样本目标检测算法研究现状上一章中,将小样本目标检测分为基于元学习和基于迁移学习两种范式,在这两种范式中,存在着一些共性的解决方法,依据这些方法改进策略的不同,将小样本目标检测分类为基于注意力机制、基于图卷积神经网络、基于度量学习和基于数据增强四种实现方式,分类概况如图6所示。在本章中,将对这些分类方法进行详细分析和总结。jI像,Q表示查询集图像,I表示输入图像,M表示图像的标注信息,可见,一个任务应当包含N个属于不同类别的支持图像和带注释的查询图像,每个支持集的类别需要包含K个边界框,即一个任务的支持集N×K个标注对象,这也被称为N-WayK-shot问题。RWYOLOv2[9]进行改进的,在一阶段网络中新增了元特征学习器和元学习器模块,元特征学习器以查询图像为输入,使用YOLOv2的骨干实现,从有充足样本的基类图像中提取具有泛化性的元特征,用于之后检测新类。元学习器模块以支持集为输入,将新类的某一类别实例转换为一个全局向量,该向量用来检测特定类别的对象实例。网络的训练过程同样分两阶段完成,首先使用基类数据训练连同元学习器模块在内的整个网络模型,然后由少量标注的新类和基类组成的平衡数据集微调模型以适应新类。2.3两种范式的对比分析 (1)迁移学习和元学习的相同点:①两种范式都是为了解决小样本目标检测任务而提出的,都希望通过少量的新类图像就可以完成对新类别的检测。②两种范式的数据集都分为有大量标注的基类数据和只有少量标注的新类数据。Fig.6Classificationgraph3.1基于注意力机制对于小样本目标检测来说,难以从少量的新类样本中准确学习到感兴趣对象的特征信息,而通过注意力机制可以较为准确地找到图像中的感兴趣区域,目前已有一些关于注意力机制的研究[30],注意力机制可以看作一个动态选择的过程,通过输入的重要性对特征进行自适应特征加权。本节将其分为通道注意力、空间注意力和Transformer自注意力方法。3.1.1通道注意力2018年Hu等[31]首次提出了使用SENet的通道注意力,如图7所示,不同特征图的不同通道可能代表着不同的对象,当需要选择什么对象时,通道注意力使用自适应的方法重新校准每个通道的权重来关注该对象。别是基训练阶段和微调阶段,算法模型在基训练阶段学习到基类数据具有泛化性的知识,然后在新类数据上对模型进行微调,达到检测新类的目的。④两种范式的评价指标相同,不论是VOC数据评价指标都是相同的。 (2)迁移学习和元学习的不同点:①数据的输入方式不同,元学习范式是以任务 (episode)为输入单元,每个任务由支持集图像和查询集图像组成,目的是找到查询集图像中属于支持集类别的目标对象,而迁移学习范式通常不需要分为支持集和查询集两部分。②元学习范式随着支持集中类别数量的增加,内存利用率会降低,而迁移学习范式不会随着类别数量的增加而使内存利用率降低。2023,17(1)计算机科学与探索JournalofFrontiersofComputer2023,17(1)计算机科学与探索Fig.7SEblock在迁移学习范式上,Zhang等[32]使用二阶池化和幂正则化计算支持特征和查询特征之间的互相关性,二阶池化提取支持特征数据的二阶统计,形成注意力调制图,通过添加幂正则化可以减少二阶池化带来的可变性。Wu等[33]提出了FSOD-UP(universal-prototypeaugmentationforfew-shotobjectdetection)方法,使用了通用原型的知识,在条件性通用原型和候选框上施加通道注意力机制,提高了候选框的生成质量,以此提高方法对新类的检测性能。在元学习范式上,Yan等[34]针对一张图像有多个目标的问题提出了MetaR-CNN方法,该方法不是对MetaR-CNN新增加了预测头重塑网络分支,该分支用有标注的支持图像获取每个类别的注意向量,对模型生成的感兴趣区域特征应用该向量进行通道注意力关注,以检测出查询图像中与这些向量表示的类别相同的对象。Wu等[35]在Meta-RCNN中将由支持集得到的类原型与查询集的特征图通过类别注意力结合起来,获得每个特定类的特征图,然后将这些特征图结合起来使用随后的区域候选网络和检测头Attention-RPN方法前期阶段使用深度互相关注意力区域候选网络,通过通道注意力机制利用支持集和查询集之间的关系提高候选框的生成质量。Liu等[36]认为检测中分类和定位子任务对特征嵌入的喜好不同,提出了AFD-Net(adaptivefully-dualnetwork)方法,分开处理分类和定位问题,对支持集分支使用注意力机制产生分类和回归两个通道注意力分支,之后将这两个分支与查询集的感兴趣区域的分类和定位特征进行聚合处理,最终得到增强的特征表示。3.1.2空间注意力当人们看到一张图像时,他们总是会将视线聚焦于图像中的某一区域,空间注意力受此启发,对特征图上的每个位置进行注意力调整,可以自适应地关注图像中的某重点区域,这些重点区域往往是人们所感兴趣的对象。Chen等[37]基于迁移学习范式提出了AttFDNet方法,将自底向上的空间注意力和自顶向下的通道注意力结合起来,自底向上注意力由显著性注意(sa-liencyattentivemodel,SAM)模块实现,由于其类别无关性,能够自然检测图像中的显著区域。Yang等[38]为解决训练集数据多样性少的问题,提出了CTNet方法,使用亲和矩阵在不同尺度、位置和空间关系三方面识别每个候选框上下文字段的重要性,再用上下文聚合将这些关系与候选框聚合起来,利于新类别分类的同时,避免了大量的误分类。Li等[39]提出了LSCN(low-shotclassificationcorrectionnetwork)方法,用从基类检测器中得到的误检候选框作为方法校正网络分支的输入,使用空间注意力机制通过跨通道的任意两个位置间的成对关系获得全局感受野,通过捕捉整张图像的信息,解决候选框复杂的对象外观问题。Xu等[40]在FSSP(few-shotobjectdetec-tionviasampleprocessing)方法中使用了自我注意力模块(self-attentionmodule,SAM),该空间注意力模块可以突出显示目标对象的物理特征而忽略其他的噪声信息,更好地提取复杂样本的特征信息。Agar-wal等[41]提出了AGCM(attentionguidedcosinemar-gin)方法解决小样本下的灾难性遗忘和类别混淆问题,构建了注意力候选框融合模块,通过空间注意力关注不同候选框之间的相似性,用于减少类内的方差,从而在检测器的分类头中创建类内更加紧密、类间良好分离的特征簇。基于元学习范式,Chen等[42]为解决小样本任务中的空间错位和特征表示模糊问题,提出了包含跨图像空间注意的DAnA(dual-awarenessattention)方法,通过跨图像空间注意自适应地将支持图像转化为查询位置感知向量,通过测量该感知向量和查询区域的相关性,确定查询区域是否为想要的目标对象。MetaFasterR-CNN[43]将检测头分为基类检测和新类检测两种,基类检测沿用原有的FasterR-CNN部分,新类检测头提出了Meta-Classifier模块,使用注意力机制进行特征对齐,解决空间错位问题,在查询图像的候选框特征和支持集类原型的每个空间位置通过亲和矩阵计算对应关系,基于对应关系,获得想要的前景对象。Quan等[44]认为在支持集中使用互相关技术会给查询特征引入噪声,提出了CAReD(crossattentionredistribution)方法,专注挖掘有助于候选框生成的支持特征,去除有害的支持噪声。不再对支持集特征作平均处理,而是通过空间注意力计算同刘春磊等:小样本目标检测研究综述59一类别不同实例之间的相关性,对每个支持特征重加权,从而得到最终的支持特征。彭豪等[45]在由多尺度空间金字塔池算法生成的不同层次上产生注意力图,强化了特定尺度物体的线索,可以提高小目标的SODkernelizedfew-shotobjectdetector)方法,针对PNSD(powernor-malizingsecond-orderdetector)中核化仍然是线性相关的问题,使用核化自相关单元从支持图像中提取特征形成线性、多项式和RBF(radialbasisfunction)核化表示。然后将这些特征表示与查询图像的特征进行交叉相关以获得注意力权重,并通过注意力区域提议网络生成查询提议区域。3.1.3Transformer自注意力机制Transformer注意力机制在自然语言处理已经取得了巨大成功[47]。DETR成功地将其应用到目标检测领域,将检测问题看作集合预测问题。其中的核心内容是多头注意力机制,其将模型分为多个头,形成多个特征子空间,可以让模型关注图像不同方面的信息,通过图像的内在关系来获取图像中重要的中提取支持类原型,解码分支将带有支持类原型的查询特征聚合为特定类的特征,然后应用与类别无关的Transformer解码器预测该支持类的检测结果。Hu等[49]提出了DCNet方法,提出稠密关系蒸馏解决外观改变和遮挡问题,稠密关系蒸馏模块通过编码器将支持集和查询集提取出的特征信息编码成原生Transformer注意力机制关注查询集和支持集之间的像素级关系,用以增强查询集的特征表示。APSPNet (attendingtoper-sample-prototypenetworks)[50]在经典的元学习方法Attention-RPN和FsDetView(few-shot一类别不同实例之间的相关性,对每个支持特征重加权,从而得到最终的支持特征。彭豪等[45]在由多尺度空间金字塔池算法生成的不同层次上产生注意力图,强化了特定尺度物体的线索,可以提高小目标的SODkernelizedfew-shotobjectdetector)方法,针对PNSD(powernor-malizingsecond-orderdetector)中核化仍然是线性相关的问题,使用核化自相关单元从支持图像中提取特征形成线性、多项式和RBF(radialbasisfunction)核化表示。然后将这些特征表示与查询图像的特征进行交叉相关以获得注意力权重,并通过注意力区域提议网络生成查询提议区域。3.1.3Transformer自注意力机制Transformer注意力机制在自然语言处理已经取得了巨大成功[47]。DETR成功地将其应用到目标检测领域,将检测问题看作集合预测问题。其中的核心内容是多头注意力机制,其将模型分为多个头,形成多个特征子空间,可以让模型关注图像不同方面的信息,通过图像的内在关系来获取图像中重要的用来聚合两分支的关键信息,用聚合到的关键信息Cross-Transformer的感兴趣区特征提取器,两分支联合提取查询建议框和支持图像感兴趣区,进行多级交互处理。图8多头注意力模块Fig.8Multi-headattentionblockZhang等[48]借鉴DETR的思想,提出了Meta-DETR方法,去除了在小样本中表现不佳的候选框预测,改为直接的端到端检测。Meta-DETR由查询编码分支、支持编码分支和解码分支三部分组成。查询编码分图8多头注意力模块Fig.8Multi-headattentionblockZhang等[48]借鉴DETR的思想,提出了Meta-DETR方法,去除了在小样本中表现不佳的候选框预测,改为直接的端到端检测。Meta-DETR由查询编码分支、支持编码分支和解码分支三部分组成。查询编码分支以查询图像为输入,通过特征提取器和Transformer编码器生成其查询特征,支持编码分支从支持图像3.2基于图卷积神经网络小样本条件下的新类样本数量少,可以通过深入挖掘不同类别之间的内在关系来实现对新类的检测,卷积神经网络存在平移不变性,即一张图像可以2023,17(1)计算机科学与探索JournalofFrontiersofComputer2023,17(1)计算机科学与探索共享卷积算子的参数,图结构则没有这种平移不变性,每一个图节点的周围结构都可能是不同的,因此,图可以处理实体之间的复杂关系。图由节点和边组成,每个节点都有自己的特征,节点与节点之间通过边进行关联,图卷积就是利用节点间的边关系示。Kim等[53]认为图像中各种物体的存在有所关联,比如一张图像中某个对象周围有键盘和显示器,那它更可能是鼠标而不是球,基于此提出了基于迁移学习范式的FSOD-SR(spatialreasoningforfew-shotobjectdetection)方法,通过图卷积技术考虑图像中对象共享卷积算子的参数,图结构则没有这种平移不变性,每一个图节点的周围结构都可能是不同的,因此,图可以处理实体之间的复杂关系。图由节点和边组成,每个节点都有自己的特征,节点与节点之间通过边进行关联,图卷积就是利用节点间的边关系示。Kim等[53]认为图像中各种物体的存在有所关联,比如一张图像中某个对象周围有键盘和显示器,那它更可能是鼠标而不是球,基于此提出了基于迁移学习范式的FSOD-SR(spatialreasoningforfew-shotobjectdetection)方法,通过图卷积技术考虑图像中对象间的全局上下文关系,而不仅是通过单个感兴趣区域特征预测新类,将感兴趣区域特征作为图节点,边的构成由感兴趣区域特征表示的视觉信息和几何坐标信息两者结合得到,如图9所示。Zhu等[54]提出SRR-FSD(semanticrelationreasoningforfew-shotobjectdetection)方法,利用基类与新类之间存在的恒定语义关系,由所有的词嵌入特征组成嵌入语义空间,应用图卷积进行显式关系推理,将从大量文本中学习到的语义信息嵌入到每个类概念中,并与分类的视觉特征进行结合。综上所述,基于图卷积神经网络的小样本目标检测方法大多选择将候选框作为图的节点,通过图卷积来自动推理不同候选框之间的关系,以此学习到新类同基类间的内在联系,达到对新类对象的检测。但是当图节点过多时,节点之间的边关系也会变得异常复杂,可能会面临模型过拟合的问题。同时,新类的样本量较少也可能导致模型在新类检测上产生过拟合现象。3.3基于度量学习通过度量基类和小样本的新类之间的相似性,使得不同类别彼此远离,相同类别之间靠近,可以很好地区分出新类数据。度量学习又可分为改进度量损失函数、原型学习和对比学习。度量损失函数在不同类别之间设计距离公式;原型学习为每个类别生成线性分类器,衡量类别与原型之间的距离;对比学习是将目标图像与某几个图像对比进行检测。3.3.1改进度量损失函数图9FSOD-SR架构图Fig.9FSOD-SRarchitecturediagramKim了FSOD-KT(few- shotobjectdetectionviaknowledgetransfer)方法,其支持集分支使用图卷积技术对查询图像感兴趣区的特征向量进行特征增强。图的顶点为每个类的原型,图的边关系使用类别之间的文本相似性度量(由GloVe[56]计算),通过图卷积神经网络使这些类原型间产生关联,然后通过增强后的原型对查询图像的感兴趣区域特征进行度量,检测出与该原型一致的类图9FSOD-SR架构图Fig.9FSOD-SRarchitecturediagramKim了FSOD-KT(few- shotobjectdetectionviaknowledgetransfer)方法,其支持集分支使用图卷积技术对查询图像感兴趣区的特征向量进行特征增强。图的顶点为每个类的原型,图的边关系使用类别之间的文本相似性度量(由GloVe[56]计算),通过图卷积神经网络使这些类原型间产生关联,然后通过增强后的原型对查询图像的感兴趣区域特征进行度量,检测出与该原型一致的类orFSOD (dynamicrelevancelearningforfew-shotobjectdetec- tion)方法,考虑到不同类之间存在着联系,将支持集可能地区分开。刘春磊等:小样本目标检测研究综述61在元学习范式上,Karlinsky等[61]在RepMet(rep-resentative-basedmetriclearning)方法中提出一个距离度量学习(distancemetriclearning,DML)模块,代替了FasterR-CNN中的检测头,假定特征嵌入空间中每个类有K个模型,DML计算感兴趣区域在每个类别中每个模型的概率,新增加了嵌入损失函数,减小嵌入向量E和最接近表征的距离,扩大嵌入向量E和一个错误类的最接近表征的距离。Li等[62]为了减轻新类的特征表示和分类之间存在的矛盾,提出了CME(classmarginequilibrium)方法。为了准确实现新类的类别分类,任意两个基类应该彼此远离,为了准确表示新类特征,基类的分布应该彼此接近。CME首先通过解耦定位分支将检测转换为分类问题,在特征学习过程中,通过类边际损失为新类保留充足的边界距离,在追求类边界平衡中保证新类的检测性能。Zhang等[63]提出了PNPDet(plug-and-playdetector)方法,将基类和新类检测分开,防止在学习新概念的时候影响基类的检测性能,以CenterNet[64]为基础架构,新增了一个用于新类别检测的热图预测并行分支,将最后一层热图子网络替换为余弦相似对比头和自适应余弦相似对比头,将距离度量学习的损失函数引入类别预测中,极大提升了新类的检测性能。彭豪等[45]在隐藏层的特征空间上应用正交损失函数,使得模型在分类过程中保持不同类别彼此分离,相同类别彼此聚合。3.3.2对比学习对比学习是将目标图像与某几个图像进行对比检测,在最小化类内距离的同时最大化类间距离,提高相同或相似类之间的紧凑性和加大不同类之间的差异性,可以有效提高边界框的分类精度。在迁移学习范式上,Sun等[65]在原有分类和定位分支外,新增加一个对比分支,通过对比候选框编码损失函数,利用余弦相似性函数度量感兴趣区域特征和特定类权重的语义相似性。在元学习范式上,Fan等[29]在Attention-RPN方法中采用了三元组对比训练策略,即一张支持集图像与查询集相同类别的一个正例和不同类别的一个负InfoNCE[66]的启发下,将无监督的对比学习转换为有监督的对比学习,对支持和查询两分支的最终特征施加对比学习策略。3.3.3原型学习框,Pc代表类别c的原型,原型代表每个类别的总体特征表示,可以通过衡量某个未知类别与原型间的距离对未知类进行分类。基于迁移学习范式,Qiao等[67]提出了一个解耦的通过在分类分支中使用原型校准模块解决多任务的耦合。使用一个离线的原型与感兴趣区特征计算相似度,然后用得到的相似度微调模型进行类别预测,可以分类出与原型相似的感兴趣区域特征。Wu等[33]提出了通用原型的方法FSOD-UP,通用原型是在所有的对象类别中学习的,而不是某一个特定类。不同类别间存在着内在不变的特征,可以利用这点来增强新类对象特征。基于元学习范式,Li等[68]提出了基于元学习和度量学习的MM-FSOD(metaandmetricintegratedfew-shotobjectdetection)方法,将元学习训练方法从分类转移到特征重构。新的元表示方法对类内平均原型进行分类,区分不同类别的聚类中心,然后重建低级特征。Han等[43]针对候选框生成提出了MetaFasterR-CNN方法,采用基于轻量化度量学习的原型匹配网络。MetaFasterR-CNN中Meta-RPN是一个锚框级轻量化粗粒度原型匹配网络,Meta-Classifier是一个像素级细粒度原型匹配网络,整个检测网络是从粗粒度到细粒度优化的过程,用来产生特定新类的候选框。考虑到FSRW[28]方法只是简单地平均支持样本信息生成每个类别的原型,这样的做法泛化性较差,APSPNet[50]将每个支持样本看作一个原型,称之为逐样本原型,这样可以更好地将不同的支持信息与查询图像结合。综上所述,度量学习主要通过令相同类别之间彼此靠近、不同类别之间彼此远离来完成。其思路简单好用,被大量应用到小样本目标检测中,但度量学习过于依赖于采样的策略,如果采集的样本过于复杂,可能会发生不收敛、过拟合的问题;如果采集的样本过于简单,又可能不会学习对类别检测有用的信息。3.4基于数据增强小样本的核心问题是其数据量少,最简单直接的想法就是扩充数据样本。郭永坤等[69]就图像在空频域上的图像增强方法作了研究综述,数据增强技术可以通过直接增加训练的图像数量或者间接对特征进2023,17(1)计算机科学与探索JournalofFrontiersofComputer2023,17(1)计算机科学与探索加模型能够处理的图像信息,减少模型的过拟合。3.4.1多特征融合在迁移学习范式上,Zhang等[32]提出了PNSD方法,使用多特征融合得到细节更丰富的特征图,多特征融合采用双线性插值上采样和1×1卷积下采样将所有特征映射到相同的尺度,将尺度信息显式混合到特征图中。另外,通过注意力候选区网络生成候选框,经过相似网络的全局、局部和块状关系头三种关系进行分类和定位。Vu等[70]对通过主干网络得到的特征图使用了多感受野的婴儿学习,使用多感受野可以得到该对象的更多空间信息,通过微调多感受野模块有效地将先验空间知识转移到新域。法,将查询图像的候选框和支持集特征进行三种方式特征融合,三种融合方式分别是通道连接、简单相减和查询特征自身,这样可以更好地利用特征之间的内在关系。Fan等[29]在提出的Attention-RPN方法中使用了多关系检测器,通过支持集的候选框和查询集感兴趣区域特征进行全局、局部和块状的关系结合,避免了背景中的错检。Hu等[49]认为当对象发生遮挡时,局部的细节信息往往起绝对性作用,提出了DCNet方法,在感兴趣区域上使用三种不同的池化层捕捉上下文信息要远好于单一池化的效果。彭豪等[45]对感兴趣区域分别施加最大池化和平均池化技术,进行多种特征融合,可以提升模型对新类参数的敏感度。3.4.2增加样本数量的方法在迁移学习范式上,Wu等[72]为解决小样本中的尺度问题,提出了MPSR(multi-scalepositivesamplerefinement)方法,将对象金字塔作为一个辅助分支加加模型能够处理的图像信息,减少模型的过拟合。3.4.1多特征融合在迁移学习范式上,Zhang等[32]提出了PNSD方法,使用多特征融合得到细节更丰富的特征图,多特征融合采用双线性插值上采样和1×1卷积下采样将所有特征映射到相同的尺度,将尺度信息显式混合到特征图中。另外,通过注意力候选区网络生成候选框,经过相似网络的全局、局部和块状关系头三种关系进行分类和定位。Vu等[70]对通过主干网络得到的特征图使用了多感受野的婴儿学习,使用多感受野可以得到该对象的更多空间信息,通过微调多感受野模块有效地将先验空间知识转移到新域。法,将查询图像的候选框和支持集特征进行三种方式特征融合,三种融合方式分别是通道连接、简单相减和查询特征自身,这样可以更好地利用特征之间的内在关系。Fan等[29]在提出的Attention-RPN方法中使用了多关系检测器,通过支持集的候选框和查询集感兴趣区域特征进行全局、局部和块状的关系结合,避免了背景中的错检。Hu等[49]认为当对象发生遮挡时,局部的细节信息往往起绝对性作用,提出了DCNet方法,在感兴趣区域上使用三种不同的池化层捕捉上下文信息要远好于单一池化的效果。彭豪等[45]对感兴趣区域分别施加最大池化和平均池化技术,进行多种特征融合,可以提升模型对新类参数的敏感度。3.4.2增加样本数量的方法在迁移学习范式上,Wu等[72]为解决小样本中的尺度问题,提出了MPSR(multi-scalepositivesamplerefinement)方法,将对象金字塔作为一个辅助分支加turepyramidnetworks,FPN),手动地将处理过的不同尺度对象方形框与FPN的不同级别进行对应,使模型捕捉到不同尺度的对象。为解决训练数据变化的缺乏,Zhang等[73]在感兴趣区域特征空间上通过幻觉网络(hallucination)产生额外的训练样本,将从基类中学习到的类内样本变化转移到新类上。Kim等[53]为了不破坏图像中的空间关系,选择在图像中随机调整每个对象的尺寸若干次,这样既增加了感兴趣认为具有不同交并比(intersectionoverunion,IoU)分图10多尺度正样本特征提取Fig.10Multi-scalepositivesamplefeatureextraction在元学习范式上,Yang等[77]以RepMet为基础,提出了NP-RepMet方法,将其他方法丢弃的负样本纳入模型训练中,可以得到更加鲁棒的嵌入空间。Li等[22]除了使用简单的数据增强技术外,还将变换不变性(transformationinvariantprinciple,TIP)引入到小样本检测中。具体地,在查询分支上,用从查询变换图像中得到的候选框检测原始查询图像对象边界框,在支持分支上,在原始支持图像和支持变换图像理。Zhang等[78]认为不应该对支持样本只进行简单刘春磊等:小样本目标检测研究综述63的平均操作,提出了SQMG(support-querymutualguidance)方法。在基训练阶段,支持引导的查询增强通过核生成器对查询特征进行增强,通过支持查询相互引导模块生成更多与支持相关的候选框。另外,候选框和聚合支持特征之间进行多种特征比较,得到更高质量的候选框。3.4.3增加候选框数量的方法基于迁移学习范式,Zhang等[79]提出了同时使用多个区域候选网络结构的CoRPNs方法,用以解决因为样本少而产生较少的候选框的问题,如果某一个区域候选网络遗漏了具有高IoU值的候选框,那么其他的区域候选网络能够检出该候选框。在模型训练时,只有最确定的那个区域候选网络模块才能获得梯度,在测试时,也只从最确定的那个区域候选网络中获取候选框。为了解决模型不遗忘的问题,Fan等[80]提出了基于元学习范式的RetentiveR-CNN模型,新增了Bias-BalancedRPN和Re-Detector模块。区域候选网络不是完全的类无关的,而更偏向于可见类别的检测,因此,基类检测器不能很好检测出新类,产生了很多误报。在Bias-BalancedRPN中引入了新的分支,同时检测新类和基类对象,原有的检测头只用来检测基同时检测基类和新类,在两个分支基类检测上施加一致性损失可以更好地完成检测。综上所述,可以直接或间接的多种方式完成对新类别数据样本的扩充,增加新类别样本数据的方法是最直接有效的解决类别样本数量不足的方法,同时也能带来更加丰富的样本特征,减少模型过拟合的产生,但如果使用了过多的数据增强策略,可能4算法数据集、评估指标和性能分析PascalVOCMSCOCO和FSOD[29]数据集,在个tImageNet-Loc[82]等。数据集的概况如表1所示。4.1小样本目标检测公开数据集介绍4.1.1PascalVOC数据集小样本目标检测实验使用的PascalVOC数据集由PascalVOC2007[25]和PascalVOC2012[83]共同组成,CVOC12的train和val集合数据用模型训练,VOC07的test集合数据用于模型测试。VOC数据集一共有类作为基类,为了尽量减少由随机性带来的影响,分成多组不同的数据进行训练,常见的做法是分为3组类别均不同,关于3组划分的具体细节如下:分组1类的对象都应当有K个标注边界框,VOC数据集中K少,其选择会非常影响模型的性能表现,采用多次实验来消除随机性的影响,TFA提出通过30次重复实验并取平均值得到公平的实验结果,之后的一些论文提出只进行10次实验也可以公平比较实验结果。4.1.2MicrosoftCOCO数据集COCO2014[26]数据集相比VOC数据集有更多的数据集的train和val集合中选取5000张图像用作测试数据集,其余的图像用于训练阶段。选取COCO数据集中与VOC重叠的20个类别作为新类,剩余的一个类别选择10个或者30个目标样本用来训练。4.1.3FSOD数据集FSOD数据集[29]是专门针对小样本目标检测而设计的数据集,对于小样本目标检测任务来说,类别数量越多检测效果越好。FSOD数据集的类别数很90%类别的图像数量在22~108张之间,即使最常见表1小样本目标检测常用数据集及其划分方式Table1Typicaldatasetsforfew-shotobjectdetectionandtheirdivisions数据集图像数量类别划分新类样本数量K备注VOC07+VOC1221503基类15/新类5类别划分随机3组COCO14123287基类60/新类2020个新类类别与VOC重合FSOD660005—2023,17(1)计算机科学与探索JournalofFrontiersofComputer2023,17(1)计算机科学与探索式中,TP表示被正确检测为正例的实例数,FP表示被错误检测为负例的实例数。小样本目标检测的评估指标和通用目标检测有一些细微的差别,VOC数据集根据所选新类类别的不同分为3组实验,在每组中,新类样本数量K的取AP值(novelAP,nAP)即可,一些算法也会关注模型体现在基类上的不遗忘特性,测试所得模型在基类的性能,指标为bAP(baseAP),这里所提到的AP值都是在交并比值为0.5的mAP值。在COCO数据集中,新类样本数量K的取值为10和30,模型会检测在新类数据集上的不同IoU阈值、不同对象尺度的AP值以及不同的AR值。采用COCO风格的评价指标,具体指标项有mAP、AP50、P APm和APl表示在不同的标注边界框面积的指标,APs是面积小于32像素×32像素,APm是面积在32像素×32像素到96像素×96像素之间,APl是面积大×96像素。AR有AR1、AR10和AR100 (AR1是指每张图片中,在给定1个检测结果中的指标,其他同理)。由于随机性的影响,以上检测值都会通过多次实验取平均值当作最后的结果。一般地,VOC的重复实验次数为10次或者30次,COCO数据集的重复次数为10次。另外,FSOD数据集中K的取值常为跨数据集问题:从COCO到VOC,使用VOC和COCO重合的20个类别作为新类,使用COCO中剩余的60类作为基类数据,K的取值为10,具体评估指标项为mAP。4.3算法性能分析表2根据不同的改进策略,对现有方法分类的机制、优势、局限性和适用场景这四方面进行了详细比VOC、COCO和FSOD数据集上对各个方法进行性能评估,而像iNaturaList、ImageNet-LOC等数据集由于被使用次数较少,说服力差,不具有可比性,故不做性能对比分析,具体结果可见表3~表7,表中加粗为最优性能结果,下划线为次优性能结果。多。FSOD数据集包含大约66000张图像和1820001类来自ImageNet数据集,有469类来自OpenImage数据集。此外,FSOD数据集还合并了有相同语义的类别,移除了标注质量差的数据。4.1.4其他数据集中使用,固定地使用500个随机的任务,每个类别的iNatureList数据集[81]是一个长尾分布的物种数据集,包含2854个类别,可以检测在所有类上的AP指标(具体有AP、AP50和AP75)和AR指标(AR1和AR10)。LVIS据集[27]在TFA中有被使用,其有着天然的长尾分布,整个数据集的类别分布为类别图像数量小于10个的稀有类、图像数量为10~100的普通类和图像数量大于100的频繁类。将频繁类和普通类看作基类,稀有类看作新类进行训练。在模型的微调阶段,手动创建一个平衡的数据子集,其中每个类别拥有10个实例。Zhu等[54]提出了一个更加现实的FSOD数据集基准,即删除预训练分类模型中有关的新类图像的隐式样本(implicitshot)。在CoRPNs[79]中,也提到了移除预训练数据集中有关的基类和新类数据,包含275ng可能会使预训练模型得不到最优解。因此,只删除对应VOC数据集中新类的数据即可,对于COCO数据集,它的新类类别是很常见的,应该按照长尾分布,选取样本量少的作为新类。4.2评估指标通用目标检测方法常用的评估指标有平均准确率(averageprecision,AP)[85]和平均召回率(averageAP表示检测所得正样本数占所有检测样本的比式中,TP表示被正确检测为正例的实例数,FP表示被错误检测为正例的实例数。AP表示类别的平均eanaverageprecisionAP值,是多个目标类别的检测精度,即将每个类别的AP值取平均得到mAP值。AR表示检测所得正样本数占所有正样本的比刘春磊等:小样本目标检测研究综述65表2小样本目标检测方法优缺点对比Table2Comparisonofadvantagesanddisadvantagesoffew-shotobjectdetectionmethods分类机制代表方法优势局限性适用场景通道注意力注意力空间注意力机制意力Transformer显著区域,可以将其的过程,通过输入的自适应特征加权MetaR-CNN可以关注到模型中更为重要的特征通道捉不到感兴趣对象可以处理一些有着背景复杂的图像CTNet可以有效地找到图像中的显著区域,提取其中的重要特征只可以定位到感兴趣区的大致位置,不能精确地进行特征提取FCT通过图像中内部的信息进行注意力的交互,减少外部模块的干涉模型结构较为复杂,训练时图卷积神经网络图卷积利用节点间的边关系对节点信息进行推理更新,从而增强节点的特征表示FSOD-SR可以深入挖掘不同类别之间的复杂关系当图节点多时,图网络结构过于复杂,不利于计算适用于处理检测类别之间具有较强逻辑相关性的情况度量学习原型学习对比学习改进损失函数类之间的相似性,使离,相同或相似类别之间靠近CME可以学习到类别的类信息,通过类信息检测该类对像只采用原型学习的话,在样本量少的情况下,容易发生类别混淆方便对图像的不同目标的情况进行比较FSCE学习到的信息都是和当前目标对象相关的内容,相当于间接的数据增强在对比样本的选取中,可能会引入一些噪音信息MM-FSOD损失计算简单,可操作性强不具备可学习性,泛化性差一些数据增强多特征融合增加样本数量增加候选框数量扩充,对模型改动较小FsDetView可以聚合不同类型的特征信息,使得特征信息更丰富多特征融合会增加模型的复杂度数据量极少的情况MPSR最直接的增加样本数据方法增加新的样本数据,可能会引入噪声数据RetentiveR-CNN间接地通过增加候选框来达到增加样本数量的目的可能会生成过多的候选框,容易引起混淆5小样本目标检测在各领域的应用研究小样本目标检测算法由于只需要少量的新类标5小样本目标检测在各领域的应用研究小样本目标检测算法由于只需要少量的新类标注就可以完成对目标类别的检测,目前在自动驾驶、遥感图像检测、农业病虫害检测等领域都有应用。自动驾驶自动驾驶是目前计算机视觉应用较为成功的一个领域,车辆行驶会面临非常多的场景,遇见各种各样的类别,不可能对全部的类别收集到大量标注的图像,自动驾驶需要确保驾驶的绝对安全,在很短的时间里做出反应,这些特性通用目标检测都无法满TFA方法和FSRW方法在该数据集上的性能表现;Agarwal等[41]提出了AGCM方法,有助于在检测器的分类头中创建更加紧密且良好分离的特征簇,在IDD自动驾驶数据集上取得了当时的最好效果。5.2遥感目标检测元学习范式在检测性能上并没有太大的差异,由前述对两种范式的分析可选择适合的范式进行改进增强。(2)随着shot数的增多,检测性能有较大的提升,说明图像信息越多,学习到的特征信息越充分,样本数据增强可能是小样本问题解决的关键,最新的方法Pseudo-Labelling[74]和CFA-DeFRCN[76]都在探索数据增强的方法,也说明了数据增强的重要性。(3)在不同的数据集上检测结果也不相同,VOC的检测结果总体要大于COCO的检测结果,在VOC和COCO数据集上表现最好的都是基于迁移学习范式的CFA-学习DeFRCN方法使用,得到了最优秀的检测结果。可见使用较为简单直接的技术方法可以成功减少模型过拟合的程度,从而达到较优的效果。(4)其他的使用注意力机制方法的Meta-DETR和AFD-Net以及另外一个常见的应用领域是遥感目标检测,遥使用数据增强的另外一个常见的应用领域是遥感目标检测,遥2023,17(1)计算机科学与探索JournalofFrontiersofComputer2023,17(1)计算机科学与探索表3迁移学习方法在VOC数据集上的mAP对比Table3mAPcomparisonoftransferlearningmethodsonVOCdataset方法名称骨干网络NovelSet1123510NovelSet21235101NovelSet323510TFAw/cosFRCNR-10139.836.144.755.056.023.526.930.834.842.849.549.8AttFDNetSSDVGG-1629.634.935.1——16.020.722.1——22.629.132.0——MPSRFRCNR-10141.7—51.455.261.824.4—39.239.947.835.6—42.348.049.7CoRPNsFRCNR-10144.438.546.454.155.725.729.537.336.241.335.841.844.651.649.6Halluc.(CoRPN)FRCNR-10147.044.946.554.754.726.331.837.437.441.240.442.143.351.449.6RetentiveR-CNNFRCNR-10142.445.845.953.756.121.727.835.237.040.330.237.643.049.750.1FSSPYOLOv3-SPP41.6—49.154.256.530.5—39.541.445.136.7—45.349.451.3FSOD-UPFRCNR-10143.847.850.355.461.731.230.535.539.743.950.653.5SVD(FSCE)FRCNR-10146.143.548.960.061.725.629.944.847.548.239.545.448.953.956.9SRR-FSDFRCNR-10147.850.551.355.256.832.535.339.140.843.840.141.544.346.946.4FSCEFRCNR-10144.243.851.461.963.427.329.543.541.947.554.658.5FSOD-SRFRCNR-5050.154.456.260.062.429.539.943.544.648.143.646.653.453.459.5FADIDeFRCNFRCNR-10150.354.854.259.363.230.635.040.342.848.045.7FRCNR-10153.657.561.564.160.853.347.948.449.749.155.059.650.952.354.957.4AGCMFRCNR-10128.3——49.054.817.2——38.547.022.9——46.551.5LSCNFRCNR-5030.743.143.753.459.122.325.734.841.650.321.923.430.743.155.6Pseudo-LabellingCFA-DeFRCNFRCNR-10154.553.258.863.265.732.829.250.749.850.648.4FRCNR-10158.263.365.868.951.355.253.854.752.755.059.659.657.856.960.063.3表4元学习方法在VOC数据集上的mAP对比Table4mAPcomparisonofmeta-learningmethodsonVOCdataset方法名称骨干网络NovelSet1NovelSet2NovelSet3135135135FSRWYOLOv2RepMetFRCNR-101MetaR-CNNFRCNR-101FsDetViewFRCNR-101FSOD-KTFRCNR-101NP-RepMetFRCNR-101MM-FSODFRCNR-34AFD-NetFRCNR-101PNPDetCenterNetCME(MPSR)FRCNR-101TIPFRCNR-101DCNetFRCNR-101MetaFasterR-CNNFRCNR-101DRL-for-FSODFRCNR-101QA-FewDetFRCNR-101SQMGFRCNR-101Meta-DETRDef.DETRAPSPNetFRCNR-101FCTPVTv2-B2-Li彭豪等FRCNR-101KFSODEN14.89.924.227.837.850.031.741.527.733.941.828.042.448.640.624.338.536.244.615.532.925.535.341.440.3—41.4—47.536.537.446.740.551.951.436.549.647.2—26.734.435.055.949.527.350.443.343.752.749.455.752.058.044.953.552.454.433.938.645.755.247.357.954.6—58.250.259.649.962.653.759.252.059.855.660.947.241.351.557.456.849.460.960.341.060.959.659.662.359.463.454.363.659.264.362.865.85.721.619.841.637.323.216.627.222.723.222.925.941.637.020.525.928.437.815.324.627.943.0—31.3—30.224.833.633.437.845.436.627.534.234.2—22.723.429.631.938.743.445.738.426.541.433.830.643.836.446.645.843.736.528.334.837.038.947.446.541.9—42.540.936.747.848.946.349.140.944.940.535.845.445.741.548.246.936.446.846.946.652.748.054.647.452.750.421.327.514.321.229.533.335.627.48.934.321.732.335.628.035.246.14

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论