2024MSRA目标任务检测应用_第1页
2024MSRA目标任务检测应用_第2页
2024MSRA目标任务检测应用_第3页
2024MSRA目标任务检测应用_第4页
2024MSRA目标任务检测应用_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

今天分享的内容会从以下几个方面进行,首先是R-FCNanditsextensions,然后是DeformableConvNetsanditsextensionsVideoobjectdetection面所做的工作,最后是一个简单的Summary。R-FCNandits首先介绍下R-FCNhighlights是Region-based,fully-convolutionalnetworksforobjectdetection非常快、非常准确。在后续也起到了很多extensions的工作。Region-basedObjectDetectors在不同方法上的比较,给定一些事先决定好的这样会导致很多向量。其后续工作SPP-Net&Faster放到R-CNN里面,将RolconvertappliedLinuxfeaturemapsharedfeaturemap上做input,分别对不同区域做ROIinputing产生每个部分特定的特征。我们也会保留一些层FC层、conv层等,通过一个ROIspecific网络apply到每个抽取的特定区域上,继R-FCNlayerapplyimage且是一个Poolingconvolution方式,能够直接产生一种share在全图上的一个Scoremap,这个Scoremap上只需要用非常少的计算量就可以做一些putting操作拿到ROI接下来介绍下为什么之前设计需要把ROI层不自然的插到所有的层之间,这是由于Increasingtranslationinvarianceforimageclassification和Respectingtranslationvarianceforobjectdetection联码困境。一方面在feature网络时喜欢translationinvariance,如图一群鸟在图中位置不变也可以判断图中是有鸟的类别,所以设计的invarianceobjectdetectiontranslationinvariance,如图translationper-trianobjectdetectionROI一部分到ROI计算上,这样才能translationinvariancefeaturemap上经过多层layer处理达到一个translationinvariance效果。R-FCNpaper里面尝试用连耦方式解决反联码,网络是sharedfullyconvolutionalarchitectures,是以IPN方式,为了使IPN能够产生translationinvariance这样一个respond来对每个class产生一个output,而是进行一个分广,增加的evention是来encodePosition-sensitive信息,不同的key代表的是不同物体的相对位置。通过Position-sensitiveROIpoolingC+1channel成一个output。图中是一个婴儿的图,经过R-FCN产生position-sensitivescoremaps,如第一组下面一组是对空间位置有个比较强的响应。在做ROIpooling时采用Position-sensitiverespondsscoreoverlap其ROI计算量是不可以忽略的,尤其是处理很大的服务,有很多图片时,就会占整个网络计算量很大的一部分。还有一个优点是整个网络结构是端到端。FastR-CNNR-FCNpurefullyconvolutionalsolutioninstancesegmentation。就是要在图像中标出哪些instanceR-FCNextensionsLight-headR-CNNfastR-CNN,计算量会在每position-sensitiveformapposition-sensitive广到featuremap上,这样的好处就是在类别很多时,无论是在权属的sharedconvolutionalROI都很小,速度很快,在很多公司产品中得到应用。还有一个extensionsR-FCN-3000at30fpsDecoupledclassificationandlocalizationforscalingup,基于这个对R-FCN进行改动。DeformableConvNetsandits接下来介绍下我们做的第二个技术和所做的改进DeformableConvNets,实现了对spatialtransformation几何变形进行建模,并不需要额外的supervision。在比较复杂的Significantaccuracyimprovementsonsophisticatedvisiontasks。几何变形建模是在longstanding中的一个挑战,可能来源于人的同时态、同尺度,以及在建训练数据的时候将这些desiredvariations建立到训练数据中。建设一组transformation都符合一种规律,如仿射变换,确定仿射变换参数,进行information,transformationcaleInvariantFeatureTransformno-labelfeatureCNNrepresentation能力,将网络变得basicmodel,inherentlylimitedtomodellargeunknowntransformations。比如我们常见的模块如convolutional模块和regularconvolutional模块,我们只是fixapply3X3的convolutional产生一种新的featuremapregularconvolutionalfeaturemaplayerbreadstructure,如图左上角对应一个人的手,但是第二幅对应一个人的肩膀,这是有很大差异的,我们直接转化为breadstructure上旋。先前用SpatialTransformerNetworks来解决这项工作,是第一篇去学习SpatialTransformation的工作。原理是将featuremapglobalparametrictransformationfireTransformationinputfeaturemap去预测当前图片的几何形态是怎样的。但是complexvisiontasks不能很好地工作。DeformableConvolutionDeformableRoIPooling块,能够有效的增强CNN对几何形变的建模能力。基本的想法是尝试去学习deformthesamplinglocationsintheconvolution/RoIPoolingmodules,改变采样的位置,然后deformationoffset可以自适应进行调整。跟Transformationnetwork比较,学习到的设计的模块第一个是DeformableConvolution,是在Regularconvolution上加了一个二维offset,能够对非常复杂的freeform的information进行建模,设计如上图所示。Offsetinputfeaturemap上预测出来,做法是加了一层额外的convolution,每一个位置预测其x、y的变化,一共是18为的output。然后将2X9的convolution进行apply到convolution的Corner上指导采样。DeformableROIPoolingROIbinoffset。同inputfeaturemapfeaturemapinputROI预测一个2X9的offset,只需要依据很少的参数和计算量就可以对几何形变进行建模。regularconvolutionregularROIpoolinginputoutput,因此可以直接将Regularconvolution->deformableconvolution,RegularRoIsupervisionDeformableconvolutioninformationdeepfeaturemapprojectback,在三backgroundVideoobject接下来我们做了一系列工作,取得的效

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论