




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、ILSVRC2016 目标检测任务回顾 (下)-视频目标检测( VID )深度学习大讲堂是高质量原创内容的平台,邀请学术界、 工业界一线专家撰稿,致力于推送人工智能与深度学习最新 技术、产品和活动信息! 图像目标检测任务在过去三年的时间取得了巨大的进展,检 测性能得到明显提升。 但在视频监控、 车辆辅助驾驶等领域, 基于视频的目标检测有着更为广泛的需求。由于视频中存在 运动模糊, 遮挡,形态变化多样性, 光照变化多样性等问题, 仅利用图像目标检测技术检测视频中的目标并不能得到很 好的检测结果。如何利用视频中目标时序信息和上下文等信 息成为提升视频目标检测性能的关键。ILSVRC2015 新增加
2、了视频目标检测任务 ( Object detection from video, VID ),这为研究者提供了良好的数据支持。 ILSVRC2015 的 VID 评价指标与图像目标检测评价指标相同 计算检测窗口的 mAP 。然而对于视频目标检测来说, 一 个好的检测器不仅要保证在每帧图像上检测准确,还要保证 检测结果具有一致性 /连续性 (即对于一个特定目标, 优秀的 检测器应持续检测此目标并且不会将其与其他目标混淆) 。 ILSVRC2016 针对这个问题在 VID 任务上新增加了一个子任 务(详见第四部分视频目标检测时序一致性介绍) 。在 ILSVRC2016 上,在不使用外部数据的 VI
3、D 两个子任务 上,前三名由国内队伍包揽(见表 1、表 2)。本文主要结合 NUIST ,CUVideo ,MCG-ICT-CAS 以及 ITLab-Inha 四个队 伍公布的相关资料对 ILSVRC2016 中的视频目标检测方法 进行了总结。表 1. ILSVRC2016 VID results( 无外部数据 ) 表 2.ILSVRC2016 VID tracking result( 无外部数据 ) 通过对参赛队伍的相关报告 2-5 进行学习了解,视频目标检 测算法目前主要使用了如下的框架 : 将视频帧视为独立的图像,利用图像目标检测算法获取检测 结果;利用视频的时序信息和上下文信息对检测结
4、果进行修 正;基于高质量检测窗口的跟踪轨迹对检测结果进一步进行 修正。本文分为四部分,前三个部分介绍如何提升视频目标检测的 精度,最后介绍如何保证视频目标检测的一致性。 1.单帧图 像目标检测此阶段通常将视频拆分成相互独立的视频帧来处理,通过选 取优秀的图像目标检测框架以及各种提高图像检测精度的 技巧来获取较为鲁棒的单帧检测结果。 ILSVRC2016 目标 检测任务回顾 (上)-图像目标检测 已对此进行详细总结, 这里不再重复。结合自己实验及各参赛队伍的相关文档,我们认为训练数据 的选取以及网络结构的选择对提升目标检测性能有至关重 要的作用。 训练数据选取 首先对 ILSVRC2016 VI
5、D 训练数据进行分析 : VID 数据库包 含 30 个类别,训练集共有 3862 个视频片段,总帧数超过 112 万。单从数字上看,这么大的数据量训练 30 个类别的 检测器似乎已经足够。然而,同一个视频片段背景单一,相 邻多帧的图像差异较小。 所以要训练现有目标检测模型, VID 训练集存在大量数据冗余,并且数据多样性较差,有必要对 其进行扩充。在比赛任务中, 可以从 ILSVRC DET 和 ILSVRC LOC 数据中抽取包含 VID 类别的图片进行扩充。 CUVideo 、 NUIST 和 MCG-ICT-CAS 使用 ILSVRC VID+DET 作为训练 集, ITLab-Inh
6、a 使了 ILSVRC VID+DET 、COCO DET 等作 为训练集。需要注意的是在构建新的训练集的时候要注意平 衡样本并去除冗余( CUVideo 和 MCG-ICT-CAS 抽取部分 VID 训练集训练模型, ITLab-Inha 在每个类别选择一定数量 图像参与训练, NUIST 使用在 DET 上训练的模型对 VID 数 据进行筛选)。对于同样的网络,使用扩充后的数据集可以 提高 10% 左右的检测精度。网络结构选取 不同的网络结构对于检测性能也有很大影响。 我们在 VID 验 证集上进行实验:同样的训练数据,基于 ResNet1016 的 Faster R-CNN7 模型的检测
7、精度比基于 VGG168 的 Faster R-CNN 模型的检测精度高 12% 左右。这也是 MSRA 在 2015 年 ILSVRC 和 COCO 比赛上的制胜关键。今年比赛前几名 的队伍基本上也是使用 ResNet/Inception 的基础网络, CUVideo 使用 269 层的 GBD-Net9 。2. 改进分类损失 目标在某些视频帧上会存在运动模糊,分辨率较低,遮挡等 问题,即便是目前最好的图像目标检算法也不能很好地检测 目标。幸运的是,视频中的时序信息和上下文信息能够帮助 我们处理这类问题。比较有代表性的方法有 T-CNN10 中的 运动指导传播( Motion-guided
8、Propagation, MGP )和多上 下文抑制( Multi-context suppression, MCS )。MGP 单帧检测结果存在很多漏检目标,而相邻帧图像检测结果中 可能包含这些漏检目标。所以我们可以借助光流信息将当前 帧的检测结果前向后向传播,经过 MGP 处理可以提高目标 的召回率。 如图 1 所示将 T 时刻的检测窗口分别向前向后传 播,可以很好地填补 T-1 和 T+1 时刻的漏检目标。 图 1. MGP 示意图 10MCS 使用图像检测算法将视频帧当做独立的图像来处理并没有 充分利用整个视频的上下文信息。虽然说视频中可能出现任 意类别的目标,但对于单个视频片段,只会
9、出现比较少的几个类别,而且这几个类别之间有共现关系(出现船只的视频段中可能会有鲸鱼,但基本不可能出现斑马) 。所以,可以 借助整个视频段上的检测结果进行统计分析:对所有检测窗 口按得分排序,选出得分较高的类别,剩余那些得分较低的 类别很可能是误检,需对其得分进行压制(如图2)。经过MCS 处理后的检测结果中正确的类别靠前,错误的类别靠 后,从而提升目标检测的精度。图 2. 多上下文抑制示意图 103. 利用跟踪信息修正上文提到的 MGP 可以填补某些视频帧上漏检的目标,但对 于多帧连续漏检的目标不是很有效,而目标跟踪可以很好地 解决这个问题。 CUVideo, NUIST, MCG-ICT-C
10、AS 以及 ITLab-Inha 四支参赛队伍都使用了跟踪算法进一步提高视 频目标检测的召回率。使用跟踪算法获取目标序列基本流程 如下:使用图像目标检测算法获取较好的检测结果;从中选 取检测得分最高的目标作为跟踪的起始锚点;基于选取的锚 点向前向后在整个视频片段上进行跟踪,生成跟踪轨迹; 从剩余目标中选择得分最高的进行跟踪,需要注意的是如果 此窗口在之前的跟踪轨迹中出现过,那么直接跳过,选择下 一个目标进行跟踪;算法迭代执行,可以使用得分阈值作为 终止条件。得到的跟踪轨迹既可以用来提高目标召回率,也可以作为长 序列上下文信息对结果进行修正。4. 网络选择与训练技巧 对于视频目标检测,除了要保证
11、每帧图像的检测精度,还应 该保证长时间稳定地跟踪每个目标。为此, ILSVRC2016 新 增一个 VID 子任务,此任务计算每个目标跟踪轨迹 (tracklet)/ 管道 (tubelet) 的 mAP 来评测检测算法的时序一致性或者说 跟踪连续性的性能。评价指标:图像目标检测 mAP 评测对象是每个检测窗口是 否精准,而视频时序一致性评测对象是目标跟踪轨迹是否精 准;图像目标检测中如果检测窗口跟 Ground Truth 类别相同, 窗口 IoU 大于 0.5 就认定为正例。而评价时序一致性时,如 果检测得到的跟踪轨迹和 Ground Truth (目标真实跟踪轨迹) 是同一个目标( tr
12、ackId 相同),并且其中检测出的窗口与 Ground Truth 窗口的 IoU 大于 0.5 的数量超过一个比例, 那 么认为得到的跟踪轨迹是正例;跟踪轨迹的得分是序列上所 有窗口得分的平均值。分析可知,如果一个目标的轨迹被分 成多段或者一个目标的跟踪轨迹中混入其他的目标都会降 低一致性。 那么如何保证视频检测中目标的时序一致性呢?本文认为 可以从以下三个方面入手: ( 1)保证图像检测阶段每帧图像 检测的结果尽量精准; ( 2)对高质量检测窗口进行跟踪并保 证跟踪的质量(尽量降低跟踪中出现的漂移现象) ;(3)前 面两步获取到的跟踪结果会存在重叠或者临接的情况,需针 对性地进行后处理。
13、ITLab-Inha 团队提出了基于变换点检测的多目标跟踪算法 11,该算法首先检测出目标,然后对其进行跟踪,并在跟 踪过程中对跟踪轨迹点进行分析处理,可以较好地缓解跟踪 时的漂移现象,并能在轨迹异常时及时终止跟踪。针对视频目标检测的一致性问题,作者所在的 MCG-ICT-CAS 提出了基于检测和跟踪的目标管道生成方法。 a. 基于跟踪的目标管道 /跟踪轨迹 b. 基于检测的目标管道 c. 基于检测和跟踪的融合管道图 3. 基于检测 /跟踪 /检测 + 跟踪管道示意图图 3-a 表示使用跟踪算法获取到的目标管道(红色包围框) 绿色包围框代表目标的 Ground Truth 。可以看到随着时间推
14、 移,跟踪窗口逐渐偏移目标,最后甚至可能丢失目标。 MCG-ICT-CAS 提出了基于检测的目标管道生成方法,如图 3-b 所示,基于检测的管道窗口(红色包围框)定位较为准 确,但由于目标的运动模糊使检测器出现漏检。从上面分析 可知:跟踪算法生成的目标管道召回率较高,但定位不准; 而基于检测窗口生成的目标管道目标定位较为精准,但召回 率相对前者较低。 由于两者存在互补性, 所以 MCG-ICT-CAS 进一步提出了管道融合算法,对检测管道和跟踪管道进行融 合,融合重复出现的窗口并且拼接间断的管道。如图 4 所示,相对于单独的检测或者跟踪生成的目标管道, 融合后目标管道对应的检测窗口的召回率随着
15、 IoU 阈值的增 加一直保持较高的值,说明了融合后的窗口既能保持较高的 窗口召回率, 也有较为精准的定位。 融合后的目标管道 mAP 在 VID 测试集上提升了 12.1% 。图 4. 不同方法生成目标管道的召回率总结本文主要结合 ILSVRC2016 VID 竞赛任务对视频目标检测 算法进行介绍。相对于图像目标检测,当前的视频目标检测 算法流程比较繁琐且视频自身包含的信息没有被充分挖掘。 如何精简视频目标检测流程使其具有实时性,如何进一步挖 掘视频包含的丰富信息使其具有更高的检测精度,以及如何 保证视频目标检测的一致性或许是视频目标检测接下来要 着重解决的问题。1ILSVRC2016 相关
16、报告: /challenges/ilsvrc+coco20162CUVide o slide 下载链接:/challenges/talks/2016/GBD-Net.pdf3NUIST slide 下载链接 /challenges/talks/2016/Imagenet%202 016%20VID.pptx4MCG-ICT-CAS slide 下载链接 /challenges/talks/2016/MCG-ICT-CAS-ILSVRC2016-
17、Talk-final.pdf5ITLab-Inha slide 下载链接 /challenges/talks/2016/ILSVRC2016_I TLab_for_pdf.pdf6He K, Zhang X, Ren S, et al. Deep residual learning for image recognitionJ. arXiv preprint arXiv:1512.03385, 2015.7Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detec
18、tion with region proposal networksC/Advances in neural information processing systems. 2015: 91-99.8Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognitionJ. arXiv preprint arXiv:1409.1556, 2014.9Zeng X, Ouyang W, Yang B, et al. Gated bi-directional cnn for object detectionC/European Conference on Computer Vision. Springer International Publishing, 2016: 354-369.10Kang K, Li H, Yan J, et al. T-cnn: Tubelets with convolutional neural networks for object detec
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《2025年签订房屋租赁合同要点》
- 中介产品销售合同样本
- 202520办公家具采购合同模板
- 专修内外装修合同样本
- 全款买车定金合同样本
- 房屋居间协议合同书范例
- 房屋征地协议书二零二五年
- 劳动合同会计岗位泉水潺流的动态二零二五年
- T恤衫出口合同样本
- 小学2024年推普周活动方案
- 2025年浙江省初中名校发展共同体中考语文一模试卷附参考答案
- 2025年食安食品考试题及答案
- 2025年租赁料场协议
- 医院保安服务方案投标文件(技术方案)
- 保证食品安全的规章制度清单
- 焊接接头表面质量检查记录
- 空调机房吸音墙顶面综合施工专题方案
- 红楼梦专题元妃省亲39课件
- 初中人教版七年级上册音乐5.2甘美兰(22张)ppt课件
- 工程土石方挖运机械租赁合同
- 新版GMP批生产记录模板(2013年10月)
评论
0/150
提交评论