基于帧间相关性分析的视频显著运动检测方法研究_第1页
基于帧间相关性分析的视频显著运动检测方法研究_第2页
基于帧间相关性分析的视频显著运动检测方法研究_第3页
基于帧间相关性分析的视频显著运动检测方法研究_第4页
基于帧间相关性分析的视频显著运动检测方法研究_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中图分类号:TP391论文编号:10006SY1406218硕士学位论文基于帧间相关性分析的视频显著运动检测方法研究作者姓名 王永光学科专业 计算机应用技术指导教师 赵沁平 教授培养学院 计算机学院Research of video saliency detection based on inter-frame correlationanalysisA Dissertation Submitted for the Degree of MasterCandidate:Wang YongguangSupervisor:Prof. Zhao QinpingSchool of Computer Science & EngineeringBeihang University, Beijing, China中图分类号:TP391论文编号:10006ZY1306125硕 士 学 位 论 文基于帧间相关性分析的视频显著运动检测方法研究作者姓名 王永光 申请学位级别 工学硕士指导教师姓名 赵沁平 职 称 教授学科专业 计算机应用技术 研究方向 虚拟现实与计算机视觉学习时间自 年 月 日 起 至 年 月 日 止论文提交日期 年 月 日 论文答辩日期 年 月 日学位授予单位 北京航空航天大学 学位授予日期 年 月 日关于学位论文的独创性声明本人郑重声明:所呈交的论文是本人在指导教师指导下独立进行研究工作所取得的成果,论文中有关资料和数据是实事求是的。尽我所知,除文中已经加以标注和致谢外,本论文不包含其他人已经发表或撰写的研究成果,也不包含本人或他人为获得北京航空航天大学或其它教育机构的学位或学历证书而使用过的材料。与我一同工作的同志对研究所做的任何贡献均已在论文中作出了明确的说明。若有不实之处,本人愿意承担相关法律责任。学位论文作者签名: 日期: 年 月 日学位论文使用授权书本人完全同意北京航空航天大学有权使用本学位论文(包括但不限于其印刷版和电子版),使用方式包括但不限于:保留学位论文,按规定向国家有关部门(机构)送交学位论文,以学术交流为目的赠送和交换学位论文,允许学位论文被查阅、借阅和复印,将学位论文的全部或部分内容编入有关数据库进行检索,采用影印、缩印或其他复制手段保存学位论文。保密学位论文在解密后的使用授权同上。学位论文作者签名: 日期: 年 月 日指导教师签名: 日期: 年 月 摘要近年相关领域关于视频显著性检测已经进行了大量的研究,尽管已经取得一定的成果,但目前对于其实际应用仍然存在一些传统方法无法克服的局限性,如对非固定相机视频的运动物体检测、对运动缓慢的物体检测等,这些局限性将会对后续应用造成重大不利影响,因此当前急需一种更为鲁棒、更稳定、更准确的显著运动检测方法。根据对人类的视觉成像系统工作原理的机器视觉理解,即显著运动的物体主要从两方面吸引人类视觉系统:运动显著性以及颜色显著性,提出一种结合光流速度场和颜色场的显著运动物体检测方法。首先根据运动场和颜色场结合得到初步的显著值分布图,并在此基础上根据帧间相关性采用自适应传递对初步的结果进行修正,从而得到最终的结果。并且,结合在4个公共数据集上的定量分析结果表明,本文提出的方法较传统方法能够获得更稳定、精确的视频显著性检测结果。本文主要工作成果及进展包括:1. 基于运动颜色梯度图的初步结果计算:一个完整的视频帧序列中,可以根据相邻的图像帧计算出每一帧的光流,本文采用对比度计算的方式来并使用运动颜色梯度图来指导计算出每一个超像素的显著度,根据每一个超像素所计算出的光流,结合事先计算的运动颜色梯度图,再计算出每一个超像素的运动显著度,从而得到每一帧的运动显著图。同样对于单帧图像,衡量其显著度的关键是其颜色与图像中其他部分颜色的对比度,所以根据颜色场的分布,在运动颜色梯度图的引导下,从而计算出在每一个超像素位置的颜色显著值,以得到每一帧图像的颜色显著图,并将它们进行融合之后就可以得到图像帧的初步显著值结果。2具有结构信息的描述子构造以及低秩计算:在得到初步的结果之后,首先需要对得到的初步结果进行二值分割,将显著超像素与背景超像素分离,由于在这里我们需要找出可靠地帧来对正确显著值进行传递,所以在这里我们使用低秩的方式来构造,以得到可靠帧。而在得到这些信息之后,构造出对结构敏感的描述子,用以接下来的自适应学习传递,我们根据运动颜色梯度图,构造具有另外三个非显著超像素作为约束的超像素描述子。3. 基于初步结果的自适应传递:在得到初步的显著图分布之后,需要使用可靠地显著超像素对相邻帧进行传递,这里分为帧传递以及库传递两种。帧传递是指可靠帧向相邻的帧使用对结构敏感的描述子不断迭代的传递,并且不断在传递过程中对初步结果进行修正优化。而库传递是将可靠的显著超像素存入超像素传递库中,使用库中的显著超像素对全局进行传递,将传递结果与初步结果进行融合对初步结果进行修正,并不断的对库进行更新,如此不断迭代,以得到最后的结果。本文验证方法正确性使用了5个公开的数据集,根据与groundtruth对比,本文的准确率能达到90%以上,能够比肩一些现有先进的方法。关键词:传递,显著性,对比,视频,检测。第一章 绪论1.1选题背景与来源近年来,显著性检测备受关注,与将整个场景分割成离散部分的传统分割问题不同的是,显著性检测的目的是发现语义区域,过滤掉不重要的区域。它的想法来自人的视觉系统,人的视觉系统第一阶段就是一个快速而简单的前注意处理过程1。显著性运动检测作为计算机视觉应用中的一个比较重要课题,是因为它为许多视觉应用提供了一种快速的预处理。对显著性运动检测的研究包含了两个内容:图像和视频。对基于图像的显着性检测,我们希望找到那些与背景不同的区域,例如,在森林中的鹿。而对基于视频的显著性检测则是一个与基于图像的视频检测不一样的问题,它的目的是从一个视频序列中找出与背景不同的显著运动2。有可能是一个奔跑在沙滩上的人,又或者是检测序列中的跳动的心脏。准确、有效率的确定显著运动物体的位置对于很多视频理解应用是一个非常重要的预处理步骤。但是视频显著运动检测仍然是一个具有挑战性的问题,因为视频会有各种各样的背景的运动3。为了解决这个问题,有很多的方法被提出来:如高斯混合模型(Gaussian Mixture Model GMM)4、非参数核密度估计(Nonparametric Kernel Density Estimation)5、结合运动信息的自适应KDE(adaptive KDE combined with motion information)6、贝叶斯学习方法(Bayesian Learning approach)7、线性动态模型(Linear Dynamic Model)8、鲁棒的卡尔曼滤波(Robust Kalman Filter)9等。但这些方法都有各自的局限性,为了解决这些问题,本文采用自适应学习的方式,根据已有的初步结果对相邻帧进行传递,以得到一个更好的结果,如图1所示。1.2研究意义计算机视觉是一门研究如何使计算机通过图像以及视频的方式来理解世界、描述世界以及还原世界的科学。而视频显著运动检测技术是计算机视觉中的基本问题之一,也是后续一系列如对安保、监控、刑侦、娱乐等其他相关领域进行应用的基础。人类获得的信息的百分之八十三来自视觉,百分之十一来自听觉,剩下的则来自嗅觉,触觉和味觉,人们对图像以及视频中所表现出的大量信息最为关注,在人类记忆中停留的时间最长。虽然图像包罗万象、种类繁多,但是对于一些具有特定属性的图像集或者视频,现在人们一般可以无意识地分析出这些图像或者视频中所包含的人们关心的信息并对其加以利用,例如:在安全保护、影视、追踪等领域,人们不断的对图像集中的相关性信息进行分析利用,来对图像分割、视频监控、目标跟踪识别和目标识别等分析工作。视觉感知机理的研究表明:人类的视觉系统在某种程度上是具有很高效率并且具备高可靠性的图像处理系统,而且大脑神经元在对某个刺激信号进行处理的过程中,仅有稀疏的神经元参与信号编码。因而,根据人类感知系统的特性,并以具体计算机应用需求为驱动,围绕图像集的简洁表示和相关性分析展开研究,对促进神经学、认知心理学等学科的理论研究产生重要的实践意义。同时,其在相关领域的推广应用,使用图像作为表达方式,减轻人们日常生活中产生的大量的信息带来的大数据压力,并改善处理、存储和传输信息的方式,降低成本,从长远来看,成本的降低对计算机应用方面的发展具有深远的作用。视频图像作为一类特殊的数据类型,特定的视频中的图像帧往往具有强相关性和结构相似性,如:连续跟踪拍摄的汽车、从远到近的人物、PCI手术中前进的导管等。如何从大量的视频数据集中提取它们的“共性结构”,并利用这些共性信息来指导具有低秩特性的特征空间的构建,通过融合全局、局部信息为用户提供更为理想的视频图像显著运动检测手段,如在PCI手术中对自动对导管头部进行检测,这对机器视觉以及与其相关的其它领域研究具有重要的现实意义。近些年,在单帧静态图像上显著性检测算法的研究很多:Itti10通过对多尺度图像显著性特征进行融合,并将结果作为最终的显著性目标的检测结果;Hou11提出基于傅里叶谱残差的显著目标检测方法;Achanta12通过对颜色与亮度等信息的融合得到显著值分布图。经过多年的实际研究,人们发现衡量单帧图像显著性最重要的方式是进行局部对比,例如颜色对比、形状对比13,在一张图像中,最显著的前景物体通常较其周围背景部分有着较高的对比度,而非显著性背景区域则与其周围差异较小。近年来,在计算机视觉方面有很多基于对比的显著性检测方法被相继提出,如cheng13等人提出了基于区域对比度的显著性检测方法,类似的,Perazzi14将图像进行超像素分割,并通过对比超像素的颜色独特性以及其在颜色特征空间的分布差异性来得到显著性图。尽管这些基于局部对比度的方法对于一般的自然场景的显著性物体检测有着较为理想的检测结果,然而,传统的局限性仍然无法克服,即由于局部对比度容易对大体积物体的中心区域造成显著性漏检,并最终导致空洞现象。因此,如何进行对比度的计算则是显著性检测的一个重要的问题。根据人类的视觉成像的系统,人类的眼睛对于运动物体的关注度较单一图像的颜色显著性更高。因此,对单帧图像的显著性检测与视频显著性检测会存在一定的不同,即视频显著性检测算法需要更加关注运动上的信息。相对于单帧图像颜色的对比,运动的差异则是衡量视频显著性的一个重要的因素,并且运动的对比以及颜色对比得到的显著性往往能够互相弥补,使得结果更加准确。但是,简单的将这两个显著图进行融合很难得到一个鲁棒的结果,并且由于对比计算方法的问题,当颜色显著图以及运动显著图都不准确时,最终的结果也会出现问题。本文通过结合视频帧时空关联性以及低秩分析,通过算法集成和实现一个视频显著运动检测工具,对计算机视觉中的其它领域的应用提供有力的支持,对计算机视觉应用的研究具有重要的实际意义。1.3 研究目标与内容论文的研究目标:针对显著运动检测在面对复杂视频(背景变化,相机抖动等)时检测困难的情况,通过对视频相邻帧间关系和自适应学习传递方法的研究,研究并实现一种采用以超像素(Super-Pixel)为单位、结合视频相邻帧间关系和自适应学习传递的显著运动检测方法,并将其运用到视频中的显著运动检测,以提高视频显著运动检测的准确率,满足显著运动检测在安全控制、交通监督、医学领域等应用的需求。针对上述研究目标,主要研究内容分为如下三点:1)基于运动颜色梯度图的初步结果计算:一个完整的视频帧序列中,可以根据相邻的图像帧计算出每一帧的光流,本文采用对比度计算的方式来并使用运动颜色梯度图来指导计算出每一个超像素的显著度,根据每一超像素的光流,结合事先计算的运动颜色梯度图,计算出每一个超像素的运动显著度,从而得到每一帧的运动显著图。同样对于单帧图像,衡量其显著度的关键是其颜色与图像中其他部分颜色的对比度,所以根据颜色场的分布,以运动颜色梯度图引导,从而计算出每一个超像素的颜色显著度,得到每一帧的颜色显著图。将它们进行融合之后就可以得到图像帧的初步显著值结果。2)具有结构信息的描述子构造以及低秩计算:在得到初步的结果之后,首先需要对得到的初步结果进行二值分割,将显著超像素与背景超像素分离,由于在这里我们需要找出可靠地帧来对正确显著值进行传递,所以在这里我们使用低秩的方式来构造,以得到可靠帧。而在得到这些信息之后,构造出对结构敏感的描述子,用以接下来的自适应学习传递,我们根据运动颜色梯度图,构造具有另外三个非显著超像素作为约束的超像素描述子。3) 基于初步结果的自适应传递:在得到初步的显著图分布之后,需要使用可靠地显著超像素对相邻帧进行传递,这里分为帧传递以及库传递两种。帧传递是指可靠帧向相邻的帧使用对结构敏感的描述子不断迭代的传递,并且不断在传递过程中对初步结果进行修正优化。而库传递是将可靠的显著超像素存入超像素传递库中,使用库中的显著超像素对全局进行传递,将传递结果与初步结果进行融合对初步结果进行修正,并不断的对库进行更新,如此不断迭代,以得到最后的结果。1.4论文组织结构按照研究工作的背景、内容以及步骤,本文会对本文所研究的分为六个部分进行展开叙述,各部分的具体内容如下:第一章 Error! Reference source not found.。本章简要的介绍了显著运动检测方法在近些年的发展背景以及需求,并通过对传统方法的研究列举出显著运动检测方法技术在当前所遇到的问题,针对显著运动检测方法目前的研究现状和需求,提出了当前研究一种自适应学习显著运动检测方法的意义,并介绍本文的研究目标与主要研究内容等。第二章 关键技术及研究现状。在这一章中会介绍与本文研究内容相关的一些技术的研究背景,并对相关理论技术的国内外研究现状进行调研。首先介绍本文的研究内容显著运动检测的相关概念和近些年国内外研究现状,并对显著运动检测的三种主要方法:基于视频帧间对比度的视频显著运动检测、基于非显著性背景模型的视频显著运动检测、基于运动模型的视频显著运动检测进行论述。然后根据在本文的研究在实际的应用中会涉及到的主要方法,在本章中将分别介绍图像特征表示、超像素分割、低秩分析以及光流的研究现状。第三章 基于运动颜色梯度图的初步结果计算。为了能够有效地计算图像的显著度,并且降低计算的代价,将会介绍将图像进行分割为超像素的步骤以及优点,并且介绍当前一些超像素分割方法。并对接下来会使用的运动颜色梯度图进行介绍,并叙述如何计算得到运动颜色梯度图。接下来根据单帧图像颜色场在运动颜色梯度图的指导下进行对比度计算得到的颜色显著图以及使用光流算法得到的视频序列光流场在运动颜色梯度图的指导下进行对比度计算得到的运动显著图。并且由于这两个显著图对于表达整个视频帧的显著运动都是不足的情况,对它们进行融合互补,并在此基础上对初步结果进行平滑处理,以得到相对可信的初步结果。最后详细介绍进行显著图计算的方法以及对两个显著图进行融合,并平滑的过程。 第四章 具有结构信息的描述子构造以及低秩计算。在本章中首先介绍如何使用运动颜色梯度图来对前景物体的大小进行预估,而知道了前景物体的大小对于后续步骤将会起到一个很大的作用。然后在知道前景物体大小的基础上,采用自适应调整的参数来对之前计算的初步显著图进行二值分割,将前景物体与背景分离出,以便后续对其进行结构敏感的描述子的构造。在设计描述子的时候,首先阐述了一个好的描述子对于计算机视觉算法的重要性,以及设计的这个描述子能够带给我们算法的提升,然后详细的介绍了描述子的构造。第五章 基于初步结果的自适应传递。在本章将会介绍使用对结构敏感的描述子来对每一个显著超像素的显著值进行一个传递,分别为基于相邻帧间的传递以及基于显著超像素学习库的传递。这两种传递有它们各自的优势,所以接下来会介绍其融合方法。最后再通过使用传递的结果来对之前计算出的原始结果进行一个融合。第六章实验结果分析。本章主要介绍了试验中所用的几个benchmark,并展示一些结果图,并与其它目前先进方法进行对比,主要从Precision Recall曲线以及F-measure两方面进行对比,并展示图表。最后是总结与展望,对本文所做的研究工作和研究成果进行总结,并指出现有图像解析成果工作存在的不足之处,且对系统的进一步开发工作进行展望。第二章 关键技术及研究现状2.1显著运动检测简介显著运动检测是使用计算机对视频中的运动物体进行自动检测,并且以灰度图的形式呈现出来的一种计算机视觉技术。显著运动检测对于安全监督、交通控制、人机交互等应用有很重要的作用。尽管这个领域已经被研究了很久,但是仍然有很多的技术难点尚未被人们解决,如非静态视频以及不断变焦和旋转的相机引起的误差等。为了解决上述问题,本文引入光流和自适应学习传递来对视频显著运动进行检测。近些年来,显著性检测备受人们的关注,与将整个场景分割成离散部分的传统分割问题不同的是,显著性检测的目的是发现显著区域,过滤掉不重要的区域。它的想法来自人的视觉系统,人的视觉系统第一阶段就是一个快速而简单的显著度处理过程1。显著性检测是计算机视觉的重要课题之一,因为它为许多计算机视觉方面的应用提供了一种快速的预处理。图2给定一个视频序列,视频显著运动检测的目的是将视频序列帧中的运动物体标记出来,这些信息将会输入到后续应用(如视频分割15、视频物体追踪识别16、视频理解17等)中,以形成一个完整的视频应用链。近些年来计算机视觉发展迅速,作为计算机视觉中最活跃的一个研究方向,视频显著运动检测也取得了很大的成果,可以看到现在很多的方法在一些数据集中能够取得一个不错的效果,对物体的检测也具有相当的精度,如基于局部建模的方法1819,以及基于低秩分析的方法2021,但这些方法都有其各自的局限性,比如对动态背景、运动缓慢以及物体较大等情况的检测效果不理想。从视频流中对运动的物体进行检测对很多具体应用都有很大的帮助,包括物体追踪、视频监控、交通控制、安全控制等。尽管对显著运动检测的研究在近几年取得了非常大的成果,但一些传统的局限性仍然没有得到很好的解决,特别是对于非静态视频,这很大的限制了基于运动追踪的智能系统在现实和复杂的场景的应用范围。在很多真实的环境中,运动会由两部分组成:我们感兴趣的显著运动,我们不感兴趣的噪声的干扰。根据以前的文章2,显著运动在被这定义为一个处于监控下的物体的运动,如人、汽车等。而噪声则是复杂的环境的干扰,如随风飘动的叶子之类,它常常会使得运动检测更加的困难3。因此新的能够在非静态视频中有效的方法是我们迫切需要的。总的困难有:对无约束的视频进行长时间的鲁棒运动追踪仍然存在很大困难,特别是对于长时间非静态向旋转及变焦(PTZ)视频。由于传统的低秩运动检测方法主要注重在全局视角对背景建模,所以在面对背景会随时间变化的情况时会出现很大的错误3。经典的基于鲁棒主成分分析(RPCA)22的低秩分析认为显著运动相对于具有低秩的背景而言是稀疏的,然而在某些时候这样的假定并不是全部成立的。显著运动检测需要选择性的选定显著的运动,然后很多低秩追踪都忽略了上下文迭代来解决间歇移动目标。依据当前人们对视频显著性动作检测手段,其主要可以分为如下三类:基于视频帧间对比度的视频显著运动检测;基于非显著性背景模型的视频显著运动检测;基于运动模型的视频显著运动检测。1.1.1 基于视频帧间差异度的视频显著运动检测图3:基于视频帧间对比度的视频显著性动作检测图,(a)和(b)为视频中两相隔20帧的视频帧,(b)(c)(d)(e)为文献23中的方法检测得到的显著性动作结果,其中红色圈标识出了错误的检测。R Jain和HH Nagel 24提出采用视频连续帧间的差异度高低来判断哪些发生帧间变化的视频元素属于显著性动作。针对给定的不同的视频序列,如果需要使用帧间差异度来进行检测,那么通常需要定义不同的差异度阈值以判断某一运动是否显著。所以在给定的显著性阈值的情况下,J. Konrad 25 会依据各像素点的帧间差异度来对图像中的运动进行判断,以决定哪些是显著的。当然在单纯的、独立的在像素点层面所进行的判断往往由于现实中视频的多样性以及复杂性,使得其显著性运动检测的结果往往存在许多因为噪声引起的错误判断(如图3中(b)(c)(d)所示),并且由于物体具有一定的体积导致其检测得到的显著性运动往往存在空洞效应(如图16(b)所示)。而在此基础上,R. Fablet 26进一步的以像素区域为单位进行显著运动检测,它的方法比之J. Konrad的方法有了一定的效果改善。T. Aach 27提出采用马尔科夫随机场模型将带归一化约束的材质信息以及原始的颜色灰度信息进行决策集成,在很大一定程度上抑制了噪声对显著性动作检测的影响。JM Odobez 28在T. Aach的基础之上,进一步的考虑了运动差异度模型,使得视频的显著性动作检测得意应用于移动视频(摄像机处于运动状态)。1.1.2 基于非显著性背景模型的视频显著运动检测与基于帧间差异度的视频显著性动作检测方法不同,基于背景模型的显著性动作检测方法的优势在于它会以更小的计算成本来进行快速的显著性动作检测。但是缺点却是很明显,那就是它在实际的应用中需要有这样一个前提条件,即仅当帧间的背景区域变化幅度不大的情况下,在此时基于背景模型的显著性动作检测才能获得较为理想的效果。例如对于固定相机位置得到的监控视频,由于相机位置的不变使得背景区域的像素点的灰度分布通常可以使用单个高斯函数进行表示,因此T. Kanade29和M. Htter 30认为,前景中显著性运动就可以认为是那些与高斯均值(背景像素点的灰度分布已经被表示为高斯函数)偏离较远的像素点。在此基础上,C.R. Wren 31引入多个高斯函数模型来拟合背景灰度分布,并且Elgammal 32将这一方法成功的应用到了行人追踪。然而,对于非固定相机获取的视频(动态视频),由于背景随着相机的运动时刻发生变化,采用高斯函数来拟合背景灰度分布已经变得不切实际。Mittal 33采用前面视频帧中计算得到的高斯核函数来对当前帧中特定位置的像素点进行拟合(非常类似于稀疏表示中的重构误差计算显著性)。值得一提的是,许多户外的视频背景通常在一定帧间隔内都展现出持续的运动状态,因此,Y. Ren 34在前面的方法上引入光流(optical flow,获取背景的运动轨迹)作为检测显著性动作的衡量标准。Y. Sheikh 35利用帧间背景配准的方式(辅以旋转、仿射以及投影映射),将用于静态视频的显著性动作检测方法拓展到动态视频上面。T. Darrel 36采用最大似然-马尔科夫随机场来对前景和背景同时建模,从而获得了较为理想的检测结果。总的来说,基于非显著性背景模型的视频显著性动作检测方法能够较基于帧间差异度的检测方法获得更为准确的检测结果,然而,其依旧容易受到噪声的干扰,并且其通常所需的计算量、内存都远高于基于帧间差异度的显著性动作检测方法。1.1.3 基于运动模型的视频显著运动检测 (a) (b) (c) (d)图4:基于运动层聚类的视频显著性动作检测,(a)为输入视频帧图像,(b)为运动层聚类结果,(c)为在(b)的基础之上进行像素级灰度聚类结果,(d)显著性动作检测结果所谓的运动模型视频显著性动作检测通常事先定义好一系列的运动模型(事先已经定义好了各运动模型的显著性高低),然后将视频帧中的各种不同的运动划分到不同的运动模型之中,从而对视频中的各元素进行显著性动作捕捉。J. Xiao 37提出将视频中的各元素视为不同运动层,而显著性动作的检测过程则认为是将各帧中的元素超各运动层进行聚类(非常类似于基于聚类的视频物体追踪),如图17(b)所示。 然而这种方法性能的好坏非常依赖于初始帧中运动层(motion layer of initial frame)的划分并,且计算十分复杂。为了克服这一缺陷,S. Pundlik 38采用图割(graph cut)的方法来决定初始运动层的划分,后续检测过程怎可简单的采用运动聚类(motion clustering)的过程,即首先计算帧间的运动状态,然后依据运动状态将各像素点划分到不同的初始运动层中,其结果如图17(c)(d)所示。 Z. Gao 39将视频物体追踪的方法引入到显著性动作检测中,首先对于每一帧进行特征点检测(类似于SIFT),然后对每一个特征点进行追踪,最终依据各自的运动状态进行聚类,以聚类结果来指导显著性动作的检测。 近一段时间,人们将用于图像的显著性物体检测的方法用来检测显著性动作。GH Liu 40首先利用低秩的方法对视频中的背景进行屏蔽(如图18(a)所示),然后计算剩余部分的元素的运动轨迹。由于显著性的运动通常在一定时间视频帧间的运动方向是大概趋于一致的,如图18(c)所示(背景元素的运动方向通常不一致,如背景树木的随风摆动,如图18(b)所示),因此,结合这一运动特性,此方法获得了非常理想的显著性动作检测结果。(a) 采用低秩的方法屏蔽背景的影响 (b)非显著运动轨迹 (c)显著运动轨迹图5:基于显著性运动轨迹的显著性动作检测,2.2 图像特征表示在计算机视觉和图像处理中,图像特征作为解决特定应用的计算任务时所用的揭示图像信息,就和在机器学习以及模式识别中的信息一样。图像特征会具备特定的结构信息,如点、角、边界、或者物体等,当然它也可以是一些邻居操作或者特征提取所产生的结果。作为图像信息的基础,图像的特征表示在近些年一直被人们所研究,并且也有了很大的进展。而且由于图像特征表示描述的种类众多,所针对的描述类型也不一样,因此很难有一个概括的分类。对于图像的特征表示现在在国际上并没有通用或精确的定义,确切的定义通常取决于实际中的问题或应用。在计算机视觉中,图像中被人们所关注的部分被定义为特征,并且图像的特征一般是作为大部分计算机视觉算法应用的第一步。由于特征被用作后续算法的起始点和主基元,所以整个算法将通常与其特征检测器一样好。因此,特征检测器的期望特性是重复性:是否将在相同场景的两个或更多个不同图像中检测到相同特征。图像特征提取是低级图像处理操作,也就是说,它通常是作为对图像应用的第一步操作来执行,并且检查每个像素以查看在该像素处是否存在特征。如果这是较大算法的一部分,则算法通常将仅检查特征的区域中的图像。作为特征检测的内置先决条件,输入图像通常由尺度空间表示中的高斯核进行平滑,并且对于计算一个或多个特征图像,通常以局部图像导数操作来表示。有时当特征检测在计算上昂贵并且存在时间约束时,可以使用更高级别的算法来指导特征检测阶段,使得仅搜索图像的某些部分以用于特征。许多计算机视觉算法使用特征检测作为初始步骤,因此在现在人们已经开发了大量的特征检测器。这些检测器在所检测的特征的种类,计算复杂性和重复性方面广泛变化。现在在下面介绍3种在计算机视觉中常用的图像特征。1.1.1 基于颜色的图像特征颜色是图像信息表示的最基本元素之一。在颜色空间中,人们通常使用数值抽象地表示亮度、灰度、色调、饱和度等颜色特征。最常用的RGB色彩空间使用的是加法混色法,它的原理是基于物体的发光定义,在自然界中描述各种“光”通过何种比例来产生颜色描述红绿蓝三色光的数值,并且颜色从黑色不断叠加红绿蓝这三种颜色产生颜色,通常将RGB颜色空间视为可以由用于红色,绿色和蓝色的三种颜色的灯制成的所有可能的颜色的颜色空间。RGB颜色HSV色彩空间使用色相、饱和度以及明度对颜色进行描述,使得对色彩的描述更加直观。它通过圆柱体内的点对颜色进行描述,圆柱中心轴在底部是黑色的,不断变化亮度直到顶部的白色,而在中心轴的中间是的灰色,绕轴的角度对应于“色相”,到轴的距离对应于“饱和度”,而沿轴的距离对应于“明度”。Lab颜色空间是根据非线性压缩(例如CIE XYZ)坐标的具有针对亮度的L和针对颜色对立维度的a和b的颜色对立空间。Lab 颜色空间包括所有可感知的颜色,用来描述人眼可见的所有颜色最完备的色彩模型,其中L表示黑色和白色之间的亮度,a表示红色和绿色之间的亮度,b表示黄色和蓝色之间的亮度。在实际的计算机视觉应用中,颜色直方图41是最常用的表达颜色特征的方法,它能够不受图像旋转以及平移的影响,如果进一步的归一化之后它还可以不受图像尺度变化的影响,但这样操作的同时还会带来一些缺点,如不能表达出颜色空间中颜色分布的信息。虽然颜色特征是图像特征表示中重要的一部分,但由于受运动、分辨率、噪声等的影响,仅考虑颜色特征的计算机视觉应用并不广泛,所以还需要结合其他一些图像特征。1.1.2 基于纹理的图像特征纹理是物体表面的一个非常重要特征,所以在图像表示中,纹理同样可以作为图像特征的重要一部分。例如在颜色比较相似的情况下,区分木纹和毛皮的重要因素就是纹理,因此在纹理的描述和分类上的研究也一直是人们关注的重点。图像纹理是在为量化图像设计的感知纹理的图像处理中计算的一组度量。图像纹理给我们关于图像中的颜色分布和光强分布的空间排列或图像的选定区域的信息。与基于像素点特征的颜色特征不同,纹理特征需要在包含多个像素点的区域中进行统计计算。作为一种统计特征,纹理特征常具有旋转不变性,面对噪声时具有一定的鲁棒性。但是与此同时它也有其缺点,当图像分辨率发生变化时,传统方法计算出来的纹理在分辨率变化前后可能会有较大偏差。并且由于受到光照、镜面反射等情况影响,从2-D图像中计算出来的纹理会与现实中3-D物体表面真实的纹理具有大的偏差。 图像纹理可以人工创建或在图像中捕获的自然场景中找到,图像纹理是一种可用于帮助图像分割或分类的方法。对于更精确的分割,最有用的特征是空间频率和平均灰度级。为了分析计算机中的图像纹理,通常来说人们一般有两种方法来处理这个问题:基于结构化方法和基于统计方法。基于结构化的纹理特征提取方法是对所检测的纹理进行建模,并以此模型在图像中搜索相同的模式。在计算机视觉的应用中,一般基于纹理的图像特征会采用最简单和有效的LBP纹理描述方法,并且在近些年大量研究表明了LBP纹理特征在识别面部方面取得了先进的效果。LBP方法在1994年首先由T. Ojala, M.Pietikinen和D. Harwood 提出4243,用于纹理特征提取。后来LBP方法与HOG特征分类器组合使用,改善某些数据集44上的检测效果。最基本的LBP方法以一个像素点为中心,用其环形领域的8个像素点与中心像素进行顺时针或者逆时针比较,遍历像素点是否比中心像素的亮度大,(若大则为0,否则为1)得到二进制编码,该二进制编码为该像素点的LBP值,如图所示,二进制编码为00111101。图 1 LBP编码示意图1.1.3 基于梯度的图像特征图像梯度是描述图像信息重要的方式,它将图像看成是二维的离散函数,这时候求解图像梯度就是对这个二维离散函数的求导过程。图像中的相邻像素间就如同坡度一样有差异,采用图像梯度对图像信息进行表示,就能够准确的反映图像中像素的变化情况。下面介绍几种常用的基于梯度的描述子。1999年,哥伦比亚大学的David Lowe在ICCV上首次提出了著名的SIFT(Scale Invariant Feature Transform)算法45,也就是尺度不变特征转换算法。2004年,Lowe又在IJCV上提升了SIFT算法的计算效率46。SIFT特征关键点提取主要包含以下流程:(1)首先对输入图像进行不同尺度的缩放;(2)利用不同程度的高斯滤波模板对每个尺度的图像进行滤波生成高斯差分(Difference of Gaussian)空间图像;(3)相邻层图像之间计算差分图像并检测多尺度空间下的图像极值点;(4)对每个高斯差分空间极值点统计方向直方图并计算主要方向;(5)生成关键点描述子,即最终的特征向量。SIFT特征描述子对旋转缩放、亮度变化等均能保持良好的不变性。同时,SIFT算法也是许多之后的对象检测算法的基础。可用于图像局部特征关键点提取。高斯滤波差分图计算示意图如图2所示。图2 多尺度高斯滤波差分图计算示意图SIFT(Scale-invariant Feature Transform)描述子46是检测局部特征的描述子,SIFT特征不只具有尺度不变性,在角度、亮度或摄像机视角等因素发生改变的时候,它仍然能够得到好的检测效果。SIFT描述子首先要构造尺度空间,而构造尺度空间目的是模拟图像数据的多尺度特征。然后SIFT描述子在空间尺度中通过高斯微分函数寻找极值点,然后根据极值点提取出其尺度、位置及旋转不变量。如图 3所示,SIFT描述子在多尺度的空间上检测,找到图像的关键极值点。图 3 SIFT尺度空间示意图在这里关键点主要包括DOG空间中的局部极值点,并且SIFT关键点的初步探查是通过比较同组内DoG相邻两层图像完成的。为了寻找DoG函数的极值点,每一个像素点要和它所有的相邻点在图像域和尺度域上比较大小。如图所示,中间检测点需要与它在同一尺度智商的八个相邻点以及上下相邻尺度对应的十八个点共二十六个点进行大小比较,以保证能在尺度空间以及二维图像空间上都可以检测到极值点。并且在得到这些极值点之后还需要进行关键点定位、消除边缘效应、关键点方向匹配、特征描述等一系列的处理最终得到特征点。图 4 关键点邻域梯度信息的统计分布示意图SURF(Speeded Up Robust Features)描述子47是在SIFT描述子基础上进行的改进后的一种描述子,它基于Hessian矩阵的尺度不变,并利用积分图像进行计算从而加快运算速度,积分图像上的任意一坐标上(i,j)的值为原图像左上角到此点的对焦区域的灰度值总和,计算公式如下图所示。并且由于SURF描述子是由SIFT描述子中经过改进得到,所以在一般情况下可以看到标准SURF描述子会比SIFT描述子在计算速率上好很多,并且对于多幅图片的情况,它会具有更好的鲁棒性。iii,j=ii,jjp(i,j)图 积分图像SURF描述子的计算速度一般情况下是SIFT的3-7倍,而且在大部分的情况下它的效果能够达到与SIFT的一样,因此它在对计算效率要求比较高的场合应用广泛。当然Surf相对来说还是具有它相应的缺点:在面对光照变化以及视角变化时,效果会差差一点。HOG(Histogram of Oriented Gradients)描述子48与SIFT描述子相似通过统计局部区域的梯度方向特征来表示图像,不同的是HOG使用基于一致空间的密度矩阵进行计算以提高准确率。在图像帧中,HOG描述子认为局部目标的表现模式和形状(appearance and shape)能够被梯度或者边缘上的方向密度分布表示出来,这是因为梯度在一般情况下存在于物体的边缘部分。HOG的特征比较适合于做图像中的人体检测的49。图 5 HOG特征提取示意图1.1.4 图像特征现状总结近些年人们在图像特征描述上不断研究,取得了大量的研究成果,但是任何一种图像特征不论被人们改善、处理得多好,它也不可能适应现实生活中的所有情况。所以在实际计算机视觉应用的使用过程中,人们还是倾向于使用经典的图像特征表示,如图像的颜色、SIFT描述子以及其改进和LBP,特别是在图像解析、分类中,由于SIFT诸多的优点,使得人们对于图像特征的选择往往是SIFT特征。然后在对图像特征描述上,由于单个图像特征描述往往具有一定的缺点无法胜任所有的场景,所以人们在经过一定时间的研究之后,更倾向于使用多种图像特征对图像进行表示以适应多种不同的现实场景。具体的做法有两种,一种是通过将两种或两种以上的描述子相结合,如将颜色和SIFT结合CSIFT得到更好的图像特征表示。第二种方法则是在对图像进行表示时,使用多种图像特征同时对图像进行描述。目前大部分论文中的各种实验表明,使用多种特征对图像进行表示会比与用单一特征在一定程度上能够带来较大的效果提升,如在本文中使用了自己设计的对于结构敏感的描述子来对图像进行描述,以达到传递的要求。2.2 超像素分割在对视频帧进行检测之前,由于逐像素的检测像素数量过会使得检测效率过低,所以我们需要先对图像进行分割。图像分割是指按照一定的规则将图像分割为多个图像子区域也就是超像素的过程,传统的视觉应用对图像的处理一般以像素为基本对象,但是随着图像的分辨率要求越来越高,像素的数量越来越大,直接作用于像素的算法的计算效率很难满足应用的需求,特别是对与一些对于实时性要求较高的应用,如物体追踪、图像识别等。所以更大的基本处理对象就迫切需要,于是2003年,Ren48提出超像素这个概念,超像素是一个包含相似纹理、颜色特征、亮度值等图像特征的相邻像素点所构成的图像块,它利用像素点特征的相似将像素分类,并且将图像的冗余信息消除,所以能够减少后续图像应用的计算量。2004年,麻省理工学院的Felzenszwalb等人在IJCV上提出了一种基于图分割的图像超像素自动划分算法49。该算法对输入图像建立了一个图模型,其中顶点集合表示输入图像中所有像素点,而边集合则表示任意两个相邻像素之间的关系,边的权重是通过计算两个像素纹理,颜色,饱和度,位置等差异度得到的。在基于图分割的算法中,任意一个分割解都是对顶点集合的划分结果,因此对于图像的分割可以归结为求解最优化图结构的问题。基于图分割的超像素分割算法结果图如图6所示。图6 基于图分割的超像素分割算法51这样的超像素具有以下的性质:1) 它的计算效率高:它可以将复杂图像从数十万计的像素降低到仅仅几百个超像素,大大的提高了计算的效率。2) 同时,它也能有效的表达图像:对于像素只有相邻的才存在约束,而对于超像素来说,约束能够在更大的范围存在。3) 超像素能够具有感知意义:每一个超像素都是一个具有感知一致的单元,也就是说,所有在同一个超像素里的像素在纹理、颜色等都是相似的。4) 它具有相对完整性:由于超像素是对图像的一个过分割,所以需要将图像大部分都覆盖,在由像素到超像素的转换中仅有很少的部分损失。目前的超像素分割算法大致可分为基于图论的方法和基于梯度下降的方法这两类。在基于图论的超像素分割方法中,我们会将每一个超像素看做是图中的一个节点,节点的边上所得的权重则是与像素之间相似度成正比,它是全局分割方法,它的分割会提取图中的节点,这样的方式则会使得我们在分割的时候讲分割的代价降到最低,并且由于分割方法的不一样,人们可以设计更高效的方法以得到更好的结果,从上面的叙述可以看出,基于图论的超像素分割方法很关键重要的一个步骤就是分割方法的选取,分割方法的好坏很大程度上会影响到最终的超像素分割效果。经典的基于图论的图像分割方法有:Graph-based方法49、Ncut方法50、SuperpixelLattice方法51和基于熵率方法52。在上述的方法之中,Ncut算法的主要方法是利用轮廓以及纹理的特征对在全局上构造的全局代价函数进行最小化以得到最终的结果,这种方法的好处在于它所生成超像素在大小和形状都都能够保持很好的一致性,但是它也具有一些缺点:比如在保持图像的边界上效果很差,使用这种方法进行计算的计算量非常大,所以会使得处理分辨率高的图片以及长的视频集合时需要更多的时间得到结果等。Graph-Based49方法则是使用最小生成树的思想来对图像进行分割操作,由于它在保持图像边界的效果能够达到人们的要求,而且由于计算方法的原因使得它的计算效率较高,当然它也有它自己的缺点,那就是使用这种方法得到的超像素在大小和形状的规则度远远达不到人们的期望。SuperpixelLattice51方法根据网格来对图像进行分割,不仅在计算上能够达到一定的效率,而且它还能够保持图像的拓扑结构信息使得在很多应用中都能进行使用,但由于它需要预先提取的图像的边界,使用这些边界对其进行计算,所以它非常依赖于这一步预先计算。熵率法54需要提出目标函数,这个目标函数包括了图像随机游走熵率以及平衡项,接下来就是对目标函数最大化,因为这样就能对图像进行分割,这种方法的优点在于超像素在形状以及大小上比较规则和均匀。而基于梯度下降的算法则是在初始的粗聚类开始,通过多次迭代,在迭代中使用梯度下降方法从粗聚类开始不断地更新新的聚类,一直迭代到聚类的结果收敛。经典的基于梯度下降的图像分割算法有:Watersheds方法53,Meanshift方法54,Quick-shift方法5557,turbopixels 方法56和SLIC方法59。这些算法都是属于梯度下降,采用聚类的基本思想,当然它们所采用的具体实施方式不一样,整体看来是各有千秋。首先Turbopixels是一种基于几何流上的水平集方法,首先选取多个种子点,在选取了种子点之后需要逐步的用它们进行碰撞操作,然后这样会得到一个比较平均的超像素分布。Meanshift是一种对模态进行迭代搜索的过程,由于迭代的逐渐逼近使得它在最终的结果上能够产生形状比较均匀的超像素,但同样由于迭代的原因使得它在计算的速度上会消耗很多的时间,并且它还存在一些其它的问题,如超像素大小以及紧凑度等,这种方法都不能控制。Watersheds 的理论主要是基于拓扑理论,它是一种数学形态学上的方法,这种方法的优点是速度快,但是同样它和meanshift方法一样。它不能对超像素的个数以及紧凑度进行控制。SLIC 算法是现有的多种图像分割方法中应用最为广泛的方法,该方法是基于在颜色空间和空间位置的相似性来指导超像素分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论