![目标跟踪综述_第1页](http://file3.renrendoc.com/fileroot_temp3/2022-2/19/9085c7d0-be83-4a5e-a731-189ac0fd0068/9085c7d0-be83-4a5e-a731-189ac0fd00681.gif)
![目标跟踪综述_第2页](http://file3.renrendoc.com/fileroot_temp3/2022-2/19/9085c7d0-be83-4a5e-a731-189ac0fd0068/9085c7d0-be83-4a5e-a731-189ac0fd00682.gif)
![目标跟踪综述_第3页](http://file3.renrendoc.com/fileroot_temp3/2022-2/19/9085c7d0-be83-4a5e-a731-189ac0fd0068/9085c7d0-be83-4a5e-a731-189ac0fd00683.gif)
![目标跟踪综述_第4页](http://file3.renrendoc.com/fileroot_temp3/2022-2/19/9085c7d0-be83-4a5e-a731-189ac0fd0068/9085c7d0-be83-4a5e-a731-189ac0fd00684.gif)
![目标跟踪综述_第5页](http://file3.renrendoc.com/fileroot_temp3/2022-2/19/9085c7d0-be83-4a5e-a731-189ac0fd0068/9085c7d0-be83-4a5e-a731-189ac0fd00685.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、目标跟踪综述Alper Yilmaz俄亥俄州立大学Omar Javed目标视频公司和Mubarak Shah中央佛罗里达大学 这篇文章的目的是回顾最先进的跟踪方法,对这些方法分类并探索新的发展趋势。一般来说,目标跟踪是一个颇具挑战性的问题。目标的不定向运动使跟踪目标变得困难,因为它改变了目标和场景的外观模式、非刚性目标的结构、目标之间及目标与场景间的遮照、照相机的运动。跟踪常应用于那些需要了解目标每帧的位置及形状的高级应用环境中。常用假设来约束特定应用环境中的跟踪问题。在此调查中,我们根据常用到的目标和运动表示法对跟踪方法分类,并提供每类中代表方法的详细描述,分析各类别的优缺点。此外,我们将讨
2、论与跟踪相关的重要问题,包括合适图像特征的使用,运动模型的选择和目标的检测。范畴和学科性质:I.4.8图像处理和计算机视觉:场景分析跟踪基本术语:算法另外的关键词句:外观模型,轮廓演变,特征选择,目标检测,目标表示法,点跟踪、形状跟踪ACM(Association for Computing Machinery美国计算机协会) 参考格式:Yilmaz, A., Javed, O., and Shah, M. 2006.目标跟踪调查。ACM 计算机研究38,4,文章13(2006.12)45页。数字目标标识(Digital Object Identifier)=10.1145/1177352.1
3、177355/10.1145/1177352.1177355此材料基于工作的部分基金来着美国政府。但材料中的任何意见、研究成果、结论或建议是作者自己的观点,并不代表美国政府的看法。作者地址:A. Yilmaz, CEEGS部门,俄亥俄州立大学;邮箱:;O. Javed, 目标视频公司,里斯顿,VA 20191;邮箱:ojaved; M. Shah, 电气工程与计算机科学学校,中央佛罗里达大学;邮箱:允许免费电子或硬盘复制部分或全部此材料,将其为个人或教学所用,不能用于盈利或者直接的商业竞争。复印件须在
4、第一页或屏幕显示的初始显示此通知,并附上完整出处。由其他人拥有的此篇文章的版权必须得到尊重。有信誉的摘要是被允许的。在其他方面的复制、翻版、在服务器上的张贴、列表的重新分配、在其他作品中使用这篇文章的任何内容需要先经过特定允许或交付酬金。由美国纽约710套房宾夕法利亚大学2号广场ACM公司出版部授权,传真+1 (212) 869-0481,邮箱。_c 2006 ACM 0360-0300/2006/12-ART13 $5.00 DOI: 10.1145/1177352.1177355 /10.1145/1177352.117
5、7355.1.引言 在计算机视觉领域目标跟踪是一项重要的工作。随着高性能计算机的增多,物美价廉的摄影机的普及,对自动视频分析与日俱增的需求引起人们对目标跟踪算法的浓厚兴趣。视频分析有三个关键步骤:对特征运动目标的检测、跟踪每帧中的目标、分析目标的轨迹来识别它们的行为。因此,目标跟踪应用于以下相关工作中:基于运动的识别,即基于步法的人类识别,自动物体检测等;自动化监测,即监视一个场景以检测可疑行为或不太可能的事件;视频索引,即在自动注释或检索多媒体数据库视频;人机交互,即将姿势识别和眼睛注视的数据输入到计算机中等;交通监视,即实时收集交通数据用来指挥交通流动;车辆导航,即视频路径规划和避障能力。
6、 跟踪可以简单地定义为评估物体围绕一个场景运动时在图像平面中轨迹。换句话说,一个跟踪系统给同一个视频的不同帧中的跟踪目标分配相一致的标签。此外,根据跟踪的范围,跟踪系统也可以提供中心目标的信息,比如目标的方向、面积或形状。跟踪的目标可能很复杂,这是因为:根据二维图片预测三维世界引起信息丢失图片的噪音复杂的物体运动物体的非刚性和精密的性质部分或完整的物体遮挡复杂的物体形状场景照度的改变实时处理的需要 可以通过大大的约束物体的运动或外观来简化跟踪。例如,几乎所有的跟踪算法都假设物体的运动是平滑的,不会突变。还可以根据推理的信息将物体约束为匀速或等加速运动。利用先前物体的数量和大小或外观和形状的知识
7、也可以简化问题。 已有大量目标跟踪方法被提出。这些方法解决以下问题的方式有所不同:跟踪物体的哪些表现?应用哪些图片特征?怎样构造物体的运动、外观、形状模型?人们正在根据跟踪环境和跟踪信息的最后使用寻找这些问题的答案。为了回答不同情形下的这些问题,已有大量的跟踪方法被提出。这次调查的目标是将跟踪方法分成几大类,并且提供每类中代表方法的综合描述。我们力求让那些想学习跟踪器的某个特定应用的读者能根据他们自身需要找到最合适的跟踪算法。此外,我们的目标是探索跟踪领域的新趋势和思想,希望让读者能洞悉新跟踪方法的发展。 我们的调查重点是跟踪一般目标的方法,而不是跟踪特定的目标,例如,人体追踪是使用人类运动学
8、作为实现基础。利用清晰的物理模型对人进行跟踪的工作已经展开。这些模型在Aggarwal and Cai 1999, Gavrilla 1999, and Moeslund and Granum2001的调查中已被讨论和分类。然而,我们,包括一些目标跟踪的工作也适用于除精密的目标外的领域。我们采取自下而上的方法来描述问题,这些问题在建立目标跟踪时需要处理。第一个问题是定义一个合适的目标表示法。在第二部分,我们将描述常见的物体形状表示法,例如,点、简单的几何形状和物体轮廓、外观表示法。下一个问题是用以对跟踪器输入的图像特征选取。在第三部分,我们将讨论多种图像特征,如颜色、运动、边等,这些特征在目标
9、跟踪中经常用到。几乎所有的跟踪算法需要在第一帧或所有帧对目标经行检测。第四部分概括了检测场景中目标的一般策略。一个特定跟踪算法的合适性取决于目标的外观、形状、数量、目标和照相机的运动和光照条件。在第五部分,我们对现有的跟踪方法经行分类和描述,在每类结尾的总结部分介绍它们的优缺点。第六部分,讨论关于目标跟踪的重要问题。 第七部分跟踪研究的未来方向。最后,第八部分补充评论。2.目标的表示法 在一个跟踪情节中,目标可以被定义成任何便于进一步分析的东西。例如,海洋上的船只,玻璃缸里的鱼,公路上的车辆,空中的飞机,路上的行人,或者水中的气泡在特定的领域可能是一系列重要的跟踪目标。目标可以用它们的形状和外
10、观表示。在这部分,我们将首先描述跟踪常用到的目标形状表示法,然后描述节点形状和外观表示法。点。目标用一个点来表示,即形心(图 1(a) Veenman et al. 2001或者用一系列的点表示(图 1(b) Serby et al. 2004。一般情况下,点表示法适合于在图像中占据很小区域的跟踪目标。(见5.1部分)简单的几何形状。目标的形状用矩形、椭圆表示。(图1(c),(d)Comaniciu et al. 2003,等。通常用转化、仿射或投影(单应性)转换来构造这些表现形式的物体的运动模型(详见5.2部分)。尽管简单的几何形状更适合表示简单的刚性物体,他们也可以用来跟踪非刚性物体。物体
11、的剪影和轮廓。轮廓表示法定义了物体的边界(图1(g),(h)。轮廓的中间区域被称作物体的剪影(见图1(i)。骨架和轮廓表示法适合跟踪复杂的非刚性形状Yilmaz et al. 2004。 图.1物体表示法。(a)形心,(b)多点,(c)矩形块,(d)椭圆块,(e)有部分构成的多块,(f)物体骨架,(g)完整的物体轮廓,(h)物体轮廓的控制点,(i)物体剪影链状模型。链接目标由主体的各部分组成,这些部分通过节点连接在一起。例如,人体是一个有躯干的链接物体,腿、手、头、脚由节点链接在一起。各部分间的关系由运动学模型支配,例如,节点处的角度等。为了表示一个链状物体,可以用圆柱体或椭圆构造组成部分的模
12、型,如图1(e)。骨骼模型。目标的骨骼可以通过对物体剪影进行中间轴转换提取出来Ballard and Brown 1982, 第八章。这种模型通常作为识别目标的一种形状表示法Ali and Aggarwal 2001。骨骼表示法可以用来构造链状和刚性物体的模型(见图1(f)。有很多表示物体外观特征的方式。请注意在跟踪中形状表示法也可以与外观表示法相结合Cootes et al. 2001。在目标跟踪环境中一些常见的外观表示法有:物体外观的概率密度。物体外观的概率密度评估要不是参数形式的,如高斯分布Zhu and Yuille 1996和高斯分布的混合形式Paragios and Deriche
13、 2002,要不是非参数形式的,如密度评估窗体Elgammal et al. 2002或直方图Comaniciu et al. 2003。物体外观特征(颜色,纹理)的概率密度可以通过形状模型(椭圆或轮廓的内部区域)指定的图像区域计算出来。模板。模板由简单的几何形状或轮廓构成Fieguth and Terzopoulos 1997。模板的优势在于它可以同时包含空间和外观信息。但是模板只能编码从单一视角产生的目标目标的外观。因此模板只适合跟踪在跟踪过程中形态变化不是很大的目标。主动外观模型。主动外观模型对物体的形状和外观同时建模。物体的形状通常由一系列的标记定义。与轮廓表示法相似,标记可以附在物体
14、的边界上或物体内部。对每个标记而言,外观矢量是以颜色、纹理或者梯度大小的形式存储的。主动外观模型要求一个能从一系列样本中识别形状和相应外观的瞄准位,如主成分分析。多视角外观模型。这些模型可以对物体的不同视角编码。表示物体不同视角的一个方法是从给定的视角中产生一个子空间。子空间方法,如主成分分析(PCA)和无约束成分分析(ICA),已用于形状和外观表示法中。Mughadam and Pentland 1997; Black and Jepson 1998。 另一种获知物体的不同视角的方法是通过瞄准一系列的分级器,如支持矢量的机械Avidan 2001和贝叶斯网络Park and Aggarwal
15、 2004。多视角的外观模型局限性在于需要提前形成所有视口中的外观。通常目标表示法与跟踪算法有密切联系。一般根据应用领域选择目标表示法。对于在图像中显示非常小的跟踪目标适合用点表示法。例如,Veenman et al. 2001用点表示法跟踪移动的盘子序列中的种子。类似的,Shafique and Shah 2003用点表示法跟踪遥远的鸟群。形状近似矩形或椭圆的目标,简单几何形状表示法更合适。Comaniciu et al. 2003用椭圆形状表示法,并使用从椭圆区域计算出的颜色直方图来对外观建模。在1988年,Black和Jepson用特征向量表示外观。特征详细由矩形目标模板产生。有复杂形状
16、的跟踪目标如人体,用轮廓或剪影表示法合适。Haritaoglu et al. 2000用在监视应用中用剪影进行目标跟踪。3.跟踪的特征选择 在跟踪中选择正确的特征非常重要。一个视觉特征最突出的属性是它的独特性,这样目标在特征空间才能容易被区分开来。特征的选择与目标表示法有密切联系。例如,在柱状图外观表示法中,颜色是一个特征。在基于轮廓的表示法中,目标边缘通常被当作特征。一般情况下,许多跟踪算法将这些特征结合起来使用。一般视觉特征的详细说明如下:颜色。一个物体的表面颜色主要受两个物理因素影响,1)光源的光谱能量分布和2)物体的表面反射属性。在图像处理中RGB彩色空间通常用来表示颜色。但RGB空间
17、不是一个视觉上匀称的彩色空间,也就是说,RGB空间中颜色的差异与被人感知的颜色差异不一致Paschos 2001。此外,RGB的各维度是密切相关的。相比之下,Luv和 Lab are是视觉上匀称的颜色空间,HSV(色彩,饱和度,值)是近似匀称的颜色空间。但是这些颜色空间易受噪声的影响Song et al. 1996。总之,对于哪种颜色空间更有效没有最终的结论,因此各种各样的颜色空间被应用到跟踪中。边界。物体的边界在图像强度中往往会发生很大变化。边界探测用来识别这些变化。边界的一个重要属性是相对于颜色特征它们对光照更不敏感。跟踪目标的边界算法通常将边界作为一个代表性特征。最流行的边界探测法是精密
18、的边缘探测器Canny 1986,因为它简单精确。Bowyer et al. 2001提供了边界探测算法的评估方法。视觉流。视觉流是移位矢量的一个高深领域,其中移位矢量定义了一个区域内每个像素的转化。视觉流用灰度约束来计算,假设连续帧中相对应的像素灰度不变Horn and Schunk 1981。视觉流通常作为基于运动的分割和跟踪应用中的一个特征。计算复杂的视觉流的常用方法有由Horn and Schunck 1981, Lucas and Kanade 1981研究的方法。对于视觉流的性能评估方法,我们参考关于Barron et al. 1994研究的有趣趣读物。纹理。纹理是对表面量化属性如
19、光滑度和规则性的强度变化的一种量度。与颜色相比,纹理需要一个处理步骤产生描述语。有许多纹理描述语:灰度级共存矩阵(GLCMs)Haralick et al. 1973(一个直方图,它显示了在指定的方向和距离上的强度共存),Law的纹理测量Laws 1980(25个2D滤波器由5个相同级别、边界、地点、波和波纹的滤波器产生),微波Mallat 1989(滤波器的正交储库)和可操作的金字塔Greenspan et al. 1994。与边界特征相似,与颜色相比纹理特征对光照变化更不敏感。 大多数特征由用户根据应用领域手动选择。但是在模式识别领域中自动特征选择问题得到密切关注。自动特征选择方法可以过滤
20、方法和包装方法Blum and Langley 1997。过滤方法基于一般的方法选择特征,如特征不相关。包装方法是在指定的领域基于特征的有用性选择特征,如使用特征的子集进行分类。主成分分析(PCA)是一种用于特征降维的过滤方法。主成分分析包括将大量(可能)相关变量转化成大量(少量)称为主体成分的不相关变量。第一个主体成分在数据中占据尽可能多的可变性,随后的每个成分尽可能多的占据剩余的可变性。自适应增强算法Tieu and Viola 2004是一种包装方法,它通过选择能识别的特征以跟踪特定种类的目标。自适应增强是根据将有适度不精确、错误、不牢固的分机器结合以发现一个强大的分机器的一种方法。对给
21、出的大量特征,一个分机器可以适应每种特征。自适应增强,如4.4部分讨论的,将会发现分级器的加权结合(描述特征),将算法的分级性能最大化。特征的重量级越大,他就月越容易被识别。可以用重量级最高的n个特征进行跟踪。 表1.目标检测分类分类代表性作品点探测器莫拉维茨探测器Moravec 1979哈里斯探测器Harris and Stephens 1988比例不变的特征转换Lowe 2004仿射不变点探测器Mikolajczyk and Schmid 2002分割均值平移Comaniciu and Meer 1999图像切割Shi and Malik 2000主动轮廓Caselles et al. 1
22、995背景模型混合高斯模型Stauffer and Grimson 2000固有背景Oliver et al. 2000墙壁精华Toyama et al. 1999动态纹理背景Monnet et al. 2003监督分类器支持向量机Papageorgiou et al. 1998神经网络Rowley et al. 1998自适应提升Viola et al. 2003在所有的特征中,颜色是跟踪中应用最广泛的一个特征。Comaniciu et al. 2003用颜色直方图来表示物体的外观。尽管这种表示方法很流行,大多数的颜色频带对光照变化很敏感。因此,在场景中这种影响是不可避免的,因为构建目标外观
23、的模型中包含其它的一些特征。Cremers et al. 2003用视觉流作为一个特征进行轮廓跟踪。Jepson et al. 2003用可操作的过滤器相应跟踪。也可以将这些特征结合起来提高跟踪性能。4.目标检测每种跟踪方法要求在每帧或当目标第一次在视频中出现时对目标进行检测。一种常用的目标检测方法是在单帧中使用信息。但是一些目标检测方法利用从一系列帧计算出的时间信息以减少错误探测的数量。这种时间信息通常以突出连续帧的变化区域的帧差值的形式呈现。跟踪系统的任务是根据图像中给出的目标区域,完成从一帧到下一帧的目标通信,从而产生跟踪。在表1中我们将几种常见的目标跟踪方法制成表格。4.1.点探测器
24、点探测器是用来发现在它们各自位置上有表现力纹理的图片上的特征点。特征点在运动、立体声和跟踪问题的环境中已被长期使用。特征点有一个很好的特性就是它不会随光照和照相机视角的改变而改变。在文献中常用的特征点探测器包括Moravec的特征工具Moravec 1979,哈里斯参与点探测器Harris and Stephens 1988,KLT探测器Shi and Tomasi 1994和SIFT探测器Lowe 2004。关于特征点探测器的比较评论,我们参考关于Mikolajczyk and Schmid2003的研究的读物。 为了发现特征点,Moravec工具计算了4*4区域内水平、垂直、右斜线线和左斜
25、线方向的图像灰度差,并选择了四个值中的最小值作为窗口的代表值。若该值在一个12*12的区域中是局部最大值,则为特征点。 图.2 应用哈里斯、KLT、SIFT检测到的兴趣点哈里斯检测器计算水平和垂直方向的一阶图像倒数,显示了各个方向上的灰度差,可用一个二维矩阵来表示。它可以用来评估邻域内的像素点:特征点可以由这个行列式识别,M的轨迹用来测量在局部邻域R =det(M)k ·tr(M)2中的差值,其中k是一个常量。特征点通过阀值R与指定的值进行比较而标记(效果见图2(a)。哈里斯检测器的源码在HarrisSrc中也适用。在方程式(1)中给出的二维矩阵M在 KLT跟踪方法中的特征点探测步骤
26、中也用到。特征点的置信度R由M的最小特征值min计算出。候选特征点通过阀值R选出。KLT去掉了空间距离很近的候选点(图2(b))。KLT检测器的实施方法在KLTSrc中可以得到。性质上,Harris 和KLT用相似的方法强调灰度差。如Harris中的R与用来计算M特征值的特征多项式:2 +det(M) · tr(M)=0有关,而KLT直接计算特征值。实际上,这些方法找到的特征点几乎是相同的。唯一的不同是KLT预先定义了被检测的特征点间的空间距离。理论上,M矩阵在旋转和移动中是不变的。但它在仿射和投影变换中并不是一成不变的。为了介绍在不同转换中检测特征点的可靠方法,Lowe 2004介
27、绍了SIFT(比例不变的特征转换)方法,它有四个步骤。首先,用高斯滤波器以不同比例对图像进行滤波,产生一个尺度空间。滤波图像用来产生不同的高斯图像。从最大和最小的高斯图像中选出特征点。下一步内插入邻近像素点的的颜色值以更新每个候选点的坐标。第三步,差别小的候选点和沿边缘的候选点被去除。最后,根据候选点周围邻近区域的梯度方向的直方图来安排剩下的特征点的方向。SIFT检测器相对于其他的特征点探测器产生了很多的特征点。这是因为特征点是以不同的比例和分辨率累加的。Mikolajczykand Schmid 2003以经验表明,SIFT胜过大部分点检测器,对图像变化的弹性更好。SIFT检测器的实现方法在
28、SIFTSrc中可以得到。图3.背景减法的混合高斯模型(a)一个人步行穿过场景的序列中的图片(b)在每个像素位置进行最高权重的高斯处理。这些处理显示了每个像素的最持久的颜色。因此应该呈现出静态的背景。(c)次高权重的高斯处理。这些处理显示了经常很少见到的颜色。(d)背景减法的效果。前景包括在当前帧中低权重高斯处理的像素点。4.2 背景减法 目标检测可以通过构造场景的表示法即背景模型,然后找出每帧中模型的差异获得。在背景模型中,图像区域中的任何值得注意的变化都意味着一个运动物体。为了作进一步处理,区域中正在变化的像素点要做上标记。通常,一个相关联的组件算法用来获得与目标相一致的相关联区域。这个过
29、程被归为背景减法。自从七十年代末相邻帧的区别已被深入研究。随着Wren et al. 1997的研究,背景减法变得很流行。为了及时了解平缓的变化,Wren et al.打算用一个3D(Y, U, and V颜色空间)高斯算法I (x, y) N(x, y), _(x, y)对静态背景中的每个像素点的颜色建模。模型参数,平均值(x, y)和协方差_(x, y)从几个连续帧的颜色观察值中得到。一旦从背景模型中推断出输入帧中的每个像素,从N(x, y), _(x, y)中就可能计算颜色的值。从背景模型中偏离的像素点将被标记成显著的像素点。但是简单的高斯分布不适合用于户外场景Gao et al. 20
30、00因为在某一坐标点上因重复的物体运动、阴影或反射可能会观察到多重颜色。通过使用多模型的统计模型来描述每个像素的背景颜色使背景模型获得很大的改善。在此方法中,通过比较当前帧中的像素点与模型中的每个高斯分布直到发现一个相配的高斯分布,将它与背景模型进行核对。如果发现了一个匹配的,此高斯分布的平均值和方差被更新,否则将在模型中引进一个新的高斯分布,它的平局值等于当前像素的颜色,方差是初始化的一个值。每个像素根据相匹配的分布是否表示背景的变化进行分类。移动的区域可以通过这种方法检测出来,图3展示了相应的背景模型。另一种方法包含基于范围(空间)的场景信息而不仅仅使用基于颜色的信息。Elgammal a
31、nd Davis 2000使用无参数的内核密度估计来对每个像素的背景建模。在减法过程中,当前像素点不仅与背景模型中相应的像素点匹配,而且和邻近像素的坐标位置想匹配。这种方法可以处理背景中的照相机抖动或微小的运动。Li and Leung 2002将纹理和颜色特征结合起来表现5 × 5像素块的背景减法。图4 特征空间基于分解的背景相减(照相机视场中的物体构成的空间):(a)物体的输入图像,(b)在特征空间上放映了输入图像后重建图像,(c)有差异的图像。注意显著的目标已被识别出来了。 因为纹理对光照变化不是很敏感,所以这种方法受光照的影响不大。Toyama et al. 1999提出一个
32、三级算法用来处理背景减法问题。除了像素级相减外,作者还使用了范围和帧级信息。在像素级,作者建议使用Wiener过滤对预期的背景颜色进行预测。在范围级,具有形同颜色的前景区域被填充。在帧级,如果一帧中展现的大多数像素点突然变化,可以假定基于像素的背景模型不再有效。这时候先前存储的基于像素的背景模型被交换进来或重新启动。 另一种背景相减的方法是当环境中的对应事物处于不连续状态时显示图像序列中的像素灰度差。例如,跟踪高速公路上的车辆,图像像素可以处于背景状态,前景状态或阴影状态。Rittscher et al. 2000使用隐藏的马尔科夫模型(HMM)将属于这三种状态中的一种的图像分成几块。对于一个
33、房间中探测灯时开时关的环境下的事物,Stenger et al. 2001使用HMMs进行背景相减。使用HMMs的好处是使用训练样本来获得某些使用无监督背景模型建模方法很难精确建模的事物。 Oliver et al. 2000不是根据单个像素的差值建模,而提出使用特征空间分解的一种整体方法。k代表帧数,I i : i = 1 · · · k,帧的大小为n*m,大小为k* l的背景矩阵B由一帧接一帧的级联m列组成,其中l = (n×m),特征值分解于B的协方差,C = BTB。背景由最有描述性的特征矢量描述,ui,其中i < < k,实现视角(
34、FOV)中所有可能的光照。因此,这种方法对光照更不敏感。通过发射当前图像到特征空间并发现重建图像和实际图像的不同来检测前景目标。在图4中我们展示了使用特征空间方法检测目标区域。以上方法仅适用于静态背景。此限制在Monnet et al. 2003, 和 Zhong and Sclaroff 2003中有相关叙述。这种方法可以处理随时间变化的背景(如水波、漂浮的白云和电梯)。这些方法将图像区域建模成自回归运动平均(ARMA)进程,这样就可以了解和预测场景中的运动模式。 (ARMA)进程一个时间序列的模型,它由很多自回归和移动平均元件构成,其中自回归进程可以被描述为它先前的值和热噪音误差的加权总数
35、。图5(a)分割的图像(b)mean-shift分割(c)标准分割总之,大多数高水准的固定照相机的跟踪方法,如Haritaoglu et al. 2000 和 Collins et al. 2001使用背景减法检测特征区域。这是因为近代的减法方法能对背景区域中变化的光照、噪声和周期性运动建模,因此可以精确检测变化环境中的目标。而且这些方法在计算上很有效。实际上,背景减法在许多例子中提供的目标区域都不完整,即目标溢出到几个区域中或目标中有孔,因为不能保证目标特征与背景特征不同。背景减法最重要的局限性是要求静止的照相机。照相机的运动经常会使模型失真。这些方法可以通过再生很小的现有窗口中的背景模型应
36、用到移动相机要求的视频中,如从置乱Kanade et al.1998中得到三帧或通过修正传感器运动,如创建背景镶嵌Rowe and Blake 1996; Irani and Anandan 1998。但这些解决方法都要求对二维场景的假设和连续帧中的微小运动。4.3 分割图像分割算法的目的是有感知的将图像分成相似的区域。每个分割算法都强调了两个问题,一个好的分割标准和获得有效分割的方法Shi and Malik 2000。在这个部分,我们将讨论近代与目标跟踪相关的分割技术。4.3.1 Mean-Shift聚集。 对于图像分割问题,Comaniciu和Meer 2002提出mean-shift方
37、法用以发现空间和颜色交接点的空间中的簇l , u, v, x, y,其中l , u, v表示颜色,x, y表示空间位置。根据给出的图像,这个算法用从数据中选择的大量的随机假设簇中心进行初始化。然后每个簇中心移动到以簇中心为中心的多维圆柱体的数据平均数。这个矢量由原来的和新的簇中心即mean-shift矢量定义。这个mean-shift矢量迭代计算直到簇中心的位置不再改变。注意在mean-shift迭代期间,一些簇可能发生合并。在图5(b)中,我们展示了由MeanShiftSegmentSrc源代码产生的mean-shift方法进行分割的图像。Mean-shift聚簇可以应用于其它方面如边缘检测
38、,图像规范化Comaniciu and Meer 2002和跟踪Comaniciu et al. 2003。基于分割的Mean-shift算法要求各种参数很好的协调以获得更好的分割,如颜色的选择和空间内核带宽和区域最小化的阀值对分割的结果有很大影响。4.3.2.使用Graph-Cuts的图像分割。图像分割也可以表达成一个图表分割问题,其中图表(图像)G的最高点(像素点)V = u, v, . . .,通过修剪图表的权重边缘将其分解成N个分离的子图表(区域)Ai ,Ai Aj = , i _= j。两个子图的之间的修剪边缘的权重总和成为切口。权重通过两个节点间的颜色、亮度或纹理的相似性计算出来。
39、Wu 和Leahy 1993使用最小化的切口标准,目的是发现使切口最小的分割方式。在他们的方法中,权重被定义成基于颜色相似性。最小化切口的局限性在于它的斜纹朝向图像切割的上部分。这种效果是因为随着横跨两个切割块的边缘的增加,切口的成本增加。 Shi 和 Malik 2000提出了标准化的切口,它克服了超分割问题。在他们的方法中切口不仅依赖于切口边缘权重的总和,还依赖于节点在每次分割中相对于图表中的所有节点的总连接权重的比例。对于基于图像的分割,节点间的权重通过颜色相似和空间邻近的乘积定义。一旦每对节点间的权重被计算出,一个权重矩阵W和一个对角矩阵D,其中被构造。第一次分割通过计算广义的特征系统
40、(DW)y = Dy的特征矢量和特征值。然后用次小的特征矢量将图像分成两个片段。对于每个新的片段循环采用这种处理直到达到一个阀值。在图5(c)中,我们展示了通过标准化切口的方法得到的分割结果。在基于标准化切口的分割中,对大图片的广义特征系统的解决办法在处理和存储要求上可能花费很大。但是这种方法相对于mean-shift分割很少手动选择参数。标准化切口在跟踪目标轮廓中也用到Xu and Ahuja 2002。4.3.3.主动轮廓。 在主动轮廓结构中,可以通过将封闭的轮廓演变成目标的边界,将轮廓紧紧的围绕目标的区域,从而获得目标分割。轮廓的演变由轮廓对于假定目标区域的合适性决定。轮廓演变的能量功能
41、用以下常见的形式表示:S是轮廓的弧长,Eint包括常规约束,Eim包括基于外观的能量,Eext指定其它约束。Eint经常包括一个曲率项、一阶(v)或二阶(2v)连续性项以发现最短的轮廓。基于图像的能量Eim可以局部或全局计算。局部信息经常用图像梯度的形式表示,通过周围的轮廓对其进行评估Kass et al. 1988; Caselles et al. 1995。相比之下,全局特征有图像区域的里外计算。全局特征包括颜色Zhu and Yuille 1996; Yilmaz et al. 2004; Ronfard 1994和纹理Paragios and Deriche 2002。 在等式(2)中
42、不同的研究者使用不同的能量项。在1995年,Caselles et al.去掉了Eext,仅使用图像梯度作为图像能量Eim = g(| I |),其中g是一个S型函数。与梯度相比,梯度函数将目标的轮廓定义为黎曼几何空间中的测量曲线Caselles et al. 1995。但是图像梯度提供了自身的信息,很容易受自身最小值的影响。为了克服这个问题,研究者采用基于区域的图像能量项。在1996年,Zhu 和 Yuille提出使用区域信息代替图像梯度。但是能量功能中区域项的使用不能很好的定位目标的轮廓。最近,将基于区域和基于梯度的图像能量混合的方法变得很盛行。Paragios 和 Deriche 200
43、2提出使用梯度和基于区域的能量凸面结合的方法,Eimage = Eboundary + (1 )Eregion。作者根据高斯混合用Eregion对外观建模。先进行全局轮廓演变,然后通过将从0变化到1进行局部迭代。基于轮廓的方法的一个重要问题是轮廓初始化。在基于梯度的图像方法中,轮廓置于图像区域的外面,然后收缩,直到和目标的边界相遇Kass et al. 1988; Caselles et al.1995。这种约束在基于区域的方法中要求不是很严格,所以轮廓可以被初始化为目标的内部或外部,轮廓相应的扩展或收缩以适合目标的边界。但是这些方法要求先前的目标或背景知识Paragios and Deric
44、he 2002。使用多重帧或参考帧,初始化可以不用建立先前的区域。例如,在Paragios and Deriche 2000中,作者使用背景减法初始化轮廓。除了能量功能的选择和初始化外,另一个重要问题是选择正确的轮廓表示法。目标的轮廓可以明确地(控制点V)或含蓄地(等值面)表示。在明确的表示法中,控制点间的关系定义成曲线等式。在等值面表示法中,轮廓表示成空间的网格,这个网格编码了目标和背景区域的轮廓的相反标记的网格之间的标记距离。轮廓含蓄地定义成等值面网格的0交叉口。轮廓的演变根据能量改变网格的值来决定,这些能量使用等式(2)计算出来的并在每个网格位置对其进行评估。网格值的改变导致新的0交叉点
45、,从而产生新的轮廓位置(详见5.3部分)。一般的等值面源代码通过指定轮廓的演变速度被广泛应用,例如,分割、跟踪、热流等,在LevelSetSrc中也适用。含蓄表示法比起明确表示法的一个重要优点是能灵活的适应拓扑变化(分离和合并)。4.4 监督学习 可以通过监督学习装置的方法自动从一系列的样本中自动学习不同的物体视图,从而进行目标检测。不同的目标视图的学习不需要一个完整系列的模板。通过给出的一系列学习样本,监督学习方法产生了一个映射输入到输出的函数。一个标准的监督学习构想是使初学者的行为接近通过产生一个称为回归连续值或一个称为类别的标签形式的输出函数的分类问题。在目标检测的环境中,学习样本由成对
46、的目标特征和相关联的目标种类组成,样本数量手动定义。 特征的选择在分类中起着重要作用,因此使用一系列特征将种类区分开是很重要的。除了在第3部分讨论的特征外,可能还使用其他的一些特征,如目标面积、目标方向和目标外观,可以用一个密度函数表示它们,如直方图。一旦特征被选择,通过选择监督学习的方法可以学习目标的不同外观。这些学习方法包括神经网络Rowley et al. 1998,自适应推进Viola et al. 2003,决策树Grewe and Kak 1995和矢量支撑设备Papageorgiou et al. 1998。这些学习方法计算出一个超曲面用以在高维度空间内将一个目标种类与其他种类分
47、离。监督学习方法经常要求从目标种类中收集大量样本。此外,这些样本必须手动地贴上标签。减少手动标签数据量的一种可能方法是监督学习时进行协同训练Blum and Mitchell 1998。协同训练的主要思想是使用标签数据的一个小集合训练两个分类器,其中应用到每个分离器中的特征是独立的。每个分类器受到训练后,用来将无标签数据安排到其他分类器的训练集合中。事实表明,从有独立特征的两个集合的标签数据中的一个小集合开始,协同训练可以提供一个非常精确的分类原则Blum and Mitchell 1998。协同训练已成功地用以减少自适应增强环境中训练时手工交互的数量Levin et al. 2003而且支持
48、矢量设备Kockelkorn et al. 2003。下面我们将讨论自适应增强和支持矢量设备,因为它们广泛应用于目标跟踪。4.4.1.自适应增强。增强是一种迭代方法,它通过结合许多比较精确的基本分类器发现一个非常精确的分类器Freund and Schapire 1995。在自适应增强算法的训练阶段,第一步是在训练集上构造权重的初始分布。增强设备然后选择一个错误最少的基本分类器,其中错误与错误分类数据的权重是成比例的。其次,与通过选择的基本分类器错误分类的数据相联系的权重增加。因此,这个算法鼓励在下一次迭代中选择在错误分类数据上表现更好的其他分类器。在增强方面感兴趣的读者可以参考网址http:
49、/。在目标检测的环境中,不可靠的分类器可能是简单的运算如阀值的集合,这些操作可以应用与从图像中提取的目标特征。在2003年,Viola et al.使用自适应增强框架检测行人。在他们的方法中,感知器用来作为在图像特征上训练的不可靠分类器,其中图像特征是从空间和当前运算的结合中提取出来的。特征提取的运算形式是简单的矩形滤波器,如图六。当代领域的运算形式是以运动信息编码的帧差分。4.4.2.支持矢量设备。 作为一个分类器,支持矢量设备(SVM)通过发现将类别区分开的最大边缘的超曲面将数据聚簇成两种类别Boser et al. 1992。最大化的超曲面边缘定义成超曲面
50、和最近数据点间的距离。在超曲面边缘的边界上的数据点称为支持矢量。在目标检测的环境中,这些种类与目标种类(真实样本)和非目标种类(底片样本)一致。从手动产生的标签训练样本作为目标和非目标,通过二次规划编程计算大量的可能超曲面中的超曲面。图6.在自适应框架中Viola et al. 2003使用矩形滤波器提取特征。每个滤波器由三个区域组成:白色、浅灰色、深灰色,权重分别为0、-1、1.为了计算窗体的特征,这些滤波器不接受图像。 尽管SVM是一个线性分类器,它也可以应用核方法从输入中提取输入特征矢量当作非线性分类器。在非线性分离的数据集中应用核方法,可以将数据转化成可能分离的更高空间维度。应用于核方
51、法中的核是多项式核或光线基函数,例如高斯核和两层感知器, 如S型函数。但是,对于如何正确选择核的问题是很困难的。一旦选择了核,必须检测参数的分类功能,因为当新的观察值引进到样本中时这些参数可能不能很好工作。 在目标检测的环境中,Papageorgiou et al. 1998使用SVM检测图像中的行人和脸部。这些特征用来区分通过在正反训练样本中应用Haar微波提取的类别。为了减少搜索空间,将当前信息应用到计算图像中的视觉流场中。特别是视觉流场的不连续性可以用来发起对可能导致误报数量减少的目标的搜索。5. 目标跟踪 目标跟踪的目的是通过定位目标在视频中每帧的位置产生目标随时间运动的轨迹。目标跟踪
52、器也可能提供每个时间片目标占据的图像区域。检测目标和建立目标在不同帧中的实例通信的任务可以分开执行或共同执行。在第一种情况下,每帧中的目标区域通过目标检测算法得到,然后跟踪器与不同帧中的目标通信。在第二种情况下,通过不断更新从以前帧中得到的目标位置和区域信息共同估算目标区域和通信。在任何种跟踪方法中,目标用第二部分描述的形状或外观模型表示。选取的表示目标形状的模型限制了它的运动和变形的类型。例如,如果一个目标用点来表示,只能使用平移模型。用几何形状如椭圆表示的目标适合用参数运动模型像仿射或投影变换。这些表示法可以近似表示场景中刚性物体的运动。对于非刚性物体,剪影和轮廓是最具有描述性的表示法,参
53、数或非参数模型都可以用来指定它们的运动。图7.跟踪方法的分类表二、跟踪分类鉴于前面的讨论,在图7中我们提供了跟踪方法的分类。每类中的代表作品在表II.制成了表。我们现在简单的介绍主要的跟踪种类,下面是每个种类的详细章节。点跟踪。在连续帧中的检测目标用点表示,点间的联系基于先前目标的状态,包括目标的位置和运动。这种方法要求一个外部机制来检测每帧中的目标。图8展示了一个目标通信的例子。图8(a)不同的跟踪方法。多点通信(b)一个矩形块的参数转化(c,d)轮廓演变的两个例子核跟踪。核指的是目标的形状和外观。例如,核可以是矩形模板或和直方图相关联的椭圆形状。在连续帧中通过计算核的运动跟踪目标(图8(b
54、))。此运动经常以参数转换的形式表示,如转化、旋转、仿射。剪影跟踪。通过估算每帧中目标的区域进行跟踪。剪影跟踪方法使用目标区域内部编码的信息进行跟踪。这个信息可以是外观密度和通常以边缘映射表示的形状模型的形式。根据给出的目标模型,使用形状匹配或轮廓演变跟踪剪影(见图8(c),(d))。这些方法都可以认为应用与当前目标的图像分割,其中当前目标是从先前帧中产生的。5.1.点跟踪跟踪可以表述为不同帧中用点表述的检测目标间的通信。在目标闭塞、误检测、进入和退出的情况下,点通信是一个复杂的问题。总的来说,点通信方法可以分为两大类,即确定性的和统计性的方法。确定性的方法使用定性运动启发法Veenman e
55、t al. 2001来约束通信问题。另一方面,概率统计方法明确的进行目标测量,在建立通信时考虑到了不确定性。5.1.1.通信的确定性方法。点通信的确定性方法定义了使用运动约束将t 1帧中的每个目标与t帧中的单个目标结合起来的成本。通信成本最小化指组合的优化问题。一个解决办法包括在所有可能的关联中建立一对一通信(图9(a),可以通过最佳指定分配方法如Hungarian算法、Kuhn 1955或贪婪搜索方法获得。通信成本经常定义成使用以下约束的组合。邻近假设目标的位置从一帧到另一帧不会发生显著改变(见图10(a)。最大速度定义了目标速度的一个上界,限制目标圆形邻近区域的可能通信(见图 10(b)。
56、小速度变化(平滑运动)假设目标的方向和速度没有大幅度变化(见图 10(c)。一般运动约束邻近目标的速度相似(见图10(d)。这种约束适合多点表示的目标。图9.点通信。(a)第t-1帧中的点(目标)和第t帧中的点(目标)所有可能的关联(b)用粗线标出唯一关联(c)多帧通信。图10.不同的运动约束。(a)邻近,(b)最大速度(r表示半径),(c)小速度变化,(d)一般运动,(e) 刚性约束。表示目标在第t-2帧中的位置,表示目标在第t-1帧中的位置,X表示目标在第t帧中的位置刚性假设在3D世界中目标是刚性的,因此在真实目标上的任意两点间的距离不发生变化(见图 10(e)。邻近一致性是邻近性的结合和
57、小速度变化的约束。但是,我们应该注意这些约束不是针对确定性的方法,它们也可以在统计方法的点跟踪环境中使用。这里,在这个种类中我们介绍文献中提到的不同方法的一个样本。Sethi 和 Jain 1987通过基于邻近和刚性约束的贪婪方法解决通信问题。他们的算法考虑了两个连续的帧并根据最近标准进行初始化。通信迭代变化,使成本最小化。与这个算法相同的改进版本计算了除了计算正方向的通信外,也计算了反方向上的通信。这种方法不能处理闭塞、前进、后退。Salari and Sethi 1990解决了这些问题,方法是首先建立检测点间的通信,然后增加一些假设点扩大对失踪目标的跟踪。Rangarajan和Shah 1991 提出了贪婪法,通过邻近一致性进行约束。根据计算头两帧中视觉流可以获得初始通信。这种方法没有提到目标的进入和退出。如果检测点的数量减少,假定存在闭塞或误检测。通过建立当前帧中检测点间的通信可以处理闭塞。对于其余
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电力行业助理的工作职责简述
- 高校人才培养方案的更新
- 2025年全球及中国石油和天然气行业用有机缓蚀剂行业头部企业市场占有率及排名调研报告
- 2025-2030全球桶形立铣刀行业调研及趋势分析报告
- 2025年全球及中国医疗推车液晶显示器行业头部企业市场占有率及排名调研报告
- 2025-2030全球轮胎式破碎机行业调研及趋势分析报告
- 2025年全球及中国剧场动作自动化设备行业头部企业市场占有率及排名调研报告
- 2025年全球及中国单线金刚石线切割机行业头部企业市场占有率及排名调研报告
- 2025-2030全球履带调节器行业调研及趋势分析报告
- 2025-2030全球防水低光双筒望远镜行业调研及趋势分析报告
- 安全生产网格员培训
- 小学数学分数四则混合运算300题带答案
- 林下野鸡养殖建设项目可行性研究报告
- 心肺复苏术课件2024新版
- 2024年内蒙古呼和浩特市中考文科综合试题卷(含答案)
- 大型商场招商招租方案(2篇)
- 会阴擦洗课件
- 2024年交管12123学法减分考试题库和答案
- 临床下肢深静脉血栓的预防和护理新进展
- 2024年山东泰安市泰山财金投资集团有限公司招聘笔试参考题库含答案解析
- 内镜下粘膜剥离术(ESD)护理要点及健康教育
评论
0/150
提交评论