Boosting 自下而上和自上而下的视觉特征的显著性估计

上传人：2*** IP属地：湖北上传时间：2023-02-01 格式：PPT 页数：31 大小：1.32MB 积分：28 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

BoostingBottom-upandTop-downVisualFeaturesforSaliencyEstimationBoosting

自下而上和自上而下的视觉特征的显著性估计主要内容四、模型比较和结果5六、读者小结7五、讨论与小结6摘要1一、简介2二、学习一个视觉显著性的模型3三、实验程序4摘要自由观赏自然场景时，最好的视觉显著模型尽管有显著的最新进展，在预测眼睛注视与人类的表现仍然落后。多数模型是基于低层次的视觉特点，自顶向下的特点的重要性尚未得到充分探讨或建模。在这里，我们结合了低级别的功能，如方向，颜色，强度，以前最好的自下而上的模式，采用自顶向下的视觉认知功能（例如，脸，人类，汽车等）的显著图，使用回归、SVM和AdaBoost分类，从这些特点里学习直接映射这些功能的的眼睛注视。通过广泛的试验三个基准眼球跟踪数据集，使用三种流行的评价分数，我们展示了：我们的Boosting模型优于27个最先进的模型，是迄今为止在注视预测最准确的模型。此外，我们的模型没有如区域分割这样复杂的图像处理，成功地检测到的最显著的一个场景中的对象。视觉注意的过程中一直是许多心理学，神经科学，计算机视觉等研究的对象。相应地，一些计算模型已经在机器学习，计算机视觉和机器人领域引起关注。几个应用程序也已经被提出，并进一步提出了在这一领域的兴趣，包括：，自动创建拼贴[5]，视频压缩[6][9]，非真实渲染[8]，广告设计[10]。自下而上的显著性的模型经常被评估，在自由观看任务中，预测人的注视。今天，许多显著性模型基于各种各样令人信服的技术，仍然每年都会有人引进新模型。然而，在预测眼睛注视时，模型和人类间观察员（IO）有很大的差距。IO模型“对于一个给定的刺激的输出，通过整合眼睛注视建成地图，而不是观看那个刺激。该模型预计将提供预测模型的准确度的程度，不同的人可能是对方的最好的预测者。上面提到的模型和人类之间的差距主要是由于自顶向下的因素的作用（参照图1）。一、介绍一、介绍它被认为是自由观看的早期阶段（前几百毫秒），主要是基于图像醒目性的注意，后来，高层次的因素（例如，行动和事件）指导眼球运动[53][39]。这些高层次的因素可能不一定转化为自下而上的显著性（例如，根据颜色，强度或方向），应考虑分开。举例来说，一个人的头部可能在其余的场景中不会特别突出，但可能会引起人们的注意。因此，结合高层次概念和低层次的功能扩展现有模型，并达到人类的表现似乎是不可避免的。一、介绍由[1]的启发，我们提出了三个贡献显著性的学习。首先，我们结合最好的两个方面：自下而上和自上而下的因素。通过比较29个显著性模型，我们整合功能，最好的自下而上的模式已经发现预测与自上而下的因素，如人脸，人，车，等人的注视，培养几个线性和非线性分类从这些功能中的录制品。第二，我们更强调内部零件更准确的显著性检测瞩目的对象（例如，人类上部）。通过大量的实验，我们证明了我们的相结合的方法，超过以前显著的学习方法（[1][48]），以及其他最新的方法，在3个数据集上，使用3个评价得分。第三，我们证明了我们的模型能够在一个场景中检测到最突出的对象，接近主流的显著区域检测的表现。一、介绍相关工作：显著性模型简介显著性模型一般可以分为认知（生物）或计算（数学），而有些发生在之间。几款根据Itti等人的自底向上的显著性模型[4]。这种模型是先执行Koch和Ullman的计算架构基于特征整合理论[15][16]。在这个理论中，图像被分解为低一级的属性，如跨越几个空间尺度，然后归一化和线性或非线性相结合，形成一个主显著图的颜色，强度和方向。这一理论的一个重要组成部分是作为图像区域及其周围环境的独特性，显著性定义中心环绕的想法。这个模型还提出一个合适的架构适应视觉搜索理论和对象检测模型（例如，[18]）。基于去相关的神经反应，Diaz等人[29]提出了一种有效的模型被称为自适应白化显著性（AWS）的显著性。LeMeur等[33]，Marat等[36]，Kootstra等[17]提出的模型是其他以认知的调查结果为导向的模型。

另有，基于概率模型、基于频率模型等，这里不一一介绍。一、介绍与手动设计显著性措施相比，我们按照训练分类的一种学习方式，直接从人眼跟踪数据。其基本思路是的加权组合的功能，其中权重学会从一个大的库对自然图像的眼球运动，可以增强显著性检测比未经调整组合特征映射。学习方法也有容易适用于通过提高要素权重目标对象的可视化搜索的好处。在下面，我们提出了一个朴素贝叶斯公式的显著性估计。让我们是一个二元变量表示的显著位置的图像像素X=（X，Y）与特征向量f，其中“s等于1”表示这个像素是突出的（也就是说，它可以吸引人类的眼睛）和零。像素x的概率是显著的可写为：二、学习一个视觉显著性的模型上面的公式是基于假设特点可以出现在所有的空间位置（即，x和f是相互独立的，则p（f|x）=p（f））。我们进一步假设，在S的先验概率（即，位置突出与否）都是平等的。上式右边的第一项测量由于上面的图像的像素的特征的显著性，而第二项措施显著性的基础上的像素的空间位置。我们学习使用p（s|f）分类标注数据（倾向的位置）。我们估计p（s|x）：其中，d（X，X0）是归一化的像素x从中心像素的X0的距离。二、学习一个视觉显著性的模型①低层次（自下而上）特点传统上，强度，方向和颜色已被用于对静态图像的显著性推导。动态场景（视频），闪烁和运动特点也已经被其他几个低级别的特点（例如，大小，深度和光流）增加[55][56]。在这里，我们先调整每个图像为200×200像素，然后提取一组特点，我们使用低级每个像素[1]，因为他们已经被证明与视觉注意力相关的特点，并有潜在的生物合理性[16][15]。低层次的特点列举如下：·13个在4个方向3尺度的可操纵金字塔过滤器的局部特点·使用Itti和Koch显著的方法[4]计算的3强度，方向和颜色（红/绿和蓝色/黄色）对比通道。·3个红色，绿色和蓝色通道，以及3个功能相对应的各颜色通道的概率值。·5在6个不同尺度中值滤波器滤波的图像的三维颜色直方图计算从上述颜色通道的概率。二、学习一个视觉显著性的模型这样产生了30个低级的特点。中心环绕操作需要注意的是，直接施加在地图的某些特点（例如，Ltti特征映射）。虽然在实践中，它是作为一个功能，可以使用任何自下而上的模型，在这里，我们利用Torralba[32]，AWS[29]，GBVS[20]的模型，因为这些模型具有较高的固定预测能力，采用完全不同的显著性机制的速度，可以计算出从其他低级别的特点。样本图像中提取的特征示于图2。二、学习一个视觉显著性的模型二、学习一个视觉显著性的模型②高级别（自顶向下）特点。高级别特点，如人脸和文字[14]，人车[1]，对称性[17]，和体征已建议直接关注。据悉，这些都是通过一个人的一生的时间获得的先验知识一个挑战是检测情感（情绪）的功能和语义（高层次的知识）场景属性，如因果关系和行动的影响力，这被认为是很重要的引导注意力。这些因素都影响眼球固定的位置和持续时间[13]。我们将我们的功能集包括如下的高级别的功能：。·由于摄影师的倾向帧图像和对象水平所形成的水平线。·实施由Felzenszwalb的变形部分模型的人和车探测器（DPM）[50]。·使用Viola和Jone代码的人脸检测[51]。二、学习一个视觉显著性的模型从注释的数据，我们注意到，某些地区吸引更多的关注对象，例如人类上部（头区）和脸部（眼睛，鼻子和嘴）（见图3）。为了提高这些地区的显著性，我们了解到该对象的平均显著图从训练数据了解到对象的检测区域。二、学习一个视觉显著性的模型另一个重要特点是在前中心的基础上发现的：大多数的录制品在中心附近发生的图像（即中心偏置[39]）。与基线的方法进行公平比较的分类（AWS和GBVS模型），我们在这里单独对待中心功能。根据公式2，我们把每个模型的显著性图与p（s|x）相乘，p（s|x）是每个像素打牌中心的距离。最终，所有的特点都变成34（30自底向上+4自上而下）向量（不含中心），被送入分类器（在下一节中解释）。二、学习一个视觉显著性的模型分类器我们调查线性和非线性分类器的固定预测能力。线性分类通常比较快，通过矩阵运算计算了解到的权重是比较容易解读。另一方面，非线性模型通常是速度慢，但更强大的。回归。假设特征矢量f和显著性s之间的线性关系，解方程F×W=S，其中，F和S是训练数据为f和s的矩阵。解决的办法是：W=F+×S，F+是通过SVD分解最小二乘伪逆矩阵F。为了避免数值不稳定，这些特征向量的特征值是小于的最大特征值的一半的伪逆的计算过程中被丢弃。对于测试图像，特征提取，然后学习的映射被用于产生一个向量，然后调整大小到200×200的显著图。二、学习一个视觉显著性的模型SVM。使用liblinear的支持向量机2，liblinear是一个公开的SVMmatlab版，我们也训练SVM分类器。我们采用了线性的内核，因为它们是更快的执行以及非线性多项式和RBF内核的固定预测[1]。回归，而不是预测的标签（即，1/-1）相似，在测试中，我们使用的WT的值F+b，其中W和b的学习参数。要调查的非线性映射功能显著性，我们使用AdaBoost算法[52]，在应用场景分类和识别物体时，其中有许多吸引人的理论性。鉴于N标记的训练实例(ui,vi)，vi∈{−1,+1}，ui∈U，AdaBoost的结合了一些弱分类器Ht学到了强分类器H(u)=sign(f(u))；f(u)=，这里αt是第t个分类器。二、学习一个视觉显著性的模型本节对分类和功能提出一个全面的评估。在这里，我们不仅评估了我们的模型，也比较几款模型以供日后参考。我们能够运行27个显著性模型。此外，我们还实施了其他两个简单但功能强大的模型：GaussianBlob和人类中间观察者模型。GaussianBlob的是一个简单的2D高斯形状的绘制图像的中心，它是预期预测人的目光，以及如果这样的凝视强烈图像中心的周围聚集。对于一个给定的刺激，当他们观看刺激时，中间观察员的模型输出一个通过整合比其他物体测试的地图。模型地图可以根据记录眼球运动来调整原始图像的大小。三、实验程序3.1眼动数据集由于可用的眼球运动数据集有不同的统计、各类刺激、受试者人数，在这里，我们利用公平的基准数据集来比较模型。第一个数据集，MIT[1]，从Flicker和LabelMe[46]采集到的包含1003幅图像的数据集。图像的最长尺寸是1024，其他的尺寸范围从405到1024。它有779幅景观图像和228幅人像图像。15人类受试者观看的图像。图像显示3秒，每两个之间有1秒的灰色屏幕。第二个数据集，Toronto[21]，是显著模型评价最高和最广泛使用的数据集。它包含120室内和室外场景的彩色图像。随机图片4秒，图像之间有2秒灰度掩模，20个的主题。NUSEF是最近推出的数据集，它有758幅包含情感的场景/物体如表现力的面孔，裸体，不愉快的概念和概念的语义（动作/原因）的图像图像。总共75名自由查看图像数据集的一部分，每幅图片观察5秒（每幅图像有平均25个不同的观察者）。三、实验程序3.2评价指标由于没有一个独特的得分可以进行显著模型评价，我们报告了三个结果。应该说一个模型表现良好的话，应该所有分数都比较高。ROC曲线下面积(AUC)；使用这个分数，视为二元分类的图像中的每个像素上的模型的显著图;较大的显著度值大于阈值的像素被分类为迷恋，而其余的像素被分类为非迷恋[21]。人类注视被用作地面参考。通过不同的阈值，ROC曲线绘制的假阳性率与真阳性率，这条曲线下的面积表示：显著图预测实际人眼注视。三、实验程序我们训练和测试分类在MIT的数据集交叉验证后段。第2.2节（K=10，M=100，除了最后一个含103）。在MIT的所有图像数据集的一个训练有素的模型，然后应用到其他数据集。表1示出模型的AUC分数。四、模型比较和结果四、模型比较和结果NSS和CC不乘以中心偏置的分数结果示于图中4。增压（无中心，但与AWS和GBVS为特征），在几乎所有的情况下赢得了GBVS和AWS。总体而言，这个数字显示，而许多模型得分低于高斯模型，提高模型性能站在高斯的顶部，超过3个数据集和分数显示提高模型在大多数情况下是最好的。因为有更多的概念和自上而下的刺激因素，在这些数据集模型和IO模型在NUSEF和MIT的数据集之间有较大的差距。Tavakoli[40]表现最好，超过Toronto的数据集，缺乏太多的自上而下因素，此数据集的图像排名提升至第二。除去在内部零件上的强调，在MIT的数据集上，AUC的增压从0.806减少到0.792。四、模型比较和结果四、模型比较和结果四、模型比较和结果4.2显著性物体检测的应用图8显示与人类的注释和我们的模型预测的例子。可以看出，即使是显著的对象是不是靠近中心位置时，它能够成功地检测最突出的物体。四、模型比较和结果结合自下而上和自上而下的特点，我们学到了一些模型的视觉显著性，在相同的数据和分数上比较其准确性。我们的方法允许添加更多的特点，如其他自下而上的模式或其他自上而下的功能显著图。在分类中，使用SVM和回归预测的AdaBoost具有最好的预测精度。它优于大部分现有模型，是迄今为止表现人类最接近的模型，它可以几种方法提高计算机视觉的性能。它也竞相表现用

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Boosting 自下而上和自上而下的视觉特征的显著性估计

文档简介

温馨提示

最新文档

评论

Boosting 自下而上和自上而下的视觉特征的显著性估计

文档简介

温馨提示

最新文档

评论

相关文档