当前位置:文档之家› 翻译:Boosting Bottom-up and Top-down Visual Features for Saliency Estimation

翻译:Boosting Bottom-up and Top-down Visual Features for Saliency Estimation

Boosting Bottom-up and Top-down Visual Features for Saliency

Estimation

提高自下而上和自上而下的视觉特征的显著性估计

摘要

自由观赏自然场景时,最好的视觉显著模型尽管有显著的最新进展,在预测眼睛注视与人类的表现仍然落后。多数模型是基于低层次的视觉特点,自顶向下的特点的重要性尚未得到充分探讨或建模。在这里,我们结合了低级别的功能,如方向,颜色,强度,以前最好的自下而上的模式,采用自顶向下的视觉认知功能(例如,脸,人类,汽车等)的显著图,使用回归、SVM和AdaBoost分类,从这些特点里学习直接映射这些功能的的眼睛注视。通过广泛的试验三个基准眼球跟踪数据集,使用三种流行的评价分数,我们展示了:我们的Boosting模型优于27个最先进的模型,是迄今为止在注视预测最准确接近人体模型。此外,我们的模型成功地检测到的最显著的一个场景中的对象,没有如区域分割这样复杂的图像处理。

1、简介

视觉注意是一个认知过程,帮助人类和灵长类动物从一个场景迅速选择高度相关的信息。然后将这些信息处理更精细的高层次的视觉过程,如现场了解和识别物体。相关的概念是由两个因素决定。第一个,通常被称为自底向上的视觉显著,是一种独立任务的组成部分,只有低级别和基于图像的离群和醒目的基础上。第二部分基于意志控制机制的基础上,确定地区生活的任务,如驾驶场景的重要性的。

视觉注意力的过程中一直是许多心理学,神经科学,计算机视觉等研究的对象。相应地,一些计算模型已经在机器学习,计算机视觉和机器人领域引起关注。几个应用程序也已经被提出,并进一步提出了在这一领域的兴趣,包括:图像拇指钉[7],自动创建拼贴[5],视网膜中央凹的图像/视频压缩[6] [9],非真实渲染[8],广告设计[10]。

自下而上的显著性的模型经常被评估,在自由观看任务中,预测人的注视。今天,许多显著性模型基于各种各样令人信服的技术,仍然每年都会有人引进新模型。然而,在预测眼睛注视时,模型和人类间观察员(IO)有很大的差距。IO 模型“对于一个给定的刺激的输出,通过整合眼睛注视建成地图,而不是观看那个刺激。该模型预计将提供预测模型的准确度的程度,不同的人可能是对方的最好的预测者。上面提到的模型和人类之间的差距主要是由于自顶向下的因素的作用(参照图1)。

它被认为是自由观看的早期阶段(第一几百毫秒),主要是基于图像醒目性的注意,后来,高层次的因素(例如,行动和事件)指导眼球运动[53][39]。这些高层次的因素可能不一定转化为自下而上的显著性(例如,根据颜色,强度或方向),应考虑分开。举例来说,一个人的头部可能在其余的场景中不会特别突出,但可能会引起人们的注意。因此,结合高层次概念和低层次的功能扩展现有模型,并达到人类的表现似乎是不可避免的。

自由观看一些自上而下的因素都已经知道,虽然积极调查仍可以继续发现更多的语义因素。比如,Einhauser等[11]提出的对象更好地预测注视比自下而上的显著性。瑟夫等[14]表明面孔和文字吸引人类的目光。Elazary和Itti12]表明,有趣的对象(注释从LabelMe数据集[46])更加突出。Subramanian等。[13],在一个大的情感图像数据集的记录眼睛注视,观察,注视指向不再对这种刺激的情绪和行动的刺激和持续的注视。同样,Judd等[1],通过绘制图像区域的顶部突出的位置的人的显著图(录制品制成的),在一个场景中,观察人,脸,汽车,文本,和动物吸引人的注视可能因为他们传达更多的信息。一些个人的经验,年龄,文化等特点,也改变了人类看图像的关注面[54]。

由[1]的启发,我们提出了三个贡献显著性的学习。首先,我们结合最好的两个方面:自下而上和自上而下的因素。通过比较29个显著性模型,我们整合功能,最好的自下而上的模式已经发现预测与自上而下的因素,如人脸,人,车,等人的注视,培养几个线性和非线性分类从这些功能中的录制品。第二,我们更强调内部零件更准确的显著性检测瞩目的对象(例如,人类上部)。通过大量的实验,我们证明了我们的相结合的方法,超过以前显著的学习方法([1] [48]),以及其他最新的方法,在3个数据集上,使用3个评价得分。第三,我们证明了我们的模型能够在一个场景中检测到最突出的对象,接近主流的显著区域检测的表现。

相关工作。显著性模型一般可以分为认知(生物)或计算(数学),而有些发生在之间。几款根据Itti等人的自底向上的显著性模型[4]。这种模型是先执行Koch和Ullman的计算架构基于特征整合理论[15][16]。在这个理论中,图像被分

解为低一级的属性,如跨越几个空间尺度,然后归一化和线性或非线性相结合,形成一个主显著图的颜色,强度和方向。这一理论的一个重要组成部分是作为图像区域及其周围环境的独特性,显著性定义中心环绕的想法。这个模型还提出一个合适的架构适应视觉搜索理论和对象检测模型(例如,[18])。基于去相关的神经反应,Diaz等人[29]提出了一种有效的模型被称为自适应白化显著性(AWS)的显著性。Le Meur等[33],Marat等[36],Kootstra等[17]提出的模型是其他以认知的调查结果为导向的模型。

另一类模型是基于概率制定的。Torralba[32]提出了贝叶斯框架的可视化搜索,这也是适用于显著性检测。自底向上的显著性是源于其制定为:,其

中F代表一个全局性的特点,总结存在的场景,根据场景要点分析(G)的目标对象的概率密度。同样,张等人[38]提出了SUN(使用天然统计的显著性)模型,即自下而上的显著性,自然出现的自我信息的可视化功能。Mancas [25]提出本地(小型本地邻居)和全局(整个场景)稀有的显著措施。Itti和Baldi [22]定义了令人惊讶的刺激显著改变信仰的观察者,通过计算后和之前的估计之间的KL距离。基于图形的视觉显著(GBV的带)[20]和E-显著性[26]是另外两种基于贝叶斯和图形模型的方法。

显著性状态的决策理论解释:注意驱动的最优化伴随着尊重最后的任务。高和Vasconcelos [35]认为,识别、突出特点是那些最好的区分所有其他类的兴趣的一类。给定一些的特点集,X ={X1,···,的Xd},位置l和类标号Y与Y= 0对应于从环绕(Y i= 1为l中心区域)抽取的样本,然后衡量显著性计算互信息(通常

KL距离),计算式为。

频域模型是另一类。侯和张[23]提出了有关光谱残差特征谱域光谱剩余模型(SRM)空间域。在文献[27],相位谱是利用四元数傅里叶变换(PQFT)的显著性计算,这适用于静态和动态的刺激。

我们建议的方法都涉及到那些模型学习从图像功能的映射,使用机器学习技术的眼睛注视。Kienzle等[2],Judd等[1],Peters和Itti[47],使用的图像块,在每个像素的向量的几个特点,场景要旨,分别用于学习的显著性。赵和Koch[48] [49]学到了显著通道组合最优权重分别为每只眼睛跟踪数据集。虽然他们表现出每个数据集的结果精度高,运行权重了解到的权重有时不同意以上数据集。目前还不清楚这种方法如何推广到看不见的影像。在这里,我们利用更多的信息量大的特点,进行眼球固定预测和评估的能力强分类。

除了上述模型外,其他还有一些模型解决突出区域检测模型(例如,Achanta 等人[44]和程等人[41])。这些模型的主要目标是找到并段最突出的一个场景中的对象或区域。原则上,用显著性检测和估计(固定预测)技术互换是适用的。

2、学习一个视觉显著性的模型

与手动设计显著性措施相比,我们按照训练分类的一种学习方式,直接从人眼跟踪数据。其基本思路是的加权组合的功能,其中权重学会从一个大的库对自然图像的眼球运动,可以增强显著性检测比未经调整组合特征映射。学习方法也有容易适用于通过提高要素权重目标对象的可视化搜索的好处。

在下面,我们提出了一个朴素贝叶斯公式的显著性估计。让我们是一个二元变量表示的显著位置的图像像素X =(X,Y)与特征向量f,其中“s等于1”表示这个像素是突出的(也就是说,它可以吸引人类的眼睛)和零。像素x的概率

是显著的可写为:

上面的公式是基于假设特点可以出现在所有的空间位置(即,x和f是相互独立的,则p(f|x)=p(f))。我们进一步假设,在S的先验概率(即,位置突出与否)都是平等的。上式右边的第一项。1测量由于上面的图像的像素的特征的显著性,而第二项措施显著性的基础上的像素的空间位置。我们学习使用p (s|f)分类标注数据(倾向的位置)。我们估计p(s|x):

其中,d(X,X0)是归一化的像素x从中心像素的X0的距离。这类似于一个高斯PDF,已被证明解释注视自由观看[39]。

2.1 视觉特点

低层次(自下而上)特点

传统上,强度,方向和颜色已被用于对静态图像的显著性推导。动态场景(视频),闪烁和运动特点已增加[55]。也已经被其他几个低级别的特点(例如,大小,深度和光流)[56]。在这里,我们先调整每个图像为200×200像素,然后提取一组特点,我们使用低级每个像素[1],因为他们已经被证明与视觉注意力的特点,并有潜在的生物合理性[16][15]。低层次的特点列举如下:·13个在4个方向3尺度的可操纵金字塔过滤器的局部能量。

·使用Itti和Koch显著的方法[4]计算的3强度,方向和颜色(红/绿和蓝色/黄色)对比通道。

·3个红色,绿色和蓝色通道,以及3个功能相对应的各颜色通道的概率值。

·5在6个不同尺度中值滤波器滤波的图像的三维颜色直方图计算从上述颜色通道的概率。

·3显著性图的Torralba [32],AWS[29],和GBVS[20]的自底向上的显著性模型。

这样产生了30个低级别的特点。中心环绕操作需要注意的是,直接施加在地图的某些特点(例如,Itti特征映射)。虽然在实践中,它是作为一个功能,可以使用任何自下而上的模型,在这里,我们利用Torralba [32],AWS[29],GBVS[20]的模型,因为这些模型具有较高的固定预测能力,采用完全不同的显著性机制的速度,可以计算出从其他低级别的特点。尝试与其他机型并没有帮助我们的研究结果,但我们也不能完全排除这种可能性。AWS模式使用Lab色彩空间和去相关的专题地图,而GBVS图像的像素采用了衡量相异计算显著性图。在这里,我们利用线性特征。我们的框架,允许添加其他非线性特点,如边角离群由于质地的变化(著名的鸟巢里的蛋或生日蜡烛图片[38])。样本图像中提取的特征示于图2。

高级别(自顶向下)特点。

高级别特点,如人脸和文字[14],人车[1],对称性[17],和体征已建议直接关注。据悉,这些都是通过一个人的一生的时间获得的先验知识一个挑战是检测情感(情绪)的功能和语义(高层次的知识)场景属性,如因果关系和行动的影响力,这被认为是很重要的引导注意力。这些因素都影响眼球固定的位置和持续时间[13]。我们将我们的功能集包括如下的高级别的功能:。

·由于摄影师的倾向帧图像和对象水平所形成的水平线。

·实施由Felzenszwalb的变形部分模型的人和车探测器(DPM)[50]。

·使用Viola和Jone代码的人脸检测[51]。

从注释的数据,我们注意到,某些地区吸引更多的关注对象,例如人类上部(头区)和脸部(眼睛,鼻子和嘴)(见图3)。为了提高这些地区的显著性,我们了解到该对象的平均显著地图从训练数据了解到对象的检测区域。在一般情况下,通过添加对象探测器性能的显著性检测的高度依赖探测器的假阳性率。例如,如果没有脸的面部检测器生成用于图象的许多假警报,那么它极大地减少了评价的得分。不幸的是,尽管高度重视文本功能指导的目光,到今天为止,还没有可靠的方法,可以检测在自然场景文本。

另一个重要特点是在前中心的基础上发现的:大多数的录制品在中心附近发生的图像(即中心偏置[39])。与基线的方法进行公平比较的分类(AWS和GBVS 模型),我们在这里单独对待中心功能。根据公式2,我们把每个模型的显著性图与p(s|x)相乘,p(s|x)是每个像素打牌中心的距离。

最终,所有的特点都增强34D(30自底向上+4自上而下)向量(不含中心),被送入分类器(在下一节中解释)。每个专题地图的大小为200×200地图,然后线性成1×4000载体(类似于类标签)。

2.2 分类器

我们调查线性和非线性分类器的固定预测能力。线性分类通常比较快,通过矩阵运算计算了解到的权重是比较容易解读。另一方面,非线性模型通常是速度慢,但更强大的。图2示出了显著的学习方法的示意性说明。我们编译一个大型

的训练集采样图像注视。每个样本均包含在一个伴随着一个+1 /-1标签的点上。阳性样品取自顶部的P%的显著像素的人的固定地图(用小高斯滤波器平滑卷积)和阴性样品从底部q%。我们选择从最高的20%和最低40%的样品,以便有样品呈强阳性和强烈的阴性。训练特征矢量归一化到具有零均值和单位标准偏差,并使用相同的参数,测试数据正常化。为了评估我们的模型,我们跟着交叉验证的方法。整个数据集被划分为K个与M的图像的部分。我们每次训练模式,从K-1份,并测试了它在余下的部分。结果超过了所有分区上的平均值。

回归。假设特征矢量f和显著性s之间的线性关系,解方程F×W = S,其中,F和S是训练数据为f和s的矩阵。解决的办法是:W = F+×S,F+是通过SVD分解最小二乘伪逆矩阵F。为了避免数值不稳定,这些特征向量的特征值是小于的最大特征值的一半的伪逆的计算过程中被丢弃。对于测试图像,特征提取,然后学习的映射被用于产生一个向量,然后调整大小到200×200的显著图。

SVM。使用liblinear的支持向量机2,liblinear是一个公开的SVM matlab版,我们也训练SVM分类器。我们采用了线性的内核,因为它们是更快的执行以及非线性多项式和RBF内核的固定预测[1]。回归,而不是预测的标签(即,1/ - 1)相似,在测试中,我们使用的WT的值F + b,其中W和b的学习参数。

要调查的非线性映射功能显著性,我们使用AdaBoost算法[52],在应用场景分类和识别物体时,其中有许多吸引人的理论性。鉴于N标记的训练实例(ui, vi),v i∈{?1, +1},ui∈U,AdaBoost的结合了一些弱分类器H t学到了强分类器

H(u)=sign(f(u));f(u)= ,这里αt是第t个分类器。在这里,我们设

置弱分类器的数目T为10,这将导致高精确度和合理的速度。取代类的标签,我们认为H(u)的真正价值创造的显著图(即,f(u))。最终地图首先用小的高斯核卷积平滑,然后通过一个指数函数为更好地说明。我们使用公开可用的软件来进行温和AdaBoost的实验。

3 实验程序

本节对分类和功能提出一个全面的评估。在这里,我们不仅评估了我们的模型,也比较几款模型以供日后参考。我们能够运行27个显著性模型。此外,我们还实施了其他两个简单但功能强大的模型:Gaussian Blob和人类中间观察者模型。Gaussian Blob的是一个简单的2D高斯形状的绘制图像的中心,它是预期预测人的目光,以及如果这样的凝视强烈图像中心的周围聚集。对于一个给定的刺激,当他们观看刺激时,中间观察员的模型输出一个通过整合比其他物体测试的地图。模型地图可以根据记录眼球运动来调整原始图像的大小。

3.1 眼动数据集

由于可用的眼球运动数据集有不同的统计、各类刺激、受试者人数,在这里,我们利用公平的基准数据集来比较模型。第一个数据集,MIT [1],从Flicker和LabelMe[46] 采集到的包含1003幅图像的数据集。图像的最长尺寸是1024,其他的尺寸范围从405到1024。它有779幅景观图像和228幅人像图像。15人类受试者观看的图像。图像显示3秒,每两个之间有1秒的灰色屏幕。第二个数据集,Toronto [21],是显著模型评价最高和最广泛使用的数据集。它包含120室内和室外场景的彩色图像。随机图片4秒,图像之间有2秒灰度掩模,20个的主题。NUSEF是最近推出的数据集,它有758幅包含情感的场景/物体如表现力的面孔,裸体,不愉快的概念和概念的语义(动作/原因)的图像图像。总共75名自由查看图像数据集的一部分,每幅图片观察5秒(每幅图像有平均25个不同

的观察者)。

3.2 评价指标

由于没有一个独特的得分可以进行显著模型评价,我们报告了三个结果。应该说一个模型表现良好的话,应该所有分数都比较高。

ROC曲线下面积(AUC);使用这个分数,视为二元分类的图像中的每个像素上的模型的显著图;较大的显著度值大于阈值的像素被分类为迷恋,而其余的像素被分类为非迷恋[21]。人类注视被用作地面参考。通过不同的阈值,ROC曲线绘制的假阳性率与真阳性率,这条曲线下的面积表示:显著图预测实际人眼注视。

归一化扫描路径的显著性(NSS):NSS是在人的眼睛的位置(x h,y h)的响应值,在预测模型的视线地图已经被标准化为具有零均值和单位标准偏差:NSS=。对于一个图像,每个扫视中NSS被计算一次,分数

的计算平均值和标准误差在每组NNS分数集合中被计算。

线性相关系数(CC):线性相关系数衡量人类固定地图(h)及显著性地图(S)

之间的线性关系的强度:,其中α和σ分别是地图的平均值和标准偏差。

4 模型比较和结果

我们验证我们的模型,把它应用到两个问题:1)眼球运动预测和2)在一个场景中最突出的对象/地区分割。

4.1 固定预测

我们训练和测试分类在MIT的数据集交叉验证后段。第2.2节(K = 10,M=100,除了最后一个含103)。在MIT的所有图像数据集的一个训练有素的模型,然后应用到其他数据集。表1示出模型的AUC分数。

使用32个功能(AWS和GBVS功能除外),提高跑赢其他两个分类。通过与

中心偏置功能相乘提高结果。比分为高于AWS模型,略低于GBVS。然而,当添加的中心偏置,升压和GBVS之间的差异减小,有时升压胜。这背后的解释是,GBVS是一个很好的模式,但有其内在的中心偏置的方式乘以中心偏置不会过多改变其性能(相比与乘以中心与其他型号的偏置时)。

当我们加入AWS和GBVS作为自下而上的特点到我们的功能集,在所有情况下,性能提升,SVM分类始终跑赢GBVS,不论有没有中心偏置(除了在NUSEF 上的SVM)。

NSS和CC不乘以中心偏置的分数结果示于图中4。增压(无中心,但与AWS 和GBVS为特征),在几乎所有的情况下赢得了GBVS和AWS。总体而言,这个数字显示,而许多模型得分低于高斯模型,提高模型性能站在高斯的顶部,超过3个数据集和分数显示提高模型在大多数情况下是最好的。因为有更多的概念和自上而下的刺激因素,在这些数据集模型和IO模型在NUSEF和MIT的数据集之间有较大的差距。Tavakoli[40]表现最好,超过Toronto的数据集,缺乏太多的自上而下因素,此数据集的图像排名提升至第二。除去在内部零件上的强调,在MIT 的数据集上,AUC的增压(32D表1)从0.806减少到0.792。

图5将ROC曲线表示于表格1,在MIT的数据集的回归和SVM分类学到权重向量W。最重要的特点包括:水平线,GBVS,AWS和Torralba显著图,以及脸和人类探测器。

对于我们的模型,它需要21.5秒,以提取所需的全部特点(分别为了子带,Itti,颜色,Torralba,地平线,对象,AWS,GBVS地图花费了[0.250.5410.20.19 0.314.4 3.62] 秒),为200×200的图像计算显著性使用了0.4秒。5.8 GB内存和12核心3.2 GHz的英特尔酷睿i7 CPU运行Linux操作系统Ubuntu的个人电脑使用。最昂贵的通道的颜色,为了使我们的模型更快,它可以被删除,因为它不是一个非常重要的通道(见图5)。为我们的分类的样品显著图和5个最好的模型的如图6。

4.2显著的物体检测的应用

几乎所有的显著区域检测方法利用一个显著的操作符,他们从那里开始分割最突出的对象。在这里,我们证明了我们的方法可以提供一个良好的起点。我们的模型是有效性的另一个证据是在这里可喜的成果。我们在公共的数据集上评估我们的方法,这个数据集是ASD,由Achanta等[44]提供的包含1000张图像手动标注对象。我们将我们推进的方式与11个最先进的突出物体检测方法进行比较:IT[4],SR[23],GB[20](GBVS),AC[42],FT[44],CA[43],MZ[45],HC,LC和RC[41],G [39],G是一个高斯在图像的中心。所有自下而上和自上而下的中心特点,包括之前的,都被使用。

计算精度和调用使用每一个可能的固定的阈值,通过二值化的显著图的曲线,这个实验类似的固定阈值的实验[44]。从图7的比较可以看出我们的显著性模式优于几个专为这个任务的[44][41]最先进的模型。由于有很多物体的中心,一个简单的高斯模型效果优于几个模型。

图8显示与人类的注释和我们的模型预测的例子。可以看出,即使是显著的对象是不是靠近中心位置时,它为促进的模式能够成功地检测最突出的物体。

5. 讨论和结论

结合自下而上和自上而下的特点,我们学到了一些模型的视觉显著性,在相同的数据和分数上比较其准确性。我们的方法允许添加更多的特点,如其他自下而上的模式或其他自上而下的功能显著图。在分类中,使用SVM和回归预测的AdaBoost具有最好的预测精度。它优于大部分现有模型,是迄今为止表现人类最接近的模型,它可以几种方法提高计算机视觉的性能。它也竞相表现用于检测最突出的一个场景中的对象。我们的方法的一个优点是它的一般化的方式,一个数据集上进行训练的分类器在其他数据集上也表现良好,而不是为每个单独的数据集(而不是[48])的训练和测试。我们详尽地与最先进的模型比较显示,虽然

跨数据集和分数上排名不同,部分模型(GBVS[20],贾德等人[1],严等人[31],AWS[29],ICL[24],TAVAKOLI等人[40])是比别人的模型更好。

我们方法的应用之一是通过比较在不同族群的人注意他们之间的分歧,比如年轻人与老年人,男性与女性主体模型参数(W),进行行为学研究。虽然在纯粹的低级特点基础上开发更有效的自下而上模型总是受欢迎的,但是,建设更多的预测模型时,添加更多自顶向下的因素是非常重要的。由于模型是基于不同的显著性机制,结合他们可能会提高结果,从而帮助弥合人类和模型之间在自由观赏自然场景时的差距。

参考文献:

相关主题
文本预览
相关文档 最新文档