张艳邦 张 芬
(咸阳师范学院数学与统计学院 咸阳 712000)
随着计算机技术的发展,特别是互联网技术的发展,图像和视频数据的获取和传播越来越方便。同时,它也给我们带来了新的问题,如何在海量数据面前快速找到所需的信息。人类视觉系统可以从图像中快速检测出感兴趣的物体,而忽略其他区域。它提供了一种确定视觉处理优先级的机制。该机制广泛应用于计算机视觉和图像处理领域,如目标识别[1],图像分割[2],图像/视频压缩[3],图像检索[4]等。
根据显著目标的不确定性,显著目标检测方法可分为自底向上和自顶向下两种模式[5]。自顶向下模型是指对指定对象的检测。在检测之前,我们需要了解检测任务,并通过学习训练提取预检测对象的特征。由于目标的多样性,在检测前往往不知道图像中包含了哪些目标。因此,自底向上检测模型具有更广泛的应用价值。
虽然自底向上的方法不需要复杂的标注和训练过程,但它可以获得大量的先验知识,如对比度先验、背景先验、中心先验等,直接提取重要线索。更具体地说,对比度优先级基于人眼倾向于在整个场景中观察具有大特征对比度的区域的事实。
1998年,Itti等[6]提出了一种计算机视觉领域的地标检测模型,该模型通过计算若干低层视觉特征之间的局部对比度来表示显著特征。Cheng等[7]首先根据颜色信息将所有像素划分为不同的类别,然后计算不同类别的对比度和空间信息,生成最终的显著性图。在过去的几年中,它由于同时考虑了颜色对比度和分布特征,具有很高的检测精度而成为人们关注的焦点。Achanta等[8]利用统计信息找到特征差异较大的区域,并将其定义为显著区域。结合颜色特征的空间信息和频率信息,我们提出了一种显著目标检测方法[9]。
与对比度先验不同,背景先验通常选择图像边界区域作为初始背景种子,然后根据图像边界区域与初始背景种子之间的关系确定每个图像区域的显著性值。例如,Yang等[10]在建立模型之前,使用流形排序得分来表示背景中图像区域之间的特征差异。在文献[11]中,从所有边界区域重建每个图像区域,重建误差是指其显著性值。此外,Zhang等[12]移除了底部边界,并将其他方向的边界区域用作背景种子[13]。黄炜亮等[14]通过贝叶斯框架融合超像素自底向上显著性、位置信息和自顶向下显著性信息,计算贝叶斯后验概率为显著性特征。
同时,将经典的机器学习算法和数学理论应用到显著性目标检测模型中也取得了一些成果。基于深度学习的显著目标检测可以看作是一个像素级的分类问题。基于深度学习的方法结合了局部特征和深度特征,可以进行端到端的训练,在显著目标检测方面取得了很大的进展。在最新的卷积神经网络(CNN)模型中,采用梯度下降算法自动完成显著区域和非显著区域的特征选择。这些模型由卷积层和池层组成,利用softmax层估计每个像素属于对象的概率。孙永盛等[15]通过萤火虫算法优化神经网络初始权值和阈值以提高网络预测性能和精度,构建了显著性目标检测模型。Long等[16]提出了用于图像分割的全卷积网络(FCN)。利用FCN作为分类模型,Wang等[17]提出了一种弱监督显著性目标检测模型。基于CNN和FCN检测模型在一定程度能够较好提高检测性能,然而,由于在网络设计中循环应用卷积、反卷积、下采样和上采样,随着网络层数增加,训练网络参数需要计算机具有较高的算力。
在无监督的情况下,本文提出了一种自底向上的显著目标模型,该模型通过图像周围区域的纹理特征和颜色特征获取背景的先验信息。然后通过计算区域间的色差得到图像的显著特征。最后,采用贝叶斯增强方法抑制噪声,提高检测效果。算法流程如图1所示。
图1 本文算法流程
超像素分割以其计算效率高、噪声抑制能力强等优点受到研究者的广泛关注。一般来说,一个好的超像素算法不仅可以提高检测性能,而且可以提高检测效率。本文利用SLIC算法[18]将输入图像分割成超像素。每个超级像素的颜色特征被定义为超级像素中所有灰度值的平均值。在超像素分割中,如果分割的次数太少,细节就会丢失。如果分割数目过大,会降低计算效率,无法达到理想的超像素分割效果。为了平衡计算效率和精度,分割次数为200。
拍照时,物体通常放置在图像的内部区域,图像的边界区域一般是我们不关心的背景区域。然而,由于物体的不确定性,较大的物体可能占据部分图像边界。因此,如果直接选取图像的边界区域作为背景的先验,会造成漏检。在本文中,我们移除了边界区域的奇异超像素,减少了漏检。所得边界背景先验如图2所示。
图2 基于边界信息的背景先验。从左到右,分别有原始图像、超像素段和基于边界信息的背景先验。
纹理特征也是检测显著目标的一个重要特征。Gabor滤波器的频率和方向表达式与人类视觉系统相似。它是一种用于边缘检测的线性滤波器。我们以30°的步长在[0°~150°]之间周期性地选取滤波方向,利用Gabor滤波得到纹理特征。
为了利用Gabor滤波响应作为特征进行分类,对纹理特征进行高斯平滑,方向特征集添加额外的空间信息,将特征集重塑为PCA和K-means函数的期望形式,并将特征信息归一化为共同的方差和均值。
在搜索使目标函数最小化的均值时,K-means聚类被重复5次以避免局部最小化。为了检测显著区域,我们将特征分为两类。我们在Lab空间的三个颜色通道中进行纹理特征提取和K-means聚类,并以二维熵最小的特征图[9]对应的边界特征作为背景先验。K-means聚类结果和背景先验如图3所示。
图3 基于纹理特征聚类的背景先验检测。左侧是每个颜色通道中的不同聚类结果。右边是熵最小的聚类结果。
基于纹理特征获得的背景先验信息与2.1节中通过图像边界获得的背景先验信息相结合,得到图像的背景模型。图4给出了两个背景先验构建效果。
图4 基于纹理特征和边界信息融合的背景先验。从左到右依次为原始图像、超像素分割、基于边界信息的背景先验、纹理特征聚类和两者融合后背景先验
由于人类视觉系统对颜色对比度最为敏感,因此颜色对比度是显著性目标检测的首选特征。在本文中,显著性特征定义为
其中:其中S(i)是第i个超级像素的显著性特征。‖Ci-Cj‖2表示超级像素Ci与Cj之间的欧氏距离,‖Ci-Cmean‖2表示超级像素Ci与整个图像的平均像素Cmean之间的欧氏距离。‖Pi-Pj‖2指两个超像素位置之间的欧氏距离。‖Pi-Pc‖2是指超级像素位置Pi与图像中心Pc之间的欧氏距离。δ1是距离中心的控制参数。δ2和δ2是空间相似性的控制参数。
当一个物体能够引起我们的注意时,它可能与整个图像的平均像素有明显的对比,或者它可能接近整个图像的平均像素,但是它与周围区域有很大的不同。显著性特征的定义考虑了图像中所有像素的空间加权全局对比度以及与整个图像的平均像素的差异性。
对初始显著性映射进行二值化,计算出目标中心。突出特征的先验概率与像素到目标中心的距离有关。离中心越近,先验概率越大。因此,我们定义了第i超像素的先验概率如下:
式中,d(Pi,Pj)表示第i个超像素的位置和之间的欧氏距离。dmax表示与图像的四个顶点之间的最大距离。基于贝叶斯理论,显著性特征由以下公式更新。
在两个广泛使用的公开数据集MSRA[8]和ECSSD[19]上,将我们的算法与6种传统方法进行了比较。微软亚洲研究数据集(MSRA)[8]是微软亚洲研究院建立的第一个大规模开放图像数据库,用于定量评估视觉注意算法的有效性。它包含了1000种不同类型的图像,在各个领域具有普遍性和代表性。这些图片来自论坛和搜索引擎,包含各种显著的对象,包括大目标、小目标、一个目标、多个目标、目标靠近图像中心、目标位于图像边缘等等。该数据集是评价显著性检测算法最常用的数据集。
扩充的复杂场景显著性数据集(ECSSD)是在复杂场景显著性数据集(CSSD)的基础上扩展而来的,它包含了来自BSD300[20]、VOC数据集[21]和Internet的200幅图像。而ECSSD包含1000幅图像,这不仅是CSSD在数量上的扩充,而且包含了更具挑战性的图像。
图5和图6给出了我们的方法与其他6种优秀方法的定性比较。我们可以观察到,大多数方法都能有效地处理背景相对简单、目标具有一致性的图像,生成高质量的显著性图。然而,对于一些具有复杂背景的图像(例如,图5中的第1行、图6中的第3行和第4行)。由于本文算法获得了更为准确的背景先验信息,同时考虑了全局和局部对比度特征。因此,检测效果优于其他6种算法。
图5 在MSRA数据集上,本文算法与其他6种优秀算法的定性比较
图6 在ECSSD数据集上,本文算法与其他6种优秀方法的定性比较
为了比较不同方法的性能,我们使用标PR曲线[10]、Fβ测度、ROC曲线[22]、AUC[22]、IOU得分[23]和平均绝对误差(MAE)[24]来评估本文算法的性能。
PR曲线是一种常用的显著性图评价指标。每个显著特征图被归一化到相同的范围[0,255],然后通过改变整数阈值从0~255,得到256个二进制显著性对象掩码。分别和表示每个显著特征图掩码和相应的真值。准确度和召回率可以定义为
相应的精度召回曲线绘制了256个平均精度值和256个平均召回值的比率。不同算法的PR曲线如图7和图8所示。
图7 在MSRA数据集上,不同算法的PR曲线比较
图8 在MSRA数据集上,不同算法的PR曲线比较
F测度是平均精度和平均召回率的调和平均值,其计算公式为
正如文献[7]中所建议的,我们令β2=0.3将精确性置于比召回率更重要的位置。不同算法的F测度比较如图9所示。
图9 在MSRA和ECSSD数据集上,不同算法的F测度比较
ROC曲线测量不同阈值(从0~255)下真阳性和假阳性之间的折衷。ROC曲线下面积(Area-Under-the-Curve,AUC)是评价显著性的最常用指标。图10和图11显示了在MSRA和ECSSD数据集上计算的各种显著性检测方法的ROC曲线。图12显示了不同算法的AUC。可见,该算法在各种方法中具有领先的性能。
图10 在MSRA数据集上,不同算法的ROC曲线比较
图11 在ECSSD数据集上,不同算法的ROC曲线比较
图12 在MSRA和ECSSD数据集上,AUC性能比较
IOU描述了计算模型和标记区域之间的重叠率[21]。它也是评价目标检测精度的一种重要方法。
其中:Rn是以显著性特征值的二倍为阈值得到的二值化图像。Gn是基准图。N表示数据集中图像个数。IOU值越大,精度越高。图13分别显示了两个数据集IOU性能比较。
图13 在MSRA和ECSSD数据集上,IOU性能比较
MAE是另一种简单有效的意义图评价指标。它是基准图和显著性之间每像素的平均差。定义如下:
图14分别显示了MSRA数据集和ECSSD数据集上MAE得分的性能比较。
图14 在MSRA和ECSSD数据集上,MAE性能比较
通过在两个数据库上的实验以及对几种评价方法的比较,我们发现本文算法的检测效果优于其他6种方法。
从以上定性和定量的评价来看,我们的方法在这两个数据集上都优于6种算法。与基于深度学习的方法相比,我们的方法不能获得更好的性能。然而,基于深度学习的方法需要大量的训练样本,而我们的方法是完全无监督的。
本文提出了一种基于背景先验显著性的目标检测算法。基于边界上的超像素和图像的纹理特征,获得背景的先验信息。利用颜色特征的奇异性得到初始显著性目标,并结合贝叶斯算法对显著性特征进行增强。在两个常用数据集上进行了测试,取得了良好的效果。虽然在没有目标先验信息的情况下得到了较多的图像背景信息,但在计算过程中只计算了颜色对比度特征,仍然存在一定的漏检现象。另外,在利用纹理进行背景检测时,当背景和目标的纹理相似时,基于二值分类的方法容易导致目标被误分类为背景。因此,与基于背景模型的文献相比,本文的检测精度并没有太大的提高。在接下来的研究中,我们将尝试对图像特征进行分类,以减少漏检现象。