崔丽群,赵 越,吴晓冬,魏可飞,刘 晨
(辽宁工程技术大学软件学院,辽宁 葫芦岛 125000)
随着对人类视觉注意机制研究的逐步深入,显著性目标检测已受到了计算机视觉研究者的广泛关注。显著性目标检测克服了传统目标检测方法对目标框的匹配、融合等繁杂过程,通过模拟人类的视觉注意机制,快速识别图像中的显著性目标,并标出体现目标位置及大小的显著性区域。
显著性目标检测分为以底层特征为依据的自底向上显著性目标检测和以指定目标为驱动的自顶向下的显著性目标检测两种方式[1,2]。自底向上的显著性目标检测在频率域上的处理方法近年来取得了很大进展,如频谱残差SR(Spectrum Residual)方法[3]、基于HSV(Hue,Saturation,Value)空间改进的多尺度显著性检测[4]方法、相位谱傅里叶变换PFT(Phase Fourier Transformationation)方法[5]、多特征融合的相位谱四元数傅里叶变换PQFT(Phase spectrum of Quaternion Fourier Transform)方法[6]以及多尺度空间分析的超复数傅里叶变换HFT(Hypercomplex Fourier Transform)方法[7]。其中SR方法利用频谱差余突出显著性目标得到显著性图,方法简单且速度极快;因SR方法高效简洁的算法设计,王文豪等人[4]在SR方法基础上选择HSV色彩空间提取视觉特征,建立不同尺度图像序列并利用SR方法提取特征图,提高算法效率的同时,降低了噪声对检测精度的影响。PFT方法仅对图像的相位谱进行处理也得到了与SR方法相同的效果;PQFT方法在PFT方法的基础上采用多个特征图融合的方式,得到了准确率更高的显著性目标检测结果;HFT方法利用被忽略的包含在振幅谱中的图像信息,采用多特征融合的超复数傅里叶变换方法,通过对非显著性区域的抑制突出显著性目标。除了在频率域上,在空间域上常采用图像底层特征的差异对比来模拟人类视觉系统对观察对象注意力的竞争、选择机制[8],从而得到目标的显著性图,如局部差异对比、邻域及周边位置差异对比及全局差异对比。其中基于图模型的显著性目标检测GBVS(Graph Based Visual Saliency)方法[9],利用节点底层特征之间的相互作用关系,是现有方法中模拟人眼视觉注意机制最为准确的显著性目标检测方法。虽然自底向上的显著性目标检测能够很好地模拟人类的视觉注意机制,达到对背景的抑制作用,但是在检测明确目标时,复杂背景中存在的底层特征相对突出的区域使其忽视了重要目标[10],因此显著性目标检测的召回率虽然得到相应提高,但准确率相对较低。
在目标明确的情况下,自顶向下的显著性目标检测包含特征学习和显著性计算两个过程。特征学习过程即预先提取目标特征,通过训练、学习获得相关的先验知识;显著性计算过程是利用模型在图像上得到突出指定目标的显著性图,来提高明确目标显著性检测的准确率。自顶向下的显著性目标检测方法中基于条件随机场CRF(Conditional Random Field)的检测方法得到了广泛研究,在条件随机场的图像块节点特征获取过程中,为了增强特征的判别能力,文献[11]采用字典学习的稀疏编码[12]方式来提高特征的判别能力;文献[13]在文献[11]的稀疏编码的约束部分引入局部线性约束LLC(Local Linear Constraint),增加了类内的聚合性,减少了类间的耦合性,也进一步增强了稀疏编码的特征判别能力。考虑到视觉、空间与邻域、先验知识常作为计算显著性值的出发点,文献[14]针对文献[11]缺乏空间先验知识的缺陷,引入空间金字塔模型SPM(Spatial Pyramid Model)匹配方法[15],利用稀疏编码的空间金字塔模型ScSPM(Sparse coding Spatial Pyramid Model)对得到的显著性区域进行再次判别,从而得到最终的显著性图。以上自顶向下的显著性目标检测方法对于在背景与目标相近的检测环境下的误检问题都没有突出性的研究进展。
针对自底向上显著性目标检测缺少先验知识,对明确目标检测准确率较低的问题,自顶向下显著性目标检测对于复杂背景下的误检问题,本文将两种方法相结合,通过在频率域上采用平滑振幅谱的超复数傅里叶变换方法抑制复杂背景,在空间域上采用稀疏编码的条件随机场学习方法突出目标。
在自然场景下的显著性目标检测图像中,占据图像大部分区域的往往是非目标的背景区域,检测图像中的背景区域会增加误检问题的发生概率,并降低准确率。这些重复率较高且复杂的图像,变换到频域上,通过频域滤波进行有效的抑制,本文将采用超复数傅里叶变换方法。自然场景图像如图1所示,将图1分块表示后发现图中多数为重复率较高的树丛、树枝和草地等背景图像块,如图2所示。
Figure 1 Natural scene image图1 自然场景图像
Figure 2 Natural image block图2 自然图像块
超复数形式的二维图像信号融合了多特征图,提高了显著性判断能力,如式(1)所示。
f(n,m)=β1f1+β2f2i+β3f3j+β4f4k
(1)
其中,n,m表示图像的空间坐标,i,j,k满足i2=j2=k2=ijk=-1,f1,f2,f3,f4分别为不同的特征图,β1,β2,β3,β4分别为特征图的权重系数,权重系数为β1=0,β2=0.5,β3=β4=0.25[5]。
f1通常用来描述运动特征,本文主要针对无运动特征的静态图像,因此设f1=0,其它特征图如式(2)所示。
f2=(r+g+b)/3,
f3=R-G,
f4=B-Y
(2)
其中,r,g,b分别为输入彩色图像的三个颜色通道的值,R=r-(g+b)/2,G=g-(r+b)/2,B=b-(r+g)/2,Y=(r+g)/2-|r-g|/2-b。
对二维超复数形式信号进行傅里叶变换,如式(3)所示。
(3)
其中,u,v表示经过傅里叶变换后图像的空间坐标,M,N表示图像坐标的最大值,μ为一个单纯的四元数,μ2=-1。
通过傅里叶反变换,式(3)中的FH[u,v]的极数形式如式(4)所示。
FH[u,v]=‖FH[u,v]‖eμ Φ(u,v)
(4)
其中,μ(u,v)、Φ(u,v)分别如式(5)所示。
A(u,v)=‖FH[u,v]‖,
(5)
其中,A(u,v)为振幅谱,P(u,v)为相位谱,X(u,v)为欧拉谱。振幅谱A(u,v)经过一系列不同尺度的高斯核g(u,v;k)平滑过程,可以消除复杂的重复性背景[7],得到一系列平滑后的振幅谱Λ={Λk},记为Λk(u,v)。变量k为高斯核g(u,v;k)中的尺度,且k=1,…,K,K=[log2min{H,W}]+1,H和W分别为输入图像的高和宽,得到背景抑制的显著性图如式(6)所示。
Lk=F-1Λk(u,v)eXP(u,v)
(6)
其中,F-1{·}为傅里叶反变换。
条件随机场CRF是一种基于统计分析的机器学习方法,已经被成功地应用到计算机语言学、图像识别等若干领域。CRF是在马尔科夫随机场MRF(Markov Random Field)的基础上提出的,克服了图像特征观察值独立性假设的依赖,用条件概率描述像素和其邻域或者特征之间的关系。CRF是一个无向图模型,定义如下:
设随机变量Aa1,a2,…,an代表观测序列,随机变量Bb1,b2,…,bn标示标记序列,定义无向图G=(v,e),v表示节点集,e表示节点间的连线,即边集。在随机变量A的条件下,每个节点的标记值bi∈B相对于G遵从马尔科夫特性,每个节点的标记值只与邻近节点的标记值有关,与相对较远的节点无关,如式(7)所示。
PbiA,bv-{i}=PbiA,bNi
(7)
其中,v-{i}表示图G中除了节点i以外的所有节点,Ni是节点i在图G中的邻域节点集。此时,称B,A服从条件随机场分布。
本文选择超复数傅里叶变换方法对标准图像进行背景抑制,在频率域上完成部分目标检测。为了进一步提高目标显著度,利用条件随机场结合空间域信息突出目标,来完成显著性目标检测。
首先,对图像进行分块,再以块为节点v,连接节点形成节点间的边e,建立无向图G(v,e)。本文在连接节点的过程中采用三种不同的方式:
(1)以16像素距离的正方向四邻域取节点连接;
(2)以16像素距离的对角方向四邻域的连接;
(3)以32像素距离的正方向四邻域取节点连接。
建立三种不同的无向图,并采用点乘的融合方式融合三种图。使用CRF的一般表达式,如公式(8)所示。
(8)
其中,Y代表状态,在本文中存在显著与非显著两个状态分别记为数值1和-1;对图像块提取的原始特征采用字典学习方式稀疏得到特征编码,特征编码用S表示;w为CRF方法的权值系数;Ζ的作用是使归一化;E(S,Y,w)为方法的能量函数,如式(9)所示。
E(S,Y,w)=
(9)
yi=li*yi
(10)
其中,每个节点的背景抑制权值即为每个显著性图像块的灰度平均值li,取值0~1。w1为CRF模型的权值系数,通过线性支持向量机SVM(Support Vector Machine)对稀疏特征训练得到;无向图的相邻节点稀疏特征编码[si,sj]对应状态[yi,yj]的一致性约束为φ(yi,yj,w2)=w2Ι(yi,yj),w2为邻域节点之间状态一致性约束的权值,Ι(yi,yj)表示当yi与yj不相等时为1,否则为0。
最终每个节点对应特定状态的概率等于邻域节点状态概率的和,通常采用四邻域方式得到。当节点的标记yi=1时,本文认定该节点为显著性节点,如式(11)所示。
u(si,w)=p(yi=1|si,w)
(11)
得到显著性图U={u1,u2,…,un}后,U与背景抑制的显著性图Lk点乘的方式再次判定,最终的显著性图Sk如式(12)所示。
Sk=Lk·U
(12)
其中,k为高斯核的尺寸,本文通过图像熵和边界突出程度两个参数综合评价选择出最优尺度的高斯核。
图像一维熵如式(13)所示。
(13)
其中,像素值i的取值为{0,1,…,n},pi为像素数i与总像素数的比值。图像的二维熵较一维熵加入了图像灰度分布的空间特征如,公(14)所示。
H2D(x)=H{gn*x}
(14)
其中,高斯低通滤波器gn的尺寸取1.2时为最佳[5],图像二维熵H2D(x)的值越大,显著性图就越混乱,目标突出就越不明显,因此应选出二维熵值小的显著性图。
显著性图中往往边界比较突出,本文采用避免边界突出的策略,使边界尽量模糊,避免背景中复杂纹理、结构干扰目标定位,如式(15)所示。
λk=∑∑K(n,m)·N(Sk(n,m))
(15)
其中,λk表示边界突出程度,K(n,m)为与Sk(n,m)尺寸相同的二维中心高斯掩膜,∑∑K(n,m)=1,且N(*)使显著图Sk归一化,总像素和为1。
融和图像熵和边界突出程度两个参数,可得到相对较优的显著性图,最终显著性图的高斯核尺度如式(16)所示。
(16)
因此,背景抑制改进的显著性目标检测框架如图3所示。首先,将输入的原始图像采用超复数形式融合形成多特征图;通过傅里叶变换获得振幅谱、相位谱和欧拉谱,再通过多尺度高斯核平滑后的振幅谱和原始相位谱的重构,得到背景抑制图;然后,对原始图像分块提取SIFT(Scale Invariant Feature Transform)特征,通过字典对SIFT特征进行稀疏编码,建立三种无向图,并得到目标显著性图,同时对背景抑制图分块取每块背景的抑制权值;最后,通过背景抑制图对目标显著性图进行再次判别,选择最优高斯尺寸,并得到最终显著性图。
Figure 3 The salient object detection framework proposed in this paper图3 本文提出的显著性目标检测框架
本文采用Graz-02数据集[16]作为检验数据集,该数据集是由格拉茨科技大学建立的一个比较流行的自然场景对象类数据集,常作为目标检测和分类方法的测试和对比实验数据集,该数据集中多为高复杂度和高类内差异的图像,非刚体和刚体分别包括人、汽车和自行车。每个对象类数据集共包括300幅图像,图像尺寸为640×480或480×640,本文将序号为奇数的150幅图像作为训练图像集,每幅图像以64×64 像素尺寸为窗口,以16像素为步长移动获取图像块,每块提取256维的SIFT特征向量,另150幅图像作为测试图像。
实验的软件环境为64位Windows 10操作系统和Matlab R2010b;硬件环境为8 GB内存、2.20 GHz主频的英特尔处理器。
本节从两个方面检验本文所提方法的有效性和准确率,通过主观视觉的愉悦度和客观数据如准确率、召回率、综合评价指标F-measure和平均绝对误差。
主观视觉愉悦度主要是通过肉眼观察评价实验效果,虽然具有很强的主观性,但是计算机视觉的研究多为模拟人眼对图像的处理过程,因此主观视觉的评价不可或缺。但是,对于细微的差别,人眼很难辨别,此时客观评价的数据更具说服力。
客观评价首先通过阈值方法将显著性检测结果进行二值化,然后把得到的二值化掩膜[17]结果与人工标定的真实掩膜进行对比,可能的状态结果见表1。
P表示准确率,为检测出的显著性区域中所包含的真实目标区域与检测出的显著性区域面积的比值。R表示召回率,为检测出的显著性区域中所包含的目标区域与真实目标区域面积的比值。计算准确率P、召回率R、综合评价指标F-measure及平均绝对误差MAE的方法如式(17)所示。
(17)
其中,α2通常取0.3,U为图像像素总数。F-mensure值越大,表明方法性能越好;MAE值越小,表明效果越好。
实验参数包括稀疏编码中稀疏度约束项的控制参数λ、CRF能量函数权值w1和w2。参数λ设为0.15[11],文献[14]通过实验证明,λ取0.15时,检测结果最好。权值w1通过SVM训练获得,权值w2设为1。
人属于非刚体,因姿态各异、衣着斑斓,经常与复杂的背景区分不清;自行车和汽车属于刚体,但它们体积差异大,自行车的外观纹理比汽车的更复杂。所以人、自行车和汽车三种不同的目标作显著性检测的阈值有所不同。二值化掩膜阈值决定着客观实验结果数据的显著性检测结果,以二值化的阈值为横坐标,F-measure为纵坐标作折线图,当F-measure值为最佳时来确定二值化掩膜阈值,如图4所示。
Figure 4 Two threshold value and F-measure line chart of people,bicycle and cars 图4 人、自行车、汽车的二值化阈值与F-measure的折线图
图4a表明,对人体目标显著性检测时阈值取0.2,F-measure值较高;图4b表明,对自行车目标显著性检测时阈值取0.1时,F-measure较高;图4c表明,对汽车目标显著性检测时阈值取0.3,F-measure值较高。
由于目标在测试图像中尺度不同、外形多变,无向图构建阶段最初的四邻域连接无向图很难准确地检测目标,因此本文采用相加(+)和点乘(*)两种方式对三种图进行融合,实验结果如表2~表4所示。
Table 2 Three images fusion (human)
Table 3 Three images fusion (cars)
Table 4 Three images fusion (bicycle)
从人、汽车及自行车实验数据的比较结果可看出,点乘方式融合能够在综合指标F-measure有所提升的情况下,显著提升准确率。
4.3.1 主观分析
本文方法结合自底向上和自顶向下的显著性目标检测的优点,通过超复数傅里叶变换得到频域平滑振幅谱与相位谱从而获得背景抑制图,其效果如图5b所示。为取得最佳的显著性目标检测效果,实验结合空间域明确目标表示的先验知识来突出目标区域,最终获得的显著性目标检测效果图如图5c所示。
Figure 5 Effect diagram图5 效果图
分别从测试数据集的每个对象类中取两张图像,通过GBVS[9]、HFT[7]、CRF[11]和本文方法做显著性目标检测,实验效果如图6所示。图6a~图6c中,从左向右分别为原图、GBVS检测结果、HFT检测结果、CRF检测结果和本文方法检测结果。
Figure 6 Contrast diagram图6 对比图
对非刚体的人做显著性目标检测的实验效果如图6a所示。“人”作为非刚体的典型对象,由于其外观姿态多变、常被附属物遮挡等特点,在检测中极具挑战性,本文分别选取了包含一个目标对象和两个目标对象的图像进行对比。对刚体对象自行车、汽车做显著性目标检测的实验结果如图6b和图6c所示,且自行车相比汽车具有更复杂的外观纹理结构,所取两张图像中的目标分别处于不同的自然生活环境中。由图观察可知,GBVS方法的检测结果目标区域通常过大,没有较明确地区分出背景与目标;相比GBVS方法,虽然HFT方法检测目标区域的范围缩小了,但是由于缺乏先验知识不能突出指定的目标区域;CRF模型相比前两者,采用了学习的方式,因此具备指定目标的先验信息,但在检测过程中易误检背景中的近似目标区域;本文方法相对前三者有了很大提高,较前两者引入了先验知识、较CRF模型抑制了近似目标的背景干扰,缩小了检测结果的目标区域,使目标位置更精确更具体。
4.3.2 客观分析
客观实验结果数据对比是通过对不同对象类150幅测试图像的实验数据均值得到的,分别用准确率P、召回率R、综合指标F-measure和平均绝对误差MAE进行对比,见表5~表8。
Table 5 “Human” detection and comparison
Table 6 “Bicycle” detection and comparison
Table 7 “Car” detection and comparison
Table 8 Mean value comparison
以直方图的形式进一步展示的对比结果如图7所示。
Figure 7 Average histogram of people,bicycles, and cars图7 人、自行车、汽车平均值直方图
表5~表7和图7a~图7c分别为对人、自行车和汽车的检测结果进行对比,表明本文方法在显著性目标检测时虽然在召回率R上均有所下降,但准确率得到显著提高,且综合指标F-measure也有显著提高,平均绝对误差MAE值有所降低。
表8和图7d为三类对象的检测结果平均值,表明本文方法的准确率P由0.426 2提高到0.640 0,综合指标F-measure由0.405 5提高到0.558 3,平均绝对误差MAE降低到0.128 6,虽然在召回率R上有所下降,但是在准确率P上取得了显著提高,更能体现本文方法的普适性。
本文方法结合了HFT和CRF两种方法进行显著性目标检测,在相同实验条件下,对同一幅图像进行显著性目标检测的时间消耗如图8所示,由于本文方法是两种方法的结合,因此时间消耗高于HFT方法和GBVS方法,但与CRF算法的时间消耗基本保持一致,说明本文方法在提高显著性目标检测准确率的基础上,时间损失较小。
Figure 8 Contrast of time consumption图8 时间消耗对比
本文提出了背景抑制的显著性目标检测方法,该方法结合自底向上和自顶向下两种检测方法的优点,以频率域上平滑振幅谱的抑制背景图及空间域上明确目标的先验知识为决定因素,改进条件随机场学习方法,显著提高了显著性目标检测时的准确率。实验结果表明,无论从主观还是从客观上分析,本文所提方法在保证算法运行效率的前提下,准确率均好于其它流行方法,且通过三个对象类的测试可看出,本文方法还具有很好的普适性。但是,本文方法存在召回率较低的问题,接下来将对此问题展开深入研究。