基于稀疏和低秩表示的显著性目标检测

2015-12-20 01:09刘甜甜

电子科技 2015年2期

刘甜甜

(西安电子科技大学数学与统计学院，陕西西安 710126)

视觉显著性在计算机视觉和图像理解中有着重要作用并且涉及范围广，包括认知心理学［1］、神经生物学［2］等。由于计算机视觉和图像处理的应用不断地广泛，显著性目标检测也引起了越来越多致力于信号处理、计算机视觉和机器学习研究工作的学者的研究，并很好地被运用到与其相关的应用中，例如:图像自动裁剪［3］、图像/视频压缩［4］，图像分割［5］、目标识别［6］和图像自适应等。目前的显著性检测主要分为有监督的自上而下的显著性目标检测(包括人脸识别等)和无监督的自下而上的检测方法，二者的主要区别在于所要检测的显著性目标是否为人为指定的。本文研究的是无监督的自下而上的显著性目标检测方法。

显著性目标检测方法旨在自动地找出一幅图像中包含有用信息的人们感兴趣的部分，人类视觉系统很容易找出一幅图像中所关注的部分，但对于机器而言则并不简单。所有自下而上的显著性检测方法对图像中显著性目标物和背景都有一定的先验假设，例如:对比度、紧性等，基于这些假设研究者们提出了各种显著性检测方法。

在自然图像中人类视觉系统所感兴趣的往往是一些特殊的内容，这些内容是图像中较小的一部分且是稀疏分布的，可称这些引起人类视觉系统感兴趣的部分为显著性部分，因此从这方面讲，显著性检测就有这样的一个先验假设，即显著性目标在整幅图像上是稀疏的，这样一幅图像就可以被看做是背景加上在背景上稀疏分布的一些显著性目标。显著性前景往往具有某些特殊的特征比如:颜色、亮度、方向性、纹理结构等，相比于前景，背景区域的特征就不是很明显，因而不会引起人们太多注意。C.Lang［7］，X.Shen［8］等人提出图像背景具有低秩特性进而自然图像可以被分解为一个低秩矩阵和一个稀疏矩阵，本文基于文献［7～8］的方法将背景看做为在某个字典下的低秩表示矩阵，不同于文献［7］将原始图像作为字典，文中根据背景的一些先验假设选出一部分背景作为字典来低秩表示整个背景，即背景是可被自己低秩表示的。首先提取出原始图像每个像素的特征，根据这些特征将图像进行超像素分割，不同于文献［7］中的矩形图像块以分割后的超像素为单元，根据文献［9］所表明的图像边界可较好地作为背景模型，并选取落在边界上的超像素作为背景字典来低秩表示图像的背景部分，最后根据每个像素所属的超像素在背景上的稀疏程度来衡量其的显著性。

1 相关的研究工作

近年来已经有大量的研究者致力于显著性检测方面的研究，所有基于自下而上的无监督的显著性检测方法对原始图像都有某种先验假设，例如前景和背景的对比度和紧性差异等，不同的方法均只是对这些先验假设从不同方面的理解而提出的，主要有以下几类:

(1)基于局部和全局对比的显著性检测方法。Itti［10］等人提出了多尺度中心－环绕对比的方法，S.Goferman［11］等人根据心理学提出的4条人类视觉显著性原则同时结合局部和全局的对比提出了他们的方法，该方法能够较好地检测出显著性目标，但只能检测出边缘部分不能很好地检测出整个显著性目标。Bruce.［12］提出了用自信息量来衡量显著性。

(2)基于数学意义下的变换域显著性目标的检测。Hou.［13－15］于2007 年在 cvpr上首次提出的基于频域残差的显著性检测方法，文中指明频域残差(Spectral Residual)和显著性相关。

(3)基于图的显著性检测:J.Harel等人提出了基于图的视觉显著性检测［16］，将一幅图像看做图，并在图上定义了马尔科夫链，文献［17～18］从文献［16］中得到启发在图上运用随机行走和流形排序算法来检测显著性。

(4)基于稀疏和低秩表示的显著性检测方法:在对图像显著性的先验假设中，稀疏和低秩先验逐渐被研究者讨论并应用［7－8］。文献［8］中将原始图像看做是一个低秩矩阵加上一个稀疏矩阵，即X=L+S，通过解这一模型

不同于文献［8］，文献［7］则是将背景看作是XZ要求Z 低秩，即

文献［7］能较好的检测出小目标物，但对于大的目标则只能检测出轮廓而无法更好地检测出整个区域。不同于文献［7～8］，本文用先验背景来低秩表示整个背景，即约束X=AX+E，这里选取边界部分作为背景字典A，用AZ提取整幅图像的背景，AZ中不含显著性目标的部分，E被认为是前景也即显著性目标。选取的背景字典中不含有显著性目标，所以恢复出的低秩部分就是纯背景，不含有显著性目标的任何部分。

2 本文方法

2.1 图像分割和背景字典提取

为了能更准确地检测出显著性目标且不会有过多干扰，将原始图像进行超像素分割，分割成一些小的块，这些块的形状与图像内容有关，如图1所示，这是便于生成有清楚轮廓的显著性目标图。文中以一个超像素作为一个单元，首先从RGB颜色空间和Lab空间提取出每个像素点的D(D=6)维特征，然后将超像素的所有像素点特征的均值作为该超像素的特征x=［r，g，b1，l，a，b2］T，则可将一幅图看做 X=［x1，x2，…，xN］∈RD×N，N为超像素个数，D为特征维数，X的每一列为一个超像素的特征，显著性度量方法是在超像素上定义一个函数S(xi)，S(xi)就是最终得到的显著性图。

文献［19］表明，图像的边界部分可较好的作为背景模型来进行显著性检测，据此，选取落在4个边界上的所有超像素以其特征作为背景字典A={∈∂Ω}，∂Ω为图像的4个边界部分，有了整个图像特征X和背景字典A，接下来就可以求解背景的一个低秩表示。

图1 超像素分割结果

2.2 低秩背景下的显著性估计模型

显著性检测的稀疏性先验假设认为显著性目标是稀疏分布在图像上的，但一幅图像的背景不易估计，文献［7］的方法对于较大的显著性目标会将显著性物内部作为背景处理，只能检测出显著性边界部分。本文选取边界超像素作为字典来恢复出一个不包含显著性目标的背景，同时检测出显著性目标物，模型如下

假定E*为(3)对应于E的最优解，为得到每一个超像素的显著性指标S(xi)，需做如下的后处理

2.3 模型的解法

算法1 基于稀疏和低秩表示的显著性目标检测

输入需要检测的图像I和相应参数。

步骤1 用超像素分割将图像I分割成N个图像块，每一个图像块为一个超像素;

步骤2 提取每一个超像素的D维特征xi，生成一个D×N大小的图像特征矩阵X;

步骤3 优化式(3)解得稀疏矩阵E*;

步骤4 通过式(4)得到显著性图;

输出显著性图。

式(3)的优化过程可简单地采用文献［20］提出的方法。通过增广拉格朗日(ALM)将约束问题转化为无约束问题。式(3)等价于

用增广拉格朗日方法解式(5)

其中，Y，W是拉格朗日乘子;μ是罚参数。式(6)可由交替方向(ADM)求解，交替方向方法如算法2。

算法2 交替方向法解式(6)。

输入矩阵X和参数λ

循环迭代:

步骤2 固定其他变量更新Z:Z=(I+ATA)－1

步骤4 更新拉格朗日乘子Y=Y+μ(X－XZE);W=W+μ(Z －J)。

步骤5 更新罚因子 μ=min(ρμ，1010)，ρ用于控制收敛速度，试验选取ρ=1.1。

步骤6 检查收敛条件:X－XZ－E→0，Z－J→0。

结束，并输出最优解E*。

3 实验结果

为便于处理同时降低计算量，将所有测试图像大小缩放为256×256。进行超像素分割时，当分割数目过多不仅增加了计算复杂度，同时使得特征对噪声敏感。分割过少影响模型解的可用性，实验结果显示，当超像素个数为300时能得到最佳的显著性。文中取平衡因子λ=0.05。实验中随机从MSRA［21］图库中选取测试图像，生成相应的显著性图，如图2所示。同时将本文方法和一些主流的显著性检测方法所得到的结果进行了对比，例如文献［8，10，11，16，22］。从图2 可看出，本方法能更精准地检测出显著性目标。

4 结束语

本文提出了一种改进了的基于低秩和稀疏表示的显著性目标检测方法，利用图像背景的先验性假定，选择了一个更合适的图像背景字典，通过稀疏和低秩表示的方法估计出图像的低秩背景与稀疏前景，并给出一种显著性度量方法。该方法得益于图像背景的先验性假设，即中心偏好。大量实验结果表明，本方法能更准确地检测到显著性目标。

图2 显著性图比较

如图2所示，从左到右依次为:原始图像;文献［11］的显著性图;文献［22］的显著性图;文献［8］的显著性图;文献［16］的显著性图;以及本方法得到的显著性图。

［1］Wolfe J.Guided search 2.0.A revised model of visual search［J］.Psychonomic Bulletin ＆ Review，1994，1(2):202 －238.

［2］Steven Yantis.Sensation and perception［M］.New York:Worth Publishers，2013.

［3］Santella A，Agrawala M，Decarlo D，et al.Gaze － based interaction for semi－ automatic photo cropping［C］.In Proceeding SIGCHI Conference Human Factors Computer，2006:771－780.

［4］Bradley A，Stentiford F.Visual attention for region of interest coding［J］.J.Vis.Commun.Image Represent.，2003，14(3):232－250.

［5］Wang L，Xue J，Zheng N，et al.Automatic salient object extraction with contextual cue［C］.In ICCV，2011.

［6］Navalpakkam V，Itti L.An integrated model of top － down and bottom－up attention for optimizing detection speed［C］.In CVPR，2006.

［7］Lang Congyan，Liu Guangcan，Yu Jian，et al.Saliency detection by multitask sparsity pursuit［J］.IEEE Transactions on Image Processing，2012，21(3):1327 －1338.

［8］Shen Xiaohui，Wu Ying.A unified approach to salient object detection via low rank matrix recovery［C］.2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)，2012:853，860.

［9］Wei Y，Wen F，Zhu W，et al.Geodesic saliency using background priors［C］.In ECCV，2012:29 －42.

［10］Itti L，Koch C，Niebur E.A model of saliency－ based visual attention for rapid scene analysis［J］.IEEE Transactions on PAMI，1998，20(11):1254 －1259.

［11］Goferman S，Zelnik Manor L，Tal A.Context－ aware saliency detection［J］.IEEE Transactions on Pattern Anal Mach Intell.，2012，34(10):1915 －26.

［12］Bruce N，Tsotsos J.Saliency based on information maximization［M］.NZ USA:NIPS，2006.

［13］Hou X，Zhang L.Saliency detection:A spectral residual approach［C］.In IEEE Conference of Computer Vision and Pattern Recognition，2007.

［14］Guo C，Ma Q，Zhang L.Spatio－temporal saliency detection using phase specrum of quaternion fourier transform［C］.In IEEE Conference of Computer Vision and Pattern Recognition，2008.

［15］Hou Xiaodi，Harel J，Koch C.Image signature:highlighting sparse salient regions［J］.IEEE Transactions on Pattern A-nalysis and Machine Intelligence，2012，34(1):194 －201.

［16］Schölkopf B，Platt J.，Hofmann T.Advances in neural information processing systems［C］.Proceedings of the 2006 Conference，2006:545 －552.

［17］Gopalakrishnan V，Yiqun Hu，Rajan D.Random walks on graphs for salient object detection in images［J］.IEEE Transactions on Image Processing，2010，19(12):3232 －3242.

［18］Yang Chuan，Hang Lihe，Lu Huchuan，et al.Saliency detection viagraph －based manifold ranking［C］.2013 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)，2013:3166 －3173.

［19］Wei Y，Wen F，Zhu W，et al.Geodesic saliency using background priors［C］.In ECCV，2012.

［20］Liu G，Lin Z，Yan S，et al.Robust recovery of subspace structures by low －rank representation［J］.IEEE Transactions on Pattern Anal.Mach.Intell.，2010(8):993 －1001.

［21］Liu T，Sun J，Zheng N，et al.Learning to detect a salient object［C］.In Proceeding of IEEE Conference Computation Vision Pattern Recognition，2007:1 －8.

［22］Radhakrishna Achanta，Sabine Susstrunk.Saliency detection using maximum symmetric surround［C］.Hong Kong:International Conference on Image Processing(ICIP)，2010.