庄斐弘,于威威
(上海海事大学信息工程学院,上海 201306)
视觉显著性检测的研究
庄斐弘,于威威
(上海海事大学信息工程学院,上海 201306)
计算机模拟人类视觉系统的生理机理对图像进行识别是视觉显著性检测研究的主要目的之一。在对图像的预处理过程中,快速准确的显著性检测能够为图像检索、图像识别、图像分割等后期图像处理过程提供有价值的参考。然而目前视觉显著性检测的算法还存在检测结果质量不高的问题。通过研究图像傅里叶频谱与显著性的关系,提出一种基于相位谱和调谐幅度谱结合分水岭算法的显著性检测方法,以提高目前视觉显著性检测的效果。
视觉显著性;分水岭;傅里叶频谱;相位谱;调谐谱
随着计算机性能和数字存储技术的快速发展,人们获取的数字图像数据容量不断增加,面对这些海量的数据,人们越来越希望计算机可以更加自主更加智能地进行处理。受到人类视觉系统能快速高效地分析周围环境,定位感兴趣的物体,并做出相应的反应的启发,如果计算机能够模拟人类视觉系统的这种机能来处理视觉内容,那么将对视觉计算研究的各个领域产生极大的促进作用,而计算机理解图像数据的关键是显著性区域的视觉感知处理能力。
目前已有的一些模型和算法在一定程度上实现了上述功能,但在某些方面还存在不足。针对现有显著性区域检测方法存在的问题,本文提出了一种基于相位谱和调谐幅度谱结合分水岭算法的显著性检测方法。该方法首先对要检测的图像进行傅里叶变化,提取相位谱和幅度谱。而图像的相位谱反映的是图像的纹理信息,因此保留图像的相位谱,对图像的幅度谱进行处理。对幅度调谐,得到一个合适的阈值,使显著性区域幅值加强,非显著性区域削弱,从而得到初步显著性图。然后再对得到的图像用分水岭算法进行分割,通过确定算法中的阈值来得到最终的显著性图,实验结果表明了该算法的可行性和有效性。
1.1 人类视觉系统(Human Visual System,HVS)
人类的视觉系统能快速准确地处理人眼所看到视觉场景:识别场景中物体、将不同的物体进行组合、理解和分析整个场景,如果是带有目的性的,还能够在对场景搜索之后很快达成目的。这个过程即使对目前最先进的计算机和最有效算法来说都是一个非常困难的,而人类视觉系统处理这么复杂的过程只需要在极短的时间内就能完成。目前,Neisser[1-2]提出的描述人类视觉系统作用过程的机制最被认可,他将早期视觉(Early Vision)处理过程分为预注意处理阶段(Pre-attentive Stage)和注意处理阶段(Attentive Stages)。视觉系统的前意识阶段在第一阶段中是最主要的,这个阶段只处理和检测场景中显著的特征,场景中不同于大多数的背景的区域部分能够引起视觉细胞更大的刺激。而到了第二阶段,神经系统会将这些显著的特征通过某种关系进行融合和聚类,然后形成注意力分配图来指导眼球的运动,视觉信息在HVS中的传递过程如图1所示。在这基础之上,MIT大学的David C.Marr[3-4]提出视觉处理的预注意阶段会将进入视觉系统内的光线转化为颜色、边缘、线条和倾角等征,并将这些特征进行特定的编码来形成对视觉场景的初步表示,最终让视觉系统能够进行识别和分析。
图1 视觉信息在HVS中的传递过程
1.2 视觉显著计算模型
视觉显著计算模型主要是利用数字图像处理方法,模拟人类视觉注意系统,对视场中不同的信息构建的视觉认知、目标获取的数学计算模型。在构建视觉显著计算模型时重点需解决三个问题:(1)显著特征的提取;(2)显著图生成策略;(3)显著图融合。不同模型的主要区别在于模型构建过程中采用不同策略处理这三个阶段。模型性能好坏的评价指标主要是看计算结果与人观察视场的显著性图的一致程度。
近年来,国内外研究人员提出了多种视觉显著计算模型,正如前文指出,视觉注意过程中包含自底向上(Bottom-up)和自上而下(Top-down)两种机制。视觉显著模型的建立也分为两种不同的研究框架。但自上而下的视觉显著计算模型是根据特定的任务建立,理论和应用均具有局限性。因此,目前绝大数的研究成果均是研究自底向上的由底层特征驱动的计算模型。自底向上视觉显著性计算建模是从底层特征开始,生成不同表达方法的特征显著图,以形成对人眼视觉的表达。这种方式重点是强调场景目标自身与所处区域,或者场景全局的差别,差别越明显,显著性越强。从特征描述的策略和建模的思想上区分,该类模型大致有三类:
(1)基于视觉认知的计算模型。该类方法利用多种图像底层全局显著特征进行融合,建立视觉显著模型,如Itti[9]视觉显著模型。Itti模型对图像进行线性滤波后,利用图像的颜色特征、强度特征和方向特征,进行9层高斯金字塔滤波,获得各自的显著图,再利用“中央-边缘”(center-srundder)机制,采取“赢者通吃”的策略,进行线性融合,获得最终图像显著图。
(2)基于单一数学计算的显著性分析方法。不利用任何视觉认知机制,用数学方式表达图像,并利用数学方式对图像进行显著性计算,其典型代表有Achanta[15]等人提出的全分辨率算法,即AC算法和Hou[5]等人提出的频域谱残余(Spectral residual,SR)算法,这两个算法是在对大量自然图像进行频率内对数谱分析后发现,冗余背景信息大致相同,显著目标具有较强的“尖锐”特性,因而进行的频域内运算和变换。
(3)结合视觉认知与数学计算的显著性提取方法。其典型代表有Harel[10]等人提出的基于图像的视觉显著性(Graph-Based Visual Saliency,GBVS)算法。这种方法考虑到单一视觉认知模型和数学计算的不足,提出利用人类视觉认知理论建立整体算法框架,再引入数学计算方法,基于马尔科夫链进行随机游走,建立视觉显著模型。
就近年来具有代表性的视觉显著计算模型的作者信息、提出时间和采用的基本策略信息梳理如表1所示。
表1 具有代表性的视觉显著计算模型
2.1 频域谱残余方法
由Hou和Zhang[5]提出的SR方法首次从频率域的角度分析图像的视觉显著性。通过抽取图像在频域上的残余频谱,SR方法能够快速地计算出空间域的显著图。根据高频抑制原理,人的视觉系统在抑制经常发生的特征的同时保持对偏离正常状态的特征敏感[6]。因此只有非常规的信号才能被传递到处理的下个阶段。SR方法分成三个步骤:
(1)对图像进行傅里叶变换,将其变换到频率域并得到振幅谱和相位谱。
(2)变振幅谱为对数谱,再计算残余谱。
(3)通过反向傅里叶变换,利用残余谱和相位谱得到显著图。
SR方法通过对图像的幅度谱进行局部均值滤波以达到压制冗余信息的目的,而傅里叶变换和反变换也是图像处理中最基础的计算之一,并且SR方法的计算速度比较快。虽然该方法压制了非显著性信息,但与此同时也压制了图像的显著性信息和显著细节,导致了显著图的对比度较差,且效果一般。只能在一定程度上表示出显著性目标所在的区域,不能完全表明显著性目标的准确位置和轮廓,如图2所示。
2.2 分水岭算法
分水岭算法[7]是基于模拟浸水过程实现的。该方法的基本思想是把图像看成是地质学上的3D地貌拓扑,图像中每一点像素的灰度值看作是海拔高度,每一个局部极小值及其影响区域被称为集水盆。假设在每个极小点处打一个小孔,把这个地质学模型慢慢浸入水中,水将从这些小孔中慢慢浸入模型表面,从最低的极小值点开始,水会逐渐淹没集水盆。当来自两个不同极小值点区域的水面不断升高并即将汇聚到一起时,在此处筑起一道堤坝。在整个过程结束之后,每个极小值点都会被相应集水盆的堤坝所包围,整个堤坝集合构成分水岭。不同的集水盆代表图像的不同分区,最终实现图像分割。
要实现分水岭分割算法需要标定一些种子点:分别为前景种子点和背景种子点。这两种种子点的选取可以基于显著图来确定。设定一个较低的阈值Tlow,显著性低于Tlow的点将其认为是背景区域的点;同理,设定一个较高阈值Thigh,显著性高于Thigh的点将其认为是前景区域的点。然后把标记出的这些点作为输入,就能实现图像的分水岭分割。Tlow和Thigh这两个的阈值的设定基于均值最大值加权平均法动态阈值:
图3对比了几个采用分水岭分割算法的视觉显著性检测图,其中第二行的显著图是通过本文提出的方法所得到的。从实验结果可以看出,本文所提出的结合分水岭算法的视觉显著性检测方法的效果是比较好的。
图2 SR算法实验结果
为了检验本文方法的效果,在MATLAB平台上实现了本文提出的算法。通过在Achanta[8]提供的1000幅图像的数据集上进行测试,将本文方法与七种目前比较经典的方法进行了对比。这七种方法分别是最为经典的IT[9]方法,输出为全分辨率显著性图的FT[8]方法,基于区域的经典的RC[11]方法,基于频域的SR[5]方法和HFT[12]方法以及结合高层信息的CA[13]方法和LR[14]方法。为了尽可能排除影响实验结果的因素,本文的实验都在同一硬件设备环境下实现,且所有方法都在Achanta1000数据集上测试。所有对比方法都使用了原作者的提供的算法和程序,FT、RC、SR这三种方法使用文献[8]中提供的C++代码实现,IT、HFT、CA、LR这四种方法使用其文献作者提供的MATLAB程序来实现。原图像及上述提到的七种方法的实验结果如图4所示。
图3 几种分水岭算法的实验对比结果
对图4中的这几种方法的实验结果进行比较可以看出,图4(b)所示的IT方法只能检测出图像显著性区域中的个别几个小区域。虽然FT方法能够突出图像中具有特殊像素的区域,但准确性欠佳,某些具有特殊像素的区域并不是显著性区域。而且从图4(c)第2和第4行中花朵的中间区域可以看出FT方法存在突出了非显著性区域和显著性区域为突出的问题。再看图4(d)第1、2行中花朵周围的区域,由于RC方法是基于区域对比度的,在突出图像中颜色对比度较高区域的同时也突出了部分颜色对比度较高的背景区域。图4(e)和4(f)中,基于频域的SR和HFT方法因更注重于突出显著性目标的轮廓而使显著性目标的边缘比较模糊。而图4(g)所示的CA方法却恰恰相反,所得显著图中显著性区域并没有被完整的突出但边缘比较突出。最后图4(h)所示的LR方法虽然能够完整地突出图像的显著性区域,但该方法对图像背景区域的抑制效果不佳。本文提出的方法解决了上述方法显著性检测效果较为单一的问题,不仅克服了上述某些方法不能完全突出图像中整个显著性区域的缺点,还比其中的几个方法更有效地抑制了图像中的非显著性区域,较为完整地突出了图像中的显著性区域。
本文通过研究傅里叶频谱与显著性的关系提出了一种基于相位谱和调谐幅度谱结合分水岭算法的显著性检测方法。该方法先通过傅里叶变换提取图像的相位谱和幅度谱,并对幅度谱进幅度调谐处理,再对得到的图像用分水岭算法进行分割最终得到显著性图。实验结果表明,相较于以前的方法本文的算法能更有效地检测出图像的显著性区域,同时抑制图像中的非显著性区域。
图4 七种算法与本文算法实验结果的对比
参考文献:
[1]U.Neisser.Visual Search[J].Scientific American,210(6):94-102,1964.
[2]U.Neisser.Cognitive Psychology[M].Appleton-Century-Crofts,New York,1967
[3]D.Mary,A.Vision.A computational Investigation Into the Human Representation and Processing of Visual Information[J].WFi San Francisco:Freeman and Company,1982.
[4]D.Mary,L.Vaina.Representation and Recognition of the Movements of Shapes[J].Proceedings of the Royal Society of London.Series B.Biological Sciences,1982,214(1197):501-524.
[5]Hou X,ZHANG L.Saliency Detection:A Spectral Residual Approach[C].IEEE Conference on Computer Vision and Pattern Recognition.USA:CVPR,2007:1-8.
[6]C Koch,T Poggio.Predicting the VisualWorld:Silence is Golden[J].Nature Neuroscience,1999,2:9-10.
[7]WANG Xiao-peng.Morphological Image Analysis Principles and Applications[M].2nd ed.Beijing:Tsinghua University Press,2008:58.
[8]Achanta R,Hemami S,Estrada F,etal.Frequency-Tuned Salient Region Detection[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2009:1597-1604.
[9]Itti L,Koch C,Niebur E.Model of Saliency-Based Visual Attention for Rapid Scene Analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[10]HAREL J,KOCH C,PERONA P.Graph-Based Visual Saliency[C].Proceedings of Advances in Neural Information Processing Systems,2007:545-552.
[11]Cheng M M,Zhang G X,Mitra N J,etal.Global Contrast Based Salient Region Detection[C].Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2011:409-416.
[12]Li J,Levine M D,An X,et al.Visual Saliency Based on Scale-Space Analysis in the Frequency Domain[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(4):996-1010.
[13]Goferman S,Zelnik-Manor L,Tal A.Context-Aware Saliency Detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(10):1915-1926.
[14]Shen X,Wu Y.A Unified Approach to Salient Object Detection Via Low Rank Matrix Recovery[C].Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2012:853-860.
[15]ACHANTA R,ESFRADA F,WILSP,et al.Salient Region Dection and Segmentaion[C].Proceeding of the International Conference on Computer Vision Systems.Springer,2008.
Research on Visual Saliency Detection
ZHUANG Fei-hong,YUWei-wei
(Departmentof Information Engineering,ShanghaiMaritime University,Shanghai 201306)
It is one of the main purposes of visual saliency detection to simulate the physiological mechanism of human visual system.As the preprocessing of image,reliable and rapid saliency detection can provide valuable reference information for image retrieval,image segmentation,image retrieval and so on.However,at present,there are some problems in the algorithm of visual saliency detection. Through the study of the relationship between Fourier spectrum and the significance of the image spectrum,proposes a phase spectrum and amplitude spectrum tuning saliency detectionmethod based on watershed algorithm,to improve the visual saliency detection effect.
庄斐弘(1991-),男,硕士研究生,研究方向为计算机图像处理
201703-06
2017-05-10
1007-1423(2017)14-0077-05
10.3969/j.issn.1007-1423.2017.14.016
于威威(1978-),女,副教授,硕士生导师,研究方向为模式识别、计算机图像处理、数据挖掘等
Visual Saliency;Watershed;Fourier Spectrum;Phase Spectrum;Tuning Spectrum