杨思燕,周国庆
(1.陕西广播电视大学计算机与信息管理系,陕西西安710119;2.西安电子科技大学计算机学院,陕西西安710071)
随着多媒体技术的日益发展和传感器科技的不断进步,图像信息已然成为洞察世界的主要窗口,纷繁复杂的图像数据依赖人工处理已十分困难,迫切需要智能化处理方式的参与。在计算机视觉和图像分析处理中,我们关心的并不是整幅图像而是引起人眼关注的一部分区域,称为显著区域。所谓显著区域,主要包含了人眼最为关心的重要场景,较好地描述了图像的信息数据,是能够刺激人的视觉系统(HVS)在极短的时间内把注意力关注到图像中的区域。如果在图像分析中引入视觉注意的这种不同优先级处理机制,赋予各异的图像区域,不但能够减少计算机分析图像的时间复杂度,而且能够显著提高处理计算的效率和定位关注的显著区域。
普遍被认可的分类方式是将显著性区域检测算法[1-4]归纳为基于空域的显著性检测算法和基于频域的显著性检测算法两大类,这是从处理空间的方式上进行划分的,也比较容易将算法分类清楚。基于空域的视觉显著性检测算法启蒙于神经科学和生物学研究,因而该类算法诞生较早。起先是受大脑神经处理机制的启发Treisman和Gelade首次提出了特征综合理论[5],总结HVS处理机制分为带有预处理感知的并行处理阶段和具有选择性关注知觉的串行融合阶段。而后Koeh和Ullman对该理论的研究不断深入并对其进行了扩展[6],创建和发展了视觉注意的焦点选择和转移机制理论,并首次发明了显著图的概念理念。借鉴和研究这些理论成果,Itti等人构建了首个自底向上的基于空域的视觉显著性算法模型(IT)[1],该算法从多特征多尺度角度利用图像的颜色、方向等信息进行显著性值计算,并运用中央—周围差原则(Center-Surround)算子对初步显著图运用线性融合操作获取最终显著图。尽管IT是模仿和符合仿生学机理的,但由于有对参数选择的敏感性和计算时间的复杂度较高等原因,没有在实时应用或工程中得到较好的发挥,限制了其应用的发展。通过研究IT模型的形成机理,Bruce等人引入信息论的原理将图像数据利用信息熵原则进行处理提出了信息最大化的显著性算法模型(AIM)[7]。而Harel等人将图论的思想借鉴到显著性算法模型中来,提出基于马尔科夫连随机场的检测模型(GB)[8]。这些基于空域的算法模型方法提取图像的特征都较为复杂,而且计算机处理的时间冗余度也较高,一定程度限制了其方法的利用。
为了提升模型的实用性和提高算法的实时性,受频域特征的启发,HVS研究者将其借鉴到视觉显著性检测算法模型中,构建了许多优秀的基于频域的视觉显著性目标检测方法。而Hou和Zhang开创先河地提出了基于频域处理的谱残余方法(SR)[4],该方法首先运用傅里叶变换操作图像的频率谱获取残差谱,再进行傅里叶逆变换获取图像的空域显著图。Guo等人受SR方法的启发提出了一种频域显著性目标提取模型[5],其对图像利用傅里叶变换操作后不考虑幅度谱信息,直接运用相位谱的逆变换提取显著图。值得关注的是Achanta等人改变图像的色彩空间并进行频域处理,提出了一种效果较为满意的显著性算法模型(FT)[6]。这些基于频域的显著性检测算法具备分析处理速度快的优势,因此备受研究者们的青睐,从而日益成为视觉显著性目标探测算法的研究热点。但现有算法也存在下列劣势:1)对复杂背景提取效果不好或当场景中存在弱小目标时检测不到;2)所检测到的目标轮廓不很清楚或模糊不清为后续处理带来了难度;3)获取的目标不能直接应用
针对已有的基于频域的显著性区域检测方法的不足,本文提出了一种利用图像宽频调谐信息和结合谱残差分析的显著目标检测算法。
根据HVS视觉规律特点,人眼对目标的亮度、颜色、空间方位、运动等特征特别敏感。研究发现人类通过灰度信息只能分辨出几十种目标特征,而运用色调信息却可以识别出成千上万种目标,所以颜色特征被推崇为是对目标信息比较强有力的表达方式。同时,利用颜色信息对目标进行区分,符合人脑感知目标特性的心理和神经过程;而且HVS对颜色的区分能力(选择性)是相当强的,因此我们也选用颜色信息进行特征分析。IT等基于空域的方法一般选用的是RGB颜色空间,FT等基于频域的方法将RGB空间转换为Lab颜色空间进行显著值计算;但通过实验发现,这两种颜色特征都有些缺陷,尽管FT是目前方法中比较优秀的,但还会存在误检或漏检的不足;而通过大量实验发现利用颜色的宽频特征可以弥补这种不足,图1是最好的证明。因此,文中利用宽频调谐颜色进行显著图的计算。
从图1可以看出,本文利用宽频调谐颜色的优势,能够检测出FT方法不能检测或漏检的部分,后续的实验也论证了这点,确实比FT方法能够精确检测目标。
根据文献[4]的结论表明,目标位置也会影响显著目标的显著值,引入上下文信息可以消除位置的不确定和歧义性,更为准确地获取图像的关注区域。因此,文中利用公式(1)进行宽频调谐特征的显著值计算。
其中,dcolor(Pp,Pq)表示特征之间的差异性。本文方法选用的是宽频调谐颜色特征,所以dcolor(Pp,Pq)就是计算Pp和Pq在RGB色彩空间中的颜色特征差。dposition(Pp,Pq)计算特征之间的空间位置差值。C是一个影响因子,用来控制空间位置关系的权重大小。在该文计算时,设置c=3。通过对文献[3-5]的深入学习和实验论证,在目标的显著值除受颜色信息、位置信息等因素影响,最为重要的还有尺度信息。
图像中的显著目标可以而且通常出现在各种尺度中。简答而言,人眼观察目标会根据距离的远近而关注不同的对象,距离近关注的是小目标,而距离远关注的就是大目标,从某种程度上来讲,能够吸引人注意的目标在各个尺度下的显著值大小是不一样的。大量实验发现尺度不同的情况下,目标和背景信息受尺度的干扰是不一样的,因此利用多尺度分析对目标信息的获取更为精确。这也建议我们进行显著性检测时,应当尽可能地考虑尺度的选择。为此,大多数多尺度(比如Itti模型等)显著模型提取了在不同尺度下的多尺度特征图,然后再利用一定的融合策略组合这些特征图。在进行尺度选择时,可以利用滑动窗口、高斯金字塔等方法。而上文中提到的Itti模型(包括其他模型)都是利用多尺度进行分析提取图像特征进行显著值的尺度比较得到各个尺度下的特征图。而本文在进行显著图精细化处理的时候,也借鉴了这种思想,能够较好地去除背景信息,突出显著物,达到显著图优化的目标。
本算法运用多尺度分析来提取目标对象的显著值,本文选用三个不同尺度来计算图像的显著值,图像最终的显著值计算为
图1 特征选择实验Fig.1 Experiments of feature selection
图2 尺度空间图Fig.2 Multi-scale space sub-image
设定原始图像I的尺寸为H×W,其中H为高度,W为宽度:
1)对目标图像运用高斯平滑操作,以去除因噪声、成像编码带来的误差及纹理的影响,获取到一个新的图像Ig,其计算公式如下:
式中:(I,J)为图像的坐标值;符号“×”表示卷积操作;G为高斯平滑滤波器,本文尺度大小选用5×5或7×7。本算法采用的二维Gabor滤波器的计算公式为:
其中公式(4)中,
θ为Gabor滤波器的方向信息,σx和σy分别为轴x和y轴方向的高斯方差,f为Gabor滤波器的中心频率
2)提取图像Ig的R、G、B 3个通道的宽频调谐颜色信息,根据公式(1)检测的初步结果利用公式(2)-(4)得到亮度I特征、RG特征、BY特征
3)计算每个宽频调谐特征下所对应的整幅图像的均值:
4)对于每个像素,计算各宽频调谐特征下与整幅图像均值之间的距离并进行归一化处理操作,便于图像信息的显示.
5)特征融合得到每个像素的初步显著值:
根据文献[6]信息论理论,纷繁复杂的自然图像H(image)是有规律可循的,其可以用两部分来表征所包含的目标对象,一是新颖的反常信息H(innovation),二是冗余的常见信息H(redundancy)。
新颖的反常信息H(innovation)就是我们感兴趣的目标区域(图像的显著信息),可以运用下式求得。
据HVS研究者发现,自然图像拥有统计特性变换不变性的规律特征,并运用实验证明了其在幅度谱上符1/f规则[8](即某频率的幅值与该频率的倒数成正比)。因此文中运用图像log频谱与频率几乎呈线性关系的特性来进行操作运算。因为对目标图像在log谱上做操作运算,可以通过运用平均滤波器与幅度谱进行卷积获取冗余数据并进行逆运算操作进一步得到我们所关注的目标信息。
6)对获取到的初步特征图S进行残差分析。对特征图S(x),首先对其进行二维离散傅里叶变换操作,从空间域转换到频域处理,对幅值取对数后得到Log谱L(f):
式中F代表二维离散傅里叶变换,[S(x])代表其幅值,φ代表其相位。由于log曲线满足局部线性条件的特征规律,因此采用了局部平均滤波器hn(f)对目标图像做平滑处理,获取到log谱的大致轮廓:
式中hn(f)是一个n×n的矩阵,定义为
运用公式(23)可以获取图像更为精确的显著信息,因为其描述原图像各像素的最终显著值,构建了最终的显著图(saliency map)。本文在此步也融入尺度分析方法上利用公式(2)进一步进行多尺度分析,得到更为精细和完美轮廓的图像最终显著图。
本文n取3,利用公式(16)-(21)就可以获取我们所需要的谱残差,计算方式如下:
公式(22)得到的结果就是我们需要的谱残差,表征和描述的就是我们所最为关心的感兴趣区域,因此就可以获取目标对象。利用谱残差和相位P(f)运用二维离散傅里叶逆变换操作:
为了显示我们算法的优越性和实用性,利用微软(MSRA)数据库上的1 000张不同类型的图片,我们选用Intel Pentium Dual 2.9GHz CPU、4GB内存的微机首先进行定性实验,其次进行定量分析比较。图2为选取的部分实验结果图(且与较为流行和较为优势的IT[3]、SR[4]、FT[6]、GB[7]、AIM算法等进行实验比较),其中KB为本文的算法。
图3 六种显著图对比结果Fig.3 Comparison of 6 results
图2中描述了文中算法与较为优势的五种算法结果实验图。从中明显发现,IT算法只能大体检测显著目标的位置信息且不能完整描述轮廓;SR算法获取到的显著图也不能表达显著目标的边缘信息,且对背景噪声的敏感性较强;GB和AIM算法获取的感兴趣区域目标轮廓还不是很清晰,难以精准分割目标对象;尽管FT算法获得的感兴趣区域拥有良好的边缘信息,但会出现漏检或误检的情况,尤其是背景与目标较为接近的时候;文中方法由于考虑了频率特征和上下文信息并运用了多尺度,去除了背景干扰信息,保留了感兴趣区域的边缘信息,获取的显著图不但轮廓清晰完整而且边缘信息线条明显。为了证实我们方法的优势性,我们也对统计结果进行定量分析;选用和借鉴文献[6]中的方法首先对最终显著图进行二值化处理操作,然后再与标准图库(实际分割图)进行对比验证,获取查准率(precision)和查全率(recall)及F3个指标值。给定实际分割图G=[g1,g2,…,gn]和算法获取的显著图S=[s1,s2,…,sn],查准率(precision)和查全率(recall)以及F指标的定义如下:
其中,设置β2=0.25,得到的查准率和查全率以及F指标如图4。
图4 定量分析结果图Fig.4 Quantitive analysis of the results
从图3明显看出,IT、AIM和GB3种算法得到的查准率和查全率都极为低,因此对后续处理会困难重重,难以分割精准的目标信息;从查准率和查全率以及F指标来看,本文算法获得的3个指标(分别为0.92,0.89,0.882)明显好于IT、AIM和GB算法;比SR方法(分别为0.81,0.79,0.805)和目前较为优秀的FT方法(分别为0.89,0.84,0.835)都要好。因此从定量分析的结果来看,文中提出的算法优势较为明显,特别是查准率,对确定人眼感兴趣目标位置和精准分割场景中目标对象是优势明显的,扩大了视觉显著性算法应用的深度和广度,为实际应用进一步提升了范围。
文中经过深入研究通HVS的视觉规律,提出了一种利用图像宽频调谐信息和结合谱残差分析的显著性目标检测新算法。该方法将图像的上下文信息和频率特征融合在一起,运用多尺度方法提取图像的感兴趣区域。大量实验结果证实,文中算法在能够提取较为精确的目标边缘和获取更好的细节。但多尺度如何细分还需要进一步探讨以及算法还没有应用到具体的目标识别任务中去,下步将是研究的重点。
[1] Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Trans.On Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[2] Hou X,Zhang L.Saliency Detection:A Spectral Residual Approach[C]//Proc.CVPR,2007.
[3] Guo C L,Ma Q,Zhang L M.Spatio-temporal Saliency Detection Using Phase Spectrum of Quaternion Fourier Transform[C]//Proc.CVPR,2008.
[4] AchantaRadhakrishna,Estrada Sheila,Wils Francisco,et a1.Frequency-tuned salient region detection[A].Proceedings of The IEEE International Conference on Computer Vision and Pattern Recognition Lausanne,Switzerland,2009:1597-1604.
[5] Treisman A M,Gelade C.A feature integration theory of attention[J].Cognitive Psychology,1980(12):97-136.
[6] Koch C,Ullman S.Shifts in selective visual attention:towards theunderlyingneuralcircuitry[J].HumanNeurobiology,1985,4(4):219-227.
[7] Bruce N,Tsotsos J.Saliency based on information maximization[C]//Advances in neural information processing syste-ms.2005:155-162.