刘 兵,霍建亮
(1.驻二○九所军代室 四川 成都 610041;2.西南技术物理研究所 四川 成都 610041)
人类能够在一个复杂的场景中快速的有选择的找到“显著的”或“感兴趣”的物体,而忽略那些不太突出的物体,这个过程称为视觉注意。视觉注意机制在人的日常生活过程中起着非常重要的作用。当人们面对一个复杂场景时,在视野中的信息是海量的,但是人们大脑同时并行处理信息的能力是有限的,与此同时,并不是所有的信息都是同等重要的,需要根据它的重要程度分别给予不同的重视级别。因此,通过视觉注意机制,人类可以对输入的视觉信息进行有效地筛选,使得人类能够对突发、紧急和危险情况作出及时的反应。在计算机视觉处理中引入这种注意机制,来更好地处理数据筛选问题,对提高机器人的智能具有重大意义[1]。
视觉注意机制是一个多门学科交叉的研究领域。视觉生理学与认知心理学等领域的学者,主要研究视觉注意机制的神经机理和认知模型;计算机视觉、模式识别、人工智能与信息处理等领域的学者,主要研究如何建立视觉注意的计算模型来模拟实现,视觉生理学和认知心理学对视觉注意的研究成果及其提出的合理假设[2]。文中研究的是构造视觉注意的计算模型,来更好的模拟视觉注意机制。
在众多视觉注意建模思路中,Itti等人提出一种视觉注意计算模型,简称为ITTI模型[3],引起了广泛的关注。Itti模型采用一种自底向上的注意机制,提取输入图像的亮度、颜色和方向特征做为视觉初级特征,采用中央周边差操作和非线性归一化得到对应的特征图显著图,将各特征显著图进行线性组合得到总显著图,最后采用胜者全赢的神经网络和禁止返回机制进行注意转移。图1所示是Itti模型的结构图,该模型能自适应地检测图像中的感兴趣区域,在目标检测和识别等图像处理任务中有很大的优势。
解剖学和神经科学的研究发现,视网膜中心具有较小的感受野,外周的则较大,采样密度和视觉分辨率随着到视网膜中央的距离增大而降低,外围的信息被大量压缩。Itti模型采用了高斯金字塔结构来模拟这种非均匀采样机制。
建立金字塔结构是由平滑和下采样两部分组成的。对于一幅图像 I(i,j),设 s为金字塔的层数,当 s=0 时,I0(x,y)=I,这表示图像金字塔结构最底层为原始图像,则金字塔的s层由s-1层计算得到,计算公式为:
图1 Itti模型的结构图Fig.1 Architecture of the Itti model
这里w(m,n)为下采样的核函数,一般选取高斯核函数。Itti模型中采用[1,4,6,4,1]的平滑滤波器,分别对图像进行行滤波和列滤波。注意这里滤波时采取隔点滤波,达到下采样的效果。Itti模型进行8次高斯滤波下采样,加上原来的原图像,形成一个9层的高斯金字塔结构。
特征的选取是计算模型中最重要的问题。Itti模型提取了输入图像的亮度、颜色和方向特征作为初级视觉特征。
1.2.1 亮度特征
设 r(s),g(s),b(s)分别表示图像的红色、绿色和蓝色通道,这里 s表示图像金字塔的层数,取值范围是[0,1,…,8]。Itti模型中金字塔结构的每一层图像的亮度特征为:
1.2.2 颜色特征
由图像的 r(s),g(s),b(s)3 个通道计算得到广义上的红、绿、蓝和黄4个通道:
然后组成红-绿和蓝-黄通道为:
1.2.3 方向特征
图像处理中,Gabor函数有很好的方向选择性[4]。二维Gabor滤波器的数学表达式为:
这里,α与β分别为x和y方向上的标准差,λ为正弦波的波长,θk为方向,定义为(k-1),k=1,2,…,n。
Itti模型中取 0°,45°,90°,135°4 个方向的 Gabor滤波器输出作为方向特征,即 n=4。 xθk和 yθk的计算公式为:
获得 0°,45°,90°,135°4 个方向的 Gabor滤波器,然后对高斯金字塔结构中的每层图像进行滤波,得到4个方向上的特征图。
1.2.4 总显著图
设 c表示金字塔结构的中央层,取值为{2,3,4};c+s表示金字塔结构的周边层,s取值为{3,4},Θ表示中央层与对应的周边层进行层间相减操作。 Mint[c,(c+s)]表示亮度特征图,
MRG[c,(c+s)]表示红-绿通道特征图,
MBY[c,(c+s)]表示蓝-黄通道特征图,
设θ为Gabor滤波器的输出方向,取值范围为(0°,45°,90°,135°),o(σ,θ)为尺度空间为 σ 时,θ方向上的方向特征图,则对应方向特征图 Mor[c,c(c+s),θ],计算公式为:
经过非线性归一化操作N(·)[5],对每个特征图进行中央自激励,对周围邻域进行抑制,得到 N(Mint(c,c+s))、N(MRG(c,c+s))、N(MBY(c,c+s))和 N(Mori(c,c+s,θ))。 通过层间相加操作和归一化形成3个特征显著图:亮度显著图Cint,颜色显著图Ccol和方向显著图Cori[6]。然后对3种特征进行平均加权,得到总显著图为:
总显著中的各目标通过竞争吸引注意焦点,焦点在各个待注意目标之间按照一定的原则转移,这个过程被称为注意焦点转移。然后采用胜者全赢来选择总显著图中的最大值,采用禁止返回来找到转移目标。这个便是完整的Itti模型。
在Itti模型中,计算亮度和颜色特征提取过程中,采用相差3层和4层的金字塔结构中的图像相减,这样依靠高层金字塔图像中的显著目标在下采样的过程中,融入背景中,然后与低层金字塔图像进行相减得到显著目标。这样存在有2个缺陷:第一,Itti模型只考虑了显著目标与背景的绝对灰度差,而在实际检测场景中,一些显著目标和背景各自存在亮度和颜色特征的相似性,并且两者的之间的存在一定的差异,人们很容易注意到这类显著目标,但是在Itti模型中并没有相应的考虑。第二,由于Itti模型提取的显著目标由于采用了高斯金字塔图像之间的差来提取显著目标,然后缩放到到原图中,这样很容易造成了提取目标位置的偏移和提取区域的不准确。因此,我们在原有特征图像中,增加计算图像区域中灰度分布概率统计提取的特征图像,最后对所有特征图像进行加权融合。
这里先定义一个矩形框W,它为内核框K和边缘框B组成[7-8],如图2所示。wW,hW分别为矩形框W的宽和高,同样wK,hK分别为内核框K的宽和高。F(x)为图像初始特征,这里我们选用亮度和颜色作为初始特征。定义H0表示当前点为不显著点,H1表示当前点为显著点,分别对应的概率为P(H0)和P(H1)。 我们假设内核框 K中为目标,边缘框 B为背景,则 p(F(x)|H1)和 p(F(x)|H0)对应的框内的灰度概率分布。我们定义p(H1|F(x))为当前区域的显著性度量,使用贝叶斯理论,
这里 p(F(x))=p(F(x)|H0)p0(H0)+p(F(x)|H1)p(H1),所以得到
图2 显著性计算示意图Fig.2 Illustration of the definition of the saliency measure
图3 计算图像的显著值示意图Fig.3 Illustration of the computation of the saliency value for an image I
如图3所示,使用2.1提到的显著性计算方式,在亮度和颜色特征图上,以步长SW进行扫描计算,得到相应的显著值,对重叠像素区域采取S(x)={Sj(x)|x∈W(j)}。
如图4所示,Itti模型提取的显著区域包括邮箱中心白色区域和邮箱上面部分,和图中两个树枝的位置,而树枝位置由于提取采用了显著图像缩放到原图中,造成提取的小目标区域偏移到旁边草地位置。而特征图分支中增加了灰度概率统计方法这个分支后,得到的图像位置比之前更为准确,而且也会克服只选用灰度概率统计方法只提取自身灰度相似的显著目标,而丢弃纹理复杂部分的缺陷。
图4 对比结果Fig.4 The comparison of results
提出了基于灰度概率统计方法对Itti模型进行改进,它侧重考虑了目标自身灰度的相似性,使得它克服了Itti模型只考虑了灰度值的绝对差异,而且提取显著目标位置不会像Itti模型那样发生大的偏移。实验证明了它能更好提取图像中的显著目标及其轮廓。
[1]张巧荣.视觉注意计算模型及其关键技术研究[D].哈尔滨:哈尔滨工程大学,2011.
[2]谢春兰.视觉注意模型及其在目标检测中的应用研究[D].重庆:重庆大学,2009.
[3]Laurent I,Christof K,Ernst N.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[4]张菁,沈兰荪,高静静.基于视觉注意机制的感兴趣区检测[J].光子学报,2009,38(6):1561-1565.ZHANG Jing,HEN Lan-sun,GAO Jing-jin.Regionsof interest detection based on visual attention mechanism[J].Acta Photonica Sinica,2009,38(6):1561-1565.
[5]Laurent I,Christof K.A saliency-based search mechanism for overt and covert shifts of visual attention[J].Vision Research,2000,40(10):1489-1506.
[6]靳薇,张建奇,张翔.基于视觉注意力模型的红外目标检测[J].红外技术,2007,29(12)720-723.JIN Wei,ZHANG Jian-qi,ZHANG Xiang.Method for IR target detection based on visual attention model[J].Infared Technology,2007,29(12)720-723.
[7]Esa R,Janne H.A simple and efficient saliency detector for background subtraction [J].Computer Vision Workshops(ICCV Workshops),2009,12(9):1137-1144.
[8]Esa R,Juho K,Mikko S,et la.Segmenting salient objects from images and videos[J].European Conference on Computer Vision (ECCV),2010,31(1):366-379.