叶 涛
(新乡学院 计算机与信息工程学院,河南 新乡 453000)
浅析基于空间信息的视觉注意模型
叶 涛
(新乡学院 计算机与信息工程学院,河南 新乡 453000)
近几年,基于频谱变化的视觉显著性检测模型逐渐成为研究热点,大多数频域视觉注意模型的主要思想通常是利用离散傅里叶变换或离散余弦变换等方法把图像从空间域变换到频谱域,然后通过对频域内的相位谱、幅度谱等信息进行分析和处理,提取显著信息,最后再通过逆变换到空间域并进行后续处理得到最终的显著图。
空间信息;视觉注意;显著性检测
在图像压缩领域,传统方法一般都是把输入图像切分成小图块,然后不加区分地对所有图块采用一种变换机制进行编码,这样做没有充分利用人眼的视知觉特性。相关研究表明,人眼对图像进行非均匀采样,同时人眼以高分辨率处理关注区域,以较低分辨率处理非关注区域。因此可以通过构建视觉注意模型来预测人眼关注区域,然后分别对关注区域和非关注区域采用不同压缩比方案,尽可能保留关注区域的图像信息。此外,视觉注意机制的相关研究对其他一些实际应用如汽车导航、广告设计等也有着借鉴价值。在视频监控、自主驾驶、数字媒体库中的信息检索以及医学图像分析时,如果采用选择性视觉注意的方法,便可以在海量数据中高效地找到有用的信息。因此,在神经科学、认知科学和计算机工程等领域,视觉注意形成机制的探索和视觉注意计算模型的设计已经成为目前国内外的研究热点。
2.1 联合频域分析与空间信息的视觉注意模型研究
为了提高频域视觉注意模型的生物可信性和有效性,在综合分析现有模型的基础上,提出一种具有生物可信性的改进的超复数傅里叶变换视觉注意模型。为了验证和评估提出的改进模型的性能,在相关数据集上对其进行了大量实验,并将改进的模型应用到了图像检索中。本研究主要从以下4个方面对HFT进行改进:
(1)四元数实部系数的选择;(2)四元数虚部系数的选择;(3)如何滤除重复图案对应的幅度谱;(4)如何利用废弃的显著图选择出最优显著图。
2.2 基于卷积神经网络的图像检索
深度学习提出了一种让计算机自动学习出模式特征的方法,并将特征学习融入到了建立模型的过程中,从而减少了人为设计特征造成的不完备性。在卷积神经网络中,图像的一小部分(局部感受区域)作为层级结构的最低层的输入,信息再依次传输到不同的层,每层通过一个数字滤波器去获得观测数据的最显著的特征。这个方法能够获取对平移、缩放和旋转不变的观测数据的显著特征,因为图像的局部感受区域允许神经元或者处理单元可以访问到最基础的特征,例如定向边缘或者角点。本研究尝试将其应用于图像检索中,在显著区域的提取基础上,提出一个基于视觉显著性的深度学习图像检索方法。基本思路是:首先,提取前面所述的融合频域分析和空间信息的显著性检测的显著区域;之后,利用卷积神经网络对该区域进行特征提取;最后,利用相似性度量得到检索结果。
3.1 四元数实部的选择
传统的特征提取方法是将多个底层特征提取之后,只进行简单的融合,使不同特征反映的目标信息重新被掩盖到单一的标量显著性中,导致区分度不够。而本研究拟将标量显著性转化为四元数显著性,这样能够避免简单的线性融合中信息的遗失,完整保留不同特征所表示的图像信息。初级视觉皮层细胞对特定方向的刺激有着强烈的反应。而二维滤波器非常适合表示这种反应。二维Gabor滤波器是一种用于检测边缘的线性滤波器。本项目拟选取4个最有代表性的方向:0,45,90,135,这样就构造出4个Gabor滤波器,分别对输入的自然图像滤波,就得到了4个方向的方向特征图。然后将自然图像的方向和亮度特征值进行多尺度中心—边缘操作,这样得到各自的特征值。将两个特征值线性融合,就得到了四元数显著性的实部系数A。
3.2 四元数虚部的选择
目前存在的四元数频域分析模型中,都是将颜色简单的定义为RG和BY两种模型。RGB色彩模式是工业界的一种颜色标准,是通过对红(R)、绿(G)、蓝(B)3个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色,RGB即是代表红、绿、蓝3个通道的颜色。RGB的设计主要是用于显示输出的,和人的视觉感知并不接近。而HSV颜色空间的色域较宽阔,设计的目的是为了更好地接近人类视觉,致力于感知的均匀性。因此,首先在HSV颜色空间上对HFT改进,并且采用改进的H,S,V 3种颜色分量作为四元数的3个虚部系数。
3.3 如何最大限度地去除冗余信息,保留关键信息
某种模式出现的次数越多,其幅度谱就越集中在某些频率上,而呈现出尖峰的形状。因此,若图像的背景是重复出现的冗余信息,那么相比于显著目标,图像的背景所对应的幅度谱的谱峰应该更加尖锐。幅度谱的峰值对应于重复图案,而这些图案应该被显著检测抑制。因此,在幅度谱中抑制冗余背景可以从去除幅度谱谱峰角度考虑。
3.4 最终显著图的计算方法
HFT方法直接选用熵值最小的候选显著图作为最优显著图。然而,在实验中发现,一些被淘汰的候选显著图中含有重要的显著信息,不能直接被废弃。标准差反映了空间聚集程度。如果显著图的显著区域非常集中,就会接近平均中心,此时标准差较小;如果显著图包含大片的背景区域,注意背景是分布在图像中所有区域中,此时标准差较大。因此,计算k个显著图的标准差,根据一定准则选择一些小于某个阈值的显著图作为候选显著图。然后利用对比函数得到最优的显著图。
本研究在经过中值滤波得到的尺度空间分析后,得到k个显著图,此时引入空间标准差σk。标准差是一个能够反映出空间分布的聚集度,可以认为一个好的显著图应该有较小的方差。计算k个显著图的标准差,若最小标准差为σmin,那么我们选取那些小于ασmin的显著图作为候选显著图。然后对比函数选择最优的显著图。这样更加客观地利用所有可能的显著信息来选择最优显著图。
为提高复杂背景的自然图像的检索性能,本研究采用深度学习中的卷积神经网络方法在显著区域提取的基础之上进行特征提取,并采用相似性度量得到相似性结果。这样避免了人工提取特征的不完备性,同时减少了计算复杂度和提高效率。本研究拟采用不同大小的中值滤波器分别进行滤波,然后从得到的结果中选择一个最佳的结果。滤波器的尺寸设置是由图像尺寸决定的。如何选择最合适的值,能够充分利用废弃显著图中的信息。目前对于网络层数与隐层节点的选取并没有统一的标准,一般情况下,是根据经验或者通过训练学习之后,根据重构误差和训练速度综合比较之后再选择。
[1]WEN Z K, DU Y H, WU H S, et al. The research of visual attention mechanism model fuse multi-feature[C]. Multisensory Fusion and Information Integration for Intelligent Systems (MFI), 2014 International Conference on IEEE, 2014(10):1-7.
[2]HOU B, YANG W, WANG S, et al. SAR image ship detection based on visual attention model[C]. Geosciences and Remote Sensing Symposium (IGARSS), 2013 IEEE International IEEE, 2013:2003-2006.
[3]ZHANG J W, LIAN M C, Wang W P, et al. Detection of abnormal nuclei in cervical smear images based on visual attention model[C]// Machine Learning and Cybernetics (ICMLC), 2013 International Conference on IEEE, 2013:920-924.
[4]ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. Pattern Analysis and Machine Intelligence, 2015(11):1254–1259, 1998.
[5]ACHANTA R, Estrada F, Wils P, et al. S¨usstrunk. Salient region detection and segmentation[C]. International Conference on Computer Vision Systems, 2008.
[6]HOU, X D, ZHANG, L Q. Saliency detection: a spectral residual approach[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2007: 1-8.
[7]GUO C, ZHANG L. A novel multi-resolution spatiotemporal saliency detection model and its applications in image and video compression[J]. IEEE Transactions on Image Processing, 2010(1):185-198.
An analysis of visual attention model based on spatial information
Ye Tao
(Computer and Information Engineering College of Xinxiang University, Xinxiang 453000, China)
In recent years, the visual saliency detection model based on frequency domain of spectral change has become a hot research topic, most visual attention is usually the main thought of the model using discrete Fourier transform or discrete cosine transform method to image from the spatial domain to the frequency domain, then through analysis and processing of phase of frequency spectrum, amplitude spectrum and other information, extract significant information, and then through the inverse transform to the spatial domain and subsequent processing to get the final saliency map.
spatial information; visual attention; saliency detection
叶涛(1979— ),男,河南新乡,本科,讲师。