梁 晔,刘宏哲
(北京联合大学 信息技术研究所,北京 100101)
基于视觉注意力机制的图像检索研究
梁 晔,刘宏哲
(北京联合大学 信息技术研究所,北京 100101)
信息技术的发展使各种图像信息日益膨胀,如何从中找到重要的信息一直是机器视觉和信息处理研究中长期面临的重要问题。将视觉注意力机制引入到图像分析领域,则能获得高效的检索能力。本文首先介绍了视觉注意力、视觉注意力计算模型及研究现状,其次分析了图像中引入视觉显著性的必要性和重要性,论述了图像视觉显著性的层次、显著性特征的选择及度量;最后给出了有待研究的重点问题。
视觉注意力模型;视觉显著性;基于内容的图像检索
如何在浩海如烟的数字图像数据中快速、高效、准确地找到人们所需要的图像信息,已经变成一个亟待解决的问题。人类对数据具有异常突出的筛选能力,能迅速觉察到与自身相关的重要信息,把目光集中到自己感兴趣的方面。根据人类视觉原理,“注意”是人类信息加工过程中的一项重要的心理调节机制,它能够对有限的信息加工资源进行分配,使感知具备选择能力。这种具有选择性和主动性的心理活动被称为视觉注意机制。视觉注意机制的显著区域检测在图像分析过程中有着非常重要的意义,越来越多的研究者将这种注意机制引入图像分析领域,以获得高效、准确的图像检索能力。
视觉注意是属于神经生物学范畴的概念,它是在生物视觉信息处理过程中是一个非常重要的过程。当视网膜拥有整个场景时,注意力一次只集中在一个或者为数很少的几个区域上。图1是几个典型的视觉显著性示例。
图1 视觉注意示例
关于视觉系统中注意力机制一直是认知科学领域的一个重要研究课题,受到神经科学、认知心理学以及相关学科的众多研究者的关注[1-2]。人眼在观察周围视觉信息的时候,观察者即使被给定了较长的浏览时间,仍将会把注意力聚集在一些特定的区域上。注意程度高的区域在人眼视网膜上的黄斑上成像,该区域的信息被选择进入高层知觉过程;而散布在视网膜其他区域的杆状细胞只能在弱光下检测亮度信息,没有色彩的感觉,分辨率较低,仅能分辨出视野景物中的一般轮廓。所以,图像成像在黄斑之外的其他区域,仅仅可以获得一个大概的影像信息。视觉生物神经方面的研究成果为注意力机制提供了生物学基础。
大多数视觉心理学研究结论[2]将早期视觉过程划分为两阶段:前注意阶段和注意阶段。视觉显著性是指在视觉前注意阶段中,能够迅速引起观察者注意的程度。显著性高的客体容易被观察者选择性接受。视觉注意力计算模型旨在模拟人的视觉感知过程,根据视觉对图像中客体的注意程度计算显著程度,即对视觉信息进行显著性分析的过程。
2.2.1 自底向上和自顶向下视觉注意力模型
根据注意过程的引导方式,可将现有注意机制计算模型分为自底向上模型和自顶向下的模型[3]。
自底向上的注意机制模型是指由外界信号的特性而决定注意的导向。自底向上的注意模型没有特定的目标约束,是人们在浏览外界视觉信息时,对具有显著特征的客体进行选择的过程,这个过程完全由外部视觉刺激触发、不受意识支配的,沿着自下向上的方向被处理的,其特点主要有两点:
1) 数据驱动。自底向上的选择性注意机制是由作为底层数据的视觉刺激驱动的,与作为高层知识的观察任务无关,我们无法有意识地控制其信息处理过程。
2) 自动加工。自底向上的选择性注意机制是一种自动加工过程。它对视觉信息的处理速度很快,而且是以空间并行方式在多个通道中同时处理视觉信息的。
自顶向下的模型是选择性注意力机制的另外一种类型。给定某个观察任务,人类视觉在自顶向下的选择性注意机制的帮助下,能够迅速建立视觉期望,并在该期望的指导下按照一定的优先级顺序有选择地对各个场景区域进行局部验证,进而对其中经过证实含有期望目标的场景区域进行局部处理。通常情况下,那些包含期望目标的场景区域都会由于其符合视觉期望的视觉刺激分布模式而具有较高的优先级。显然,将这种由观察任务驱动的自顶向下的选择性注意机制引入图像信息处理过程是非常必要的。
2.2.2 视觉注意力模型分析
对视觉选择性注意机制,目前多数研究的是如何建立隐式注意的自底向上的计算模型,这是因为显式注意更加复杂,涉及更多目前还未知的东西,隐式注意相对来说有更多的实验数据和认知模型可以参考。引导注意的自底向上因素主要来自于视觉任务,而视觉任务是千变万化的,通常表现为知识,但对知识,目前还没有很好的描述模型,而是具体问题具体对待。所以,人们更多地研究自底向上方面。一般而言,设计任何一个视觉注意的计算模型,首先都要涉及以下5个方面。
1) 确定模型是针对隐式注意还是显式注意。不同的注意方式所引起处理过程是不一样的,注意方式对处理过程起着决定性作用。
2) 确定模型中注意是否引入视觉物体识别。在生物视觉系统中,注意所在的“Where”通道和识别所在的“What”通道之间有着复杂的相互关系,注意和识别是密不可分的。但目前这两者交互的机理还远远不为人们所了解。
3) 预注意阶段。预注意阶段主要进行一些早期视觉特征计算,那么到底哪些特征自下而上地引导注意呢?研究表明,既可以是一些基本的特征,如颜色、运动、方向以及尺度,也可以是特征的组合,如2D图像或3D场景中的物体,甚至还可以是学习得到的特征,不同的特征对注意引导的作用依赖于它们在图像中的对比度。
4) 显著图生成。在预注意阶段,一些视觉特征被计算出来,将利用这些计算结果来引导视觉注意。现有的模型几乎都是使用了基于显著图的方式。现有模型之间的不同之处正是在于如何由一些早期视觉特征来融合得到显著图,这是一个模型的核心和关键之处。
5) 视觉转移的控制策略。在得到显著图后,视觉如何转移呢?通过认知实验可知,它取决于两点:一是对当前注视点的识别结果;二是一旦某个物体被注视过了,那么它的显著性会被抑制[4]。
从以上可知,注意计算模型通常包括两大模块:早期视觉特征提取与显著图生成模块和注视区域/物体选取与转移模块。显著图的生成是计算模型的核心。
越来越多的计算视觉研究者展开了基于视觉注意的显著性计算方面的研究和应用,比较知名的研究机构有:美国加州工学院的 iLab、瑞典Neuchatel大学的 PRLab、麻省理工学院 AI Lab、以色列Weizmann工学院的 FMCS、法国 Neuchatel大学的的 PRLab、美国 George Washington大学的 VACLab和意大利Pavia大学的 CVLab等。国内在理论和应用方面也有相应的研究。在认知心理学方面,中科院心理研究所、华南师大心理学系对注意机制的研究和上海交通大学李朝义院士关于神经元整合野的理论研究比较突出。在计算视觉方面,微软亚洲研究院、西安交通大学、国防科技大学、西北工业大学、中国科技大学、清华大学和北京交通大学等研究人员利用视觉认知理论解决计算机视觉方面的有关问题,取得了一定的研究成果。
经过众多学者对注意机理及其运作过程的多年研究,陆续产生出十多种相关理论结构模型[5-13]和视觉显著性处理方法[14-26],这些模型都对视觉注意过程做出了一些合理性解释,但多数还停留在假说层面上,要构建完整的理论体系还有很多工作要做。虽然相关理论尚未完善,还是有不少注意计算模型已经被直接引入具体应用中,并产生了一些可行的算法或系统,主要针对具体应用任务展开[27-30]。可以说,实际应用的急切需求很大程度地推动着相关研究的快速发展。
随着信息技术的发展,图像成为一种主要的信息载体。越来越多的图像数据给人工处理和浏览造成了不便。众所周知,人类在感受外界信息时,并不是对所有信息一视同仁的,大脑会选择性地处理输入信息,视觉感知过程中对外界信息表现出注意程度差异性。这种具有选择性的视觉注意机制是人类视觉加工过程中的一项重要的心理调节机制,它在视觉感知过程中能够实现信息过滤,使受注意程度高的信息进入高层感知过程。如果能够将这种机制引入图像分析和理解领域,将计算资源优先分配给那些容易引起观察者注意的区域,将极大地提高现有视觉信息内容分析方法的工作效率,将视觉注意机制引入到图像检索中是必要的、可行的和重要的。
在图像分析与理解中,显著区域通常仅是图像中的一小部分。所谓显著区域,也可以理解为图像中的主要目标,是人的视觉能够在很短的时间内将注意力集中到图像中某个能激发人们兴趣的区域。图像检索中,由于图像背景通常占据了图像的较大部分,在提取图像特征的过程中,对图像中主要目标的特征造成了一定影响。在提取图像显著区域之后再进行图像检索,从图像的显著区域入手,该方法更加有利于基于内容的图像检索。此外,注意是低层视觉和高层视觉之间的桥梁,输入和输出相对简单,其分析过程停留在视觉属性层,不涉及复杂的语义分析,因此是可行的。
3.2.1 图像视觉显著性的3个层次
图像内容的描述和抽取是图像理解的根本目的,也是视觉信息显著性处理的核心输出。图像内容的含义容易理解却十分抽象,难以充分描述,简单地说,就是图像信息中那些实质性的或有意义的能够被人理解的部分。图像内容的描述本质上是一种信息抽象化和结构化的过程,也就是对图像信息从低层到高层进行处理、分析和理解的过程。
图像的静态视觉显著特性可分为3类,即建立在局部特征度量之上的局部显著性、建立在全局性结构信息度量之上的全局显著性和建立在某个单特征之上并描述其全局或局部特殊性的特征显著性。视觉显著性的图像描述形式一般可分为由低到高的3个层次,即显著图、注意焦点和显著区域。一般显著图可以通过对简单图像特征的显著性度量来获得,然后依据显著图空间竞争产生注意焦点,再由注意焦点“种子”生长或感知群组获得显著区域。Koch和Itti首先提出了基于特征对比度的空间显著图概念和经典的选择性注意结构模型[5],并形成了比较详尽的注意计算模型。
3.2.2 图像视觉显著性的选取
特征提取和显著性分析是实现视觉注意力模型的两个关键问题。已有大量认知心理学者对有关影响视觉注意程度的因素进行了研究,多数学者认为,影响视觉注意程度的因素可分为低层视觉特征和高层因素[31-32],列举了其中一些主要因素,如表1所示。
表1 影响视觉注意程度的主要因素
根据任务特点选择少量的有效的图像特征参与处理,不但可以降低计算量,而且可以提高准确性。其次,需要建立一个灵活开放的具有可扩展性的特征提取机制,通过特征库控制和存储各种各样的简单图像特征,根据任务需求选择最佳的特征子集参与简单图像特征提取,也可以根据图像信息处理结果调整对各个特征项的评价。此外,面向早期视觉特征的表述的需要,简单图像特征的选择和设计还需要着重考虑以下几个问题:
1) 选择多层次的特征。图像对象的层次性必然导致图像特征的层次性,这里不妨将图像特征划分成两类:一类是可以从图像中直接提取的简单特征,包括像元特征(如单像元的亮度、颜色、方位等)、邻域特征(如像元邻域的梯度、方向、频率等);另一类是无法从图像中直接提取的简单特征,包括区域特征(如单区域的曲直、形状、尺寸等)、区域集特征(如区域集的数目、缝隙、平行等)、目标特征(如目标的连接、包含、相交等)、场景特征(如图像中所有目标的集合和关系)。
2) 需要多特征的合并和组合。一个图像对象的视觉属性往往是多方面的,这必然导致其图像特征的多样性。因此,要全面、准确地描述一个图像对象,就需要针对其各个方面的视觉属性选择多种简单图像特征。同时,随着图像层次的增长,图像对象的信息量增大,复杂度也会增加,这也使得其视觉属性的类型也随之增多,而且这种增多是具有继承性的。所以,简单图像特征的提取需要同时考虑多特征提取和多特征组合。
3) 选择可以从图像直接提取和方便计算的简单图像特征。在图像信息处理中,传统的普通图像特征为信息理解过程提供数据支持,而简单图像特征则为信息选择过程提供数据支持。
3.2.3 图像特征的显著性度量
如何度量各个候选对象的视觉显著性是显著区域检测过程中的核心环节。如果将视觉显著性也看作是图像对象的一种视觉属性,那么,度量图像对象的视觉显著性实际上就是在提取其显著性特征,方法大致可以划分为3种类型。
1) 内部提取法:该方法从候选对象内部提取显著性特征,它认为,视觉显著性的产生是由于视觉对象本身具有某种能够引起观察者注意的特殊属性。例如:像元邻域的对称性特征[33-34]、像元邻域的复杂性特征[35]、像元邻域不一致性特征[36],可以将这些特征称为自显著特征。
2) 外部提取法:该方法从候选对象与外界的比较中提取显著性特征,它认为,视觉显著性的产生是由于视觉对象与外界通过某种对比形成了能够引起观察者注意的新异刺激。有的用候选对象与周边范围比较产生的差异值或差异矢量来描述显著性,如:基于 DOG算子的亮度差[37]、基于 LOG算子亮度、梯度和曲率差异[38]、基于“中心一周边”算子的特征差异[39]。有的用候选对象与整幅图像比较产生的差异值或差异矢量来描述显著性,例如:边缘密度差异[40]、基于进化规划的形态差异[41]、基于错分概率的空间密度显著性[41]。
3) 综合提取法:该方法将上述自显著特征和互显著特征结合起来作为候选对象的显著性特征。例如:通过尺寸、形状、方位这些自显著特征和对比度、前景/背景这些互显著特征描述分割区域的显著性[43];通过分割区域在颜色、纹理、形状上的多种自显著特征和互显著特征描述其显著性[44];通过对称性、方向、边缘和对比度等多种特征描述像元邻域的显著性[45]。
实际上,除了上述由特征提取本身驱动的显著性度量机制外,外部意图系统对视觉显著性的度量也发挥着重要的引导和调制作用。
关于视觉显著性检测技术的研究是认知心理学的研究者首先展开的。随着计算机处理能力的迅速提升,视觉显著性对图像内容无与伦比的高效感觉和认知能力重新得到信息处理领域的关注。虽然视觉注意和图像处理都是各自领域的传统问题,但是两者的结合无论对于心理学,还是对于信息科学,都是新的研究方向,需要面对和解决的问题还很多。下面是重点研究问题。
1) 早期视觉特征的选择和提取:哪些早期特征能对视觉产生基础而强烈的刺激?如何快速地提取、度量和选择不同尺度的视觉特征?如何选择和组合多种图像特征对视觉显著性的贡献?如何区别和融合静态和运动特征对视觉显著性的影响?
2) 显著性度量:主要度量方法有内部提取法、外部提取法和综合提取法。除了由特征提取本身驱动的显著性度量机制外,外部意图系统对视觉显著性的度量也发挥着重要的引导和调制作用。
3) 注意焦点的检测和选择:注意焦点的计算过程主要有自底向上和自顶向下的两种处理模式,计算速度是需要优先考虑的因素,如何快速地选择注意焦点是至关重要的。
4) 算法设计和实验平台建设:有关算法的设计通常可以首先选择某种传统算法,然后利用注意焦点对其进行调整,从而获得新的算法流程;也可以建立相对统一的由视觉显著性驱动的图像处理的框架模型,然后针对具体的任务需求对框架中的个别模块加以定制或扩展。
5) 现有模型的主要不足之处是:一是没有考虑和识别结合,二是现有模型的注意结果都是用指定大小的一个形状(通常用圆)来表示当前的注意区域,没有进行局部最佳尺度选择。
[1] Broadbent D E.Perception and communication[M].New York:Oxford University Press,1958.
[2 ] Neisser U.Cognitive psychology[M].New York:Appleton-Century-Crofts,1967.
[3] Charles E,Connor H E,Egeth S Y.Visual attention:bottom-up versus top-down[J].Current Biology,2004(14):850-852.
[4] 周建中.返回抑制研究的新进展[J].心理科学,2003,26(2):326-329.
[5] Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Trans on Pattern A-nalysis and Machine Intelligence,1998,20(11):1254 -1259.
[6] Koch C,Ullman S.Shifts in selective visual attention:towards the underlying neural circuitry[J].Human Neurobiology,1985,4(4):219-227.
[7] Deutsch J A,Deutsch D.Attention some the oretical considerations[J].Psychological Review,1963(70):80-90.
[8] Subutai A.VISIT:An efficient computational model of human visual attention[D].California:the University of Illinois Berkeley,1991.
[9] Itti L,Koch C.Computational model of visual attention[J].Nature Reviews Neuroscience,2001,2(3):194 -230.
[10] Benjamin J,Balas P S.Receptive field structures for recognition[J].Neural Computation,2005(18):1 -24.
[11] Baker G,Mertsching B.Two selection stages provide efficient object-based attentional control for dynamic vision[D].Austria:International Workshop on Attention and Performance in Computer Vision 2003.2003:9-16.
[12] Kang Woo Lee,Hilary Buxton,Feng Jianfeng.Cue-guided search:a computational model of selective attention[J].IEEE Transactions on Neural Networks,2003,16(4):910-924.
[13] Navalpakkam V.An integrated model of top-down and bottom-up attention for optimizing detection speed[D].Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006.
[14] Timor K,Michael B.Saliency,scale and image description[J].Internatioanl Journal of Computer Vision,2001,45(2):83-105.
[15] Itti L,Braun J,Koch C.Single-filter gain changes and attentional threshole modulation[J].Investigative Opthalmology and Visual Science,2000(41):4,39.
[16] Itti L,Koch C.Saliency– based search mechanism for overt and covert shifts of visual attention[J].Vision Research,2000(40):1489-1506.
[17] Jonathon S H.Saliency for image description and retrieval[D].Faculty of Engineering,Science and mathematics School of Electronics and Computer Science,2006:4.
[18] Hu Yiqun,Deepu Rajan,Liang-Tien Chia.Robust subspace analysis for detecting visual attention regions in images[M].New York:Proceedings ACM Multimedia,2005.
[19] Liu Feng,Michael Gleicher.Region enhanced scaled-invariant saliency detection[D].Toronto,Canada:IEEE ICME 2006,2006.
[20] Liu Tie,Sun Jian,Zheng Nan-ning,et al.Learning to detect a salient object[C].CVPR2007,USA,2007.
[21] Radhakrishna Achanta,Francisco Estrada,Patricia Wils,et al.Salient region detection and segmentation[M].ICVS2008.[S.l.]:Springer Berlin,2008.
[23] Viswanath Gopalakrishnan,Hu Yi-qun,Deepu Rajan.Salient region detection by modeling distributions of color and orientation[J].IEEE Transactions on Mullimedia,2009,11(5):892 -905.
[24] 王璐,陆筱霞,蔡自兴.基于局部显著区域的自然场景识别[J].中国图象图形学报,2008,13(8):1594-1616.
[25] 田媚,罗四维,黄雅平,等.基于局部复杂度和初级视觉特征的自底向上注意信息提取算法[J].计算机研究与发展,2008,45(10):1739 -16746.
[26] 杨俊.图像数据的视觉显著性检测技术及其应用[D].北京:国防科学技术大学,2007.
[27] 王岳环,张天序.基于视觉注意机制的实时红外小目标预检测[J].华中科技大学学报,2001,29(6):7-9.
[28] 张鹏,王润生.基于视觉注意的遥感图像分析方法[J].电子与信息学报,2005,27(12):1855-1860.
[29] 叶聪颖,李翠华.基于H SI的视觉注意力模型及其在船只检测中的应用[J].厦门大学学报,2005,44(4):484-488.
[30] 葛涛,冯松鹤.基于层次和动态阈值的图像显著区域检测方法[J].计算机应用,2006,26(11):2721-2723.
[31] Harold Pashler.The psychology of attention[M].Cambridge:MITPress Mass,1998.
[32] Obsberger W.A computational model of the humen visual system for image quality assessment[D].Australia:Queensland University of Technology,1999.
[33] Reisfield D.Constrained phase congruency:simultaneous detection if interest points and their scales[D].San Francisco:Proceedings of the Computer Vision and Pattern Recognition,CA.1996:562-567.
[34] Gesu V D,Valenti C,Strinati L.Local operrators to detect regions of interest[J].Pattern Recognition Letters,1997,18(11):177-181.
[35] Timor Kadir,Michael Brady.Saliency,scale and image description[J].International Journal of Computer Vision,2001,45(2):83-105.
[36] Alexander Dimai.Invariant scene description based on salient regions for preattentive similarity assessment[D].Washingten:Proceedings International Conference on image analysis and Processing1999.1999:957-962.
[37] Wai W Y K,Tsotsos J k.Directing attention to onset and offset of image events for eye-head movement control[J].The International Association for Pattern Recognition,1994(A):274-279.
[38] Ruggero Milanese,Bost J M,Pun T.A bottom-up attention system for active vision[D].Austria:The 10thEuropean Conference on Artificial Intelligence,1992,808-810.
[39] Itti L.Models of botttom-up and top-down visual attention[D].California:California Institute of technology,2000.
[40] Bourque E ,Dudek G,Ciaravola P.Robotic sightseeing:a method for automatically creating virtual enviroments[D].Belgium:Proc.of the IEEE International Conference on Robotics and Automation.1998:3186-3191.
[41] Fred W M.An evolutionary programming approach to the simulation of visual attention[D].Korea:Proc of the 2001 IEEE Congress on Evolutionary Computation,2001:851-858.
[42] Walker K N,Cootes T F,Taylor C J.Locating salient facial features using image invariants[C].Japan:Third International Conference on Automation Face and Gesture Recognition,1998:242-249.
[43] Grossberg S.The lind between brains,learning,attention and consciousness[J].Consciousness& Cognition,1999(8):1-44.
[44] Jiebo Luo,Cheng en Guo.Non-purposive perceptual region grouping[J].Proceedings 2002 International Conference on Image Processing.2002,2(2):749-752.
[45] Privitera C M ,Stark L W.Algorithms for defining visual regions of interest:comparison with eye fixations[J].IEEE Transactions on Pattern Analysis and Machine Intelligence.2000,22(9):970 -982.
Study of Image Retrieval Based on Vision Attention Mechanism
LIANG Ye,LIU Hong-zhe
(Institute of Information Technology,Beijing Union University,Beijing 100101,China)
Image information is increasing very fast with the development of information technology.How to find important information is always a critical problem in computer vision and information process study.High retrieval efficiency will be achieved if visual attention mechanism is adopted.Firstly,visual attention mechanism,visual attention computing model and the art state are introduced.Secondly,the need and importance of visual saliency in image are analyzed.In addition,the levels,extraction and measurement of visual saliency are discussed in detail.At last,open problems are put forward.
visual attention model;visual saliency;CBIR
TP 391.4
A
1005-0310(2010)01-0030-06
2009-11-11
国家自然科学基金项目资助(60972145)
梁晔(1978—),女,内蒙古赤峰人,北京联合大学信息学院讲师,硕士,从事图像检索和本体的研究;刘宏哲(1971—),女,河北涿州人,北京联合大学信息技术研究所讲师,博士生,从事语义网和本体的研究。
(责任编辑 李亚青)