傅惟真,王静,陆燕玉,吴昊,柴新禹
上海交通大学生物医学工程学院,上海市,200240
根据世界卫生组织发布的统计报告,截至2010年,全球约有2.8亿人患有由于眼睛疾病或者未经矫正的屈光不正所造成的视力受损,其中约3936万为盲人。在中国,有大约7500万人为视力受损患者,其中盲人数达到820万[1]。致盲原因有多种,在视觉通路(Visual Pathway)上任何一段的损伤都可能会导致失明。视网膜色素变性(Retinitis Pigmentosa,RP)与老年黄斑变性(Age-related Macular Degeneration,AMD)等视网膜病变是造成失明的主要病症,对此,目前仍缺乏有效的治疗措施。近年来视觉假体(Visual Prosthesis)已经成为神经工程领域研究的热点。随着仿生学、神经科学及神经工程、信息科学、生物材料科学及临床医学等综合交叉学科的发展,研究者们开展了视觉修复基础理论和关键科学问题的研究,这将为盲人复明带来希望。
视觉假体按电极阵列的植入位置分为视皮层视觉假体(Cortical Prosthesis),视神经视觉假体(Optic Nerve Prosthesis)以及视网膜视觉假体(Retinal Prosthesis)。其中,视网膜假体是由外置的微型摄像机采集外界图像信息,然后通过信息处理模块把图像信息转换为相应的电刺激模式,多路电脉冲通过微电流刺激器加载于微电极阵列上,通过电刺激视网膜神经节细胞并引起兴奋,进而在视觉中枢产生光幻视(Phosphene),最终修复假体植入者的部分视觉功能。
由于电极制造工艺、能量传输系统、植入体封装和植入电极的安全性等方面的技术局限,现阶段视觉假体的电极数量仍然有限。尽管Humayun等[2]研制的视网膜上假体的电极数量从2002年的16个(Argus I)上升2006年的60个(Argus II),包含250及1000个刺激位点的微电极阵列的假体装置也正在研制中;Zrenner等[3]研制的视网膜下假体的光电二极管数量达到1500个,但是,相对于正常视觉系统中约1.3亿光感受细胞和130万个左右的神经节细胞而言还是非常有限。视觉假体中较少数量的刺激电极也只能诱发有限数量的光幻视点,从而仅能实现低分辨率的视觉感受。
目前,在低分辨率视觉感受的假体视觉情况下,寻找最佳的图像处理策略以优化光幻视阵列所呈现的信息,已经成为视觉假体研究中的一个重要方面。通过相应的图像处理策略将最重要的视觉信息从摄像头所采集的图像序列中提取出来,并在低分辨率的条件下以最优方式呈现给假体植入者,提高其完成日常视觉任务的能力。而基于视觉注意机制模型的图像处理策略能模拟人类视觉注意过程,并有效利用图像中的最主要特征优化所呈现的视觉信息,在一定程度上弥补了低分辨率假体视觉下色彩信息的缺失以及低灰度级等不足,进而提高假体植入者的导航、躲避障碍物[4-5]、物体及场景识别[6-10]等能力。本文主要对仿真假体视觉下基于视觉注意机制模型的图像处理策略以及相关心理物理学的主要研究和进展进行综述。
视觉注意(Visual Attention)是人类视觉的一项重要的心理调节机制,是人类视觉系统根据图像本身的特性以及有关场景、目标及其关系的知识选择、过滤视觉信息的过程[11]。选择性视觉注意机制帮助人类视觉系统在复杂场景中搜索感兴趣的区域(Region-of-Interest,ROI)和目标。选择性视觉注意由自上而下的任务驱动因素和自下而上的数据驱动因素相结合而产生,使人的视觉系统可以迅速感知外界信息[12]。自1972年Eriksen[13]提出关于视觉注意的描述,Posner和Raichle等[14]又从生理学和神经科学的角度研究了选择性注意的大脑成像。随着认知心理学,视觉心理学,信息科学等学科的发展,科学家们能够更加深入得理解人类视觉注意机制,并提出了多种模拟视觉注意机制的计算模型[11,15-19]。
在1985年,Koch和Ullman[20]基于Marr[21]的视觉计算理论提出了视觉注意的第一个计算模型。他们首次提出显著图理论,并引入胜者全取(Winner-Take-All,WTA)机制与抑制返回(Inhibit of Return,IOR)机制对注意的选取和转移过程进行初步探讨与思考。Itti与Koch[19]在1998年率先将视觉选择性注意机制模型的研究工作从建模思想的定性分析提高到了模型化定量计算分析层次。该仿生模型将视觉系统的“中心-外周”(Center-Surround,CS)机制、WTA、IOR和显著图的计算结合在一起,并实现了定量分析。该模型首先提取出输入图像的亮度、颜色和方向信息形成特征图,再采用8层金字塔模型模拟CS机制,在每种特征图内部进行竞争,然后通过线性组合得到总的显著图来引导注意,最后WTA和IOR机制进行注意转移。这个内隐性模型成为了目前视觉选择性注意机制研究领域中较为经典的模型。除了上述的建模思想外,另外还有外显性即引入眼动的选择性注意机制模型,以及自上而下与自下而上驱动相结合的计算模型也逐渐发展起来[15,22-23]。
显著图的生成是选择性注意机制模型中的重点之一。自下而上的数据驱动机制中,图像中物体在预注意阶段通过比较每个位点的特征信息与其周边信息的区别大小来定义显著性[20]。视觉生理实验结果表明,许多动物视网膜中的视椎细胞对颜色信息敏感,而视杆细胞对亮度信息敏感[24]。而方位、边缘信息则能够刺激大脑皮层VI区域[25],这可以利用Gabor 模型[26]来模拟这些方向选择性神经元的反应。因此,较多文献采用颜色、亮度、方向、尺度、大小和运动等初级视觉特征来衡量显著性,如Itti提出的集合亮度、颜色、方向特征的显著性计算,Wolfe提出的GS 2.0模型[15],Li提出的集合对比度、边缘、方向和对称性特征的显著性计算。此外,还有基于信息熵的度量方法来衡量图像中各区域的复杂度[27-28]。
另一方面,科学家们经过视觉生理实验发现了视觉系统的CS机制[29]。视觉生理中将能影响某些特定视神经细胞反应的视网膜区域称为该神经元的“感受野”。许多动物视神经细胞由颜色和亮度信息刺激产生反应的感受野为同心圆的形状,而且如果对该类型感受野的中心和四周施加刺激将引起相反的反应。它有利于动物视觉系统对对比度信息的抽取。这个机制可以用DoG(Difference of Gaussian)模型[30]或者多层金字塔模型[19]来模拟。而神经生理学实验也进一步证实了IOR机制[31],促进了视觉转移控制的建模。
目前视觉假体还不能为植入者提供有效的图像色彩信息,同时,植入者感受到假体视觉的灰度、纹理、等信息与正常视觉相比也不同程度地有所减弱。这使得图像一些重要的特征信息不足以显著到“跳出”(Pop-out)图像。因此,假体植入者无法利用其视觉注意机制快速准确地选择重要的、显著的信息。研究者们希望仿照人类视觉注意机制运用机器算法确定图像中感兴趣的目标,然后对图像进行特征信息提取,增强图像中重要特征信息的显著性,从而能够充分利用有限数量的光幻视点来呈现图像中的重要信息,达到提高图像识别率的目的。许多小组开始研究仿真假体视觉下基于视觉注意机制模型的图像处理策略。
清华大学的Li等[6]提出了一个假体视觉下基于视觉注意机制的低像素化图像处理策略。该算法首先从图像中提取视觉特征中对比度、边缘、方向以及对称性信息。然后对每一个特征信息进行心理物理学实验评估,帮助确定最终显著图中各个视觉特征的权重。最终各个特征通道叠加成显著图,并根据每个点的显著性找出图像中的突出区域。通过以上方法依据突出区域的位置调整图像各部分的分辨率并生成仿真假体视觉下的低像素化图像,越突出的区域分辨率越高。Li等人通过仿真实验平台评估这一模型在物体、室内室场景中的有效性。结果表明,加入权重后的特征提取模型可以有效地找到视觉的感兴趣特征和区域。
Boyle等[7]提出了假体视觉下基于ROI的图像处理策略。他们将六类分别取自海滩、街道、办公室、家、咖啡馆的场景图像和人体上半身图像,在25 × 25分辨率下应用不同的数字变焦(Digital Zoom)图像处理策略,并呈现给被试完成识别任务。分别采用六种不同的ROI放大窗口:(1)重要特征映射图剪裁窗口。首先计算原图的重要特征映射图(Importance Map,IM),即用统计方法确定不同场景中亮度对比度、尺度、形状、中心度、前景与背景对比度、边缘等特征信息的权重,再将特征图根据权重大小重新叠加处理形成IM。然后从IM的最边缘开始逐步根据灰度值剪裁,若灰度值低于最大灰度值95%,则裁去该纵列或横排。(2)重要特征映射图扫描窗口。同样应用了IM,定义一个原图1/4大小的框对IM进行扫描,获得灰度值总和最大的区域即为窗口。(3)显著图剪裁窗口。根据Itti提出的选择性注意机制模型生成的显著图[19]进行剪裁,剪裁方法和(1)相同。(4)最大显著性扫描窗口。仍然选用Itti提出的注意机制模型显著图,窗口的选取方法与(2)相同。(5)中央窗口。选取图像中央大小为原图1/4的窗口。(6)底部中央窗口。选取图像底部居中的区域作为放大窗口,大小为原图的1/4。这六种数字变焦策略与原图进行比较,实验结果表明基于选择性注意机制的显著图剪裁法优于其它方法。
Parikh和Itti[4]在2010年报道了提高运算速度的选择性注意机制改进模型。该自下而上的改进模型选取亮度、色彩饱和度以及边缘信息引导注意,代替了之前的颜色和方向信息。模型共生成18张特征映射图(原始模型为42张图),减少了模型的运算时间。Itti同时用量化方法评估了模型的有效性,在150张场景图片数据库中将模型生成的显著区域与人类注视焦点相匹配得到了较优的结果。简化后的模型在基于TMS320 DM642 的数字信号处理器系统上运行速度达到了1 fps,处理速度远远快于原先的计算模型。希望该模型的进一步优化能够应用到视觉假体的图像处理中,帮助假体植入者完成躲避障碍物和导航等任务。
Van Rheede等[9]基于仿真假体视觉搭建了一套实时的处理系统,该系统可以实现基于眼动的ROI放大和鱼眼放大的图像处理策略。通过视敏度测试、表情识别、躲避障碍物、手眼互动及找路几项视觉任务评估几类策略的有效性。对于视敏度、表情识别任务,结果ROI放大和鱼眼放大处理策略的识别率有显著提高;对于眼手互动任务,ROI方法的准确率也有明显提高。但是,对于找路任务来说,ROI放大和鱼眼放大处理策略完成任务的时间相对均有所增加。结论表明:完成不一样的视觉任务需要不同的有效算法,ROI放大可以更加细节地描述场景,而直接低像素化略组则可以提供更为宏观的场景信息。
视觉假体图像处理策略能够优化低分辨率的假体视觉信息,是目前视觉假体中研究的重要内容。本文系统介绍了仿真假体视觉下基于视觉注意机制模型的图像处理策略研究进展。在介绍视觉注意机制模型的基础上,论述了了其在仿真假体视觉下的应用研究进展。基于视觉注意机制模型的图像处理策略在仿真假体视觉下有助于找到图像中显著性高的目标和区域,提高其完成视觉任务的能力。希望这些图像处理策略能在未来的视觉假体临床中得到广泛应用。
[1]Pascolini D,Mariotti SP.Global estimates of visual impairment:2010[J].Br J Ophthalmol,2012,96 (5):614-618.
[2]Chader GJ,Weiland J,Humayun MS.Artificial vision:needs,functioning,and testing of a retinal electronic prosthesis[J].Prog Brain Res,2009,175:317-332.
[3]Zrenner E.Restoring neuroretinal function by subretinal microphotodiode arrays[C].ARVO,Fort Lauerdale,USA,2007.
[4]Parikh N,Itti L,Weiland J.Saliency-based image processing for retinal prostheses[J].J Neural Eng,2010,7 (1):16006.
[5]顾柳君,王静,陆燕玉,等.仿真假体视觉下的行动能力研究进展[J].中国医疗器械杂志,2012,36 (2):110-113.
[6]Li R,Zhang X,Hu G.A computational pixelization model based on selective attention for artificial visual prosthesis[M]. Advances in Natural Computation.Berlin:Springer,2005.
[7]Boyle JR,Maeder AJ,Boles WW.Region-of-interest processing for electronic visual prostheses[J].J Electron Imaging,2008,17(1):013002-1-12.
[8]Boyle JR,Maeder AJ,Boles WW.Image enhancement for electronic visual prostheses[J].Australas Phy Eng Sci Med,2002,25 (2):81-86.
[9]van Rheede JJ,Kennard C,Hicks SL.Simulating prosthetic vision:Optimizing the information content of a limited visual display[J].J Vision,2010,10 (14),pii:32.doi:10.1167/10.14.32.
[10]史静茹,陆燕玉,顾柳君,等.基于仿真假体视觉的图像识别研究进展[J].中国医疗器械杂志,2011,35 (3):48-52.
[11]Itti L,Koch C.Computational modeling of visual attention[J].Nat Rev Neurosci,2001,2:194-203.
[12]Bergen JR,Julesz B.Parallel versus serial processing in rapid pattern discrimination[J].Nature,1983,303 (5919):696-698.
[13]Eriksen CW,Hoffman JE.Temporal and spatial characteristics of selective encoding from visual displays[J].Percept Psychophys,1972,12 (2):201-204.
[14]Posner MI,Raichle ME.Images of mind[M].New York,US:Scientific American Library/Scientific American Books,1994.
[15]Wolfe JM.Guided Search 2.0 A revised model of visual search[J].Psychonom Bull Rev,1994,1 (2):202-238.
[16]Navalpakkam V,Itti L.An integrated model of top-down and bottom-up attention for optimizing detection speed[C].Proc CVPR 2006:2049-2056.
[17]Walther D.Interactions of visual attention and object recognition:computational modeling,algorithms,and psychophysics[D].California Institute of Technology,2006.
[18]Bamidele A,Stentiford FWM.An attention based similarity measure used to identify image clusters[C].EWIMT 2005,(Ref.No.2005/11099),67-71.
[19]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Trans Pattern Anal Mach Intell,1998,20 (11):1254-1259.
[20]Koch C,Ullman S.Shifts in selective visual attention:towards the underlying neural circuitry[J].Hum Neurobiol,1985,4 (4):219-227.
[21]Marr D,Poggio T.A computational theory of human stereo vision[J].P Roy Soc B,1979,204 (1156):301-328.
[22]Itti L,Koch C.A saliency-based search mechanism for overt and covert shifts of visual attention[J].Vision Res,2000,40 (10-12):1489-1506.
[23]Frintrop S,Backer G,Rome E.Goal-directed search with a topdown modulated computational attention system[M].Pattern Recogn.Berlin:Springer,2005.
[24]Selig Hecht.Vision:II,the nature of the photoreceptor process:a handbook of general experimental psychology[M].Worcester,US:Clark University Press,1934.
[25]De Valois RL,Albrecht DG,Thorell LG.Spatial frequency selectivity of cells in macaque visual cortex[J].Vision Res,1982,22 (5):545-559.
[26]Daugman JG.Two-dimensional spectral analysis of cortical receptive field profiles[J].Vision Res,1980,20 (10):847-856.
[27]Jagersand M.Saliency maps and attention selection in scale and spatial coordinates:an information theoretic approach[C].5th ICCV,1995:195-195.
[28]Ferraro M,Boccignone G,Caelli T.On the pepresentation of image structures via scale space entropy conditions[J].IEEE Trans Pattern Anal Mach Intell,1999,21 (11):1199-1203.
[29]Barlow HB.Action potentials from the frog's retina[J].J Physiol,1953,119 (1):58-68.
[30]Rodieck RW.Quantitative analysis of cat retinal ganglion cell response to visual stimuli[J].Vision Res,1965,5 (12):583-601.
[31]Posner MI,Rafal RD,Choate LS,et al.Inhibition of return:neural basis and function[J].Cogn Neuropsychol,1985,2 (3):211-228.