基于仿真假体视觉的图像识别研究进展

2011-01-26 07:44史静茹陆燕玉顾柳君柴新禹
中国医疗器械杂志 2011年3期
关键词:图像识别图像处理假体

【作 者】史静茹,陆燕玉,顾柳君,柴新禹

上海交通大学生命科学技术学院生物医学工程系,上海,200240

作为人类最为重要的感官,视觉为人类提供了超过80%的外界信息,因此失明通常被认为是人类最严重的残障。据世界卫生组织2002年报告,全球视觉残疾人1.4亿,其中4500万为盲人,我国约有550万盲人。视网膜色素变性(Retinitis Pigmentosa, RP)、老年性黄斑病变(Age-Related Macular Degeneration,AMD)是主要的不可治愈的致盲疾病。传统药物治疗仅能减缓病程,若采用视网膜色素上皮细胞移植等方法也存在免疫排斥等问题,所以至今为止还未能有彻底治愈的疗法。随着现代科学技术的发展,新兴的电子科学和计算机技术得到广泛应用,生物医学工程、仿生学等各个学科领域不断进展,人工视觉假体成为当今国际上对RP和AMD患者进行视觉修复的研究热点。

视觉假体是利用大多数盲人仅视觉通路的某一部分发生病变,而其余部分神经组织的结构和功能尚且完好,通过对视觉通路完好部位的神经组织施加特定的人工电刺激而诱发出“光幻视”,使盲人产生视觉感受。近年来,国际上多个团队深入地开展了视觉假体的研究工作[1-4],已经在临床实验上通过电极刺激成功诱发光幻视,使失明患者获得光感。但是,视觉假体的研究目前还处于临床实验阶段,参与实验的志愿者数量还很少,难以广泛开展在体研究,而且,受到电极制造技术的限制,用于植入的电极数目非常有限,在研究中无法大范围的调整实验参数。

在人工耳蜗(cochlear implant)听觉感知的研究过程中,心理物理学实验方法曾发挥了重要的作用,人工耳蜗从单通道到多通道的研制成功,就是建立在心理物理学实验基础上的。在视觉假体研究领域,基于仿真假体视觉的心理物理学研究,可为假体视觉的视觉建模和视觉表达提供一种有效的方法。已经有很多研究小组基于这一方法,在假体视觉最小信息需求方面展开研究,例如阅读[5-8],,物体识别[9-10],场景识别[10],眼手协调[11-12]和导航[13-14]等。

在上述基于心理物理学的仿真假体视觉研究中,包括静止图像的识别(物体、场景识别等)和基于实时处理的动态图像识别(眼手协调、导航等)。在假体视觉中,视觉图像是由不连续的光幻视点组成的,即像素化视觉[15]。视觉假体的初期目标并不是将摄像头获得的丰富图像信息全部提供给假体植入者,而是通过数量有限的微电极将其中有用的最小信息提供给患者[16]。

许多问题还围绕在如何最优的使用有限的信息为盲人提供可理解的视觉感受,一个密切相关的问题就是在假体视觉下哪些因素会对图像的识别率产生影响。许多研究小组基于仿真假体视觉开展了相关研究。本文将主要针对心理物理学方面的研究做一个综述。

1 分辨率对图像识别的影响

在现有的研究中,用于人体实验的电极数目非常有限,在视网膜上假体植入实验中先后用到的电极阵列为4 × 4,5 × 5和6×10[3,17-18];视网膜下假体中电极数为1000个左右[19];在视神经假体的植入实验中使用一个电极数为4的cuff电极[2];视皮层假体的电极数为81个[1]。这些有限数量的刺激点,只能形成由光幻视点构成的非常低分辨率的假体视觉。由图1可以看到,分辨率过低时,图像很难识别,随着分辨率增高,图像的信息量增加,可以保留原图的一些形状轮廓特征。

图1 基于仿真光幻视阵列的不同分辨率图像Fig.1 Images of various resolution based on simulated phosphene array

国际上多个小组针对分辨率对图像识别的影响进行了仿真研究。

C h a等人[20]针对皮层视觉假体,使用从100(10×10)到1024(32×32)个点的不同尺寸的仿真光幻视阵列进行了一些研究,他们发现由每个像素点占据1.7o视野的625个(25×25)像素点组成的仿真光幻视阵列可以达到20/30的视觉敏锐度。而且,这些像素点构成的阵列,可提供30o的视野帮助假体植入者在熟悉环境中进行移动。

Boyle等人[21]研究了识别或感知物体及某一场景(如椅子,阶梯等图像)所需的信息量和信息类型,研究表明高分辨率是提高识别率的重要因素。

Dagnelie等人[12]针对视网膜假体,研究了在4×4,6×10和16 × 16分辨率下的物体识别。他们将16个物体按照形状分成4类,经过摄像机获取图像实时处理为仿真光幻视阵列组成的低像素化图像,由正常视力受试者进行描述和识别。结论是:对于实心圆点组成的仿真光幻视阵列表示的图像,能够准确识别物体的分辨率阈值为16×16。

Zhao等人[10]基于仿真假体视觉,研究了在不同分辨率下低像素化的常见物体和简单场景的识别率,随着像素数的增加图像的平均识别准确率呈上升趋势。在32×32分辨率下,不需要先验信息即可准确识别大多数物体。分辨率从16×16增加到24×24时,平均识别准确率增加了三倍。可以看出,常见物体的识别阈值应该在这两个分辨率之间。随着图像模式复杂度的增加,该阈值也随之增加。对于简单场景而言,其识别的分辨率阈值应该在32×32和48×48之间。

假体视觉的诸多特征中,最容易被注意到的是光幻视的不连续性,与正常视觉中可感知的连续视觉图像不同,植入假体的盲人所感知的图像是由不连续的光幻视点构成的,因此分辨率是影响图像识别的重要因素。提高分辨率可以为盲人提供更多的图像信息,帮助盲人识别图像。以上的诸多研究表明,随着分辨率的提高,图像识别率也会随之显著增高。

2 灰度级对图像识别的影响

灰度对于图像是非常重要的参数。Veraart[2]和Humayun[3]等人的研究表明,植入假体可分辨出不同等级亮度的光幻视点,通常为4到8个亮度等级。同时,一些基于仿真假体视觉的研究[7],[13]也表明,灰度是一个影响实验结果的参数。但是,由摄像头采集的图像通常具有256级或更高的灰度,远远超过目前假体视觉中所能表达的灰度级,这就需要通过图像处理策略来降低图像的灰度级。以256级灰度的图像为例,将其降到2级灰度和8级灰度的效果图如图2所示。可以看出2级灰度图像无法体现图像的细节信息,因此较难识别。

图2 基于仿真光幻视阵列的不同灰度级的低像素化图像Fig.2 Images of various gray level based on simulated phosphene array

Boyle等人[21]的研究结果表明,在不同分辨率(10×10,16×16,25×25)下,三级灰度的图像均比黑白两级灰度的图像具有更高的识别率。

Thompson等人[22]采用像素化视觉,研究了灰度对面部识别的影响。他们比较了2、4、6和8四级灰度的面部识别率,如果假体装置可以产生由4个灰度级以上的光幻视点组成的图像,可大大提高识别率。

有研究表明,通过调节电极阵列的刺激参数可以调整光幻视的亮度,从而实现图像的多级灰度[23-24]。多级灰度可以为图像提供更加丰富的信息,有效提高图像识别率,因此在视觉假体的图像处理过程中,可以保留图像的部分灰度信息,帮助盲人识别低像素化的图像。

3 边缘提取对图像识别的影响

边缘是图像最基本的特征。所谓边缘是指图像周围像素灰度有阶跃变化或屋顶状变化的像素的集合,一般存在于目标与背景、目标与目标、区域与区域、基元与基元之间。基于边缘对于图像的重要性,研究人员希望可以将边缘检测算法应用于视觉假体的图像处理过程中,利用有限的电极数目,为植入假体的盲人提供更为重要的图像信息。图3是低像素化图像及其边缘图的示意图(Sobel算法)。

图3 基于仿真光幻视阵列的低像素化图像及经边缘提取后的图像Fig 3 Low resolution image and edge extraction image based on simulated phosphene array

目前,在视觉假体图像处理中,用到的边缘提取算法主要有Sobel 和Canny 算子[25]。Sobel 算子强调空间频率高的区域对应于边缘,用来进行图像二维空间的梯度测量。Canny 算子是John F. Canny 于1986年开发出来的一个多级边缘检测算法[26],该算子能够尽可能多的标识出图像中的实际边缘。从计算复杂度的角度而言,Canny 算子较Sobel 算子更为复杂。然而,在Dowling 等人[27]的研究中发现,两种算法在基于仿真假体视觉的图像处理算法研究中并没有显著性的差异。

Zhao等人[10]讨论了日常生活中影响物体和场景图像识别的主要因素。他们采用二值化阈值和边缘提取两种图像处理方法和两种常用像素点形状(方形和圆形),在6种分辨率(8 × 8,16 × 16,24 × 24,32 × 32,48 × 48和64 × 64)下研究图像识别的情况,表明在较低分辨率时,不同图像处理策略显著影响着识别的结果。边缘提取方法可以将物体的轮廓提取出来,但其只是图像的局部信息[28],而采用二值化阈值和膨胀算法,可以保留图像中物体的主要部分。由于局部信息会在接近识别阈值分辨率时扭曲得较为严重,而膨胀算法在低分辨率情况下可以保留物体的形状和特征,从而更适合应用于视觉假体。

与此不同的是,Boyle等人[21]研究了识别或感知物体及某一场景(如椅子或阶梯等图像)所需的信息量和信息类型,他们得出边缘提取对图像的识别率并没有帮助。

以上研究结果的差异可能源于采用的算法不同,以及用于识别的物体和场景不同,因此对于边缘提取这一基本的图像处理策略在视觉假体领域的应用还应进行进一步的深入研究。假如经过边缘提取的图像其识别率并没有显著的下降,那么在未来假体装置中为盲人提供经过边缘检测的图像将大大减少需要施加刺激的电极数目,从而节省电能消耗及很多未知的由电刺激带来的组织损伤。

4 特征整合模型对图像识别的影响

视觉注意(Visual Attention)是人类视觉的一项重要的心理调节机制[29-32]。视感觉过程所提供的信息量,远大于视知觉过程所能处理的信息量,将这两个严重失调的过程联系起来的桥梁就是视觉注意机制。人类视觉系统会根据图像本身的特性,以及有关场景、目标和其关系的知识,选择和过滤视觉信息[33]。但是,摄像机与人眼的视觉功能不同,只能将外部信息客观的反映出来,盲人无法利用视觉注意机制选择有用的信息。研究人员希望可以在图像处理中依照视觉注意机制确定感兴趣区域,再对图像进行进一步的信息提取和离散化显示,从而充分利用有限数目的光幻视点呈现图像中的重要信息,提高图像的识别率。

Li等人[34]提出了一个应用于假体视觉的图像处理模型,依照现有的视觉处理机制和选择注意机制原理,对场景进行分析,找到图像的“突出区域”(prominent area)进行处理,通过仿真实验评估这一模型的有效性。仿真实验的评估结果表明,特征提取模型可以有效地突出显示人体视觉的感兴趣特征,经过模型处理的图像识别率要高于未经此法处理的图像识别率。

图4 数码变焦示意图[35]Fig 4 Image preparation for digital zoom[35]

Boyle等人[35]也基于视觉注意机制的原理,研究了应用于假体视觉的图像处理算法。他们将多种提取图像感兴趣区域(region-of-interest)的算法应用于低像素化图像中,利用正常视力受试者进行实验,经比较得出,利用数字变焦(如图4)提取感兴趣区域进行局部显示的方法要比显示整幅图并凸出感兴趣区域的方法更好。他们使用了两种数字变焦的感兴趣区域的提取算法:一是Trim method,通过设定阈值,对IM图像(importance map,结合图像的多种特征,计算图像不同区域的重要性值,形成特征整合图)选取高于阈值的区域作为感兴趣区域;二是scope box method,通过一个包含IM最高灰度级的128×128的窗口对256×256得到IM图像进行逐像素扫描,得到的感兴趣区域为原图的1/4。比较得出,前一种算法优于后一种算法。此实验还表明,调整特征值权重及直方图均衡化,对低像素化图像的显示没有帮助。

视觉假体利用非常少的信息量为盲人提供部分有效视觉,因此通过视觉注意机制来去除图像中的冗余信息,保留对盲人有用的图像信息,在视觉假体研究中具有重大意义。引入视觉注意机制,对图像进行特征提取和整合后再进行显示,可以克服由于像素数目不足而引起的对图像识别的影响,使视觉假体装置利用非常有限的电极数为盲人提供最有帮助的视觉图像。

5 总结

视觉假体为失明患者带来了重获视觉的希望,但现有技术的局限性,导致我们无法在视觉感受野内随意诱发光幻视,有限数量的刺激点只能形成由光幻视点组成的非常低分辨率的视觉。许多研究都围绕在如何使用这种低分辨率的视觉,来为假体植入者提供最有效的像素化图像信息方面。研究人员希望通过应用最适合假体视觉的图像处理策略,最大程度优化识别率,为盲人重建视觉。

在视觉假体研究领域,基于仿真假体视觉的心理物理学研究发挥了重要作用,已经得到了广泛的认可,并确实解决了很多问题。本文针对图像识别的影响因素展开讨论,对此方面的心理物理学研究做了综述。这些研究对视觉假体在低象素化图像识别方面具有重要的意义,可以为应用于视觉假体的图像处理策略提供参考,为将来视觉假体的信息处理与编码作个基础和提供理论依据。

[1] Brindley G S. Lewin. W S. The sensations produced by electrical stimulation of the visual cortex[J]. J Physiol, May, 1968, 196 (2):479-493.

[2] Veraart C, Raftopoulos C, Mortimer J T, et al. Visual sensations produced by optic nerve stimulation using an implanted self-sizing spiral cuff electrode[J]. Brain Res, 1998, 813 (1): 181-186.

[3] Humayun M S, Weiland J D, Fujii G Y, etc. Visual perception in a blind subject with a chronic microelectronic retinal prosthesis[J].Vision Res, 2003, 43 (24): 2573-2581.

[4] Dagnelie, G. Psychophysical evaluation for visual prosthesis[J].Annu Rev Biomed Eng, 2008, 10: 339-368.

[5] Sommerhalder J, Rappaz B, de Haller R, et al. Simulation of artificial vision: II. Eccentric reading of full-page text and the learning of this task[J]. Vision Res, 2004, 44 (14): 1693-1706.

[6] Fornos A P,Sommerhalder J, Rappaz B, et al. Simulation of artificial vision, III: do the spatial or temporal characteristics of stimulus pixelization really matter?[J]. Invest Ophthalmol Vis Sci,2005, 46 (10): 3906-3912.

[7] Dagnelie G, Barnett D, Humayun, M S, et al. Paragraph text reading using a pixelized prosthetic vision simulator: parameter dependence and task learning in free-viewing conditions[J]. Invest Ophthalmol Vis Sci, 2006, 47 (3): 1241-1250.

[8] Zhao Y, Lu Y, Zhou C, et al. Chinese character recognition using simulated phosphene maps[J]. Invest Ophthalmol Vis Sci, 2010, In press.?

[9] Boyle J R, Maeder A J, Boles W W. Challenges in digital imaging for artificial human vision[J]. Human Vision and Electronic Imaging Vi, 2001, 4299:533-543.

[10] Zhao, Y. Image processing based recognition of images with a limited number of pixels using simulated prosthetic vision[J].Information Sciences, 2010, 180 (16): 2915-2924

[11] Srivastava N R,Troyk P R, Dagnelie G. Detection, eye-hand coordination and virtual mobility performance in simulated vision for a cortical visual prosthesis device[J]. J Neural Eng, 2009, 6 (3):035008.

[12] Hayes J S, Yin V T, Piyathaisere D, et al. Visually guided performance of simple tasks using simulated prosthetic vision[J].Artif Organs, 2003, 27 (11): 1016-1028.

[13] Dagnelie G, Keane P, Narla V, et al. Real and virtual mobility performance in simulated prosthetic vision[J]. J Neural Eng, 2007,4 (1): S92-101.

[14] Cha K, Horch K W, Normann R A. Mobility performance with a pixelized vision system[J]. Vision Res, Jul, 1992, 32 (7): 1367-1372.

[15] Chen S C, Suaning G J, Morley J. W, et al. Rehabilitation regimes based upon psychophysical studies of prosthetic vision[J]. J Neural Eng, 2009, 6 (3): 035009.

[16] Maynard E M. Visual prostheses[J]. Annu Rev Biomed Eng, 2001,3:145-168.

[17].Humayun M S, de Juan E, Jr, Weiland J D, et al. Pattern electrical stimulation of the human retina[J]. Vision Res, Jul, 1999, 39 (15):2569-2576.

[18] Chader G J, Weiland J, Humayun M S. Artificial vision: needs,functioning, and testing of a retinal electronic prosthesis[J]. Prog Brain Res, 2009, 175:317-332.

[19] Zrenner, A. Restoring neuroretinal function by subretinal microphotodiode arrays[J]. ARVO, 2007. Presentation at ARVO,Fort Lauderdale, USA 2007.

[20] Cha K, Horch K, Normann R A. Simulation of a phosphene-based visual field: visual acuity in a pixelized vision system[J]. Ann Biomed Eng, 1992, 20 (4): 439-49.

[21] Boyle J R, Maeder A J, Boles W W. Challenges in Digital Imaging for Arti fi cial Human Vision[A]. In Proceedings of SPIE[C], 2001.

[22] Thompson R W, Jr, Barnett G D, Humayun M S, et al. Facial recognition using simulated prosthetic pixelized vision[J]. Invest Ophthalmol Vis Sci, 2003, 44 (11): 5035-5042.

[23] Henderson D C, Evans J R, Dobelle W H. The relationship between stimulus parameters and phosphene threshold/brightness, during stimulation of human visual cortex[J]. Trans Am Soc Artif Intern Organs, 1979, 25(1): 367-371.

[24] Schmidt E M, Bak M J, Hambrecht F T, et al. Feasibility of a visual prosthesis for the blind based on intracortical microstimulation of the visual cortex[J]. Brain, 1996, 119 ( Pt 2):507-522.

[25] Snaith M, Lee D, Probert P. A low-cost system using sparse vision for navigation in the urban environment[J]. Image Vision Comput,1998, 16 (4): 225-233.

[26] Canny J F. A computational approach to edge detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1986, 8(6): 679-698.

[27] Dowling J, Maeder A, Boles W. Mobility enhancement and assessment for a visual prosthesis[A]. In Proceedings of SPIE:Medical Imaging[C], San Jose CA, USA, 2004; 780-791.

[28] Privitera C M, Stark L W. Algorithms for de fi ning visual region of interest: comparison with eye fixations[J]. IEEE T Pattern Anal,2000, 22 (9): 970-981.

[29] Yantis S. To see is to attend[J]. Science, 2003, 299 (5603): 54-56.

[30] Kanwisher N, Wojciulik E. Visual attention: insights from brain imaging[J]. Nat Rev Neurosci, 2000, 1 (2): 91-100.

[31] Wolfe J, Horowitz T S. What attributes guide the deployment of visual attention and how do they do it?[J]. Nat Neurosci, 2004, 51-57.

[32] Itti L, Koch C. Computational modeling of visual attention[J]. Nat Neurosci, 2001, 2 194-2203.

[33] Walther D, Rutishauser U, Koch, C, et al. On the usefulness of attention for object recognition[M]. Czech, 2004.

[34] Li R N, Zhang X D, Hu G S. A computational pixelization model based on selective attention for artiricial visual prosthesis[J].Advances in Natural Computation, Pt 3, Proceedings, 2005, 3612:654-662.

[35] Boyle J R, Maeder A J, Boles W W. Region-of-interest processing for electronic visual prostheses[J]. Journal of Electronic Imaging,2008, 17 (1): Journal of Electronic Imaging 17(1), 013002 (Jan–Mar 2008)

猜你喜欢
图像识别图像处理假体
当归六黄汤治疗假体周围骨折术后低热疑似感染1例
人工智能辅助冠状动脉CTA图像处理和诊断的研究进展
组配式与一体式股骨假体联合转子下短缩截骨治疗Crowe Ⅳ型DDH的疗效比较
基于Resnet-50的猫狗图像识别
基于ARM嵌入式的关于图像处理的交通信号灯识别
高速公路图像识别技术应用探讨
基于图像处理的机器人精确抓取的设计与实现
图像识别在物联网上的应用
机器学习在图像处理中的应用
图像识别在水质检测中的应用