黑环环,吴惠琴
2017/2019年,人工智能(artificial intelligence,AI)连续三次被写进政府工作报告,随着“健康中国”战略的提出,“人工智能+医疗”迅速被推上“快车道”。在眼科领域,眼科疾病患病人数随着人口老龄化正在不断增加,很多情况下,早期发现并及时干预可以预防失明。传统的眼科诊断依赖医生的经验和专业知识,而我国眼科医生不足这一短板暴露日益明显。眼科诊断很大程度上依赖于影像学检查,基于深度学习方法的AI可以快速、无创地分析海量数据集的图像信息,并能识别、定位和量化疾病特征。因此,加快AI深入应用到眼科,有可能彻底改变现有的疾病诊断系统。基于图像识别的医学辅助诊断系统有助于大规模人口疾病筛查,提高临床工作效率,为缓解医疗资源短缺提供了新途径。本文围绕AI的发展历程及其在眼科的应用现状进行综述,指出潜在挑战并对应用前景进行展望。
AI是一门用于研究如何利用计算机实现从人类思考的角度去决策事物的新的技术科学,集合了计算机科学、哲学、数学、逻辑学等多学科交叉的前沿科学[1]。“人工智能”这一术语最早于1956年由麦卡塞、明斯基等学者在达特茅斯会议上提出,他们共同探讨机器模拟智能的相关理论和原理,为AI的发展奠定了基础,但进一步研究发现实际操作中遇到的挫折远远超出他们的预想,AI的发展进入第一次低谷;80年代初,医学专家系统高速兴起,随后人们发现其应用领域较为狭窄且维修费用高,AI的发展进入了第二次低谷;1997年,“深蓝”机器人击败世界象棋冠军卡斯帕罗夫,AI的发展再一次被人们提上日程。经历三次高潮,两次低谷后,随着大数据的储存及科研人员的不懈努力,目前AI正处于快速发展期[2-3]。人工智能机器学习(machine learning,ML)的基本方法是通过开发从数据中提取通用原则的算法数学模型,训练数百万张带注释的图片数据库分析总结规律,对新的数据进行预测[4]。随着图形处理单元的出现,数学模型的进步,大数据集和低成本传感器广泛使用,ML的一个新的子领域——深度学习(deep learning,DL)迅速崛起,DL主要有卷积神经网络(convolutional neural network,CNN)和人工神经网络(artificial neural network,ANN)。ML和DL的总体潜力包括筛查、诊断、分级以及指导治疗[5]。DL核心思想是神经网络,不仅可以作为分类器,还可以作为特征提取器。因此,单个深度神经网络可以同时执行这两种任务,并且可以学习联合提取适合于给定分类问题的特征并对其进行分类。这种深度网络允许完全端到端的训练,直接从输入信号中识别输出类别[6]。最适合成像数据的深度学习结构是CNN,CNN编码神经元之间的连接模式,卷积数字滤波器使单个神经元只处理其接收子域的数据,并模拟其对视觉刺激的响应,处理图像过程中的滤波器叠加在一起,创建越来越多的描述性和复杂的特征检测器,经过大量带注释数据集的训练,CNN允许计算机识别视觉模式[7]。
2016-09,英国John Radcliffe医院的Robert MacLaren教授通过操纵杆和触摸屏操作机器人剥除了患者Bill Beaver右眼黄斑部厚度仅0.01mm的视网膜前膜,此台Preceyes机器人主刀完成眼内手术的治疗方式尚属世界首例。随后需要解剖黄斑部视网膜前膜或内界膜的12例患者被随机分配到机器人手术组和传统手术组,该团队评估了手术成功率、手术持续时间和视网膜微创程度作为安全性的替代指标,机器人手术组和传统手术组的手术结果同样成功,两组差异无统计学意义。试验第二阶段,该团队在局部麻醉下使用机器人在玻璃体内注射重组组织纤溶酶原激活物治疗视网膜下出血,计划借助眼内手术机器人系统将基因治疗或细胞治疗精确微创地作用于视网膜[8]。随着智能传感器被引入以增强机器人系统的基本功能,系统很可能在特定的程序步骤中从机器人辅助演变为半自主手术。机器人技术在眼科仍处于起步阶段,但正迅速发展到将其引入日常眼科实践的阶段,其最有可能首先被引入到要求苛刻的玻璃体视网膜手术中,然后是眼前段手术中的应用[9]。
近年来,我国糖尿病患病人数已超过1亿,糖尿病视网膜病变(diabetic retinopathy,DR)占糖尿病患者的24.7%~37.5%,糖尿病病程10~14a者26%发生DR,病程15a以上者占63%[10],早筛查、早诊断、早治疗能有效缓解视力不可逆性的损害。我国是人口大国,现阶段仍有大量DR患者得不到有效的眼科检查和治疗,导致视力逐渐下降。伴随着AI识别技术的兴起,有望从数量和质量上解决DR的早期筛查难题。
朱江兵等[11]利用计算机视觉算法建立检测DR特征(微血管瘤、硬性渗出、棉绒斑、小出血点、新生血管等)的自动识别系统,数据集选用Messidor数据库中1200张眼底图片,由一位20a资历的眼底病专家验证检测结果,灵敏度93.8%,特异度94.5%。Gulshan等[12]创立以CNN为基础的深度学习算法检测系统对12万张DR眼底彩照进行识别,灵敏度87.0%~97.5%,特异度90.3%~98.1%。其在高灵敏度和高特异度两个操作切入点分别得到验证,为实际筛查工作灵活调控提供保障。王嘉良等[13]针对传统CNN识别照片尺寸固定,照片杂质,对细微目标检测困难等问题,提出算法中加入特征金字塔(feature pyramid networks,FPN)结构,升级残差网络(residual networks,resNet)为ResNeXt,修改区域生成网络(region proposal network,RPN),建立优化后的基于目标检测的全卷积神经网络(region-based,fully convolutional networks,R-FCN)算法识别模型,以3998张眼底照片作为识别DR五级分类的测试集,结果优化后的R-FCN检测准确率(92.92%)高于原始R-FCN、Faster R-CNN和VGG-16算法,以200张照片作为病变标注的测试集,结果优化后的R-FCN在识别小目标病变区域的准确性较原始R-FCN和Faster R-CNN高,显著降低了漏检率,更有益于辅助临床诊断。Takahashi等[14]利用改进的GoogLeNet深度学习神经网络对4907张后极照片进行了分级,准确率为96%,摄影训练集采用每只眼睛拍摄的4个45°视野彩色眼底照片,包括眼底镜上通常看不到的视网膜区域,该AI系统不仅用于DR分级还可以直接建议治疗和预测预后。
青光眼是一组以视神经凹陷性萎缩和视野特征性缺损为共同特征的病变,是全球第二大潜在致盲眼病。世界卫生组织(WHO)预测,到2020年我国青光眼患者将达2182万,即使给予标准治疗,20a内至少27%的患者单眼失明[15],因此早期诊断青光眼具有重要临床意义。AI诊断青光眼主要应用在检测视盘、视网膜神经纤维层(retinal nerve fiber layer,RNFL)厚度和视野(visual field,VF)等方面。
Kucur等[16]研究多尺度空间信息30°视野下采用CNN分类器对早期青光眼识别计算平均精度(average precision,AP)评分性能。训练CNN分离器识别视野中的决策信息,计算平均缺陷(mean defect,MD)、损失方差平方根(square-root of loss variance,SLV)、MD+SLV和不使用卷积特征的神经网络(neural network,NN)的AP得分,CNN在所有测试集中AP始终保持较高水平(0.874±0.095),表明该完全自动化的CNN识别不同区域大小的空间信息具有更高的分类性能。Wang等[17]提出了一种基于原型分析的无监督AI跟踪VF变化的新方法,训练集选择12 217眼,进行至少5次可靠的VF测量,每次测量间隔至少6mo,随访时间5a。AI将VF分解为16个原型模式随时间进行线性回归,并对397眼进行验证,以3位青光眼专家评价为参照标准,原型法的总体准确率(77%)显著优于应用进展期青光眼干预研究(Advanced Glaucoma Intervention Study,AGIS)评分(52%)、协同初始青光眼治疗研究(Collaborative Initial Glaucoma Treatment Study,CIGTS)评分(59%)、平均偏差(mean deviation,MD)斜率(59%)和点态线性回归(permutation of pointwise linear regression,POPLR)排序(60%)方法的准确率。Devalla等[18]研发的深度学习算法可以对视盘、RNFL+筛板、视网膜色素上皮(RPE)、脉络膜和视盘周围巩膜进行数字染色,并自动测量其结构参数。各组织灵敏度、特异度、准确率平均分别为0.92±0.03、0.99±0.00、0.94±0.02,为青光眼的诊断提供了非常高的可靠性和准确性。Asaoka等[19]构建的DL模型,利用SD-OCT图像中8×8网格黄斑RNFL厚度和神经节细胞层厚度的输入特征来诊断早期青光眼,结果表明,采用DL模型的准确率为93.7%,随机森林(RF)分类器和支持向量机(support vector machine,SVM)分类器的准确率分别为82.0%和67.4%,因此使用SD-OCT的DL模型可以显著提高诊断性能。
随着全球人口的老龄化,白内障的发病率不断增加,占全球盲人的46%[20],因此防治白内障盲是防盲领域的主要工作。临床诊断白内障主要是裂隙灯下观察晶状体混浊程度结合矫正视力,但在大规模人群筛查时,需要眼科医生的专业知识,潜在成本可能使筛查工作变得困难,若结合AI辅助下的白内障诊断工具,有利于筛查工作顺利进行。
Xu等[21]提出利用CNN自动分类器对正常、轻度、中度、重度共1200张白内障眼底图像进行识别和分级,以血管和视盘的清晰度作为参考,平均准确率为81.86%,并利用反卷积神经网络(DN)从中间层特征变换可视化分析CNN如何逐层表征白内障。Gao等[22]提出一种基于视频学习的VeBIRD白内障超声乳化吸除术合并人工晶状体植入术智能识别与决策系统,选择了与K近邻分类器(KNN)相比性能较好的SVM分类器(准确率96.3%)作为VeBIRD镜头核硬度分类器,该系统对测试集在眼睛检测、探针跟踪、白内障分级的准确率达92%,识别晶状体核硬度自动控制释放能量,有望使超声乳化术简单化,促进手术推广。Yang等[23]提出基于集成学习的方法来提高白内障诊断的准确性。从每个眼底图像提取小波、草图和纹理独立的3个特征集,每个特征集建立SVM和反向传播神经网络学习模型,集成分类器对白内障分类的正确率为93.2%,分级的正确率为84.5%。中山大学中山眼科中心刘奕志教授团队利用深度学习算法建立了先天性白内障人工智能诊疗平台(CC-Cruiser)[24],积累了本院就诊的大量真实临床病例,试验阶段该系统测试了886张眼前节照片,识别准确率为98.87%,在真实临床识别准确率为87.4%,该团队指出机器人医生已达到15a以上眼科专家水平,且机器人几分钟即可出报告,24h不停诊,参与者满意度较高,在真实临床应用具有可行性。
年龄相关性黄斑变性(age-related macular degeneration,ARMD)是一种视网膜退行性疾病,可导致不可逆转的视力丧失。随着年龄增长,RPE层功能障碍,形成新生血管,其结构特点决定必然发生渗漏、出血和纤维化。据统计,75岁以上人群的患病率达40%以上[25]。在人口日趋老龄化的社会环境下,临床迫切需要一个健全的AI系统来大规模筛查无症状的ARMD,以便在眼科专科进一步诊治。
Ting等[26]应用基于VGG-19网络的CNN来训练108558张无黄斑分割的中心凹视网膜图像,经测试验证35948张图像结果显示,灵敏度、特异度、准确率分别为93.2%、88.7%、93.2%。Burlina等[27]在CNN构架方面使用了AlexNet和OverFeat网络,应用AREDS数据集中120656张眼底图像,训练和测试前以18/20的分割率对黄斑区域进行预分割,诊断准确率为94%~96%。基于光相干断层扫描(OCT)能够识别眼底照片上看不到的ARMD迹象如新生血管,Venhuizen等[28]研发的筛选系统在367名个体中验证的灵敏度和特异度都达到了93%以上。
7.1视网膜静脉阻塞导致视网膜静脉阻塞(retinal vein occlusion,RVO)的直接原因可能是僵硬的视网膜动脉压迫静脉,引起视网膜表面出血、渗出和水肿[29]。早期诊断对视力恢复至关重要。Anitha等[30]应用Kohonen人工神经网络对4种不同类型[非增殖性糖尿病视网膜病变(NPDR)、视网膜中央静脉阻塞(CRVO)、中心性浆液性脉络膜视网膜病变、中心新生血管膜]420张视网膜异常图像进行高精度的自动分类,采用绿色通道提取、直方图均衡化和中值滤波作为图像预处理技术,然后进行基于纹理的特征提取。平均灵敏度、特异度、准确率分别为96%、98%、97.7%。Nagasato等[31]应用超宽视野眼底图像CNN训练DL模型,对237张视网膜分支静脉阻塞(BRVO)和176张非BRVO健康眼眼底图像进行训练识别,并与SVM训练的ML模型比较,DL模型诊断BRVO的灵敏度、特异度、阳性预测值、阴性预测值、曲线下面积(AUC)分别为94.0%、97.0%、96.5%、93.2%、0.976,SVM模型的值分别为80.5%、84.3%、83.5%、75.2%、0.857。DL模型在上述参数上均优于SVM模型,DL与超宽视野眼底图像联合应用,可较准确地鉴别健康眼和BRVO眼。
7.2早产儿视网膜病变早产儿视网膜病变(retinopathy of prematurity,ROP)是儿童失明的主要原因,ROP的筛查,无论是直接通过光学显微镜检查还是使用数字眼底摄影评估,都可以识别严重的早期症状,但是由于早产儿人数众多、筛查能力有限,目前ROP致盲的主要负担在中低收入国家。Brown等[32]报道了一个完全自动化的i-ROP DL系统的识别结果,CNN结构应用了Inception-V1和U-Net,该系统诊断ROP准确率为98%,随后的研究发现,i-ROP DL系统还可以为ROP生成一个严重程度评分,显示出对疾病进展、回归和治疗反应的客观监测前景。与同一组由专家按疾病严重程度排序的100张图像相比,该算法对疾病诊断可以达到灵敏度100%,特异度94%的程度。
7.3眼前段异常Mahesh等[33]提出一种利用人眼可见波长(VW)图像诊断人眼前段异常的计算机辅助诊断(CAD)系统,基于循环霍夫变换(CHT)方法对虹膜进行分割,对228张眼前节图像采用SVM算法进行分类,结果准确率为96.96%,灵敏度为97%,特异度为99%。
对于罕见病和临床实践中没有常规成像的常见疾病,如果给AI的训练集太小或不具备代表性,软件不太可能产生准确的结果。由于医生和患者仍然担心AI是“黑盒子”,所以AI在临床的大规模应用还没有开始,在医疗保健中,AI不仅是量化算法的性能,而且是该算法分类疾病的基本特征,揭示AI的本质对提高医生和患者的接受度至关重要。目前国内外没有制定规范的数据集,各筛查团队使用各自构建的数据集,可解释性和可靠性各不相同,且较少在临床实际应用,因此建立标准数据集推动我国AI发展仍是科研者不断研究的目标。
AI在检测许多视网膜疾病方面已经显示出临床可接受的诊断性能。我国是发展中国家,人口基数庞大且老龄化越来越严重,医疗资源短缺,难以做到大规模的疾病筛查,AI表现出的高准确率使其成为最有希望解决这一问题的方案之一。创新和高精密制造技术的发展显著提高了眼科疾病的诊疗技术,“人工智能+医疗”已是大势所趋,相信在可预见的未来,AI可为更多防治性盲和低视力患者提供早期诊疗条件,AI在眼科的应用将是眼科学发展的一个重要里程碑。