吴 星,黄烨霖,叶 子,马 彤,陈羽中,王大江
1 解放军总医院第三医学中心 眼科医学部,北京 100039;2 北京鹰瞳科技发展股份有限公司,北京100089
青光眼是主要致盲性眼病之一,早期发现、及时治疗可有效避免青光眼致盲[1-2]。然而,青光眼发病隐匿,绝大多数患者直到进入中晚期发现视功能障碍甚至视力丧失时才就医。因此需要重视青光眼的早期筛查,早期干预可有效减少患者视功能损害。目前我国眼科医生仅4.48万,且存在眼科医疗资源分配不均的问题。现有三级医疗模式下,难以实现青光眼的早期发现、及时转诊、及时治疗。人工智能(artificial intelligence,AI)或许可以辅助解决此困境。近年来,AI逐渐用于眼科医学应用研究,通过计算机硬件、软件对临床数据进行模型训练,以实现疾病的智能诊断和预测。在现有医疗模式下,应用AI模型辅助诊断青光眼病灶是缓解医疗资源匮乏、降低筛查成本的良好策略[3]。在我国青光眼诊断领域,人工智能病灶诊断系统尚处于起步阶段。眼底图像因其方便和相对经济已成为大规模青光眼筛查的一种方法[4-5],本研究应用人工智能识别眼底图像,构建快速无创辅助诊断青光眼病灶的系统,为实现青光眼早期筛查提供思路。
1数据集来源 选取2020年3月- 2021年4月在解放军总医院第三医学中心完成眼底照相的4 000例受检者的8 000张眼底图片,提取年龄、性别、眼底图片构建数据集。对数据进行脱敏处理和数据清洗,去掉与研究无关的、存在过度缺失的变量,并去掉剩余数据中存在明显错误或数据缺失的病例,最终纳入3 779例受检者的6 837张眼底图片。
2眼底图像标注 建立人工阅片小组,利用医学图像标注系统对数据集中所有眼底图像进行分期标注。人工阅片小组专家由3名副高以上职称的眼科专家组成。每张眼底图像由2名眼科专家独立标注青光眼性眼底病灶,若出现相左意见,则由第3名眼科专家负责进行标注复核并出具最终标注结果。所有医师阅片均以国内公认的青光眼视盘损害标准为准:早期,上方或下方盘沿轻度丢失,伴相应部位视网膜神经纤维层缺损(retinal nerve fiber layer defect,RNFLD);中期,上方或下方盘沿明显丢失,伴相应部位RNFLD;晚期,上方、下方、鼻侧或颞侧盘沿明显丢失,伴弥漫性
RNFLD[6]。
标注包含分割标注和分类标注。分割标注包括视杯、视盘及RNFLD区域划分;分类标注包括青光眼分期的单标签分类标注和病灶的多标签分类标注。依据标准,本研究将青光眼分期的标签分为非青光眼、早期青光眼、中期青光眼、晚期青光眼四个类别。病灶的分类标签为局限性RNFLD、弥漫性RNFLD、视盘出血、视杯切迹。最终按青光眼分期的图片数量分为非青光眼1 048张,早期青光眼2 725张,中期青光眼2 277张,晚期青光眼787张。
3人工智能青光眼病灶诊断系统 人工智能青光眼病灶诊断系统包含两部分核心模块。1)分割-分类一体化预测模型:该模型使用的卷积神经网络架构是“分割和分类一体化的多任务学习神经网络”(图1)[7-8]。该网络的输入是长宽均为512像素的RGB眼底图像,使用堆叠的卷积神经网络层进行特征提取后,输入到分割任务和分类任务两个分支中,即可分别得到长宽为512像素的单通道分割结果及类别数为4的分类结果。采用随机抽样法生成训练集和验证集。使用训练集、交叉熵损失函数及反向传播算法进行监督训练得到预测模型后,将眼底图片输入系统中进行识别,输出分割预测结果和分类预测结果,即对眼底图像中的视杯、视盘及RNFLD 3个区域进行分割,且从分类结果判断是否存在局限性RNFLD、弥漫性RNFLD、视盘出血及视杯切迹病灶。
图 1 分割和分类一体化的多任务学习神经网络Fig.1 Multi-task learning neural network integrating segmentation and classification
2)杯盘比计算模块: 计算模块利用分割结果中的视杯区域信息和视盘区域信息,利用图像处理技术得到垂直方向的杯盘比值(图2)。
图 2 杯盘比自动计算模块Fig.2 Automatic calculation module of cup-to-disc ratio
最后将验证集中的图片输入到训练好的人工智能青光眼病灶诊断系统中,将输出结果与专家手工标注结果进行对比,以评估该系统的性能。
4统计学方法 使用R 3.2.4 软件进行统计分析。采用召回率(Recall)、精确度(Precision)、交并比(intersection over union,IOU)、准确度(accuracy)、敏感度、特异性、受试者工作特征曲线下面积(area under the curve,AUC)评估人工智能青光眼病灶诊断系统性能。性能指标为真阴性值(true negative,TN)、真阳性值(true positive,TP)、假阴性值(false negative,FN)、假阳性值(false positive,FP)、金标准中目标的区域(Garea)和预测结果中目标的区域(Parea),根据下述公式计算:
1数据集特征 将纳入本研究数据集中的全部眼底图片,按照训练集∶验证集为6∶4的比例划分为训练集4 102张,验证集2 735张。其构成信息详见表1。
表 1 数据集特征Tab. 1 Characteristics of dataset
2人工智能青光眼病灶诊断系统的分割性能 以专家手工标注结果为金标准,通过训练集的训练后,集中人工智能青光眼病灶诊断系统对分割性能验证结果见表2。可见:1)在视杯分割预测结果上召回率平均为0.837,精确度平均为0.814,交并比平均为0.816,AUC平均为0.874;2)在视盘分割预测结果上召回率平均为0.928,精确度平均为0.926,交并比平均为0.916,AUC平均为0.941;3)在视网膜神经纤维层缺损分割预测结果上召回率平均为0.653,精确度平均为0.612,交并比平均为0.480,AUC平均为0.749。
表 2 青光眼病灶分割性能评估Tab. 2 Diagnostic performance of the artificial intelligent fundus analysis system for segmentation
3人工智能青光眼病灶诊断系统的分类性能评估
以专家手工标注结果为金标准,通过训练集的训练后,集中人工智能青光眼病灶诊断系统对分类性能验证结果见表3。可见:1)在局限性RNFLD病灶预测结果上准确度平均为0.890,敏感度平均为0.896,特异性平均为0.638,AUC平均为0.893;2)在弥漫性RNFLD病灶预测结果上准确度平均为0.950,敏感度平均为0.744,特异性平均为0.961,AUC平均为0.901;3)在视盘出血病灶预测结果上准确度平均为0.966,敏感度平均为0.650,特异性平均为0.967,AUC平均为0.969;4)在视杯切迹病灶预测结果上准确度平均为0.951,敏感度平均为0.794,特异性平均为0.957,AUC平均为0.892。
表 3 人工智能青光眼病灶诊断系统分类性能评估Tab. 3 Diagnostic performance of the artificial intelligent fundus analysis system for classification
4评估青光眼疾病进展中的杯盘比变化 在验证集中通过人工智能青光眼病灶诊断系统对不同分期的青光眼眼底照片进行杯盘比识别计算,杯盘比值随青光眼视神经病变的进展逐渐增大,与疾病的临床预期具有一致性。见表4。
表 4 青光眼疾病进展中的杯盘比变化Tab. 4 Change of cup-to-disc ratio in the progression of glaucoma
本研究基于人工智能眼底分析技术建立了青光眼病灶诊断系统,并利用该系统探索青光眼在疾病进展中的杯盘比发展情况。我们发现人工智能青光眼病灶诊断系统在视盘分割预测任务上,于青光眼视神经病变的不同时期均表现出优异的性能(Recalls> 0.921,Precisions> 0.914,IOUs>0.901,AUCs > 0.929)。但对中晚期青光眼分割性能表现相对差些,分析其原因可能是中晚期青光眼患者的视盘出现萎缩弧的比例更高[9-11],这对于人工智能系统判别视盘边界有一定影响。在视杯分割预测任务上,于青光眼中晚期表现出较高的性 能(Recalls> 0.859,Precisions> 0.845,IOUs>0.834,AUCs > 0.896)而在早期及非青光眼中的分割性能表现相对较差(Recalls> 0.794,Precisions>0.733,IOUs> 0.764,AUCs > 0.824)。这可能与早期及非青光眼的浅视杯给人工智能系统判别视杯边界带来了一定困难有关[12]。人工智能青光眼病灶诊断系统在视网膜神经纤维层缺损分割预测任务上,于青光眼中晚期表现出的性能较早期及非青光眼期好。这是由于视网膜神经纤维层缺损区域伴随青光眼的疾病进展而愈发显现,当缺损区域边界明显时,人工智能系统更易捕捉[13-15]。柴家星等[16]研发了用于青光眼眼底照片视杯盘分割的改进 U-Net算法并将模型在公开的数据集(DRIONS-DB、RIM-ONE、DRISHTI-GS)中进行验证,结果显示在针对视盘区域分割任务中该算法模型的IOU分别为0.93、0.94和0.93;在RIMONE和DRISHTI-GS数据集上,针对视杯区域分割任务该算法模型的IOU分别为0.845与0.93,与眼科医生分割结果相比,其算法模型依旧展现出优越性。这与本研究的人工智能青光眼病灶诊断系统在分割任务中性能的表现较为相似,侧面证明了本研究的算法模型较为精准。
人工智能青光眼病灶诊断系统在病灶分类预测任务上,于青光眼疾病四期进展中均表现出较高的准确度(局限性RNFLD: Accuracys> 0.846;弥漫性RNFLD: Accuracys> 0.879;视盘出血:Accuracys> 0.929;视杯切迹: Accuracys> 0.899)。由于数据集中缺乏早期及非青光眼眼底照片的部分病灶阳性标注,本研究中缺乏部分敏感度、AUC指标计算。此外本研究结果显示,人工智能青光眼病灶诊断系统自动识别和计算的杯盘比值,在青光眼疾病进展中呈现明显的分布差异和规律性,这表明了杯盘比值是通过眼底照片诊断青光眼分期的重要因素之一,该测量结果有重要的辅助诊断价值。
目前,人工智能在青光眼领域的重要意义及应用前景主要在于筛查[17-20]。本研究在应用人工智能青光眼病灶诊断系统时做出的青光眼诊断和分期仅基于眼底照片判断的视神经结构改变,所以在临床进行青光眼疾病诊断时,还需要综合考虑患者的病史、眼压、解剖结构和功能等因素。在发展中国家,尤其是农村地区,对人群进行大规模的青光眼筛查在实践中有一定的难度。基于远程医疗的人工智能青光眼病灶诊断系统可以筛查出存在异常眼底体征的疑似青光眼患者,给予医疗建议转诊至上级医院并为医生提供辅助诊断,这有利于解决青光眼所带来的公共卫生问题。考虑到用于内部验证的数据集与用于模型训练的数据集具有非常相似的特征,这可能会导致研究结果与实际情况有一定差异。因此,未来需要建立源自真实世界的大样本量眼底数据库对该人工智能青光眼病灶诊断系统进行外部测试及应用。总之,本研究应用人工智能眼底分析技术构建的快速无创辅助诊断青光眼病灶的AI系统,为实现青光眼大规模筛查提供了思路。