于薏 周奕文 陈弟 胡珊 杨燕宁
1武汉大学人民医院眼科中心 430060;2武汉大学人民医院消化内镜中心 430060;3武汉大学资源与环境学院 430060
视网膜脱离(retinal detachment,RD)是眼科常见的致盲眼病之一,其发病率为6.3/10万人~17.9/10万人[1]。RD患者可能出现突发性、无痛性视力丧失,初期可表现为闪光感、眼前漂浮物及幕状黑影遮挡。若不及时诊疗,可能导致严重视功能损伤,甚至致盲[2-3]。玻璃体后脱离(posterior vitreous detachment,PVD)的症状与6%~18%的RD发生有关[4],若患者同时存在玻璃体积血(vitreous hemorrhage,VH),RD的发生率可升至30%,甚至90%[5]。美国管理医疗网数据分析显示,眼科急诊就诊人次占所有急诊的3.4%[6]。RD、VH及PVD为眼科急诊常见就诊病因[7]。在我国,RD、VH及PVD患病人数多,是临床常见眼科病症[8-9]。RD患者需要眼科医生的紧急诊疗,而VH和PVD患者通常仅需门诊密切随访[10]。因此,临床上快速、准确地区分这3种疾病非常重要。眼科B型超声作为眼科常用检查,具有实时性较好、经济性高、方便快捷、无创伤性等优势,可在屈光间质不透明的情况下对眼后节情况进行评估,是目前临床常用、基层普及率较高的辅助诊断工具[7]。在实际临床工作中,眼科B型超声阅片对医师经验有一定要求,医师往往需经过专门培训,才能初步分辨RD、VH、PVD[11]。鉴于临床B型超声检查基数大、基层医院操作医生水平有限等问题,提高B型超声图像在RD、VH及PVD中的诊断效率及准确度、减轻医疗负担是当前亟待解决的问题。近年来,人工智能(artificial intelligence,AI)在眼科发展迅速,其在辅助白内障、糖尿病视网膜病变、早期青光眼等疾病的诊断筛查方面取得了重大突破[12-14],AI在读片速度及诊断准确性上体现出极大优势,在部分疾病辅助诊断水平上接近高级别临床医师[15]。因此,将AI技术应用于眼科B型超声图像的辅助识别或可提高急诊及基层医院临床诊疗的效率及质量。本研究拟探讨AI辅助下的眼科B型超声评估对临床的应用价值,探索玻璃体及视网膜疾病筛查、诊疗及智能医疗普及的新方法。
1.1.1B型超声图像收集 采用诊断试验研究方法,回顾性收集2018年1月至2020年10月于武汉大学人民医院眼科中心应用眼科A/B超声诊断仪(SW-2000,天津索维公司)进行检查的患者眼科B型超声图像以及患者的年龄、性别、临床诊断。所有眼科B型超声图像均由同1位工作经验20年以上的资深眼科超声医师采集,操作时严格按照规范进行检测。所收集的全部眼科B型超声图像为BMP格式,大小在760 kb以上,清晰度为512×512像素。本研究经武汉大学人民医院伦理委员会审核通过(批文号:WDRY2020K-192),所有操作均遵循《赫尔辛基宣言》。
1.1.2B型超声图像筛选及分类 所收集的图像由专业眼科医生进行筛选,剔除不合格图像,包括诊断不明确、拍摄模糊、对焦不清晰、伪影等所致的低质量图像以及多病种混合图像,选取合格图像建立计算机训练的数据集。最终共获得来自1 278名受试者的3 600张眼科B型超声图像,受试者平均年龄为(49.32±7.69)岁,根据所收集受试者临床诊断,对图像进行分类,其中正常眼图像731张,VH图像462张,RD图像522张,PVD图像610张,其他病种(玻璃体混浊、后巩膜葡萄肿、视网膜水肿、球内异物、硅油填充术后、硅油取出术后等)图像1 275张,并将数据集分为训练集和测试集,不同数据集分类数据见表1。
表1 收集数据基线信息及数量Table 1 The information and quantity of the data collected数据集例数图像数(张)年龄(mean±SD,岁)不同病种图像数(张)正常RDVHPVD其他训练集1003281248.46±4.58557423361508963测试集27578851.25±6.2717499101102312 注:RD:视网膜脱离;VH:玻璃体积血;PVD:玻璃体后脱离 Note:RD:retinal detachment;VH:vitreous hemorrhage;PVD:posterior vitreous detachment
1.2.1B型超声图像标记 每幅图像均由3位有3年以上临床工作经验的眼科医师采用VCG IMAGE Annotator图像标记软件(Version 1.0.5,Visual Geometry Group,Department of Engineering Science,University of Oxford),结合患者基线信息及临床诊断,对病灶范围进行标记(图1),标记结果出现分歧时由第4位更高年资的眼科医师判定。
图1 人工标记的眼部B型超声图像 A:标记的视网膜脱离病灶(黄框内) B:标记的玻璃体后脱离病灶(黄框内) C:标记的玻璃体积血病灶(黄框内)Figure 1 Manually labeled B-scan images of eyes A:Retinal detachment labeled within the yellow frame B:Posterior vitreous detachment labeled within the yellow frame C:Vitreous hemorrhage labeled within the yellow frame
1.2.2深度学习卷积神经网络模型的建立 采用基于ResNet-50的深度学习网络模型进行图像分类[16]。该模型以ImageNet的ResNet50预训练模型为基础,对收集到的眼科超声图像进行训练,首先通过迁移学习[17],根据图像种类对网络结构的输出分类层进行修改,数据重新训练和替换系统结构的最终分类层。在该模型中,使用Drop Out[18]、Early Stopping[19]以及数据集扩增[20]来最大程度地降低过拟合的风险。
模型训练流程如下:(1)通过深度卷积网络1(deep convolutional neural network 1,DCNN1)将图像分类为异常和正常;(2)DCNN2对异常图像进行识别,将其分为RD/VH/PVD或其他疾病;(3)识别为RD/VH/PVD的图像将被DCNN3进一步识别,分类为其中的具体疾病类型;(4)模型以热图的形式输出结果,并给出诊断。每个DCNN的输入都来自于上一个DCNN的输出。3个DCNN的数据库图像数量分别为DCNN1数据库3 600张(训练集∶ 测试集=2 812∶ 788),DCNN2数据库2 869张(训练集∶ 测试集=2 255∶ 614),DCNN3数据库1 594张(训练集∶ 测试集=1 292∶ 302)(图2)。
图2 模型训练流程图 DCNN:深度卷积网络;RD:视网膜脱离;VH:玻璃体积血;PVD:玻璃体后脱离Figure 2 Flow chart of model training DCNN:deep convolultional neural network;RD:retinal detachment;VH:vitreous hemorrhage;PVD:posterior vitreous detachment
计算机算法使用Python(3.6.5版)编写。开源Keras库(2.1.5版)和TensorFlow库(1.12.2版)作为后端。使用具有4个NVIDIA Geforce GTX 1080(GPU内存8 GB)的服务器来训练模型。
1.2.3评价指标
1.2.3.1模型准确性验证 将模型用于测试集图像诊断,采用准确度、敏感度、特异度、阳性预测值(positive predictive value,PPV)和阴性预测值(negative predictive value,NPV)、受试者工作特征(receiver operating characteristic curve,ROC)曲线及ROC曲线下面积(area under curve,AUC)评估模型准确性。
1.2.3.2人机比较 另选取独立于机器训练数据集的诊断明确、对焦清晰的眼科B型超声图像120张(RD、VH和PVD图片各40张)用于人机测试,3位具有10年以上眼科超声临床经验的高年资医师分别独立对图像进行诊断,同时应用模型对该批次图像进行评估。测试过程由同一位研究人员记录评估耗时,最后将3位受试医师与模型的评估结果,包括评估的准确度及评估所用的时间进行比较。
1.2.3.3模型辅助低年资医师效果评估 另选取150张独立于计算机训练集的诊断明确、对焦清晰的眼科B型超声图像(正常、RD、VH、PVD和其他疾病图像各30张),由8位未经过眼科超声培训的低年资眼科医师分别独立对150张图像进行诊断并记录评估结果,计算8位医师的诊断准确度(150张图像中评估正确的图像比例)。4个月后,由该8位医生在模型辅助下再次对相同150张图像进行诊断,先由计算机进行评估,以热图的形式标记病变区域,以供受试医师参考。
采用SPSS 25.0统计学软件进行统计分析,对模型辅助前后的诊断准确度行配对t检验,以评估计算机模型在临床实际应用中进行辅助诊疗的效果。P<0.05为差异有统计学意义。
计算机模型DCNN1对图像识别的准确度为0.943,敏感度为0.940,特异度为0.954,PPV为0.817,NPV为0.986;DCNN2对异常图像识别的准确度为0.909,敏感度为0.920,特异度为0.897,PPV为0.903,NPV为0.916;DCNN3对RD/VH/PVD分类的准确度为0.927,其中对RD识别的准确度为0.909,对PVD识别的准确度为0.990,对VH识别的准确度为0.881。3个DCNN的混淆矩阵图见图3。DCNN1及DCNN2的AUC分别为0.947和0.909(图4)。
图3 各网络模型的混淆矩阵 A:DCNN1 B:DCNN2 C:DCNN3 PVD:玻璃体后脱离;VH:玻璃体积血;RD:视网膜脱离Figure 3 Confusion matrix diagrams of three DCNN models A:DCNN1 B:DCNN2 C:DCNN3 PVD:posterior vitreous detachment;VH:vitreous hemorrhage;RD:retinal detachment
图4 DCNN1和DCNN2模型的ROC曲线 A:DCNN1模型 AUC=0.947 B:DCNN2模型 AUC=0.090Figure 4 ROC curve for DCNN1 and DCNN2 models A:DCNN1 AUC=0.947 B:DCNN2 AUC=0.909
针对120张测试图像,模型识别RD、VH和PVD的准确度分别为0.925、0.800和1.000,与3位高年资眼科医生诊断的准确度相近。3位高年资医生评估图像所用时间最短为1 394.40 s,平均11.62 s/张;最长为1 827.62 s,平均15.23 s/张。模型评估120张图像用时747.66 s,平均6.23 s/张,读图速度约为高年资医生的2倍(表2)。
表2 人机识别B型超声图像的准确度及用时比较Table 2 Comparison of accuracy and time of identifying B-scan ultrasound images between the model and ophthalmologists人机识别B型超声图像的准确度RDVHPVD用时(s)模型0.9250.8001.000747.66眼科医生10.9250.8751.0001456.80眼科医生20.8500.8000.9501394.40眼科医生30.9000.8250.9251827.62 注:RD:视网膜脱离;VH:玻璃体积血;PVD:玻璃体后脱离 Note:RD:retinal detachment;VH:vitreous hemorrhage;PVD:poste-rior vitreous detachment
模型辅助前和模型辅助下低年资医师对图像评估的准确度分别为0.603±0.144和0.814±0.084,模型辅助下医师对图像评估准确度较模型辅助前明显升高,差异有统计学意义(t=6.488,P<0.01)。无模型辅助时,8位未经眼科超声培训的医师对图像识别的准确度最低为0.380,最高为0.827;在模型辅助下,8位医师对图像识别的准确度均有所提升,准确度最高提升0.360,平均每位医师准确度较前提升0.211±0.086,提升后准确度均在0.650以上,最高为0.927(表3)。
表3 模型辅助前后低年资医师图像诊断准确度比较Table 3 Comparison of image diagnosis accuracy of junior doctors between without and with model assistance模型辅助前准确度模型辅助后准确度准确度提升临床医师10.6200.8400.220临床医师20.4400.7000.260临床医师30.5260.8870.360临床医师40.7060.8530.147临床医师50.3800.6800.300临床医师60.8270.9270.100临床医师70.5730.7600.187临床医师80.7530.8670.114平均0.6030.8140.211
眼科B型超声检查因其方便快捷且无创的优点常作为临床上眼科基本检查项目用于评估眼底症状[21],然而大量眼科B型超声检查结果分析给临床医生带来极大工作量[22];另一方面,由于其操作及结果的评估对医生专业能力有一定要求,培养一名合格的眼科超声医生需要花费大量的时间和精力[23],因此,实现眼科B型超声图像评估的自动化及智能化是当前我国眼底病筛查、推进智慧医疗的必要条件。目前,AI在医疗领域发展迅猛,但少见AI辅助眼科B型超声进行眼底病诊断或筛查的相关研究。开展基于眼科图像的AI辅助诊断系统的研发是我国防盲、治盲工作的发展趋势[15]。
近年来,深度学习技术作为一类多层神经网络学习算法被广泛应用于医疗领域。在眼科疾病诊断方面,大多是采用大量图像数据进行机器学习[24]。本研究用于机器学习的眼科B型超声图像均为同一位工作经验20年以上的资深眼科超声医师采集,并剔除不合格图像,以保证模型的学习效果,从而使模型达到较为理想的识别精度。在深度学习过程中,网络深度遇到的主要问题包括梯度消失和梯度爆炸,而解决方式通常为数据的初始化和正则化[25]。ResNet-50是在现有深度网络训练的基础上提出的一种具有计算负担小、易优化等优点的残差学习框架,其包含49个卷积层和1个全连接层的性能优良的残差网络模型。残差可用来解决退化和梯度问题,使得网络性能在深度增加的同时也得到提升[26]。本研究中采用ResNet-50构建的基于B型超声图像模型对识别RD、PVD和VH有较高的准确度、敏感度及特异度。在人机比较测试中,模型表现出了良好性能,其准确度与高年资眼科超声医生相近,且用时仅为临床医生的1/2。经模型辅助后,低年资医生对B型超声图像的评估准确度也有了大幅提高,部分低年资医生准确度甚至与高年资超声医生相近,体现了模型在辅助评估方面的巨大应用潜力,以及在疾病诊断及患者快速普筛方面的应用价值。但在同一模型的辅助下,各个医生最终的准确度并非完全一致,这可能与医生自身的专业水平差异有关,另外医生缺少丰富阅片经验,且在大量阅片时可能会产生疲劳,会结合自己的主观判断给出诊断,这些因素均会对准确度产生影响。
本研究设置了3个网络结构,利用2个二分类模型与1个三分类模型对5种超声图像(正常、PVD、VH、RD和其他疾病)进行识别。首先利用DCNN1筛选出正常图像,再利用DCNN2识别异常图像中的其他病种图像,最后DCNN3将PVD/VH/RD图像进行分类。与单一的五分类模型相比,这种网络结构具有更好的识别准确度和精度。同时,由于该网络的输入是单张图像数据,因此模型最终是基于单张超声图像而非单个患者进行诊断识别,而实际临床操作中,操作者往往会采集多张不同钟点位的超声图像,即1例患者有多张图像数据,因此只要采集的数据中含有病灶图像,模型便可对其进行识别。
本研究存在一定的局限性。首先,由于模型的训练依赖于大量样本数据及特征的识别,本研究中用于模型训练的图像为特征明显的临床常见单病种图像,目前该模型所能识别的疾病类型有限,对混合疾病及临床罕见病的识别尚不完善;其次,当图像不清晰或病变特征不明显时,模型往往无法正确识别,后期将联合多家医院建立更大样本的数据库用于模型训练,进一步提高模型的识别精度,增加可识别疾病类型,以便更好地实现AI的临床转换应用。
综上所述,本研究结果表明基于眼科B型超声图像的RD、PVD和VH识别智能诊断系统的准确度、敏感度和特异度较好,能够辅助临床医师更好、更快地对B型超声图像进行分析,并且此模型较适合眼科医师缺乏、临床经验欠佳的基层或社区医院,也可应用于大批量人群的眼底病筛查。
利益冲突所有作者均声明不存在利益冲突