周骏,李杨,韩树堂
[南京中医药大学附属医院(江苏省中医院) 消化内镜中心,江苏 南京 210029]
胃肠道恶性肿瘤主要包括食管癌、胃癌及结、直肠癌等,总发病率为19.1%,死亡率为22.7%[1],严重危害人类健康。根据肿瘤临床特征及病理其可分为早期癌和进展期癌,疾病分期不同,采取的治疗方式和预后差别较大[2]。目前胃肠道早癌可通过内镜行微创治疗,其相比外科手术患者创伤小、并发症少、恢复快、费用低。早癌的发现及诊断主要依靠先进的内镜设备结合内镜医师的丰富经验,明确诊断较进展期癌难度更大[3]。随着人工智能(artificial intelligence,AI)技术的发展,以深度学习(deep learning,DL)为代表的AI算法正逐步应用于各个医疗领域,并获得了较好的诊断能效。其中神经网络(neural network,NN)模型在医学图像诊断领域应用最为广泛,在消化内镜方向,其主要应用于早期胃肠道恶性肿瘤的诊断、胃肠道图像解剖位置的辨别、胃内幽门螺杆菌状态的判断以及肠道息肉的识别等[4]。多项研究指出,NN模型具有较高的图像识别率,然而目前尚缺乏循证医学证据。本研究采用Meta分析的方法评价了NN模型诊断胃肠道早癌的价值,为其应用于临床诊断提供客观依据,为AI技术更好地服务于临床提供理论支持。
在PubMed、EMbase、Web of Science、the Cochrane Library以及知网、万方、维普等数据库中对2010年1月至2019年10月发表的文献进行系统检索,以获取相关文章。检索条件:中文检索式为(人工智能 OR 深度学习 OR 神经网络) AND (胃OR食管OR肠OR消化道OR胃肠道)AND(癌 OR 肿瘤),英文检索式为(artificial intelligence OR deep learning OR neural network) AND (esophageal OR esophagus OR gastric OR stomach OR colorectal OR colon OR rectum OR intestine OR gastrointestinal OR gastrointestine) AND (cancer OR tumor OR carcinoma OR neoplasm OR neoplasia)。在初步剔除重复的文献后,对剩余文献的标题和摘要进行阅读,排除其他的文献类型如文献综述、个案、新闻等;通读进一步获取的文献全文;为了避免遗漏,同时阅读其参考文献。
1.2.1 纳入标准 (1) 应用NN模型进行早癌鉴别诊断;(2) 从文中能直接或间接获取研究结果的真阳性(TP)、假阳性(FP)、真阴性(TN)、假阴性(FN)数;(3) 金 标准采用活检或手术的病理学诊断;(4) 阳性病灶的病理诊断结果为低/高级别上皮内瘤变或早期癌。
1.2.2 排除标准 (1) 阳性病灶的病理诊断为进展期癌或息肉等良性病变;(2) 无法获得完整的四格表数据;(3) 综述、病例报告、社评、给编辑的信、会议摘要及重复发表的文献等。
2名研究者经过筛选文献后独立提取数据,每项研究获得的信息包括第一作者、发表年份、国家、病灶位置、研究类型、研究中心数量、内镜类型、内镜模式、NN类别、诊断对象、图像分辨率是否一致、阴性病灶是否有病理结果、与专家诊断结果比较、模型测试量、模型学习量及四格表数据(TP、FP、FN、TN)。使用诊断性实验质量评价标准(QUADAS-2)评估纳入研究的质量。
采用META-DISC 1.4软件对各研究结果间的异质性进行分析,并结合I2定量判断异质性的大小。当P>0.1 或I2<50%时,可忽略研究的异质性,直接采用固定效应模型;当P<0.1 或I2>50%时,则判定研究存在异质性,首先考虑阈值效应对研究结果的影响,排除其影响后,采用亚组分析或(和)Meta回归分析产生异质性的因素,并采用敏感性分析判断研究结果的稳定性,运用随机效应模型计算合并后的敏感度(sensitivity,Sen)、特异度(specificity,Spe)、阳性似然比(positive likelihood ratio,+LR)、阴性似然比(negative likelihood ratio,-LR)、诊断比值比(diagnosis odds ratios,DOR)、总受试者工作特征曲线(summary receiver operating characteristic,SROC曲线)并计算曲线下面积(area under the curve,AUC)。根据AUC值的大小评价诊断性试验的价值,AUC为0.7~0.9时表示诊断准确性中等,AUC>0.9时表示诊断准确性较高。通过STATA 15.0软件绘制Deek’s图对文献的发表偏倚进行分析。
通过检索上述数据库,共找到1 914篇文献,包括中文400篇、英文1 514篇,通过阅读标题和摘要,排除了1 803篇,留下126篇全文进一步研究。图1总结了选择过程和排除原因。最终,21篇文献的25个研究,总共13 711张图像符合最终分析的条件。
图1 文献筛选流程及结果
纳入21篇文献的25个研究,对每篇文献的第一作者、发表年份、国家、病变部位、研究类型、研究中心、内镜类型、内镜模式、NN类型、诊断对象、分辨率一致性、病理完整性、与专家比较结果、测试量、学习量进行记录,结果见表1。通过QUADAS-2量表对纳入文献进行质量评估,其结果和四格表数据见表2。
表1 纳入研究的基本特征
表2 纳入研究的四格表数据及风险偏倚评价
使用META-DISC 1.4对纳入数据进行分析,各项指标均存在一定程度的异质性,Sen存在异质性(P<0.001,I2=91%),Sen合并=0.95(95%CI为0.94~0.95);Spe存在异质性(P<0.001,I2=90%),Spe合并=0.90(95%CI为0.89~0.90);+LR存在异质性(P<0.001,I2=100%),+LR合并=7.00(95%CI为2.98~16.42);-LR存在异质性(P<0.001,I2=96%),-LR合并=0.09(95%CI为0.05~0.17);DOR存在异质性(P<0.001,I2=94%),DOR合并=78.23(95%CI为33.71~181.52);AUC=0.97。
观察SROC曲线不呈“肩臂状”,且Spearman检验相关系数为0.097(P=0.674>0.05),故并非阈值效应导致的异质性。本研究Sen和Spe异质性检验结果分别为P<0.001、I2=91%和P=0.01、I2=90%。研究结果间异质性较大,分析原因可能为:(1)各国对胃肠道早癌的诊断标准不同,对金标准的判读可能不同,如日本采用本国标准,我国及欧美国家多采用WHO标准;(2) 胃[5-12]、食管[13-20]、肠道[21-25]早癌病灶解剖位置有差异,导致识别难易程度有别,诊断难度不同;(3) 采用不同类型的内镜(放大/非放大)、内镜的不同模式(白光/NBI/色素)、不同的图像分辨率其诊断结果可能有所差别;(4) 部分研究中使用了非CNN[17,21,25]或未提及NN[19-20,22]的类型,由于不同模型的预训练程度不同,可能导致诊断差异;(5) 部分研究的阴性病例(正常图像)未经病理确诊,可能存在漏诊的阳性病灶[7,15,23],导致结果出现偏差;(6) 部分研究的诊断对象为病灶而非图像[6,14-15,17-18,21-23,25],由于同一病灶可能对应多张图像,通常有一张图像确认为阳性即可判定病灶为阳性,因而可能导致研究的Sen较高而Spe较低。
敏感性分析结果显示,无论是剔除质量较低及Sen与Spe相差较大的研究,或是切换效应模型,对总体合并的Sen、Spe影响并不大,故本Meta分析结果的稳定性及可信度较高。通过STATA 15.0 绘制的Deek’s图发现,图像结果显示无明显不对称性,斜率系数P=0.01,提示存在一定发表偏倚的可能(图3)。分析其可能原因:本研究领域较为前沿,早期相关研究尚不够成熟,对NN的研究仍在进行中;且我们未能获取未发表研究的数据以及阴性结果的文献。
A.Sen;B.Spe;C.+LR;D.-LR;E.DOR;F.SROC
图3 发表偏倚分析
为了进一步探讨异质性来源,我们将国家(日本/韩国/中国/欧美国家)、病变部位(胃/食管/结肠)、研究中心(单/多)、内镜类型(放大/非放大)、内镜模式(白光/NBI/色素)、NN类型(CNN/其他)、诊断对象(图像/病灶)、分辨率一致性(是/否)、病理结果完整性(是/否)、与专家比较结果(高/低/未比较)等影响因素均纳入Meta回归和亚组分析中,最终研究结果稳定,提示以上因素均不是异质性的来源(表3)。
表3 亚组分析和Meta 回归结果
NN采用模拟人类大脑神经元的构架特征[26],能主动提取并学习鉴别图像特征[27],从而能达到较好的诊断能效。目前NN模型除了可用于白光内镜下的诊断,也适用于放大内镜[10-11]、染色内镜[15,22,24]、细胞内镜[15,22]等不同类型的内镜。有10项研究进行了NN模型与人工诊断的比较,7项[5,8,11,17-18,21-22]研究NN模型的诊断率高于内镜专家,3项[7,5,25]研究低于内镜专家,但仍高于普通内镜医师。此外,在诊断速率方面,NN模型明显优于人工识别,平均速率可达每秒41.4~51.8张图像[10,14]。早期的AI技术大多采用以支持向量机(support vector machine,SVM)为主的手工识别方法,也获得了较高的诊断率[28-30]。然而,SVM对大规模样本及多分类问题解决能力相对不足,更适用于小样本的研究。与之相比,NN模型显示了更好的分类性能[31],它的准确率、Sen、Spe均超过了90%。其中,CNN被认为是目前图像识别领域性能最优秀、最具有发展前景的诊断模型[32]。本Meta分析中除6项研究[17,19-22,25]外,其余均采用CNN进行诊断并取得了较高的诊断能效。
本Meta分析中,各研究诊断的Sen介于50%~98%之间,Spe介于16%~100%之间,单个研究的诊断能效相差较大,不具代表性;进行Meta分析后的Sen和Spe分别为95%和90%,AUC=0.97,综合诊断能效较高。本研究纳入文献诊断试验的实施及金标准合理性的报告质量较好,提示纳入的研究具有较高的质量,引起选择偏倚的可能性较小。但在病例选择、病例流程及进展情况方面的报告质量参差不齐,尽管NN模型避免了盲法实施中所导致的偏倚,但由于纳入的研究中可能在选择病例时采用了非连续、非随机的方法,以及金标准实施的不完全性,进而导致研究报告的质量较差,发生实施和测量偏倚的可能性较大[33],建议在今后的研究中采用诊断性试验报告标准(STARD)[34],以提高诊断性试验的报告质量。
本Meta分析的局限性:(1) 灰色文献与未发表文献未纳入本次研究,故存在一定的发表偏倚;仅纳入了中文及英文文献,存在一定的语种偏倚;所有纳入文献均为回顾性研究,且部分研究的质量不高。(2) 关于研究异质性的来源,通过敏感性分析、Meta回归及亚组分析并未给出,结合专业知识分析,NN的诊断结果与模型的学习量呈正相关[35]。目前尚无成熟的NN模型可直接用内镜图像的诊断,研究者多采用自主研发或调试的模型进行研究。主流的CNN有AlexNet、VGGNet、GoogleNet等,各模型的预训练程度不同,且后期研究者给与的学习量也各不相同,由于研究者未对此方面内容作进一步详述,因此目前尚无法将此因素纳入分析,有待后续研究。
综上所述,NN模型辅助诊断早期胃肠道肿瘤具有较高的临床价值,其准确率、Sen、Spe均与内镜专家诊断结果较为接近,且诊断速率大大高于人工。虽然短期内尚不能完全取代人工识别,但能高效地辅助人工进行胃肠道肿瘤的早期诊断及筛查,尤其是在专家和医疗资源缺乏的地区[36],因此值得进一步研究及推广。本研究汇总近年来国内外应用NN模型诊断胃肠道早癌的相关文献,综合评价了其诊断价值,认为NN模型对内镜医师诊断早癌能提供一定的帮助支持。但本研究由于受到样本量及研究本身质量的限制,可靠性有待进一步提高,后期我们将继续跟进。