基于人工智能的CT影像预测肺腺癌浸润性：Meta分析

2022-11-22 02:53黄文君周秀秀周陶胡葛艳明董鹏范丽

放射学实践 2022年11期

黄文君，周秀秀，周陶胡，葛艳明，董鹏，范丽

国际癌症研究机构更新的最新版GLOBOCAN 2020指出，现今肺癌仍是癌症死亡的主要原因，同时国内肺癌的整体发病率(56.3/10万)和死亡率(49.4/10万)也都居于首位[1]。作为最常见的肺癌亚型，肺腺癌占所有肺癌病例的一半以上[2]，可见防控肺腺癌是肺癌防控中的重要一环。随着常规CT的全面覆盖和低剂量CT筛查的普及，许多肺腺癌能在早期即被检出[3-4]。目前很多肺腺癌或其前体病变的CT影像表现是持续存在的磨玻璃结节(ground glass nodule，GGN)[5]。据2015版世卫组织(WHO)分类，肺腺癌包含浸润前病变——非典型腺瘤样增生(atypical adenomatous hyperplasia，AAH)和原位腺癌(adenocarcinoma in situ，AIS)，微浸润性腺癌(minimally invasive adenocarcinoma，MIA)及浸润性腺癌(invasive adenocarcinoma，IAC)[6]。针对不同的病理亚型，患者的手术方式和5年无病生存率(disease free survival，DFS)明显不同，IAC患者较非IAC(包括AAH、AIS和MIA)患者需要更大范围的肺组织切除术且5年DFS显著降低[7-9]。因此通过无创的CT影像预测肺腺癌浸润性能为临床医师制定最优治疗方案提供更全面的参考依据。近年来人工智能(artificial intelligence，AI)的快速发展能够利用CT影像鉴别IAC和非IAC，主要通过CT影像组学和深度学习(deep learning，DL)两种方法实现[10]。目前基于此两种方法区分IAC和非IAC的研究已有不少，但是不同研究间的样本量、研究质量及AI算法的差异却使得AI诊断的性能参差不齐。因此，本文对基于AI的CT影像预测肺腺癌浸润性的能力进行了Meta分析，旨在为其临床应用提供更有力的支撑。

材料与方法

1.文献检索策略

检索数据库：PubMed、Embase、Cochrane图书馆、Web of Science、中国知网(CNKI)、SinoMed (CBM)、万方和维普等在线数据库。文献发表时间：2011年1月1日-2021年6月30日。检索内容：国内外公开发表的基于AI的CT影像预测肺腺癌浸润性的所有文章。中文检索关键词包括：肺结节、磨玻璃结节、纯磨玻璃结节、亚实性结节、混杂磨玻璃结节、腺癌、肺癌、CT、计算机断层扫描、人工智能、深度学习、机器学习、神经网络、随机森林、支持向量机、电脑辅助诊断、病理、浸润、分类、识别、预测等；英文检索关键词包括：pulmonary nodule,ground glass nodule,pure ground glass nodule,mixed ground glass nodule,subsolid nodule,adenocarcinoma,lung cancer,CT,computed tomography,AI,deep learning,machine learning,computer-aided diagnosis,neural network,random forest,support vector machine,pathology,invasive,classify,predict等。此外，还包括这些词的同义词或近义词，如部分实性结节，非实性结节，肺部肿瘤，part-solid nodule,non-solid nodule,lung nodule,lung neoplasm等。

2.纳入与排除标准

检索的文章使用Endnote 9软件管理。纳入标准：①以汉语或英语公开发表的文献；②以CT为影像检查方法，通过AI进行诊断并取得诊断结果的患者；③以病理学检查结果为肺腺癌(WHO 2015版)为金标准，纳入的病理亚型包括IAC、MIA、AIS和AAH；④病灶直径≤3 cm。排除标准包括：①重复发表的文献；②无法获取全文、数据不完整或研究内容不同；③病变直径>3 cm或对病变大小未作出说明；④其他类型的肺癌或良性病变；⑤文章类型为综述、Meta分析、动物实验、会议、通信、述评等。

3.纳入文献质量评价

QUADAS-2诊断准确性试验质量评价工具用于文献质量评判[11]。先由3位研究人员(分别有1年、3年和5年影像诊断工作经验)独自进行预评估，然后由专家组(由3位有15年以上影像诊断工作经验的医生组成)汇总评估结果作出最终决定。评估主要包含“偏倚风险判断”和“临床适用性评价”两部分。前者从病例选择、待评价试验、金标准、病例流程和进展状况四个方面进行评判，分为“是”、“否”、“不清楚”三级；后者主要判断病例选择、待评价试验、金标准与待评价项目的匹配程度，分为“高”、“低”、“不清楚”三级。

4.数据提取

先由2位研究人员提取数据，再由另1位研究人员完成核对。当产生不同意见时，交由专家组讨论并作出最终决定。提取的内容包括：①一般特征：第一作者、出版年份、资料来源、患者总数、性别、肺结节总数、结节类型和病理类型(IAC/非IAC)。②诊断特征：AI算法/模型、提取特征、样本分组、模型分组；以IAC为阳性结果，非IAC为阴性结果，直接提取或经计算得出真阳性(true positive，TP)、假阳性(false positive，FP)、假阴性(false negative，FN)和真阴性(true negative，TN)的样本量，以金标准为参照组成四格表数据。此外，纳入研究一般将数据分为训练组和测试组两部分，前者用于对AI诊断模型进行训练，后者用于最终模型的性能检验。因此，本Meta分析仅提取测试组的数据。

图1 文献筛选流程图。

5.统计分析

统计分析软件包括RevMan 5.3、MetaDiSc 1.4和Stata16.0。RevMan 5.3用于绘制风险偏倚评价的条形图。MetaDiSc 1.4用于检测阈值效应、异质性分析、合并指标的计算以及亚组分析。阈值效应引起的异质性使用敏感度对数与(1-特异度)对数之间的Spearman相关系数进行检测；非阈值效应引起的异质性使用Cochran-Q及I2检验进行检测。组间异质性较低时(I2<50%)，采用固定效应模型合并指标；组间异质性较高时(I2≥50%)，采用随机效应模型合并指标。评价指标包含：合并敏感度(pooled sensitivity，Sen合并)、合并特异度(pooled specificity，Spe合并)、合并阳性似然比(pooled positive likelihood ratio，PLR合并)、合并阴性似然比(pooled negative likelihood ratio，NLR合并)、合并诊断比值比(pooled diagnosis odds ratio，DOR合并)、集成受试者操作特征(summary receiver operating characteristic，SROC)曲线以及曲线下面积(area under curve，AUC)，其中DOR合并是主要合并指标。亚组分析依照研究对象的特点分组，通过Meta回归判断异质性来源，绘制各组的SROC曲线并得到AUC值，计算各组的Sen合并、Spe合并、DOR合并。Stata16.0用于敏感性分析和发表偏倚检验。分别剔除敏感性分析筛出的高敏数据，重新绘制SROC曲线并比较AUC值来验证AI诊断性能的稳定性。Deeks检验用于评估发表偏倚。以P<0.05为差异有统计学意义。

结果

1．纳入文献概述

通过检索共获得文献1207篇，12篇文献(中文4篇，英文8篇)进入最终的分析[12-23]。文献筛选流程见图1，文献质量评价结果见图2。纳入文献的一般特征和诊断特征分别见表1和表2，共纳入4066例患者的4325枚肺结节，训练组和测试组的结节数分别为3144枚和1181枚，共提取了34组四格表数据。在性别构成上，10篇文献根据患者总数列出，其中男性1079人，女性2207人；另有2篇根据结节总数列出，其中男性肺结节297枚，女性肺结节526枚。有10篇文献详细说明了结节类型，包括2979枚纯磨玻璃结节(pure ground glass nodules，pGGN)、797枚混杂磨玻璃结节(mixed ground glass nodules，mGGN)和113枚实性结节；其余2篇仅指出结节类型为GGN，共436枚。

2．Meta分析结果

阈值效应和异质性检验：Spearman相关系数为0.154(P=0.386>0.05)，意味着本研究不存在阈值效应。DOR合并的Cochran-Q检验得出Cochran-Q=79.09(P<0.001)，说明有非阈值效应造成的异质性；且Sen合并、Spe合并、PLR合并、NLR合并、DOR合并的I2值分别为71.6%、72.5%、71.7%、66.4%、58.3%，I2均>50%，进一步说明了较高异质性的存在，故各指标需采取随机效应模型合并。

各指标合并结果：AI模型的Sen合并=0.86[95%置信区间(95%CI)：0.85～0.88)]，Spe合并=0.82(95%CI：0.80～0.84)，PLR合并=4.55(95%CI：3.61～5.75)，NLR合并=0.19(95%CI：0.15～0.23)，DOR合并=28.31(95%CI：19.76～40.54)，总体AUC为 0.9110(图3～6)。

表1 纳入研究的一般特征

图2 纳入文献质量评估结果(QUADAS-2)。

亚组分析：依据不同的AI算法将34组数据分成3类，分别为随机森林(random forest，RF)14组、支持向量机(support vector machine，SVM)7组以及“其他”(Others)13组；依据测试组样本数量是否≥50例分成2类(是：26组；否：8组)。基于此两种分类进行Meta回归，分析显示AI算法的差异(P=0.0028)或许是产生异质性的原因之一，样本量的差异(P=0.2761)无法作为异质性来源的依据。重新合并按不同算法分组的各项指标(表3)，RF组的Sen合并(0.91)、DOR合并(52.91)和AUC(0.9412)最高，而Others组的Spe合并(0.84)最高。

敏感性分析和发表偏倚：图7显示第12、13和28组数据存在较强敏感性，分别剔除这3组数据后的AUC为0.9077、0.9074和0.9138，全部剔除这3组数据后的AUC为0.9063，该结果与总体AUC(0.9110)差别不大，说明此次Meta分析敏感性较低，结果稳定可靠。Deeks偏倚检验结果显示P=0.06>0.05，表明漏斗图基于回归线对称，无发表偏倚。

讨论

随着AI在医学领域应用的不断深化和细分，在肺腺癌诊断方面，基于影像组学和AI的良恶性鉴别、恶性程度分级等研究已广泛开展[24]。然而，由于组学模型泛化不易，纹理特征的鲁棒性不同，DL又需要比组学模型更多的样本用于训练，导致不同研究间的AI诊断性能差异显著[25-26]。GGN作为初期肺腺癌的首要影像表现，AI对其浸润性的预测同样受上述因素制约，所以本文对基于不同AI算法的CT影像预测肺腺癌浸润性的诊断能力进行Meta分析。最终纳入12项研究的4325枚肺结节，其中绝大多数(97%，4212/4325)为GGN。此外，无论是按患者数还是按结节数统计，女性均占大多数，分别为67%(2207/3286)和64%(526/823)，与文献报道的近年显著升高的女性肺腺癌发病率相符[27]。

表2 纳入研究的诊断特征

表3 各亚组合并结果

本次分析无阈值效应，但研究间异质性较高，故对各指标使用随机效应模型合并。DOR合并为主要合并指标，代表诊断试验结果与疾病的关系水平；当DOR合并>1时，其值越大，该试验的诊断能力就越高[28]。本文DOR合并=28.31，说明了AI对肺腺癌浸润性较高的诊断性能。Sen合并、Spe合并分别为86%、82%，说明AI确定IAC和识别非IAC的能力都相对较高。PLR合并显示AI正确识别IAC的概率是错误识别概率的4.55倍，NLR合并显示错误识别非IAC的概率是正确识别概率的0.19倍。总体AUC为0.9110，也证明AI的诊断性能优异。

根据Meta回归结果，AI算法的差异可推断为异质性的来源。从表3可知，RF组的Sen合并、DOR合并和AUC均高于另外两组，说明基于CT影像组学特征构建的AI模型中，RF算法对IAC的诊断性能好于其他机器学习(machine Learning，ML)算法，可能代表了其更好的泛化能力。当然，RF的高诊断性能也不能排除是因为纳入分析组数较多、代表性较强导致的结果。需要指出的是，这也不能说明ML要比DL的诊断性能更好；相反，使用基于DL的卷积神经网络(convolutional neural networks，CNN)进行肺结节分类在多数场合下是优于现有的计算机辅助诊断技术的[29-31]，采用CNN对肺腺癌分类的研究也逐年增多，在诊断性能上已达到甚至略超过高年资放射科医生的水平[32-34]。从本文看，仅有三组四格表数据是基于CNN算法的结果，因而在分组中被归入了“其他”一组，且样本量较少，均导致其诊断价值体现不足。此外，在文献筛选过程中，部分无法提取四格表信息的基于DL的研究也被排除，同样对其诊断价值的判断存在影响。但是，本次亚组分析已证实了不同AI算法是引起异质性的原因，而且最终SROC曲线的AUC为0.9110，排除较高敏感性数据后的AUC也都在此值附近轻微波动，显示了综合了ML和DL的AI在预测肺腺癌浸润性的能力上的高效性和稳定性。

图3 a)AI模型的合并敏感度；b)合并特异度。

图4 a)AI模型的合并阳性似然比；b)合并阴性似然比。

图5 AI模型的合并诊断比值比。

图6 AI模型的SROC曲线。图7 敏感性分析结果。

当前AI取得的成就固然可喜，但依然处在初步验证和应用阶段，还有相当的改进空间，需要与临床医生密切配合才能发挥其价值。如本文中，AI对肺腺癌浸润性的诊断仍存在一定的漏诊率和误诊率(分别为14%和18%)，而对组学特征的进一步挖掘、扩大训练样本量或进一步提升有限数据集上算法的性能都是可行的解决方法。这些工作都需要医生工作的支持，其中放射科医生在判断新兴AI技术的临床应用价值上有重要作用，并在整合互补成像技术信息与临床数据的工作中担任指导者角色，从而能提供更完善的诊断信息[26]。此外，即便AI已能独立诊断，但最终仍需要放射科医生签发报告并承担法律风险[35]，因此，如果能通过立法明确医生与提供AI服务的公司间各自的责任范围，也能促进AI诊断服务的普及。最后，目前医生对AI的积极态度也为二者的深度协同提供了有利前提[36]。

本文存在以下不足：①收集的是二分类数据(IAC与非IAC)，其他二分类方法(如浸润前病变和浸润性病变)、多分类方法(如对IAC的病理亚型细分)以及包含了良性结节的分类方式均被排除，可能会对诊断价值的评判产生影响。但如前文所言，以IAC和非IAC进行区分更具有临床意义，因而基于本文分类所得的诊断价值可能更具实用性。②因部分研究无法提取四格表数据或所含样本量较少，其代表的算法的诊断价值可能无法被真实反映。③尽管Meta回归显示不同的AI算法是异质性产生的原因，但是其他方面，如患者间的差异、CT设备或扫描协议的不一致、提取特征的数量差距或组学特征的不同等，都可能是出现异质性的因素，有待深入研究。④仅纳入了以中、英两种语言发表的文章，其他语种的文献或被漏掉而造成偏倚。

综上所述，本Meta分析显示基于AI的CT影像对肺腺癌浸润性有较高的预测能力，能为临床上制定随访策略或手术方案提供更详细的参考依据，具有实际应用的价值。但AI诊断目前仍有一定的漏诊率和误诊率，获取更详实的患者资料、采用结构化的影像报告、收集多中心的大量样本、深度挖掘纹理特征和优化神经网络架构等办法将有助于进一步提升AI诊断工具的性能。同时，AI与医生的深度协同能促进工作效率的提高，增加医疗资源利用率，为实现肺癌的早筛早诊早治提供一条更科学高效的途径。