地里亚尔·地里夏提,鲁剑德,木拉提·热夏提,热衣汉·西里甫,拜合提亚·阿扎提
(新疆医科大学第一附属医院:1.泌尿中心, 2.肾病一科,新疆乌鲁木齐 830054)
肾细胞癌(renal cell carcinoma,RCC)是泌尿系最常见的恶性肿瘤之一,每年约有40万肾癌新发病例和17万死亡病例[1]。肾透明细胞癌(clear cell renal cell carcinoma,ccRCC)、乳头状肾细胞癌(papillary renal cell carcinoma,pRCC)、嫌色性肾细胞癌(chromophobe renal cell carcinoma,chRCC)是肾癌最常见的亚型,约占全部肾脏恶性肿瘤的85%~90%[2]。目前,随着全民体检工作的推广及影像学的发展,肾癌的检出率大大提高。计算机断层扫描(computed tomography,CT)作为肾癌诊断的首选影像学手段之一,可以将肾脏肿块划分为囊性和实性肿块,为肾肿瘤良恶性的鉴别提供线索[3]。然而,相较于其他良性肾肿瘤,肾嗜酸细胞瘤[4](renal oncocytoma,RO)、肾乏脂肪血管平滑肌脂肪瘤[5](angiomyolipoma without visible fat,AMLwvf)作为临床上主要的难辨别的肾良性肿瘤[6],难以通过CT图像直接与肾恶性肿瘤辨别[7]。
近年来,人工智能辅助诊断系统在医学影像学领域取得了突破性进展,通过构建合适的机器学习模型(machine learning,ML),并结合CT等常规影像学数据,能够辅助诊疗各类疾病[8]。利用ML模型鉴别诊断肾癌的良恶性,具有效率快、效能高的优点[9]。迄今,已有不少关于基于CT的ML模型鉴别诊断肾肿瘤良恶性的研究,但尚无该方法的系统评价。因此,本研究采用Meta分析方法评价基于CT的ML模型鉴别诊断难辨别肾良性肿瘤与肾细胞癌的价值,以期为临床应用提供帮助。
1.1 纳入与排除标准纳入标准:①基于CT的ML鉴别诊断AMLwvf、RO与肾细胞癌的诊断性试验;②以病理学检查、临床诊断及随访为金标准,具有明确肾肿瘤良恶性诊断的研究;③可以直接获取或者计算获取真阳性(true positive,TP)、假阳性(false positive,FP)、假阴性(false negative,FN)、真阴性(true negative,TN)数据的研究。
排除标准:①研究对象非基于CT的ML鉴别诊断难辨别肾良性肿瘤与肾细胞癌的研究。②数据不全、无法提供评价指标或重复发表的文献。③综述、Meta分析、书信及会议摘要。④仅有肾癌亚型鉴别诊断研究。⑤非基于CT的机器学习模型鉴别诊断肾肿瘤良恶性的研究。
1.2 文献检索策略计算机检索 PubMed、The Cochrane Library、Web of Science、Medline、CNKI、万方数据库中发表的基于CT的ML模型鉴别诊断难辨别肾良性肿瘤与肾细胞癌的相关文献。中英文检索词包括:肾癌、肾肿瘤、人工智能、机器学习、深度学习、卷积神经网络、K最近邻、支持向量机、随机森林、计算机断层扫描、CT、kidney neoplasms、renal cancer、renal tumor、renal cell carcinoma、renal mass、ai、artificial intelligence、machine learning、deep learning、hierarchical learning、random forest、computed tomography等。检索年限由建库至2022年3月,根据检索结果收集符合要求的研究。
1.3 数据提取由2位研究者对纳入的文献进行筛选,提取资料并完成交叉核对,若出现意见分歧,则通过第3位研究者参与达成最终意见。资料提取内容:作者、发表年份、资料来源、研究类型、学习模型(ML算法)、样本量(验证策略)、样本基本信息、金标准、四格表数据及算法模型的敏感度、特异度、准确度等信息。
1.4 纳入文献质量评估应用英国国家健康与临床卓越研究所推荐的诊断准确性研究质量评估工具(Quality Assessment of Diagnostic Accuracy Studies-2,QUADAS-2)评估纳入的文献质量[10]。QUADAS-2质量评价的重点在于评价临床适应性和评估偏倚风险[11],由纳入的相关问题评估偏倚风险。纳入文献的基本特征和模型特征分别见表1、2,质量评价结果见图1。
1.5 统计学分析采用RevMan 5.4、Stata 14.0和Meta-Disc 1.4统计软件进行统计分析。应用Meta-Disc1.4计算Spearman相关系数检验有无阈值效应引起的异质性;采用Q检验及I2检验非阈值效应引起的异质性,I2<50%时,表明存在低异质性,采用固定效应模型;I2≥50%,则存在高度异质性,采用随机效应模型合并。若ROC曲线图呈“肩膀样”分布,则存在阈值效应,若没有则不存在。应用Stata 14.0统计软件计算各文献的合并敏感度、合并特异性、合并阳性似然比、合并阴性似然比、合并诊断比,绘制总受试者工作特征曲线(summary receiver operating characteristic,SROC),计算曲线下面积(area under the curve,AUC)。绘制Deek’s漏斗图评价文献发表偏倚性。若研究存在异质性,采用亚组分析及Meta回归探索异质性来源。亚组分析及Meta回归将根据测试集数量、验证策略、学习模型种类进行。测试集数量分为>100例测试集及≤100例测试集;验证策略分为分组验证策略及非分组验证策略(交叉验证策略、留一验证策略);学习模型分为传统ML模型[支持向量机(SVM)、K最邻近(KNN)、随机森林(RF)]及深度学习模型[卷积神经网络(CNN)]。观察亚组间差异及Meta分析各组影响的显著性(P<0.05)以确定异质性来源。
图1 纳入文献的质量评价结果
表1 纳入文献的基本特征
表2 纳入文献的模型特征
2.1Meta分析结果检索到中文文献126篇,英文文献819篇,通过阅读标题、摘要及全文筛除重复文献378篇,根据纳入和筛除标准,最终纳入文献12篇。阈值效应:Spearman相关系数0.182,P=0.572(P>0.05),说明敏感性对数与1-特异性对数不相关,提示不存在阈值效应。异质性检验发现研究间存在异质性,采用随机效应模型进行Meta分析。合并敏感性、合并特异性、阳性似然比、阴性似然比、诊断比值比分别为0.76(95%CI:0.68~0.83)、0.84(95%CI:0.78~0.89)、4.9(95%CI:3.5~7.0)、0.28(95%CI:0.21~0.37)、18(95%CI:11~28)。绘制SROC曲线,AUC=0.87,表明基于CT的ML模型鉴别诊断难辨别肾良性肿瘤与肾细胞癌的准确性较高(图2)。
A、B:基于CT的机器学习模型鉴别诊断肾肿瘤良恶性的森林图;C:基于CT的机器学习模型鉴别诊断难辨别肾良性肿瘤与肾细胞癌的SROC曲线。图2 基于CT的ML模型鉴别诊断肾肿瘤良恶性的森林图与SROC曲线图
2.2 发表偏倚采用Deek’s漏斗图评估发表偏倚,P=0.264(P>0.05),研究间近似对称中心轴分布,表明不存在发表偏倚(图3)。
2.3 亚组分析和Meta回归亚组分析结果见表3,测试集数量≤100例组和>100例分组的ML模型鉴别诊断难辨别肾良性肿瘤与肾细胞癌的准确性差异无统计学意义;非分组策略相较于分组策略合并敏感性、AUC值更高(0.79和0.63,0.87和0.82);经典ML模型相较于深度学习模型合并敏感性、AUC值更高(0.81和0.66,0.88和0.82)。Meta回归以测试集数量、验证策略、ML种类为协变量进行Meta回归分析讨论异质性来源,结果提示以上3个因素均不是异质性来源(P值分别为0.22、0.16、0.05)。
图3 基于CT的机器学习模型鉴别诊断难辨别肾良性肿瘤与肾细胞癌的Deek’s漏斗图
表3 亚组分析结果
当前,人工智能在泌尿外科诊疗过程的应用已经成为研究热点,运用ML算法模型辅助临床医生完成影像学诊断已成为该研究领域重要的组成部分。将纹理特征参数运用ML模型分析可以更加清晰地反映病灶的微观病理变化,辅助完成疾病的精确诊断、治疗方案指定、预后的定量分析等[24]。有研究证实,在肾肿瘤放射组学的研究中,采用ML算法的研究准确性高于其他算法模型,显著提升疾病诊断的准确性、稳定性[25]。在泌尿外科诊疗中良恶性肾肿瘤的治疗方案不同,例如:肾错构瘤的治疗以消除症状、预防破裂出血及保护肾功能为主,由于外科手术可能导致肾功能不全等不良结果,无症状或微小肿瘤患者应尽量避免行肾切除术[26]。而对于非转移性ccRCC,乃至国际转移性肾细胞癌联合数据库评分低危的转移性ccRCC都以手术治疗作为优先选择,在无法确定癌组织边缘时甚至需要一定程度的扩大手术范围。尽管大多数肾良性肿瘤与恶性肿瘤通过结合临床特征及影像学特点可以分辨,但仍有许多良性肾肿瘤患者因误诊而进行不必要的肾切除术。AMLwvf和RO是典型的难与肾恶性肿瘤辨别的良性肿瘤,前者由于脂肪含量较少,其病灶的密度、信号、囊变在CT上与RCC的区别不大[27];后者则由于与chRCC均起源于远端小管或集合管闰细胞,在CT上与chRCC极为相似。而将肿瘤内部异质性特征量化、可视化的影像组学纹理分析技术通过ML模型的分析可以有效地鉴别难辨别肾良性肿瘤与肾细胞癌[28],为临床患者的精确诊疗和预后判断提供有效的证据。
本研究采用Meta分析的方法,系统评价基于CT的ML模型鉴别诊断难辨别肾良性肿瘤与肾细胞癌的准确性。共纳入12项研究24组四格表数据,AUC值为0.87,说明基于CT的ML模型鉴别诊断难辨别肾良性肿瘤与肾细胞癌的准确性较高。合并敏感性、特异性分别为76%和84%,说明模型分辨肾细胞癌的准确性高于难辨别肾良性肿瘤。诊断比值比数值越大表明判别效果越好,本研究诊断比值比为18,同样表明了模型的较高诊断价值。
本研究异质性检验显示Q=21.445,I2=91%,异质性较大。Spearman相关系数0.182,P=0.572(P>0.05),说明敏感性对数与1-特异性对数不相关,提示不存在阈值效应。亚组分析中,测试集数量≤100例组与>100例组的ML模型鉴别诊断难辨别肾良性肿瘤与肾细胞癌的准确性差异无统计学意义;非分组策略相较于分组策略合并敏感性、AUC值更高(0.79和0.63、0.87和0.82),经典机器学习模型相较于深度学习模型合并敏感性、AUC值更高(0.81和0.66、0.88和0.82)。然而,由于亚组研究数据存在组内异质性,因此对该亚组结果的解读需更加谨慎,需要更多高质量研究来证实亚组间差异。Meta分析表明测试集数量、验证策略、ML种类3个因素均不是异质性来源。然而,经典ML模型与深度学习模型的Meta回归显著性为临界值(P=0.05),而两者合并敏感性、AUC值又存在差异。因此,学习模型差异可能是潜在出现异质性的原因,因纳入分析的研究数量、质量限制而没有得到显著性结果。
因此,笔者认为造成异质性的因素可能是ML差异、提取特征的差异、CT对比剂类型、扫描厚度等原因。此外,本系统评价存在一定的局限性:①仅纳入了中英文文献,存在语言偏倚的可能;②由于金标准为组织病理学结果,仅有手术或肾穿患者纳入了研究,存在选择偏倚;③研究的样本量少,且全部为回顾性研究,缺乏前瞻性研究,可能存在选择偏倚。
肾肿瘤放射组学的研究是近年泌尿外科影像学发展的热门,基于纹理特征的纹理分析在多个研究中已经证实了其优越的诊断能力[29]。事实上,纹理特征仅仅是ML模型学习特征的一部分,影像学图像中的组织形状本身就可以成为ML的学习对象,这在肺肿瘤的模型研究中已经得到了验证[30]。因此,通过多元数据构建的多模态机器学习模型有望在未来成为肾肿瘤良恶性鉴别的突破口。
综上,本研究结果显示,基于CT的ML模型在鉴别诊断难辨别肾良性肿瘤与肾细胞癌的敏感性、特异性及AUC值较高,具有临床推广应用潜力。受纳入文献数量和质量的限制,上述结论尚需开展更多高质量研究予以验证。