吴树剑 俞咏梅 范莉芳 过永 张虎 朱浩雨 任超 徐争元
胸腺瘤起源于胸腺上皮细胞,是前纵隔最常见的原发性肿瘤,约占所有前纵膈肿瘤的47%[1]。根据世界卫生组织(WHO)2015 年最新修订的组织学分型[2],可将胸腺瘤分为低风险组(A、AB、B1 型)和高风险组(B2、B3 型)。与低风险组相比,高风险组胸腺瘤更易局部侵犯,完全手术切除的机会较小,可能需要多种模式联合治疗,肿瘤复发率和死亡率均较高[3]。因此,治疗前准确区分胸腺瘤亚型至关重要。影像组学能够从医学影像图像中高通量提取大量人眼难以识别的定量特征,这些特征能很好的反映病变的病理生理学特点[4-6]。深度学习(deep learning,DL)是目前最有效的特征表达学习方法,自动提取的深度学习或高阶图像特征可用于肿瘤分割、预后预测和治疗反应评价[7-9]。本研究纳入3 个中心增强CT 数据,旨在探讨DL 影像组学术前预测胸腺瘤风险分类的价值。
回顾性分析2015 年1 月至2023 年1 月皖南医学院弋矶山医院、池州市人民医院与芜湖市第二人民医院术后病理证实为胸腺瘤患者的资料。根据WHO简化病理分型分为低风险组(A、AB、B1 型)及高风险组(B2、B3 型)。纳入标准:1)有完整的临床与病理资料;2)术前1~2 周内行增强CT 检查;3)术前未经过放化疗。排除标准:1)图像伪影较重;2)复发性胸腺瘤。经以上标准,皖南医学院弋矶山医院共筛选139例患者(训练集),其中男性74 例、女性65 例,年龄25~75 岁,平均年龄(56.1±10.9)岁,低风险组86 例(A 型26 例、AB 型41 例、B1 型19 例),高风险组53例(B2 型37 例、B3 型16 例);池州市人民医院与芜湖市第二人民医院共筛选81 例患者(外部验证集),其中男性42 例、女性39 例,年龄23~81 岁,平均年龄(55.2±11.4)岁,低风险组51 例(A 型7 例、AB 型30 例、B1 型14 例),高风险组30 例(B2 型21 例、B3 型9 例)。
WHO 简化病理分型已成为胸腺瘤的标准分型方案:1)2015 年修订后的A 型胸腺瘤包括非典型A 型:A 型富含梭形上皮细胞,核分裂小于4 个/2 mm,TDT 阳性T 淋巴细胞缺乏或仅有极少量;非典型A型是在A 型基础上出现灶状坏死同时伴有核分裂象增加;2)B 型胸腺瘤:病灶多为圆形或多边形,参照淋巴细胞与上皮细胞比例以及肿瘤细胞的异型性分为B1、B2 与B3 型;3)AB 型胸腺瘤是指同时具有A 型与B 型的特点。
1.3.1 CT 检查与影像图像分析 患者共在4 台CT机上完成检查,分别为Siemens Somatom Definition Flash 双源CT、Philips 64 排螺旋CT、GE64 排螺旋CT、Philips 128 排螺旋CT,管电压120~130 kV,管电流200~250 mA,层厚及层间距均为5~7 mm,螺距0.6~0.8 mm。扫描时嘱患者屏住呼吸,先平扫,然后使用高压注射器通过肘静脉注射80~85 mL 碘克沙醇,流率均为3 mL/s,于注药30、60 s 时行动脉期、静脉期扫描。将扫描所得图像传至工作站,由2 名高年资放射科医师盲法阅片,意见存在分歧时协商达成一致。评估病灶的CT 定量与定性特征包括:在横轴位图像测量肿瘤长短径、位置(左、居中、右)、形态(规则、不规则)、边界(清晰、不清晰)、钙化(无钙化、弧形、簇状)、坏死囊变(有、无)、强化程度(低中度强化、明显强化)、增强均匀性(均匀、不均匀)、周围侵犯(有、无)。
1.3.2 图像分割 对收集的3 个中心的图像数据通过Python(3.5.6)软件进行预处理(包括格式转换、重采样),将体素统一标准化为1 mm×1 mm×1 mm。使用ITK-SNAP(3.6.0 版本)软件将图像灰度标准化,并基于静脉期轴位图像由以上2 名医师分别沿肿瘤边缘手动勾画感兴趣区(region of interest,ROI),并融合成三维体积感兴趣区(volume of interest,VOI),见图1。使用一站式科研平台(onekey AI)提取手工影像组学(hand-crafted radiomics,HCR)特征,每幅图像提取1 556 个特征。基于ResNet-101 卷积神经网络模型提取DL 特征,共获得2 048 个DL 特征,将提取的特征行Z-score 标准化,并对2 名医师提取的特征利用组内相关系数(intraclass correlation coefficient,ICC)进行一致性检验,保留ICC>0.80 的特征。
图1 图像分割
选择ResNet-101 模型作为DL 特征提取的基础模型,ResNet 网络又叫残差网络,由多个残差块构成(图2),是最经典的卷积神经网络模型,101 代表模型的深度,主要包括卷积层、池化层、全连接层与输出层。其中,浅层的卷积层提取图像的浅层特征;深层的卷积层提取图像的抽象特征,最后通过输出层将特征输出。一般深度卷积神经网络(convolutional neural networks,CNN)随模型深度增加,训练精度会下降,但基于残差连接的深度神经网络可弥补CNN 导致的精度退化问题,使神经网络能够更好地表达,保证模型预测的准确性。如图2 所示特征以X 向前传播,经过一个残差块学习后特征变为F(X),输出的特征变成F(X)+X,在前向传播过程中,每一层均包含了上一层的特征信息,解决了传统图像网络识别因网络层数堆叠很深模型难以收敛的问题。
图2 ResNet 网络模型的残差块
采用SPSS 26.0、R(版本4.1.2)及Python(3.5.6)软件进行统计学分析。首先采用Shapiro-Wilk检验对定量数据行正态性检验,符合正态分布用独立样本t检验,不符合正态分布用Mann-Whitney U检验。分类变量采用χ2检验或Fisher检验。单因素与多因素Logistic 回归分析筛选独立影响因素,Spearman秩相关及最小绝对收缩与选择算子算法(least absolute shrinkage and selection operator,LASSO)回归降维筛选最优影像组学特征。利用逻辑回归(Logistic regression,LR)、随机森林(random forest,RF)、决策树(decision tree,DT)、支持向量机(support vector machine,SVM)机器学习算法分别构建预测模型,利用受试者工作特征(receiver operating characteristics,ROC)曲线下面积(area under the curve,AUC)、准确度、敏感度、特异性、阳性预测值(positive predictive value,PPV)及阴性预测值(negative predictive value,NPV)评价模型的效能,模型效能比较采用Delong 检验及净重新分类指数(net reclassification index,NRI),校准曲线及临床决策曲线(decision curve analysis,DCA)评价模型校准度及临床实用度。P<0.05 为差异具有统计学意义。
训练集139 例胸腺瘤患者低风险组86 例、高风险组53 例,外部验证集81 例胸腺瘤患者低风险组51 例、高风险组30 例。训练集的低风险年龄组为(57.0±10.7)岁,高风险组为(54.6±11.3)岁,外部验证集的低风险组年龄为(55.2±11.8)岁,高风险组为(55.2±10.7)岁;训练集的低风险组肿瘤长径为(4.7±2.0)cm,高风险组为(4.6±2.1)cm,外部验证集的低风险组肿瘤长径为(5.4±2.6)cm,高风险组为(4.9±2.5)cm;训练集的低风险组肿瘤短径为(3.3±1.7)cm,高风险组为(3.2±1.9)cm,外部验证集的低风险组肿瘤短径为(3.2±1.6)cm,高风险组为(2.7±1.6)cm。训练集与外部验证集低风险组与高风险组组内的形态、边界、强化程度及周围侵犯比较差异均具有统计学意义(均P<0.05),余差异均无统计学意义(均P>0.05),见表1。低风险胸腺瘤一般CT 影像表现为圆形或椭圆形软组织肿块,密度均匀,边界清晰,增强后明显强化(图3A,3B);高风险胸腺瘤一般CT 影像表现为不规则形软组织肿块,边界不清,增强后不均匀强化(图3C,3D)。
表1 训练集组内及训练集与外部验证集组间临床影像特征比较
图3 CT 胸腺瘤CT 影像典型表现
将训练集组内比较差异具有统计学意义的影像特征(P<0.05)纳入单因素与多因素Logistic 回归分析筛选预测胸腺瘤高风险的独立影响因素,结果显示形态、强化程度及周围侵犯为预测胸腺瘤高风险的独立影响因素,其中形态及周围侵犯是危险因素,强化程度是保护因素(表2)。
表2 影像特征预测胸腺瘤高风险的影响因素分析变量
Spearman秩相关及LASSO 回归降维后共获得14 个最优特征,其中HCR 特征与DL 特征各7 个,基于最优特征构建Radscore,训练集与外部验证集Radscore 分别为0.29±0.10、0.28±0.08,利用LR、RF、DT 及SVM 机器学习算法分别构建预测模型(表3),各模型效能通过Delong 检验进行比较,结果训练集及外部验证集RF 模型与LR 及DT 模型比较差异具有统计学意义(P<0.05),余模型间比较差异均无统计学意义(均P>0.05),见表4。本研究RF 模型为最差模型,因训练集LR 模型AUC 最大,此外,LR模型可通过列线图可视化,故选择LR 模型为本研究的输出模型。
表3 LR、RF、DT 及SVM 机器学习算法构建模型的效能评价
表4 机器学习算法构建模型的效能比较
选择LR 模型为输出模型,首先对模型行5 折交叉验证(图4A),5 折交叉验证的AUC 分别为0.961(95%CI:0.900~1.000)、0.869(95%CI:0.733~1.000)、0.852(95%CI:0.712~0.991)、0.941(95%CI:0.857~1.000)、0.884(95%CI:0.748~1.000),平均为0.901。进一步构建模型的列线图(图4B),并通过校准曲线及DCA 评价模型的校准度及临床适用度,校准曲线结果表明模型的预测概率与观测概率具有较高一致性(图4C,4D),DCA 显示当阈值概率为0~0.93(训练集)、0~0.82(外部验证集)时临床均有获益(图4E,4F)。将列线图模型与影像学模型[训练集:AUC=0.715(95%CI:0.626~0.803);外部验证集:AUC=0.758(95%CI:0.651~0.866)]及Radscore[训练集:AUC=0.854(95%CI:0.790~0.919);外部验证集:AUC=0.842(95%CI:0.751~0.934)]通过Delong 检验进行比较,结果训练集与外部验证集列线图模型与影像学模型比较差异均具有统计学意义(训练集:Z=4.413 5,均P<0.001;外部验证集:Z=2.660,P=0.008),与Radscore 比较差异均无统计学意义(均P>0.05)。进一步计算Radscore 与列线图模型的NRI,结果列线图模型较Radscore 训练集NRI 提升了7.5%(Z=2.713,P=0.007),外部验证集NRI 提升了5.3%(Z=2.320,P=0.020),说明列线图模型较Radscore 预测高风险胸腺瘤的能力有提高,且差异具有统计学意义(P<0.05)。
图4 模型可视化及临床评价
增强CT 是胸腺瘤治疗前首选的影像学检查,其能够实现胸腺瘤的初步诊断并与前纵隔其他肿瘤进行鉴别诊断[10],但常规CT 实现胸腺瘤的准确风险分类具有一定的局限性。为了克服这种局限性本研究将HCR 及DL 特征结合影像学独立影响因素构建了LR、RF、DT 及SVM 机器学习模型,模型在训练集和外部验证集均能有效实现胸腺瘤风险分类,此外本研究还利用列线图将LR 模型可视化,为临床治疗前制定个性化诊疗方案提供参考依据。
既往研究表明[11],肿瘤形态不规则多见于高风险胸腺瘤,本研究结果显示高风险组形态不规则比例明显高于低风险组(64.2%vs.34.0%),与既往报道一致。这可能是因为高风险胸腺瘤恶性程度更高,肿瘤细胞的异形性更大,肿瘤细胞向不同方向区域增殖速率差异也更明显,所以易导致肿瘤形态不规则[12]。既往多项研究均显示,高风险胸腺瘤易侵犯周围脂肪、胸膜、血管,导致边界不清[13-15],本研究同样发现高风险组周围侵犯的比例明显高于低风险组。CT 强化程度能够反映肿瘤的血供特点,本研究低风险组明显强化的比例显著高于高风险组(40.7%vs.20.8%),单因素与多因素Logistic 分析强化程度是预测胸腺瘤高风险的的保护因素(OR<1),与既往相关研究结果一致[16],可能是因为A 型与AB 型胸腺瘤的肿瘤细胞一般呈短梭形或纺锤形,通常排列为血管外皮瘤样或微囊样[17]。多因素Logistic 分析肿瘤边界并非预测胸腺瘤高风险的独立影响因素,可能是因为肿瘤边界在预测中有一定价值,但价值有限。
深度学习的优势在于其神经网络有多层结构,可以自动学习层次丰富的特征。本研究选择ResNet-101 作为DL 特征提取的基础模型,因为该模型有101 层,能够提取到足够丰富的特征用于分类。机器学习属于人工智能范畴,在医学研究领域已广泛应用[18-20],本研究通过 LR、RF、DT 及SVM 机器学习算法分别建模,结果模型效能均>0.8,分类结果均比较理想,进一步通过Delong 检验发现在本研究中RF 模型效能要弱于LR 与DT 模型,其余模型效能比较均无显著性差异。Xiao 等[21]研究利用影像组学列线图预测胸腺瘤亚型,但仅使用 LR 模型构建联合影像组学列线图,并未分析其他机器学习模型的价值。Kayi等[22]选择了4 种机器学习模型区分低风险和高风险胸腺瘤,但未进一步探索联合影像组学列线图的价值。本研究不仅分析并比较了4 种机器学习模型的价值,还基于LR 模型构建联合影像组学列线图将模型可视化,此外,本研究相较于既往研究还增加了外部验证,进一步提高了本研究的临床价值。
为了量化预测准确性的相对改进,本研究引入了NRI,结果显示联合影像组学模型相较于Radscore 的NRI 均为正,且相对于0 差异均具有统计学意义,这说明Radscore 在加入影像学模型后效能有改善。既往分析模型的效能多是计算模型的AUC,但AUC 具有一定的局限性,首先AUC 不够敏感,其次AUC 的意义不太容易理解,很难转化为恰当的临床解释,而NRI 很好的克服了这些不足。目前,国内研究NRI 的应用较少,但国外相关报道并不少见[23]。
本研究存在以下不足之处:1)为回顾性分析,可能存在选择偏倚;2)患者使用多种CT 设备进行图像采集,机器的扫描参数和性能的差异也可能会对研究结果造成一定的影响;3)纳入的影像学特征多为定性特征,定性特征对观察者的放射诊断水平依赖性较强。
综上所述,基于增强CT 深度学习影像组学构建的4 种机器学习模型均能够无创、准确的实现胸腺瘤风险分类,进一步基于LR 构建的联合影像组学列线图能够提供个性化预测结果,为临床制定治疗方案提供参考依据。
本文无影响其科学性与可信度的经济利益冲突。