基于机器学习的MRI 影像组学列线图模型预测早期乳腺癌患者腋窝淋巴结负荷的价值

2024-01-11 03:23罗项超林桂涵陈炜越陈春妙应海峰纪建松

浙江医学 2023年23期

罗项超林桂涵陈炜越陈春妙应海峰纪建松

腋窝淋巴结（axillary lymph node，ALN）转移情况是影响乳腺癌临床分期、治疗决策以及预后评估的重要因素[1]。近年来，随着精准微创诊疗理念的发展，前哨淋巴结活检（sentinel lymph node biopsy，SLNB）已逐渐替代腋窝淋巴结清扫术（axillary lymph node dissection，ALND）成为早期乳腺癌腋窝分期的标准术式[2]。然而，对于前哨淋巴结阳性的患者常规进行ALND 有可能导致上肢功能障碍和淋巴水肿等并发症，严重影响患者的生活质量[3]。既往研究证实，约30%～70%前哨淋巴结阳性患者并未从后续的ALND 中获益[4]。此外，Z0011 临床试验结果显示，对于临床T1～2期、拟行保乳手术和术后全乳放疗的患者，若ALN 处于低负荷时，SLNB 可达到与ALND 相似的控制率[5]；而ALN 高负荷的患者通常是新辅助全身治疗和ALND 的候选对象[6]。因此，术前无创识别早期乳腺癌ALN 负荷具有重要意义。在临床上，MRI 检查是术前评估乳腺癌侵犯范围和ALN 转移情况的主要检查手段。然而，常规MRI 检查主要依赖于放射科医师的主观经验，缺乏客观量化指标。影像组学通过从影像图像中提取肉眼不可见的定量特征，并利用机器学习算法进行分析和预测，可以为乳腺癌的诊断、分型、分级和预后评估提供重要的参考[7]。本研究旨在探讨基于机器学习的MRI 影像组学列线图模型在术前预测早期乳腺癌患者ALN 负荷中的应用价值，现报道如下。

1 对象和方法

1.1 对象回顾2015 年1 月至2022 年6 月丽水市中心医院经手术病理检查证实的早期乳腺癌女性患者（临床T1或T2期）377 例，年龄31～84（52.09±10.40）岁。纳入标准：（1）术前2 周内进行乳腺MRI 检查；（2）浸润性乳腺癌；（3）ALN 触诊阴性患者；（4）接受SLNB或ALND，且病理检查结果明确。排除标准：（1）肿瘤最大径＞5 cm；（2）MRI 图像质量不佳；（3）既往有恶性肿瘤病史；（4）术前接受新辅助化疗或放疗。根据病理检查结果分为低负荷组（阳性ALN≤2 枚）303 例和高负荷组（阳性ALN＞2 枚）74 例。将所有患者按7∶3的比例随机分配至训练集264 例（低负荷组212 例，高负荷组52 例）和验证集113 例（低负荷组91 例，高负荷组22 例）。本研究经本院医学伦理委员会审查通过（批准文号：科研医伦审第2023-355 号）。

1.2 方法收集所有患者的临床病理资料，包括年龄、组织学分级、雌激素受体（estrogen receptor，ER）、孕激素受体（progesterone recepeor，PR）、人表皮生长因子受体2（human epidermal growth factor receptor 2，HER-2）和Ki-67。

采用德国西门子公司Area 1.5 T MRI扫描仪及32通道乳房线圈。扫描序列主要包括（1）频率衰减反转恢复T2WI序列：重复时间（repetition time，TR）4 900 ms，回波时间（echo time，TE）57 ms，矩阵448×336，层厚4 mm；（2）弥散加权成像序列：TR 9 100 ms，TE1/TE2：89 ms/158 ms，矩阵192×192，层厚4 mm，b=0 和800 s/mm2；（3）动态对比增强MRI（dynamic contrast enhanced MRI，DCE-MRI）采用三维快速小角度激发序列，TR 4.5 ms，TE 1.75 ms，翻转角10°，层厚1.5 mm，无间距，采集矩阵448×425，视野36 cm×36 cm。共采集6 期图像，每期时相60 s，第1 期蒙片采集结束后，使用双筒高压注射器经静脉注射Gd-DTPA（中国广州康臣药业有限公司），剂量0.1 mmol/kg，注射速率2.5 mL/s，随后用0.9%氯化钠溶液20 mL 冲洗。

1.3 MRI 特征评估由2 位分别具有8 年和14 年胸部影像诊断经验的主治医师和副主任医师以双盲法独自评估MRI 特征。当判读结果存在分歧时，通过协商达成一致。分析MRI 特征包括（1）肿瘤最大径：在DCE-MRI 第2 期图像上选取显示病灶的最大层面测量其最大径；（2）乳腺影像报告与数据系统（breast imaging reporting and data system，BI-RADS）分级：按照2016 年美国放射协会第五版将乳腺肿瘤分为4 级（包括4A、4B、4C）和5 级；（3）MRI 检查报告淋巴结状态：参照文献[8-9]，阳性淋巴结应至少满足以下一种情况：①短径增大（＞10 mm）；②淋巴门消失；③内部坏死；④不均匀明显强化；⑤相互融合等。

1.4 图像分割及特征提取将DCE-MRI 第2 期图像上传至Radcloud 平台（版本7.1，http://Radcloud.cn/）进行影像组学分析。由1 位具有8 年胸部影像诊断经验的主治医师沿着病灶内缘逐层手动勾画，最终通过融合生成全肿瘤感兴趣容积（volume of interest，VOI）。随后由另1 位具有14 年胸部影像诊断经验的副主任医师进行复阅。对于VOI 范围判读不一致的患者，经协商达成一致。提取特征的种类包括：一阶统计量、形态特征和纹理特征。一阶统计量是定量描述MRI图像内体素强度分布的常用指标，形态特征是反映病灶区域形状和大小的三维特征，纹理特征是评价区域的异质性差异。

1.5 特征筛选及模型构建依次采用方差阈值、单变量选择、最小绝对值收缩和选择算子（least absolute shrinkage and selection operator，LASSO）方法来减少冗余特征并选择最优影像组学特征。在方差阈值法中，剔除阈值≤0.8 的特征；单变量选择法保留P＜0.05 的特征；LASSO 回归采用十倍交叉验证法筛选出与ALN负荷高度相关的最优特征子集，并绘制相关性热图。基于上述特征分别构建了5 种机器学习分类器，包括K 近邻（K-nearest neighbo，KNN）、支持向量机（support vector machine，SVM）、逻辑回归（logistic regression，LR）、随机森林（random foresst，RF）和极端梯度提升决策树（extreme gradient boosting，XGBoost），选择验证集中AUC 最高的分类器作为最佳影像组学模型，并将其结果转换为相应的影像组学评分（radiomics score，Rad-score）。

1.6 统计学处理采用R 4.1.2 统计软件。计量资料以表示，组间比较采用两独立样本t检验；计数资料以例（%）表示，组间比较采用χ2检验。将单因素分析中P＜0.05 的指标进一步行多因素logistic 回归分析，并基于临床危险因素和Rad-score 构建列线图模型。绘制ROC 曲线评价不同模型的诊断效能，计算AUC、灵敏度、特异度和准确度，不同模型间AUC 的比较采用Delong 检验。使用“rms”包进行1 000 次重复抽样绘制校准曲线，以Hosmer-Lemeshow 检验评价列线图的稳健性。为了进一步验证其临床实用性，使用“rmda”包进行决策曲线分析（decision curve analysis，DCA），计算不同阈值概率下的净效益。P＜0.05 为差异有统计学意义。

2 结果

2.1 训练集和验证集患者临床、病理及常规MRI 特征的比较在训练集中，MRI 检查报告淋巴结状态在低负荷组和高负荷组间的差异有统计学意义（P＜0.01），并且在验证集得到验证（P＜0.01）；而年龄、组织学分级、ER、PR、HER-2、Ki-67、肿瘤最大径及BI-RADS分级在低负荷组和高负荷组间的差异均无统计学意义（均P＞0.05），见表1、2。

表1 训练集患者临床、病理及常规MRI特征的比较

表2 验证集患者临床、病理及常规MRI特征的比较

2.2 影像组学特征筛选在训练集中，从每例患者的DCE-MRI 图像中提取1 688 个影像组学特征，方差阈值和单变量选择法分别筛选得到615、527 个特征。最终，经LASSO 回归筛选得到16 个与ALN 负荷相关的影像组学特征，组成最优特征子集。最优特征与相应的相关性热图显示，最优特征间相关性不强，可全部用于构建机器学习分类器，见图1。

图1 LASSO 回归筛选特征示意图（A：系数路径图，表示随着最佳权重参数λ 的变化，纳入影像组学特征的数量和对应的回归系数；B：交叉验证图，运用10 折交叉验证确定参数λ 的最优值，最终获得16 个与ALN 负荷相关性最强的影像组学特征，构成最优特征子集；C：相关性热图，提示最优特征之间存在弱相关性）

2.3 5 种机器学习分类器的诊断效能 ROC 曲线分析结果显示，5 种机器学习分类器在训练集中的AUC范围为0.703～1.000，在验证集中的AUC 值范围为0.560～0.762，见表3、图2。其中KNN 表现过拟合且效能最差，而SVM 效能最优，选择其作为最佳影像组学模型。验证集中不同机器学习分类器间的AUC 比较结果见表4。

图2 不同机器学习分类器预测ALN 负荷的ROC 曲线（A：训练集；B：验证集）

表3 5种机器学习分类器在训练和验证集的诊断效能比较

表4 验证集中不同机器学习分类器间AUC的比较（P 值）

2.4 列线图模型的构建与验证采用logistic 回归构建基于MRI 检查报告淋巴结状态的临床模型；同时，基于多因素logistic 回归分析建立联合MRI 检查报告淋巴结状态和Rad-score 的列线图模型，见图3。在训练集中临床模型、影像组学模型及列线图模型的AUC分别为0.713、0.825、0.887；在验证集中临床模型、影像组学模型及列线图模型的AUC 分别为0.675、0.762、0.818，见表5。Delong 检验显示，在训练集和验证集中，列线图模型的AUC 均明显高于临床模型（Z=5.920、4.580，均P＜0.01）。校准曲线显示列线图模型对ALN高负荷的预测概率和实际结果有较好的一致性，Hosmer-Lemeshow 检验显示训练集及验证集均具有较好拟合度（均P＞0.05）。DCA 结果表明，当训练集中阈值概率为0.03～1.00 和0.03～0.74、验证集中阈值概率为0.02～1.00 和0.02～0.61 时，列线图模型的净获益优于临床模型和影像组学模型，见图4。提示该列线图模型在预测早期乳腺癌患者ALN 负荷方面具有更高的临床应用价值。

图3 预测早期乳腺癌患者ALN 高负荷发生概率的列线图

图4 训练集和验证集中临床模型、影像组学模型及列线图模型的ROC 曲线、校准曲线、DCA 结果（A：训练集ROC 曲线；B：验证集ROC 曲线；C：训练集校准曲线；D：验证集校准曲线；E：训练集DCA；F：验证集DCA）

表5 训练集和验证集中临床模型、影像组学模型及列线图的诊断性能比较

3 讨论

在本研究中，笔者基于DCE-MRI 图像的影像组学特征建立了5 种机器学习分类器用于术前预测早期乳腺癌患者的ALN 负荷情况。结果显示，SVM、LR 和XGBoost 均展现出良好的预测效能，其中SVM 在验证集中的AUC 最高，因此选择其作为最佳影像组学模型。为了构建一个可视化且易于理解的预测模型，笔者构建了一个包含Rad-score 和MRI 检查报告淋巴结状态的列线图模型。结果证实，该列线图模型在预测ALN 负荷方面具有较大的潜力，可用于辅助早期乳腺癌患者的临床治疗决策。

近年来，随着乳腺外科治疗理念逐步向个体化和精准治疗的发展，临床上对于ALN 的管理方式也逐渐从单一状态转变为负荷分类。尽管SLNB 具有创伤小、灵敏度高和特异度高等优点，但其仍属于有创手术，并存在9.8%的假阴性率[10]。因此，如何在术前无创准确化评估ALN 负荷已成为当前临床实践中亟待解决的热点问题。影像学检查在临床淋巴结分期中扮演着至关重要的角色。罗海愉等[11]研究发现，腋窝超声阳性的患者比腋窝超声阴性的患者存在高淋巴结负荷的比例更高（P＜0.01），表明腋窝超声检查有助于识别ALN 负荷。本研究发现，ALN 高负荷组中MRI报告淋巴结阳性的比例明显高于低负荷组[61.54%（32/52）比20.28%（43/212），P＜0.01]。然而，进一步ROC 曲线分析显示，基于MRI 检查报告淋巴结状态建立的临床模型在预测ALN 负荷时的效能表现一般，训练集和验证集的AUC 分别为0.713 和0.675，这与此前Zhang等[12]研究结果相似。推测可能是由于炎性增生性淋巴结和转移性淋巴结在形态学征象上存在诸多重叠所致[13]。因此，仅依靠常规MRI影像学特征可能难以鉴别早期乳腺癌患者的ALN 负荷情况，有必要在临床实践中寻找另一种更为客观、准确的方式弥补上述不足。

医学图像中的许多细微变化很难用肉眼观察到，但它们可以通过影像组学特征的形式来呈现，从而表征和解释肿瘤生物学中的细微变化，并为临床实践提供及时有效的信息[7]。此前已有几项研究报道了影像组学在预测早期乳腺癌患者ALN 负荷方面的潜在价值。Wu 等[14]探讨了基于对比增强X 线图像的影像组学特征在评估ALN 负荷的可行性，结果显示由6 个纹理特征建立的影像组学模型表现出较好的诊断效能，在训练集和验证集的AUC 分别为0.91、0.76。然而，X线图像存在堆叠效应，这可能会导致无法提取完整的肿瘤信息。Gao 等[15]表明基于超声图像的影像组学模型可较好地预测早期乳腺癌患者的ALN 负荷，在训练集和验证集中的AUC 分别为0.833、0.715。但是超声图像的采集容易受操作医师经验水平的影响，可能造成结果的可重复性较差。与X 线和超声相比，MRI 具有高软组织分辨率、无电离辐射以及不易受操作医师个体差异干扰等优势。而DCE-MRI 是乳腺MRI 检查中最重要的序列之一，它可同时获得肿瘤的血流动力学和形态学信息，因此更能体现乳腺癌的异质性。在本研究中，笔者基于DCE-MRI 图像提取了1 688 个影像组学特征，经降维得到16 个与ALN 负荷高度相关的特征。进一步基于上述特征建立了5 种机器学习分类器，结果显示SVM 分类器的诊断效能最为稳定，在训练集和验证集中的AUC 分别为0.825、0.762。一种可能的解释是SVM 能够在模型的复杂度和学习能力之间寻求最佳的平衡点，从而在有限样本数据中实现最大的推广能力，尤其在解决小样本、高维和非线性等问题方面具有许多独特的优势[16]。相比之下，尽管KNN 在训练集的AUC 高达1.000，但验证集的AUC 仅为0.560，即存在过拟合现象。分析可能是由于该分类器在训练时的复杂度过高，过度拟合了样本集中的噪声，忽略了真实数据的分布[17]。为了进一步提升模型的诊断效能，笔者将Rad-score 和MRI 检查报告淋巴结状态相结合建立列线图模型。结果显示，在训练集和验证集中该列线图模型均表现出良好的诊断效能（AUC 分别为0.887 和0.818），且明显高于临床模型（AUC 分别为0.713 和0.675），这表明该列线图模型在评估早期乳腺癌患者ALN 负荷方面具有良好的应用价值。

本研究仍存在一些局限性：（1）这是一项单中心回顾性研究，不可避免地存在部分偏倚，未来需扩大样本规模、设计多中心和前瞻性研究加以验证；（2）仅纳入浸润性乳腺癌这单一类型，列线图在评估其余病理类型乳腺癌ALN 负荷的价值仍有待探索；（3）笔者仅分析了病灶强化最为明显的DCE-MRI 第2 期图像。

综上所述，基于机器学习的MRI 影像组学列线图模型在早期乳腺癌患者ALN 负荷中具有较高的预测价值，有望为乳腺癌患者的个体化诊治提供重要依据。