基于影像特征建立乳腺癌腋窝淋巴结转移机器学习预测模型

2023-05-25 07:55吴泽琪马梦伟刘仁懿曾凤霞陈卫国秦耿耿
国际医学放射学杂志 2023年3期
关键词:征象肿块乳腺

吴泽琪,马梦伟,刘仁懿,曾凤霞,陈卫国,秦耿耿

近年来乳腺癌的发病率呈快速上升趋势,已超过肺癌成为全球第一大癌症。早期发现并进行有效的系统治疗是降低乳腺癌死亡率的关键[1]。腋窝淋巴结(axillary lymph node, ALN)转移情况是影响乳腺癌病人预后和治疗决策的重要因素[2]。目前,ALN清扫和前哨淋巴结活检是评估ALN 状态的标准方法,但两者均为有创性操作,可能导致上肢淋巴水肿、手臂外展受限等并发症的发生[3]。影像学检查作为一种无创性的手段,在乳腺癌的诊断及预后评估中发挥着重要作用。机器学习作为人工智能的重要分支,可以通过复杂的算法来分析大量数据,识别数据中的模式并做出预测,在医学领域应用广泛。然而,机器学习模型是一种“黑盒模型”,模型内部机制难以理解,使得医生未能充分信任其结果。SHAP(SHapley Additive exPlanation)可解释技术能够评估每个特征对模型输出的贡献,可视化模型的决策过程。将医生提取的影像学征象与可解释机器学习算法相结合,有望构建一个可重复性好且易理解的预测模型。既往ALN 转移的相关研究大多仅纳入单模态的影像数据进行研究,而针对多模态影像征象对预测模型评价的研究尚少[2]。本研究旨在利用基于第5 版乳腺影像报告和数据系统(breast imaging reporting and data system,BI-RADS)[4]的乳腺癌原发灶全视野数字化乳腺X 线摄影(full-field digital mammography, FFDM)和超声(US)征象构建乳腺癌ALN 转移预测模型,探索乳腺癌原发灶的FFDM 及超声影像特征术前预测ALN 转移的价值,以期寻找一种准确、无创预测乳腺癌ALN 转移的新方法。

1 资料与方法

1.1 一般资料 回顾性分析南方医科大学南方医院2012 年1 月—2018 年12 月经病理证实为浸润性乳腺癌320 例女性病人的临床及影像资料,年龄28~77 岁,平均(49±11)岁。纳入标准:(1)术前1 个月内行FFDM 和乳腺US 检查;(2) 原发病灶在FFDM 和US 影像上均可见;(3)所有病人均经病理明确了ALN 状态。排除标准:(1)行影像学检查前接受过活检或乳腺癌治疗(包括新辅助化疗、放射治疗、内分泌治疗等);(2)影像学资料或临床资料不完整;(3)影像质量无法评估;(4)合并其他恶性肿瘤。根据ALN 病理结果是否有转移灶,将病人分为ALN 阳性组(154 例)和阴性组(166 例)。阳性组年龄28~76 岁,中位年龄48(38,56)岁,ALN 阴性组病人年龄30~77 岁,中位年龄49(43,57)岁,2 组年龄差异无统计学意义(Z=-1.764,P=0.078)。

1.2 FFDM 检查及影像分析 采用Siemens Mammomat Novation 及Hologic Selenia Dimensions 全数字化乳腺X 线机。扫描体位常规包括双侧内外斜位和头尾位,部分病例不能明确诊断时,加拍局部加压摄影或点压放大摄影。由2 名具有10 年及以上乳腺影像诊断经验的影像科医师,在对ALN 病理结果不知情的情况下,根据第5 版BI-RADS 对乳腺癌病人的FFDM 影像进行分析并提取征象,2 名医师意见不一致则商讨确定。共分析15 个征象,包括(1)乳腺腺体类型,分为脂肪类(a 型)、散在纤维腺体类(b 型)、不均匀致密类(c 型)、极度致密类(d型);(2)有无肿块;(3)肿块最大径(cm);(4)肿块密度,分为高密度、等密度、低密度或含脂肪密度;(5)肿块形状,分为圆形或卵圆形、不规则形;(6)肿块边缘,清晰/遮蔽、微分叶、毛刺、模糊;(7)可疑钙化;(8)钙化形态,模糊不定形、粗糙不均质、细小多形性、细线样或细分枝状钙化;(9)钙化分布,分为弥漫分布、区域性分布、成簇分布、线样或段样分布;(10)结构扭曲;(11)非对称致密;(12)乳头回缩;(13)皮肤增厚;(14)皮肤回缩;(15)悬韧带牵拉。

1.3 乳腺US 检查及影像分析 采用Philips IU 22彩色多普勒超声诊断仪,实时线阵高频探头,频率为7.5~10 MHz。由2 名具有10 年及以上经验的超声诊断医师,在对ALN 病理结果不知情的情况下,根据第五版BI-RADS 评估乳腺癌原发灶情况并提取征象,2 名医师意见不一致则商讨确定。共分析8个征象,包括(1)肿块最大径(cm);(2)肿块形态,圆形或卵圆形、不规则形;(3)肿块边缘,清晰、模糊、成角、微分叶、毛刺;(4)肿块方向,不平行、平行;(5)病灶内部回声,回声均匀、回声不均匀;(6)病灶后方回声,不变、增强、衰减;(7)强回声光点;(8)肿块血供,无血供、内部血供、外部血供。

1.4 预测模型构建与验证 采用Python 3.7 进行模型的构建与验证,将数据集以8∶2 的比例随机分为训练集(256 例)和测试集(64 例)。分别基于乳腺癌原发灶FFDM 征象、US 征象以及两者联合征象,采用随机森林(random forest,RF)、极端梯度提升(extreme gradient boosting, XGBoost)、逻 辑 回 归(logistics regression,LR)、支持向量机(support vector machine,SVM)算法构建ALN 转移预测模型。对数据集中的连续变量进行最大最小值归一化处理,采用最小绝对值收敛和选择算子(least absolute shrinkage and selection operator,LASSO)回归算法筛选出与ALN 转移相关的影像学征象,使用四折交叉验证调整模型参数,防止模型过拟合。在测试集中评价模型效能,评估指标包括准确度、敏感度、特异度、阳性预测值(positive predict value,PPV)、阴性预测值(negative predict value, NPV)及受试者操作特征(receiver operating characteristic, ROC)曲线下面积(area under curve,AUC)。以AUC 作为主要的评价指标,选出效能最优的FFDM 模型、US 模型以及联合模型并比较3 种模型效能,选出最优预测模型。采用SHAP 值评估每个特征对最优模型输出的贡献,以实现模型的可解释性,分析乳腺癌ALN 转移的影像预测因子。

1.5 统计学方法 采用SPSS 25.0 软件对数据进行分析。非正态分布的计量资料以中位数[M(P25,P75)]表示,2 组间比较采用Mann-Whitney U 检验。计数资料以例(%)表示,2 组间比较采用卡方检验或Fisher 确切概率检验。采用Delong 检验比较各模型的AUC。P<0.05 为差异有统计学意义。

2 结果

2.1 2 组间FFDM 和超声表现的比较 FFDM 上乳腺癌病灶表现为肿块者282 例,可疑钙化者149例。ALN 阳性组的肿块最大径大于阴性组(P<0.05),且更多见乳头回缩和皮肤增厚(均P<0.05)。2组其余FFDM 征象的差异均无统计学意义(均P>0.05),详见表1。US 上,ALN 阳性组的肿块最大径也大于阴性组(P<0.05),强回声光点的发生率高于ALN 阴性组(均P<0.05)。其余US 征象的差异均无统计学意义(均P>0.05),详见表2。

表1 2 组病人FFDM 表现比较 例(%)

表2 2 组病人US 表现比较 例(%)

2.2 模型预测效能评估 在测试集中,对基于3 种特征建立的不同机器学习模型的AUC 比较显示,RF 分类器的诊断效能最优,如图1 所示。基于3 种特征构建的RF 预测模型的AUC 比较显示,与2 种单一特征模型相比,联合特征模型的AUC 值较高(0.747),但3 种模型间AUC 值差异无统计学意义(均P>0.05);其中,FFDM 模型的特异度和阳性预测值最高,分别为0.893 和0.850。详见表3、图2。

图1 测试集中基于3 种特征构建的不同机器学习模型AUC比较

图2 测试集中基于RF 分类器的3 种模型预测ALN 转移的ROC 曲线

表3 基于RF 分类器的3 种模型对测试集乳腺癌ALN转移的预测效能

2.3 特征重要性分析 使用SHAP 值评估每个特征对最优联合模型输出的贡献,其中影响模型输出最重要的5 个征象包括2 个US 征象(肿块最大径、强回声光点)和3 个FFDM 征象(皮肤增厚、乳头回缩、乳腺密度散在纤维腺体类),且特征对模型输出的影响依次减小(图3)。其中,US 显示肿块越大、FFDM 上表现为皮肤增厚或乳头回缩时,模型预测更倾向于ALN 阳性;而在US 上未发现强回声光点或在FFDM 上乳腺腺体类型表现为散在纤维腺体类时,模型预测更倾向于ALN 阴性。图4 列举了模型对病例个体预测的决策过程。

图3 最优模型的特征SHAP 图。横轴表示SHAP 值,值为正数表示支持阳性预测,为负数则支持阴性预测;纵轴为模型纳入的特征,并根据其对模型预测结果的影响,按重要性进行降序排列;图中每个点代表一个样本,点的颜色表示特征的原始值,越接近红色表示值越大,越接近蓝色表示值越小。

图4 病人女,31 岁,左乳浸润性导管癌Ⅱ级伴左侧ALN 转移。左侧FFDM 头尾位(A 图)及内外斜位片(B 图)示左侧乳腺腺体类型为不均匀致密类,内见高密度不规则形肿块,边缘模糊,皮肤未见增厚,乳头无回缩。左侧乳腺B 超影像(C图)示不规则形实性低回声团,边缘部分呈“蟹足样”改变,内部回声不均匀,其内可见散在强回声光点。左侧乳腺彩色多普勒血流成像(CDFI)(D 图)示病灶内部及周边可探及条状彩色血流信号。E 图为最优模型预测的个体病例SHAP 特征贡献分析图,红色条表示支持阳性预测,蓝色条表示支持阴性预测,特征条的长度代表贡献的大小,模型预测该病例ALN 转移阳性的概率为0.62。

3 讨论

近年来,多项研究[5-7]基于乳腺癌原发肿瘤的MRI、US、FFDM 影像组学特征构建了ALN 转移预测模型,其AUC 分别为0.780、0.710、0.740,与本研究构建的最优模型性能相似。然而,影像组学纹理分析过程受图像采集和重建方法的影响,使得研究的可重复性及研究间的可比性减低[8]。同时,组学特征可解释性差,医生难以理解,不能对其充分信任,从而限制其在临床上的推广。与之相比,由影像科医生归纳总结的统一的影像特征(如BI-RADS)更具普适性,更易为医生理解和接受。本研究采用不同算法构建了基于BI-RADS 提取乳腺癌FFDM、US 及联合2 种特征的ALN 转移预测模型,基于RF算法构建的3 种特征模型的AUC 均达到最高,分别为0.626、0.705、0.747,证实了结合原发肿瘤的FFDM 和US 征象所构建的机器学习模型预测乳腺癌ALN 转移具有一定的可行性。本研究构建的FFDM 模型、US 模型及联合模型的AUC 有递增的趋势,但3 种模型的诊断效能差异无统计意义,联合模型的AUC 仅略高于单模态模型,这可能与样本量较少有关,后续将增加样本量行进一步研究。

SHAP 可解释技术是一种基于博弈论最优Shapley 值来解释个体预测的方法,可直观地显示特征与模型输出结果之间的关系,包括各特征对模型输出的影响力的大小及正负性,适用于各类机器学习模型的可解释性分析[9]。此外,SHAP 还能针对病例个体给出ALN 转移预测概率,并可视化模型决策过程,评估每个特征对模型输出的贡献,增加医生对模型预测结果的信任。本研究中SHAP 对模型整体预测分析结果表明,在US 征象中,肿块最大径对模型输出结果的影响最大,肿块最大径与ALN 转移阳性呈正相关,与既往文献[10-11]报道的结果相符。此外,在US 上未发现强回声光点时,模型更倾向于预测ALN 转移为阴性。Zong 等[12]研究也认为US 影像上表现为肿块微钙化是乳腺癌ALN 转移的独立预测因子,与本研究一致。在FFDM 影像中,乳腺癌出现皮肤增厚或乳头回缩时,模型倾向于预测ALN 转移为阳性。Dietzel 等[13]及牟等[14]对乳腺癌MRI 征象进行研究,也得出了类似的结论。此外,当乳腺腺体类型为散在纤维腺体类时,模型更倾向于预测乳腺癌无ALN 转移。既往研究[15-16]发现,乳腺X 线密度与淋巴结转移呈正相关。可能是由于致密型乳腺对病灶具有掩盖效应,使得肿瘤在被发现之前已进展至更具侵袭性的阶段;此外,致密腺体与乳腺癌的发生发展之间可能存在潜在的生物学关系[17]。在本研究中,乳腺腺体类型对模型预测结果的影响相对较小,后续可扩大样本量研究。

本研究仅对乳腺癌原发灶的影像特征进行研究,未纳入ALN 征象。既往研究[18]表明,纳入ALN特征可以进一步提高模型的预测效能,但将会不可避免地在重要征象分析中占重要权重,从而影响病灶本身征象与ALN 转移之间关系的分析[19]。在对ALN 转移阳性的预测病例回顾时发现,对于FFDM 及US 表现为ALN 阴性或ALN 征象难以评估的病例,本模型依旧能正确预测ALN 转移阳性。本研究不依赖于ALN 影像征象,所构建的联合模型有望应用于FFDM 及US 上ALN 表现为阴性或淋巴结征象难以评估的病例。后续将对ALN 征象进一步研究。

本研究存在一些局限性:(1)FFDM 及US 检查对乳腺癌的成像各有优势,互相补充,本研究是基于双模态影像征象构建的预测模型,模型效能较单模态模型有所提高,但实际工作中部分病例仅行一种影像检查,后续将进一步提高单模态模型效能以满足临床多方面需求;(2)本研究数据仅来自于单一医疗机构,缺少多中心数据对模型进行验证。

综上所述,基于FFDM 和US 征象的可解释机器学习模型能较好地预测乳腺癌ALN 转移,模型的可解释性可直观地展示ALN 转移预测概率及模型决策过程,揭示ALN 转移的影像预测因子,有望成为术前无创预测乳腺癌ALN 转移的新手段。

猜你喜欢
征象肿块乳腺
超声造影在周围型肺肿块穿刺活检中作用
产前超声间接征象在部分型胼胝体发育不全诊断中的价值
乳房有肿块、隐隐作痛,怎么办
体检查出乳腺增生或结节,该怎么办
得了乳腺增生,要怎么办?
Ki-67、p53、CerbB-2表达与乳腺癌彩色超声征象的关系
急性球形肺炎的CT征象分析
容易误诊的高回声型乳腺病变
慢性肿块型胰腺炎诊断和外科治疗
针吸治疗乳腺增生