岳文怡,张洪涛,高珅,周娟,蔡剑鸣,田宁,董景辉,刘渊,白旭,盛复庚*
新辅助化疗(neoadjuvant chemotherapy, NAC)作为目前中晚期乳腺癌患者进行系统性全身细胞药物治疗方法之一,其作用在于降低肿瘤分期,控制潜在的转移病灶,观察肿瘤对药物的敏感性,增加手术成功的机会[1-3]。然而,高达30%的患者可能对NAC 不敏感,部分患者还伴有肝肾功能损伤及心力衰竭等不良反应[4-5]。此外,大约5%的患者在接受NAC 治疗后出现疾病进展[6]。化疗前对患者进行有效评估有助于避免潜在的毒副作用,加快不敏感患者的手术进程[7],在临床实践中,寻找一种无创、准确的方式来预测乳腺癌患者对NAC的敏感性是至关重要的。
磁共振成像(magnetic resonance imaging, MRI)较其他影像技术具有更高的软组织分辨率,评估残余浸润性病灶范围的能力更加敏感[8-9]。在NAC有效的病例中,大部分肿瘤体积缩小,在MRI上显示肿瘤在动态增强扫描序列上的强化信号减低。其中,动态对比增强MRI(dynamic contrast-enhanced MRI,DCE-MRI)可以反映组织病理状态变化及肿瘤形态学特征,是检测乳腺癌和评估疗效最敏感的方法之一[10-11]。实体瘤疗效评定标准(Response Evaluation Criteria in Solid Tumors, RECIST)是基于影像学帮助规范肿瘤对系统性治疗反应的评估,通过比较NAC前后MRI 上肿瘤直径的变化来评估疗效[12]。以前绝大多数的疗效评估是通过治疗后再次进行MRI检查并对比两次图像获得的,不能在治疗前预测疗效[13]。
影像组学作为一种新型的定量分析方法,无创地提取影像中放射科医生无法肉眼独立识别的大量定量信息,并将其转化为高层次的定量特征[14]。其常规流程包括:图像获取,图像分割,特征提取和选择,模型的建立和验证[15]。机器学习作为影像组学的一种方法,已经在肿瘤诊断、分类和预后预测等方面展现出潜力[16-17]。同时有研究表明,使用影像组学特征可以预测乳腺癌NAC 疗效[18-19],然而方法各不相同,获得的结果存在相似和差异,但均证明影像组学预测NAC疗效值得进一步研究。
之前的研究通过Miller-Payne 分级系统将病理完全缓解(pathologic complete response, pCR)率作为预测结果的参考指标[20-21]。但既往研究都是基于pCR 结果使用影像组学对NAC 进行预测,尽管手术切除得到的组织病理学检查是疗效评估的金标准,但过程有创且结果具有滞后性,而且该过程通过比较化疗前后肿瘤细胞的变化来判断,需要进行二次穿刺,部分患者可能因有创而拒绝穿刺,无法通过患者是否达到pCR进行评估[22-23]。
与既往研究的标准不同,本研究旨在基于RECIST 结果,使用机器学习组合模型拓展影像组学预测肿块型乳腺癌NAC 疗效,补充既往基于pCR 的影像组学研究,针对一些无法及时进行二次穿刺的患者,无创地预测患者对NAC的敏感性,使影像组学在预测乳腺癌NAC疗效的能力更为丰富。
本研究遵守《赫尔辛基宣言》,经中国人民解放军总医院第五医学中心科学研究伦理委员会批准,免除受试者知情同意,批准文号:KY-2022-9-70-1。在分析所有数据前,所有患者的信息都被匿名化。回顾性分析2018 年1 月到2021 年10 月在中国人民解放军总医院第五医学中心接受新辅助化疗的97例乳腺癌患者的临床及影像资料。纳入标准:(1)在治疗前接受了乳腺MRI检查并且均在同一型号仪器上扫 描;(2)接 受 了NAC 治 疗;(3)有 完 整 的 临 床RECIST 结果;(4)MRI 显示为肿块型乳腺癌。排除标准:(1)患侧乳腺病灶在MRI检查前接受过任何治疗;(2)有严重的器官衰竭和钆对比剂过敏史;(3)哺乳期、妊娠期和乳房整形手术史;(4)治疗前发生远处转移。
本研究纳入患者所接受的NAC治疗方案均为紫杉醇序贯或联合蒽环类,伴或不伴铂类。NAC 的持续时间为4~8 个月,所有患者随访至2022 年3 月,最短的随访时间为6 个月,最长随访时间为50 个月,平均随访时间为26个月。
肿瘤化疗反应是根据RECIST 1.1 中肿瘤最长径的变化来评价的。肿瘤反应评价分为四类:完全缓解(complete response, CR)、部 分 缓 解(partial response, PR)、疾病稳定(stable disease, SD)和疾病进展(progressive disease, PD)。CR 是指所有病灶消失,无新病灶出现,并维持4 周以上;PR 是指所有病灶最长径总和减少≥30%,并维持至少4 周以上;PD是指病变最长直径增加至少20%,或在化疗结束时,病变直径之和呈上升趋势,或出现一个或多个新病变;SD是指化疗后病灶最长径总和缩小但未达到PR水平,也没有进展到PD 水平的阶段[21]。根据RECIST 的结果,将患者分为两组。有效组,包括CR和PR;无效组,包括SD和PD。
所有患者的MRI 检查均采用Siemens Espree Pink 1.5 T 超导型MR 仪,使用乳腺专用8 通道线圈。患者取俯卧位,双乳下垂,紧贴线圈。本研究仅选取DCE-MRI 进行后续研究,扫描采用容积内插体部检查序列(TR 4.53 ms,TE 1.66 ms,层厚1.0 mm),分6 个时相采集图像,每个时相扫描时间60 s,按照0.2 mmoL/kg 静脉团注钆喷酸葡胺(分包装企业: 拜耳医药保健有限公司广州分公司),注射流率2.5 mL/s,并以相同流率追加20 mL 生理盐水。后续使用DCE-MRI减影第一期对病变进行特征提取。
根据2017年中国抗癌协会乳腺癌诊治指南和病理医生分析的组织病理报告中的免疫组化结果来确定乳腺癌分子亚型[24],使用雌激素受体(estrogen receptor, ER)、孕酮受体(progesterone receptor, PR)、人表皮生长因子受体2(human epidermal growth factor receptor 2, HER-2)状态和Ki-67 指数来确定分子亚型,Luminal A 型(ER/PR 阳 性,且PR≥20%,HER-2 阴性,Ki-67<20%);Luminal B 型(ER/PR 阳性,HER-2 阴性,且Ki-67≥20%或PR<20%;ER 阳性,HER-2 阳性,任何Ki-67,任何PR);HER-2 阳性(ER、PR 阴性;HER-2 阳性);三阴型(ER、PR、HER-2 均阴性)。EP 和PR 阳性定义为细胞染色大于1%。根据St.Gallen 2015 年共识会议,本研究选择了Ki-67 的界限为20%,Ki-67≥20%为高表达,<20%为低表达。HER-2 阳性定义为免疫组化检测3+或荧光原位杂交法检测阳性[25]。
DICOM 格式的MR 图像被用于进一步的影像组学分析。一名有15年工作经验的放射科主治医师使用ITK-SNAP 软件(www.itksnap.org)在DCE-MRI 减影第一期图像对97 名患者的病灶进行手动标注,因为这一期是识别和勾画病灶最清晰的一期,得到病灶感兴趣区(region of interest, ROI)。在病变的各个截面完成了标记,之后两名专业的放射科副主任医师(工作经验20 年,25 年)对97 例标记结果进行了复核,复核阶段如两名放射科医师无法确定病灶或出现其他意见分歧,双方通过协商最后达成一致。示例见图1。
图1 4 种分子亚型乳腺癌患者横断面DCE-MRI 减影第一期图像及其分割图像。1A:Luminal A 型;1B:Luminal B 型;1C:HER-2 阳性型;1D:三阴型。DCE-MRI:动态对比增强MRI;HER-2:人表皮生长因子受体2。Fig.1 Axial view of DCE-MRI subtracted phase I images and the segmented images in patients with four molecular subtypes of breast cancer.1A: Luminal A; 1B:Luminal B; 1C: HER-2 subtype; 1D: Triple negative subtype.DCE-MRI: dynamic contrast-enhanced MRI; HER-2: human epidermal growth factor receptor 2.
影像组学特征提取:使用Pyradiomics 软件对勾画的ROI 区域进行特征提取,提取的组学特征包括以下几类:(1)用于描述病灶大小和形状的三维形状特征,可以显示出病灶区域的形状和范围;(2)用于描述体素强度分布的一阶特征,包括偏度,峰度,均值、方差和熵等;(3)用于描述病灶区域的纹理特征,包括灰度共生矩阵(gray-level co-occurrence matrix,GLCM)、灰度游程矩阵(gray-level run-length matrix,GLRLM)、灰度区域大小矩阵(gray-level size zone matrix, GLSZM)、相邻灰度差分矩阵(neighborhood gray-tone difference matrix NGTDM)和灰度依赖矩阵(gray-level dependence matrix, GLDM)特征等;(4)为了强化病灶的纹理信息,还引入了高通或低通小波滤波器和不同参数的拉普拉斯-高斯滤波器对原始MR 图像进行预处理,实现去除图像噪声和增强病灶边界及纹理特征的目的,预处理后的图像与原始MR图像一起送入特征提取器中提取组学特征,最终,对于每个病灶共有1 316 个影像组学特征被提取出来,并进行Z-score 标准化;(5)除此之外,本研究还纳入了4种临床及影像信息,分别为患者年龄,分子亚型,是否存在治疗后淋巴结转移以及表观扩散系数(apparent diffusion coefficient, ADC)值在NAC 治疗前后的差异信息,这4种信息与影像特征组合到一起共同应用到模型建立中。
模型建立:本研究中采用了特征筛选器与机器学习分类器交叉组合的方案。在特征筛选上,采用了基于单变量分析和多变量分析的特征选择方法,单变量分析包括F检验、卡方检验和互信息;多变量分析采用最小绝对收缩和选择算子(least absolute shrinkage and selection operator, LASSO);在分类器上,本研究采用支持向量机(support vector machine,SVM)、随机森林(random forest, RF)、logistic 回归分析(logistic regression, LR)三种机器学习方法建立模型。通过交叉组合,共有12 种特征筛选器和机器学习分类器的组合。模型训练时,本研究采用了10次重复的五折交叉验证避免过拟合风险,在每一次交叉验证中,数据集首先被分为5份,然后使用其中4份数据集训练模型得到最佳参数,最后在剩下的1份数据中进行测试得到模型预测结果。另外,由于正负样本数据差异较大,本研究也使用了合成少数类过采样技术(synthetic minority oversampling technique, SMOTE),自适应合成抽样(adaptive synthetic sampling, ADASYN)等算法对特征值进行二次采样,避免数据不均衡对分类的影响。
采用SPSS 25.0 和Python 3.8 进行统计分析。符合正态分布的计量资料以±s表示,计数资料以例数表示。对计量资料先进行正态分布检验,采用两独立样本t检验进行有效者和无效者之间临床特征的组间比较;分类变量资料的组间比较采用卡方检验和Fisher 确切概率法。以P<0.05 为差异有统计学意义。采用曲线下面积(area under the curve, AUC)、敏感度、特异度、准确率、阳性预测值和阴性预测值来评估影像组学的预测性能。
本研究一共纳入了97 例肿块型乳腺癌患者,所有患者均为女性,年龄为31~78(50±9)岁。有效组包括2 名达到CR 和62 名达到PR 的患者,无效组包括1 名达到PD 和32 名达到SD 的患者,共产生了64 名有效组(66%)和33 名无效组(34%)。Luminal A 型13 例,Luminal B 型37 例,HER-2 阳性23 例,三阴型24 例。其中对有效组和无效组间的临床病理特征进行比较,组间的HER-2 和Ki-67 差异有统计学意义(P<0.05),其余临床病理特征比较差异均无统计学意义(表1)。
表1 肿块型乳腺癌NAC疗效有效组和无效组患者基本临床和病理特征的比较Tab.1 Comparison of basic clinical and pathologic characteristics of patients in the effective and ineffective groups of NAC efficacy in mass enhancement breast cancer
在所有交叉组合的方案中,取得最佳分类性能的特征筛选方法是单变量分析中的F检验方法,最佳的分类器是SVM模型,该组合共筛选出191个影像组学特征,AUC为0.83[95%置信区间(confidence interval,CI):0.80~0.86],准确率为77%(95%CI:74%~80%),特异度为81%(95%CI:78%~84%),敏感度为71%(95%CI:65%~77%),阳性预测值为67%(95%CI:62%~72%),阴 性 预 测 值 为85%(95%CI:83%~87%)。另外两种分类器中,LR 的AUC 为0.82,准确率为79%,而RF只得到了0.73的AUC和69%的准确率。具体的模型预测指标见表2,三种模型预测的受试者工作特征(receiver operating characteristic, ROC)曲线见图2。12 种特征筛选器和机器学习分类器的组合模型的预测效能见表3,加入4 种临床及影像信息的模型效能无提升。
表2 三种分类模型的预测指标Tab.2 Predictors of the three classification models
图2 三种模型预测结果的ROC 曲线图。ROC:受试者工作特征;SVM:支持向量机;AUC:曲线下面积。Fig.2 ROC graphs of the predicted results of the three models.ROC:receiver operating characteristic; SVM: support vector machine; AUC:area under the curve.
在用于建模的191个影像组学特征中,我们根据特征对分类影响的大小列出了10个特征和对应的权重占比(图3)。在前10 个特征中,有7 个是图像纹理特征,剩余3 个是一阶特征,其中权重最大的特征是通过滤波变换后的GLRLM 计算得到的长游程因子(long run emphasis, LRE)。测试中所有数据的预测分数图见图4。
图3 支持向量机模型中权重最大的前10个特征信息。Fig.3 Information on the top ten features with the highest weight in the support vector machine.
图4 测试中所有数据的预测分数图。红色代表有效组,蓝色代表无效组,柱的长短代表该数据被预测出的分数值,分数越高代表数据被预测出的敏感性越高。纵坐标是分类器输出的预测score(无单位);横坐标代表每一例数据。Fig.4 Plot of predicted scores for all data in the test.Red represents the effective group, blue represents the ineffective group.The length of the bar represents the value of the score that is predicted for that data, with higher scores representing higher sensitivity to the data being predicted.
本研究通过分析97例肿块型乳腺癌患者的临床和影像信息开发了一种基于F检验和SVM 的机器学习组合模型,以RECIST 结果作为参考标准,取得了0.83 的AUC 值,这验证了基于RECIST 角度的影像组学可以为后续无法及时进行穿刺活检的患者提供NAC治疗结果的预测。
影像组学在肿瘤影像学中被广泛应用,其在乳腺肿瘤影像学中的应用仍在不断增加,尤其是在预测NAC 的疗效方面[26-27]。一些纹理特征可以提供传统影像学无法提供的信息,影像组学的特征参数——熵代表图像灰度分布,熵值越高代表灰度分布不均匀,肿瘤异质性越高,这也证实了NAC疗效差异的原因,这与XIONG 等[28]和姚纯等[29]研究结果相似。本研究还加入了偏度、峰度、均值和方差的一阶特征,峰度及偏度也反映肿瘤的异质性,其绝对值越高肿瘤的异质性越强,这与王兰兰等[30]发现一阶特征与不同分子亚型的异质性有关的结果相似。本研究权重最高的特征是通过滤波变换后的GLRLM 计算得到的LRE,GLRLM 主要是对图像像素点的分布进行统计得到的纹理特征,能够提供病灶的空间信息,反映图像灰度关于方向、幅度变化以及相邻间隔的综合信息,是分析图像局部及排列规则的基础[31]。LRE 表示图像的纹理越粗,值越大,GLRLM 在良恶性肿瘤的诊断及鉴别中已有相关研究[32],本研究的结果或许可以提示GLRLM 在恶性肿瘤疗效预测方面的价值。上述研究均表明,纹理特征及临床信息可以用于乳腺癌NAC的疗效预测。
为了保证模型具有稳健高效的预测效能,我们选择了特征筛选器与机器学习分类器交叉组合,体现不同特征选择方法和不同机器学习算法的最大效能,选择LR、RF 及SVM 这三种分类器是由于它们具有较高的预测效能并且得到了广泛应用[33-34]。大部分影像组学的研究仅通过组学特征建立的模型进行后续探索,组合模型可以最大程度地提高效能,通过对比不同特征筛选方法和机器学习分类器组间的模型,证明即使同一种特征筛选方法,结合不同的机器学习算法时也会产生不同的结果,ZHANG 等[35]比较了不同组合模型预测晚期鼻咽癌预后的能力,发现RF 与RF 构建的特征选择分类器组合得到了最好的预测效能。此外,本研究得出的SVM 算法具有最高准确率和AUC 值的结果与夏冰清等[36]相似,证明SVM 算法作为一种适合小样本的模型,可以高效且稳定地处理数据集,目前也可应用于预测淋巴结转移和临床分类等问题,而RF 在样本较多的情况下会具有更好的随机性和泛化能力;LR 也主要应用于二分类问题,计算效率较高,也更适合数据量较大的情况[37-39]。同时,我们考虑到了有效组和无效组数据比率不平衡的问题,采用SMOTE 进行二次采样,这是一种用于改进随机过采样的方法,可以减少模型过拟合的问题[40]。而且ER、PR、HER-2、Ki-67对于乳腺癌的治疗和预后非常重要,本研究中有效组和无效组组间的HER-2 和Ki-67 差异有统计学意义,这也证明了生物标志物在疗效评估中的应用价值,联合多种生物标志物可能会提高预测模型的效能,未来可以加入肿瘤标志物如CEA/CA-153-3 等联合建立模型。
乳腺癌患者对NAC的反应与制订个体化治疗方案有关,但只有少数患者能达到pCR,早期预测患者的NAC反应可以减少不必要的治疗副作用以及手术创伤[41]。乳腺钼靶及超声对预测NAC 疗效有一定价值,但效果不如MRI,DCE-MRI可以提供功能信息和参数,具有较高的敏感度(76%~92%)、特异度(60%~89%)和准确率(76%~90%)[42]。本研究结果与以往预测NAC 反应的研究相似,验证了影像组学对于预测NAC 疗效具有重要作用。然而,既往研究中大多数针对pCR 的结果来预测NAC 疗效,一些大型的随机试验也证明pCR 是临床疗效的潜在替代标志物[43],EUN 等[44]对136 名实施NAC 并接受手术的乳腺癌患者使用T2WI、扩散加权成像(diffusion weighted imaging, DWI)、表观扩散系数(apparent diffusion coefficient, ADC)、DCE-MRI 的序列结合6 种机器学习分类器的模型对pCR 进行预测,AUC 达0.82。PENG 等[45]纳入了356 例NAC 后接受手术的乳腺癌患者,在卷积神经网络中加入动力学参数等信息,取得了预测pCR良好的性能。TAHMASSEBI等[46]筛选了38 名乳腺癌患者,在两个周期NAC 前后进行乳腺MRI 检查,使用DCE-MRI、DWI 和T2WI 对每个病变提取23 个特征,发现XGBoost 分类器实现了最稳定的性能和最高的准确率。国内外有许多研究均可证明使用影像组学或机器学习等方法可以预测乳腺癌患者的pCR,但存在一些没有进行手术切除而无法获得病理结果的患者,本研究旨在针对肿块型乳腺癌从RECIST 角度预测NAC 的疗效,补充了以往基于pCR 的影像组学研究,为乳腺癌NAC 疗效预测提供有效临床辅助。FAN 等[47]也曾证明基于RECIST研究DCE-MRI 影像组学特征的定量分析可作为NAC 疗效预测的重要手段;李海蛟等[48]使用ADC 的全域直方图基于RECIST 对宫颈癌进行NAC 的疗效预测,得到了较好的预测性能;同时,有研究表明,RECIST 分级可成为NAC 患者腋窝淋巴结转移的独立预测因素,达到CR 的患者腋窝淋巴结pCR 的可能性更大[49];KIM 等[50]通过列线图证明肿瘤对化疗的反应程度与腋窝pCR 的可能性增加呈显著相关,RECIST 结果对于反映乳腺癌整体的疗效都存在借鉴意义。上述研究表明,基于RECIST 结合影像组学来预测乳腺癌NAC 疗效是存在临床意义的,本研究旨在针对一些无法及时进行手术治疗的患者,从无创的角度分析预测对NAC 的敏感度,同时采用了特征筛选器与机器学习分类器交叉组合,使影像组学在预测乳腺癌NAC疗效的能力得到充分发挥。
本研究也存在着几个局限性。首先,本研究是一个单中心的回顾性研究,样本量较小,因此本研究采用了10次重复的五折交叉验证避免过拟合风险,由于正负样本数据差异较大,也使用了SMOTE 和ADASYN 等算法对特征值进行二次采样,避免数据不均衡对分类的影响,后续研究可以进一步收集多中心病例进行外部验证,扩大样本量实现非肿块型和不同分子亚型乳腺癌的预测模型;第二,本研究提取的高阶特征数量有限,后续可以考虑使用卷积神经网络、长短期记忆网络等深度学习方法与影像组学方法结合,提取更多高阶特征进行预测;第三,本研究只使用了DCE-MRI 减影第一期图像和部分临床特征,虽然加入了ADC 值的差异信息,但临床和病理信息仍较少,后续研究可以使用T2WI、DWI、ADC 图像以及TNM分期等临床信息进一步研究;第四,本研究少部分患者随访时间较短,后续将对此部分患者继续进行随访,并将随访信息纳入模型进行验证。
本研究基于RECIST 结果,开发了一种基于F检验和SVM 的机器学习组合模型,进一步证实了影像组学可以预测肿块型乳腺癌患者的NAC 疗效,补充了以往基于pCR 预测NAC 疗效的影像组学研究,可为乳腺癌NAC疗效预测提供有效临床辅助。针对一些无法及时进行二次穿刺的患者,无创地预测患者对NAC 的敏感度,未来仍需要进一步研究确定更好的模型去利用影像组学为临床提供帮助。
作者利益冲突声明:全体作者均声明无利益冲突。
作者贡献声明:盛复庚设计本研究的方案,对稿件重要内容进行了修改;岳文怡起草和撰写稿件,获取、分析和解释本研究的数据;张洪涛、高珅、周娟、蔡剑鸣、田宁、董景辉、刘渊、白旭获取、分析或解释本研究的数据,对稿件重要内容进行了修改;盛复庚获得了国家自然科学基金项目资助;全体作者都同意发表最后的修改稿,同意对本研究的所有方面负责,确保本研究的准确性和诚信。