复旦大学附属肿瘤医院放射诊断科,复旦大学上海医学院肿瘤学系,上海 200032
乳腺癌新辅助化疗(neoadjuvant chemotherapy,NAC)是指对于未发现远处转移的初治乳腺癌患者,在计划中的手术治疗或手术加放疗的局部治疗前进行的全身系统性化疗。新辅助治疗的目的:① 将不可手术的乳腺癌降期为可手术乳腺癌;② 将不可保乳的乳腺癌降期为可保乳乳腺癌;③ 获得体内药物敏感性相关信息,从而指导后续治疗以期改善患者预后。
早期、客观、准确的疗效评估是NAC中至关重要的环节。《中国乳腺癌新辅助治疗专家共识(2019年版)》建议在治疗前后进行超声、乳腺X线摄影(mammography,MG)及乳腺磁共振成像(magnetic resonance imaging,MRI)检查,其中MRI是优选的评估方法,尤其是对于需要降期保乳的患者[1]。影像学评估贯穿于整个NAC过程,熟悉各类影像学检查在疗效评估中的作用及特点至关重要。
传统影像学包括MG和超声,仍然是目前评估NAC疗效时最常用的检查方法。根据美国放射学会(American College of Radiology,ACR)的推荐,在基线时MG、超声的推荐级别与MRI一致,均为最高级别9级[2]。治疗中和治疗后的推荐级别MRI仍为9级,而超声和MG则分别降为8级和7级。但如果治疗结束后MG和超声显示均为阴性,病理完全缓解(pathologic complete response,pCR)可能性较高,可达80%[3]。这两种传统影像学方法主要依靠病灶大小或形态特征的改变来评估肿瘤反应,优势与不足均很明显,一般建议二者联合应用。近年来基于此平台研发的新技术,如数字乳腺断层摄影(digital breast tomosynthesis,DBT)、对比增强乳腺X线摄影(contrast-enhanced mammography,CEM),以及超声弹性成像和超声造影等,拓展了传统影像学技术的研究并增加了临床应用价值。
MG评估病灶的准确率较低,但是由于其应用广泛,目前仍是大部分医院用于评估疗效的主要检查手段。研究显示,MG对于治疗前边缘清楚(可见边缘>50%)的病灶评估其治疗后残留的准确率较高,其余则评估价值有限[4],主要因为:① 乳腺纤维腺体的量会对评估产生非常大的影响,极度致密型乳腺的评估准确率仅约30%;② 难以识别多中心、多灶性病变;③ 位置较深的病灶以及淋巴结无法被摄入;④ 无法评估胸壁情况;⑤ 多项研究提示NAC后钙化的存在与疗效、是否pCR、是否浸润性癌或原位癌残存均无明显相关性[5],而一般情况下治疗后残留的钙化灶通常被评估为残留病灶,影响预测pCR的准确性。
DBT对病灶范围的评估受腺体致密程度的影响相对较小[6-7],在预测pCR和评估治疗后残留病灶大小的能力优于MG、超声,但劣于乳腺MRI[8]。DBT评估能力主要受化疗后病灶纤维化、坏死等变化的影响,常出现对病灶的低估[4],因此,ACR在NAC疗效评估的推荐中建议DBT仅用于对基线病灶的评估[2]。
CEM近年来逐步应用于NAC疗效评估,与MG相比,CEM具有更高的灵敏度、特异度、阴性预测值(negative predictive value,NPV)与阳性预测值(positive predictive value,PPV),评估残留肿瘤大小与病理学检查所见的肿瘤大小具有较高的相关性[组内相关系数(intraclass correlation coefficient,ICC):0.76~0.92 vs 0.49~0.60]与观察者之间一致性(0.94 vs 0.88)[9]。CEM在预测疗效方面有较大的优势,预测化疗有效的灵敏度、特异度为40%、91%,预测pCR的灵敏度、特异度为100%、83%,与乳腺MRI相仿,CEM拥有较高特异度的特点使其有望成为预测NPV的理想影像学方法。CEM同时能够准确地区分化疗有效组与无效组(45/46例),但也有学者认为对于化疗无效者其评估灵敏度下降(33%)[10-12]。研究显示在不同的治疗时期CEM与MRI测量病灶的大小一致性存在差异,在新辅助治疗前、治疗中与治疗结束时二者测量病灶大小的一致性分别为0.96、0.94、0.76,且均容易出现对残留病灶的低估[11]。
超声检查能够较为清楚地显示病灶,测量残留病灶大小,与病理学检查所见的肿瘤大小相关性较高,同时能够通过观察血流的丰富程度及血流参数的变化观察肿瘤变化,评估疗效的准确率高于MG,对pCR的NPV较高。超声检查的另一优势在于对腋窝淋巴结的评估,研究显示NAC后超声对腋窝淋巴结评估的灵敏度与特异度高于乳腺MRI与PET/CT,治疗后腋窝淋巴结恢复正常超声形态特征者具有较高的pCR。影响超声评估疗效准确性的主要因素:① 受操作者的影响较大;② 难以准确地评估多中心、多灶性病变;③ 对非肿块型、非向心性退缩病灶评估能力较低;④ 病灶治疗后纤维化与残留不易鉴别。
随着超声技术的不断发展,超声弹性成像、超声造影等新技术能够从病灶弹性、病灶内微循环与组织血流灌注等不同方面提高疗效评估的灵敏度与特异度,准确率明显优于常规超声。研究显示治疗前肿瘤的硬度与治疗有效性相关,低弹性肿瘤的pCR率显著高于高弹性肿瘤[13]。超声弹性成像能够在治疗早期通过肿瘤硬度的变化准确地区分治疗有效组与无效组,灵敏度与特异度分别为73%、86%,在治疗第2周期有效组硬度显著降低,无效组硬度变化差异无统计学意义。超声弹性成像在预测pCR方面也有一定的价值,1项对比超声剪切波弹性成像与MRI的对比研究显示,病灶平均硬度降低的程度与常规超声上肿瘤直径二者联合时预测pCR的能力接近于MRI[曲线下面积(area under curve,AUC)为0.92 vs 0.96][14]。NAC治疗后乳腺癌组织的新生血管减少,异质性增加,超声造影能够通过定量评估肿瘤的血流变化以及内部情况评估疗效,准确率高于常规超声,与MRI相仿。在评估残留病灶大小时与病理学检查所见有较高的相关性,甚至高于MRI(r=0.75 vs 0.42),在预测pCR时与MRI相仿[15-16]。
乳腺MRI是评估NAC疗效灵敏度、准确率最高的检查方法,拥有多项评价指标且不受腺体致密度的影响,对多中心、多灶性病变检出率高,与传统影像学方法相比具有极大优势。除了从形态学上评估肿瘤,乳腺MRI还拥有多种扫描技术能够通过血流动力学、功能学等技术,早期、全面并且准确地评估肿瘤变化,包括定量动态增强MRI(dynamic contrast-enhanced MRI,DCE-MRI)、扩散加权成像(diffusion-weighted imaging,DWI)、灌注成像(perfusion-weighted imaging,PWI)、磁共振波谱(magnetic resonance spectroscopy,MRS)等成像技术。
评估疗效含两方面内容:评估是否达到pCR;未达pCR者评估残留病灶范围。关于乳腺MRI预测pCR的效能,文献报道不一致但结果均不甚理想,最新的研究显示其灵敏度为75%,特异度67%,PPV为48%,NPV为87%,准确率69%[17]。就目前而言,仍不能凭借MRI的阴性结果使患者豁免手术。评估残留肿瘤的假阴性主要与肿瘤细胞及血管减少有关,假阳性主要与纤维化、肿瘤细胞坏死相关。
多个临床试验数据显示乳腺MRI对NAC后评估残留肿瘤与实际病理学检查所见肿瘤大小符合率依然有一定差距,2019年圣·安东尼奥乳腺癌大会(San Antonio Breast Cancer Symposium,SABCS)公布了4项有相似结果的临床研究,对影像学达到或接近影像学完全缓解(radiologic complete remission,rCR)的患者行真空辅助活检(vacuum-assisted biopsy,VAB)或空芯针活检(core-needle biopsy,CNB),随后行手术,判断影像学评估pCR的准确率,以及是否能够通过影像学引导下的病理活检代替手术标本判断pCR,金标准为手术后病理学检查结果。由德国海德堡大学牵头的RESPONDER试验共入组398例患者,结果并不理想,VAB的假阴性率为17.8%,但进一步分析发现,如果影像学与VAB均未见残留病灶时,假阴性率可降低至6.2%[18]。第2项研究为美国MD安德森癌症中心牵头的多中心数据分析,共纳入166例患者,假阴性率为18.7%,但在亚组分析中,将容易出现残留病灶的浸润性小叶癌剔除,纳入符合NAC以下标准的高选择患者76例(影像学提示残留肿瘤<2 cm、影像学指导下采用VAB、活检灶≥6处),则假阴性率降至到3.2%[19]。第3项研究为美国匹兹堡大学医学中心的Ⅱ期临床试验NRG BR 005,共入组98例影像学(包括MRI、US、MG)达到或接近rCR的患者,假阴性率为77.5%,灵敏度为50.0%,仍然误判了较多存在残留病灶的患者[20]。第4项来自芬兰的MICRA试验入组了167例患者,结果显示被MRI评估为rCR的病灶中仅有59%达到pCR,而在评估为有残留的病灶中有28%实际上达到了pCR,NPV与PPV都不十分准确[21]。显然就目前的数据而言,通过影像学预测pCR尚无法达到临床预期,但在所有的影像学评估方法中MRI仍然是评估残留肿瘤和预测pCR最准确的方法。
乳腺MRI在多个研究中被证明能够预测远期疗效。ACRIN 6657试验显示肿瘤体积能够较肿瘤长径更好地预测患者pCR和无复发生存[22]。对于NAC后行保乳手术的患者,术前MRI中含有非肿块强化病灶存在相对较高的局部复发风险[23]。尽管rCR并不能完全代表真正的pCR,但是前者在预测远期疗效方面仍有很大的作用,研究显示NAC后能够达到rCR的患者3年无复发生存率明显高于非rCR人群;如果同时达到rCR与pCR,则3年无复发生存率与总生存率均优于其他组[17]。乳腺MRI的征象也与手术切缘相关,治疗前表现为边界相对清晰的肿块、肿块伴卫星灶、治疗后病灶呈向心性退缩这3个征象是NAC后手术切缘阴性3个独立的相关因素。对乳腺MRI背景实质强化(background parenchymal enhancement,BPE)的研究显示,BPE在NAC疗程中逐渐减弱,BPE的变化与肿瘤大小的变化相比能更早地预测pCR,第2疗程后BPE的变化预测pCR的AUC为0.71,早于肿瘤大小变化的最佳预测时间[24-25]。
多种因素会不同程度地影响评估的准确率,在评估疗效时应充分考虑这些因素。① 肿瘤分子亚型:肿瘤分子亚型是评估残留病灶、预测pCR准确率的关键影响因素。不同分子亚型乳腺癌MRI测量残留病灶准确率依次为:三阴性>人表皮生长因子受体-2(human epidermal growth factor receptor 2,HER2)过表达型>Luminal B型>Luminal A型[26-27],Luminal型中常见对病灶的低估[26-28]。预测pCR的PPV与NPV在三阴性乳腺癌中均为最高,HER2过表达型乳腺癌的PPV仅次于三阴性乳腺癌。此外,乳腺MRI对高核级别、高增殖乳腺癌的评估准确率较高[29]。② 基线病灶形态:基线MRI征象对评估残留病灶大小准确率的影响差异有统计学意义,表现为边缘光整的肿块、局灶性非肿块强化者准确率较高,而弥漫性非肿块强化的准确率最低[29]。③ 病灶退缩形式:病灶的退缩在乳腺MRI上可表现为多种形式,多项研究显示治疗后呈向心性退缩的病灶评估准确率最高,而筛状退缩的准确率最低。④ 药物作用:抗血管生成药物会造成肿瘤血供减少,出现坏死,在MRI上病灶强化程度减弱,常导致对疗效的高估。而一些诱导血管通透性增加或毛细血管蛋白渗漏的药物则会引起造影剂流入的增加,导致病灶强化程度上升,造成对疗效的低估。⑤ 背景强化:显著的背景强化减弱病灶与正常组织之间的对比,对评估准确性有较大影响。⑥ 乳腺导管内原位癌(ductal carcinoma in situ,DCIS)的存在:病理学检查常用的评估系统对pCR的定义有所不同,目前国内对新辅助治疗的病理学评估最常采用Miller-Payne(MP)系统,pCR允许DCIS存在,而DCIS在MRI上表现出的异常强化使此类病灶无法被判断为rCR,从而影响MRI对pCR的评估能力。
功能MRI能够在肿瘤形态发生变化之前观察到肿瘤功能以及分子层面上的变化,疗效评估较常规MRI更为早期,并对远期的无病生存率与总生存率有预测作用。① DCE-MRI通过一系列量化指标来观察组织灌注、微血管壁通透性、微血管密度、血管内外体积分数等情况。在NAC后1~2个周期,治疗有效的患者Ktrans值降低,且降低者的远期复发率更低,总生存率增加[30-31]。② DWI在NAC疗效评估中应用最广泛,在化疗后第1周期形态学发生变化之前即能对疗效作出判断,化疗有效者表观扩散系数(apparent diffusion coefficient,ADC)值的增加高于无反应者。Meta分析结果显示DWI预测疗效总体灵敏度和特异度分别为93%和82%。多中心临床试验ACRIN 6698(入组242例患者)讨论治疗后ADC变化百分比(ΔADC)预测pCR的能力,结果表明ΔADC与病理学亚型联合分析能够提高预测pCR的能力(AUC=0.72)[32]。③ 体素内不相干运动(intravoxel incoherent motion,IVIM)模型是一种多b值扩散模型,可同时观察组织中血流灌注与水分子扩散运动,灌注相关扩散系数D值较ADC值在反映内部扩散和灌注情况方面更具有优势,在疗程早期即能较为准确地预测pCR。研究显示治疗前基线的D值与灌注分数f值、治疗2周期后的D值与f值以及变化值ΔD与Δf在pCR与非pCR组之间差异均有统计学意义,ΔD对pCR的预测能力最高(AUC为-0.92)[33-34]。
PET/CT在NAC疗效评估中有一定的价值,优势包括:评估残留病灶的灵敏度、特异度、准确率较高,分别为71%~94%、66%~89%、75%,仅次于MRI[35];对腋窝淋巴结评估的特异度较高(66%~93%),其价值在于对治疗后18F-FDG摄取能力恢复正常水平的转移性淋巴结患者,有助于提示临床采用前哨淋巴结活检替代腋窝清扫;在治疗后极早期(1个疗程后)即能对pCR作出预测[36-38]。但由于有限的空间分辨率,加上对浸润性小叶癌与DCIS较低摄取容易造成对病灶的低估,并且由于其辐射剂量较高,费用昂贵,难以作为评估NAC疗效的常规检查方法。
FDG PET/CT:为临床上常用于评估NAC疗效的显像方法之一,具有较高的灵敏度。研究显示其有助于早期筛选化疗无反应者,将第1疗程后标准化摄取值(standardized uptake value,SUV)值下降45%作为阈值,治疗无反应的NPV约90%[39]。另有研究显示对HER2过表达型乳腺癌,NAC后第2周期的最大SUV(SUVmax)是评估疗效的最佳指标[40]。FDG PET/CT的缺点在于空间分辨率有限,对小于1 cm的残留肿瘤会出现假阴性结果,对一些炎性反应则会出现假阳性。不同分子亚型的肿瘤对FDG的摄取存在一定差异,三阴性的肿瘤基线摄取相对较高,浸润性小叶癌摄取较低,因此不建议应用于浸润性小叶癌的疗效评估。
最新的1项大样本Meta分析比较了MRI和FDG PET/CT在预测NAC疗效方面的性能,结果显示MRI的灵敏度和特异度分别为88%、55%,FDG PET/CT为71%、77%。同时发现检查时间点对二者的评估准确性存在一定的影响,在NAC期间,FDG PET/CT的诊断特异度高于MRI(69%vs 42%),而在疗程完成后,MRI灵敏度较高(88% vs 57%),该结果提示MRI能够更好地评估治疗后的残留肿瘤负荷,而FDG PET/CT则可以更好地评估治疗期间的反应[41]。
影像组学通过对分割后的图像中提取大量定量数据,建立影像特征与病理生理、基因之间的关联来建立模型。近两年关于影像组学与NAC疗效出现了大量的研究,证实影像组学能够改善单模态或多模态影像检查的准确性和预测效能。MRI影像组学是最常被应用到的技术,常用的研究序列为T2WI、DWI、DCE-MRI。最新的1项涉及四个中心的研究结果显示,治疗前联合T2WI、DWI与DCE-MRI 3种扫描序列的多序列MRI模型与单序列模型相比具有更高的预测pCR能力(AUC=0.79);该模型对激素受体阳性/HER2阴性、HER2过表达、三阴性乳腺癌3种不同的病理亚型pCR的预测能力在四个研究中心的队列中均有较好的表现;基于最佳放射性特征和独立的临床病理风险因素开发的模型具有最高预测能力(AUC=0.86)[42]。另1项研究显示治疗前基线的MRI多变量模型对预测三阴性组与HER2阳性组的pCR有明显优势[43]。治疗前DCE-MRI对肿瘤内与肿瘤外组织的组学分析结果表明,瘤内与瘤外组学特征联合时,测试组与验证组均能够准确地预测pCR(AUC=0.78、0.74),联合受体状态与分子亚型特征能够进一步提高预测能力,与选择的分类器无关;非pCR者的最佳组学特征为瘤周特征,在不同分子亚型中有所不同[44]。MRI组学对乳腺癌转移性淋巴结的研究结果显示,治疗前转移性淋巴结的组学特征预测pCR的AUC高达0.82,同时也能够预测治疗后淋巴结是否存在转移(AUC=0.72)[45]。超声与PET/CT的影像组学具有较大的研究潜力,近期的研究结果显示一些PET和超声的影像组学特征能够被视为pCR潜在的预测因子[46]。影像基因组学方面虽然也陆续有研究报道,但其临床价值还有待进一步确认。由于乳腺癌基因表达及信号转导通路极其复杂,很难将全基因测序的大量数据与影像数据进行匹配,基因组数据的维度目前还难以降低到与影像学研究结果一致,随着组学研究的深入,这将是一个研究重点。
2017年ACR颁布了监测乳腺癌NAC疗效的影像学方法适用性指南,指南根据临床状况分为5个方面,包括治疗前基线、治疗中与治疗结束后、NAC治疗前基线腋窝评估、NAC治疗后腋窝评估(基线腋窝未评)、临床怀疑转移乳腺癌的分期与疗效评估,针对上述5类情况详细地讨论了MG、DBT、超声、MRI与PET/CT的应用价值,并给出了相应的推荐级别[2]。根据指南,对乳腺内原发病灶的评估,无论是治疗前,还是治疗中或治疗结束后,MRI是灵敏度与特异度最高的检查方法,而对腋窝淋巴结的评估则优选超声检查。
新辅助治疗反应的影像学评估目前缺乏统一指南,评估时主要凭借肿瘤大小的变化,附加诸如MG上密度、超声上内部回声或MRI上强化程度的变化,以及肿瘤的退缩形式来描述肿瘤治疗后的变化。目前临床最常用的评估标准仍采用实体瘤疗效评价标准(Response Evaluation Criteria in Solid Tumors,RECIST)1.1,然而RECISIT 1.1标准仅凭借解剖学的单径评估疗效,这对乳腺癌新辅助疗效评估是远远不够的,但目前仍未有指南或标准纳入诸如功能磁共振、三维体积测量等重要评估指标,亟待进一步完善。FDG PET/CT评估疗效采用欧洲癌症治疗研究组织(European Organization for Research and Treatment of Cancer,EORTC)标准和PET实体瘤残留灶评价标准(PET Residual Disease in Solid Tumor,PREDIST)标准,分别以SUV值变化25%、瘦体重标准化摄取值(SUV of lean body,SUL)的峰值(SULpeak)变化30%为临界点评估疗效,只是仍较少地被应用于临床。