刘 斌,范 明,厉力华
(杭州电子科技大学生命信息与仪器工程学院,杭州 310018)
乳腺癌是女性中最常见的癌症,也是女性癌症死亡的第二大原因。大约20%~30%被诊断为浸润性乳腺癌的妇女会转移复发,最终可能死亡[1]。新辅助化疗可以降低5%的复发风险,所以部分浸润性乳腺癌患者会进行新辅助化疗[2-3]。新辅助化疗可以显著提高70岁以下妇女的无病生存率和总生存率[4]。然而由于新辅助化疗的本身存在毒性和副作用[5],所以并不是所有患者都会从新辅助化疗中受益,一般认为预后不良的患者从新辅助化疗中受益最多[6-7]。需要预后标志物来鉴别出低复发风险的患者,以减少过度化疗。正确的选择乳腺癌预后标志物对研究乳腺癌的生物学行为、指导系统综合治疗具有重要意义。
影响乳腺癌预后的主要因素是年龄、肿瘤大小、腋窝淋巴结状态、肿瘤组织学类型、病理分级和激素受体状态。大量的其他因素也被用来预测病人的预后,但总的来说,它们的预测能力有限[8],尚不能满足临床个体化治疗需要。乳腺癌患者预后的差异,具体表现在肿瘤生物学行为不同,其组织病理学改变是影像学表现的基础。动态增强磁共振成像DCE-MRI(Dynamic Contrast Enhanced Magnetic Resonance Imaging)可以反映造影剂在肿瘤血管中的动态分布。乳腺MRI在临床上主要用于术前分期、检查乳房植入物、术后检测残留肿瘤或复发、在已证实的癌转移患者中识别隐匿的原发性肿瘤以及筛选高危妇女[9],同时也可以用于评估肿瘤对新辅助化疗的反应[10]。肿瘤大小、形状、边缘和动力学等定量图像特征已被证明可以用来作为肿瘤诊疗的影像学标记物[11-13]。但是它们预测乳腺癌患者复发和存活的能力有限[14]。
近年来一些学者提出了多种免疫组织化学可检测的生物标志物作为预后因子,如人表皮生长因子受体2(Human Epidermal growth factor Receptor 2,HER-2)、细胞增殖抗原标记物(Ki-67)、雌激素受体ER(Estrogen Receptor)、孕激素受体PR(Progesterone Receptor)等,这些生物标志物的表达与肿瘤细胞的分化、侵袭性和转移能力相关。Szab等发现动态磁共振成像参数与乳腺癌不同的生理特性存在关联[10],Lee等人发现动态磁共振成像与乳腺癌患者的预后相关,MR影像中毛刺状边缘的肿瘤可能预示乳腺癌好的预后[15]。最近的一些研究证实,DCE-MRI背景实质组织的全局增强模式与人群中患乳腺癌的风险[16-19]和化疗疗效相关[20]。
本研究主要对DCE-MRI影像特征和乳腺癌预后的关联性进行了探讨。本研究的主要创新体现在:第一,在数据上,使用了两个公共数据库中的数据,数据比较规范可信;第二,在策略上,建立了影像特征的多基因标签,并在独立验证数据集中验证了其预后价值。首先对MRI原始图像进行基本的预处理,提取定量的图像特征,如病灶区域的统计特征、纹理特征和形态特征,利用Cox回归模型找出有潜在预后价值的影像特征;然后,使用elastic-net回归建立基因和影像特征的线性回归模型;最后,在独立的验证数据集上通过测试影像特征的多基因标签与总生存期(OS)和无病复发生存(RFS)的相关性来评估其预后价值。研究结果表明DCE-MRI的影像特征与乳腺癌的预后相关。
我们获得61例浸润性乳腺癌患者的回顾性数据,其中预处理DCE-MRI和无病复发生存数据可在TCIA(The Cancer Imaging Archive)(http://www.cancerimagingarchive.net/.)上公开获得。这个数据集的详细信息已经公开发表[21-22]。TCGA(The Cancer Genome Atlas(TCGA))[23]的数据集用来建立和验证影像特征的多基因标签。TCGA 数据库的患者在进行组织样本采集(200到300毫克的组织)前都不能接受任何类型的术前治疗。数据集中共纳入了1 097例浸润性乳腺癌患者,所有患者均可获得其肿瘤样本的基因表达测序数据。其中126例患者可通过TCIA获得预处理DCE-MRI,这些乳腺MRI研究中的大多数是在通过图像引导的空芯针活检确定乳腺癌之后进行的,并且本研究中包括的所有MRI检查都是在患者接受治疗之前进行的。为了减少潜在的图像差异,本研究只分析了在采集技术上相似的乳腺MRI,即使用GE(GE Medical Systems,Milwaukee,WI,USA)扫描设备在1.5T下采集的87例患者(TCGA Subgroup 1)的MRI。其余1010例患者作为独立验证数据集(TCGA Subgroup 2)。表1总结了三个数据集的临床统计信息。
表1 数据集的临床信息
注:除非另有说明,否则数据为患者数,括号内为百分比。*括号内的数据为范围。
对于61例包含病人影像和预后信息的数据(预后标志物发现数据集),使用Signa 1.5T系统(GE Healthcare,Milwaukee,Wis)进行MR成像,在检查过程中,患者处于俯卧位,双侧乳房自然垂入乳房相控阵线圈。在具有脂肪抑制的梯度回波序列的矢状面上获得单侧T1加权图像,参数为:重复时间,8ms;回波时间,4.2 ms;翻转角度,20°;面内分辨率范围,0.7 mm~0.9 mm;截面厚度范围,2.0 mm~2.4 mm;静脉注射钆基造影剂的剂量为0.1 mmol/kg,用10 mL生理盐水冲洗。在三个时间点获得MR图像,第一个在造影剂注射前获得,第二个和第三个在造影剂使用后的2.5 min和7.5 min分别获得。
TCGA数据集(TCGA subgroup 1)的乳腺MRI由4个机构组成:纪念斯隆凯特癌症中心(Memorial Sloan Kettering Cancer Center)、梅奥诊所(Mayo Clinic)、匹斯堡大学医学中心(University of Pittsburgh Medical Center)和罗斯威尔公园癌症研究所(Roswell Park Cancer Institute)。DCE-MRI影像均由1.5T GE全身MRI系统(GE Medical Systems)及标准双乳腺线圈采集得到,动态增强磁共振成像方案包括一个蒙片序列和经过注射造影剂后获得的3到5个增强序列。采用脂肪抑制梯度回波序列采集T1加权成像。分辨率为0.53 mm~0.86 mm;截面厚度范围为2 mm~3mm;翻转角度为10°。
在特征提取前,对MRI原始影像进行了一些基本的预处理,同时对感兴趣区域进行分割。肿瘤分割上,首先由有数十年阅片经验的放射科医生手工标出病灶位置,然后利用空间FCM进行粗分割,得到病灶的大致轮廓,再结合病灶的三维信息利用MRF进行细分割[24],最终得到较为精确的病灶区域。
本研究共提取了13维影像特征,首先提取了病灶区域的统计特征:峰度;形态特征:离心率;然后基于灰度共生矩阵提取了纹理特征:非相似性、能量、逆差分、和熵、相关性。所有的图像预处理和特征提取都在MATLAB R2014a中完成。
在预后标志物发现数据集,分别评估每一个影像特征与RFS的关联性。我们分两步来确定与RFS有最强独立关联的影像特征,第一,对提取的影像特征进行皮尔逊相关分析,如果一对特征的皮尔逊相关系数大于0.7,则认为它们有较强的相关性,只保留在单因素分析中对预后预测能力更强的一个特征。第二,对互相不相关的影像特征进行Cox多元回归分析,确定与RFS独立相关的影像特征。
在预后标志物发现数据集中建立影像特征与预后的关联之后,基于87例包含DCE-MRI和肿瘤基因表达数据的数据集(TCGA Subgroup 1)构建影像特征的多基因标签。首先通过皮尔逊相关来获得与有预后价值的影像特征最相关的前100个基因,然后,使用elastic-net 回归建立这100个基因特征与影像特征的回归模型。
在独立验证数据集(TCGA Subgroup 2)中,我们通过测试影像特征多基因标签与总生存期和RFS的关联性来评估其预后能力。
我们使用Cox比例风险模型建立与总生存期或RFS相关的生存模型,Kaplan-Meier分析用于估计生存概率。在预后标志物发现数据集,我们确定了影像特征的最优阈值,这个阈值定义为使得生存分析中具有最小log-rankP值的截止点。风险比(HR)用于衡量Kaplan-Meier图上不同组的存活率差异,还评估了HR的95%置信区间。采用log-rank检验评价预后。在单因素分析中,使用Benjamini-Hochberg方法[25]来控制错误发现率(FDR)。FDR的值小于0.05被认为有统计学意义,在单因素和多因素分析中log-rankp小于0.05,认为其有明显的统计学意义。所有的统计分析都在Rversion 3.4.4中完成。
预后标志物发现数据集中与RFS相关的13个肿瘤影像特征的预后表现如表2所示。
表2 13个定量DCE-MRI特征的预后表现
注:1注入造影剂前的DCE-MRI序列;2第三个增强DCE-MRI序列。
进行FDR矫正后,只有1个影像特征,即逆差分达到了预先设定的显著水平(correctedp<0.05)。进一步在Kaplan-Meier分析中,确定了逆差分的最优截止值为0.638,使不同组之间生存差异最大(log-rankp=0.004 7),如图1(a)所示。13个影像特征的皮尔逊相关矩阵如图1(b)所示。对6个互不相关的影像特征做Cox多元回归分析,影像特征逆差分仍然与RFS具有最强的独立关联(p=0.034 4),结果如表3所示。
图1 预后标志物发现数据集的影像(n=61)
系数HR(95% CI for HR)p-value离心率0.411.51(0.89-2.54)0.125 5逆差分10.551.74(1.04-2.9)0.034 4和熵21.604.94(0.7-35.1)0.110 1非相似性2-2.380.09(0.006-1.38)0.084 2相关性1-0.060.94(0.56-1.56)0.808 2相关性2-2.040.13(0.01-1.24)0.076 6
注:预后标志物发现数据集中的数据(n=61)
给定100个肿瘤表达基因,我们使用elastic-net 回归建立影像特征的线性回归模型。在TCGA Subgroup 1数据集上建立了逆差分影像特征的74基因标签R2为0.937。
在独立验证数据集(TCGA Subgroup 2)中使用74基因标签预测影像特征(逆差分)的值,使用预测得到的影像特征值把验证数据集的病人分成两组,两组病人在RFS(log-rankp=0.011)和OS(log-rankp=0.029)上都有显著的差异如图2所示。
图2 独立验证数据集中RFS和OS的Kaplan-Meier曲线
DCE-MRI是临床上检查乳腺肿瘤最常用的影像学手段。除了在诊断中的潜在作用外,DCE-MRI的影像特征还与乳腺癌的治疗疗效、局部复发和生存[26-28]相关,但是它们的生物学基础却知之甚少。本研究旨在通过整合影像和基因表达数据来阐明肿瘤定量DCE-MRI影像特征的预后能力。此外,我们构建了肿瘤影像特征的74基因标签,并在超过 1 000 名患者的大型独立乳腺癌数据集中确定了其对RFS和总生存期的预后价值。
预后标志物的选择对乳腺癌治疗至关重要。一些研究已经评估了基因表达特征对乳腺癌预后的预测效果[4,29]。这种分子方法有其局限性,比如:费用大,需要侵入性手术或组织活检,以及在取样过程中,由于肿瘤内部异质性容易引起偏差[30-31]。此外,对于占乳腺癌约三分之一[32]的雌激素受体阴性患者,目前临床上尚无有价值的预后基因标签。相比之下,DCE-MRI有较好的软组织分辨率、丰富的图像信息和无创性等优点,可以提供肿瘤的多方位信息,可能为分子分析提供有用的补充信息。Hui Li等发现DCE-MRI的影像特征对乳腺癌分子分型的预测有一定的价值[33],Elizabeth S等人的研究表明从MRI中提取的影像特征可以预测乳腺癌患者的病理分期和淋巴结状态[34],但关于影像特征对乳腺癌预后有无预测价值的研究很少。
本研究对DCE-MRI的影像特征和乳腺癌预后的关联性进行了研究。首先在预后标志物发现数据集中,通过Cox比例风险模型,确定了有潜在预后价值的影像特征;然后,基于87例包含动态增强MR影像和肿瘤基因表达数据的数据集使用elastic-net回归模型建立影像特征的74基因标签。最后,在独立验证数据集中验证74基因标签的预后价值。这项研究的局限性包括其回顾性特点,以及数据集样本量较小。TCGA数据集包含了多机构采集的数据,这虽然增强了统计能力和外部有效性,但由于成像参数标准不一,它也引入了不确定性。另一个限制是TCGA数据集与预后标志物发现数据集相比随访时间相对较短,可能会对最终的结果有影响。
目前我们的研究只是将影像特征和肿瘤的基因表达数据结合起来,建立了影像特征的多基因标签。将来可以对这个基因标签进行转录水平上的研究,探究与影像特征相关的分子通路,从分子通路对应的生物过程来进一步证实定量的DCE-MRI影像特征在预测乳腺癌预后上的潜在临床价值。尽管我们在一个较大的独立验证数据集(TCGA Subgroup 2)中证实了影像特征多基因标签的预后价值,但是未来的研究应该在同时包括影像和生存数据的数据集上直接验证影像特征对预后的价值。
研究结果表明DCE-MRI定量的影像特征对乳腺癌的预后预测有潜在的价值,这些结果可能会为乳腺癌的临床预防和治疗策略提供信息。