许新颜,陈佳艳,黄 律,王佳舟,刘 笛,文钧淼,曹剑钊,樊 旼
复旦大学附属肿瘤医院放疗科,复旦大学上海医学院肿瘤学系,上海 200032
肺癌是世界范围内很常见且死亡率极高的恶性肿瘤之一[1]。在肺癌的所有病理学类型中,非小细胞肺癌(non-small cell lung cancer,NSCLC)占85%。30%~43%的NSCLC患者在疾病进展时有脑转移,而肺腺癌(最常见的NSCLC亚型)患者中脑转移比例高达50%[2]。NSCLC患者一旦出现脑转移,自然中位无进展生存期(progression-free survival,PFS)仅1~2个月,1年生存率低至10%~20%[3]。晚期肺腺癌患者的标准治疗已经进入了针对各种驱动基因突变的靶向治疗时代,这其中间变性淋巴瘤激酶(anaplastic lymphoma kinase,ALK)突变是除表皮生长因子受体(epidermal growth factor receptor,EGFR)突变外重要的驱动基因突变之一。约3~5%的NSCLC具有棘皮动物微管相关类蛋白4(echinoderm microtubule-associated proteinlike 4,EML4)基因与ALK基因的重排(EML4-ALK基因重排,简称ALK阳性)[4]。临床中发现ALK阳性NSCLC患者的脑转移发生概率为20%~35%[5-6]。对于接受靶向药物——酪氨酸激酶抑制剂(tyrosine kinase inhibitor,TKI)治疗的患者(如克唑替尼),脑部也是患者产生TKI获得性耐药时的主要转移部位之一(约占60%)[5]。因此,脑转移情况对于患者的总体预后评价和针对驱动基因突变治疗的疗效评估具有重要意义。
“组学”这一概念阐述了从肿瘤中提取高通量信息的理念。肿瘤表现出的遗传多样性被归类入基因组学[7],这其中肺癌的驱动基因状态,例如上述EML4-ALK重排是从微观分子层面体现肿瘤异质性。近年来研究越来越多的“影像”组学则是从图像中高通量提取定量特征以便从宏观角度描述肿瘤表型和异质性[8]。自从Lambin等[8]在2012年提出影像组学这一概念以来,关于影像组学的研究和应用发展迅速,特别是在肺癌领域[9]。
随着对“组学”领域交叉研究的开展和深入,肿瘤基因组学(如EML4-ALK基因重排)和影像组学有希望结合并与临床结果相关联。Yoon等[10]发现一种影像组学方法可用于区分肺腺癌中ALK、C-ros原癌基因1受体酪氨酸激酶(C-rosoncogene 1 receptor tyrosine kinase,ROS1)和转染期间重排(rearranged during transfection,RET)原癌基因融合的不同肿瘤表型。Lohmann等[11]发现图像纹理分析可以区分放射性脑损伤和复发性脑转移。以上结果提示影像组学可能与患者ALK驱动基因状态及脑转移情况相关联。
有鉴于此,本研究希望利用影像组学方法对ALK阳性NSCLC患者的早期脑转移情况进行预测,以期为此类患者建立风险预测模型并指导个体化治疗。
本研究回顾性收集2014年6月—2017年9月在复旦大学附属肿瘤医院经病理学检查证实的ALK阳性NSCLC患者。入选患者符合以下条件:①经第7版美国癌症联合会(American Joint Committee on Cancer,AJCC)癌症分期手册(2010)分期为Ⅲ和Ⅳ期;②经免疫组织化学检测和荧光原位杂交(fluorescencein situhybridization,FISH)检测为ALK阳性的NSCLC;③患者在复旦大学附属肿瘤医院进行了治疗前胸部CT检查。
记录患者基线特征(如肿瘤类型、分期等),本研究使用的常规临床预后因素包括年龄、性别、吸烟史、T分期、N分期和颅外转移情况。
患者在初次治疗开始前1个月内进行胸部CT扫描,根据复旦大学附属肿瘤医院应用的标准CT扫描方案,采用德国Siemens公司64排Siemens Somatom Sensation MSCT扫描仪。CT扫描参数如下:管电压,120 kV;自动管电流调制,200 mAs;矩阵,512×512;层数:330层。扫描范围从肺尖到肺底,包括两侧腋窝。对于部分进行增强CT扫描的患者,经肘前浅静脉高压注射器团注碘佛醇(320 mg/mL),剂量1.5 mL/kg,速率2.5 mL/s,总量不超过100 mL。注射对比剂后分别于25和45 s行动脉期、静脉期扫描。通过标准算法(Standard)进行1 mm薄层和多平面重建进行原始数据的重建(图1)。
将所有图像导入MIM系统(version 6.6,美国MIM公司),由两位有10年以上胸部放疗经验的放疗科医师使用区域增长法完成肿瘤感兴趣区(region of interest,ROI)的有效分割。为更好地区分肿块和周围以及内部其他非肿瘤结构,每例患者勾画过程中结合PET/CT以及外院增强CT在患者CT上进行肿块勾画,对于部分有复旦大学附属肿瘤医院增强CT图像的患者,直接在增强CT上勾画肿块。为避免对影像组学特征分析的影响,肿块的勾画不包括气管、血管等(图2)。
图1 研究流程图Fig.1 Study flowchart
图2 ROI分割示意图Fig.2 Segmentation of ROI
本研究中,我们在患者的CT图像上进行了基于MATLAB 2015b(美国Mathworks公司)的内部特征提取。总共提取了CT中的203个特征,这些特征可以分为七类:①Wavelet Gray Level Co-occurrence Matrix-based特征;②Wavelet Gray Level Run-length Matrix-based特征;③Wavelet Histogram-based特征;④Gray Level Cooccurrence Matrix-based特征;⑤Gray Level Runlength Matrix-based特征;⑥Geometry特征;⑦Histogram特征。
关于RIDER NSCLC数据集,本研究使用Aerts等[12]和Zhao等[13]提供的方法,使用RIDER test-retest来确定两次间隔CT扫描之间最稳定的特征[14]。为选择出最优特征子集用于后续的模型构建,需要挑选出可重复性强、稳定、与分类结果相关度大、相互之间冗余度小的优质子集。我们采用test-retest的方法,组内相关系数(intra-class correlation coefficient,ICC)大于0.8的特征将被保留下来。
所有患者被随机分为训练集和验证集(4∶1)。在训练集上执行最小绝对收缩和选择运算符(least absolute shrinkage and selection operator,LASSO)COX回归(岭回归)和leaveone-out cross-validation进行特征的筛选和特征子集的交叉验证,数据已进行标准化处理。高度相关的特征会被过滤掉以消除冗余,留下最经常被选中且P<0.05的特征。这样确定下来的特征将会被用于构建最终的预测模型。
在训练集中利用logistic回归分析影像组学特征及其他常规临床预后因素与患者治疗前脑转移的关系,并在验证集中进行验证。描绘受试者工作特征(receiver operating characteristic,ROC)曲线并计算曲线下面积(area under curve,AUC)以评估模型效能(AUC>0.5的模型视为有意义,越接近1预测效能越高)。
Test-retest用于确定稳定的影像组学特征,Ridge-LASSO COX回归和leave-one-out crossvalidation用于减少冗杂参数。利用单因素和多因素logistic回归分析各因素和治疗前脑转移的关系,模型效能通过AUC进行描述。不同ROC曲线之间的比较采用Delong检验。
所有统计分析均在R平台实现(version 3.3.2;www.r-project.org),LASSO回归利用“Glmnet”包实现,ROC曲线的生成及比较利用“pROC”包实现。P<0.05为差异有统计学意义。
本研究共纳入132例经病理学确诊的ALK阳性NSCLC患者,其中Ⅲ期患者57例,Ⅳ期患者75例;共有27例患者在治疗前即有脑转移。中位随访时间为11.8个月(范围:0.1~65.2个月)。所有患者被随机分为两组:训练集(N=106)和验证集(N=26)。两组患者均尚未达到中位生存时间(NA)。105例治疗前无脑转移的患者中后续有16例发生了脑转移,其中12例患者治疗前cTNM分期为Ⅲ期,4例患者治疗前cTNM分期为Ⅳ期(有颅外其他部位转移)。表1提供了详细的基线信息。
在RIDER数据集的所有203个特征中,我们确定了132个特征(65%)的ICC大于0.9,提示高稳定性。随后,我们将132个特征纳入LASSO回归分析以确定合适的影像组学特征用于建模。结果表明只有一个特征符合标准:W_GLCM_LH_Correlation。
在训练集中没有发现与治疗前脑转移有明显相关性的常规临床特征(P均>0.05),而影像组学特征(W_GLCM_LH_Correlation)与治疗前是否发生脑转移显著相关(P=0.014)。单因素logistic回归的详细结果如表1所示。该影像组学特征预测患者治疗前脑转移发生情况的logistic回归模型可表述为:
logit(P)=0.819-5.696*W_GLCM_LH_Correlation
在训练集中,AUC为0.687(95% CI:0.551~0.824;特异度为83.5%;灵敏度为57.1%)。该模型在验证集中预测性能也尚可,AUC=0.642(95% CI:0.501~0.783;特异度为60.0%;灵敏度为83.3%)(图3)。尽管N分期本身对脑转移没有显著预测价值,但将N分期和影像组学特征相结合一定程度上能提高模型的预测能力:训练集AUC=0.697(95% CI:0.562~0.832;特异度为84.7%;灵敏度=57.1%),验证集AUC=0.675(95% CI:0.536~0.814;特异度为65.0%;灵敏度=83.3%)(图3)。由于两种预测模型的差异应在构建模型时体现,故比较了训练集中单用影像组学特征和结合影像组学特征+N分期进行脑转移预测的ROC曲线,并通过Delong检验进行差异的显著性检验。结果显示两者的AUC差值=0.01,Z统计量=1.695,P=0.09,倾向阳性(图4)。由于本研究的样本量较小,P虽小于0.10,但尚未达到0.05的显著性水平。若扩大样本量,该差异可能更加显著。
表1 患者基线情况及详细信息Tab.1 Patients’characteristics and detailed information
图3 影像组学特征(A)及影像组学特征结合N分期(B)预测ALK阳性NSCLC患者治疗前脑转移的ROC曲线Fig.3 ROC curves of radiomics feature(A)and radiomics feature+N stage(B)in predicting pretreatment brain metastasis for ALKpositive NSCLC patients
图4 单独利用影像组学特征进行脑转移预测和利用影像组学特征+N分期进行脑转移预测的ROC曲线比较(训练集)Fig.4 Comparison between ROC curves of radiomics feature and radiomics feature+N stage in predicting pretreatment brain metastasis(in train set)
临床上大多数肺癌患者在诊断时已经是局部晚期(Ⅲ期)或晚期(Ⅳ期),这部分患者的总体治疗效果不佳,其中一个重要原因可能是忽视了肿瘤的异质性。因此,采用各种手段和方法根据不同驱动基因状态和肺癌表型评估肿瘤侵袭和复发风险,将是客观、全面地了解肿瘤异质性从而实施个体化治疗的关键。
在微观层面,基于组织、细胞和基因水平的特征分析是用于区分肿瘤异质性的常见手段。在肺癌驱动基因方面,约5%的NSCLC患者存在EML4-ALK基因重排,其对应的靶向药物克唑替尼能显著延长患者PFS[15]。然而,即使在已接受靶向治疗的患者中,脑转移和脑部原有病灶进展仍然较为常见[16]。因此迫切需要为ALK阳性的NSCLC患者探索出早期预测脑转移发生的有效方法。尽管有越来越多的研究在寻求建立ALK阳性NSCLC患者的特异性预测和预后模型,但目前对于这类患者脑转移情况的预测方面尚未有大量报道。因此,我们的研究具有重要的现实意义。
在宏观层面,近年来已有大量研究关注影像组学与各种类型肿瘤的淋巴结转移之间的关系[17-19],其中也包括肺癌[18]。脑转移方面,Lohmann等[11]发现,基于脑部图像的纹理特征分析可能有助于鉴别脑转移复发与放射性脑损伤。然而,迄今为止,很少有关于利用胸部CT图像的影像组学特征预测ALK阳性NSCLC患者脑转移的研究,因此我们的研究具有原创性。
在本研究中,我们分析了从ALK阳性的Ⅲ/Ⅳ期NSCLC患者的治疗前胸部CT图像中提取的203个特征中的132个影像组学特征,最终确定了一个影像组学特征(W_GLCM_LH_Correlation)与治疗前脑转移显著相关。关于公认的临床预后因素,如吸烟史等[20],本研究中尚未发现其与脑转移的强相关性,这一方面可能源于样本量有限,另一方面也提示ALK阳性的NSCLC可能是NSCLC中一种独特的亚型,常规预后因素可能不足以解释其肿瘤生物学行为。因此为这类特定患者开发独特的脑转移预测方法是非常紧迫和有意义的。有趣的是,尽管N分期本身的预测能力很弱,但其加入有可能进一步提高影像组学特征预测脑转移的能力,这提示影像组学特征的预测能力仍有改进空间,而在这方面,常规临床特征可能是有效的补充。尽管本研究中两种预测模型的差异尚未达到0.05的显著性水平(P=0.09),但扩大样本量后这一趋势可能会进一步放大。
灰度共生矩阵(gray level co-occurrence matrix,GLCM)是一种纹理特征,其描述了图像中灰度组合的值、距离和角度[21]。本研究发现的与ALK阳性NSCLC患者治疗前脑转移情况显著相关的特征W_GLCM_LH_Correlation是一种基于小波变换的GLCM特征。所有影像组学特征中纹理特征是已知的衡量肿瘤异质性并与肺癌预后最密切相关的特征,而小波特征是强度和纹理特征的滤波器变换结果。基于纹理和小波的特征已在肺癌的预测和预后方面有了广泛研究[9]。诊断方面,许多研究成功开发了纹理和小波特征用于区分NSCLC与其他良性肺部病变[22]。分子分型方面,有研究发现基于纹理分析和小波变换的影像组学方法可以作为肺癌中EGFR、Kirsten大鼠肉瘤病毒癌基因(Kirsten rat sarcoma viral oncogene,KRAS)、ALK及ROS1基因突变的预测标志物[10,23]。既往研究也证实影像组学特征可以预测肺癌局部复发或远处转移。Coroller等[20]构建了具有635个特征的影像组学模型,发现其中35个特征可以预测远处转移,主要包括两类:小波特征Wavelet HHL-Skewness和纹理特征GLCM-Cluster shade。影像组学特征,尤其是和临床特征相结合以后,其预测能力远高于常规肿瘤体积的预测能力。本研究在上述研究的基础上进一步证实基于小波变换的纹理特征可用于预测具有特定驱动基因突变(ALK阳性)的肺癌患者的早期脑转移情况,而加入临床N分期有可能在一定程度上提高其预测能力,该特征类型和研究结论也和前述研究相符。
这项研究有一定局限性。考虑到肺癌中EML4-ALK重排的低发生率,且部分患者在至本院诊疗前已在外院进行过治疗,因此本研究的样本量有限,以上结果需要扩大样本量进行进一步验证。此外,有必要纳入具有其他驱动基因(例如EGFR、ROS1和KRAS等)突变的NSCLC患者,以探索本研究中发现的影像组学特征的普遍适用性。最后,本研究是基于胸部CT图像进行的,所发现的影像组学特征对脑转移的预测价值需要在其他临床图像中进一步验证(如PET/CT等)。