唐兴,白国艳,王虹,印弘,张艰,徐肖攀,康晓伟
肺腺癌(lung adenocarcinoma)是肺癌中的常见病理类型,半数以上的患者在确诊前已发生转移[1],5年生存率仅为2%[2]。既往研究发现肿瘤在发生、增殖、分化和扩散的过程中获得了一系列具有特征性的分子生物标志物[3]。肺腺癌最常见的基因突变是表皮生长因子受体(epithelial growth factor receptor,EGFR)突变[4]。EGFR在细胞生长、增殖、分化、血管生成和转移等多种病理生理过程的调节中发挥着重要作用[5],已成为靶向治疗的重要预测指标。对EGFR的基因检测需要基于有创的手术或穿刺活检,耗费巨大,而且存在一定程度的误诊率[6]。近年来,影像组学在定量表征和预测肿瘤组织病理学类型与肿瘤分子标记物方面得到广泛应用[7-11],其中,基于CT的影像组学已应用于肺癌基因表型的预测和疗效评估[12-13]。与CT相比, MRI在反映肿瘤异质性和组织学差异方面具有明显优势,同时具有无创、无辐射等优点。因此,本研究拟基于多序列MRI影像组学构建肺腺癌EGFR突变的预测模型,探讨影像组学在预测肺腺癌EGFR基因表型中的应用价值。
1.研究资料
将2015年1月-2018年12月在本院行肺部MRI检查且病理证实为肺腺癌的患者纳入初始样本库。纳入标准:(1)MRI检查2个月之内有手术病理结果或穿刺活检病理结果;(2)无其它恶性肿瘤病史;(3)直径大于8 mm的实性肿块,不包括磨玻璃病灶;(4)有EGFR检测结果。排除标准:(1)已对肺癌进行过治疗(如化疗、放疗);(2)图像伪影重,不能进行数据测量及分析;(3)有磁共振检查禁忌证(如人工耳蜗、心脏起搏器)。最终共纳入符合标准的患者74例,其中EGFR突变型32例,野生型42例。
2.MRI扫描方法
使用Siemens Magnetom Aera 1.5T磁共振成像系统和体部线圈。患者取仰卧位,行胸部MRI平扫及DWI检查,扫描序列和参数如下。(1)横轴面T2WI:采用加脂肪抑制刀锋(BLADE)序列,TR 2200 ms,TE 86 ms,层厚5.00 mm;层间距1.00 mm,视野350 mm×350 mm,矩阵320×284,激励次数1;(2)DWI:b=50、800 s/mm2,TR 6800 ms,TE 63 ms,层厚5.00 mm,层间距0.25 mm,视野400 mm×400 mm,矩阵156×156,激励次数4。扫描定位时应保证横轴面T2WI和DWI序列所有层面一致。
3.图像分割方法
使用MATLAB共享软件包进行影像组学分析。首先,对肿瘤进行手动分割。在T2WI及DWI图像中选取肿瘤最大截面积所在层面,当病灶多发时选取最大病灶;然后,使用多边形工具沿肿瘤边缘手动勾选ROI,注意避开胸壁、血管和纵隔等解剖结构;最后,将DWI图上勾画的ROI映射到ADC图上(图1)。
图1 肿瘤ROI勾画方法。a)选取肿瘤最大截面的横轴面T2WI图像,使用多边形工具手动勾画ROI; b) 选取肿瘤最大截面的横轴面DWI图像,使用多边形手动勾画ROI; c) 将DWI图上的ROI映射到ADC图。
4.影像组学特征提取
在每个序列图像上自每个肿瘤的ROI分别可提取8个直方图特征、39个灰度共生矩阵(gray level co-occurrence matrices,GLCM)特征、33个灰度游程矩阵(gray level run length matrix,GLRLM)特征、5个邻域灰度差分矩阵(neighborhood gray-tone diffe-rence matrix,NGTDM)特征和15个灰度区域大小矩阵(gray level size zone matrix,GLSZM)特征。将勾画了ROI的T2WI、DWI和ADC图进行灰度离散化,归一化为8、16、32、64和128共5个灰度级,则每个序应统计量为t、Z和χ2值。最长径为横轴面图像中病灶最大截面所在层面上肿瘤最大直径;垂直径为与肿瘤最长径垂直的径线。
列图像上可提取8个直方图特征、195个(39×5)GLCM特征、165个(33×5)GLRLM特征、25个(5×5)NGTDM特征和75个(15×5)GLSZM特征,共468个影像组学特征。最终,自3个序列(T2WI、DWI和ADC)的图像上共提取1404个个特征,然后,进行线性归一化处理,将特征值的取值范围调整为-1~1。
5.组学特征的优选和预测性能的评估
采用Student′st检验比较EGFR突变组与野生组之间各个影像组学特征的差异。随后,采用基于非线性支持向量机的递归特征消除(support vector machine-based recursive feature elimination,SVM- RFE)方法筛选最优特征子集。然后,利用10折交叉验证法,每折时将原始样本划分为10个子样本,将其中9个子样本的数据对模型进行训练,1个子样本的数据用于模型的验证;对每个子样本进行交叉验证,取10个交叉验证的平均值。应用受试者工作特征(receiver operator characteristic curve,ROC)曲线评估影像组学模型 的预测能力,计算曲线下面积(area under curve,AUC)和预测符合率 ,评估分类器的性能。
6.统计分析
使用SPSS 19.0软件进行统计学分析。采用Kolmogorov Smirnov检验对定量资料进行正态性检验,符合正态分布的数据以均数±标准差来表示,组间比较采用独立样本t检验,不符合正态分布的数据以中位数(上、下四分位数)表示,采用Wilcoxon秩和检验。组学特征的优选和预测性能的评估采用R3.4.4版统计软件进行分析。采用受试者工作特征(receiver operator characteristic curve,ROC)曲线,并计算曲线下面积(area under curve,AUC)评价预测模型的效能。以P<0.05为差异有统计学意义。
1.临床特点
EGFR突变组和野生组的基线临床资料见表1。统计分析结果显示,除性别(P=0.001)和肿瘤分型(P=0.034)之外,其余指标在两组之间的差异无统计学意义(P>0.05)。
表1 两组患者基线临床资料的比较
2.特征优选及预测性能
Studentt检验结果显示,提取的1404个影像组学特征中,318个组学特征在两组间的差异有统计学意义。利用SVM-RFE方法进一步对这些显著特征进行优选,最终选取16个最优特征(图2a),其类别分布见表2、图2b。利用SVM分类器,将EGFR突变型赋值为-1,EGFR野生型赋值为1,利用16个最优特征构建的影像组学模型 对EGFR突变进行预测,预测敏感度为53.1%,特异度为92.9%,符合率为75.7%,AUC为0.826(图2c)。进一步拟合性别因素构建联合诊断模型,其预测符合率达78.9%。
图2 特征优选及性能预测分析图。a)基于SVM-RFE的特征选择策略曲线图(横坐标表示特征的个数;纵坐标表示曲面下面积)。将318个显著性特征的重要程度按降序排序,选择曲面下面积最大的前16个特征作为最优特征。红线代表各特征的曲线下面积,蓝线代表准确性;b)16个最优纹理特征在不同MRI序列和不同特征类别中分布情况的柱状图(横坐标表示不同MRI序列的名称和不同纹理特征类别的名称;纵坐标表示特征个数);c)16个最优影像组学特征构建的影像组学模型预测EGFR突变的ROC曲线图,曲线下面积为0.826。
表2 16个最优组学特征的来源MRI序列和类别
近年来,肺癌的突变基因和基于突变基因的靶向治疗成为新的研究热点。肿瘤的基因分类可以指导治疗策略和预后评估。其中,肺腺癌占到肺癌的一半以上[14],而且大部分(约58.6%)在确诊时已处于临床晚期阶段[15]。病理检查能准确来区分和鉴别肺癌的组织学分类。但是,明确肺癌的EGFR等基因的突变类型则需要进一步行分子检测。研究表明,以EGFR为靶点的酪氨酸激酶抑制剂(tyrosine kinase inhibitors,TKIs)可以抑制肿瘤细胞的生长和增殖[16],与标准一线化疗药物相比,可延长EGFR突变患者的无进展生存期(progression-free survival,PFS)[17],已被美国国家综合癌症网络(national comprehensive cancer network,NCCN)推荐为肺腺癌的一线治疗药物。此外,EGFR突变型患者对EGFR-TKIs的应答率(60%~80%)显著高于EGFR非突变型或未知突变型患者(10%~20%)[18]。因此,早期、无创和精准评估EGFR突变情况对于肺腺癌患者的个体化治疗具有重要意义。
DWI相关参数可提示肿瘤性病变中的细胞密集程度[19],一般情况下,恶性肿瘤的ADC值明显低于良性肿瘤[20-22]。在肺腺癌中,ADC与细胞密集程度和增殖能力呈负相关[23-25]。近年来,肺癌的高发病率和CT薄层三维重组的普及,产生了大量高品质的肺癌相关CT数据,使得肺癌的影像组学研究数量相对较多。然而,由于肺部MRI检查的普及率较低,且对设备和技术的要求高,目前对肺癌的MRI相关研究还很少。磁共振成像特有的高软组织对比度和多序列优势有利于反映更多的肿瘤内部微观信息,已有学者利用基于DWI的影像组学指标来预测肺癌脑转移瘤的组织学分型和EGFR基因突变类型[26]。
本研究以磁共振T2WI、DWI和ADC图为基础,探讨影像组学特征和组学模型对预测分子标记物EGFR表型的可行性。本研究的前期阶段,经过反复调试,确定单层动态匀场技术(integrated specific slice dynamic shim,ISHIM)为采集肺部DWI图像的最优序列,该序列不仅可以动态调整局部敏感区的场强、提高磁场均匀度,同时还可缩短扫描时间、减小运动伪影,从而提高DWI图像质量。本研究中,DWI图像提取的最优组学特征的数量最多,提示DWI图像所包含的纹理信息能更好地反映肺腺癌EGFR表型的差异。虽然ADC值能更真实地反映肿瘤扩散受限的程度,可为肿瘤的诊断、鉴别和疗效评估提供定性和定量数据[27]。然而,本研究结果显示,DWI较ADC在肺腺癌的EGFR基因表达预测的应用中更有价值,笔者认为这与肺腺癌的病理分级(高、中、低分化)有关,肺腺癌的病理分级会影响ADC的预测结果,但对DWI的影响较小[27]。
笔者选取的16个最优影像组学特征中,以GLRLM的特征最多,达9个。GLRLM特征捕捉的是图像纹理的变化,可以量化图像上体素的空间关系,对肿瘤组织区域异质性变化较敏感[12]。肿瘤分子细胞和遗传的异质性导致了空间异质性的改变,如肿瘤密度、血管生成和坏死,而传统的纹理分析方法很难捕捉到这种异质性。
近期,Tu等[28]基于CT图像的影像组学方法提取9个特征组成特征集用于区分肺癌级别,训练组和验证组的AUC分别为0.763和0.782,符合率为68.7%和71.2%。本研究基于MR图像的影像组学模型预测肺腺癌EGFR基因表型的符合率为75.5%,进一步拟合性别因素构建联合诊断模型,预测符合率略有提升,达到78.9%,提示基于MRI的组学特征在预测肺腺癌EGFR基因型方面是可行的。
本研究作为单中心的回顾性研究,具有一定的局限性,尚需进行前瞻性的多机构研究来提高模型的泛化能力和优化模型。其次,采用人工分割感兴趣区的方法,主观性强、耗时较长,半自动或自动分割法尚需进一步改进。另外,本研究仅选取了T2WI、DWI和ADC三种图像进行研究,首先是基于前期相关文献的研究结果,即T2WI、DWI和T1WI诊断恶性结节的符合率分别是85.9%、87.5%和66.3%[29];同时,我们在临床工作中发现T1WI序列受呼吸运动伪影的影响比较明显;因此,本研究中未将T1WI序列纳入优化后的扫描序列中。有文献提示超短回波时间(ultrashort time of echo,UTE)、3D-T1WI具有较高的预测价值,可作为进一步研究的备选序列[30-31]。
综上所述,本研究构建的基于多序列MR影像组学模型可一定程度预测LUAD患者EGFR的基因表型,可为术前肺腺癌患者EGFR突变的个体化风险分层提供参考。