杨成文 冯远明 李铭 郭露 王伟
食管癌是目前世界范围内最为常见的恶性肿瘤之一[1]。放射治疗在食管癌的临床治疗中起着关键作用,进展期食管癌通常采用根治性手术辅以放化疗,晚期食管癌常使用化疗和放射治疗的综合治疗方案[2]。在放射治疗前对肿瘤进行预后评估,并在放射治疗过程中及时监测肿瘤的治疗响应,对于实施个体化精确放射治疗和提高患者整体生存率至关重要。
放射组学被定义为“高通量、自动地从医学影像中提取大批量化的影像特征”,通过量化医学影像的灰度模式和灰度关联,来解码肿瘤细胞间或细胞内的异质性和病理学特征[3]。目前,文献常用的放射组学特征包括肿瘤直方图强度、肿瘤形状特征、纹理特征和小波变换特征等[4]。
Yip等[3]使用CT图像纹理评估食管癌在放化疗前后的肿瘤异质性,结果显示肿瘤区域纹理特征,如治疗前后直方图分布的峰态比例<3.54和标准差的比例<0.43,以及治疗后的平均灰度级强度<3.51时,患者的生存期较长,预后较好。Larue等[4]从165例食管癌患者的CT图像中提取1 049个纹理特征,最终筛选出灰度共生矩阵(gray-level co-occurrence matrix,GLCM)、灰度游程长度矩阵(gray-level run length matrix,GLRLM)、灰度尺寸区域(gray-level size zone matrix,GLSZM)、邻域灰度依赖(neighbouring gray-level dependence matrix,NGLDM)、邻域灰度差异(neighbouring gray tone difference matrix,NGTDM)等40个特征,与6个临床指标相结合,用于预测患者的3年生存率;结果显示,训练组和验证组的接收者操作曲线(receiver operating curve,ROC)下的面积(area under the curve,AUC)分别为0.69和0.61。
对于食管癌的放射治疗,处方剂量、剂量分布和剂量体积直方图(dose-volume histogram,DVH)等参数也可用于评估食管癌的治疗响应和预后分析。Jin等[5]从94例食管癌患者的CT 图像中提取42个放射组学特征,与18个剂量学参数相结合,用于预测患者的放射治疗响应;研究结果表明放射组学特征与剂量学参数结合之后的AUC可到达0.71,而仅使用放射组学的AUC为0.69。
本研究使用治疗计划中实体肿瘤体积(gross tumor volune,GTV)内的放射组学和剂量学特征参数,利用最大相关最小冗余(minimal redundancy maximal relevance criterion,mRMR)方法[6-9]分别筛选与两年生存相关性最大的放射组学和剂量学特征参数,并使用支持向量机(support vector machine,SVM)[10]、逻辑回归(Logistic regression,LR)[11]和随机森林(random forest,RF)[12]3种机器学习算法,建立基于放射组学与剂量学特征参数的预测模型,预测食管癌放射治疗后两年生存情况。
回顾性分析2013年1月至2017年12月在天津医科大学肿瘤医院行放射治疗的579例食管癌患者的放疗数据。其中96.7%为鳞癌类食管癌,以不可手术Ⅲ、Ⅳ期患者居多,分别占患者总数的51.2%和32.0%。胸上段和胸中段的食管癌患者占总数的77.7%,约77%患者接受同步放化疗方案或序贯化疗方案。放射治疗主要采用调强放疗(intensity modulated radiation therapy,IMRT)和容积旋转调强放疗(volumetric-modulated arc therapy,VMAT)两项技术。GTV的计划靶区PGTV的处方总剂量为56~66 Gy,使用1.8 Gy或2.0 Gy分次剂量。其中91%患者的放射治疗计划中定义GTV,剩余9%患者的放疗计划中无GTV研究对象,从本研究中排除。
1.2.1 研究设计 使用一套内部开发的放射治疗计划自动分析系统,通过直接解析放射治疗计划的底层原始数据,快速获取治疗计划中的CT图像、GTV轮廓和GTV剂量,并通过二次计算来提取GTV的放射组学和剂量学特征参数。提取的放射组学包括:一阶直方图、灰度共生矩阵、灰阶运行长度和邻域灰度差特征,共6 515项特征。剂量学特征包括:一阶统计学剂量参数、治疗计划参数、空间位置参数和空间加权剂量特征参数,共620项特征。579例食管癌患者的最长随访时间为70个月,中位生存期为19.4个月,其中20.0%患者生存期超过两年。利用放射组学和剂量学特征作为食管癌患者放射治疗后两年生存情况的预测因子。
1.2.2 数据预处理 本研究采用mRMR算法对放射组学和剂量学特征进行预处理。mRMR算法的原理是:为每个特征计算一对相关性系数(A)和冗余系数值(B),其中相关性系数是特征与两年生存情况的相关性,冗余系数是特征间的冗余系数。然后将所有特征参数的A-B值进行降序排列[13],从6 515项放射组学和620项剂量学特征参数中,分别选取排序靠前的50项放射组学和50项剂量学特征。然后使用人工方法从100项特征中,筛选与临床相关的14项放射组学和14项剂量学特征作为预测因子。使用标准归一化算法将28项特征分别缩放至[0,1]范围。
1.2.3 预测模型 以食管癌放射治疗后两年生存情况作为预测目标,将生存时间在两年以下标记为第一类,生存两年及以上标记为第二类。利用SVM、LR和RF 3种机器学习算法构建预测模型。首先使用放射组学特征,然后使用放射组学和剂量学特征参数来预测食管癌放射治疗后的两年生存情况,探讨剂量学特征参数对预测模型的影响。使用十折交叉验证来计算模型的分类准确率、召回率和AUC值。
使用mRMR算法对6 515项放射组学和620项剂量学特征进行筛选后,分别选取排序前50项放射组学和50项剂量学特征,然后人工筛选14项放射组学和14项剂量学特征参数作为预测模型的输入参数。其中放射组学包括:一阶统计学、函数滤波和高阶纹理的能量、偏态、平均值、均匀指数和百分灰度值等;剂量学特征包括:体积、剂量、方差、中心点位置、轮廓边界、空间加权DVH的偏度和峰度等。应用mRMR方法和人工筛选得到14项放射组学和14项剂量学特征,见表1。
表2是使用不同特征和预测模型来预测食管癌放射治疗后两年生存情况的结果。其中仅使用放射组学特征,SVM、LR和RF模型的分类准确度分别为84.98%、85.92%和84.51%,十折交叉验证得到的最高AUC分别为0.85、0.91和0.92。其中LR模型的分类准确率和召回率最高,RF模型的AUC 最高。图1是SVM、LR和RF3个模型的ROC 曲线。当使用放射组学和剂量学特征进行训练和测试时,SVM和RF模型的分类准确性和AUC 均有提高,其中准确率分别提高了1.34%和5.59%,对应的AUC分别提高了0.01和0.02;而LR模型的准确性和召回率降低了2.90%和0.03%,对应的AUC 降低了0.03%。图2是SVM、LR和RF 3个模型对应的ROC曲线。
表1 最大相关最小冗余方法和人工筛选得到14项放射组学和14项剂量学特征参数
表2 支持向量机(SVM)、逻辑回归(LR)和随机森林(RF)模型预测食管癌放射治疗两年生存情况的结果
图1 使用放射组学特征建立SVM、LR和RF模型得到ROC曲线
图2 使用放射组学和剂量学特征建立SVM、LR和RF模型得到ROC曲线
本研究在放射组学特征基础上,将GTV的空间位置和空间加权剂量等特征参数纳入到训练模型中。对于SVM和RF模型,剂量学特征可提高分类准确性,与Jin等[5]的研究结果一致。本研究使用相同的特征变量来训练不同模型,对比不同模型的预测准确性。针对SVM和RF模型,结合放射组学与剂量学特征可获得更为全面的肿瘤放射治疗相关信息,有助于提高预测准确性。
预测模型的准确性不仅与样本量和特征参数筛选有关,而且与机器学习算法相关。Suter等[14]使用卷积神经网络和经典回归模型来预测脑瘤生存率,卷积神经网络的准确性仅为51.5%,经典回归模型中的SVM和LR回归模型的准确性最高,达到72.2%。Krafft等[6]使用LASSO算法来预测192例NSCLC患者放射治疗后的3级及以上放射性肺炎,得到最高AUC为0.68。Jin等[5]使用SVM和梯度算法预测94例食管癌患者的放射治疗响应,得到最高AUC为0.71。本研究使用了SVM、LR和RF模型得到的最高分类准确性分别是86.32%、83.02%和90.01%,对应的AUC分别是0.86、0.91和0.94,其中RF模型的预测准确性和AUC最高。通过增加剂量学特征参数,SVM和RF模型的分类准确性和AUC均得到小幅提高。本研究构建预测模型准确率均在85%以上,较现有研究[5-6]已有较大提升。但应用剂量学特征预测放射治疗响应的研究尚处于初始阶段,剂量学特征的作用还有待于进一步研究。
本研究使用放射治疗前的CT图像的放射组学特征和放射治疗剂量学特征,构建SVM、LR和RF模型来预测食管癌放射治疗后两年生存情况。与仅使用放射组学特征相比,基于放射组学和剂量学特征参数的SVM和RF模型的准确性更高,其中RF模型的准确性最高,达到90.01%。