陈 健,闫 滢,钱小军,韩兴华,何义富
在全球范围内,胃癌是常见的消化道恶性肿瘤之一,我国更是胃癌的高发地区[1]。近年来早期筛查的推广使更多的患者获得了手术根治的机会[2]。然而,仍有一半以上的患者会出现术后复发转移,转变成晚期患者,预后较差[3]。目前的研究表明绝大多数复发都是发生在术后的2年内,即为早期复发[4],因此,预测患者早期复发风险,制定个体化的辅助治疗与随访方案,对改善患者的预后有着重要的意义。本研究拟通过收集胃癌根治术后患者的临床病理特征,结合复发及生存信息,构建患者术后早期复发的预测模型,指导临床实践。
1.1 对象 回顾性收集我院(安徽省立医院)2008-06至2018-01接受根治性手术治疗的胃癌患者114例。所有患者均经病理确诊为胃腺癌,经影像学或胃镜证实为术后复发转移。排除标准:合并其他肿瘤、非R0切除及发生严重的术后并发症。临床特征信息包括性别、年龄、术前CEA水平。病理特征信息包括术后病理分期(依据AJCC第八版)、WHO胃癌分类(2010版)、Lauren分型、脉管神经侵犯、病灶的最长径。对于术后病理检查报告中未完整提供上述病理特征信息的患者,通过调阅其术后病理组织标本进行补充诊断。
1.2 方法
1.2.1 数据准备 所有数据分析通过R软件完成。利用R软件中的sampling包随机选择70%的患者作为训练集,剩余30%的患者作为验证集。将分类变量转换成哑变量。术前CEA水平采用log2标准化。患者的临床病理特征比较采用卡方检验(非连续变量)和非参数检验(连续变量),P<0.05为差异具有统计学意义。
1.2.2 变量筛选与模型构建 在训练集中利用R软件中的glmnet包拟合临床病理特征与无复发生存时间的最小绝对收缩和选择算子(LASSO)回归模型。通过COX风险比例模型构建术后复发预测模型。
1.2.3 模型预测价值的评价 根据构建的术后复发预测模型计算患者的复发指数(recurrence index, RI)。绘制1年、2年复发的受试者工作特征曲线(ROC)并计算曲线下面积,根据RI将患者分为高复发风险组和低复发风险组,通过log-rank检验比较两组之间的无复发生存时间(relapse-free survival, RFS)的差异。利用rms包绘制列线图与校准图。利用COX风险比例模型对临床病理特征及RI与RFS之间的关系进行单因素与多因素分析。以上分析中P<0.05为差异具有统计学意义。
2.1 患者的一般情况 所有患者均接受根治性手术治疗,术后病理诊断为胃腺癌,其中训练集包含79例患者,中位无复发生存时间(median relapse-free survival, mRFS) 366 d(95%CI:302~466 d),验证集包含35例患者, mRFS为329 d(95%CI:293~584 d),两组患者mRFS无统计学差异(log-rankP=0.693)。所有患者mRFS为356 d(95%CI: 306~449 d)。训练集与验证集中患者的病灶直径及术前CEA水平无统计学差异(非参数检验P值分别为0.415和0.888),其他临床病理特征亦无统计学差异(表1)。
2.2 变量筛选与模型构建 在训练集中, LASSO回归分析表明选择年龄、性别、黏液腺癌、中分化腺癌、Lauren混合型、病理N分期及病理分期7个变量,当lambda=0.1141097时误差最小。将上述7个变量进行COX回归分析,得到每个变量的回归系数,根据回归系数计算患者的RI(RI=0.019×年龄+0.438×男性+(-0.813)×黏液腺癌+(-0.446)×中分化腺癌+0.30×Lauren混合型+0.472×脉管神经侵犯+0.224×病理N分期+0.168×病理分期)。
表1 训练集和验证集中患者的一般情况
注:①中位年龄
2.3 模型预测价值评价
2.3.1 RI与患者RFS的关系 以训练集中患者的中位RI作为截断值,将患者分成高复发风险组和低复发风险组。log-rank检验表明,在训练集、验证集以及所有患者中,低复发风险患者的RFS显著长于高复发风险的患者(log-rankP分别为<0.001, 0.003和<0.001)。
2.3.2 RI受试者工作特征曲线 通过绘制训练集、验证集及所有患者RI预测1年、2年无复发生存ROC曲线显示,在训练集中,1年和2年无复发生存ROC曲线下面积分别为0.721和0.761;在验证集中,1年和2年无复发生存ROC曲线下面积分别为0.724和0.812;在所有患者中,1年和2年无复发生存ROC曲线下面积分别为0.714和0.782。其他单个临床病理特征变量预测1年和2年无复发生存ROC曲线下面积均小于0.7。
2.3.3 临床病理特征及RI的单因素与多因素分析 对所有患者的临床病理特征以及RI进行COX单因素回归分析表明,患者的病理分期、病理T分期、病理N分期偏晚,中-低分化腺癌、Lauren分型为混合型、脉管神经侵犯以及高复发指数是胃癌术后患者复发的风险因素(表2)。对上述因素进一步进行多因素分析表明,RI是独立的复发风险因素(图1)。
表2 临床病理特征及RI与无复发生存时间的COX单因素分析
2.3.4 1年、2年无复发生存概率预测列线图 根据上述预测模型,绘制基于模型中7个变量的列线图,通过列线图计算患者1年、2年无复发生存的概率(图2)。校准图显示基于该列线图模型的回归校准曲线与理想预测值较接近,可以准确地预测患者1年、2年复发风险(图3)。
图1 临床病理特征及RI与无复发生存时间的COX多因素分析
图2 基于临床病理特征预测1年、2年无复发生存概率的列线图模型
男性、黏液腺癌、中分化腺癌、Lauren混合型、脉管神经侵犯:1 为是,0为 否;病理分期1-8分别为ⅠA、ⅠB、ⅡA、ⅡB、ⅢA、ⅢB、ⅢC和ⅣA期;病理N分期0-4分别为N0、N1、N2、N3a和N3b
图3 校准图验证列线图模型预测1年、2年复发风险准确性
A.训练集中校准图验证1年复发风险;B.训练集中校准图验证2年复发风险;C.验证集中校准图验证1年复发风险;D.验证集中校准图验证2年复发风险;E.所有患者中校准图验证1年复发风险;F.所有患者中校准图验证2年复发风险
胃癌是我国常见恶性肿瘤之一[5]。术后复发仍然是目前胃癌患者治疗失败的主要原因之一。本研究选择114例接受根治性手术治疗的胃癌患者,通过LASSO回归选择特征变量,进一步构建基于COX风险比例模型的预测模型以计算患者的RI,其预测患者1年、2年无复发生存的ROC曲线下面积均大于0.7,优于单个变量的预测价值。本研究结果显示,RI是患者独立的复发危险因素。另外,我们构建了基于该模型的列线图,校准图显示该列线图预测风险与理想的预测值接近,表明该列线图可以准确地预测患者早期复发风险。在临床实践中,我们可以根据该列线图计算患者每一项临床病理特征的评分,从而计算患者总的风险评分,预测患者1年及2年复发的风险,指导患者术后的辅助治疗和随访。
由于本研究纳入的患者数量有限,而特征变量较多,因此我们采用机器学习中的LASSO回归方法[6],引入惩罚数,进行变量压缩,可以减少变量,提高模型的可解释性,同时防止模型过拟合,提高模型的准确性。通过LASSO回归的方法,我们筛选出年龄、性别、黏液腺癌、中分化腺癌、Lauren混合型、病理N分期,以及病理分期7个与RFS相关的变量。其中,年龄、病理分期、淋巴结转移及Lauren分型均已在多项研究中被证实与患者的复发相关[7-10],与我们的研究结果相似。
尽管,目前大量的研究通过回顾性分析筛选出了多个与胃癌患者术后早期复发相关的危险因素,但这些研究并未将危险因素与复发风险之间的关系进行量化,对临床实践的指导价值有限。我们通过机器学习的方法构建的模型可以较准确地预测每一名胃癌患者术后早期复发的概率,以指导个体化的随访与治疗,在“精准医学”的背景下有着重要的意义,值得在临床上进一步证实与推广。然而,本研究也存在一定的局限性:一方面样本量较小,且患者均来自于同一个中心;另一方面,该研究中的绝大多数患者均接受术后辅助治疗,然而由于方案差异较大,故未将其纳入研究,因此研究结果可能存在一定的偏倚。在后续的研究中,我们将通过扩大样本量,联合多个中心,纳入更多的变量,如手术的方式、肿瘤的位置、术后辅助治疗的情况等,并在多个独立的数据集中进一步验证,以优化模型,提高模型预测的准确性。