刘璐 庞琳 田彦璋
(山西医科大学 1公共卫生学院环境卫生教研室,山西 太原 030001 ;2第三医院 山西白求恩医院)
2020年全球癌症发病死亡分析报告显示,2020年新发结直肠癌(CRC)病例超过190万例,死亡935 000例,约占癌症病例和死亡人数的1/10,结直肠癌的发病率排名第三,死亡率位居第二〔1〕。远处转移作为CRC的主要死因,5年生存率仅14%〔2〕。近年来免疫〔3〕、化疗〔4〕和靶向药物治疗〔5〕等对远处转移的治疗已有很大发展,但结直肠预后依然不理想。有效且有用的预后指标可以提高CRC生存率预测的精确度,对CRC远处转移的老年患者预后改善至关重要。传统上,研究多选择Cox回归模型进行预测,并结合列线图将预测结果以图形展示〔6~8〕。然而,Cox回归模型要求满足比例风险,有时假设无法满足。Ishwaran等〔9〕提出随机生存森林算法(RSF)可以克服传统Cox比例风险回归模型的缺点,此外可以自动识别变量间的交互作用,提升预测模型的准确度〔10〕。本研究利用监测、流行病学和最终结果(SEER)的大规模真实数据库,运用随机生存森林模型对M1期老年CRC患者进行预后因素分析,为患者个性化预后评价和临床指导决策提供医学理论依据。
1.1数据来源 从美国癌症研究所SEER数据库中提取2010~2015年确诊为CRC且5年内因患癌死亡和随访5年期满仍存活的患者资料。纳入标准:①经过病理学诊断为CRC〔ICD-O-3国际肿瘤分类:直肠癌(C199和C209)和结肠癌(C180-C189)〕;②发生远处转移(M分期为M1期);③CRC是唯一的原发肿瘤;④随访信息完整。排除标准:①分化程度、分期、化疗、放疗等为不清楚或空值的病例;②肝、肺、骨、脑转移远处转移信息缺失;③尸检报告或死亡证明确诊病例;④年龄<60岁者。最终纳入6 118例,见表1。
表1 CRC患者临床资料〔n(%)〕
1.2临床资料收集 提取因素包括性别、种族、婚姻状况、发病部位、肿瘤分化、病理类型、T分期、N分期、原发部位是否手术、淋巴结手术清扫范围、化疗、放疗、癌胚抗原(CEA)水平、肝转移、肺转移、骨转移、脑转移、生存时间、生存状态 。
1.3随机生存森林算法 RSF〔11〕的基本单位为二元生存树,当数据到达树的节点(变量特征)时会依据“log-rank”分数的标准,将原始数据分裂成具有最大化生存差异的两组新数据,直到输入的最终数据发生的事件数不小于特定阈值,此节点就作为终端节。RSF的VIMP法筛选变量是根据纳入一个新的变量与不纳入该变量,两者预测准确度的差值即为VIMP值。若VIMP为正值则表明该变量可以增加预测模型的准确度;相反,会降低预测模型的准确度。与此同时,RSF还可以自动识别变量之间复杂的交互作用,通常将两个或多个变量的乘积作为交互项,交互项的存在表明一个自变量对因变量的解释,会受到另一个自变量的影响。对于交互作用的研究,能更好理解自变量对预后结局的影响,为临床提供决策建议。目前,此方法可以通过Ishwaran等〔9〕R软件开发的“Random Forest SRC”包实现。
1.4统计学方法 采用R4.0.5软件的“caret”包的“create Data Partition”函数,将数据按照7∶3随机将数据集划分为训练集和测试集。使用χ2检验比较训练集和测试集的临床特征和人口学差异。使用R包“survival”利用“log-rank”法比较不同组间生存差异,将单因素Cox分析中有统计学意义的变量纳入多因素Cox比例风险模型进行分析,寻找影响M1期CRC患者生存率的独立预后因素。通过R包“Random Forest SRC”分析预后因素的交互作用,VIMP法对自变量进行变量筛选,综合独立预后因素与变量重要性排序筛选出具有重要预测意义的变量,最后使用R包“rms”构建列线图。采用一致性指数(C-index)、校准曲线、受试者工作特征(ROC)曲线下面积(AUC),评估预测模型的准确性。并通过Brier分数验证Cox列线图和RSF-Cox列线图的准确性,分值越低,模型准确性越好。
2.1患者预后因素分析 单因素Cox回归分析显示,婚姻状况、分化程度、性别、T分期、N分期、原发灶手术、淋巴结清扫、放疗、化疗、CEA状态、骨转移、脑转移、肝转移和肺转移与M1期CRC患者的预后相关(均P<0.05)。见表1。多因素Cox回归分析显示,婚姻状况、分化程度、T分期、N分期、原发灶手术、淋巴结清扫、化疗、CEA状态、骨转移、肝转移、肺转移是M1期CRC患者预后的独立危险因素(均P<0.05)。见表2。
表2 影响M1期CRC患者预后的单因素和多因素分析
2.2VIMP法筛选变量 通过RSF的VIMP法对变量进行筛选,若变量VIMP值>0说明该变量会提高预测的准确性,若VIMP值<0说明该变量会降低预测的准确性。VIMP变量筛选法显示,性别为不重要的预测变量(VIMP=0),进一步将具有正值的变量作为最终变量筛选的结果。肿瘤分化为0.057,原发部位手术为0.038,T分期为0.026,N分期为0.021,淋巴结清扫范围为0.026,骨转移为0.049,CEA为0.012,婚姻状况为0.001,脑转移为0.039,肝转移为0.008,种族为0.008,肺转移为0.008,肿瘤部位为0.008,病理类型为0.005,放疗为0.022。
2.3随机森林分析交互作用 Cox回归结果显示“肿瘤分化”作为重要的独立预后因素,且VIMP法同样显示“肿瘤分化”也是预测模型的最重要预测因素。据此,通过RSF自动识别交互作用的方法,分析排名靠前的6个交互作用,肿瘤分化与化疗、肿瘤分化与T分期、肿瘤分化与原发部位手术、化疗与原发部位手术、化疗与T分期和年龄与原发部位手术的交互作用(表3)。为进一步探索变量交互作用对生存的影响,绘制患者在进行化疗和手术的条件下,年龄与生存时间的coplot图,结果显示,化疗对于预后影响效果明显,在无手术切除的情况下,接受化疗患者较不接受化疗者生存时间长约10个月;在无化疗的情况下,接受手术较不接受手术患者生存时长约3个月。而既接受手术切除又进行化疗的患者生存时间较两者都不接受者生存时长18个月。见图1。
图1 变量交互作用对患者生存时间的影响
表3 肿瘤发化、化疗、分期、分化、手术部位交互作用
2.4预测模型的构建及其验证 根据上述VIMP筛选出的预后相关因素,构建预后列线图预测模型(图2),预测M1期CRC患者的6个月、1年、3年、5年生存率。此外,通过C-index、AUC、校准曲线对模型进行评价。结果显示训练集的C-index为0.683(95%CI0.679~0.687),AUC值分别为0.797、0.758、0.734和0.768;测试集的C-index为0.688(95%CI0.682~0.694),AUC值分别为0.796、0.759、0.736和0.750。训练集和测试集的校准曲线显示,模型预测1年和3年的校准曲线接近45%,表明列线图预测模型与理想模型一致性较强,表现出良好的鉴别能力,预测的生存率与患者实际生存率接近。见图3、图4、图5。
图2 结直肠癌远处转移患者生存预测列线
图3 训练集和测试集6个月、1年、3年、5年的生存率校准曲线
图4 训练集的6个月、1、3、5年的ROC曲线
图5 测试集的6个月、1、3、5年的ROC曲线
2.5模型的误差比较 在测试集上绘制Cox和RSF-Cox两个模型的误差曲线,通过比较两个模型的Brier分数,分值越低,表示预测精度越好。结果显示,Cox独立危险因素预测模型(Cox)和RSF筛选变量预测模型(RSF-Cox)均优于Kaplan-Meier。但RSF-Cox略优于Cox。见图6。
图6 预测误差曲线比较
老年CRC远处转移患者预后往往较差且不同个体的死亡差异较大。目前针对CRC远处转移老年患者的生存,已开发了不少模型。但模型的外推性及准确性仍有提高空间。
RSF模型与传统Cox相比,RSF能防止过拟合且对数据无特定要求。不仅如此,RSF还可以分析变量间的非线性关系。RSF克服传统Cox回归模型的缺点,无需满足比例风险假定,极大提升了模型的应用范围。更重要的是,RSF可以自动进行调整和识别交互作用。相关研究表明,RSF模型预测准确度等同甚至优于其他传统生存分析模型〔10~12〕。本研究中预测误差曲线显示,RSF-Cox模型预测性能优于传统的Cox模型。
本研究显示,婚姻状况、分化程度、性别T分期、N分期、原发灶手术、淋巴结清扫、化疗、CEA状态、骨转移、肝转移、肺转移是M1期CRC患者预后的独立危险因素。Guo等〔7〕发现,肿瘤分级、黏液性腺癌和年龄影响M1期CRC患者预后。陈晨等〔6〕发现转移的位置对CRC转移患者预后影响相当重要。以往研究仅表明化疗与M1期CRC患者的生存受益呈正相关〔13,14〕。Ishihara等〔15〕指出,原发部位手术切除相对于不进行手术切除,可以延长转移性结直肠癌患者的总生存期(中位OS:7 vs 4个月)。不同的是,本研究通过RSF的交互作用分析发现化疗与原发部位手术两种治疗方式之间存在强交互作用,相对于单纯化疗或单纯手术,同时接受手术切除和化疗的患者实际获益大于两者之和,表明患者在接受手术后又进一步接受化疗是有意义的。再者,美国国立综合癌症网络指南和中国临床肿瘤学会也建议转移性疾病和原发肿瘤进行评估后尽可能手术切除。
目前,影响M1期老年CRC患者预后的相关因素已被相继揭示,但关于因素间的交互作用对预后的影响分析仍属空白。本研究将RSF结合传统Cox模型运用于CRC远处转移患者的生存分析中,不仅确定了影响CRC预后的因素,还发现预后因素间的交互作用,可以更准确预测M1期CRC患者的总体生存率,为患者个性化预后评价和临床指导决策提供相关医学依据。在一定程度上可以帮助临床医生进行早期干预、评估和制定个体化治疗方案,从而降低CRC转移和复发的风险。
本研究是基于大型公共数据库的一项回顾性研究,存在一些局限性。首先,由于基线数据的不完整导致数据删除,可能会与原始总体之间存在偏差。其次,有限的变量导致VIMP法筛选变量的优势表现不明显。最后,由于临床上CRC远处转移患者的样本量较少,未能进行外部验证。未来希望可以进一步对国内本土数据进行研究,构建相应的生存预测模型,以期得出国内本土M1期CRC患者预后的影响因素,为国内患者制定个性化管理策略以辅助临床医生改善CRC患者的预后生存状况。