郝兆华 林晓 宋玮琦 梁伯衡
肝癌是全球第六大常见高发癌症,也是癌症相关死亡的第三大原因,仅次于肺癌和结直肠癌。我国的肝癌患者数量约占全球肝癌患者的一半以上,是肝癌负担最重的国家之一[2]。对肝癌进行早期诊断、精准治疗、延长患者的生存时间等一直是医疗工作者的研究重点。随着统计学和信息技术的发展,已有多种生存分析模型在肝癌患者的生存预测方面得到了应用,但不同模型预测效果的评价尚不多见。本研究通过运用不同生存分析模型对广州市某医院肝癌患者的病案首页资料进行分析,比较其对肝癌患者生存预测和影响因素分析的效果,以期为肝癌的精准治疗和延长生存期提供参考依据。
1.1 资料来源基于广州市某医院2010 年至2015 年在该医院就诊的肝癌患者的病案首页资料,并在2020 年进行随访,了解其生存状态。(1)纳入标准:①确诊为肝癌;②定期随访;③有完整的病史记录。(2)排除标准:①病史资料不全;②无法随访到生存情况;③急诊患者。
1.2 数据采集通过查阅病案首页提取有效信息:性别、年龄、婚姻、职业、乙肝表面抗原(HBsAg)、丙肝抗体(HCV-Ab)、艾滋病病毒抗体(HIV-Ab)、血型、是否接受手术治疗、是否有抢救史、是否合并其他疾病等。
1.3 统计学方法(1)统计描述与检验:连续型资料,服从正态采用均数±标准差描述,否则采用中位数(四分位间距);离散型资料,采用频数(百分比)描述。详情如表1。其次,组间比较采用Logrank 检验,多因素分析用Cox 比例风险回归模型。检验水准为0.05。(2)生存预测统计建模:采用不同生存分析模型进行生存风险评分计算,并通过一致性指数(C-index,C 指数)对不同生存分析模型的肝癌生存预测准确性进行评估。生存分析模型包括:随机生存森林模型(RSF)、深度学习模型(DeepSurv nonlinear model)、比 例 风 险 模 型(CoxPH)、弹性网络风险模型(Elastic-net Cox)、梯度提升风险模型(Gradient Boosted Models)、多项核函数模型(Polynomial Kernel-SVM)、浅神经网络模型(Shallow Neural MTLR)等机器学习模型。以生存模型的C-index 为评判准则,C-index 值范围为0.5-1.0,<0.5 时说明无预测能力;≥0.5 且<0.7 时表示预测准确度尚可接受;≥0.7 且<0.9 时说明预测准确度较高;≥0.9 时说明预测准确度高。最后,绘制ROC 曲线,分析不同生存分析模型预测肝癌病患生存预后的价值,计算ROC 曲线下面积(AUC)。分析采用Python3.6 和R4.1.0。
2.1 基本情况共纳入肝癌患者661 例,其中男541 例(81.85%),女120 例(18.15%);年龄中位数是56 岁(四分位间距47-64 岁);已婚(96.67%),在业(87.59%)。HBsAg 阳性186 例(28.14%),HCVAb 阳性5 例(0.76%),HIV-Ab 阳性1 例。接受手术治疗357 例(54.01%),抢救史16 例(2.42%),半数合并其他疾病354 例(53.56%)。
2.2 影响总体生存时间的单因素分析见表1。
表1 肝癌病人统计描述及组间比较(n=661)
2.3 影响总体生存时间的多因素分析见表2。
表2 肝癌病人总体生存时间的Cox 多因素分析(n=661)
2.3 不同生存分析模型的比较RSF、DeepSurv nonlinear model 可用于病人的生存风险评分分析,详见表3。
表3 不同生存分析模型的C 指数和AUC 比较
本研究基于广州市2010 年至2015 年的肝癌患者病案首页资料及随访结局,系统地评估了广州市肝癌患者的生存率及其影响因素,并以此为基础构建多种模型对患者生存率进行预测。研究结果显示,肝癌患者的中位生存时间为247 天,与文献报道结果相似[3,4]。进一步分析发现,退休、有抢救史、合并其他疾病是影响肝癌生存率的危险因素,而接受手术治疗是影响肝癌生存率的保护因素。以此为基础构建的预测模型RSF、DeepSurv nonlinear model 模型对肝癌患者的生存率具有较好的预测能力。
近年来,以随机森林、支持向量机等算法为代表的的机器学习正广泛应用于医学,特别是肿瘤学领域中[5]。在肝癌研究方面,机器学习的应用已聚焦于病理诊断、临床预后等[6,7]。有研究已证实,机器学习算法在预测HCV 肝硬化患者发生肝癌的发生风险、肝癌患者术后死亡率等方面优于传统模型[8]。但所采用的方法多为人工神经网络模型(ANN)来分析治疗后存活率的预测因素[9]。RSF 模型是非线性模型,能更好地基于变量间的相互作用以预测结果[10],已被用于乳腺癌[11]、结直肠癌患者的预后中[12]。但其与肝癌的预后的相关研究较少。此外,有研究表明DeepSurv nonlinear模型在预测患者的生存时间方面优于其他线性和非线性生存分析方法[13],但仍未见其在肿瘤学领域的应用。
本研究通过比较RSF、DeepSurv nonlinear model、CoxPH 等多种机器学习模型的C 指数和AUC,证实了其在广州市肝癌患者人群中,RSF、DeepSurv nonlinear model 对其的生存具有良好的预测能力,但由于研究限制,未在模型中纳入更多的相关因素。总之,肝癌患者的预后涉及不同方面、多因素共同作用,只有在全面综合分析各种指标的前提下,才能更科学地指导临床。