预测肺腺鳞癌患者骨转移机器学习模型的建立

2023-06-25 09:29朱英浩王诗淇张纬刘瑜
温州医科大学学报 2023年7期
关键词:鳞癌机器预测

朱英浩,王诗淇,张纬,刘瑜

1.温州医科大学附属第一医院 心胸外科,浙江 温州 325035;2.温州医科大学 第一临床医学院(信息与工程学院),浙江 温州 325035;3.浙江大学医学院附属第四医院廿三里院区 内科,浙江 金华 322000

目前,肺癌是全球第二大常见恶性肿瘤,占所有癌症病例的11.4%,占所有癌症死亡人数的18%[1]。非小细胞型肺癌(non-small cell lung cancer, NSCLC)占所有原发性肺癌的80%以上,骨转移是肺癌最常见的转移途径,而骨转移是导致肺腺鳞癌预后变差的重要因素之一[2-3]。因此,一个准确预测肺癌转移到其他器官的预测模型对患者的治疗至关重要。

机器学习可以识别复杂的非线性关系,并自动学习和提高性能,被认为优于传统的识别和解决问题的方法[4-5]。机器学习已广泛应用于临床,如图像识别和癌症预测[6]。本研究中展示了一种机器学习的方法来预测肺腺鳞的骨转移。

1 材料和方法

1.1 数据收集本研究的队列来自SEER数据库以及温州医科大学附属第一医院。从SEER数据库中收集了2010年至2018年诊断的患者数据,使用ICDO-3代码C34.0、C34.1、C34.2、C34.3、C34.8和C34.9以及组织学代码8560/3来确认肺腺鳞癌患者。选择了包括年龄、TNM分期、肿瘤偏侧性、原发部位、病理分级、转移部位和生存期等特征。从其中挑选出年龄为15~85岁,生存期大于1个月,为原发性肺癌,有准确的人种信息、病理分级、肿瘤位置、TNM分期以及肿瘤大小的病例。共收集1919例符合条件的病例,并以随机分组的方式以7:3的比例分为训练集组(n=1366)以及测试集组(n=553)。从温州医科大学附属第一医院收集了2017年1月至2021年12月的患者数据共51例,将其分入外部验证集组。

1.2 统计学处理方法所有数据分析均使用R 4.1.3 (https://www.r-project.org/)完成;所有机器学习算法代码都由Python 3.10(https://www.python. org/)编写和运行;SEER*Stat(https://seer. cancer.gov/)用于获取数据库中患者数据。对于符合正态分布的两组间比较采用Student’st检验;对于两组间分类样本的差异分析采用χ2检验进行分析;采用Kaplan-Meier法计算和可视化未经调整的生存曲线,采用Logistic回归分析来计算各指标的OR值以及其95%CI,以确定肺腺鳞癌患者发生骨转移的独立危险因素。使用了6种机器学习算法,包括随机森林(random forest, RF)、支持向量机(support vector machine, SVM)、极端梯度提升(eXtreme Gradient Boosting, XGBoost)、梯度提升(Gradient Boosting Machine, GBM)、神经网络(Multi-Layer Perceptron, MLP)和k近邻(K-Nearest Neighbor,kNN),使用受试者工作特征(receiver operating characteristic, ROC)曲线来评价模型的预测能力。P<0.05为差异有统计学意义。

2 结果

2.1 患者特点在本研究的SEER队列研究中,最终纳入了1919例肺腺鳞患者,温州医科大学附属第一医院队列纳入51例符合条件肺腺鳞癌患者。各组的基本特征见表1。利用Spearman相关性分析对变量之间的相关性进行分析和可视化,结果显示骨转移与其他器官的转移以及TN分期最为相关,见图1。

图1 Spearman相关性分析

表1 训练集、测试集及外部验证集患者基本特征

2.2 生存分析使用Kaplan-Meier法比较肺腺鳞患者中有无骨转移的相对生存率。骨转移患者的癌特异性生存(cancer specific survival, CSS)较无骨转移者明显较差(P<0.001)。见图2。肺腺鳞癌骨转移患者的中位生存期为5个月,而无骨转移患者的中位生存期为21个月。

图2 肺腺鳞癌骨转移和无骨转移患者Kaplan-Meier曲线

2.3 单因素和多因素Logistic回归分析单因素Logistic回归分析显示,年龄、TN分期、病理分级、肿瘤大小、肝转移、脑转移、远处淋巴结转移与骨转移显著相关(P<0.05)。在多因素Logistic回归分析中,骨转移与淋巴转移和肝脑转移有很强的相关性,结果与热图一致。年龄、TN分期、病理分级、远处淋巴结转移以及其他器官转移差异有统计学意义(P<0.05)。见表2。

表2 单因素和多因素Logistic回归分析

2.4 机器算法的性能机器学习算法将队列随机分为训练集组和测试集组,比较6个模型的预测属性。训练集组用于建模,测试集组用于测试。从ROC曲线来看,XGBoost(AUC=0.86)、GBM(AUC= 0.83)和RF(AUC=0.80)所建立的模型表现优于MLP(AUC=0.80)、SVM(AUC=0.79)、kNN(AUC=0.58),见图3。其中各个预测模型的预测准确率分别为,XGBoost:90.60%(95%CI=0.882~0.930),GBM:89.69%(95%CI=0.872~0.922),RF:89.87%(95%CI= 0.874~0.924),SVM:91.14%(95%CI=0.888~0.935),kNN:89.87%(95%CI=0.874~0.924),MLP:80.47%(95%CI=0.772~0.838)。笔者认为XGBoost、GBM、RF 3种模型表现优异可用于预测肺腺鳞患者的骨转移,而其中又以XGBoost算法模型在测试集组的表现最佳,因此进一步用3种内部验证集组表现优异算法进一步进行外部验证,以确认其预测性能。

图3 6种不同模型的机器学习ROC曲线

2.5 机器学习算法预测模型外部验证使用温州医科大学附属第一医院的肺腺鳞癌患者数据进行模型的外部验证显示,XGBoost(AUC=0.86)、GBM(AUC=0.83)和RF(AUC=0.81)机器学习模型依旧展示了优秀的预测性能,以XGBoost预测性能最为优异(见图4)。

图4 3种机器学习预测模型的外部验证ROC曲线

2.6 患者特征的重要性基于XGBoost建立的预测模型表明肝转移以及远处淋巴结转移的肺腺鳞患者更可能发生骨转移。TN分期在肺腺鳞向骨转移的进展中也很重要。见图5。

图5 XGBoost模型的特征重要性

3 讨论

肺腺鳞癌与肺腺癌或肺鳞癌相比是一种罕见但更具侵袭性的NSCLC组织亚型[2,7-8]。肺腺鳞癌发病率低,临床样本量少,因此肺腺鳞癌的进展及其影响因素尚不清楚。肺腺鳞癌除了具有肺腺癌和肺鳞癌的一般生物学特征外,也有其独特的生物学特 征[9]。有研究证明肺腺鳞癌的预后远比肺腺癌和肺鳞癌差[7,10]。肺腺鳞癌更容易引起局部浸润、胸膜侵袭以及早期的淋巴或血液转移,导致患者往往在晚期被诊断,无法进行手术治疗[11-12]。对于一些初诊或术后早期复查已发生转移但却未及时发现的患者,倘若不进行手术、及时全身化疗或联合靶向治疗,可能导致癌症转移扩散甚至死亡[13]。早期手术、化疗、放疗和靶向治疗已被证明可以改善预后和延长总生存期[11,14-16]。因此,理想的预测模型用于预测肺腺鳞患者是否容易发生骨转移至关重要,对于转移风险高的患者,可及早进行临床干预。

此前的研究发现肺腺鳞癌相比于肺腺癌或是肺鳞癌,肿瘤尺寸更大,发病年龄更小,且预后更差,我们的研究结果与他们的结果相符[8,17]。FILOSSO等[7]的研究发现远处转移、肿瘤神经周围浸润和肿瘤分期是肺腺鳞癌预后的危险因素。WATANABE等[18]的研究发现肿瘤周围炎症变化是肺腺鳞癌独立的预后因素。徐振武等[19]的研究也发现分期、亚型方式和亚型类型也对肺腺鳞癌预后有着较大的影响。本研究可以分为三个部分:首先分析了患者特征的相关性,通过热图可视化我们可以大致了解与骨转移相关的特征,并且使用Kaplan-Meier曲线得出发生骨转移后的肺腺鳞癌患者的预后会明显较差。其次,根据Logistic回归分析结果,骨转移与肝转移、远端淋巴结转移、脑转移最为相关,这些在之前肺腺癌和肺鳞癌的研究中得到证实[20]。最后共使用了6种不同的机器学习算法,包括RF、XGBoost、GBM、kNN、MLP和SVM去构建肺腺鳞癌的骨转移预测模型。我们可以得到在6种算法中XGBoost、RF、GBM无论是内部验证或是外部验证都表现优秀,适用于构建肺腺鳞癌骨转移预测模型。其中以XGBoost算法为基础构建的预测模型结果最为精确,其以肝转移、远处淋巴结转移、TN分期等作为预测因子,对肺腺鳞癌患者骨转移风险做出预测。通过机器学习算法模型确定肝转移、远处淋巴结转移、TN分期是肺腺鳞癌患者发生骨转移最重要的危险因素。根据机器学习模型的结果,肺腺鳞癌合并肝转移或远处淋巴结转移的患者有较高并发骨转移的风险。

综上所述,发生骨转移是肺腺鳞癌患者预后变差的主要原因之一,但目前依旧缺少一个可以早期并且准确预测骨转移的预测模型工具。我们使用机器学习的方法,构建了一种可以预测肺腺鳞癌患者骨转移风险的预测模型。该模型可以通过对患者的特征进行分析,然后返回患者骨转移的风险概率,能够在临床上帮助医师更早并且更准确地对肺腺鳞癌患者的骨转移风险进行预测。医师可以根据不同的患者不同的骨转移风险,予以不同患者更加精确地治疗,并且能够更加及时地对患者的治疗方案进行有效地调整,能最终造福于肺腺鳞癌患者。

本研究存在一定的不足。因为肺腺鳞癌的发病率低,诊断相对困难,所以单靠单中心难以获得足够的数据样本进行建模并验证。且有许多的数据是较难从数据库中进行获得,比如血液标志物、免疫组化结果等。后续也更希望能够通过多中心的合作,以纳入更多的患者数以及更多的患者特征来建立一个更加完善以及准确的肺腺鳞癌骨转移的预测模型。

猜你喜欢
鳞癌机器预测
无可预测
机器狗
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
机器狗
恶性胸膜间皮瘤、肺鳞癌重复癌一例
基于深度学习的宫颈鳞癌和腺鳞癌的识别分类
未来机器城
不必预测未来,只需把握现在
整合素αvβ6和JunB在口腔鳞癌组织中的表达及其临床意义