基于SEER数据库鼻咽癌患者生存预后的Cox回归与随机生存森林分析

2023-06-02 07:40肖志伟韦岳昆黄代政
现代医药卫生 2023年10期
关键词:组织学鼻咽癌数据库

肖志伟,韦岳昆,傅 永,黄代政,黄 超△

(广西医科大学:1.信息与管理学院;2.生命科学研究院,广西 南宁 530021)

鼻咽癌是一种特殊的鳞状细胞癌[1],并且在全世界范围内具有特殊地域和种族分布,其好发于我国南方、东南亚、北非等地区[2]。据世界卫生组织统计,仅2020年鼻咽癌在全球范围内的新发病例高达13万例,死亡病例更是超过8万例[3]。根据鼻咽癌发病特点,以及患者在治疗方式、生活方式等方面的差异及时开发鼻咽癌生存预后预测模型可为临床医师及鼻咽癌患者提供重要参考。Nomogram图可被用于预测疾病的发生概率及临床结局,尤其是在恶性肿瘤方面。SEER数据库提供了不同组织病理学癌症亚型的发病率、生存率和死亡率数据,支持能够改善肿瘤学实践的前沿癌症研究。目前,国内对于SEER数据库的数据挖掘主要集中于结直肠癌、胃癌、肺癌、非小细胞肺癌等病种[4-7];针对鼻咽癌病种,尤其是利用机器学习方法对SEER数据库在鼻咽癌预后方面的文献报道还较少见[8]。本研究分析了SEER数据库中鼻咽癌患者生存预后的影响因素,开发专门的鼻咽癌生存预后预测模型,拟为该病的诊治及预后提供数据支撑。

1 资料与方法

1.1资料

1.1.1研究对象 在SEER数据库(SEER*Stat Version 8.4.0.1)中检索确诊年份为2000年1月1日至2017年12月30日的鼻咽癌患者1 411例作为研究对象。

1.1.2纳入标准 (1)全年龄段鼻咽癌患者;(2)性别明确;(3)诊断年份为2000年1月至2017年12月;(4)组织病理学检查诊断为鼻咽癌;(5)临床基本信息完整,生存时间确切,生存状态明晰;(6)术后与死亡的时间差大于3个月;(7)婚姻状态信息完整。

1.1.3排除标准 (1)临床信息、死亡原因、肿瘤分期、组织学分级、病理检查等信息缺失;(2)极端个别数据(主要指所占比例不到1%的数据)。(3)TNM分期未知或T分期为0。

1.2方法

1.2.1资料收集 数据来源于SEER数据库,其是一个重要的基于人群的资源,包含了大量癌症患者临床诊疗的相关信息[9]。成功注册申请SEER数据库账号并升级访问权限,得到美国国立癌症研究所对Research Plus数据的访问许可后查询统计2000年1月至2017年12月被诊断为鼻咽癌患者的生存资料,包括年龄、性别、种族、肿瘤组织学分级、肿瘤分期、TNM分期、放疗信息、是否进行肿瘤切除手术、手术和放疗的先后顺序、化疗信息、是否进行全身性的系统治疗,以及系统治疗与肿瘤切除手术的顺序、婚姻状态、患者生活的地理区域划分等信息。

1.2.2数据处理 首要(第一)恶性指标指患者第1次被登记在SEER数据库的恶性肿瘤类型。使用KM生存分析,使用Cox回归进行多因素分析并构建Cox回归模型与鼻咽癌患者生存预后Nomogram图。进行多因素分析时将1 411例患者按随机无放回方法7∶3的比例分为训练集984例和验证集424例,采用R 4.2.1软件建立并验证模型。使用随机生存森林(RSF)方法探究影响因素之间的关系及其相互影响,并通过特征重要性排序(VIMP)法对变量相关性进行排名。

2 结 果

2.1单因素及多因素分析 年龄、性别、种族、肿瘤组织学分级、肿瘤分期、放疗信息、是否进行肿瘤切除手术、肿瘤转移信息、首要恶性指标信息、婚姻状态等均为影响鼻咽癌患者预后的独立危险因素,差异均有统计学意义(P<0.05)。见表1。

表1 单因素及多因素分析

2.2RSF变量重要性 年龄、种族及肿瘤组织学分级、N分期、M分期、Stage分期等均为重要的预后预测因素。VIMP值小于0表示该变量降低了预测精度,>0表示该变量提高了预测精度。可见年龄和肿瘤组织学分级对结果精度的影响最大。见图1。

图1 RSF变量重要性

2.3Nomogram图的构建及验证 根据Cox比例风险回归模型基于单因素及多因素分析结果绘制的生存预后Nomogram图见图2。预后Nomogram模型采用Bootstrap法进行验证并分别得出1、3、5年生存率校准曲线见图3~5。训练集一致性指数(C指数)为0.782,验证集C指数为0.751。对模型进行受试者工作特征(ROC)曲线绘制显示训练集ROC曲线下面积(AUC)为0.723,验证集AUC为0.718,说明模型具有良好的预测能力。见图6、7。

图2 鼻咽癌患者术后1、3、5年Nomogram图模型

图3 1年预测生存率

图4 3年预测生存率

图5 5年预测生存率

图6 训练集ROC曲线

图7 验证集ROC曲线

3 讨 论

鼻咽癌是一种极具地域特色的恶性肿瘤,高发于我国华南地区和东南亚地区[2]。近年来,随着放疗技术的不断进步,鼻咽癌患者的疗效尚可,是恶性实体肿瘤中预后表现较好的类型之一[10]。目前,大部分鼻咽癌患者治疗失败的原因为发生了远处转移[11];另外,还有部分患者在就医确诊时就已处于鼻咽癌晚期,这部分患者预后较差,也是当前临床治疗的一个主要挑战。鼻咽癌相较于其他恶性肿瘤具有易复发和易转移等特点[12];在治疗时鼻咽癌表现为对化疗药物的高敏感性[13]。因此,了解鼻咽癌的临床特征及影响预后的相关因素有助于医师进行临床决策,提供治疗建议,帮助患者选择诊疗方案。本研究基于SEER数据库构建了鼻咽癌患者术后的生存预后预测模型,并经验证模型预测性能良好。

本研究结果显示,年龄、性别、种族、肿瘤组织学分级、肿瘤分期、放疗信息、是否进行肿瘤切除手术、肿瘤转移信息、首要恶性指标信息、婚姻状态均是影响鼻咽癌患者生存预后的独立因素。年龄是影响鼻咽癌非常重要的因素之一。鼻咽癌的发病多见于40岁以后[14]。目前,也有年轻化的趋势。且患者年龄越大预后越差,可能与老年人机体免疫力与耐药性等因素相关[15]。目前,有研究表明,鼻咽癌的发病机制也可能与遗传有关[16]。因此,有家族遗传史的群体应高度重视,做到定期体检。本研究发现,性别对鼻咽癌患者的生存预后影响并不明显。现有研究表明,鼻咽癌高发于黄种人[17]。除遗传因素外,对不同种族之间文化、饮食、生活习惯等方面的差异可能也是导致种族差异的原因[18]。从传统的临床恶性肿瘤组织学分级和肿瘤分期来看,高分化患者的预后远好于低分化者;从TNM分期来看,T1N0M0分期患者预后情况一般好于后期者。本研究还发现,进行过肿瘤切除手术患者的情况,以及进行过全身治疗的患者预后往往更好。鼻咽癌作为一种特殊的头颈部鳞状细胞癌[19],对放化疗均表现出高度敏感[20]。本研究结果也表明,放化疗均可使患者预后得到改善。对于已经发生肿瘤转移的患者,其生存预后表现较差,对于此类患者,放疗加化疗的治疗方式可改善其生存预后。而对于患者的婚姻状态,本研究发现,有伴侣的患者生存预后优于无伴侣者,可能与伴侣的安抚、照顾有关[18]。

本研究绘制的Nomogram图整合了常见且被广泛认可的独立预后危险因素,如TNM分期、放疗信息、是否进行肿瘤切除手术、手术和放疗的先后顺序、化疗信息、是否进行全身性的系统治疗,以及系统治疗与肿瘤切除手术的顺序等信息,ROC曲线提示本研究建立的Nomogram图具有优秀的预测能力。

本研究采用Cox回归与RSF相结合的研究方法,通过RSF方法克服了传统Cox回归方法的一些限制[8],并对影响鼻咽癌患者生存预后的相关因素进行了重要性排序。从本研究的RSF的VIMP法排名中也可见,在影响鼻咽癌患者生存预后的因素中年龄和肿瘤组织学分级是占比权重较大的因素,与传统临床分期比较,M分期的影响远大于T、N分期。同时本研究还发现,放疗是影响鼻咽癌患者生存预后的较为关键的因素,以及患者是否进行肿瘤切除手术与其生存预后息息相关。本研究也进一步证明,黄种人尤其是亚裔的生存预后远低于其他人种。VIMP法排名还显示,远处(骨、脑、肝、肺)转移情况对鼻咽癌患者的影响较小,可能因为鼻咽癌发生远处转移时已经是局部晚期,且鼻咽癌发生远处转移的概率较小[19]。另外可能还与本研究纳入的患者中发生远处转移的病例较少有关。

本研究也存在一些局限性:(1)本研究是基于SEER数据库的临床资料的回顾性研究,是在已知数据上进行关联分析,与前瞻性研究比较,存在数据可靠性相对较低等劣势;(2)没有考虑化疗药物和放疗方式之间的差异;(3)恶性肿瘤数目也是通过简单分层进行模糊分析,也可能在一定程度上对自变量与因变量之间的相关性造成了影响;(4)由于数据库本身的局限性,也没有考虑血浆EB病毒拷贝数等生化指标[21],均在一定程度上影响了结果的精确性。

综上所述,本研究基于SEER数据库构建了鼻咽癌的生存预后模型,可帮助鼻咽癌患者制定个性化的诊疗方案,有助于临床医师更好地评估患者病情,并给予更为合适的临床治疗建议。

猜你喜欢
组织学鼻咽癌数据库
张帆:肝穿刺活体组织学检查
中医药治疗鼻咽癌研究进展
数据库
数据库
鼻咽癌组织Raf-1的表达与鼻咽癌放疗敏感性的关系探讨
数据库
数据库
泌尿系统组织学PBL教学模式浅析
鼻咽癌的中西医结合诊治
六种常用实验动物比较组织学共享数据库的初步建立