中国人群肺腺癌生存概率列线图的建立与验证:一项基于SEER的大型回顾性队列研究

2024-02-22 05:38李慧敏
新疆医科大学学报 2024年1期
关键词:线图淋巴结变量

李 宏, 唐 乐, 李慧敏, 罗 琴

(新疆医科大学1附属肿瘤医院呼吸神经内科, 2第三临床医学院, 乌鲁木齐 830011)

肺癌是全世界癌症相关死亡的主要原因,每年估计有200万新发病例和176万死亡病例[1]。非小细胞肺癌(NSCLC)是肺癌的主要类型(约80%~85%),其中肺腺癌(LUAD)是最常见的NSCLC亚型(约占50%)[2-3]。尽管治疗取得很大进展,但LUAD仍然是最具侵袭性和最快致死性的肿瘤类型之一,生存状态不尽人意。目前,关于LUAD患者的预后因素尚无准确定论,缺乏大型多临床中心研究对其进行估计。

SEER数据库是美国国家癌症研究所建立的一个开放公共数据库,现已收集了1973-2020年间癌症患者的发病率、治疗、预后等信息。SEER数据库可用于获取大量的长期随访的患者数据,近年被诸多用于肿瘤预后模型分析[4-5]。近期有两项基于SEER预测LUAD总生存期(OS)的列线图模型[6],然而纳入人群未明确区分中国人群体,使得这些模型在中国LUAD患者中的适用可行性存在争议[7]。

列线图通过一簇不相交的线段表示平面坐标中多个研究变量之间的函数关系,是一种可视化的临床预测模型,为临床决策提供个体化科学依据[8]。它被证明优于传统的TNM分期系统[9],已广泛应用于食管癌、乳腺癌、肝癌、结肠癌等多种实体肿瘤的预后和风险评估[10-13]。目前尚缺乏基于中国人LUAD大数据的生存预后可视化模型。因此,本研究利用SEER数据库的大样本临床信息,探讨预后风险因素,构建列线图并验证,以期指导中国LUAD患者的临床个体化治疗。

1 材料与方法

1.1 研究对象本研究使用SEER*Stat8.4.1软件(https://seer.cancer.gov/seerstat/software/)进行数据获取:(1)Data选项卡选择数据集“Incidence-SEER Research Data, 17 Registries, Nov 2022 Sub (2000-2020)”;(2)Selection选项卡限定数据范围:疾病部位为肺与支气管“Site and Morphology. Site recode ICD-0-3/WHO 2008=‘Lung and Bronchus’”、疾病性质为恶性“Site and Morphology. Behavior code ICD-0-3=‘Malignant’”、以及中国人群“Race and Age (case data only). Race/ethnicity=‘Chinese’”,从而获取SEER数据库中2000-2020年间美国国家癌症研究所(National Cance institude,NCI)17个登记处的中国人肺癌数据(n=14 411),包含患者人口统计学特征、原发肿瘤部位、肿瘤形态、诊断分期、治疗方案及生存信息等。原发性癌症分类是根据国际肿瘤学疾病分类第3版(ICD-O-3)进行的,该分类根据原发部位、组织学、行为代码和等级确定癌症类别。纳入标准:(1)肿瘤部位编码为C34.0-C34.9的肺原发性恶性肿瘤患者;(2)肺腺癌组织学编码为8256、8257、8250、8551、8260、8265、8230、8253、8254、8480、8333、8144、8140。排除标准:(1)缺乏如肿瘤分期、TNM分型、偏侧性、婚姻状况、治疗和生存信息等必要的数据;(2)合并其他癌症。根据纳入排除标准,最终确定3 304名中国人群的肺腺癌患者。根据7∶3比例随机抽样法分为训练集(n=2 306)和验证集(n=998)。

1.2 方法SEER的最新数据于2023年4月19日发布。患者的人口统计学数据包括诊断时的年龄、性别、婚姻状况。恶性肿瘤数据包括原发部位、偏侧性、ICD-O-3组织病理学编码、分化分级、临床分期、T分型、N分型、M分型、转移部位、合并其他肿瘤顺序。临床治疗数据包括原发部位手术、非原发部位手术、手术治疗策略及实施与否、区域淋巴结清扫数目、淋巴结检查及阳性个数、放疗、化疗、综合治疗顺序、诊断后开始治疗月份等。生存数据包括死亡年份、最后随访年份、死亡原因、生存月份、删失及数据来源等。本研究中,癌症特异性生存期(CSS)被作为终点,定义为从诊断到因肺癌死亡的时间。

1.3 列线图构建验证及统计学分析列线图的构建:(1)对SEER下载的数据进行整理与清洗,数据缺失百分比较大时舍弃相应变量。(2)连续变量年龄按(<70岁,70~80岁,80~90岁,≥90岁)转换为分类变量,分类变量统计学描述为频率、百分比、均值(95%置信区间)和中位数(四分位数间距)。训练集及验证集的基线特征比较使用SPSS 27.0进行卡方检验/t检验或Mann-WhitneyU检验。(3)利用R4.3.0的“survival”包,将训练集所有变量进行单因素Cox回归;结合临床经验将单因素P值<0.1的有意义变量进行多因素Cox回归;(4)无序多分类变量设置哑变量,其多因素分析总检验有统计学差异时,遵循“同进同出”原则纳入所有哑变量;(5)利用向前/向后/逐步等多种方法构建多因素Cox回归不同模型,根据赤池信息准则(Akaike information criterion,AIC)对比不同模型的AIC大小筛选最优拟合模型并进行anova检验;(6)使用“rms”包构建列线图。

列线图的验证:在训练集及验证集当中进行验证。(1)使用“survival”包计算一致性指数(C-Index)评估区分度。(2)使用“survivalROC”包绘制1年、3年、5年时间依赖性受试者工作曲线(ROC),根据曲线下面积(AUC)评估模型预测能力。(3)使用“survival”包利用1 000次Bootstrapping方法生成校准曲线以分析1年、3年和5年CSS,评估预测生存率与实际生存率之间的一致性。(4)使用“survival”包绘制临床决策曲线(DCA),根据模型净获益评估临床适用性。(5)按照训练集预测值中位数分为高低风险组进行分层,利用“survival”包、“survminer”包及“ggplot2”包绘制风险分层Kaplan-Meier曲线,并进行对数秩检验。以上流程如图1。

图1 列线图模型构建与验证流程图

2 结果

2.1 训练集与验证集的基线特征分析训练集及验证集的人口统计学、恶性肿瘤、临床治疗、生存等数据的基线对比详见表1。各生存相关风险变量的卡方检验显示训练集与验证集两组人群无明显统计学差异(P>0.05)。其中<70岁、女性、已婚、原发部位为肺上叶、右侧肺、Ⅳ期、T2/T4、N2、M1、未手术、未区域淋巴结清扫、未放疗、行化疗是各变量的主要占比特征。训练集与验证集生存时间(月)均值分别为27.60±35.55和29.57±38.72,中位生存时间为15[4,36]和15[4,39],t检验及Mann-WhitneyU检验结果均无统计学差异(P>0.05)。

表1 训练集和验证集的基线特征分析

2.2 单因素和多因素Cox回归分析训练集的Cox回归分析详见表2。单因素Cox回归分析结果显示,年龄、婚姻状态、原发部位、临床分期、T分型、N分型、M分型、手术、区域淋巴结清扫、手术策略、放疗可能是影响中国人肺腺癌患者CSS生存期的风险因素(P<0.1)。将以上因素纳入多因素Cox回归分析。其中婚姻状态(丧偶)、原发部位(主支气管)、临床分期(Ⅱ~Ⅳ)、T(T2~T4)、N(N1)、外科手术、区域淋巴结清扫(1~3/4)、放疗显示具有统计学意义。采用向前、向后、逐步、向后似然比法构建模型变量,根据AIC准则,向后似然比法的AIC值最小为19 908.86,并经anova检验各方法所建模型无明显统计学差异。最终模型变量确定为8个变量,包括婚姻状态、原发部位、临床分期、T、N、外科手术、区域淋巴结清扫、放疗。

表2 训练集的单因素及多因素Cox回归分析

2.3 可视化预测模型-列线图利用上述多因素Cox回归分析确定下来的8个变量预测模型构建可视化列线图(图2)。在列线图中,临床分期显示评分占比最大,后续依次是区域淋巴结清扫、T(肿瘤大小)、肺原发部位、手术、N(淋巴结转移)、婚姻状态和放疗。通过此列线图可预测中国人肺腺癌患者的1年、3年、5年的癌症特异性生存率。

图2 基于训练集多因素Cox回归分析确定的预后危险因素构建列线图模型

2.4 C-Index与ROC曲线训练集C-Index为0.716(CI:0.702~0.730), 验证集C-Index为0.697(CI:0.675~0.719)。在1年、3年和5年的时间点,训练集的ROC曲线下面积(AUC)分别为0.766、0.808和0.858,验证集的AUC分别为0.733、0.789和0.816。显示列线图模型具有良好的区分度(图3)。

图3 训练集和验证集的1年、3年、5年ROC曲线

2.5 校准曲线经1 000次Bootstrapping生成的校准曲线显示,列线图在训练集(上)与验证集(下)的预测值(红色/浅蓝色)与实际值(黑色参考线)有较好一致性(图4)。

图4 训练集(上)和验证集(下)的1年、3年、5年校准曲线

2.6 DCA曲线列线图的DCA曲线显示,相对于不治疗患者(None)及积极干预所有患者(All)两种策略,列线图为肺腺癌患者提供了更好的1年、3年、5年预防净获益(图5)。

图5 训练集(左图)和验证集(右图)的1年、3年、5年DCA曲线

2.7 风险分层KM曲线按照训练集的CSS预测值的中位数作为分界点,将所有个体分为高低风险组,训练集及验证集的KM曲线均显示,高风险组相对于低风险组中位生存期缩短,预后更差(P<0.001)(图6)。

图6 训练集(左图)和验证集(右图)的风险分层KM曲线

3 讨论

肺腺癌(LUAD)的主要病理亚型包括浸润性、浸润性非黏液性、浸润性黏液性、胶样、胎儿型和肠型腺癌等[14]。LUAD在病理生理学、临床行为等方面是一种高度异质性疾病,死亡率高、预后差,给治疗和预测预后带来了重大挑战[15]。稳健的预后预测模型有助于准确评估和预测疾病生存及死亡,制定准确的个体化治疗策略。Wang等[4]人基于2010-2015年诊断为LUAD的SEER数据构建了列线图模型预测OS,此模型包括年龄、性别、T分期、N分期、M分期、骨转移、脑转移、肝转移8个危险因素。另外一项研究基于1975-2016年诊断为LUAD的SEER数据构建了包括年龄、性别、种族、婚姻状况、AJCC-TNM分期、肿瘤大小、分级和原发部位在内的十因子列线图模型预测OS,其中种族是影响LUAD预后的重要因素之一[6]。上述模型均是以总生存期(OS)作为终点指标,未区分癌性特异性生存期,严格意义上来说,OS包含的非癌性特异性生存期(CSS)属于删失数据,降低了生存模型的整体科学性。因此基于最新发布的SEER大数据,本研究重点探讨了2000-2020年间中国人群LUAD的CSS预测可视化模型。

本研究中的列线图模型由婚姻状态、原发部位、临床分期、T分型(肿瘤大小)、N分型(淋巴结转移)、外科手术、区域淋巴结清扫、放疗8个危险因素组成,可预测中国人群LUAD患者的1年、3年及5年CSS。例如一个丧偶的、原发部位在肺下叶、III期、肿瘤6 cm(T3)、纵隔淋巴结转移(N2)、未行手术仅放疗的中国LUAD患者(总分211.5),其1年、3年和5年CSS生存概率分别为0.72%、0.46%和0.31%。该可视化模型是使用训练集的CSS和死亡率构建的。并通过C-Index、时间依赖性ROC曲线、校准曲线、DCA曲线验证了模型对中国人群LUAD的CSS具有较好区分度、校准度和临床适用性。危险分层Kaplan-Meier生存分析表明该模型可以很好区分高低风险人群。上述均说明本模型具有准确稳健的预测能力。

婚姻状况会影响癌症患者的生活质量及社会心理状态[16]。近期一项基于胶质母细胞瘤人群的研究发现,婚姻状况是其独立预后因素[17]。与未婚(单身、未婚、离婚/分居和丧偶)相比,已婚患者的总体生存率和癌症特异性生存率更高[18]。这可能与未婚癌症患者具有更高晚期诊断率,已婚癌症患者具有更高社会经济地位、更好医疗保健及配偶情感及物质支持相关[18]。另外一项数据表明肺癌自杀群体中,丧偶或未婚状态者占19%~75.7%[19]。本研究模型强调了婚姻状况对中国LUAD患者生存的重大社会影响。

LUAD原发部位、肿瘤大小、周围淋巴结受累情况与肿瘤临床分期及进展路径密切相关,亦是制定手术等治疗策略的关键[20]。既往研究表明原发部位位于主支气管的NSCLC患者预后比其他位置更差[21]。在本研究中提示,重叠病灶及位于主支气管的LUAD患者生存率更低。TNM分期系统已被普遍用于临床医生预测肿瘤生存预后和制定治疗方案的主要工具。然而,仅基于TNM分型分期系统的预后评估不能满足对LUAD患者预后精准预测的要求。本研究表明,联合原发部位、临床分期及肿瘤大小和周围淋巴结受累情况的预后评估是生存预测必不可少的肿瘤因素。

另外治疗策略及实施是LUAD的可干预预后因素,本研究发现外科手术[HR=0.637,0.469~0.865]、区域淋巴结清扫数目[1~3LN:HR=0.672,0.465~0.971;>4LN:HR=0.497,0.362~0.682]及放射治疗[HR=0.848,0.760~0.947]是预后的保护性因素,但本研究发现,化疗[HR=1.052,0.948~1.166]并未明显增加患者预后受益。因此,针对LUAD患者应根据临床治疗策略积极进行手术及放疗。然而,由于SEER数据库的局限性,更多治疗信息缺失。

本研究有以下优点:(1)本研究基于SEER数据库(至2020年)最新更新数据,纳入近20年中国肺癌人群的17个登记处的大型多中心数据,开发了针对中国人群LUAD CSS预后的列线图,更适用于中国人群LUAD的预后诊疗。(2)本研究将LUAD个体分为训练集和验证集,多角度反复验证预测列线图具有准确性和可靠性。(3)本研究的可视化列线图中所有重要的人口统计、临床和病理变量都可用并且在临床实践中很常见。然而,这项研究有以下局限性:(1)SEER数据库缺少一些与预后相关的关键变量,例如化疗方案、基因检测、靶向、免疫治疗、社会经济状况、保险、饮酒、吸烟、教育程度等因素。(2)这是一项回顾性研究,变量数据不完整的LUAD患者被排除,会导致选择偏倚。(3)缺乏国内临床数据进行外部验证并前瞻性分析,该模型的可靠性需要在更大国内样本量的长期随访数据中不断迭代提高。

总的来说,本研究讨论了中国人群LUAD的预后因素,并构建及验证了列线图预测模型。该模型可以准确预测中国人群LUAD患者的CSS,为临床个体化诊疗及预后决策提供准确模型依据。

猜你喜欢
线图淋巴结变量
个体化预测结肠癌术后发生并发症风险列线图模型的建立
喉前淋巴结与甲状腺乳头状癌颈部淋巴结转移的相关性研究
抓住不变量解题
也谈分离变量
基于箱线图的出厂水和管网水水质分析
淋巴结肿大不一定是癌
东山头遗址采集石器线图
SL(3,3n)和SU(3,3n)的第一Cartan不变量
颈部淋巴结超声学分区
分离变量法:常见的通性通法