黄坤,黄正红,赵攀,赵平武,何运胜,白斗
(1.四川省绵阳市中医医院 普通外科,四川 绵阳 621000;2.成都中医药大学医学技术学院,四川 成都 611137;3.四川省绵阳市中心医院 血管外科,四川 绵阳 621000)
方法:提取SEER 数据库中2000—2019年期间经病理确诊的GSCC患者的临床资料,按照7∶3的比例,将数据随机划分为训练集和验证集,在训练集中,分别采用多变量Cox比例风险模型和LASSO回归筛选影响GSCC患者预后的独立因素,利用这些因素,构建用于预测GSCC患者在3个月和6个月的肿瘤特异性生存期(CSS)和总生存期(OS)的列线图模型。随后,在训练集中,利用一致性指数(C指数)、ROC曲线和校准曲线,分别在训练集和验证集,对模型进行内部和外部验证,以评估模型的准确度和预测能力。
结果:本研究共纳入257例患者,其中训练集179例,验证集78例。在训练集和验证集中,患者的中位随访时间分别为3(1~7)个月和4(2~8)个月。两组之间基线资料均衡可比。多变量Cox比例风险模型分析显示,年龄、SEER分期、手术和化疗是GSCC患者OS和CSS的独立影响因素(均P<0.05)。LASSO回归分析显示,年龄、SEER分期、放疗、手术和化疗与GSCC患者的OS相关;年龄、SEER分期、手术和化疗与GSCC患者的CSS相关。基于这些独立预后影响因素,构建了用于预测GSCC患者在3、6个月的OS和CSS的列线图。对模型的验证结果表明,训练集和验证集中,OS的C指数分别为0.739(95% CI=0.700~0.780)和0.729(95% CI=0.660~0.800);CSS的C指数分别为0.750(95% CI=0.710~0.790)和0.741(95% CI=0.670~0.810)。ROC曲线分析显示,曲线在训练集和验证集的AUC值均>0.8;校准曲线分析表明,通过模型预测的3、6个月的OS和CSS与GSCC患者真实的3、6个月的OS和CSS有较好的重合,两者均靠近理想的45°参考线,表现出良好的一致性。
结论:年龄、SEER分期、手术、放疗和化疗是GSCC患者预后的独立影响因素。所构建的列线图预测模型具有良好的预测价值,有利于临床对GSCC患者选择个性化治疗。
胆囊癌是一种预后极差的高度恶性肿瘤,其发病率约为1~2/10万,约占胆道系统恶性肿瘤的80%~90%[1-3]。未接受手术治疗的患者,其5年总生存率仅为15.6%[4]。在组织学分型上,腺癌是最常见的组织学类型,约占胆囊癌的90%~95%[5]。
胆囊鳞状细胞癌(gallbladder squamous cell carcinoma,GSCC)是胆囊癌中一种罕见的病理学类型,其构成比约为1%~4%[6-7]。GSCC的预后极差,其中位生存时间约为5个月[8-9]。目前尚缺乏有关GSCC预后的高质量大样本临床研究[6,8,10-15]。病理学类型是影响恶性肿瘤患者预后的重要因素,同时也是临床治疗决策制定的重要参考[16-18]。然而,现有的胆囊癌诊疗指南主要针对的是腺癌[19],因此,有必要制定专门针对GSCC的临床预后评价工具。
本研究基于美国国家癌症研究所监测、流行病学和最终结果(the surveillance,epidemiology and end results,SEER)数据库临床病例样本量大、资料丰富的特点[17,20],构建GSCC患者预后列线图,旨在精准化、个体化评价GSCC患者的预后,为临床决策制定提供参考。
利用 SEER*Stat v8.3.9软件提取SEER数据库(随访截止日期为2019年12月31日)中,2000—2019年期间通过病理学确诊的GSCC患者的临床随访资料[21]。
纳入标准:⑴ 初诊时原发肿瘤为GSCC;⑵ 确诊方式为病理学确诊;⑶ 确诊年份为2000—2019年;⑷ ICD-O-3编码为:“8070/3”“8071/3”“8072/3”“8074/3”“8075/3”“8083/3”。排除标准:⑴ 多源性肿瘤;⑵ 经过尸检或死亡证明确诊的病例;⑶ 研究指标无法获取;⑷ 临床或随访信息记录不完整。
参照笔者[17,21-22]先前的研究,提取患者的诊断年龄、种族、性别、原发肿瘤部位、治疗信息、生存时间及生存结局等资料。结合文献[21,23-24]报道,本研究中,年龄界定标准设置为60岁,依据GSCC患者的年龄、性别、种族、婚姻状况、肿瘤分化程度、SEER分期、是否接受手术、放疗和化疗,对其临床资料进行分组后用于后续分析。
本研究的研究终点为患者的癌症特异性生存期(cancer-specific survival,CSS)和总生存期(overall survival,OS)。CSS被定义为:诊断至随访截止或因GSCC死亡的时间,非GSCC死亡和失访数据被视为删失数据;OS被定义为:诊断至随访截止或任何病因死亡的时间,失访数据被视为删失数据。应用Stata/MP 16.0软件和R(version 4.2.3)软件进行统计分析。正态分布计量资料以均数±标准差(±s)表示,非正态分布计量资料采用中位数(四分位间距)[M(IQR)]描述,计数资料采用率表示,组间对比采用χ2检验。采用Kaplan-Meier法计算生存率,生存率比较采用Logrank法,采用单(多)因素Cox比例风险模型和LASSO(least absolute shrinkage and selection operator)回归进行独立预后因素分析并计算风险比(HR)及对应95%置信区间(CI)。按照7∶3将数据集随机划分为训练集和验证集,训练集用于列线图模型的构建及其内部验证,验证集被用于外部验证。通过Bootstrap 1 000次重抽样的方法,绘制校准曲线对模型准确度进行验证;计算一致性指数(C指数)对模型区分度进行验证。所有检验均为双侧尾。检验水准α=0.05。
本研究共纳入257例GSCC患者,按照7∶3的比例,将257例患者随机分为训练集和验证集,其中训练集179例,验证集78例。两组患者的基线特征均衡(均P>0.05)(表1)。
表1 GSCC患者的临床基线特征[n(%)]Table 1 The baseline demographics and clinical characteristics of patients with GSCC [n (%)]
2.2.1 单变量Cox比例风险模型分析 在建模组179例患者中,中位随访3(1~7)个月。在验证组78例患者中位随访4(2~8)个月。生存情况的单变量Cox比例风险模型分析结果显示,年龄、肿瘤分化程度、SEER分期、手术、化疗、放疗均与患者的OS及CSS明显有关(均P<0.05)(表2)。
表2 GSCC患者OS与CSS影响因素的单变量Cox分析Table 2 Univariate Cox regression analysis for CSS and OS in GSCC patients
2.2.2 多变量Cox比例风险模型分析 根据单变量Cox比例风险模型分析结果,将有统计学意义的变量进一步纳入多变量Cox比例风险模型分析,结果显示,年龄、SEER分期、手术和化疗是OS和CSS的独立影响因素(均P<0.05)(图1)。
图1 基于多变量Cox回归分析森林图 A:OS;B:CSSFigure 1 Forest plots using multivariate Cox regression analysis A: OS; B: CSS
2.2.3 LASSO回归分析 LASSO方法的原理是在最小二乘法的基础上增加一个惩罚项来压缩估计参数,进而对预后影响较大的自变量进行自动筛选并计算出相应的回归系数。模型筛选的主要参数是lambda.min和lambda.1se。前者是指,获得最小目标参量均值的 λ值,而后者是指在lambda.min一个方差se范围内得到最简单模型的λ值。由于λ值到达一定值之后,再继续增加模型自变量个数并不显著地提高模型性能,因此,lambda.1se可以给出一个性能优良,同时自变量数最少的模型。为了能更准确而全面地筛选出,影响GSCC患者预后的独立因素,并且尽可能减少变量共线性对结果的影响,同时采用LASSO回归分析(基于10折交叉验证方法)进一步筛选变量。结果显示,年龄、SEER分期、放疗、手术和化疗患者OS相关;年龄、SEER分期、手术和化疗与患者CSS相关(图2)。
图2 基于LASSO回归的特征选择 A:LASSO回归系数随Log(λ)的变化曲线(OS);B:基于10折交叉验证C指数随Log(λ)的变化曲线(OS);C:LASSO回归系数随Log(λ)的变化曲线(CSS);D:基于10折交叉验证C指数随Log(λ)的变化曲线(CSS)Figure 2 Feature selection based on LASSO regression A: Curve of LASSO regression coefficients with changing Log(λ) (OS);B: Curve of 10-fold cross-validated C-index with changing Log(λ) (OS); C: Curve of LASSO regression coefficients with changing Log(λ) (CSS); D: Curve of 10-fold cross-validated C-index with changing Log(λ) (CSS)
在本研究中,年龄、SEER分期、放疗、化疗和手术与GSCC患者的OS和CSS相关(图3-4)。基于临床重要性、多变量Cox回归和LASSO回归,上述5个变量最终被选出用于预测GSCC患者在3、6个月的OS和CSS的列线图的构建。图中每个临床特征都将被赋予相应的分值,所有变量的分值之和等于总得分(total points),其总得分越低,预后越好。根据总得分即可对不同时间点GSCC患者的OS和CSS做出临床预测(图5)。
图4 训练集中GSCC患者基于5个变量的CSS曲线Figure 4 CSS curves for GSCC patients in the training set based on five variables
图5 预测GSCC患者3、6个月预后的列线图 A:OS;B:CSSFigure 5 Nomograms predicting the 3- and 6-month prognosis for GSCC patients A: OS; B: CSS
为了评价模型的区分度,分别在训练集和验证集中计算C指数和AUC值(表3)并绘制ROC曲线(图6),结果显示在训练集和验证集中,均有良好的预测价值。为了评价模型的准确度,采用Bootstrap法对模型进行内部验证和外部验证,自抽样次数B=1 000,并绘制校准曲线。验证结果显示,在训练集(内部)与验证集(外部)中,GSCC患者的3、6个月的OS和CSS校正曲线均靠近理想的45°参考线,表明模型预测值与实际值之间具有良好的一致性(图7)。
图6 训练集和验证集中模型3、6个月预测能力验证的ROC曲线Figure 6 ROC curves for the 3- and 6-month predictive ability validation of the model in the training and validation sets
图7 训练集和验证中3、6个月OS与CSS的校准曲线Figure 7 Calibration curves for 3- and 6-month OS and CSS in the training and validation sets
表3 训练集和验证集中模型的C指数和AUC值Table 3 C-index and AUC values of the model in the training and validation sets
为了进一步验证该模型在临床实践中的应用价值,根据构建的列线图分别在训练集和验证集中计算出每个患者的总分值,并在训练集中采用X-tile软件对其进行危险分层。其中对于OS和CSS,低风险组和高风险组的阈值分别为228分和251.1分。结果显示,在验证集和训练集中该模型均能对GSCC患者的生存预后做出良好的区分(均P<0.000 1)(图8)。
图8 不同风险患者的生存曲线 A:训练集OS;B:训练集CSS;C:验证集OS;D:验证集CSSFigure 8 Survival curves for OS and CSS of patients with different risks A: OS for the training set; B: CSS for the training set;C: OS for the validation set; D: CSS for the validation set
GSCC发病罕见、预后差[7,25],在临床实践中,缺乏针对性的预后评价工具。本研究显示,年龄、SEER分期、手术、放疗和化疗是患者预后的独立影响因素。60岁以上GSCC患者的OS和CSS均更差。同本研究的结论类似,黄汉生[26]在对胆囊癌的预后分析中显示,≥65岁患者的总死亡风险OS(HR=1.389,P<0.001)和肿瘤特异性死亡风险均更高(HR=1.216,P=0.009)。此外,在乳腺癌[27]、卵巢癌[28]、肝癌[29]和软组织肉瘤[17]中,年龄同样是影响患者预后的独立危险因素。肿瘤分期作为影响预后的独立因素为临床所熟知。在本研究和其他一些研究中均得到印证[24,29-31]。手术、化疗和放疗是胆囊癌主要的治疗手段[19]。本研究发现手术和化疗是GSCC患者预后的独立影响因素,能明显提高患者的OS和CSS。Leigh等[2]在一项回顾性队列研究(含76例胆囊腺癌、12例腺鳞癌和3例鳞癌)中显示,R0切除能明显提高患者的OS(HR=0.01,95%CI=0.01~0.08,P<0.001)。Chen等[10]在另一项回顾性倾向性评分匹配队列研究(含242例胆囊腺癌和121例胆囊鳞癌)也表明手术治疗能提高患者的OS(HR=0.406,95%CI=0.271~0.609,P<0.001)和CSS(HR=0.418,95%CI=0.209~0.837,P=0.014)。本研究结果表明,相比于未接受化疗的患者,化疗患者的总死亡风险和肿瘤特异性死亡风险均降低64%。在一项随机多中心临床3期试验(BILCAP)[32],及Takada等[33]、龚奇等[34]的研究中,化疗均被证实能使胆囊癌明显获益。胆囊癌的放疗价值目前尚未达成一致的共识[19],然而,有研究[21,35]表明,放疗能使胆囊癌患者获益。本研究通过LASSO回归分析表明,放疗是影响患者OS的独立因素。此外,在其他类型的肿瘤中放疗也被证实可以降低局部复发、提高R0切除率等[36-38]。
列线图被广泛用于肿瘤预后的评价[39],它可以个体化地预测患者的生存概率,并形象化地展示,并且能帮助临床医师针对性地制定临床决策。在本研究中,研究者基于上述GSCC患者预后的独立影响因素,成功构建了用于预测GSCC患者3、6个月OS和CSS的预测模型。进一步通过对该预测模型的验证显示,其具有良好的准确度和一致性,不仅可以帮助临床医师对患者的预后做出更准确的判断,同时也能区分患者是否属于高危人群,从而辅助临床医师针对患者做出个体化的临床决策。例如:1例患者,年龄≥60岁,接受手术和化疗,没有接受放疗,已出现远处转移。该患者的OS模型总得分为270分,其3、6个月的累积生存率分别为77.6%和61.7%;该患者的CSS模型总得分为239分,其3、6个月的累积生存率分别为79.1%和61.9%。有研究[31]指出,影响患者的OS的因素相对复杂,而相比之下CSS显得更加重要。本研究进一步根据CSS对上述患者进行危险分层。由于其总分239分低于阈值251.1分,因而,判断该患者可能为低危患者,预后相对较好;相反,如果某患者通过该模型计算出的总分高于阈值,就可能为高危人群,预后相对较差,需要给予更多临床关注,制定更密集的随访周期和个体化、精准化治疗方案。
本研究的不足之处:首先,本研究是回顾性研究,存在一定的选择偏倚。其次,SEER数据库中一些信息(例如:具体的放化疗方案、并发症、肿瘤复发信息等)的缺失,可能成为影响预后的混杂因素。最后,纳入研究的病例数中,部分组别病例数较少,构成比不均衡,可能影响检验效能。
综上所述,笔者认为年龄、SEER分期、手术、放疗和化疗是患者预后的独立影响因素。基于这些因素所构建的预后预测模型对临床实践有较好的参考作用。
利益冲突:所有作者均声明不存在利益冲突。
作者贡献声明:黄坤、白斗共同设计研究;黄正红和赵攀完成数据提取、整理和分析;黄正红制作表格和图片;黄坤撰写初稿;何运胜和赵平武校正图表;白斗完成最后全文校正。