食管鳞状细胞癌患者根治术后生存预测模型的建立与验证：一项多中心真实世界队列研究

2023-02-10 03:05杨文蕾刘芳芳徐瑞平周福有衡反修侯波林张立新许铧文林妙萍刘萌飞潘雅琪陈环宇何忠虎

协和医学杂志 2023年1期

杨文蕾，刘芳芳，徐瑞平，杨伟，何煜，刘震，周福有，衡反修，侯波林，张立新，陈蕾，张凡，蔡奋，许铧文，林妙萍，刘萌飞，潘雅琪，刘英，胡喆，陈环宇，何忠虎，柯杨

1北京大学肿瘤医院暨北京市肿瘤防治研究所遗传学研究室恶性肿瘤发病机制及转化研究教育部重点实验室，北京 100142 2河南省安阳市肿瘤医院，河南安阳 455000 3广东省汕头大学医学院附属肿瘤医院，广东汕头 515041 4伦敦卫生和热带医学学院非传染性疾病流行病学系，英国伦敦 WC1E 7HT 5北京大学肿瘤医院暨北京市肿瘤防治研究所信息技术服务部恶性肿瘤发病机制及转化研究教育部重点实验室，北京 100142 6零氪科技有限公司，北京 100080

食管癌是全球第七大常见癌症和第六大癌症致死原因[1]。全球每年超半数食管癌新发病例和死亡病例发生在我国，其中90%以上病例为鳞状细胞癌[1-2]。食管鳞状细胞癌患者预后较差，5年相对生存率为20%～30%[3-6]，外科手术患者5年观察生存率为40%～59%[7-9]。目前临床实践中，根治性手术切除结合或不结合辅助治疗仍是治疗局部中晚期食管鳞状细胞癌最主要的策略。然而，长期以来食管鳞状细胞癌外科诊疗领域一直存在两大关键挑战，为患者的评估与管理、医生的临床决策带来困难。

首先，患者术后生存评估总体精准度不足。食管鳞状细胞癌预后影响因素较多，既往研究提示患者特征(如年龄、性别[10-11])、肿瘤临床病理特征(如原发位置、肿瘤大小[12-13])、治疗策略(如辅助治疗[14])、分子标志物(如炎症相关因子[15])等均与预后相关，患者预后异质性明显。而现有TNM分期系统对预后风险的评估与管理准确性欠佳且不能同时考量多维度因素的“联合作用”。因此，应同时整合多个有独立分辨能力的预测因素构建风险预测模型，实现预后风险的综合评估。近年来，已有多项研究基于医院患者队列构建了食管鳞状细胞癌生存预测模型，各模型一致性指数(C-index)在0.62～0.77不等[16-28]。但既往研究整体质量不高，存在样本量较小(<500例)、单中心研究设计、缺乏独立外部验证、研究报告不规范等局限性。此外，鲜有研究将模型转换为临床易用的工具并阐释其潜在应用场景与条件。因此，亟需开展基于大样本患者人群队列的预后预测模型研究，深入挖掘和构建具有较高预测价值、结构简单易于解释的预后预测模型并进行有效的内部、外部验证，最终形成具有明确推广应用价值的食管鳞状细胞癌预后评估方案。

其次，术后辅助治疗决策依据不足。多年来，辅助治疗的疗效一直未获得高级别研究证据支持，术后是否应给予辅助治疗、给予何种治疗，仍存在争议。既往Meta分析提示术后辅助治疗可能改善患者的长期生存，但纳入的原始研究以观察性研究为主，存在样本量小、数据陈旧等局限性[29-31]。美国国立综合癌症网络(National Comprehensive Cancer Network，NCCN)指南推荐根据手术切缘情况(R0/R1切除)进行相应的辅助治疗[32]，但该项建议仅来源于食管胃交界部腺癌或胃癌的随机对照研究[33-34]，辅助治疗在食管鳞状细胞癌中的应用经验与真实世界证据依然不足。

本研究拟基于多中心真实世界临床数据与长期生存随访数据，建立并验证多因素一体化预后预测模型与风险分级标准，为术后辅助治疗决策提供高质量循证医学证据。

1 资料与方法

1.1 研究中心与研究对象

本研究为多中心真实世界队列研究。依托河南省安阳市肿瘤医院(安阳中心)和广东省汕头大学医学院附属肿瘤医院(汕头中心)建立合作研究基地，分别连续募集2011年5月31日至2018年7月31日在安阳中心和2009年8月1日至2018年12月31日在汕头中心就诊的食管癌患者。纳入标准：(1)病理诊断为食管鳞状细胞癌；(2)行根治性食管癌切除术；(3)无远端转移。排除标准：(1)随访信息缺失(即截至本研究随访结束从未获得过患者的存活或死亡状态)；(2)随访至第6个月后失访(即末次随访为存活但总随访时长小于6个月，以尽可能排除未完成抗癌治疗的患者)；(3)发生院内死亡或围治疗期1个月内死亡；(4)接受新辅助治疗；(5)临床资料不完整(即构建模型时任一预测变量为缺失)。

本研究已通过北京肿瘤医院医学伦理委员会审批(审批号：2018KT68)，并豁免患者知情同意。

1.2 临床数据收集与患者生存随访

通过自然语言处理技术提取(零氪科技公司提供技术支持)、现有数据系统分类导出、人工核查与质控等方式，从医院信息管理系统、病案首页系统、临床检验数据管理系统等收集临床数据，覆盖患者基本特征、住院情况、肿瘤临床病理特征、临床治疗情况、常规实验室检验指标等信息。

对临床数据进行预处理。排除缺失比例>5%的变量。对于缺失比例≤5%的检验数据，用各变量的中位值进行填补。尝试使用连续变量原始值、根据不同截断值将连续变量转换为分类变量等多种方式进行模型构建，最终根据模型整体性能、结果可解释性及后续临床理解与应用，决定采用年龄多分类变量、红细胞等检验数据二分变量(正常或异常)进行分析。根据第7版AJCC(American Joint Committee on Cancer)食管癌分期指南[35]对TNM分期进行重新定义与分类。辅助治疗定义为无论采用何种治疗方案、剂量或给药方法，只要术后进行至少一个周期的化疗或放疗。经数据预处理，共纳入52个潜在预测变量用于模型构建，包括年龄、性别、民族、籍贯、职业、婚姻状况、医保类型、吸烟史、饮酒史、共病、肿瘤家族史、食管癌家族史、原发位置、病理分化程度、T分期、N分期、M分期、TNM分期、大体分型、肿瘤大小、手术切缘、区域淋巴结清扫组数、区域淋巴结清扫数、手术时长、手术方式、手术径路、术式、术中输血情况、辅助治疗、白细胞计数(×109/L)、红细胞计数(×1012/L)、血小板计数(×109/L)、中性粒细胞计数(×109/L)、淋巴细胞计数(×109/L)、单核细胞计数(×109/L)、嗜酸性粒细胞计数(×109/L)、嗜碱性粒细胞计数(×109/L)、血型、总蛋白(g/L)、白蛋白(g/L)、球蛋白(g/L)、白蛋白/球蛋白比值、钠(mmol/L)、钾(mmol/L)、钙(mmol/L)、氯(mmol/L)、中性粒细胞/淋巴细胞比值、血小板/淋巴细胞比值、淋巴细胞/单核细胞比值、系统性免疫炎症指数和预后营养指数。

各中心采用电话随访等方式对出院患者的生存状态进行个体水平的年度随访。随访周期为前两年每3个月随访1次，两年后改为每6个月随访1次。随访成功定义为在整个随访期内患者发生了死亡或至少有1次随访记录到了存活状态。本研究安阳中心、汕头中心的随访时间分别截至2018年7月19日、2022年6月7日。

1.3 变量筛选与模型构建

研究结局为总生存期，定义为从患者第1次入院至因任何原因导致死亡或最后一次随访的时间间隔。以安阳中心为建模队列，使用基于多因素Cox比例风险回归逐步后退法与AIC准则(Akaike information criterion)的“两步法”进行变量降维与模型构建：

(1)第1步，根据变量内在性质与临床相关性，将52个潜在预测变量归为4个维度，包括人口学特征、肿瘤临床病理特征、治疗策略、实验室检查指标；在每个维度内将所有变量纳入多因素Cox回归模型，使用逐步后退法与AIC准则进行变量初步筛选。

(2)第2步，将初步筛选得到的变量放入同一多因素Cox回归模型，再次使用逐步后退法并结合专业知识进行综合筛选，同时逐一评估筛选出变量的两两交互作用及纳入交互作用项后模型的整体性能，根据AIC最小化准则决定预测模型的最终结构。绘制列线图将模型结构可视化。

1.4 模型评价与验证

计算C-index评估模型的区分度。使用R软件Hmisc包rcorrp.cens函数[36]比较模型与TNM分期C-index的差异。绘制校准曲线评估模型预测结果与实际结果的符合程度。为评估结果的稳健性，在完整数据集(即剔除含有缺失数据的所有记录)中对模型区分度和校准度进行敏感性分析。

在建模队列中采用Bootstrap法重抽样1 000次对模型进行内部验证[37]。以汕头中心为验证队列对模型进行外部独立验证。

1.5 预后风险分级标准的构建

以建模队列研究对象列线图总得分的三分位数为截断值，将研究对象划分为低、中、高3个风险组。绘制各分期内不同风险组的Kaplan-Meier生存曲线并采用Log-rank检验比较差异。采用Stata 16.0和R 4.1.2软件进行数据处理和统计分析。非正态分布计量资料以中位数(四分位数)表示，组间比较采用t检验；计数资料以频数(百分数)表示，组间比较采用卡方检验。以双侧检验P<0.05为差异有统计学意义。

2 结果

2.1 患者特征与生存情况

建模队列(安阳中心)和验证队列(汕头中心)分别纳入4171例和1895例食管鳞状细胞癌外科手术患者，纳入及排除流程详见图1。从4个维度52个潜在预测变量中筛选出16个候选变量(表1)，除肿瘤原发位置在两组分布无显著性差异外，其他特征差异均具有统计学意义(P<0.001)。

表1 建模队列与验证队列患者特征比较

图1 患者纳入及排除流程图

本研究建模队列、验证队列随访率分别为70.9%、95.5%。经中位37.1(22.5～54.6)个月和97.0(65.8～127.2)个月随访，建模队列和验证队列分别有1 146例(27.5%)和843例(44.5%)患者死亡。建模队列患者1年、3年、5年生存率分别为92.9%(95% CI：92.1%～93.7%)、70.5%(95% CI：68.9%～72.1%)、58.9%(95% CI：56.7%～61.1%)，验证队列分别为88.5%(95% CI：87.1%～89.9%)、66.0%(95% CI：63.9%～68.2%)、58.3%(95% CI：56.1%～60.7%)。

2.2 预后预测模型结构

将从4个维度筛选得到的16个候选预测变量放入同一多因素Cox回归模型。使用AIC逐步后退法筛选出9个预测变量，分别为年龄、性别、原发位置、T分期、N分期、淋巴结清扫数、肿瘤大小、治疗方案和术前血红蛋白水平。两两交互作用评估显示，术后辅助治疗方案与N分期存在交互。最终模型结构与预测变量权重如表2所示。根据预测模型各变量系数将模型结构可视化为列线图(图2)。

表2 建模队列预后预测变量的单因素和多因素Cox回归模型分析结果

图2 食管鳞状细胞癌患者根治术后总生存预后预测模型列线图

2.3 预后预测模型评价与验证

建模队列模型C-index为0.728(95% CI: 0.713～0.742)，经Bootstrap统计验证后为0.722(95% CI: 0.711～0.739)，验证队列为0.679(95% CI: 0.662～0.697)。两个队列中本研究所构建的模型区分度均显著优于第7版AJCC TNM分期系统[建模队列TNM分期C-index：0.695(95% CI: 0.680～0.710)，P<0.001；验证队列TNM分期C-index：0.651(95% CI: 0.634～0.668)，P=0.002]。

模型校准图显示，建模队列的1年、3年、5年校准曲线均与标准曲线(斜率为1的对角线)有较好重叠(图3A)；验证队列的校准曲线同样反映出模型预测生存率与观测值一致性良好(图3B)。

敏感性分析中建模队列、验证队列分别纳入3966例、1891例患者，模型C-index分别为0.725(95% CI: 0.710～0.740)、0.680(95% CI: 0.662～0.697)。校准图显示模型区分度良好，详见图3C～3D。

图3 食管鳞状细胞癌患者根治术后生存预后预测模型在建模队列和验证队列的1年、3年、5年生存率预测校准图

2.4 预后风险分级标准

如表3所示，根据模型构建的风险分级标准将建模队列患者等分为低、中、高风险组，验证队列中低、中、高风险组分别占比25.0%、27.3%、47.7%。两个队列低风险组患者5年生存率均最高(建模队列、验证队列分别为82.8%、82.0%)，其次为中风险组(62.9%、62.9%)，高风险组最低(31.6%、42.9%)。

表3 食管鳞状细胞癌患者根治术后预后风险分级标准在建模队列和验证队列的效果评估

分别在建模队列、验证队列总人群中绘制不同风险组的Kaplan-Meier生存曲线(图4A～4B)，提示患者风险等级越高其生存预后越差，且差异具有显著统计学意义(P<10-6)。在0～Ⅰ、Ⅱ、Ⅲ各期别内，该模型均能将患者生存状况进一步细分，详见图4C～4H。

图4 建模队列和验证队列不同预后风险组患者的Kaplan-Meier生存曲线

3 讨论

食管鳞状细胞癌的临床转归是一个多因素参与、多维度外显的过程，人群“同病同治不同结局”异质性明显。长期以来，预后评估精准度不佳、术后辅助治疗决策依据不足，给食管鳞状细胞癌患者的个体化、精准化预后风险评估和治疗决策带来了挑战。为解决上述关键问题，本研究基于我国北方高发区和南方非高发区食管鳞状细胞癌患者全面、多维度的临床大数据和长期生存随访数据，建立并验证了一个食管鳞状细胞癌患者根治术后个体化生存预后预测模型，同时建议术后辅助治疗决策可依据患者N分期而定。

本研究所提出的预后模型由9个预测变量构成。模型在建模队列中显示出良好的性能。与来自我国北方太行山脉食管癌高发区的建模人群不同，外部验证队列基于我国南方地区建立。总体上，两个队列存在明显异质性。该异质性真实代表了两地区患者的人群流行病学特征[38]，高发区大规模人群肿瘤早期筛查项目带来的肿瘤“降期效应”[39]，以及外科治疗理念、技术应用的差异。尽管如此，模型在外部验证队列中仍表现出理想的区分能力。此外，两个队列定时点校准曲线均与标准曲线有较好的重合，也证明本模型具有良好的可靠性、稳健性、人群适用性及推广价值。

TNM分期系统是目前临床应用最为广泛的预后评估标准。然而，与同时整合多维度预测因子的综合模型相比，仅依靠分期的单一模式风险评估方法精确度和准确度较差。本研究显示，模型在建模队列与验证队列的预测准确率均显著高于TNM分期。此外，在各分期内模型仍可实现理想的风险分层效果。说明本预后预测模型突破了传统TNM分期在预后分层方面的“天花板”，可更准确地评估患者预后，从而具有明确的临床应用价值。

模型多因素分析提示，患者年龄越大、男性、食管上段肿瘤、T分期越晚、N分期越晚、肿瘤越大，预后越差；淋巴结清扫数量越多，预后越好。以上结果均与既往研究一致[10-13, 40-41]。此外，本研究发现术前血红蛋白水平是食管鳞状细胞癌患者预后的影响因素。既往研究提示，食管鳞状细胞癌患者发生营养不良的风险较高[42]，术前血红蛋白水平降低在一定程度上反映出患者营养、免疫状况较差，这可能影响患者抗癌治疗的耐受性，进而影响治疗效果[43]。因此，积极的营养干预在改善食管癌患者预后生存等方面具有重要意义[44]。

值得一提的是，本研究发现N分期与术后辅助治疗方案存在交互。与单纯手术相比，仅有淋巴结转移的患者可能从术后辅助治疗中获益；而无淋巴结转移的患者不仅无法获益，甚至还可能在一定程度上承受较高的死亡风险。既往研究也发现，对于淋巴结阳性的食管鳞状细胞癌患者，术后化疗可降低局部复发和远端转移风险，从而改善长期生存[45-46]。对于N0期食管腺癌患者，与未接受辅助治疗的患者相比，辅助化疗结合或不结合放疗均未能提高患者的生存率，甚至可能使其面临治疗的毒性风险[47]。

为促进本模型的临床应用，本研究构建了简单易用的“在线预后预测工具”(https://fxpg.bjcancer.org/ecms/ptools/ec.html)。医生和患者可实现预后生存的自测自评和风险管理，并通过比较术后生存水平明确术后辅助治疗的最优方案。未来，随着人工智能技术的发展、电子病历系统的进一步推广和完善，将该工具开发为操作简便的临床辅助决策支持系统并与医院各业务系统(如HIS系统)深度整合，依靠人工智能(如自然语言处理技术)从病历自动提取、处理所需信息，并快速、准确地给出可视化预后评估结果和个体化治疗建议，可明显增加其临床应用价值。

本研究存在如下局限性：首先，由于部分变量数据缺失，无法评估某些潜在的预后预测因素，如体质量指数、脉管癌栓等。其次，因数据占比低，接受新辅助治疗的患者未能纳入分析。

4 小结

综上，基于多中心真实世界临床大数据和长期生存随访数据，本研究构建并验证了食管鳞状细胞癌患者根治术后生存预后预测模型，为该患者群体及临床实践提供了更为准确的生存预测工具，同时也为“术后是否应进行辅助放化疗以及何种类型的患者可以从中获益”这一重要临床问题提供了高质量的真实世界证据，具有明确的临床转化和循证医学价值。

【方法学点评】

北京大学肿瘤医院暨北京市肿瘤防治研究所何忠虎教授、柯杨教授

相对于严格纳排的随机对照设计，针对复杂多样的实际临床问题，基于真实世界数据开展研究者发起的临床研究，可在临床干预效果评估与诊疗决策方面提供高质量的循证医学证据。

本项研究采用多中心真实世界研究设计，基于我国南方、北方两个中心近6000例食管鳞状细胞癌根治术后患者多维度临床大数据及长达10年的生存随访，构建并验证了符合我国食管鳞状细胞癌患者特征的根治术后总生存预测工具与分级标准。与现行评估系统相比，该模型在建模与验证两个队列中的预后评估准确率均显著高于TNM分期系统，且在各分期内部，这一模型仍可实现理想的风险分层效果。在实现个体化预后预测基础上，该项研究还进一步揭示了“肿瘤N分期在患者术后辅助治疗策略与预后方面的重要作用”。该结果将有利于明确不同术后辅助治疗方案的最佳获益群体，助力我国食管鳞状细胞癌外科治疗个体化与精准化发展，具有明确的临床应用与转化价值。

作者贡献：柯杨、何忠虎负责研究设计与论文修订；何忠虎、杨文蕾、刘芳芳、何煜、刘震负责数据整理、统计分析、论文撰写；徐瑞平、杨伟、周福有、张立新、陈蕾负责数据获取；徐瑞平、杨伟、周福有、张立新、陈蕾、侯波林、张凡、蔡奋、许铧文、林妙萍、衡反修、刘萌飞、潘雅琪、刘英、胡喆、陈环宇负责数据集建立与质量控制。

利益冲突：所有作者均声明不存在利益冲突