上消化道癌及癌前病变高危人群预测模型研究

2023-11-14 06:41:16张志宏崔王飞王新正曹凌张永贞
中国癌症防治杂志 2023年5期
关键词:家族史筛查人群

张志宏 崔王飞 王新正 曹凌 张永贞,

作者单位:030001 太原1山西医科大学公共卫生学院流行病学教研室;030013 太原2山西省肿瘤医院/中国医学科学院肿瘤医院山西医院肿瘤防控办公室;048100 阳城3阳城县肿瘤医院科研办公室

上消化道癌(主要包括食管癌、贲门癌、胃癌)是常见的高发恶性肿瘤。2020 年全球上消化道癌新发和死亡病例分别为169.3万例和131.3万例,分别位居全球癌症发病和死亡顺位的第四位和第二位[1]。癌症预后与分期密切相关,我国上消化道癌早诊率处于较低水平,大多患者诊断时已经处于中晚期,导致5年生存率不足30%[2]。“内镜下染色+指示性活检”是上消化道癌早期筛查和诊断的“金标准”,也是当前筛查指南和专家共识中推荐的首选方法[3-4]。充分的证据[5-6]表明,经内镜检查早期诊断和治疗的患者预后有明显改善,其5年生存率可达80%~95%。鉴于我国人口基数庞大,开展人群普遍性筛查需充分考虑当地经济承受能力和筛查资源的可及性。因此,使用基于易识别的危险因素建立的风险预测模型对初筛人群进行分流,是一种更高效的癌症筛查策略。本研究基于山西省农村上消化道癌早诊早治项目,旨在建立适用于初筛阶段的上消化道癌高危人群风险预测模型,以识别高危个体,合理配置社会资源,为新形势下的肿瘤防治提供有力的上消化道癌筛查策略依据。

1 资料与方法

1.1 资料来源

本研究基于山西省上消化道癌早诊早治项目,收集了阳城项目点在2020年6月至2021年12月期间的2 912 例人群筛查资料。纳入标准:⑴病理结果表明存在食管、贲门及胃部高级别以上病变,包括高级别上皮内瘤变、黏膜内癌、黏膜下癌、早期癌和进展期癌。如不同部位均有病理诊断结果,以最高级别诊断结果为主要依据;⑵年龄介于40~69 周岁,具有当地户籍,自愿签署知情同意书;⑶一般健康状况良好;⑷既往3 年未接受内镜检查。排除标准:⑴已确诊为恶性肿瘤;⑵基线信息不完整。剔除63 例不符合标准的数据(包括1 例已确诊癌症、26 例基线资料具有明显的逻辑错误、36 例年龄不符合标准)后,将2 849 例研究对象按照7∶3 的比例随机分为训练集(n=1 997)和验证集(n=852),分别用于模型的建立和验证。

筛查流程遵循《上消化道癌筛查及早诊早治项目技术方案》[7]。项目点工作人员统一对项目进行宣传参与者并签署知情同意书。工作人员对符合条件的参与者进行基本信息调查和体格检查,同时收集参与者可能暴露于潜在危险因素的信息。检查时,由内镜医师通过内镜对食管、贲门、胃进行逐一检查,分别对食管和胃部行1.2%碘液染色和0.2%靛胭脂染色,并对可疑病灶进行指示性活检。根据临床治疗原则和随访规定,后续跟进诊断和治疗,同时进行随访。

1.2 预测因子的选择

基线信息包括性别、年龄、教育水平、婚姻状况、体质指数(body mass index,BMI)、生活方式(吸烟、饮酒情况)、饮食习惯、消化道病史及肿瘤家族史等。根据既往高质量研究,包括最新的文献综述、Meta分析、针对上消化道高发区人群的队列研究和病例对照研究[8-10],以及我国最新的食管癌和胃癌筛查专家共识[3-4],确定潜在的候选变量,包括年龄(40~49 岁、50~59岁、60~69岁);性别;BMI(<23.9kg/m2、≥23.9kg/m2);吸烟(从不吸烟、<20 包/年、≥20 包/年);饮酒(乙醇摄入量<15 g/d、≥15 g/d);食用新鲜水果、肉蛋奶类食物、腌制食品、热烫食品(频率<2次/周、≥2次/周);上消化道疾病史和肿瘤家族史。

1.3 统计学方法

采用R 语言(版本4.2.2)进行统计分析。分类及等级资料采用例数(n)、百分比(%)表示,组间比较采用χ2检验,根据理论频数情况采用χ2连续性校正公式或Fisher 确切概率法进行单因素分析,将P<0.2 的因素进行最优子集筛选[11],以AIC 值为标准,选择AIC值最低的模型变量进入logistic回归模型,并建立风险评分模型。为获得更稳定的结果,采用了十折交叉验证法将数据拆分为10 份子集,其中9 份子集为训练集,1 份子集为测试集,重复10 次[12]。分析各子集logistic 回归模型中的回归系数β值,求平均β值。通过将模型中各变量的平均β值除以全模型中最小平均β值,并四舍五入至最接近的0.5,计算出模型中各变量赋值[13]。分别采用简单随机拆分(训练集、验证集)、十折交叉和Bootstrap 法(重复抽样次数为1 000次)进行验证,绘制ROC 曲线并通过AUC 值衡量模型的区分能力,Hosmer-Lemeshow(H-L)检验和校准曲线对模型的校准度进行评价,临床决策曲线(decision curve analysis,DCA)评估构建的风险评分量表模型的临床收益。以双侧P<0.05认为差异有统计学意义。

2 结果

2.1 基线资料

共纳入2 849 例研究对象,其中上消化道癌及癌前病变的检出59 例,检出率为2.07%(59/2 849)。各变量在研究对象中的分布情况见表1。

表1 研究对象的一般信息Tab.1 Baseline characteristics of the study objects

2.2 模型的建立

训练集单因素分析结果(表1)显示,将P<0.2的危险因素(年龄、性别、BMI、吸烟、热烫饮食摄入、消化道疾病史、肿瘤家族史)采用最优子集筛选法进行变量筛选,年龄、性别两个基本人口信息固定纳入至logistic回归模型,共32 种组合形式,选取AIC 值最低(AIC=395.9)变量组合(年龄、性别、吸烟、热烫饮食摄入和肿瘤家族史)构建logistic 回归模型,公式为Logit(P)=-5.841+0.659×年龄(50~59岁)/1.940×年龄(60~69岁)+0.325×性别(男性)+0.801×热烫饮食摄入(≥2 次/周)+0.800×肿瘤家族史(是)+0.516×吸烟(<20 包/年)/0.873×吸烟(≥20包/年)。

多因素logistic 回归分析结果显示,60~69 岁年龄组(OR=6.961,95%CI:2.085~23.236)、热烫饮食摄入≥2次/周(OR=2.227,95%CI:1.135~4.371)、有肿瘤家族史(OR=2.26,95%CI:1.210~4.095)、吸烟≥20 烟年(OR=2.393,95%CI:1.020~5.614)是上消化道癌及癌前病变的独立危险因素。见表2。

表2 多因素logistic回归分析结果和变量赋值Tab.2 Multivariable logistic regression analysis results and its corresponding score

2.3 logistic回归模型评价及验证

建立了logistic 回归模型在训练集和验证集中的ROC 曲线,结果显示,AUC 分别为0.759(95%CI:0.688~0.830)和0.743(95%CI:0.606~0.880),见图1A。通过十折交叉验证和Bootstrap 法对模型区分度进行再验证,得到了略低于训练集数据中的AUC 值,分别为0.745(95%CI:0.541~0.880)和0.734(95%CI:0.659~0.808),见图1B。H-L 拟合优度检验在训练集和验证集中的结果分别为P=0.368 和P=0.953,校准曲线贴合对角线,显示模型具有良好的校准度,见图2。

图1 Logistic回归模型的ROC曲线Fig.1 ROC curve of logistic regression model

图2 Logistic回归模型的校准曲线Fig.2 Calibration curve of logistic regression model

2.4 风险评分模型的建立

表2 展示了基于交叉验证后平均回归系数建立的评分量表赋值情况:55~59 岁、60~69 岁、男性、摄入热烫饮食≥2 次/周、有肿瘤家族史、吸烟<20 包/年以及吸烟≥20包/年的分值为4、11、2、5、4、3以及5分。将各因素的得分相加,即可获得个体的高危风险评分,分值范围为0~27 分,分值越高风险越高。最终,建立上消化道癌及癌前病变高危人群风险评分模型:Y=4×年龄(50~59 岁)/11×年龄(60~69 岁)+2×性别(男性)+5×热烫饮食摄入(≥2 次/周)+4×肿瘤家族史(是)+3×吸烟(<20包/年)/5×吸烟(≥20包/年)。

2.5 风险评分模型的预测性能评价

风险评分模型具有良好的判别能力,在训练集中AUC 为0.760(95%CI:0.690~0.829),验证集中AUC 为0.748(95%CI:0.612~0.884)。最佳截断值为14.5 分,该分值下模型的灵敏度为61.0%,特异度为81.9%,约登指数为0.42。校准曲线和H-L 检验结果显示,校准曲线与45°斜线靠近,表明模型具有较好的拟合度(训练集中P=0.305,验证集中P=0.631)。以标准化的净收益率纵坐标,风险阈值为横坐标分别构建训练集和验证集中的DCA,显示阈值范围在0.02~0.25 内模型的净收益曲线均高于“None 线”和“All 线”,说明该评分量表模型具有较好的临床适用性。见图3。

图3 风险评分模型的预测效能Fig.3 Performance of the score model

3 讨论

山西省是上消化道癌高发地区,该地区的上消化道癌发病率和死亡率常位居较高水平[14]。上消化道癌防治的关键在于以“三早”理念为核心的二级预防策略。在这一背景下,“内镜下染色+指示性活检”是上消化道癌筛查和诊断的“金标准”,一次检查可全面观察食管至胃部的病变情况,早期发现恶性病变,从而改善预后。本研究基于山西省农村上消化道癌早诊早治项目,建立和验证了可用于初筛阶段的高危人群筛查模型,并据此为基础构建了一个个体化风险评估的评分量表,以支持上消化道癌的防控。该模型包括年龄、性别、吸烟、热烫饮食摄入、肿瘤家族史等5个易获得的变量,并且具有良好的区分能力、校准能力和实际应用价值。

本研究发现,上消化道癌及癌前病变的检出率随年龄的增长呈显著上升趋势,表明年龄是影响上消化道癌及癌前病变的重要因素之一。这一结果与其他学者研究基本一致。如四川省的一项筛查结果[15]显示,50~59 岁和60~69 岁年龄组人群的上消化道癌检出率(0.56%和0.22%)高于40~49 岁年龄组(0.08%),可能是因为老年人身体素质较差,多数患有慢性病或处于亚健康状态。在患病人群中,男性的检出率显著高于女性(66.1%vs33.9%),这与不同性别人群在生活习惯、饮食方式、烟酒喜好、工作环境方面的诸多差异有关,男性在社会生活中往往具有更大的烟酒暴露率。肿瘤的发生也与遗传因素有关,具有肿瘤家族史是上消化道癌及癌前病变发生的危险因素。YANG等[16]研究发现,父母均患上消化道癌是影响癌症发病和死亡的危险因素,这一结果与本研究结果类似。2014 年《美国卫生总监报告》指出[17],有充分的证据证明吸烟与食管癌和胃癌之间存在直接的因果关系。本研究发现,吸烟≥20包/年者患上消化道癌的风险是不吸烟患者的2.39 倍,与前述结果一致。另外,热烫饮食的过量摄入可导致消化道黏膜热损伤,增加上消化道癌发病风险,尤其是食管癌[18]。YUAN 等[19]研究也发现,偏好热饮热食可以使食管癌发病风险提高2.6 倍,而本研究发现每周≥2 次的烫食使上消化道癌发病风险提高2.3倍。因此,在上消化道癌防治中,应强调健康生活方式的重要性,包括养成良好的饮食习惯,改变吸烟、热烫饮食等不良生活习惯。

关于上消化道癌的预测模型,目前多以logistic回归分析和Cox 比例风险预测模型为主,不过也有学者采用机器学习方法构建疾病的风险预测模型[20-22]。在湖南省,一项非高发地区的上消化道癌前病变预测模型包括年龄、性别、精神创伤、采摘食物和萎缩性胃炎病史,该研究通过logistic 回归模型建立列线图,但其内部验证和外部验证的AUC分别为0.612和0.670,表现出较低的区分度[23]。常敏等[24]则通过logistic回归法建立甘肃省上消化道癌风险评分模型,其AUC为0.704,但缺乏模型的校准度评价和外部验证。YU等[23]通过东北地区的前瞻性癌症筛查队列建立了一个Cox 回归模型,该模型包括年龄、性别、学历、创伤、精神抑郁等10 个风险因素,其AUC 为0.59(95%CI:0.46~0.70),但是缺乏模型的校准度评价,且未将模型可视化为列线图或者评分量表。薛佳殷[21]等通过对2012 至2014 年徐州地区的胃癌患者进行研究,将logistic回归分析有统计学意义的变量作为BP神经网络的输入变量,选择隐层节点数为3 构建了基于年龄、吸烟、引用自来水等10 个变量的神经网络模型,AUC为0.833(95%CI:0.733~0.934),模型准确性较高,但是神经网络模型不能像logistic 回归模型那样明确解释自变量对因变量的作用,限制了其推广性。在本研究中,为了提高模型在实际应用中的可视化和推广性,选择了logistic 回归模型,并构建风险评分量表。为了减少冗余特征并提高泛化能力,使用AIC 值结合最优子集法进行变量筛选,穷举了所有可能的变量组合,并找出了AIC 最小值对应的最佳组合。这一方法有助于提高模型的有效性,使其更适用于人群初筛。

根据临床预测模型建立和验证的报告规范,特别是TRIPOD 声明中的内部验证方案[25],本研究使用了十折交叉验证和Bootstrap 法进行内部验证,以评估模型的性能,提高模型的泛化能力,避免模型过拟合。此外,为了最大程度地利用数据并获得稳定的结果,本研究使用了十折交叉验证来划分数据,产生了十个子集,并通过分析各子集模型参数,计算出平均回归系数,进而构建了基于系数的风险评分量表,用于评估个体的风险。然而,本研究具有一定的局限性。首先,研究对象仅限于山西省阳城地区40~69 岁的人群,因此模型的外推性还需进行外部验证。其次,研究数据来源于问卷调查,可能存在回忆偏倚。尽管如此,本研究的优势在于所建立的评分模型具有直观、易于量化和解释等优点,更适用于大规模人群初筛工作,并可以为个体的自我健康管理提供参考依据。

综上所述,本研究成功开发了山西省上消化道癌及癌前病变高危人群预测模型,该模型可用于筛选高风险人群,以进行后续内镜筛查,从而优化人群筛查项目的实施,有助于推进上消化道癌的二级预防工作,具有较大的公共卫生意义,有望在上消化道癌的早期诊断和治疗方面发挥重要作用。

猜你喜欢
家族史筛查人群
点赞将“抑郁症筛查”纳入学生体检
公民与法治(2022年1期)2022-07-26 05:57:48
郑瑞丹:重视询问慢性乙型肝炎患者的肝癌家族史
肝博士(2022年3期)2022-06-30 02:48:32
在逃犯
携带线粒体12S rRNA基因突变的新生儿母系家族史分析
预防宫颈癌,筛查怎么做
NRS2002和MNA-SF在COPD合并营养不良筛查中的应用价值比较
云南医药(2020年5期)2020-10-27 01:38:08
糖尿病早预防、早控制
智力筛查,靠不靠谱?
幸福(2019年12期)2019-05-16 02:27:40
我走进人群
百花洲(2018年1期)2018-02-07 16:34:52
财富焦虑人群