李姣艳,陈静锋,闫 肃,王佑翔,丁素英
1)郑州大学公共卫生学院流行病学教研室 郑州 450001 2)郑州大学第一附属医院健康管理中心 郑州 450052 3)河南省疾病预防控制中心传染病预防控制所 郑州 450016
有研究[1]报道,2020年全球结直肠癌(colorectal cancer,CRC)新发病例超过190万,占全球肿瘤病例的10%;死亡病例93.5万,占全球肿瘤相关死亡总数的9.4%。有数据[2]显示我国CRC发病率已居所有恶性肿瘤的第2位,死亡率居第4位。河南省城市男性CRC中标发病率于2010~2018年呈上升趋势,总体发病率随年龄增加而升高[3],因此有必要积极推动CRC的预防控制工作。CRC主要有腺瘤-癌症途径、锯齿状病变途径、炎症途径3个致癌途径[4],其中60%~70%散发的CRC通过腺瘤-癌症途径,15%~30%由锯齿状病变致癌途径[5],有不到2%的CRC通过炎症相关致癌途径发展而来。
结直肠息肉是CRC的必经阶段,但是发展成CRC需要5~10 a的时间,这为早期诊断和临床干预提供了很大的空间[4],且早期筛查、早诊、早治可以有效降低CRC的死亡率,改善预后[5]。结肠镜检查是早期诊断CRC或结直肠息肉最有效的手段之一[6],但结肠镜是一种侵入性检查,需要严格的肠道准备,而且有穿孔、出血等风险,导致人群的依从性和参与率较低[7];因此,识别结直肠息肉的影响因素,建立结直肠息肉的预测模型尤为必要。近年来一些研究[8-9]表明,结直肠息肉的发生与性别、年龄、种族、饮食、生活行为习惯、肠道微生物、代谢综合征、家族史等因素相关,但仍然存在争议,且对常规体检项目的研究相对较少。本研究基于健康体检数据构建结直肠息肉预测模型,以期为筛查CRC高危人群提供支持。
1.1 研究对象数据来源于2016年11月至2021年10月在郑州大学第一附属医院健康管理中心进行健康体检的人群,选取其中同时进行结肠镜检查和血常规、生化指标检测者。参照结直肠息肉诊断标准《胃肠道腺瘤和良性上皮性息肉的病理诊断共识》[10],分为息肉组和无息肉组。排除标准:①研究对象基本资料不全或肠道准备不充分者。②既往有炎症性肠病、结肠黑变病、CRC等消化道疾病者。③严重心脑血管疾病、肝肾疾病、恶性肿瘤者等。本研究经郑州大学第一附属医院医学伦理委员会批准(2018-KY-56)。
1.2 数据收集收集研究对象的体检数据,包括一般人口学特征和实验室生化检查指标共22个:性别、年龄、腰围(waist circumference,WC)、收缩压(systolic pressure,SBP)、舒张压(diastolic pressure,DBP)、BMI、中性粒细胞绝对值(neutrophil,NEU)、淋巴细胞绝对值(lymphocyte,LYM)、总蛋白(total protein,TP)、白蛋白(albumin,ALB)、球蛋白(globulin,GLOB)、尿素(blood urea,BU)、肾小球滤过率(glomerular filtration rate,GFR)、总胆固醇(total cholestero,TC)、甘油三酯(triglyceride,TG)、高密度脂蛋白(high density lipoprotein cholesterol,HDL-C)、低密度脂蛋白(low density lipoprotein cholesterol,LDL-C)、空腹葡萄糖(fasting blood-glucose,FBG)、白球比(albumin/globulin ratio,AGR)、中性粒细胞淋巴细胞绝对值比值(neutrophil to lymphocyte ratio,NLR)、TG/HDL、甘油三酯葡萄糖指数(TyG),TyG=ln[TG(mg/dL)×FBG(mg/dL)/2]。
1.3 统计学处理采用SPSS 25.0与R 4.2.1进行数据分析。连续变量根据是否符合正态分布分别应用t检验或秩和检验,分类变量应用χ2检验进行组间比较。通过最小绝对收缩选择算子(LASSO)回归进行特征变量的筛选和复杂度调整,应用十折交叉验证获得最优的惩罚系数(λ),得到该模型最优的变量和变量系数。变量筛选后,将数据集按7∶3的随机分组方式分为训练集与测试集,在训练集中分别构建梯度提升(categorical boosting,Catboost)、支持向量机(support vector machine,SVM)、Logistic回归 (LR)预测模型,应用χ2检验比较3种模型的准确率,并进一步通过净重新分类指数(net reclassification index,NRI)、综合判别改善指数(integrated discrimination improvement,IDI)、ROC曲线下面积(area under curve,AUC)评估模型的预测性能,并对纳入变量的重要性进行评估。检验水准α=0.05。
2.1 结直肠息肉组和无息肉组的人口学特征和实验室生化检查项目比较本研究共纳入4 997人,其中息肉组2 462人,无息肉组2 535人。息肉组的年龄、SBP、DBP、BMI、WC、NEU、LYM、BU、AGR、TC、TG、TG/HDL、FBG、TyG高于无息肉组,GFR、TP、ALB、GLOB、HDL-C低于无息肉组,差异均有统计学意义(P<0.05)。详见表1。
表1 结直肠息肉组和无息肉组的人口学特征和实验室生化检查项目比较
2.2 特征变量的筛选结果对除性别外的数据进行处理后,使用LASSO 回归筛选变量,建模和交叉验证结果见图1。选择最小误差一个方差以内的最大λ(0.031 2)为最佳λ,得到由性别、年龄、WC、BU、TP、GFR、TyG等7项特征变量组成的最简单模型(特征变量之间不存在共线性),系数分别为0.526、0.036、0.008、0.021、-0.004、-0.009和0.121。
A:预测变量的LASSO系数路径图;B:LASSO正则化路径图(交叉验证曲线);图B中的两条虚线从左至右分别表示两个特殊的λ值,λmin=0.000 9和λ1se=0.031 2。前者为所有的λ值中误差最低的值;后者为最小误差一个方差范围内得到最简单模型的值(即λ1se给出的是一个具备优良性能且自变量个数最少的模型)。
2.3 风险预测模型的构建及评价结果按7∶3随机分成两组(训练集3 499人,测试集1 498人,两集间结直肠息肉构成比差异无统计学意义,χ2<0.001,P=0.997),分别构建预测结直肠息肉发生的Catboost、SVM、LR模型。对3种预测模型的准确率进行χ2检验,结果显示差异有统计学意义(χ2=22.613,P<0.001),成对比较后Catboost、SVM模型的准确率显著高于LR模型(P<0.05)。进一步采用NRI、IDI、ROC曲线评估3种模型的预测性能,结果分别见图2、表2。
上:训练集;下:测试集。
表2 3种模型的NRI与IDI比较
由图2可知,在训练集和测试集中SVM和Catboost模型的AUC均优于LR(训练集中SVMvsLR:Z=15.609,P<0.001;CatboostvsLR:Z=15.136,P<0.001。测试集中SVMvsLR:Z=8.434,P<0.001;CatboostvsLR:Z=10.503,P<0.001),而SVM和Catboost模型训练集差异有统计学意义(Z=3.703,P<0.001),测试集无统计学意义(Z=0.994,P=0.320)。表2结果表明SVM模型与LR、Catboost模型相比,对结直肠息肉发生的预测能力均更优(P<0.05)。
2.4 影响因素重要性排序结果见图3。SVM模型中纳入因素对结直肠息肉发生的重要性评估,从大到小依次为年龄、WC、GFR、TyG、性别、BU、TP;年龄的重要性最大,其次是WC。
图3 SVM模型中预测变量的重要性排序
CRC是威胁生命健康的主要癌症之一,国家癌症中心最新数据显示,2016年我国CRC新增病例约40.8万,占全部恶性肿瘤发病的10.04%,高于2015年的38.76万例(9.87%);死亡病例19.56万例,占全部恶性肿瘤死亡的8.10%,高于2015年的18.71万例(8.01%)[2,11]。CRC筛查和早诊早治是降低死亡率、减轻社会负担的有效措施[6]。作为CRC的癌前病变,发现结直肠息肉发病的影响因素对预防CRC的发生有重要意义。
周海萍等[8]对8 660例正常受检者进行横断面调查,发现男性、高龄、肥胖是结直肠腺瘤发生的危险因素;40~50岁人群有较高的结直肠腺瘤检出率。魏锣沛等[12]采用身高、体重、BMI、WC及腰围身高比等多种身体测量指标探讨肥胖与CRC的发病关系,发现WC和腰围身高比与CRC表现出了较强的关联。在本研究中WC被纳入结直肠息肉预测模型的构建而不是BMI,且重要性居第2,得出了类似的结果。杨翡翠[13]研究结果表明2型糖尿病患者发生结直肠息肉及息肉恶变的风险升高。血脂水平异常也可影响结直肠息肉的发生[14]。可能的机制为高糖及血脂异常等代谢异常使得胰岛素抵抗和胰岛素样生长因子(insulin like growth factor,IGF)水平增加,促进结直肠上皮细胞的增殖,同时抑制凋亡,促进腺瘤的发生;高TG水平可引发炎症反应,上调转化生长因子和IGF的表达,诱发氧化应激反应,导致DNA损伤;另外还可改变胆汁酸的分泌、循环激素、肿瘤细胞能量供应等[15-16]。目前对GFR、BU、TP与肠道肿瘤的研究较少,一些研究[17]表明胃肠道肿瘤与肾损害有一定的相关性,可能的机制为慢性肾脏疾病会增加促炎细胞因子的产生,从而通过炎症介质诱导基因突变、适应性反应、抗凋亡和环境变化促进肿瘤的发生[18]。
选择合理的指标是构建预测模型的关键。目前有一些关于结直肠息肉的风险预测模型研究[19-20],但预测性能各不一致。冯心怡[19]通过健康体检数据建立预测模型,将年龄、性别、WC、嗜酸性粒细胞计数和LHR(LDL-C/HDL-C)纳入模型,训练集AUC(95%CI)为0.678(0.649~0.708),验证集AUC(95%CI)为0.679(0.639~0.729)。本研究基于常规体检数据构建Catboost、SVM、LR预测模型,在测试集中SVM与Catboost模型的AUC大于LR模型,NRI和IDI分析结果显示SVM模型相较于Catboost和LR模型预测效能更优(NRI和IDI均>0)。
本研究的局限性:①这是一项单中心研究,可能会导致选择偏倚,使得模型的扩展性存在局限。②缺乏一些流行病学及生活方式的资料,如家族史、吸烟史、饮酒史、饮食情况等,可能会影响研究的结果。③该研究为横断面研究,仅能提供病因线索,无法进行更深层次的研究,主要是由于肠镜检查的大众接受度仍然较低,很难获得研究对象的连续资料。
综上,基于常规的体检项目中性别、年龄、WC、BU、TP、GFR、TyG等7项指标构建的SVM预测结直肠息肉风险模型具备良好的预测价值,可能会帮助特定人群更早地发现CRC,以改善预后。