胡文标,刘礼敬,林晓峰,宋清华,陆元喜,韦佳玲
急性心肌梗死(acute myocardial infarction,AMI)指短时间内给心脏供血的动脉发生病变,导致冠状动脉血供急剧减少或中断,引发心肌严重和持久性缺血的心脑血管疾病[1]。AMI具有起病急促、病死率高、致残率高等特点,严重威胁人类健康[2]。PCI是治疗AMI及提高患者生存率的有效方式,但是作为一种有创术式,其术后易引起各种并发症[3-4]。AMI患者院内发生心力衰竭(heart failure,HF)是PCI后的常见并发症,这不仅给患者带来更高的死亡风险,还带来沉重的经济负担[5]。众多研究指出,早期预测AMI患者住院期间HF发生风险并及时给予相应的干预措施是降低患者HF发生率的重要手段[6-7]。而传统Logistic回归模型在处理不平衡样本时,可能存在过度拟合的情况[8]。梯度提升决策树(gradient boosted decision trees,GBDT)是机器学习(machine learning,ML)中的一种算法,也是目前网络智能诊疗技术时代的产物,由于该算法不局限于固定的建模规则,在处理临床海量无序的数据中展现出比传统Logistic回归模型更大的优势,利于在临床上进一步推广[9-10]。然而,目前尚未见采用GBDT预测AMI患者住院期间HF发生风险的相关研究。因此,本研究旨在分析GBDT在预测AMI患者PCI后住院期间发生HF中的应用价值,以便为AMI患者PCI后住院期间HF发生风险的评估提供新思路与新方法。
1.1 研究对象 回顾性选取2021—2022年于南宁市第二人民医院行PCI的AMI患者200例为研究对象,其中男122例,女78例;年龄47~83岁,平均(63.4±6.6)岁;疾病类型:ST段抬高型心肌梗死75例,非ST段抬高型心肌梗死125例。纳入标准:(1)符合《急性心肌梗死诊断和治疗指南》[11]中AMI的诊断标准;(2)发病至入院时间≤12 h;(3)符合《中国经皮冠状动脉介入治疗指南(2016)》[12]中的PCI指征,且成功接受PCI后血流灌注恢复正常;(4)患者及其家属对本研究均知情同意。排除标准:(1)有HF史者;(2)非首次接受PCI者;(3)合并严重心、肝、肾功能不全者;(4)存在先天性心脏病、免疫系统疾病、造血功能障碍、恶性肿瘤者;(5)临床资料缺失者。将患者分为训练集(145例)和测试集(55例)。根据PCI后住院期间HF发生情况,将训练集患者分为HF组(48例)和非HF组(97例)。HF的诊断标准为:(1)体格检查发现肺部啰音、颈静脉充盈、双下肢水肿、心尖冲动侧移或弥散等;(2)心电图异常;(3)X线检查显示肺淤血、肺水肿、心脏扩大等;(4)N末端脑钠肽前体(N-terminal pro-brain natriuretic peptide,NT-proBNP)≥125 ng/L或脑钠肽(brain natriuretic peptide,BNP)≥35 ng/L;(5)超声心动图检查显示心脏结构和/或功能异常[13]。
1.2 临床资料收集 从医院电子病历档案系统中收集患者一般资料(包括性别、年龄、发病至入院时间、PCI时间、疾病类型、高血压病史、糖尿病病史、心率)、PCI前实验室检查指标〔肌酐(creatinine,Cr)、总胆固醇(total cholesterol,TC)、肌钙蛋白I(troponin I,TnI)、超敏C反应蛋白(hypersensitive C-reactive protein,hs-CRP)、白细胞计数(white blood cell count,WBC)、中性粒细胞计数、肌酸激酶同工酶(creatine kinase isoenzyme,CK-MB)〕、PCI前心脏彩超检查指标〔左心室内径(left ventricular internal diameter,LVID)、左心室射血分数(left ventricular ejection fraction,LVEF)〕。
1.3 统计学方法 采用IBM SPSS statistics 23.0软件进行数据统计分析。符合正态分布的计量资料以(±s)表示,组间比较采用两独立样本t检验;偏态分布的计量资料以M(QR)表示,组间比较采用Wilcoxon秩和检验;计数资料以相对数表示,组间比较采用χ2检验;基于单因素分析结果,采用R 4.1.2软件分别构建GBDT算法模型和Logistic回归模型以预测AMI患者PCI后住院期间HF发生风险;分别采用ROC曲线、校准曲线分析GBDT算法模型、Logistic回归模型的区分度、准确性。以P<0.05为差异有统计学意义。
2.1 HF组与非HF组临床资料比较 HF组与非HF组性别、发病至入院时间、PCI时间、疾病类型、有高血压病史者占比、心率、Cr、TC、TnI、LVID、LVEF比较,差异无统计学意义(P>0.05);HF组年龄大于非HF组,有糖尿病病史者占比、hs-CRP、WBC、中性粒细胞计数、CK-MB高于非HF组,差异有统计学意义(P<0.05),见表1。
表1 HF组与非HF组临床资料比较Table 1 Comparison of clinical data between HF group and non-HF group
2.2 GBDT算法模型及Logistic回归模型的构建与验证 将单因素分析中差异有统计学意义的指标(年龄、糖尿病病史、hs-CRP、WBC、中性粒细胞计数、CK-MB)纳入GBDT算法模型,通过GBDT算法获得这6项指标的相对重要性,由小到大依次为糖尿病病史(2.220)、中性粒细胞计数(7.713)、年龄(14.734)、CK-MB(16.819)、WBC(24.828)、hs-CRP(33.686)。
以年龄(实测值)、糖尿病病史(赋值:有=1,无=0)、hs-CRP(实测值)、WBC(实测值)、中性粒细胞计数(实测值)、CK-MB(实测值)为自变量,训练集AMI患者PCI后住院期间HF发生情况为因变量(赋值:发生=1,未发生=0),进行多因素Logistic回归分析,结果显示,年龄、hs-CRP、WBC、中性粒细胞计数、CK-MB是训练集AMI患者PCI后住院期间发生HF的影响因素(P<0.05),基于此构建Logistic回归模型,其具体公式为:logit(P)=-18.182+0.147×年龄+0.233×hs-CRP+0.438×WBC+0.242×中性粒细胞计数+0.003×CK-MB,见表2。
表2 训练集AMI患者PCI后住院期间发生HF影响因素的多因素Logistic回归分析Table 2 Multivariate Logistic regression analysis of influencing factors of HF in AMI patients during hospitalization after PCI in training set
2.3 GBDT算法模型及Logistic回归模型的验证与比较ROC曲线分析结果显示,GBDT算法模型、Logistic回归模型预测训练集AMI患者PCI后住院期间发生HF的AUC分别为0.989〔95%CI(0.974,1.000)〕、0.864〔95%CI(0.786,0.942)〕,最佳截断值分别为0.398、-0.717,灵敏度分别为0.957、0.872,特异度分别为0.963、0.827,见图1;GBDT算法模型、Logistic回归模型预测测试集AMI患者PCI后住院期间发生HF的AUC分别为0.900〔95%CI(0.817,0.982)〕、0.763〔95%CI(0.639,0.888)〕,最佳截断值分别为0.196、-0.081,灵敏度分别为0.913、0.609,特异度分别为0.796、0.857,见图2。校准曲线分析结果显示,GBDT算法模型、Logistic回归模型预测训练集、测试集AMI患者PCI后住院期间发生HF的概率分别与本组AMI患者PCI后住院期间HF的实际发生率一致,见图3~6。
图1 GBDT算法模型、Logistic回归模型预测训练集AMI患者PCI后住院期间发生HF的ROC曲线Figure 1 ROC curve of GBDT algorithm model and Logistic regression model in predicting HF in AMI patients during hospitalization after PCI in training set
图2 GBDT算法模型、Logistic回归模型预测测试集AMI患者PCI后住院期间发生HF的ROC曲线Figure 2 ROC curve of GBDT algorithm model and Logistic regression model in predicting HF in AMI patients during hospitalization after PCI in test set
图3 GBDT算法模型预测训练集AMI患者PCI后住院期间发生HF的校准曲线Figure 3 Calibration curve of GBDT algorithm model in predicting HF in AMI patients during hospitalization after PCI in training set
图4 GBDT算法模型预测测试集AMI患者PCI后住院期间发生HF的校准曲线Figure 4 Calibration curve of GBDT algorithm model in predicting HF in AMI patients during hospitalization after PCI in test set
图5 Logistic回归模型预测训练集AMI患者PCI后住院期间发生HF的校准曲线Figure 5 Calibration curve of Logistic regression model in predicting HF in AMI patients during hospitalization after PCI in training set
图6 Logistic回归模型预测测试集AMI患者PCI后住院期间发生HF的校准曲线Figure 6 Calibration curve of Logistic regression model in predicting HF in AMI patients during hospitalization after PCI in test set
随着精准医疗战略的逐步推进,精确预测AMI患者住院期间发生HF的风险是优化治疗方案的基石[14]。虽然PCI可降低AMI患者院内发生HF的风险,但仍有部分患者术后发生HF。本研究结果显示,训练集145例AMI患者中有48例发生HF,HF发生率为33.1%,高于李沅洋等[7]所报道的AMI患者PCI后HF发生率(30.06%),低于杨洋等[15]报道的AMI患者PCI后HF发生率(40.15%)。一项Meta分析结果显示,高龄、糖尿病病史、血糖升高、hs-CRP升高、WBC升高、中性粒细胞计数升高、CK-MB升高是AMI患者PCI后住院期间发生HF的危险因素[16]。鉴于HF的发生发展受多种影响因素影响,仅依靠单一因素预测AMI患者PCI后住院期间HF发生风险可能存在较大偏差,因此需要对可能导致HF的高危因素进行综合考量,进而建立一个模型以对AMI患者PCI后住院期间HF发生风险进行精准预测。本研究利用GBDT算法模型预测AMI患者PCI后住院期间发生HF的风险。
笔者回顾既往研究发现,利用分子生物学技术探索具有更高疾病预测价值的分子标志物虽然是当前研究的热点,但预测标准不同和医疗费用高昂等多种因素的限制导致短时间内无法将其应用于临床[17]。因此目前的大多数研究仍立足于现有患者的临床资料,通过构建预测模型来预测AMI患者PCI后住院期间发生HF的风险[18-20]。与此同时,不少研究也相继指出ML模型可以提高疾病预测效能,如范烨等[19]研究发现,梯度提升机模型对肝内胆管癌患者手术预后有较好的预测效果,这在大数据时代具有重要的临床价值;ASKARI等[20]研究显示,梯度提升随机森林技术在预测COVID-19患者住院时间方面优于其他技术。从GBDT算法模型处理数据的原理上来看,GBDT算法基于多个独立的分类与回归树,可将这些决策树整合成一个强分类器以加强预测的精确度和稳定性,这是一种综合决策的设计思想,不仅可高速处理海量数据,还能减少缺失数值的分析偏倚,更重要的是,GBDT算法模型的结构可拆解,结果也便于临床医师解读[21]。
本研究基于单因素分析结果,将年龄、糖尿病病史、hs-CRP、WBC、中性粒细胞计数和CK-MB这6项指标纳入了GBDT算法模型,并确定了各指标的相对重要性。有研究发现,年龄、糖尿病病史均是AMI患者PCI后发生主要不良心血管事件(包含HF)的独立危险因素,其可作为预测模型的相关变量[22]。据有关数据统计,年龄>70岁的老年人HF发生率为10%,同时在糖尿病人群中有将近22%的患者发生了HF,是健康人群的4倍[23-24]。分析原因为,高龄会降低心脏功能,改变心脏结构,极易影响患者血管顺应性,提高内皮功能障碍和心室重塑等不良事件的发生率,从而导致不良预后(HF)的发生[25]。其次,有研究表明,糖尿病与AMI患者心肌功能密切相关,合并糖尿病的AMI患者PCI后心脏舒张功能障碍发生风险明显升高[26]。但本研究中糖尿病病史没有进入Logistic回归方程,可能是选择偏倚导致的。此外,一些实验室检查指标如hs-CRP、WBC、中性粒细胞计数、CK-MB等也可影响AMI患者PCI后HF的发生发展[16],本研究结果与之相似。hs-CRP属于炎性因子之一,对心血管疾病(如冠状动脉粥样硬化性心脏病)及患者PCI后的远期预后具有一定预测价值[27]。WBC水平升高是合并冠心病的2型糖尿病患者发生HF的预测因子,可以反映患者左心室功能和心肌损伤程度[28],中性粒细胞计数升高则提高了AMI患者早期充血性HF的发生率[29],CK-MB作为心肌损伤标志物,是衡量心肌受损程度的敏感指标,既往研究结果也表明,CK-MB升高要预防AMI患者PCI后院内发生HF[30]。
本研究ROC曲线分析结果显示,GBDT算法模型、Logistic回归模型预测训练集AMI患者PCI后住院期间发生HF的AUC分别为0.989、0.864,预测测试集AMI患者PCI后住院期间发生HF的AUC分别为0.900、0.763,提示GBDT算法模型对AMI患者PCI后住院期间发生HF的预测效能优于Logistic回归模型,与国外一项应用GBDT算法模型预测重症监护病房脓毒症患者住院死亡率的研究结果[31]相似。综上,GBDT算法模型不同于Logistic回归模型的线性处理思想,强大的分类决策功能使其处理数据的效率不断提高,这在某种程度上可弥补Logistic回归模型的不足,从而进一步提高模型的预测准确度,也避免了线性处理的过度拟合情况[32-33]。
综上所述,本研究基于年龄、糖尿病病史、hs-CRP、WBC、中性粒细胞计数和CK-MB 6个指标构建的GBDT算法模型对AMI患者PCI后住院期间发生HF有较好的预测价值,且优于传统Logistic回归模型,这可为AMI患者PCI后预后的评估及干预治疗提供参考依据。但本研究为单中心回顾性研究,可能存在一定选择偏倚。未来若想进一步提高GBDT算法模型的预测准确度,一方面可选择前瞻性研究;另一方面,随着对ML算法的深入研究,可以进行如随机森林、人工神经网络等多种技术的对比探索,为优化预测模型提供参考。
作者贡献:胡文标进行文章的构思与设计,文章的可行性分析,文献/资料收集、整理,撰写论文,并对文章整体负责、监督管理;胡文标、刘礼敬、林晓峰、韦佳玲进行论文修订;胡文标、宋清华、陆元喜负责文章的质量控制及审校。
本文无利益冲突。