[摘要]"目的"采用诺莫图模型、随机森林模型、决策树模型分别构建血流感染(bloodstream"infection,BSI)的鉴别诊断模型。方法"回顾性分析2022年1月至2024年1月于浦江县人民医院诊断治疗的BSI患者225例,按照7∶3的比例将患者分为训练集和验证集,运用诺莫图模型、随机森林模型、决策树模型建立革兰阴性菌BSI(Gram"negative"BSI,GN-BSI)、革兰阳性菌BSI(Gram"positive"BSI,GP-BSI)的鉴别诊断模型,并分析不同模型的鉴别效能。结果"二元Logistic回归分析显示,中性粒细胞与淋巴细胞比值(neutrophil"to"lymphocyte"ratio,NLR)、C反应蛋白(C-reactive"protein,CRP)、白细胞介素-6(interleukin-6,IL-6)、红细胞体积分布宽度与血小板比值(red"cell"volume"distribution"width"to"platelet"ratio,RPR)、降钙素原(procalcitonin,PCT)均为GN-BSI和GP-BSI的鉴别诊断变量(Plt;0.05)。在训练集中,诺莫图模型、随机森林模型、决策树模型鉴别GN-BSI和GP-BSI的曲线下面积(area"under"the"curve,AUC)分别为0.900、0.911、0.884,其中随机森林模型的预测AUC显著高于决策树模型(Z=3.521,P=0.038)。在验证集中,诺莫图模型、随机森林模型、决策树模型鉴别GN-BSI和GP-BSI的AUC分别为0.908、0.916、0.893,其中随机森林模型的预测AUC显著高于决策树模型(Z=3.412,P=0.042)。结论"3种模型对GN-BSI和GP-BSI均有较好的鉴别价值,其中随机森林模型和诺莫图模型的鉴别性能较高。
[关键词]"血流感染;诺莫图模型;决策树模型;随机森林模型
[中图分类号]"R446.5""""""[文献标识码]"A""""[DOI]"10.3969/j.issn.1673-9701.2024.31.013
Construct"a"machine"learning"model"for"differential"diagnosis"of"bloodstream"infection"based"on"laboratory"indicators
ZHANG"Mei1,"JIN"Miaoling1,"LI"Cui2
1.Department"of"Laboratory,"Pujiang"Branch"of"the"First"Affiliated"Hospital,"Zhejiang"University"School"of"Medicine"(Pujiang"County"People’s"Hospital),"Pujiang"322200,"Zhejiang,"China;"2.Department"of"General"Surgery,"Pujiang"Branch"of"the"First"Affiliated"Hospital,"Zhejiang"University"School"of"Medicine"(Pujiang"County"People’s"Hospital),"Pujiang"322200,"Zhejiang,"China
[Abstract]"Objective"To"construct"a"diagnosis"models"for"differential"diagnosis"of"bloodstream"infection"(BSI)"using"nomogram"model,"random"forest"model,"and"decision"tree"model,"respectively."Methods"A"retrospective"analysis"was"performed"on"225"BSI"patients"diagnosed"and"treated"innbsp;Pujiang"County"People’s"Hospital"from"January"2022"to"January"2024,"and"the"patients"were"divided"into"a"training"set"and"a"validation"set"according"to"a"ratio"of"7":"3."The"differential"diagnostic"models"for"Gram"negative"BSI"(GN-BSI)"and"Gram"positive"BSI"(GP-BSI)"were"established"by"nomogram"model,"random"forest"model,"and"decision"tree"model,"and"the"differential"diagnostic"efficacy"of"different"models"were"analyzed."Results"Binary"Logistic"regression"analysis"showed"that"neutrophil"to"lymphocyte"ratio"(NLR),"C-reactive"protein"(CRP),"interleukin-6"(IL-6),"red"cell"volume"distribution"width"to"platelet"ratio"(RPR),"procalcitonin"(PCT)"were"diagnostic"variable"between"GN-BSI"and"GP-BSI"(Plt;0.05)."In"training"set,"area"under"the"curve"(AUC)"of"nomogram"model,"random"forest"model"and"decision"tree"model"to"identify"GN-BSI"and"GP-BSI"were"0.900,"0.911"and"0.884,"respectively,"and"AUC"of"random"forest"model"was"significantly"higher"than"that"of"decision"tree"model"(Z=3.521,"P=0.038)."In"verification"set,"AUC"of"nomogram"model,"random"forest"model"and"decision"tree"model"for"identifying"GN-BSI"and"GP-BSI"were"0.908,"0.916"and"0.893,"respectively,"and"AUC"of"random"forest"model"was"significantly"higher"than"that"of"decision"tree"model"(Z=3.412,"P=0.042)."Conclusion"The"three"models"have"good"identification"value"for"GN-BSI"and"GP-BSI,"among"which"the"random"forest"model"and"nomogram"model"have"better"identification"performance.
[Key"words]"Bloodstream"infection;"Nomogram"model;"Decision"tree"model;"Random"forest"model
血培养是诊断血流感染(bloodstream"infection,BSI)和鉴别病原菌的金标准,但其培养周期长[1]。在诊断BSI后,临床常采用广谱抗生素进行经验性抗菌治疗,导致耐药菌和药物不良反应的风险增加。不同病原菌对抗生素的敏感性不同,因此及早明确BSI患者的病原菌对临床合理使用抗生素有重要意义。目前关于革兰阴性菌BSI(Gram"negative"BSI,GN-BSI)、革兰阳性菌BSI(Gram"positive"BSI,GP-BSI)的鉴别报道较多,Wang等[2]报道降钙素原(procalcitonin,PCT)鉴别GN-BSI的曲线下面积(area"under"the"curve,AUC)为0.818;Gao等[3]报道PCT结合血小板参数对鉴别GN-BSI和GP-BSI有一定价值。本研究基于实验室常规检测指标,通过3种模型构建GN-BSI和GP-BSI的鉴别诊断模型,并对模型效能进行验证和比较,现将结果报道如下。
1""资料与方法
1.1""研究对象
回顾性分析2022年1月至2024年1月于浦江县人民医院诊治的BSI患者225例,其中男124例,女101例,平均年龄(56.79±12.37)岁。纳入标准:①BSI的诊断标准符合《医院感染诊断标准(试行)》[4];②体温gt;38℃或lt;36℃,伴寒战或低血压;③一次或多次从血培养中分离出病原菌;④年龄gt;18岁。排除标准:①真菌性BSI;②伴恶性血液系统疾病;③多种细菌感染;④脾功能亢进;⑤临床资料不完整。根据血培养中病原菌革兰染色结果将其分为GN-BSI组和GP-BSI组。本研究经浦江县人民医院伦理委员会批准,所有患者均签署知情同意书。
1.2"nbsp;方法
通过电子病历系统收集所有研究对象的年龄、
性别、病原菌种类、中性粒细胞(neutrophil,N)、淋巴细胞(lymphocyte,L)、红细胞体积分布宽度(red"cell"volume"distribution"width,RDW)、血小板(platelet,PLT)、C反应蛋白(C-reactive"protein,CRP)、PCT、白细胞介素-6(interleukin-6,IL-6),并计算N与L比值(neutrophil"to"lymphocyte"ratio,NLR)、RDW与PLT比值(RDW"to"ratio,RPR)。"""""按照7∶3的比例将所有研究对象分为训练集和验证集;训练集用于构建鉴别模型,验证集用于模型性能验证。
1.3""统计学方法
采用SPSS"22.0软件对数据进行统计分析。计数资料以例数(百分率)[n(%)]表示,组间比较采用χ2检验;正态分布的计量资料以均数±标准差()表示,组间比较采用独立样本t检验,非正态分布的计量资料以中位数(四分位数间距)"""[M(Q1,Q3)]表示,组间比较采用Mann-Whitney"U检验。采用二元Logistic回归逐步筛选影响因素,将Plt;0.05的变量纳入模型分析,先后通过诺莫图模型、随机森林模型、决策树模型构建BSI鉴别模型,通过受试者操作特征曲线(receiver"operating"characteristic"curve,ROC曲线)在训练集和验证集对模型的鉴别效能进行分析,Plt;0.05为差异有统计学意义。
2""结果
2.1""训练集两组患者的临床资料比较
训练集包含GN-BSI患者92例,GP-BSI患者65例。GN-BSI组患者的NLR、RDW、RPR、CRP、PCT、IL-6均显著高于GP-BSI组(Plt;0.05),见表1。
2.2""二元Logistic回归分析
二元Logistic回归分析中,变量方差膨胀因子均lt;10,说明变量间不存在严重共线性。结果显示NLR、CRP、IL-6、RPR、PCT均为GN-BSI和GP-BSI的鉴别因素(Plt;0.05),见表2。
2.3""诺莫图模型
将二元Logstic回归分析中有统计学意义的指标纳入诺莫图模型中,将危险因素分值相加后的总分对应风险读数即为GN-BSI的概率,见图1。
2.4""随机森林模型
采用重复5次十折交叉验证对自变量进行取舍,当变量为6时口袋外数据最小,因此本研究选取前6项变量对模型进行优化,重要性评分居前6位的依次为PCT、NLR、IL-6、CRP、RPR、RDW。
2.5""决策树模型
以基尼系数为基础进行树的生长,以最小代价复杂度减枝法对决策树进行减枝,结果显示决策树分为3层,见图2。与GN-BSI相关的影响因素依次为PCT、IL-6、CRP、NLR、RPR、RDW。
2.6""训练集3种模型的鉴别价值比较
训练集中,诺莫图模型、随机森林模型、决策树模型鉴别GN-BSI和GP-BSI的AUC分别为0.900、0.911、0.884,见图3。随机森林模型的预测AUC显著高于决策树模型(Z=3.521,P=0.038)。
2.7""验证集3种模型的鉴别价值比较
验证集包含GN-BSI患者40例,GP-BSI患者28例。诺莫图模型、随机森林模型、决策树模型鉴别GN-BSI和GP-BSI的AUC分别为0.908、0.916、0.893,见图4。随机森林模型的预测AUC显著高于决策树模型(Z=3.412,P=0.042)。
3""讨论
根据《拯救脓毒症运动:脓毒症与感染性休克治疗国际指南2021版》[5]要求,对疑似BSI患者,在留取血培养标本后,应尽早开始抗菌治疗,并根据当地病原菌药敏情况决定经验性治疗是否需要覆盖革兰阳性菌和革兰阴性菌,待血培养和药敏结果报告后,再进行调整。因此,尽早判断GP-BSI、GN-BSI对临床治疗、抗生素选择、预后把控有一定价值。诺莫图模型、随机森林模型、决策树模型是机器学习算法中重要的分类器,已被广泛应用于鉴别和预测模型中。由于3种模型运算方法不同,其鉴别效能有所差异。本研究通过3种运算方式构建鉴别模型,以期为临床快速判断GP-BSI和GN-BSI,进而为指导临床用药提供依据。
PCT既是诊断BSI的可靠指标,同时也对鉴别GP-BSI、GN-BSI有一定价值。Luo等[6]研究显示GN-BSI患者的PCT高于GP-BSI患者,其鉴别AUC为0.752。本研究发现PCT在诺莫图模型、随机森林模型、决策树模型中均为GP-BSI、GN-BSI的鉴别诊断变量。PCT鉴别诊断GP-BSI、GN-BSI的确切机制暂未明确,有研究认为与革兰阳性菌和革兰阴性菌激活炎症反应的信号通路不同有关[7]。CRP是一种由肝脏合成的急性时相反应蛋白,可反映机体炎症水平的高低。Sfetsiori等[8]发现恶性血液病患儿中,GN-BSI患儿的CRP高于GP-BSI,是GN-BSI的独立影响因素。本研究发现CRP在3种分析模型中均为鉴别诊断变量,但在不同模型中的重要性稍有不同,可能与模型的运算方式有关。Yang等[9]研究报道GN-BSI患者的IL-6明显高于GP-BSI,其鉴别AUC为0.735,且对碳青霉烯肠杆菌同样有一定的鉴别能力。本研究发现IL-6为3种模型共有鉴别变量,在二元Logistic回归中OR值为1.009,在决策树处于第2层,在随机森林模型中处于第3重要因子。NLR结合与细胞免疫有关的中性粒细胞及与体液免疫相关的淋巴细胞,可稳定反映机体炎症状态。钱树坤等[10]研究显示GN-BSI患者的NLR高于GP-BSI,是鉴别诊断GN-BSI、GP-BSI的潜在指标。Li等[11]则比较9种炎症标志物对GN-BSI、GP-BSI的鉴别价值,发现NLR鉴别AUC为0.728,在9种炎症标志物中鉴别能力最高。本研究发现NLR为3种模型共有鉴别变量,在二元Logistic回归中OR值为1.130,在决策树模型中处于第2层,在随机森林模型中处于第2重要变量。既往研究发现RDW不仅反映红细胞体积的异质性,还可提示感染的类别和严重程度[12]。余高平等[13]发现GN-BSI患者的PLT低于GP-BSI患者,是GN-BSI潜在鉴别变量。RPR作为新型炎症标志物已被证明与自身免疫性疾病、恶性肿瘤临床分期及不良预后有一定关联[14];暂未见其对区分GN-BSI、GP-BSI的报道。本研究发现GN-BSI患者的RDW、RPR高于GP-BSI,RPR在3种模型中均为共同鉴别变量。
诺莫图模型具有直观性和可操作性,被广泛应用于模型分析中,但在模型构建过程中对数据要求较高(如数量、是否共线性),易因数据因素影响模型效能[15]。随机森林模型对数据要求低,且可自动分析因子间的交互作用和非线性作用,可通过有目的的放飞对数据的利用,提高模型的鉴别效能[16]。决策树模型可通过树形图节点直观了解变量的分析过程,且对数据缺失、数据类型要求较低,但模型呈现和应用过程较为复杂,易出现泛化和拟合能力偏弱的现象。本研究分析3种模型在训练集和验证集的表现,发现3种模型对GN-BSI、GP-BSI均有较高的鉴别效能,其中随机森林模型鉴别效能最佳,其次为诺莫图模型,这一结果与既往报道的机器学习模型一致[17]。
综上所述,本研究通过诺莫图模型、随机森林模型、决策树模型构建GN-BSI、GP-BSI的鉴别模型。模型的构建可规避单一指标鉴别效能低下的局限,有助于及早识别GN-BSI和GP-BSI,提高临床经验性抗生素治疗的科学性,减少耐药菌株的产生。
利益冲突:所有作者均声明不存在利益冲突。
[参考文献]
(收稿日期:2024–05–31)
(修回日期:2024–10–13)