龚军,钟小钢,谈军涛,刘蕴宇,饶青茂,向天雨,王惠来*
1重庆医科大学医学数据研究院,重庆 400016;2重庆医科大学附属康复医院医护科,重庆 400050;3重庆医科大学医学信息学院,重庆 400016;4重庆医科大学附属大学城医院,重庆 401331
脓毒性休克是脓毒血症引起的组织低灌注及心血管功能异常,多伴有器官功能障碍,其中25%以上的患者死亡[1]。随着医学的发展,目前在抗感染治疗及相应的器官功能支持技术方面取得了明显的进步,但在临床实践中,脓毒性休克的发病率及病死率仍居高不下。由于儿童免疫系统发育不完全,免疫功能较成年人低下,一旦发病则进展迅猛,病死率明显增高[2]。研究表明,早期发现脓毒性休克并进行风险分层可改善儿童脓毒性休克的预后[3],但如何精准、尽早识别发生脓毒性休克的患儿仍是一项难题。研究发现,一些生物标志物如降钙素原、白细胞介素-6可作为脓毒性休克的预测因子[4], 但目前尚无任何一种生物标志物可独立预测脓毒性休克并具有良好的灵敏度及特异度。近年来,国内外专家学者利用患儿的多项检查指标建立模型来预测脓毒性休克并取得了良好的效果[5-7],但仍存在模型指标过多、临床应用困难、模型性能不佳等问题。因此,本研究拟从医学信息学视角出发,对医学、统计学及计算机科学相关知识进行整合,利用机器学习相关算法建立儿童脓毒性休克预测模型,以期能更简便、可靠地预测儿童脓毒性休克。
1.1 研究对象 数据来源于重庆医科大学医疗大数据平台,该平台包含重庆医科大学附属7家医疗机构的电子病例数据,数据量近4000万份。选取该平台中2015年1月1日-2019年8月31日因脓毒血症就诊的年龄<14岁患儿的电子病历1558例。根据住院期间是否发生脓毒性休克将患者分为脓毒性休克组287例(研究组)与单纯性脓毒血症组1271例(对照组)。将1558例样本通过随机数字表分为训练集(1091例)与测试集(467例)后,训练集用于变量筛选及模型构建,其中研究组199例,对照组892例;测试集用于验证模型性能,其中研究组88例,对照组379例。纳入标准:根据《儿童脓毒性休克(感染性休克)诊治专家共识(2015版)》[8],对于感染或疑似感染的患儿,住院期间病程记录存在发热或低体温、心动过速伴至少一个脏器功能异常、低氧血症、意识改变、血清乳酸增高,出院主要诊断为脓毒血症者则诊断为儿童脓毒血症。儿童脓毒性休克是在脓毒血症的基础上,住院病程记录存在组织灌注不足及心血管功能障碍,具体表现为:①低血压;②需要血管活性药物维持血压在正常范围;③具有组织低灌注(血液供应不足)表现[8]。排除标准:①脓毒血症患儿合并有先天性疾病及肿瘤等;②临床资料缺失;③基线资料收集前已发生脓毒性休克或基线资料收集后4 h内发生脓毒性休克[5]; ④放弃治疗者。
1.2 指标选取 将电子病历中患儿使用去甲肾上腺素、多巴胺等升压药物的时间作为休克发病的时间节点,选取该时间节点4 h前且脓毒血症诊断时间节点后的生命体征及实验室检查指标作为基线资料[5]:①一般资料,如性别、年龄、血压及呼吸频率等;②实验室检查指标,如生化、血常规、血糖、血脂及炎症指标等检查。排除缺失率>30%的指标。
1.3 统计学处理 采用SPSS 24.0及R 3.6.1对训练集数据进行统计分析,缺失率≤30%的指标使用missForest算法填补。计量资料以±s或M(P25,P75)表示,组间比较采用t检验或Mann-Whitney U检验;计数资料以例(%)表示,组间比较采用χ2检验。采用“套索算法(Least Absolute Shrinkage and Selection Operator,LASSO)+logistic回归(α入=0.05,α出=0.10)”进行多因素分析筛选儿童脓毒性休克的独立危险因素。采用R语言caret包中的极限梯度上升(eXtreme Gradient Boosting,XGBoost)机器学习算法建立预测模型。采用“网格搜索算法”确定XGBoost算法的max_depth、eta最优参数,其中max_depth用来防止模型陷入过度拟合,eta用来控制模型的学习效率,提高模型适应能力。采用灵敏度、特异度、精度、曲线下面积(AUC)评估模型在测试集的预测性能。P<0.05为差异有统计学意义。
2.1 一般资料 1558例患儿的感染原发部位位于呼吸道者1073例(68.9%),位于肠道者167例(10.7%),位于泌尿道及心肌等其他部位者318例(20.4%)。第一诊断为脓毒血症582例(37.4%),社区获得性肺炎114例(7.3%),重症肺炎72例(4.6%),感染性腹泻56例(3.6%),化脓性脑膜炎46例(3.0%)。共收集80项指标,排除缺失率>30%的14项指标,最终共纳入66项指标(表1)。
2.2 单因素及多因素分析儿童脓毒性休克的危险因素 单因素分析结果显示,训练集中研究组与对照组的单核细胞计数、嗜酸性粒细胞计数等41项指标差异有统计学意义,两组的中性粒细胞计数、性别等25项指标差异无统计学意义(表1)。利用LASSO进一步对这41项指标进行筛选,结果显示,LASSO马洛斯Cp(Mallows's Cp)值最低对应的指标值为24项(图1)。将24项指标进行logistic回归分析,其中10项有统计学意义,分别为尿微量白蛋白增加、便白细胞多见、尿蛋白阳性、高乳酸脱氢酶、高尿酸、低钙离子、低白蛋白、高肌红蛋白、高肌酸激酶同工酶MB及高降钙素原,可作为儿童脓毒性休克的独立危险因素(表2)。
2.3 机器学习模型 将表2中的10项独立危险因素作为XGBoost算法输入参数,将住院期间是否发生脓毒性休克作为结局事件建立机器学习预测模型,用训练集训练并建立模型,以AUC作为模型性能评判标准。结果显示,当XGBoost参数max_depth=6、eta=0.1时,模型的性能达到最佳(图2)。
2.4 模型性能检验 采用测试集验证模型性能,结果显示,XGBoost模型的灵敏度及AUC均高于logistic回归模型,但两种模型的精度大致相同,其他性能参数见表3。
表1 训练集中研究组与对照组儿童脓毒性休克相关指标的单因素分析Tab.1 Univariate analysis of related indicators of children septic shock in study group and control group in training set
(续 表)
图1 LASSO Cp值和指标数变化曲线Fig.1 Change curve of LASSO Cp value and index number
表2 儿童脓毒性休克差异性指标logistic回归分析结果Tab.2 Logistic regression analysis of difference index in children septic shock
图2 XGBoost算法不同参数组合下AUC的变化曲线Fig.2 AUC change curves under different parameter combinations of XGBoost algorithm AUC. 曲线下面积
表3 Logistic回归模型与XGBoost模型的性能评价表(n=467)Tab.3 Performance evaluation of logistic regression model and XGBoost model (n=467)
脓毒性休克是一种动态的临床及生物学综合征,是炎症、免疫力、病原体相关因素共同作用的结果[7]。目前,临床上主要借助急性生理与慢性健康评分Ⅱ(acute physiology and chronic health evaluation Ⅱ,APACHEⅡ)、序贯器官衰竭评分(sequential organ failure assessment,SOFA)等评分标准对儿童脓毒血症进行诊断,但这些评分系统不能在早期预测脓毒性休克的发生。为此,本研究通过分析7家医疗机构1558例脓毒血症患儿的临床数据,建立预测模型,以期早期预测出脓毒性休克患儿。
本研究通过单因素及多因素分析筛选出脓毒性休克的10项独立危险因素,其中尿微量白蛋白、乳酸脱氢酶、白蛋白、钙离子、肌红蛋白、降钙素原这6项已被广泛报道[4,9-12],而便白细胞、尿蛋白、尿酸、肌酸激酶同工酶MB则少见报道。便白细胞在肠道发生细菌感染或者炎症时增加,其数量多少与感染的严重程度有关[13],当肠道存在大肠埃希菌、耶尔森菌或其他弧菌感染时,便白细胞均有增多的现象[14]。肠道一旦发生感染,肠道炎性因子增加,破坏肠道黏膜屏障,肠道菌落失调,可引发脓毒血症[15-16]。尿蛋白阳性是指尿液中蛋白呈病理性增加。肾脏是血液的过滤器官,其血液灌注量约占心输出量的25%,发生脓毒血症时,各种致炎因子进入肾脏造成肾小球毛细血管损伤,进而造成肾小球滤过性增加,导致血液中的蛋白滤出到尿液中。Li等[17]的研究表明,尿蛋白可以作为早期急性肾损伤检测及急性肾损伤进展监测的生物标志物。脓毒性休克发病之前常伴有器官功能障碍,本研究287例儿童脓毒性休克患者中35.9%(103/287)存在肾功能异常,因此,可以认为尿蛋白与脓毒性休克存在一定的相关性。尿酸是体内嘌呤代谢的最终产物,目前尿酸对脓毒血症的作用机制存在争议。一方面,Nakysa等[18]的研究表明脓毒性休克患者的尿酸水平低于脓毒血症患者,Banu等[19]的研究显示新生儿脓毒血症患者的尿酸浓度降低,尿酸浓度与C反应蛋白浓度呈负相关,尿酸浓度降低与血小板减少呈正相关。另一方面,Akbar等[20]证实高尿酸血症与APACHEⅡ评分相关,可作为预测脓毒血症患者预后及死亡的标志物,还有研究发现高尿酸水平与需要血管加压支持明显相关[21-23]。本研究发现,高尿酸水平是儿童脓毒性休克的独立危险因素。肌酸激酶同工酶MB是用于反映心肌细胞损伤最特异的标志物[24],健康人群血液中肌酸激酶同工酶MB含量较少,当心肌细胞受到损害时上升,其水平升高与感染患者死亡风险增加显著相关[25]。
基于以上危险因素,本研究建立了儿童脓毒性休克预测模型。其中,“网格搜索+XGBoost”模型性能最优(测试集灵敏度=0.727,特异度=0.768,AUC=0.757)。新模型的AUC高于Le等[5](灵敏度=0.750,特异度=0.700,AUC=0.718)、Wong等[7](灵敏度=0.670,特异度=0.640,AUC=0.670)的模型,与Scott等[6]的模型(灵敏度=0.590,特异度=0.790,AUC=0.750)接近,但新模型解决了Scott等[6]模型因不平衡数据集导致的灵敏度及特异度相差过大的问题,综合性能较之前的预测模型有所提高。Logistic回归因可解释性较强而广泛应用于医学领域探究疾病的危险因素,但在建立模型时易出现欠拟合、模型总体性能不高、预测效果受缺失数据影响等问题。本研究中,XGBoost算法在一定程度上弥补了这些问题。XGBoost算法基于梯度下降树算法改进而来,具有训练速度快、高效、泛化能力强等特点,因此能得到更好的预测精度[26]。
本研究也有一些不足之处:①数据均来源于重庆地区,可能存在选择偏倚;②只选用XGBoost算法建立预测模型,仍需尝试其他算法是否具有更好的预测性能;③本文构建的预测模型包含10项指标,指标数较多,临床上推广应用有一定困难。
综上所述,本研究建立的儿童脓毒血症预测模型进一步开发成临床决策支持系统后,可通过输入筛选出的独立危险因素自动得出预测结果,对临床上脓毒性休克患儿的早期识别有一定的辅助作用,具有潜在的临床意义。