儿童甲型流行性感冒并发危重症肺炎的个体化诊断预测模型构建及危险因素分析

2021-04-06 04:51田利远李清涛王亚坤

河北医科大学学报 2021年3期

张蕾，田利远，李芹，李清涛，张曼，王亚坤

(河北省儿童医院呼吸一科，河北石家庄 050031)

流行性感冒是一种急性呼吸道传染病，是人类面临的主要公共卫生问题之一[1]。其中甲型流行性感冒病毒通过抗原漂移每1～2年会发生局部爆发，经过抗原转变，每10～20年就会出现世界范围内的大流行，故甲型流行性感冒病毒危害最大[2-3]。高危人群患病后预后多较差，儿童因全身免疫功能及器官发育不成熟，机体抵抗力低，感染甲型流行性感冒后容易发生严重并发症，其中最常见的为并发肺炎[4]。临床上儿童甲型流行性感冒并发轻度/重度肺炎患儿已有较为成熟的诊疗方案，但并发危重症肺炎的患儿因具有病情危重、预后差等特点仍是临床医师关注的重点，及早诊断治疗对改善患儿预后非常重要[5]。但临床医师多基于临床经验主观进行相关诊断，仍有较多患儿贻误病情；目前临床上没有针对儿童甲型流行性感冒并发危重症肺炎的客观诊断预测模型及危险因数分析报道，近年随着机器学习技术的发展为构建儿童甲型流行性感冒并发危重症肺炎个体化诊断预测模型及个体化高危因素挖掘提供了契机，本课题开展相关研究，现报告如下。

1 资料与方法

1.1一般资料选择2014—2017年我院收治的儿童甲型流行性感冒H1N1肺炎患儿。流行性感冒的诊断标准以2015版儿童流行性感冒诊断与治疗专家共识为准[6]。儿童甲型流行性感冒并发轻症、重症肺炎病例诊断标准参考WHO规定的诊断标准[7]，危重症病例指出现以下情况之一者：呼吸衰竭、感染中毒性休克、多脏器功能不全、出现其他需要临床监护的症状[8]。

本研究经医院医学伦理委员会批准通过。

1.2方法

1.2.1数据采集及预处理收集全部临床数据，进行清洗及预处理，包括处理数据缺失值、属性编码，进行数据标准化正则化、特征选择等内容。全部维度包括性别、年龄、流行性感冒病毒H分型、发热时间、发热程度、咳喘程度、合并先天性疾病、白细胞、中性粒细胞、淋巴细胞、单核细胞、C反应蛋白(C-reactive protein，CRP)、降钙素原(procalcitonin，PCT)、气管镜、呼吸衰竭、心力衰竭、胸腔积液、胸部X线片、痰培养、混合菌或病毒、总T细胞(CD3)、辅助T细胞(CD4)、抑制T细胞(CD8)、CD4/CD8、总B细胞、NK细胞(CD56)，共25个维度。纳入儿童甲型流行性感冒并发肺炎患儿的临床资料见表1。

1.2.2机器学习XGBoost算法模型的构建分别基于临床全指标和临床常用指标构建全指标预测模型和临床常用指标预测模型，均采用CART分类回归树作为学习器构建XGBoost算法。XGBoost的目标函数由损失函数和正则化项2个部分和1个常数项组成[9]。公式为：Obj(θ)=L(θ)+ Ω(θ)+C。基于XGBoost算法的儿童甲型流行性感冒并发危重症肺炎的诊断预测模型构建示意图，见图1。全指标预测模型和临床常用指标预测模型构建过程中的机器学习参数为，SET params as:booster=gbtree,bjective=binary:logistic,eta=0.3,gamma=5,max_depth=6,min_child_weight=1,subsample=1,colsample_bytree=1。

1.3观察指标比较2套诊断预测模型的准确度、敏感度、特异度、阳性预测值、阴性预测值，比较ROC曲线下面积(area under curve，AUC)；确定2套预测模型中预测因子的重要性排名。解读并分析2套诊断预测模型的个体化应用及危险因素。采用R语言进行机器学习XGBoost算法模型构建儿童甲型流行性感冒并发危重症肺炎诊断预测模型。

表1 173例儿童甲型流行性感冒并发肺炎患儿临床资料分析Table 1 Analysis of clinical data of 173 children with influenza A complicated with pneumonia

图1 儿童甲型流行性感冒并发危重症肺炎的XGboost模型

2 结果

2.1模型结局变量及自变量的选择及及设定采用机器学习XGBoost算法对纳入的记录进行学习并构建预测模型。纳入的记录要求为：结局变量不缺失，自变量可部分缺失。结局变量(Y)：全指标预测模型和临床常用指标预测模型的结局变量均为病情分度。自变量预测因子(X)：①全指标预测模型的自变量预测因子(X)，将收集的患者数据各维度全面纳入为预测因子，包括性别、年龄、流行性感冒病毒H分型、发热时间、发热程度、咳喘程度、合并先天性疾病、白细胞、中性粒细胞、淋巴细胞、单核细胞、CRP、PCT、气管镜、呼吸衰竭、心力衰竭、胸腔积液、胸部X线片、痰培养、混合菌或病毒、总T细胞(CD3)、辅助T细胞(CD4)、抑制T细胞(CD8)、CD4/CD8、总B细胞、NK(CD56)，共25个维度。②临床常用指标预测模型的自变量预测因子(X)，基于临床常用判断儿童甲型流行性感冒病情严重程度指标构建模型，包括年龄、合并先天性疾病、白细胞、CRP、气管镜、呼吸衰竭、胸部X线片、混合菌或病毒，共8个维度。

2.2诊断预测模型结果与观察结果的四格表及统计检验结果全指标预测模型的准确度、模型诊断结果与观察结果一致性判断指标Kappa值、ROC曲线下面积、敏感度、阳性预测值、阴性预测值均优于临床常用指标预测模型。全指标预测模型四格表见表2；临床常用指标预测模型的四格表见表3；两模型相关统计指标见表4，ROC曲线见图2，3。

表2 全指标预测模型的四格表Table 2 Four-gridTable of the full index prediction model (例数)

图2 基于全指标的诊断预测模型ROC曲线

图3 基于临床常用指标的诊断预测模型ROC曲线

2.32个预测模型各预测变量的重要性排名基于全指标的诊断预测因子主要有呼吸衰竭、咳喘程度(重度喘息)、总B细胞、单核细胞、发热时间(>15 d)、辅助T细胞(CD4)。基于临床常用指标的诊断预测因子主要有呼吸衰竭、胸部X线片(肺实变)、混合菌或病毒(无)、混合菌或病毒(支原体感染)。且全指标预测模型的各指标增益值(横坐标)明显优于临床常用指标预测模型的指标。见图4，5。

图4 基于全指标诊断预测因子重要性排名

图5 基于临床常用指标的诊断预测因子重要性排名

2.4基于机器学习技术构建的个体化诊断预测模型应用展示基于机器学习技术针对真实世界儿童甲型流行性感冒并发重症肺炎患儿临床数据进行分析挖掘，可构建个体化诊断预测模型，并可对每例患儿出具预测图。以2个模型中随机患者为示范，展示个体化预测结果。全指标诊断预测模型显示其中1例儿童甲型流行性感冒并发危重症肺炎的可能性是59%，呼吸衰竭、咳喘程度(重度喘息)、总B细胞、发热时间(>15 d)、辅助T细胞(CD4)是危险因素，单核细胞是保护因素(图6)。临床常见指标诊断预测模型显示其中1例儿童甲型流行性感冒并发肺炎患儿是危重症的可能是42%，其中呼吸衰竭、混合菌感染(肺炎支原体)、胸部X线片提示肺炎是危险因素，无混合菌感染是保护因素(图7)。临床应用时，直接将新入院患儿临床数据直接录入机器学习软件中可直接展示对应的预测图，可知甲型流行性感冒患儿发生危重症肺炎的概率，并可针对危险因素进行相对应的预防措施，从而改善预后。

图6 基于全指标的诊断预测模型个体化预测结果

图7 基于临床常用指标的诊断预测模型个体化预测结果

3 讨论

甲型流行性感冒因具有变异、进化速度快、抗原多变、感染性和致病性强等特点，可造成广泛流行，以冬季最为常见。临床主要表现为发热、咳嗽、呼吸困难，较少出现喘息症状，重症病例病情进展迅速，可出现呼吸窘迫综合征甚至死亡[10]；影像学表现中早期胸部X线片无特征性表现，进展期以肺实变为主[11]，也可出现磨玻璃影[12]，有学者报道并发重症肺炎的甲型流行性感冒患儿可出现支气管塑型[13]。目前临床上对于甲型流行性感冒并发轻度/重度肺炎的诊断、治疗已经较为熟练，且患儿疗效较好；但儿童甲型流行性感冒并发危重症患儿因病情重、预后差等特点，开展及时有效预防治疗非常重要[14]，目前仍是临床医师关注研究的重点。且我省地处北方，冬季容易爆发流行性感冒，再加上自2015年开始我国全面开放二胎政策，儿童数量基数大，有必要深入研究做好儿童甲型流行性感冒并发危重症肺炎的诊治工作。

目前，临床上关于儿童甲型流行性感冒并发危重症肺炎的临床特征分析或危险因素分析研究报道非常少，内容上主要是根据临床医师经验、基于临床常见指标(年龄[15]、白细胞、CRP、气管镜[16]、呼吸衰竭、胸部X线片[17]、混合菌或病毒[18]、合并先天性疾病[13])开展初步诊断，缺乏较为客观诊断依据；更是没有儿童甲型流行性感冒并发危重症肺炎的诊断模型及危险因素分析挖掘的研究报道。基于甲型流行性感冒并发肺炎患儿的真实世界临床数据存在维度高、缺失值多等特点[19]，传统Logistic回归分析无法较好地处理儿童甲型流行性感冒并发肺炎的真实世界结构复杂的临床数据，机器学习技术的出现为构建儿童甲型流行性感冒并发危重症肺炎的个体化诊断预测模型及危险因素分析挖掘提供了契机。XGBoost是一种基于梯度Boosting的集成学习算法，通过弱分类器的迭代计算实现准确的分类效果；XGBoost算法兼具线性模型和Boosted Tree模型的一种优化模型被广泛应用于人工智能、数据分析和统计学习等领域[20-21]。本课题组基于机器学习XGBoost算法技术，以CART回归树作为学习器，以是否诊断为儿童甲型流行性感冒并发危重症肺炎作为结局变量，以所纳入的临床全部指标为预测因子，对全部儿童甲型流行性感冒并发肺炎患儿真实世界临床数据进行训练和测试，并调整XGBoost主要参数，构建了儿童甲型流行性感冒并发危重症肺炎的个体化诊断预测模型及危险因素分析；同时为说明基于全临床指标作为预测因子构建的个体化诊断预测模型的价值更优，设计与单纯采用临床常用指标构建的模型进行比较，结果显示全指标预测模型的敏感度、准确度、Kappa值、AUC、阳性预测值、阴性预测值均优于临床常用指标预测模型。且基于全指标的诊断预测模型得出的主要预测指标的增益值高于基于临床常用指标构建诊断预测模型的主要预测指标，进一步证实了基于全指标的儿童甲型流行性感冒并发危重症肺炎的个体化诊断预测模型的价值。在应用上，基于机器学习XGBoost算法构建的儿童甲型流行性感冒并发危重症肺炎个体化诊断预测模型可对新入院的甲型流行性感冒并发肺炎患儿进行个体化诊断预测给出具体的发生危重症肺炎的概率，并可个体化挖掘该患儿的危险因素，从而针对性地指导临床及早预防治疗，实现开展精准预防治疗，最终改善疗效和预后。

综上所述，本课题组基于甲型流行性感冒并发肺炎患儿临床真实世界数据，采用机器学习技术，构建个体化诊断预测模型的应用价值较好，且可挖掘个体危险因素并进行精准预防治疗，从而改善预后，值得临床推广应用。另一方面，由基于临床全指标挖掘的高危因素可知，免疫指标总B细胞、单核细胞、辅助T细胞(CD4)与儿童甲型流行性感冒并发危重症肺炎关系密切，提示细胞免疫水平可能是是否发生危重症肺炎的关键，本课题组后续将继续开展相关研究探索并证实，一起进一步为儿童甲型流行性感冒并发危重症肺炎的治疗提供临床依据。

儿童甲型流行性感冒并发危重症肺炎的个体化诊断预测模型构建及危险因素分析

1 资 料 与 方 法

2 结 果

3 讨 论

1 资料与方法

2 结果

3 讨论