孙悦,陈广新,于淼,郭金兴
(1. 牡丹江医学院附属红旗医院,黑龙江牡丹江 157011;2. 牡丹江医学院医学影像学院,黑龙江牡丹江 157011)
新冠肺炎自2019年12月爆发以来,严重威胁全球人类健康,其影响波及192个国家和地区[1]。2022年底世界卫生组织宣布2022年有100万人死于新冠肺炎,在具备防止死亡的所有手段的情况下,这是个“悲剧性里程碑”[2]。目前,新冠肺炎的快速诊断治疗依然是保护人民健康的重中之重,尤其是对重症、危重症患者病情的综合救治与分析。随着新冠病毒的不断变异,目前,大多数新冠肺炎患者会出现轻微至中度呼吸系统疾病,无须治疗便可康复,一些老年人以及有心血管疾病、糖尿病、慢性呼吸系统疾病和癌症等潜在疾病的人更容易发展至危重甚至死亡[3]。在新冠肺炎大流行的整个过程中,卫生保健提供者面临的主要问题之一是医疗资源短缺和有效分配医疗资源[4-8]。因此对新冠肺炎疾病风险的快速、精准预测对合理分配医疗资源与救治危重症患者具有重要的意义[9-10]。
目前,已有很多学者基于深度学习构建了新冠肺炎的疾病预测模型,但更多的模型是基于新冠肺炎图像的。基于临床诊断结构化信息的研究比较少见。本研究采用及机器学习算法建立新冠肺炎风险预测模型,有效预测新冠肺炎患者死亡风险,为临床决策提供支持。
数据集来自于Kaggle的新冠肺炎数据集。数据集包括大量的匿名信息,有1 048 576个患者样本,每条记录都有一个结局标签。数据具体情况如表1所示,结局变量为死亡事件。
表1 特征描述性统计
2.2.1 数据预处理
(1) 缺失值插补。对缺失值采用众数填补策略。
(2) 数据集平衡处理。由于临床结局变量death的标签具有不平衡性(死亡组:13 085;存活组:330 639),为了减少训练模型中产生的偏倚,对原始数据集进行了平衡处理。目前常用的平衡数据集的方法有上采样和下采样[9-15]。本研究基于SMOTE(Synthetic Minority Oversampling TEchnique)算法对原始数据进行了平衡。
(3) 数据归一化处理。本研究采用线性函数归一化方法对新的平衡的数据集进行归一化处理。归一化处理的目的是消除不同数据量纲引起的计算误差,将数据压缩在[0,1]范围内。
(4) 数据集划分。将归一化后的数据集按照7:3的比例平均划分数据集和测试集。划分后的数据集训练集为18 319例,测试集为7 851例。
(5) 特征变量筛选。由于本研究的变量较少,重要性较低的变量也会对模型的训练带来增益效果,因此在训练模型时纳入全部的特征变量。
本文研究采用GradientBoosting、lightGBM、Catboost、NeuralNet、LinearDA、LogisticRegression、SupportVectors、xgboost、Adaboost、RandomForest、NaiveBayes、DecisionTree、NearestNeighbors等13个算法模型,其中包括集成学习算法与非集成学习算法。
为提升预测模型的诊断效能,本文研究采用了网络搜索自动调参法对每一个模型进行调整参数优化模型,进一步提升模型预测准确性。
预测评估指标选用准确度(accuracy)、灵敏度与特异度ROC(Receiver Operating Characteristic)曲线及曲线下面积AUC(Area Under the Curve)、召回率(recall)、精确度(precision)、F1分数、混淆矩阵等指标对模型进行评估。
机器学习的算法模型经过训练后可以得到预测精度较高的模型,但是机器学习算法模型的可解释性较差。本文采用SHAP(SHapley Additive exPlanation)值对模型中对临床结局影响因素进行解释分析。SHAP基本的思想来源于博弈论中的Shapley value,其思想设计为:首先计算一个特征加入到模型中的边际贡献,然后计算该特征的SHAP值,即该特征所有边际贡献的均值。不同于预测模型本身的特征重要性,SHAP值计算的最大优势在于能够反映出样本每一个特征对预测的影响力,而且还可以指出其影响程度的正负性。
如表2所示,使用准确度、精确度等指标对13种模型的预测性能进行评价。评价最高的模型依次为light GBM、GradientBoosting、Catboost。上述三个模型均为集成学习算法模型,整体上看三种预测模型性能最高的为lightGBM模型,准确率达到92.05%,ROC曲线下面积为0.96,召回率0.96,精确度0.89,F1分数0.92。图1为lightGBM模型的混淆矩阵图,由图可见预测模型使用测试集预测的效果。
图1 lightGBM模型的混淆矩阵
表2 模型性能评价
3.2.1 全局可解释性分析
图2 显示了lightGBM模型的整体特征分析图,该图根据临床特征对结局的影响重要性进行了排序分析。SHAP以特征重要性为基础,在中线进行排列,中线左侧表示Shapley值为负值,即该位置样本使模型预测结果趋于阴性,中线右侧表示Shapley值为正值,即促使模型的预测结果趋于阳性。同时,每个样本以彩色表示,红色表示其特征值大,蓝色表示其特征值小[2]。结合两者便可解释样本的每个特征对于模型预测结果的影响。
图2 SHAP特征分析
根据lightGBM模型的树状图可以看到,特征重要性中,pneumonia对模型的预测结果影响最为重要。pneumonia作为最重要的特征,其特征值越小,模型预测诊断结果为阳性的倾向也越大;其特征值越大,模型预测诊断结果为阴性的倾向也越大。
3.2.2 局部可解释性分析
从局部层面对单个样本是否感染新冠病毒的影响因素进行解释性分析。图3为某一预测结果为阴性(0)的特征贡献,图3(a)为某一预测结果为阴性的特征贡献,图3(b)为某一预测结果为阳性的特征贡献,其中红色表示对预测结果有正向影响的特征,蓝色表示对预测结果有负向影响的特征[3-6]。白色箭头表示特征之间的分割线,相邻分割线之间的距离则表示所对应的特征及其特征值对预测结果的影响程度,距离越长,则影响程度越大。
图3 SHAP特征贡献
图3(a)中,该样本的预测概率f(x)为4.00,远大于整个数据集的基准值,表示用此模型预测为阳性样本的可能性很大,被预测为阳性的最大影响因素为pneumonia,其他影响因素为patient_type、Chance、age。
图3(b)中,该样本的预测概率值f(x)为-0.41,远小于整个数据集的基准值,表示用此模型预测结果(新冠肺炎)可能为阴性,被预测为阴性的最大影响因素为age,其他影响因素为Chance。
新冠肺炎疾病的智能辅助诊断对医疗精准防控与治疗具有重要的作用,精准的预测患者是否有新冠肺炎且分析新冠肺炎的关键影响因素能有效的提高医疗服务的质量与效率。本文通过构建13个机器学习预测模型,并通过超参数优化方法对比调参,进一步提高了模型的性能[8-12]。筛选出预测效能最好的模型lightGBM,并结合SHAP方法对预测模型从全局与局部两方面进行了解释性分析,综合分析了影响新冠肺炎疾病诊断结果的关键因素。
由于本文数据集来自于公开数据集,目前缺少临床数据集作为对照,下一步的工作主要是在公开数据集进行建模的迁移实验,以及考虑更加有效的模型优化方法和模型解释方法,进一步提高模型的精度、可解释新价格及其实际应用价值。