汪瑜 朱爱满 鲁清 张靖
因骨关节炎、骨质疏松性骨折、椎管狭窄和脊柱畸形等肌肉骨骼退行性疾病发生逐年增加,脊柱手术患者数量也急剧增加[1]。其手术时间长、创伤大、术中失血多等,加之手术全身麻醉,因而术后谵妄 (postoperative delirium,POD) 发病率高达40.5%[2]。POD 无确切有效治疗方法,30%~40% 的POD 病例可预防,但 71% 的患者由于症状不典型而被临床医护忽略[3]。因此,识别和管理高危 POD 患者对于改善患者预后及临床学科建设至关重要。
激活的炎症 -免疫系统会促进机体多种有害炎症因子释放,此类细胞因子可直接或间接作用于中枢神经系统,可继发和直接损害患者神经活动和损害突触连接功能,诱导 POD[4]。因此,临床研究观察到一些术前复合全身炎症 -免疫反应标志物中性粒细胞与淋巴细胞比值 (neutrophil to lymphocyte ratio,NLR)[5]、血小板与淋巴细胞比值 (platelet to lymphocyte ratio,PLR)[6]、单核细胞与淋巴细胞比值 (monocyte to lymphocyte ratio,MLR)[7]、C-反应蛋白与白蛋白比值 (C-reactive protein to albumin ratio,CAR)[8]和白蛋白与球蛋白比值 (albumin to globulin ratio,AGR)[9]与 POD 风险相关;此外,也发现单指标血红蛋白[10]、红细胞分布宽度[11]、高密度脂蛋白比值[12]与 POD 风险相关。
基于文献检索和查阅本研究收集 8 种全身炎症 -免疫反应标志物,通过最小绝对值收敛和选择算子(least absolute value convergence and selection operators,LASSO) 算法构建一种复合炎症 -免疫反应评分 (complex inflammation-immune response score,CIIRS)。POD 风险模型通常使用常规统计方法逻辑回归 (logistic regression,LR)[13],但 POD 病因多样性及混杂性且 LR 准确度较差[14]。机器学习 (machine learning,ML) 算法以高效率、准确性和普适性等优势已广泛应用于骨折患者预后及 POD 研究中[15-17]。因此,本研究基于2019 年1 月至2022 年7 月 293例脊柱手术患者临床数据并结合 CIIRS 开发 10 种ML 模型,通过比较模型旨在获得可以显著性提高预测脊柱手术患者 POD 风险模型,从而指导临床制订个性化诊疗方案,实现 POD 的高效率管理。
1.纳入标准:(1) 年龄 >18 岁者;(2) 择期脊柱手术者;(3) 全身麻醉者。
2.排除标准:(1) 精神分裂症、癫痫、帕金森病、脑损伤或脑部手术史者;(2) 表达及听力障碍者;(3) 严重肝肾功能不全和恶性肿瘤者;(4) 血常规、生化常规等临床资料不完整者。
1.数据收集:收集患者术前临床资料,包括年龄、性别、体质量指数 (body mass index,BMI),美国麻醉医师协会 (American Society of Anesthesiologists,ASA) 评分、简易精神状态检查量表 (mini-mental state examinatio,MMSE) 评分、吸烟、深静脉血栓、病变部位 (颈椎、胸椎和腰椎)、中性粒细胞、淋巴细胞、血小板、血红蛋白、红细胞分布宽度、单核细胞、高密度脂蛋白、C-反应蛋白、白蛋白、球蛋白;同时收集手术时间和失血量。根据血液中表达水平计算 NLR、PLR、ML、CAR、血红蛋白与红细胞分布宽度 (haemoglobin and red blood cell distribution width ratio,HRR)、单核细胞与高密度脂蛋白比值 (monocyte to high-density lipoprotein cholesterol ratio,MHR) 和红细胞分布宽度与血小板比值 (red blood cell distribution width to platelet ratio,RPR)。
2.谵妄诊断:主治医师每天在病房查房时观察并记录患者谵妄症状和体征。如果怀疑 POD,则使用混淆评估方法诊断 POD,该方法包括四个标准:(1) 急性发作和波动过程;(2) 注意力不集中;(3)思维混乱;(4) 意识水平改变。当指标 (1) 和 (2)同时满足,或 (3) 与其中任何一项同时满足,或单独满足 (4),则诊断为 POD。
3.ML 模型和可视化:使用 Shuffle 函数将 293例患者原始数据顺序打乱,使用 Permutation 函数将所有数据随机分成 10 份,采用 10 种 ML 算法构建模型:LR,随机森林 (random forest,RF),支持向量机 (support vector machine,SVM),朴素贝叶斯模型 (naive Bayesian model,NB),线性判别分析(linear discriminant analysis,LDA),混合判别分析(mixture discriminant analysis,MDA),灵活判别分析 (flexible discriminant analysis,FDA),梯度增强机 (gradient boosting machine,GBM),极端梯度提升 (extreme gradient boosting,XGBoost),分类梯度提升 (category boosting,CatBoost)。通过网格搜索算法优化 ML 模型性能,避免过拟合。使用 10 倍交叉验证法验证模型。随后 293 例患者按 3∶2 比例划分训练集和测试机来训练 ML 模型。采用校准曲线、接受者操作特征曲线 (receiver operating characteristic curve,ROC)、精确-召回曲线 (precise-recall curve,PRC) 和精确-召回收益曲线 (precise-recall gain curve,PRGC) 来评估 10 种 ML 模型并计算曲线下面积 (area under curve,AUC),并使用学习曲线来验证最佳性能模型拟合度。SHAP (SHapley Additive exPlanations) 通过计算贡献值来衡量变量特征重要性,同时描述变量特征对结局变量的影响是积极的还是消极的,并被引入以解决机器学习模型的“黑盒”问题。根据 SHAP 官网 (https://github.com/slundberg/shap) 的学习指南,使用全局和局部可视化方法来解释 ML 模型的输出意义。本研究所使用的代码均可在网址 (https://github.com/MD-shan/MLSHAP) 上获得。
本研究数据采用 SPSS 22.0 和 R 3.6.1 统计学软件进行分析和处理。计数资料用率 (%) 表示,采用χ2或秩和检验。计量资料采用表示,正态分布计量资料采用独立样本t检验,非正态分布计量资料采用秩和检验。使用 glmnet 包进行 LASS 回归,使用 scikit-learn Python 库和 XGBoost 框架在 Python中建立 XGBoost 模型。SHAP Python 框架 (https://github.com/slundberg/shap) 用于 SHAP 算法。P<0.05为差异有统计学意义。
293 例患者中,59 例出现 POD (20.1%)。POD患者年龄、ASA 评分、吸烟和糖尿病比例及手术时间高于无 POD 患者,差异有统计学意义 (P<0.05)(表1)。
表1 患者一般临床资料及比较Tab.1 General clinical information and comparison of patients
POD 患者 NLR、MLR、MHR、CAR、PLR 高于无 POD 患者,差异有统计学意义 (P<0.05),HRR低于无 POD 患者,差异有统计学意义 (P<0.05)(图1)。8 种炎症反应标志物间存在不同程度的相关性,其中 NLR 和 PLR 间相关性最高 (r=0.694,P<0.001) (图2)。8 种炎症反应标志物诊断 POD 的ROC 见图3 和表2,其中 NLR 的 AUC 最高 [ AUC(95%CI):0.895 (0.855~0.928) ],RPR 的 AUC 最低[ AUC (95%CI):0.526 (0.441~0.609) ]。对 NLR、MLR、MHR、CAR、PLR 和 HRR 进行 LASSO 算法分析,在 Log (λ)=-4.598 最小值时识别出上述6 种炎症反应标志物与 POD 相关 (图4a)。同时,根据 LASSO 算法所得的回归系数构建 CIIRS=NLR水平×0.537+PLR水平×0.009+MLR水平×0.168 -HRR水平×1.548+MHR水平×0.954+CAR水平×6.166,POD 患者CIIRS 显著高于无 POD 患者 (P<0.05,图4b) 且具有较高诊断 POD [ AUC (95%CI):0.936 (0.904~0.962)] 能力 (图4c,表2)。
图1 8 种炎症反应标志在 POD 和非 POD 患者中差异分析的箱式图Fig.1 Box plot of the analysis of differences between 8 inflammatory response markers in POD and non-POD patients
图2 8 种炎症反应标志的相关性分析Fig.2 Correlation analysis of 8 inflammatory response markers
图3 8 种炎症反应标志的 ROCFig.3 ROC of 8 inflammatory response markers
图4 a:NLR、MLR、MHR、CAR、PLR 和 HRR 的 LASSO 算法分析;b:CIIRS 在 POD 和非 POD 患者中差异分析的箱式图;c:CIIRS的 ROC (CIIRS=NLR*0.537+PLR*0.009+MLR*0.168 -HRR*1.548+MHR*0.954+CAR*6.166)Fig.4 a: LASSO algorithm analysis of NLR,MLR,MHR,CAR,PLR and HRR;b: Box plots for the analysis of differences between CIIRS in POD and non-POD patients;c: ROC for CIIRS (CIIRS=NLR*0.537+PLR*0.009+MLR*0.168 -HRR*1.548+MHR*0.954+CAR*6.166)
表2 相关变量的 ROC 分析结果Tab.2 Results of ROC analysis of relevant variables
将表1 分析结果 (年龄、ASA 评分、吸烟、糖尿病和手术时间) 及 CIIRS 进行 LASSO 算法,确定年龄、吸烟、手术时间和 CIIRS 与 POD 风险相关(图5),年龄、吸烟、手术时间在诊断 POD 的 ROC见图6 和表2。基于4 个 POD 风险变量,通过 10 倍交叉验证比较 10 个 ML 模型:LR,RF,SVM,NB,LDA,MDA,FDA,GBM,XGBoost,CatBoost的 ROC (图7a),通过均值 AUC 发现 XGBoost 模型具有最高预测表现。随后将 293 例患者以 3∶2 分为训练组与测试组。首先在训练组的校准曲线 (图7b)中观察到 XGBoost 具有较高的预测准确度且 PRC(图7c)、PRGC (图7e) 和 ROC (图7f) 的 AUC 均处于最高。同时,在测试集组的校准曲线 (图8a)中观察到 XGBoost 具有较高预测准确度且 PRC(图8b)、PRGC (图8c) 和 ROC (图8d) 的 AUC 均处于最高。学习曲线 (图8e) 显示 XGBoost 模型具有良好拟合度,这进一步证明 XGBoost 模型具有更好建模效果。
图5 年龄、ASA 评分、吸烟、糖尿病和手术时间及 CIIRS 的 LASSO 算法Fig.5 LASSO algorithm for age,ASA score,smoking,diabetes and duration of surgery and CIIRS
图6 年龄、吸烟和手术时间的 ROCFig.6 ROC for age,smoking and duration of surgery
图7 a:基于测试组数据,10 种 ML 模型的 10 倍交叉验证下的均值 AUC;b~e:XGBoost 模型的校准曲线 (b)、PRC (c)、PRGC (d)和 ROC (e)Fig.7 a: Mean AUC under 10-fold cross-validation for 10 ML models based on test group data;b-e: XGBoost models for calibration curves (b),PRC (c),PRGC (d) and ROC (e)
图8 测试组的 10 种 ML 模型验证分析 a~d:基于测试组的 XGBoost 模型的校准曲线 (a)、PRC (b)、PRGC (c) 和 ROC (d);e:XGBoost 模型的学习曲线Fig.8 Validation analysis of 10 ML models for the test group a-d: Calibration curves of XGBoost models based on the test group (a),PRC (b),PRGC (c) and ROC (d);e: Learning curve of XGBoost models
通过分析 4 个关键 POD 风险变量年龄、吸烟、手术时间和 CIIRS 的 SHAP 绝对值,条形图 (图9a)显示这些变量对 POD 风险的影响程度,最高风险贡献变量为 CIIRS;此外,根据患者是否抽烟进行亚组分析,也证实最高 POD 风险贡献变量为 CIIRS(图9b)。SHAP 散点图 (图9c) 通过不同颜色展示4 个关键 POD 风险变量对预测 POD 风险的正面或负面影响,可以显著观察到 4 个关键 POD 风险变量贡献值存在“两端分离”现象,表明这些风险变量能很好地区分 POD。SHAP 全局图 (图9d) 解释 4 个关键风险对最终决定 POD 风险的贡献累积影响。接下来,通过单病例 SHAP 瀑布图 (图8e) 解释每个风险变量对 POD 预测结果的正面和负面影响及预测结果。其中,E[f(x)] 表示 XGBoost 模型的基本预测 SHAP 值,f(x) 表示模型最终预测 SHAP 值。根据计算公式,XGBoost 模型基本预测概率=1-1/[math.exp (-3.693)+1]=0.024,最终预测概率=1-1/[math.exp (-6.719)+1]=0.001,该患者实际状态为无 POD。
图9 基于 SHAP 可视化 XGBoost 模型 a:SHAP 条形图显示年龄、吸烟、手术时间和 CIIRS 对 XGBoost 模型的影响程度;b:基于患者是否抽烟的亚组分析的 SHAP 条形图显示年龄、吸烟、手术时间和 CIIRS 对 XGBoost 模型的影响程度;c:SHAP 散点图通过不同颜色展示 4 个关键 POD 风险变量对预测 POD 风险的正面或负面影响;d:SHAP 全局图解释 4 个关键风险对最终决定 POD 风险的贡献累积影响;e:来自 1 例患者数据,该患者 CIIRS 为 2.174,不吸烟,手术时间 117 min,年龄 60 岁,XGBoost 模型基本预测概率为 1-1/[math.exp (-3.693)+1]=0.024,最终预测概率=1-1/[math.exp (-6.719)+1]=0.001,该患者实际状态为无 PODFig.9 SHAP-based visualisation of the XGBoost model a: SHAP bar chart showing the extent to which age,smoking,duration of surgery and CIIRS influenced the XGBoost model;b: SHAP bar chart showing the extent to which age,smoking,duration of surgery and CIIRS influenced the XGBoost model based on subgroup analysis of smoking;c: SHAP scatter plot showing by different colours the positive or negative impact of the 4 key POD risk variables on predicting POD risk;d: SHAP global plot explaining the cumulative impact of the contribution of the 4 key risks to the final decision on POD risk;e: Data from a patient with a CIIRS of 2.174,non-smoking,117 min duration of surgery,age 60 years,and XGBoost model with a basic predicted probability of 1-1/[math.exp (-3.693)+1]=0.024,final predicted probability=1-1/[math.exp (-6.719)+1]=0.001,this patient's actual status indicated no POD
基于病因学假设,许多临床研究从炎症-免疫反应角度探索脊柱手术患者 POD 风险的生物标志物并取得不同程度的研究成果[5-12]。但这些研究结果较为分散且很难临床实践转化。为解决这些问题,本研究收集 8 种炎症-免疫反应标志物并在脊柱手术患者中全面刻画其表达模式及与脊柱手术患者 POD关联。通过 LASSO 算法构建 CIIRS (公式 NLR水平×0.537+PLR水平×0.009+MLR水平×0.168 -HRR水平×1.548+MHR水平×0.954+CAR水平×6.166);此外,CIIRS 具有极满意的预测脊柱手术患者 POD 性能(AUC:0.936);随后,LASSO 算法确定 CIIRS 独立于年龄、吸烟、手术时间预测脊柱手术患者 POD。中性粒细胞、淋巴细胞和单核细胞是血液中白细胞亚型,介导外周和中枢炎症反应,参与免疫调节和导致认知功能障碍性炎症。血小板通过调节免疫和炎症导致认知功能障碍[18]。单核细胞动员和刺激可以释放增强炎症反应的细胞因子,放大损伤性炎症反应[7]。淋巴细胞减少、儿茶酚胺和皮质醇水平升高、淋巴细胞向淋巴组织重新分布以及细胞凋亡加速,结合疾病能激活损伤性炎症反应[19]。血红蛋白下降会造成血氧合及氧输送能力下降,脑血氧饱和度降低,脑内乙酰胆碱减少,增加 POD 风险[10]。高RDW 会影响红细胞生成,增加红细胞脆性,导致破碎,也表现出促炎作用,缩短红细胞存活时间。此外,也具有促进氧化应激反应作用,产生大量活性氧自由基,引起神经元损伤和凋亡[11]。HDL-C 能够逆转胆固醇运输,防止脂质水平升高,并防止内皮功能障碍、氧化应激、炎症、血栓形成等,也能够结合 Aβ 肽并阻碍其聚集成淀粉样蛋白,降低Aβ 肽神经毒性[12]。CRP 是急性期炎症反应、感染和组织损伤的非特异性标志物,通过激活白介素-6(interleukin-6,IL-6) 诱导神经损伤[4]。血清白蛋白是反应炎症和营养状况常用标志物,具有抗炎、维持生理稳态和抗氧化活性作用[20]。上述理论背景及本研究结果强调 CIIRS 具有多层次、多维度、多功能特点的综合指标,其临床意义包括:(1) 将分散的炎症 -免疫反应标志物进行整合,从多角度揭示炎症-免疫反应与 POD 风险的关联,提高预测准确度;(2) 使用炎症 -免疫反应标志物的实际观察值,非最佳截断值来预测 POD 风险,提高临床实践转化效果。
构建风险模型是管理 POD 的一种有效解决方案。既往研究基于传统 Logistic 模型确定骨科手术患者 POD 风险变量及构建预测模型[21-22]。尽管 Logistic模型具有很好的解释性,但由于某些因素与输出变量有因果关系,可能导致统计学结果不显著;此外,逻辑回归模型准确度较低,在实际临床应用中受限[23]。因此,本研究在构建 CIIRS 及评估预 POD风险关系时,均采用 LASSO 算法,它可以解决传统Logistic 模型的多重共线性及过拟合问题;也将一部分变量系数压缩至 0,实现变量选择。ML 模型能识别数据模式并优化自身性能,比传统 Logistic 模型具有更多数学运算,更好定义风险因素和结果间复杂关系,具有极高预测准确性。本研究基于年龄、吸烟、手术时间和 CIIRS 构建 10 种 ML 模型,通过校准曲线、ROC、PRC 和 PRGC 发现 XGBoost 模型的综合诊断性能几乎接近完美。因此,选择使用XGBoost 算法构建预测脊柱手术患者 POD 风险模型以达到最佳诊断水平。然而,ML 算法存在复杂非线性关系,导致模型结果难以解释,产生“黑匣子”问题,限制模型临床应用[24]。因此,最新研究使用SHAP 通过全局和局部可视化来解释 ML 模型结果以解决“黑匣子”问题[25]。本研究的 SHAP 绝对值条形图揭示年龄、吸烟、手术时间和 CIIRS 对 POD 的风险预测具有显著积极作用;同时,也证实 CIIRS在 XGBoost 模型上分配了最大贡献值,在吸烟的亚组分析中也得到一致结果,其次的贡献值排名依次是手术时间,年龄和吸烟。SHAP 散点图可以显著观察到 4 个关键 POD 风险变量 SHAP 值存在“两端分离”现象,表明这些风险变量能很好区分 POD。本研究也通过单病例 SHAP 瀑布图解释 XGBoost 模型的预测结果。该患者 CIIRS 为 2.174,不吸烟,手术时间 117 min,年龄 60 岁,XGBoost 模型基本预测概率为 0.024,最终预测概率 0.001,该患者实际状态为无 POD。明显看出尽管 XGBoost 模型基本预测概率在诊断 POD 上具有很低值,但与训练后 XGBoost模型最终预测概率比,似乎增加 0.023 倍的 POD 诊断的假阳性率。
围术期预防策略是资源和人员密集型的,所有手术患者一般预防不符合成本效益,而且可能没有必要。一个更实在的解决方案是实现脊柱手术患者 POD 风险分层,针对高风险患者采取预防措施。本研究通过年龄、吸烟、手术时间和 CIIRS 构建了XGBoost 模型来预测脊柱手术患者 POD 风险;同时,SHAP 为预测模型提供个性化、合理解释,打破一直阻碍复杂模型发展的“黑匣子”问题,显著提高临床模型的应用价值和医护对预测模型的信心。本研究的 XGBoost 模型能确定是否可以启动更积极、更充分的预防措施,这既优化有限医疗资源,又提高患者健康水平,还可使患者避免因药物暴露引起的不良事件。如术中可以使用右美托咪定[26]或体温管理[27]来降低脊柱手术 POD 风险。
本研究也存在一定局限性。首先,本研究是回顾性设计,数据来自单中心患者,因此存在选择偏倚可能性;其次,未详细收集术前治疗药物的信息,这潜在地影响患者炎症 -反应标志物水平;最后,本研究仍然需要进行大样本、多中心的研究来更好地训练 XGBoost 模型。
综上所述,本研究全面刻画了脊柱手术患者8 种炎症 -免疫反应标志物水平并构建 CIIRS。通过比较 10 种 ML 模型建立了一种预测 POD 风险的XGBoost 模型并利用 SHAP 可视化模型,该模型是筛选脊柱手术患者高 POD 风险的重要临床工具,具有极高的预测性能。