术后谵妄风险预测模型的系统评价

2022-05-25 08:30魏涛彭思意李旭英倪虹辜梦聃李金花

护士进修杂志 2022年9期

魏涛彭思意李旭英倪虹辜梦聃李金花,

(湖南省肿瘤医院 1.麻醉科 2.早期临床实验中心 3.护理部，湖南长沙 410013)

谵妄是一种常见的急性临床综合征，表现为随时间波动的意识改变和注意力不集中[1]。按其表现形式可分为安静型、躁动型和混合型，其中安静型常为临床所忽视[2]。随着认识的不断深入，有学者发现30%～50%的谵妄是可以预防的，国内外指南均指出谵妄的管理以预防为主[3]。术后谵妄(postoperative delirium，POD)是指患者在经历外科术后出现的谵妄，其发生具有明显的时间特点，一般发生在术后24～72 h[6]。2017年欧洲麻醉协会发布的术后谵妄指南将POD观察时间调整为患者麻醉苏醒期至术后120 h内[7]。术后谵妄可使住院时长延长，医疗费用明显增加，并增加围手术期短期及远期并发症的发生风险，严重影响患者及其亲属[8-10]。近期有学者针对ICU患者[4]和院内患者[5]进行了谵妄预测模型的系统评价，其纳入人群不一，不仅包含内科人群，也包含外科人群，缺乏针对性，本研究旨在全面检索国内外有关成人术后谵妄的预测模型研究，从预测模型的基本特征及构建方法、方法学质量，预测效能和模型中的预测因子等角度出发进行系统总结与比较，以期更好地为术后患者谵妄预测模型的构建及应用以及预防提供理论依据。

1 资料与方法

1.1文献检索策略计算机检索中英文数据库，检索采用主题词和自由词相结合的方式进行，从中国知网、万方数据库、维普、中国生物医学文献等数据库检索中文文献，中文检索词为(术后谵妄或术后急性脑综合征)和(预测模型或危险因素或预警模型或风险评估)；在pubmed、embase(OVID)、EBSCO (ASP)，Cochrane图书馆等数据库中检索英文文献，检索词为(postoperative or postsurgical) and(deliri* or acute brain syndrome)and (prediction model/tool OR prognostic model OR risk stratification model OR model OR predictor OR risk assessment)，检索词段限定为题目、摘要及关键词，并追溯纳入文献的参考文献，文献语种限中、英文。时间限建库至2021年6月。

1.2方法

1.2.1纳入标准 (1)研究对象为术后患者，其种族、国籍、病程及手术部位不限。(2)研究内容是术后患者谵妄预测模型的构建，具体说明了评估术后谵妄使用的工具及评估的方法，预测模型建立后进行了内部或外部验证。

1.2.2排除标准 (1)未描述模型建立过程或方法。(2)对于同一研究团队不同年份发表的相同类型的研究，排除信息不全的研究。(3)综述及动物研究等。

1.2.3资料提取文献检索完成后，由2名研究者独立完成文献筛选，通过阅读文献标题、摘要等信息，严格按照纳入与排除标准筛选文献，对有争议的文献，请第3名资深研究者做出判断。确定文献后，下载原文并全文阅读，提取相关数据，内容包括发表年份、研究对象、研究类型、谵妄评估工具、模型建立方法、模型的受试工作者曲线下面积(the area under receiver operating characteristic curve,AUC)、预测因子或变量等。

1.2.4文献偏倚风险及适用性评价采用预测模型研究的偏倚风险评价工具(prediction model risk of bias assessment tool,PROBAST)对文献的偏倚风险和适用性进行评估。该评估工具由荷兰wolff等[11]学者于2019年开发，用于评价开发、验证或更新预后或诊断的多因素预测模型。该研究工具包含两个部分：偏倚风险评价和适用性评价。前者从研究对象、预测因子、结果及统计分析4个领域进行评价，每个领域分别包含2/3/6/9个标志性问题，后者从研究对象、预测因子和结果3个领域进行评价，严格按照等级评定标准对纳入文献的偏倚风险和适用性进行评价[12]。所有纳入文献的方法学质量评价过程由两个研究者独立进行，遇有争议，由资深的第3名研究者仲裁决定。

2 结果

2.1检索结果共检索出2 462篇文献，其中中文文献658篇，英文文献1 804篇，查重后初筛2 222篇，通过阅读题目及摘要排除2 195篇文献。在阅读分析40篇文献后，20篇因未做模型验证被排除，同一研究团队在不同杂志上发表文章，排除数据较少的文章1篇[13]，本研究最终纳入文献21篇，包含英文文献15篇，中文文献6篇。

2.2纳入文献的一般情况共纳入21篇患者术后谵妄预测模型的研究，其中12篇为国外研究，9篇为国内研究,其中6篇为回顾性研究，其余15篇均为前瞻性研究。最早的预测模型发表于1994年，有14篇文献发表于近3年，4篇研究的研究对象为心脏术后患者，4篇为髋部骨折患者。在纳入的模型中，建模样本量为112～303 863，验模样本为66～202 575、2项研究进行了内部验证和外部验证，9篇仅进行了外部验证，10篇研究采用了CAM评估患者是否出现谵妄，3项研究使用了谵妄观察量表(DOS)。谵妄发生率因研究对象和病种的不同有较大变化，为5.5%～52%。共20项报告了预测模型的AUC值，其中2项研究为机器学习模型，其余11项研究的建模组AUC值在0.66～0.91，验模组AUC值为0.65～0.90。见图1。

图1 纳入21项研究的一般情况和谵妄评估方法二维码

2.3纳入模型的方法学质量评价纳入的21篇文献中，偏倚风险评价高风险的有19项研究，高风险领域主要是统计分析方面，2项研究不清楚风险等级。适用性评价方面，19项研究为低适用风险，2项风险等级不清楚，见表1。

表1 纳入21篇文献的偏倚风险和适用性评价

2.4纳入模型的建模方法在建模方法方面，21项研究中有19项采用logistic回归的方法建模，2项采用机器学习的方法建模；在预测因子赋分方法上，8项依据回归系数得出计算谵妄的发生概率的公式，7项研究采用因子赋值法，根据各因子回归系数整数化或未整数化对因子进行赋值，通过计算因子分数之和预测患者术后谵妄风险。通过计算谵妄概率的研究平均AUROC值为0.815，根据因子赋值法的研究平均AUROC值为0.688，根据机器算法的研究平均AUROC值为0.827。19项研究中，6项研究报道了风险分层的具体方法，其中3项是根据因子分数之和将谵妄发生风险分层，1项是根据专家咨询和课题小组谈论制定,见表2。

表2 纳入21篇文献的建模方法

2.5纳入模型的预测因子纳入的21项研究中，最多纳入了71个预测因子，最少纳入了2个预测因子。进一步将所有预测模型中的纳入的预测模型分为易感因素和诱发因素两大类。本次系统评价中，最为常见的术后谵妄易感因素是年龄(13个)，其次是认知功能(11个)；最为常见的诱发因素是水电解质紊乱(6个)，见表3。

续表2 纳入21篇文献的建模方法

表3 纳入21项研究的预测因子

3 讨论

本系统评价纳入的21个预测模型中，文献整体偏倚风险较高，整体适用性风险较低。15项研究建立的模型AUC>0.7。认知功能异常、年龄及内环境紊乱是模型中常用的预测因子。

3.1术后谵妄预测模型的整体偏倚风险较高预测模型的偏倚风险跟研究设计、预测因子的设定及评估、结局指标的界定及评估和统计学处理等密切相关。本系统综述纳入的21篇文献中，有19项研究偏倚风险为高风险，2项研究偏倚风险不确定，整体偏倚风险较高。

19项整体偏倚风险判定为高风险的研究中，因统计学处理领域为高偏倚风险，其他领域为低偏倚风险而整体判定为偏倚高风险的研究有14项。主要原因包括阳性事件样本量缺乏、自变量的统计学处理缺乏依据、根据单因素分析结果筛选预测因子、预测模型的性能评估缺乏评判指标。PROBAST工具中指出，对于预测模型的开发研究，每个自变量的事件数需不小于20[12]。这提示在构建临床预测模型时，可从研究设计和样本量上衡量，当采用队列研究时，总体样本量的计算方法为：n≥预测因子数量×20/阳性事件发生率，以保证有足够的阳性事件；当采用巢式病例对照研究时，保证阳性事件数至少为预测因子的20倍即可；自变量的统计学处理缺乏依据方面，主要体现在连续性变量的分类处理上缺乏依据，在未检验连续性变量是否与结局变量之间存在线性拟合的情况下对其进行分类处理[36]，且分类方法缺乏科学性，例如将人群按身高分为≥1.6 m和<1.6 m，年龄每隔10岁分一组等[21-22]；根据单因素分析结果筛选预测因子是大多数预测模型开发选用的常规做法，纳入的21项研究中，有18项的预测因子的筛选是经过单因素分析步骤，但常常会因自变量间的共线性等问题而造成有效预测因子的丢失。建议在自变量较少时，纳入全部变量，采用逐步回归的方法进行多因素logistic 回归分析；自变量较多时可采用单因素分析进行初筛，但要适当调整检验水准并结合专业选择纳入多因素分析的变量以避免漏掉重要的变量[37]。在预测模型的性能评估方面，性能评估主要包含区分度和校准度两方面[38]，大多数的研究采用了AUC来描述模型的区分度，但在校准度上，有16项研究报道，其中部分采用了Hosmer-Lemeshow(H-L)拟合优度检验量化模型校准度。有文献指出，H-L检验得到的P值并不能用来衡量校准度，推荐采用Brier得分，得分越接近0，校准度越好[39]。

其余整体偏倚性风险高的研究，除了统计学处理领域偏倚风险高以外，因回顾性研究设计类型判定为高风险的研究有6项，因术后谵妄评估周期过长而判定为高风险的有2项。其中一项为术后30 d[21]，另一项为术后6个月[25]。术后谵妄是一种短期的术后并发症，欧洲协会定为术后1星期以内[7]，国内术后3～5 d[6]，建议往后的研究对术后谵妄的界定慎重考虑。

3.2模型中预测因子的预测强度较高纳入的21项研究中，15项研究的AUC在0.7以上，由于研究对象和纳入变量的差异，各模型预测因子的数量及类型不尽相同，但存在一定的共性。认知功能损害、年龄和内环境紊乱是术后谵妄预测模型中使用较多的谵妄易感因素和诱发因素。通过分析发现，一半以上的模型使用了年龄和认知功能损害两个易感因素，由于研究对象的不同，年龄分类在不同的术后谵妄预测模型中的临界值不同，增大了研究间的异质性。内环境紊乱是术后谵妄预测模型中使用最多的诱发因素。内环境紊乱包括酸碱平衡失调、电解质紊乱如钾离子等。邢焕民等[13]研究指出，当患者出现代谢性碱中毒时会影响中枢神经系统，出现躁动、精神错乱等表现；当患者出现代谢性酸中毒时，除影响中枢神经系统外，还会造成离子失衡，出现心脏收缩乏力，使得有效循环血量减少，进而加重大脑功能障碍。因此医务人员应积极纠正患者酸碱失衡和电解质紊乱，维持患者内环境的稳态。

3.3本研究的优势与局限性

3.3.1优势 (1)系统整合了近年来发表的术后谵妄预测模型，对研究对象、预测因子、预测效能以及模型使用方法进行了较为全面的介绍，可方便研究者选取相应模型指导临床实践。(2)首次采用PROBAST工具对发表的术后谵妄预测模型进行质量评价，剖析出目前预警模型构建中存在的主要问题是统计学处理方面，可为后期研究的开展提供参考。

3.3.2局限性 (1)本研究仅纳入了中文及英文文献，可能存在一定的发表偏倚。(2)21个术后谵妄预测模型的适用人群有所不同，谵妄评估工具等方面存在异质性，预测价值会有差异[40]。本文仅对纳入的预测模型进行了定性总结，未进行定量分析，在临床应用模型时需要注意模型的适用对象。(3)虽然大多数的模型具有较好的预测效能，但模型开发过程中的统计处理领域存在问题，在临床应用前尚需进一步验证模型的稳定性。(4)部分模型开发时间较早，是否适用于当下临床实践有待进一步探究。

综上所述，本研究纳入的21个术后谵妄预测模型，整体的预测性能较好，适用性风险较低，有利于医护人员早期筛查术后谵妄的高发人群。但整体偏倚风险较高，医务人员可结合自身实际，将已有模型进行验证用于临床，也可结合PROBAST开展大样本的前瞻性队列研究，构建一个扎根于本土的术后谵妄预测模型。