石学银 徐丰瀛
风险分层是临床上各学科普遍采用的思维模式和策略,常用的分层工具有格拉斯哥(Glasgow)昏迷评分、高血压分级与危险分层、心肌梗死溶栓疗法(thrombolysis in myocardial infarction,TIMI)危险评分等,这些评分结果与患者的预后显著相关,具有重要的预测价值。围术期风险分层评估工具(peri-operative risk stratification and assessment tools)是用于预测围术期死亡率或并发症发生率的评分系统。准确的风险评估是围术期医疗行为的重要组成部分,有助于外科团队进行临床决策和治疗规划,也有助于医患沟通。正确地使用风险分层工具大有裨益,但临床上除了最常使用的ASA分级,其他风险分层评估工具的使用不多,这可能源于对风险分层工具的不熟悉,或是对工具的复杂程度和准确性还存有疑虑。在围术期的实践和研究过程中,产生了数以百计的风险分层评估工具,本文对这些评估工具的构建方法、分类和临床使用逐一梳理。由于篇幅所限,只从宏观上进行阐述,不展开描述每个评估工具的危险因素、结局指标、准确度等,读者可回溯相关文献。
1948年,一个划时代的研究——弗雷明汉心脏研究(Framingham heart study,FHS)在美国小镇弗雷明汉(Framingham)正式开始。在随后的70多年内,FHS在心血管疾病方面的研究取得了丰硕的成果,在发现大量与疾病发生、发展有因果关系和实用价值指标的基础上,首次提出慢性疾病“危险因素(risk factor)”的概念,成为心血管和流行病学领域里程碑式的研究[1]。
FHS就冠状动脉性心脏病提出风险预测评分工具(1976年)[2]、10年风险评分工具(1998年)[3]和30年风险预测计算工具(2009年)[4],内容可参考FHS官方网站(www.framinghamheartstudy.org),其为风险分层评估工具开发研究的范本[5]。
风险分层评估工具的构建通常基于队列研究产生的多变量回归模型(最常见的是logistic回归和Cox回归模型),以下公式即logistic回归模型。
该公式中P为结局,是阳性的概率,X1、X2至Xm为m个自变量。回归模型中的危险因素多为连续变量,如年龄、血压值等;加上公式中存在以自然数e为底的指数,导致风险的计算过于复杂,不适合在床旁或者术前使用。风险分层则按照临床意义将各个危险因素进行分组,通过该危险因素的回归系数与分组情况设置分组权重,按每个个体对应的“危险因素谱(risk profile)”累计总分,以总分来评估相对应的风险,从而达到风险分层的目的。见表1。
表1 风险分层评估工具结构示意
分层工具与最初的回归模型相比,最大的优势为临床操作更加简单易用,方便计算和制作为辅助工具,这也是其设计的初衷。
理论上,模型的准确程度和简洁性是相悖的,风险分层工具亦然。准确的模型需要纳入较多的自变量,而纳入的变量数量超过一定的程度,在实际使用中就不可避免地显得繁琐,不利于应用和推广。因此,一个理想的风险分层工具应该优化其纳入的危险因素数量,以平衡其准确程度和简洁性。
目前,文献中报道的多数分层工具只经过单个研究的验证,准确度和外推能力(推广至不同人种、患有不同基础疾病的人群、不同的手术类型)受限。经过多个研究证实的风险分层工具包括ASA分级、急性生理与慢性健康评分(APACHE Ⅱ)、死亡率和并发症发生率的生理学和手术严重度评分系统(physiological and operative severity score for the enumeration of mortality and morbidity,POSSUM)评分及其改良版、外科风险量表(surgical risk scale, SRS)、外科Apgar评分、Charlson指数、Donati评分等。笔者认为,成熟的分层评估工具需要经过不同研究的验证,才能被临床接受和使用。
SRS由4分类的手术紧急程度、ASA分级和5分类的手术大小分级三部分组成[6],其最大的优点在于简洁性,所选取的变量数量少且常用,从每一个手术患者身上都能够方便地获取,并且各指标术前均能明确,可用于术前风险预估和临床决策。有两项研究[7-8]证实,SRS的预测性能较好[受试者工作特征曲线下面积(AUROC)>0.8]。
POSSUM评分及其改良版是不同类型的手术人群中使用和研究最多的分层工具。POSSUM评分纳入了12个生理相关指标和6个手术相关指标,可以预测大部分外科手术术后30 d内的并发症发生率和病死率[9]。国内外大量的研究对此进行了验证,认为其准确度较高。
部分学者认为,POSSUM评分过高估计了低危人群的术后死亡率,而低危人群占了手术患者的绝大部分,因此出现了POSSUM评分的改良版本,朴次茅斯(Portsmouth)POSSUM(P-POSSUM)改进了原POSSUM评分的系数[10],而生物化学与血液学指标系统(biochemistry and hematology outcome model, BHOM)则去除了POSSUM评分中的主观指标[11]。POSSUM和P-POSSUM评分被认为是在各个手术亚群中均较为准确的评估工具。
有些风险分层工具从设计之初就为了适应特定的手术种类,并未经其他人群验证,故不适合用于其他术种的风险预测。在这些工具中比较常见的是用于心脏手术和普通外科手术风险评估的工具。
欧洲心脏手术风险评估系统(EuroSCORE)于1995年建立,1999年发表[12]。EuroSCORE在上千例心脏手术患者中得到验证,被认为是比较稳定可靠的心脏手术风险预测模型。但在不同的研究中,EuroSCORE预测值与实际情况的一致性差异比较大,可能会高估死亡率。这很可能是因为随着时间的推移,外科和围术期治疗的进步使得心脏手术患者的预后明显改善。而且,依据20世纪90年代数据开发的系统已经不适用于现在的人群。因此,EuroSCORE工作组在2011年公布了最新的研究结果,从新的数据中推算出了更新的模型,称为EuroSCORE Ⅱ[13]。
生理能力与手术侵袭度评分系统(estimation of physiologic ability and surgical stress, E-PASS),是一种用于普外科手术风险评估的工具,由术前风险评分(preoperative risk score,PRS)、外科侵袭度评分(surgical stress score,SSS),以及由PRS和SSS计算得到的综合风险评分(comprehensive risk score,CRS)构成[14]。国内外已有多个研究评估了E-PASS在普外科手术中的应用效果。
以APACHE Ⅱ评分[15]、Charlson指数[16]等为代表的工具最初并非是为手术患者风险评估而开发的。APACHE Ⅱ评分最初被设计用于预测重症患者住院治疗期间死亡率,其包括12项生理指标和慢性健康状况的评估。已经有多项研究将APACHE Ⅱ评分用于手术患者术后30 d预后的预测,有较高的AUROC。
Charlson指数最初用于预测慢性病患者10年内的死亡率,后被用于术后短期内风险的评估。虽然相关研究数量相对较少,但笔者依然推荐将Charlson指数用来预测患者术后远期预后。
有些风险分层工具的关注点并非术后死亡率,而是围术期的心脏事件风险、患者的体能营养状况等。临床医师较为熟悉的这类工具包括心脏评估的Goldman心脏风险指数和在此基础上改进的Detsky心脏指数、Lee心脏风险指数等,均已有几十年的应用历史。术前心脏评估,尤其是心脏病患者非心脏手术术前评估的各类指南、流程均比较成熟,这些心脏风险评估工具可以在其中起辅助作用,在此不作详述,可参考相关书籍与文献。
分层评估工具除用于风险预测外,还可以用于检测与提高外科手术质量。通过比较校正后的术后30 d风险,可以横向和纵向比较医疗机构和手术团队的医疗质量。在这方面最成功的属美国外科医师协会的国家外科治疗质量提高计划(ACS-NSQIP)。ACS-NSQIP在加入该计划的每个中心进驻1名观察员,采集围术期指标,包括术前危险因素、术中指标、术后30 d内的死亡率和并发症发生率等。在此基础上运用统计学处理风险校正的术后30 d内死亡率和并发症发生率,不但可以构建不同术种的风险评估模型,还可以用于不同机构之间的医疗质量比较。此外,ACS-NSQIP获得的大样本数据还可以帮助规模实力较小的医院采取适当的措施改进外科质量。
风险分层评估工具可以为临床实践和研究带来许多助力,但也应正视工具存在的一些缺点。
在模型的准确程度方面,多数研究是以死亡率作为终点指标的,除了这个最关键的指标外,还有并发症,而并发症发生率的预测通常不够准确。这是由于无法准确地定义并发症导致的。定义得太过仔细,瞄准某一个具体的并发症将导致需要太多个模型才能涵盖常见的并发症;而定义得太宽泛则导致预测的结果变异极大。此外,回归模型(如常用的多元回归、logistic回归)都可以计算预测值的可信区间,即区间估计,而风险分层模型为了追求计算的便捷,只会给出预测值的点估计,本身即是不够准确的。在考虑模型的准确度和应用价值方面,这两点需要考虑在内。
另外,随着时代的发展、技术的进步和人口老龄化引起的基础疾病增多,可能导致现在的患者和几十年前产生原始模型的研究队列差异扩大,原来的模型参数可能需要调整才能适用,就如同前述的EuroSCORE评分。而这项工作很可能没有团队着手去做,用一个过时的模型来辅助现代的临床实践,可能犹如刻舟求剑的故事一般。
最后,在实际使用中,许多围术期风险分层评估工具所纳入的指标并不完全是术前指标,因此无法在术前形成有关患者预后的估计。
工具的智能化问题。这几年“人工智能”在医学影像、辅助诊断方面都取得了长足的进步,风险评估工具也是智能化发展前景非常可观的研究领域。利用大数据、机器学习、神经网络等技术手段有可能会重新定义风险评估的方式,出现更加智能化的模型构建方法。
工具的数字化问题。客观上回归模型比基于模型转换而来的分层工具更加准确,但其使用不够便捷。然而,在现代计算设备非常普及的情况下,直接使用模型而非分层工具进行预测是完全可以实现的。如上海交通大学医学院附属新华医院将风险分层系统与手术麻醉电子病历系统整合,风险评估模型无需手工进行计算,在这种工作模式下,可以使用内置回归模型的方式来代替分层系统。笔者团队正在进行整合常用风险评估工具的电子化系统工作。
工具的评价问题。正如前述,一个准确、简洁的分层工具才能起到辅助医师进行临床决策和沟通的作用,目前研究报道的多数分层工具验证工作还不够,还需要更多的研究来评估其在临床实践中的准确性,尤其是在不同的人群、术种中的效能,并根据验证的情况对模型进行修正。可喜的是,在积累了大量的风险分层评估工具后,近几年已开始对风险分层评估工具进行回顾性研究和系统评价。
围术期风险评估是高质量外科治疗的基石之一,准确的评估能够引导围术期团队制订医疗计划,也是手术团队和机构之间质量控制的基础。研究文献中报道了大量的围术期风险分层和评估工具,本文简述了分层工具的构建、种类、实际应用中的注意事项,建议围术期医疗参与者注意鉴别工具的优劣,并在临床工作中使用经过研究验证后的评估工具。