陈耀龙,孙雅佳,罗旭飞,玉 炫
兰州大学 1公共卫生学院 2基础医学院循证医学中心,兰州 730000 3中国医学科学院循证评价与指南研究创新单元 兰州大学基础医学院,兰州 730000
循证医学(evidence-based medicine, EBM)的理念由加拿大学者Gordon Guyatt等于1992年在JAMA上正式提出[1],此后在全球得以迅速传播[2]。其基本定义为“决策应基于当前可得的最佳研究证据,同时结合临床经验及患者偏好与价值观”[3]。实现三者之间的动态平衡是循证医学最独特的内涵。循证实践的主要步骤包括:(1)从临床实践中提出临床问题;(2)全面检索现有的最佳研究证据;(3)评价研究证据的真实性和相关性;(4)转化应用研究结果,并结合临床经验及患者偏好解决问题;(5)评价实施效果[4]。在中国,循证医学经过近30年的发展,已成为一门重要的医学学科[5-6]。在实现上述各个环节的过程中离不开具体的方法与模型,二者相辅相成。本文将根据循证实践的各主要环节对该学科当前形成的主要方法与模型进行梳理和介绍,以期为从事循证医学研究、教学和实践的人员提供一定参考。
经验医学时代,缺乏对诊疗相关临床问题本身的聚焦和研究。临床问题相对是概括的、模糊和笼统的。循证医学提出后,临床医务人员和方法学家逐渐意识到,循证实践的起点应是与患者密切相关、具体化、结构化和可用证据回答的问题。因此,1995年Richardson等撰文提出,应对临床问题进行解构和重建。譬如在治疗领域,问题可解构为PICO,即患者或问题(Patient/Problem)、干预(Intervention)、对照(Control/Comparator)、结局(Outcome)[7-8]。诊断、预防和预后的临床问题也应参照类似的形式进行解构。针对不同的领域和专业特点,研究人员对PICO模型进行了拓展或改编,譬如针对定性研究的SPIDER(Sample, Phenomenon of Interest, Design, Evaluation, Research)模型,针对发病率和流行趋势问题的CoCoPop(Condition, Context, Population)模型和针对病因和风险问题的PEO(Population, Exposure of interest, Outcome of response)模型等[8-11]。合理的构建有助于对问题形成更清晰、更准确的理解,以及更高效地基于当前可得的证据进行回答。表1为常见的循证问题构建模型,可供读者快速查阅和参考。
表1 循证问题构建模型
如果说临床问题的PICO解构为循证实践提供了良好的起点,那么通过系统的方法对现有研究进行汇总与合成,则为回答该问题提供了最佳甚至唯一途径。系统评价的理念源于同类研究的合成(research synthesis)[12]。循证医学提出者Gordon Guyatt教授在其第三版《循证临床实践手册》中将系统评价定义为:针对具体的临床问题,采用减少偏倚的方法,检索、筛选、评价和总结原始研究[13]。1993年成立的Cochrane协作网(The Cochrane Collaboration, CC)进一步促进了系统评价的制作、更新和传播,为临床实践和决策提供了更多的可靠证据[14-15]。2011年美国医学科学院在对临床实践指南(clinical practice guideline, CPG)定义进行更新时,将系统评价作为指南制订的前提和基石[16]。
系统评价的类型和方法在过去30年间得到了进一步研究和完善。表2为以系统评价为代表的常见证据合成方法及其特点,可供读者快速查阅和参考。
表2 常见证据合成方法及其特征
系统评价为回答临床问题提供了当前可得的证据全貌,但汇总之后的证据质量及其结论可靠性如何,在循证医学产生之前,很少有机构或研究人员能够科学、完整地回答。虽然系统评价对纳入研究也采用了若干质量评价工具[譬如针对随机对照试验(rando-mized controlled trial, RCT)的偏倚风险评价工具Risk of Bias][33-35],但针对每个结局指标如何判断其证据体质量,却未提出相关标准;另一方面,学界对证据质量分级的探索,一度也停留于主要基于研究设计的范畴[36-37]。RCT以及基于RCT的系统评价证据质量相对最高,有对照的观察性研究的证据质量次之,病例系列或病例报告的证据质量最低(图1)[38]。
图1 2001年美国纽约州立大学下州医学中心证据金字塔[38,42](图片改编自https://guides.downstate.edu/c.php?g=856794&p=6831536)
2001年,牛津大学循证医学中心(Oxford Center for Evidence-based Medicine, OCEBM)提出了OCEBM证据标准(表3)[39]。该标准更为全面地考察了影响证据质量的因素,譬如研究间的同质性,以及合并效应量的可信区间等,并将分级的范围从防治领域扩大为预防、诊断、治疗、预后等。2009年工作组对其进一步优化为5个证据等级[40]。但该标准简单将证据分级与推荐强度进行对应,未考虑研究的间接性和发表性偏倚等问题。2004年,由包括世界卫生组织在内的19个国家和国际组织成立了推荐意见分级评估、制订与评价(Grading of Recommendations, Assessment, Development and Evaluations, GRADE)工作组并给出了明确的证据升降级标准(表4)[41]。在GRADE体系中,RCT的起始质量为高(A),观察性研究的起始质量为低(C),在此基础上,需考虑可能影响证据质量的5个降级因素(偏倚风险、不一致性、间接性、不精确性和发表偏倚)和3个升级因素(大效应值、剂量-反应关系和负偏倚)。推荐强度级别的划定,除证据质量外,还应充分考虑患者偏好、资源情况和利弊平衡,高质量证据不一定是强推荐,低质量证据也不一定是弱推荐。
表3 2001年牛津大学证据质量与推荐强度分级标准
表4 GRADE证据质量与推荐强度分级
使用PICO的方法解构临床问题,系统评价的方法合成证据,GRADE的方法对证据体质量进行分级,进而形成指南中的推荐意见,在某种程度上,已经完成了循证实践的前期准备工作。在以上环节中,按照国际公认的标准,充分、准确和透明地对原始研究、二次研究和指南进行报告和发表,既是循证实践之前的必要工作,也是判断证据和指南质量的关键所在。因此,研究报告规范在循证医学方法学体系中发挥着极其重要的作用。报告规范是基于一定的标准和要求,格式化呈现研究内容的一种指导原则。通过实施报告规范,能够让读者、研究者和使用者更好地理解、评价和应用该研究的内容和结论[43]。截至目前,被EQUATOR(Enhancing the QUAlity and Transpa-rency Of health Research)协作网(https://www.equator-network.org/)收录的研究报告规范已有近550份,涵盖动物研究、观察性研究、RCT、诊断及预后研究、经济学研究、系统评价和指南等多种研究类型。其中影响力最大的是RCT报告规范CONSORT(Consoli-dated Standards of Reporting Trials)声明,其首次发表于1996年,并分别于2001年和2010年进行了更新[44-46]。目前CONSORT的扩展版有18个,涵盖不同的研究类型(如随机交叉试验、群组RCT)和不同的干预措施(如非药物干预、针刺)等[47-50]。CONSORT被列为20世纪最重要的医学研究进展之一,得到国际医学期刊编辑委员会(International Committee of Medical Journal Editors, ICMJE)和世界医学编辑协会(World Association of Medical Editors, WAME)的支持,以及超过600家国际生物医学期刊的认可,并列入稿约[51]。表5为常见的医学研究报告规范及其特点,可供读者快速查阅和参考。
表5 EQUATOR协作网主页推荐的医学研究报告规范及其基本信息
以上4个领域的方法学主要聚焦证据的生产、合成、评价和报告,由加拿大学者Brain Haynes教授提出的“5S”证据模型(图2),则为如何高效使用证据提供了理论和方法学指导[52]。“5S”模型之所以成为循证医学最重要的理论之一,因其明确提出循证医学的实践者并不需要从浩如烟海的传统医学数据库中寻找答案,而是首先要建立起一种检索思维,即当有更高质量、已经被总结和评价过的证据存在时,应先去选择和应用此类证据,当期不可得时,再转向下一级,就如同剥洋葱一般。该模型于2009年更新为“6S”,即在原始研究(Single Studies)与证据合成(Syntheses)之间增添了原始研究摘要(Synopses of Single Studies)[53-54]。
图2 “5S”证据模型
利用证据模型开展循证实践时亦需注意,虽然该模型最顶端的证据最好用,但数量相对也最少。此外,无论是哪个层级的“S”,均需再次评估其质量(除非已被评价过)。证据资源模型并未明确纳入临床实践指南,而临床实践指南恰恰是临床医师最常用和最重要的决策依据。2021年成立的STAR(Scien-tific, Transparent and Applicable Rankings tool for Guide-lines)工作组主导研发的临床实践指南评级数据库(https://www.star-guidelines.cn/index),对收录指南进行了综合评分和排序,使用者可根据得分和质量选择最佳指南在临床中使用,对上述问题进行了有效补充和完善[55-56]。
在整个循证实践过程中,将证据不同的环节(生产、合成、评价和转化)有机进行连接,让相关人员彼此合作,以及通过结构化的数据和相关的方法学将其整合为一个生态系统,完成自我循环和发展,是循证医学近10年来方法学领域关注的热点和焦点。2009年成立的MAGIC(making GRADE the irresistible choice)组织,以GRADE为核心,借助循证医学的相关方法和技术,提出了证据生态系统(evidence ecosystem)的理论框架,致力于应对证据生产和临床实践的脱节,消除研究者之间的壁垒,促进证据的流动和更新[57]。在此基础上,加拿大学者Holger Schünemann等进一步提出了卫生决策中的生态系统模型,以期将以上理念和方法应用于公共卫生和卫生系统领域[58]。无论是证据还是卫生决策的生态系统,均是为了更好地解决和应对当前循证研究和实践过程中,由于各环节和部分之间的割裂对研究和医疗资源的浪费带来的挑战。
循证医学的理念和方法正在不断影响和改变医疗卫生乃至社会科学的实践[59-60]。结构化问题模型、证据合成方法、证据质量和推荐强度分级方法、研究报告规范、证据转化与应用模型以及证据生态系统相互独立但又密切相关,共同组成了循证医学的理论体系。尽管已经获得了丰硕成果,新兴研究领域和方法(如大数据、人工智能等)的出现对循证医学未来的发展带来挑战的同时,也提供了不断革新的动力。循证医学的理论将持续汲取不同学科方法论的优点,在应用过程中不断更新和完善。
作者贡献:孙雅佳负责资料搜集、整理分析及论文初稿撰写;罗旭飞和玉炫负责资料补充及论文修订;陈耀龙负责论文选题、结构设计、团队组建、质量控制及论文审校。
利益冲突:所有作者均声明不存在利益冲突