临床实践指南制订方法
--GRADE方法理论篇

2018-02-14 07:19邓通汪洋黄笛曾宪涛靳英辉任学群王行环

中国循证心血管医学杂志 2018年12期

邓通，汪洋，黄笛，曾宪涛，靳英辉，任学群，王行环

临床实践指南是缩小当前最佳证据与临床实践间差距的临床决策工具[1]。目前制订临床指南已经成为国际热点，各国的医学团体、政府机构及其它组织都在积极制订各种疾病诊治指南。而基于循证医学方法制订临床实践指南在我国也得到了逐步开展和重视[2]，循证指南最关键的三个要素是全面收集现有研究证据，对收集到的证据进行质量评价并根据质量评价结果对推荐意见进行分级[3]。在多个证据评价和推荐强度分级标准中，GRADE（The Grading of Recommendations Assessment，Development and Evaluation）分级方法[4]受到国内外学者最广泛的认可，它突破了单从研究设计角度考虑证据质量的局限性，在对推荐建议分级时将证据质量和其它因素（如患者选择、资源可利用性等）进行综合考虑。GRADE方法是由GRADE工作组于2004年推出的证据质量和推荐强度分级方法[5]。目前WHO和Cochrane协作网在内的多个国际组织、协会已采纳GRADE分级方法。在本系列文章共纳入指南制订手册36部，其中英国国家卫生与服务优化研究所（NICE）、欧洲人类生殖与胚胎学会（ESHRE）、中华医学会等19部指南制订手册推荐采用GRADE分级方法，另有4部采用根据GRADE改编的版本[6]。在接下来若干篇文章中将会详细介绍与GRADE方法有关的概念、实践和工具。

1 GRADE方法的基本概念

GRADE方法不仅是一个评级方法，它提供了一个透明和结构化的过程，用于制订卫生保健领域的系统评价和指南的证据摘要，以及执行制订建议所涉及的步骤。GRADE方法详细说明了一种构建问题的方法，选择感兴趣的结局指标并评估其重要性，评价证据，将证据与患者和社会两者的价值观和偏好结合，以形成最终推荐意见，还为临床医生和患者在临床实践中使用推荐意见，以及为决策者制订卫生政策时应用该系统提供了指导[7]。

1.1 GRADE方法的优势与目前存在的其他证据分类分级标准相比，GRADE方法具有以下优势：①它由一个具有广泛代表性的国际指南制订小组制订；②明确界定了证据质量和推荐强度；③清楚评价了不同治疗方案的重要结局；④对不同级别证据的升级与降级有明确、综合的标准；⑤从证据评级到推荐意见强度全过程透明；⑥明确承认患者价值观和意愿；⑦就推荐意见的强弱，分别从临床医生、患者、政策制订者角度做出了明确实用的诠释；⑧适用于制作系统评价、卫生技术评估及指南开发。GRADE方法制订推荐意见的原理见图1[8]。

图1 形成推荐的GRADE过程原理图

1.2 GRADE方法对证据质量和推荐强度的定义与分级GRADE方法为系统评价和指南提供了一个证据质量评价的体系，同时为指南推荐强度评级提供了一种系统方法[8]。“证据质量”在指南中被定义为在多大程度上确信效应估计值支持作出推荐，“推荐强度”为在多大程度上确信干预效果利大于弊或弊大于利[9]。最后将每一结局相对应的证据质量评定为“高、中、低和极低”四个等级具体（表1）。GRADE方法将推荐强度分为“强推荐和弱推荐”两个等级具体（表2）。在使用GRADE方法时，指南小组用“强推荐”表示他们确信相关的干预措施利大于弊。用“弱推荐”表示干预措施有可能利大于弊，但他们把握不大。对于不同的决策者，推荐强度也有不同含义（框1）。

1.3 GRADE方法中影响证据质量和推荐强度的因素

1.3.1 影响证据质量的因素GRADE方法对证据质量进行分级的方法始于研究设计，它将随机对照试验定为高质量证据，观察性研究定为低质量证据，然后列出5个可能降低证据质量的因素及3个可能提高证据质量的因素（框2）。

1.3.2 影响推荐强度的因素推荐强度反映了指南专家组在多大程度上确信干预的理想效果超过了针对该推荐意图的患者范围内的不良反应，反之亦然[10]。而决定推荐强度共有四个关键因素，分别是利弊平衡，证据质量，价值观和意愿以及成本（表3）[11]。

2 GRADE方法在各种研究领域中的应用

目前GRADE方法已被广泛传播，出现在各个研究领域。最开始GRADE方法最成熟的应用领域是干预性和观察性研究的系统评价和治疗性临床实践指南，GRADEpro软件也是针对干预性研究而开发的。但现在GRADE方法在诊断性研究系统评价和诊断性临床实践指南中的应用也已经得到了长足发展[12]。国内外学者对GRADE方法在病因研究[13]、预后研究[14]、成本-效果研究[15]、动物实验系统评价[16]、网状Meta分析[17]和护理[18]等领域的应用也展开了积极的探索。

3 GRADE方法的分级工具

表1 GRADE证据质量分级详情表

表2 GRADE证据推荐强度的详情表

3.1 GRADEpro简介GRADE工作组推出了一款简易、透明的软件GRADEprofiler（GRADEpro），极大方便了GRADE系统方法学的普及与应用[19]。近10年来，GRADE方法学得到了广泛推广与应用[20]，在证据分级和指南制订过程中发挥了重要作用。GRADEpro适用于随机对照试验、非随机对照试验和其他类型观察性研究的证据体的质量评价，主要针对干预性证据的质量分级。GRADEpro最初研发是为Cochrane系统评价(CDSR)创建结果总结表（SoF），它还能创建GRADE证据概要表（GRADE evidence profile，EP）和评价概观表（Overview of Reviews table，OoR）。现在，随着GRADE系统的广泛推广，GRADEpro也用于非Cochrane系统评价中[19]。

框1 GRADE中推荐强度的含义

3.2 GDT简介为适应计算机网络的飞速发展，使GRADE系统证据分级及推荐强度方法学更加便捷地推广和使用，GRADE工作组于2013年正式推出了一款在线工具Guideline Development Tool（GRADEpro GDT）——“循证实践指南研发工具”，希望通过GDT致力于将干预和诊断类实践指南制订过程中的重要数据和流程进行整合，更方便研究者使用[20]。目前该在线工具已经过数次更新，其在整体页面风格，研究问题及相关结局指标的录入、导出与结果展示，利益冲突的管理，从证据到推荐的相关文件表格的产生，结果的在线共享与传播等方面均进行了更新。更新后的GRADEpro GDT在线工具更智能化和透明化，完善了证据质量分级及循证实践指南制订过程，促进了指南制订的科学化和体系化。

4 GRADE方法中证据的呈现形式——证据概要表和结果总结表

临床实践指南和严格基于证据报告的卫生技术评估的关键一步都是证据总结，即对每一结局的质量分级及效应量估计。GRADE工作组已开发出一套专门方法来呈现可得证据的质量、与质量评级有关的判断及备选方案对所关注结局的影响。现在我们将总结这些方法，并称这些方法为GRADE证据概要表和结果总结表。

框2 影响证据质量的因素

表3 推荐强度的决定因素

证据概要表（表4）除有结果总结表的内容外还包含了详细的质量评价，即除有对每个结局的结果总结外，还包含了对决定证据质量的每个因素的清晰评价。结果总结表（表5）包含了对每个结局的证据质量评价，但没有该评价所依托的详细评判信息[7]。

表4 内镜下与腹腔镜下对于阑尾炎治疗效果的证据概要表

表5 内镜下与腹腔镜下对于阑尾炎治疗效果的结果总结表

5 GRADE方法中的常呈现的效应指标——相对效应指标和绝对效应指标

5.1 相对效应指标常用相对效应指标在二分类变量中有相对危险度（RR）、比值比（OR），相对危险度减少值（RRR）和危险比（HR）其95%的可信区间（CI）。在连续性变量中有标准化均数差（SMD）。

（1）OR即比值比或优势比，是测量疾病与暴露联系强度的一个重要指标。是某组中某事件的比值与另一组内该事件的比值之比。OR=1表示比较组间没有差异。当研究结局为不利事件时，OR＜1表示暴露可能会降低结局风险[21]。

（2）RR是rate ratio或risk ratio或relative risk的缩写，国内翻译为“相对危险度”，其意义为两组的事件率之比。RR是反映暴露（干预）与事件关联强度的最有用的指标。RR=1表示比较组间没有差异。当研究结局为不利事件时，RR＜1表示干预可降低结局风险[21]（表4～5）。

（3）RRR反映了某试验因素使某结果的发生率增加或减少的相对量，但该指标无法衡量发生率增减的绝对量。

（4）HR即危险比，最适合时间事件数据分析的方法是通过危险比来表示干预效应的生存分析。Hazard和Risk在概念上相似，微小的差别在于Hazard表述的是瞬时风险而且可能随时间不断变化。HR的解释也与RR类似。时间事件数据的Meta分析通常需有单个患者数据（IPD）才可进行[21]。

（5）SMD即标准化均数差，为两组估计均数差值除以平均标准差而得。由于消除了量纲的影响，因而结果可以被合并。

5.2 绝对效应指标常用的绝对效应指标在二分类变量中有危险差（RD），绝对危险度降低（ARR），以及需要治疗的病例数（NNT）。在连续性变量中有加权均数差（WMD）。

（1）RD即危险差，也被称为归因危险度（AR）是指干预（暴露）组和对照组结局事件发生概率的绝对差值，其大小可反映试验效应的大小。

（2）ARR和RD一样是指干预（暴露）组和对照组结局事件发生概率的绝对差值。

（3）NNT是绝对危险度的倒数，即NNT=1/ARR，是指要使一个患者从治疗中得益所需要治疗的患者总数，NNT作为一种国际公认的疗效评价指标，其意义表达准确，直观易懂，在临床疗效评价中逐渐被推广应用。

（4）WMD即加权均数差，在有些文章中的缩写直接使用MD，用于Meta分析中所有研究具有相同连续性结局变量（如体重）和测量单位时（表4）。

5.3 效应指标相互关系相对指标（RR，OR，SMD）不受基线风险的影响，具有较好的一致性。但某些情况下相对指标并不能反映关注事件的真实风险情况，容易夸大效应。例某研究试验组某不良事件的发生率为0.05%, 对照组为0.005%，此时RR=10，但绝对风险差RD仅0.045%。若专业上认为0.05%的不良事件发生率是可以被接受的，或RD为0.045%可以接受，则此时单独报告RR=10会让人不能接受该干预措施导致的风险，因为RR=10意味着非常强的联系。对于普通医生和患者而言，他们希望获得定量而非仅仅是定性结果。而绝对效应与相对效应相比能够直观的反应两组差异，更易被临床医生和患者理解，所以制作指南时强调绝对效应或者绝对效应与相对效应相结合。如果主要结局为二分类变量，则应同时报告相对效应（风险比或比值比）和绝对效应（风险差），而单独使用相对指标或绝对指标无法对效应及其影响进行完整描述。对连续性变量而言，WMD比SMD更容易解释。由于SMD被标准化而无量纲，因而难于从专业上对其结果进行解释[21,22]。

当出现二分类变量时通常会通过相对效应计算出绝对效应来呈现结果。RR计算绝对效应（每1000人）= 1000×| CER×（1-RR）|，CER=对照组中具有事件的人数÷对照组中的总人数。例：表4和表5的RR为0.31（95%CI：0.13～0.77），CER为7.1%。因此绝对效应=1000×0.071×（1-0.31）=每1000少49。OR的绝对效应的计算需要将OR转换为RR，然后如上计算相应的风险，然后如上计算相应的风险，。HR的绝对效应的计算也需要转换为RR再计算，。