《应用GRADE方法完善干预性系统评价结果表达》文献解读

2021-03-12 09:27:44陈星霖
中国循证儿科杂志 2021年6期
关键词:置信区间级别语句

陈星霖

1 主要内容介绍

对于干预性研究开展系统评价,目的是提供综合证据的结论。为了实现这一目标,应尽可能清楚和简单地进行结果表达。既往研究表明GRADE方法的结果表达包括两个重要组成部分:一是干预措施的作用大小。体现作用大小的是危险比或差值。例如死亡人数每100人中减少5人,以绝对数值形式呈现。二是证据级别。根据指标的临床意义解读效应值的作用大小和证据级别,并采用相应的措辞进行描述,证据级别分为高、中、低和极低4个级别[1-6]。值得注意的是为了避免误导读者,在开展干预性研究的系统评价时,这两个部分的内容都应该描述。

例如一项系统评价,研究减免手术费对于提高白内障手术率的影响[7]。研究者发现接受手术的RR=1.94,95% CI:1.14~3.31。①如果仅从效应值上解读,1.94表明减免手术费可以增加94%做手术的概率,看上去是很大的作用。然而如果结合95%CI为1.14至3.31,可以看出RR的波动范围比较大。提示存在不精确的可能性,证据级别较低。②如果论文的结论中只写了手术量增加,未描述证据级别较低,那么读者可能会误解为减免手术费确实会增加手术量。如果仅采用一些措辞来描述证据级别和作用大小,例如“证据有限”、“证据不足”、“没有证据支持”或“未发现显著作用”等,也可能让读者感到困惑并存在个人理解偏差的可能性。

在既往的研究中,GRADE工作组探索了如何陈述结果的方法,制定了证据概要表和结果总结表[3, 8-10]。这些表格可以帮助并指导读者理解系统评价的结果,然而有研究发现许多作者倾向于用简短的陈述来描述结果[11, 12]。

目前,关于结果表达的指导建议仍有待完善。对于避免常见的误解,Cochrane手册中提供了一些指导建议,包括应避免描述结果为“统计学显著或不显著”;避免基于较大的P值下结论说“没有差异或没有作用”;避免基于较小的P值下结论说“有重要的作用”[1, 9]。提醒作者避免使用“无影响”或“无作用”,因为这些短语经常被错误地使用。如果描述结果时仅用效应值或一些措辞来描述,可能带来理解的偏差。

为了提供解决方案,2010年GRADE工作组基于对作用大小和证据级别分类,开发并测试了4种陈述。随后收到了反馈建议,因此促成了本次研究对于GRADE方法进行完善。本研究的目标是开发一套具有多种选项的标准化陈述,用于解释系统评价的结果并编写指导手册。证据级别是基于检验效能、置信区间的宽度和其他标准,例如研究的偏倚风险、结果的异质性、亚组分析和结果的适用范围,发表偏倚以及其他。

研究者采用研讨会和调查的形式,制定并完善了干预性系统评价的结果表达。最终得出干预性系统评价的结果描述如表1所示。

干预性系统评价的作者在使用表1描述结果时,可参考GRADE方法小组推荐的流程。第一步,作者需要计算出绝对数值和相对数值,包括效应值及其置信区间。常见的效应值有OR、HR、β和RR等。并且判断出作用大小属于哪一类。同时选择证据级别,包括高、中、低和极低这4个级别。第二步,如果作者想用文字描述来表达结果,应该根据证据级别对效应值的大小做出综合判断,最后采用对应的措辞。例如,作者首先根据绝对数值、效应值的点估计值和置信区间,判断出作用大小为“小的作用”,并且判断出证据级别为“中度”,然后选择“X很可能轻微增加Y”。

2 对于原文的6项重要内容进行解读

2.1 原则达成一致 有99%的受访者(84/85)同意应该基于效应值的作用大小和证据级别来进行结果表达[13]。另外,强调不要将大的置信区间和P值不显著解释为“没有作用”。

表1 系统评价结果表达的简明语句列表

2.2 对于作用的大小进行归类 由系统评价的作者决定效应值的作用大小属于哪一类。GRADE工作组提供了一些关于判断效应大小的指导[14-18]。在参考GRADE方法评估时,系统评价的作者需要基于阈值选出4类中的一项,包括大、中、小、微小/没有作用[19-22]。选择过程应该是透明的,可以基于对结局指标最小差异值的研究,或者基于系统评价小组的讨论或与决策者的协商。

在确定作用大小时,有两个内容至关重要。①使用绝对数值,而不是相对效应,因为相对效应往往容易引起误解。例如,老年人髋部骨折的相对效应值RR=0.84,即相对减少16%。如果基础风险是每1 000人中有20人发生髋部骨折,将RR=0.84将转化为具体人数为每1000人中有不到3人发生髋部骨折,大多数人会认为这是一个很小的影响。然而如果基础风险是每1 000人中有200人发生髋部骨折,将RR=0.84将转化为具体人数为每1 000人中有不到32人发生髋部骨折,许多人会认为这是中等到较大的作用。②需要确定结局指标的阈值或范围[18, 23]。理想情况下,由系统评价的作者确定阈值,并用阈值来评估证据级别。选择阈值的方法可以是基于单个或所有的结局指标[21],无论阈值是多少,都需要做出决定,以便使用表1进行描述。

系统评价的作者需要认识到,当决定阈值时,存在可能将较宽的置信区间(跨0或1)错误解读为“没有作用”的风险[24, 25]。例如,某治疗使生活质量评分平均增加了1.5分(95% CI:-1.2~4.2)。其中生活质量评分的范围是 1到10分(分越高越好),并且认为1分的差异是重要或中等重要的,这个1分就是阈值。点估计值表明增加了1.5分,作者将这个作用大小描述为重要或者中等重要,但不是“没有作用”。作者需要根据效应值确定作用的大小,而不是根据置信区间。另外,在评估证据级别时需要考虑置信区间的宽度。因为置信区间宽可能存在偏倚,表明证据级别较低。综上,作者使用“可能”这个词,描述为“治疗可能提高生活质量”。相比之下,如果效应值为0.3(95% CI:-1.8~2.3),这里0.3小于阈值1,作用大小可能被归类为“微小的或没有作用”,描述为“治疗可能对生活质量几乎没有影响”。

2.3 作者可以在系统评价的摘要、结果、讨论和表中使用表1的语句 经验表明,这种措辞方法不应该是自动化的程序,因为可能会导致单调的语句列表。在协作组GRADEpro的网站www.gradepro.org上面,作者选择相应的作用大小和证据级别后可以自动生成一个描述语句,这个语句是可以自行编辑的。

系统评价通常将干预措施与对照组进行比较。虽然表1中没有说明对照组是标准治疗、安慰剂或非干预组,然而当对照组是某干预措施时,需要在描述中包括对照组的具体内容。例如:与A药物相比,B药物将症状持续时间缩短了2 d(95% CI:0.5 ~3.6),这里2 d的差异是一个重要的作用。详细的描述应该是“B药比A药更能缩短症状持续时间”。

2.4 对于不确定的和极低的证据级别描述存在一定的灵活性 当应用GRADE方法时,作者为了确定证据级别,可能会对每个部分的权重进行讨论。例如,中度的证据级别可能仅仅是源于不精确性;也可能是源于小的不精确性、偏倚和异质性的组合。尽管存在这些差异,作者必须对证据级别做出选择。尽管有高、中、低和极低这4类,然而GRADE方法也认为证据级别具有连续性的特征[2]。因此,当决定证据级别时,可能在两个类别之间的阈值上,但最终不得不选择一个类别。在这些情况下选择语句时,使用者可以从边界两侧的语句中进行选择。

2.5 可以在不同类型的系统评价中使用 考虑到作用大小和证据级别的基本原则,无论是GRADE方法还是其他包括4个级别的方法,均可以适用于任何系统评价类型。诊断试验系统评价是综合敏感性和特异性的研究。其中误判的绝对数值(即假阴性和假阳性)也可以量化为大、中、小、微小/没有作用,这取决于对患者的影响。例如一篇诊断试验的系统综述发现,在1 000名宫颈癌患者中,细胞学检测比HPV检测漏诊了20多位。证据级别为中等,作用大小为小的作用。可以得出结论:“与HPV检测相比,细胞学检测可能会轻微增加宫颈癌患者的漏诊人数。”在预后评估中,这些描述可以写成“关联”。例如,年龄与髋关节骨折的研究中,证据级别为低度,作用大小为中等作用,可以得出结论:“年龄可能与髋关节骨折有关联”。

2.6 存在的争议 对于证据级别为极低时的结果描述:“X可能轻微减少/增加Y”,或“X未能影响Y,然而证据尚缺乏”的陈述在两个例子中出现,被参与调查的受访者评为不可接受的比例分别为37%和46%。目前表1中效应值的作用大小有4类,包括大、中、小、微小/没有作用。参与调查的受访者对于这个归类表示担心,认为很难确定作用大小归到哪一类。

3 启示和展望

GRADE工作组创建了一个语句列表(表1),系统评价的作者可以参考表中简明的语句指导来描述研究结果。用于向决策者(例如指南制定者)提供证据。这项工作是建立在GRADE工作组之前研究基础上的。尽管研究者尝试了示例和调查,但仍有可能没有向受访者表达清楚,从而导致一些困惑。然而,参考了包括系统评价的方法学专家、指南制定的专家和读者的建议后最终得出的语句列表的结果是一致的。

系统评价结果表达的语句列表应该在系统评价的整个文档中使用,包括摘要、总结、结果、讨论和表格中。这些语句列表也可以用于其他场景中,用于将系统评价的结果传达给决策者,事实上,这些语句列表已经被用于卫生保健指南和患者指南中总结证据[26-28]。这份语句列表最初也被翻译成西班牙语、挪威语、意大利语、法语和德语[12]。随着本篇论文的发表,也被翻译为中文。未来的工作将集中在翻译和传播工作上。

4 扩展

关于回归分析效应值的结果解读内容,可参考表2[29]。数据分析可以确定暴露因素(X)与结局变量(Y)之间是否有联系,X对Y的作用大小是多少,即得出效应测量值。不同的X和Y的数据类型,效应测量值的理解不同。

表2 效应的估计和结局变量与暴露因素的类型

GRADE方法中强调基于效应值的作用大小来进行结果表达。对于临床医护等科研工作者而言,第一步是掌握回归分析效应值的解读。而不是只看P值的显著性下结论。只有具备了解读效应测量值作用大小的基本功,才能更好的运用GRADE方法描述结果。

猜你喜欢
置信区间级别语句
定数截尾场合三参数pareto分布参数的最优置信区间
痘痘分级别,轻重不一样
基层中医药(2021年8期)2021-11-02 06:25:02
p-范分布中参数的置信区间
多个偏正态总体共同位置参数的Bootstrap置信区间
重点:语句衔接
列车定位中置信区间的确定方法
迈向UHD HDR的“水晶” 十万元级别的SIM2 CRYSTAL4 UHD
新年导购手册之两万元以下级别好物推荐
精彩语句
你是什么级别的
中学生(2017年13期)2017-06-15 12:57:48