《如何使用 ROBINS-I 和其他非随机研究偏倚风险评估工具对证据体的质量进行评级》文献解读

2021-03-12 09:27:36金雪娟王吉耀
中国循证儿科杂志 2021年6期
关键词:评级证据维度

金雪娟 王吉耀

RCT是评价干预措施效果最可靠的研究设计。然而,由于伦理学和可行性等原因,RCT有时难以开展,此时“非随机干预性研究(NRS)”可以作为RCT的有效补充。但是,在NRS设计中,由于干预措施的分配是非随机的,研究结果非常容易受到各种潜在的偏倚和混杂因素的影响,进而影响到研究结论的内部真实性。因此,相对于RCT而言,对NRS进行综合、全面、客观的偏倚风险评估尤为重要,也更为复杂。

尽管 GRADE 已经成为证据质量分级和制定推荐方面全世界使用最广泛的工具,但是 GRADE 对所有来自 NRS 的结果初始评级都为“低”,这给一些 GRADE 使用者带来了困扰。对于NRS偏倚风险的评价,ROBINS-I应该是一个更合适的评价工具。

1 主要内容介绍

1.1 GRADE“证据体”质量的评级 在GRADE中,把研究划分为随机对照试验(RCT)和观察性研究两大类,其中观察性研究包括非随机试验、队列研究、病例对照研究、中断时间序列、横断面研究、病例系列、病例报告和其他类型的非随机研究。在ROBINS-I中,用术语NRS替代GRADE中的“观察性研究”。

GRADE分级系统是对一组证据(通常是几项或多项研究,称为“证据体”)进行评级,首先对纳入的研究进行二分类:①随机试验,证据质量初设为“高”;②NRS,证据质量初设为“低”。然后,考虑5个降级因素和3个升级因素,最后证据质量分为高、中、低、极低4个等级。

1.2 ROBINS-I对单个NRS偏倚风险的评级 ROBINS-I 由大量经验丰富的研究人员历经数年精心开发,与Cochrane的RCT偏倚风险评估工具(tool for assessing risk of bias in randomized trial, RoB)相似,是Cochrane 手册推荐的NRS偏倚风险评估首选工具。

ROBINS-I 有7个评价维度:干预前有混杂偏倚和研究对象选择偏倚2个维度,干预中有干预措施分类偏倚维度,干预后有实施偏倚(由于偏离了预期干预导致的偏倚)、失访偏倚(由于结局数据缺失导致的偏倚)、结局测量偏倚和报告偏倚4个维度。干预后4个维度与RCT偏倚风险评估工具(RoB)重叠。每个维度都有一系列信号问题,以混杂偏倚为例,有8个问题,对每个问题进行“是”、“可能是”、“可能否”、“否”以及“不清楚”的回答,最后综合判断这一维度的风险等级:低、中、高、极高和不清楚。以此类推,得出所有7个维度的风险等级。最终再根据每个维度的风险等级,参考风险评价标准,综合判断得出整个研究的风险等级。ROBINS-I工具的详细操作流程与方法见图1,读者可以参阅参考文献[1],该报告有详细的ROBINS-I评估实例。

1.3 GRADE 证据评级中使用ROBINS-I 评估NRS偏倚风险 与GRADE不同,ROBINS-I没有根据研究类型对证据质量定初始等级,而是采用量表来评估 NRS 的偏倚风险。GRADE与ROBINS-I 对随机化是防止混杂偏倚唯一安全的方法观点是一致的。事实上在绝大多数情况下,GRADE和ROBINS-I对证据的评级最终结果也是一致的。表1汇总了传统GRADE方法和在GRADE基础上应用ROBINS-I 证据体质量评级的异同点。图2展示了 GRADE背景下,使用不同的工具用于处理RCT和NRS两种研究类型的证据,进行跨研究评估偏倚风险,以及如何在可能的情况下进行整合。

图1 ROBINS-I偏倚风险评估操作流程示意图

1.3.1 GRADE 的使用者可能会不恰当地重复计算混杂和选择偏倚的风险 比如,NRS初始证据级别定为“低”,然后在考虑降级因素时,又再次对未知混杂因素进行降级。应用ROBINS-I工具,则可以避免此类情况的发生。

1.3.2 在某些临床研究领域,RCT不可行或因为伦理难以实施,只能利用NRS来评价干预措施的效果 虽然GRADE强调当发现有大的效应量、剂量-效应关系或者可能的混杂偏倚削弱了研究效应量的情况下,可以把NRS证据等级从“低” 调到“中或高”,现实情况是,在没有RCT研究发表的领域,NRS 很少被评为高质量证据。那么,假设在某个领域,RCT既不符合伦理也不可行,是否可以接受可能存在混杂偏倚的 NRS 作为最高证据质量的参考标准呢?答案是否定的[2],因为这可能会延伸出双重标准问题。例如,如果因为RCT既不符合伦理也不可行,所以接受可能存在混杂偏倚的 NRS 作为最高证据质量的参考标准;那么如果在另一个领域,RCT是可行的且合乎伦理的,但是这个领域也没有RCT发表,只有NRS 借鉴,这时NRS的证据等级为低。换言之,程度相同的偏倚最后评估的证据质量等级不同,这是不合逻辑的。事实上,在大多数卫生保健领域,一些干预措施得到 RCT 证据的支持,而另一些则没有,都需要一个共同的参考标准。

1.3.3 在绝大多数情况下,GRADE把NRS研究的证据评级初始设为“低”并没有问题,但是,某些特定设计的NRS证据级别可能比传统的NRS证据级别要高 比如,有多个时期连续性测量的长期随访队列,可能比传统 NRS 证据质量评级更高,把初始值设为“中”可能更符合实情,然而,当前的GRADE方法是未能考虑这些来自特定的NRS 设计的[3]。在ROBINS-I 中,传统 NRS(例如队列和病例对照研究)得出偏倚风险评级与GRADE一致,偏倚风险评级一般为高(即证据级别低),但是在ROBINS-I中,NRS最终评级有可能获得“中”或“高”。这些ROBINS-I证据质量获得“中”或“高”的NRS研究,可能在GRADE中也会得到同样的评级(因为大效应量、剂量-相应关系或残余混杂缩小了效应量),但是值得强调的是,ROBINS-I也可能仅仅是因为 NRS的设计和分析严谨地降低了偏倚风险,综合判断认为偏倚风险等级低。

表1 GRADE和ROBINS-I 证据等级方法的异同点

图2 GRADE采用RoB与ROBINS-I对RCT与NRS的偏倚风险评级

1.3.4 ROBINS-I可以更好地整合 RCT 和 NRS,并允许对不同类型的 NRS 置于同一个评价体系中进行更详细的评估 一定程度上可以避免据质量评估出现双重标准以及不考虑特定 NRS 设计的局限性。

2 重要观点及解读

2.1 大效应量和剂量-效应关系 GRADE表明,如果相对效应>2.0,则有可能将大效应量的评级上调一个级别。需要强调的是,相对效应的点估计值>2.0,但是如果可信区间明显< 2.0,在决定效应量是否大到足以上调评级时要慎重。

当效应量极大和有明确的剂量-效应关系时,可以减轻对残余混杂的担忧。例如,一项纳入17 项病例对照研究和 6 项队列研究的系统评价发现,罗非昔布增加心血管病事件风险,呈剂量相关性,与没有使用罗非昔布治疗者相比,剂量<25 mg·d-1和>25 mg·d-1的 RR (95%CI)分别为1.33(1.00 ~1.79)和2.19(1.64~2.91)。这项基于NRS的系统评价中可能存在残余混杂,但是这种强关联以及剂量-效应关系很难用残余混杂解释,换言之,这种关联可能是因果关系,因此,GRADE对此证据体的评估结果为“证据等级高”[4]。

如果使用 ROBINS-I 对上述系统评价纳入的每一项罗非昔布NRS 进行逐个评级,最后汇总的结果会不会与 GRADE对“证据体”评估的结论不一致?在ROBINS-I中,评估者在每个维度评级时,因为残余混杂或选择偏倚,可能会将单个研究评为高偏倚风险,就不能断定这种情况下,GRADE与ROBINS-I的最终结论是否一致。

ROBINS-I在处理大量证据时,剂量-效应关系和大效应量解决方案可能包括:①在评估单个NRS偏倚风险阶段时,将混杂偏倚维度评定为中等或低偏倚风险,因为观察到了很大的效应,效应越大越不能用混杂来解释;②或者在评估所有NRS偏倚风险阶段时,考虑大效应量和剂量-效应关系。因此,GRADE通过引入升级或降级来应对偏倚问题,在ROBINS-I 中,需要在不同阶段(干预前、中、后)一系列证据时考虑剂量-效应关系和大效应量。两种方法事实上可以认为殊途同归。

2.2 NRS中的残余混杂问题 在 GRADE 中,可能偏倚方向的判断对于评估来自 NRS 的证据的确定性很重要[5,6]。如果确定有混杂因素缩小了效应量,则可以调高证据级别。例如,一项纳入15 项NRS的系统评价(26 000 多家医院3 800 万患者)发现,在调整了潜在的混杂因素后,私立营利性医院与患者的死亡风险增加相关。私立营利性医院与私立非营利医院相比,RR=1.020(95%CI: 1.003~1.038),P= 0.02[7]。从报告结果看,效应量非常小,但是,此项报告中,可能有残余混杂因素,因为一般而言,营利性医院患者平均拥有更高收入和更多资源,他们的预后通常也会更好,因此这个残余混杂会降低观察到的效果(混杂方向使RR进一步趋向于 1.0),因此,实际效应量应该会更大(RR>1.020)。

在ROBINS-I 中,可以对混杂和选择偏倚的方向进行判断。上述举例ROBINS-I不会将单个 NRS 评级为高偏倚风险,因此没有将许多此类研究的证据体质量评级为低,而是将其评为中等。而传统 GRADE 方法中以“低”证据质量开始,考虑残余混杂影响了效应的升级因素,最终结果与ROBINS-I也应该是一致的。

2.3 在GRADE的背景下,使用ROBINS-I方法评估NRS偏倚风险的优点 ROBINS-I 是NRS与RCT偏倚风险“头对头”(head-to-head)比较的可用工具。由于ROBINS-I是通过量表在绝对尺度上评估偏倚风险的优势,因此,使用 ROBINS-I 可能有助于将 RCT 和 NRS 的结果结合起来。

ROBINS-I具有普适性,可以应用在病例对照研究、队列研究、类实验等各种非随机设计,通过7个偏倚维度的信号问题,对单个NRS的偏倚程度进行评级, 相比于GRADE对证据体的评级更具灵活性。例如,假设有一项研究报告,作者描述为随机化研究,但在详细评估时发现未进行适当随机化。在这些情况下,GRADE 的使用者会困惑:是先按RCT将其证据质量设为“高”,然后再通过降级评估;抑或是一开始就忽略作者报告的随机化描述,直接将研究视为 NRS,初始证据等级设为“低”。如果使用ROBINS-I,就没有这方面的困扰。

使用 ROBINS-I的另一个优势在于其可以针对不同类型的临床问题(例如,预后或诊断准确性)。然而,在 GRADE 中,针对不同类型临床问题的 NRS 研究,初始证据质量评级是不同的。例如,在干预性研究中,NRS证据质量初始值为“低”;而在预后研究中,NRS证据质量初始值为“高”,因为预后研究探索的是相关性而非因果关系。但是,目前尚需要不同版本的 ROBINS,例如用于预后预测的 ROBINS 工具。

2.4 在GRADE的背景下,使用ROBINS-I方法评估NRS偏倚风险的局限性 相比GRADE证据评级,ROBINS-I要复杂得多,耗时也多。 GRADE 更容易被使用者接受。ROBINS-I的许多条目涉及大量方法学专业知识和专业词汇,如果证据评估者对偏倚的影响没有深刻理解,即使报告质量不佳,可能会将一组 NRS 的偏倚风险评为中等。而根据当前的 GRADE 指南,这类NRS应该归类为低确定性。从这个方面来说,GRADE证据升级的要求更严格,可以杜绝滥用 ROBINS-I 来降低 NRS门槛。

2.5 对于ROBINS-I的使用者,目前还需要详细的指导,并提供更多示例 例如,是否有这样的实例,某个NRS证据体,传统的 GRADE 升级因素不适用,而ROBINS-I中,整体偏倚风险为“低”或“中”。迄今为止,还没有看到这样的实例。

3 总结与展望

目前,对于 RCT,使用 Cochrane RoB 2.0 工具来评估偏倚风险;对于NRS,ROBINS-I是最合适的评价工具。ROBINS-I 与RoB 2.0在测量偏倚、实施偏倚、失访偏倚、报告偏倚4个维度相互重叠。

在 GRADE 中,RCT和NRS是分别评估的,主要是因为认识到随机化是完全防止混杂的唯一方法,因为即使是最严格实施的NRS,混杂也始终是一个问题。这一点与ROBINS-I的认识是一致的。

ROBINS-I 的开发为 GRADE 方法学发展提供了许多机会。首先,ROBINS-I使用术语NRS,代替了GRADE中的“观察性研究”,使得研究分类更加清晰透明,不会被混淆。其次, ROBINS-I 可以更好地比较来自 RCT 和 NRS 的证据,因为被置于一个共同的偏倚风险度量标准上。

但是,目前还有许多问题尚待解决。①如何把ROBINS-I 融入到GRADE流程中,两者整合浑然一体,还有许多工作需要研究者去开发。例如,在GRADE证据质量评级过程中,什么时候需要使用 ROBINS-I 对一组证据进行初步评估,以及什么时候完成ROBINS-I最终评级回到GARDE评价流程中,能否开发出两者融合的操作软件在实际工作中应用;②在什么条件下应该将RCT和NRS的结果结合起来仍然不确定。是否应该继续遵循GRADE,将RCT和NRS结果在 GRADE 汇总表中分开,还是把NRS和RCT的结果置于同一个标准尺度一起考虑? 如果RCT和NRS确实被一起考虑,应该什么时候合并?当某一领域的研究以NRS为主导时,是否应利用NRS来提供更精确的汇总效应估计?③从 RCT 和 NRS 中适当呈现证据以供决策,以及如何在证据评估中最佳整合 RCT 和 NRS仍有待研究;④偏倚风险等级、证据等级、推荐等级命名的标准化问题,GARDE正在探索最佳标签选项,其中包括偏倚风险使用:不严重、严重、非常严重和非常、非常严重,进而在偏倚风险评估后得出高、中、低和极低的证据质量评级。

总之,在GRADE背景下,使用 ROBINS-I 对大量证据进行的初步评估,并建议遵循当前的 GRADE指南:如果一组RCT和一组 NRS 的证据质量等级不同,只需提供高证据级别的结果摘要(几乎总是来自 RCT)。如果RCT与NRS的证据评级相同(通常为低确定性),则分别呈现来自两个证据体的结果,并且最终评级将降一级(通常证据质量低)。

猜你喜欢
评级证据维度
浅论诗中“史”识的四个维度
中华诗词(2019年7期)2019-11-25 01:43:00
对于家庭暴力应当如何搜集证据
红土地(2016年3期)2017-01-15 13:45:22
分析师最新给予买入评级的公司
光的维度
灯与照明(2016年4期)2016-06-05 09:01:45
手上的证据
“大禹治水”有了新证据
“五个维度”解有机化学推断题
百度遭投行下调评级
IT时代周刊(2015年8期)2015-11-11 05:50:22
手上的证据
人生三维度
吐鲁番(2014年2期)2014-02-28 16:54:43