梁小妞 罗剑锋
1.1 原则1 证据不确定评级,必须考虑评级目标,所谓的目标,如:根据某一界值划分的有效、有重要的效应,或者根据区间划分的小效应、中等效应、大效应等。GRADE证据评级在特定目标的基础上进行不确定性评级。
1.2 原则2 证据不确定评级目标取决于框架、界值以及点估计。
1.2.1 框架 包括全局性框架、部分性框架以及最小化框架[1]。对于系统综述和卫生技术评估者来说,主要涉及部分性框架以及最小化框架。
1.2.2 界值 最小化框架下有2种界值:无效界值和小效应界值(图1)。与此相对应的目标分别为有效和有重要的效应。部分性框架下由小、中、大3个界值划分的4个区间:微小效应、小效应、中等效应、大效应(图2)。
界值的划分基于特定的效应测量指标。常用的有绝对数指标:均数的差异(MD);率差(RD);相对数指标:如相对危险度(RR)、比值比(OR)、风险比(HR)等。如果是无效界值,绝对数指标和相对数指标是等价的,比如RD=0和RR=1。对于其他界值,同样的相对数,由于参照组的数值不同,对应的绝对数可能相差很大。所以建议同时报告相对数和绝对数。
图1 最小化框架下的无效界值和小效应界值
图2 部分框架下的小效应、中效应、大效应界值以及由此划分的4个区间
1.2.3 点估计 选择框架,定好界值或者区间后,点估计和界值的相对位置决定证据评级目标(图3)。比如以最小化框架下的小效应界值为标准,点估计a在界值左侧,可以把目标设为是否存在重要效应,最终结果可以判断为达到重要效应。点估计b在界值右侧,也可以把目标设为是否存在重要效应,最终结果可以判断为未达到重要效应。
图3 点估计和选定的界值的相对位置决定证据评级目标
当点估计和界值非常接近的时候,除了直接根据点估计相对于界值的位置(称为方法1)直接判断之外,指南提供了另一种方法(称为方法2)。以图4A为例,在最小化框架下,点估计为-0.99%,选定的界值是小效应界值-1%。如果按照方法1,虽然-0.99%和-1%非常接近,但是仍然低于-1%,判断未达到重要效应,可能存在小效应。如果按照方法2,考虑小效应界值的两个相邻界值,即中等效应界值和无效应界值,则点估计落在小效应和微小效应两个效应区间内,评级目标可以定为小效应和微小效应。
方法2特别适合于点估计特别接近无效界值的时候。利用无效界值的相邻界值:小效应有效界值和小效应危害界值,点估计落在以上两个界值之间,可以认为存在微小的作用或者微小的危害(图4B)。
图4 当点估计非常接近选定的界值,可以利用相邻的两个界值判断
1.3 原则3 选择某种框架,系统综述或卫生技术评估人员选择的界值决定证据评级的目标,图5显示,以最小框架下小效应界值为例,设定不同的小效应标准,结果显然不同。如果参照界值1,显然点估计显示有重要的作用。如果参照界值2,则未达到重要作用。同理,在部分性框架下,小、中、大效应界值的不同,相应划分的区间也发生变化,评级目标以及结果也发生变化。
图5 选择不同的界值将决定证据评级的目标
1.4 原则4 当95%CI比较宽,跨过多个界值时(图6),选择某个界值没有什么意义,同理,这时的证据评级也没有什么意义。虽然证据评级的目标主要参考点估计,但是当可信区间非常宽,跨多个界值或者多个区域时,意味着该研究对于真实效应值的估计存在较大的不确定性。因此,这时候需要下调证据评级甚至放弃目标的设定。
图7为在图1 的基础上增加了可信区间。可信区间体现的是证据评级中的精确性。以图7中证据不确定评级为例。
图6 可信区间跨多个界值或者区域
图7 模拟例子:运用4个原则进行证据评价
2.1 如果目标为是否有效 以最小化框架下无效界值为标准,由于点估计在无效界值的左侧,在有效范围内,可以判断点估计a对应的研究结果为有效。同时可信区间未跨过无效界值,不需要因为精确性下调证据评级。
2.2 如果目标为是否有重要效应 以最小化框架下小效应界值为标准,由于点估计在小效应界值的左侧,可以判断点估计a对应的研究结果为有重要效应。但是可信区间跨过小效应界值,因此精确性下调证据评级。
2.3 如果目标为是否存在小效应 在部分框架下,以中等效应和小效应两个界值划定的小效应区间为标准,由于点估计a在小效应区间内,可以判断点估计对应的研究结果达到小效应,但是由于可信区间跨过小效应界值,仍然有微小效应的可能性,因此精确性下调证据评级。
2.4 如果结论是存在小效应或者微小效应 则可信区间在范围内,不必因为精确性下调证据评级。
“证据不确定性评价”,或者说“证据质量评价”[1, 2]是GRADE指南制定的核心内容。有一系列的GRADE指南专门讨论从不同的维度[3-7]和不同设计类型[8-11]进行证据质量评价。但是在实际应用过程中发现,证据评级目标也是一个影响证据评级非常重要的因素。如果不厘清一些关系,会让研究者在证据评级过程中产生困惑。
3.1 证据评级目标本身不是证据不确定评级 证据不确定评级针对特定证据评级目标GRADE证据评级一般有5个降级维度[3-6,12]和3个升级维度,并在特定情况下可以进行升降级[7]。GRADE的证据不确定性评级有两个层次,首先针对证据本身从5个降级维度进行不确定性评级,这一步和系统综述相同。然后是评估该证据对于指南的推荐等级。在实施中RCT和诊断准确性研究起始是高,然后根据证据本身的不确定性评级,从高开始降级。观察性研究起始是低,然后根据证据本身的不确定性评级,考虑升降级。以上证据不确定性评级过程本身不等于评级目标,但是针对特定的评级目标。
3.2 评级目标不同 同一个证据,证据不确定性评级结果可能不同。对于某一个特定的证据,点估计、区间估计、研究设计都已经定了。如前面方法部分阐述的,基于不同的框架,把目标定在不同的界值或者区域,点估计和它们的相对位置不一样,证据评级的结果就可能不一样。
3.3 目标的选择由数据驱动(data-driven) 对于框架和界值,读者可以根据自己的需要选择。即使系统综述作者已经选择了框架和界值,得出了相应的不确定性评级结果。读者或者其他研究者仍然可以根据证据和自己的需要选择另外的框架和界值,得出不同的结论。框架和界值的选择显得非常自由,所以在GRADE证据评级时,必须事先将评级目标以及框架和界值阐述清楚。
3.4 点估计和区间估计在评级中的作用 本质上GRADE证据评级是希望对真实效应进行评级,但是真实效应实际上无法获得,每个研究提供的只是观察到的效应。其中不可避免的有抽样误差和系统误差。在制定目标时,主要根据点估计和界值的关系,这时某种程度上是以点估计代表真实效应。但原则4显示,当区间很大时,点估计对于真实效应的估计效果比较差,这时制定目标就不是那么可靠了。
从系统评价和医学指南制作者的角度,这篇文章阐明了在证据不确定性评级时制定评级目标的重要性以及如何根据点估计、框架和界值制定目标。主要以不确定性这一维度为例,阐述了目标和证据不确定性评级。实际上,偏倚风险、不一致性、间接性和发表偏倚等维度也需要在实际工作中同时考虑。某种程度上,其他维度证据等级低,可以在实操角度理解为可信区间变宽,然后就可以按文章中和精确性对评级的影响类似处理了。考虑所有因素后,如果可信区间特别宽,甚至可以放弃目标的制定。