刘括,孙殿钦,廖星,张玲
作者单位:1 100069 北京,首都医科大学公共卫生学院流行病与卫生统计学系;2 100700 北京,中国中医科学院中医临床基础医学研究所循证医学基础研究室
随机对照临床试验(randomized control trial,RCT)是评价医学干预效果等最理想的设计类型。基于RCT的高质量系统评价和Meta分析被视为最高的证据级别[1]。但Meta分析的质量依赖于纳入Meta分析的RCT研究本身的质量及其对偏倚的控制,低质量的RCT研究会降低结果的真实性,使得研究结论不可靠。因此,使用权威的评估工具对RCT研究进行严格细致的偏倚风险评价尤为重要。
RoB1.0于2008年公布并于2011年更新,是系统评价中常用的主流评估工具。在2016年,Cochrane方法学工作组对该工具进行了更新,在项目网站上发表了RoB2.0[2]。杨智荣等[3]对2016年版的RoB2.0进行了系统介绍,但RoB2.0一直处于完善阶段,也未正式纳入到Cochrane手册。2018年9月,Cochrane官网公布了修正版RoB2.0(https://training.cochrane.org/version-6),并在同年10月进行了更新(https://www.riskofbias.info/welcome/rob-2-0-tool),该版本将会被纳入到2019年出版的第六版Cochrane手册中[4]。
RoB2.0设置五个模块,分别从不同方面评价RCT研究产生偏倚的可能性。五个模块包括:随机过程中产生的偏倚、偏离既定干预的偏倚、结局数据缺失的偏倚、结局测量的偏倚以及结果选择性报告的偏倚。其中,根据系统评价目的不同,偏离既定干预的偏倚模块分为干预分配和干预依从两个不同的评价角度。每个模块的详细评价方法详见表1~6。每个待评价的模块设置多个信号问题,并详细给出对每个信号问题作答时需要考虑的细节,引导研究者做出判断。信号问题的备选答案包括:是(Yes,Y),可能是(Probably yes,PY),可能否(Probably no,PN),否(No,N),不可知(No information,NI)。如果需要计算不同评阅者对同一项研究信号问题答案的一致性,RoB2.0指南建议将“是”、“可能是”与“否”、“可能否”作为相同的答案进行一致性评价。如果信号问题需要根据前一个信号问题的提示作答,则备选答案中新增“不适用”(Not applicable,NA)选项。
同一个偏倚评价模块中,RoB2.0指南根据每个信号问题的不同答案给出偏倚综合评价的路径图,每个模块的路径图不尽相同。根据路径图,研究者可将每个模块的偏倚风险分为“低风险”、“有一定风险”或“高风险”。因篇幅所限,本文仅给出“偏离既定干预的偏倚(干预分配)”模块的路径图(图1),以帮助读者理解从信号问题到整体偏倚风险评估的决策过程。值得注意的是,RoB2.0指南中给的路径图仅供参考使用,研究者可根据信号问题,结合实际情况判断整体偏倚风险。在对五个模块分别进行评价后,研究人员还可对纳入的RCT研究进行整体偏倚的评价。如果五个模块中的偏倚评价均为低风险,则整体偏倚评价为低风险;如果五个模块均未被评估为高偏倚风险,但任一模块的评价结果为可能存在风险,则整体评价为可能存在风险;如果五个模块中任一模块被评估为高偏倚风险,或多个模块的评价结果为可能存在风险且对研究结果的可信度影响较大,则整体评价为高风险。
图1 偏离既定干预的偏倚(干预分配)模块决策路径图
为了更好的解释RoB2.0在RCT试验中的应用,本文对一篇已发表的RCT研究使用RoB2.0进行偏倚风险评价。该研究在Clinicaltrials.gov网站上进行了注册(NCT02019953)并发表了研究计划书[5],主要结果于2018年11月发表在《英国医学杂志》上[6]。此项RCT研究旨在评估维持减重效果期间低碳水化合物饮食在能量消耗上的作用,结果表明低碳水化合物饮食可以增加减重维持期的能量消耗。本文使用RoB2.0工具,对其中的5个模块均进行了评价。在第2个模块中,根据研究者实际研究目的不同,可以选择进行评估分配效果或者评估依从效果,本文为了更好的说明评估工具的使用方法,对二者同时进行了评价。每个模块偏倚风险的具体评估结果(表7)。由于膳食干预试验中盲法实施较难得到保证,如下RCT研究的偏离既定干预模块的偏倚评估结果为可能存在风险;该研究的实际分析方法与研究计划书有所偏差,因此结果选择性报告模块的偏倚评估结果为可能存在风险。最后,在其余模块均被评估为低偏倚风险的情况下,该RCT研究的整体偏倚风险评估结果为可能存在风险。
表1 随机化过程中产生的偏倚
表2 偏离既定干预的偏倚--干预分配
信号问题解释 答案由于某些干预措施有特殊的副作用,因此在某些试验中没有办法施行盲法。在这种情况下,除非干预方式的偏离与试验内容相关,否则本条目判断为“N”或“P N”。由于毒副作用造成的终止干预或换组一般不算偏离既定干预。研究者没有报告偏离是否与试验内容相关时应该回答“N I”,但如果可以判断出很有可能发生与试验内容相关的偏离,答案应该是“P Y”。2.4 如果2.3回答“Y/P Y”:偏离既定干预的情况是否影响组间均衡性?如果偏离既定干预与常规医疗实践无关(2.3回答“Y/P Y”),组间的偏离存在差异时需要引起重视。N A/Y/P Y/P N/N/N I 2.5 如果2.4回答“N/P N/N I”:这些偏离是否会影响结局? 如果偏离既定干预与常规医疗实践无关,组间的偏离影响结局时需要引起重视。N A/Y/P Y/P N/N/N I 2.6 评价干预效果的分析方法是否恰当? 应用意向性分析(I T T)和修正的意向性分析(m I T T)将缺失结局资料的研究对象不予分析可认为是合理的。不恰当的分析方法包括接受干预分析("a s t r e a t e d" a n a l y s i s)和遵循研究方案分析("p e r-p r o t o c o l" a n a l y s i s)。随机化后再分组时,不应对合格研究对象进行排除,但可以排除不合格的研究对象。Y/P Y/P N/N/N I 2.7 如果2.6回答“N/P N/N I”:无法按照事先随机分组对研究对象进行分析是否可能会对结果产生较大影响?本问题主要关注没有按照事先随机分组进行分析或者未纳入分析的研究对象的数目是否足以对结果产生重要影响。对于数目多少没有明确的界定:当结局是罕见事件或错分与预后因素有关时,即使少于5%的研究对象被纳入了错误组别进行分析,也有可能对结局产生影响。N A/Y/P Y/P N/N/N I偏倚风险评价 根据指南中路径图判断 低风险/高风险/可能存在风险
表3 偏离既定干预的偏倚--干预依从
RoB2.0指南为随机对照临床试验的偏倚评价提供了一个可操作的工具框架。该评估工具用于评估两种干预或某种干预的特定效果的实验性研究。RoB2.0从整体上对前一版本进行了内容的丰富和细节的完善。首先,RoB2.0将评估工具的模块设置进行了改进,改进后共包含5个模块。模块完整覆盖了随机试验可能产生偏倚的各个方面,评估过程中需要对每个模块进行评估。其次,由于对专业术语理解的偏差会影响评估者对研究质量的判断,因此在RoB2.0中,去除了RoB1.0中的专业名词或术语(如选择偏倚、失访偏倚、实施偏倚、检出偏倚等),直接对待评估的问题进行描述。值得注意的是,本文介绍的评估工具适合平行设计的随机对照试验,而对于整群随机平行设计的研究,除对本文介绍的模块进行评估外,还需要评估由整群抽样纳入和识别研究对象带来的风险。此外,基于本文介绍的模块也可进行个体设计的随机交叉试验的评估,但目前尚未有针对整群设计的交叉试验评估方法。最后,RoB2.0在每个模块下面都设置了偏倚评估方向这一评价项目,若能预估偏倚方向,则会为研究者评价文章的结果提供更多依据,该项目在既往的评估工具中均未有涉及。
表4 结局数据缺失偏倚
表5 结局测量偏倚
表6 结果选择性报告偏倚
表7 RoB2.0偏倚评估实例
领域 信号问题 回答 支持信息/理由2.2 护理人员或试验实施人员是否在试验过程中知晓分组P Y “T h e s e m e a l s w e r e s u p e r v i s e d b y d i e t i t i a n s a n d o t h e r s u p p o r t s t a f f (d i e t t e c h n i c i a n, F S U u p p e r c l a s s m a n t r a i n e d i n c o u n s e l i n g) w h o p r o v i d e d e n c o u r a g e m e n t t o s t u d y p a r t i c i p a n t s,a n s w e r e d t h e i r q u e s t i o n s…”P r o t o c o l第5页4.4 S u p p o r t a n d m o n i t o r i n g部分第1段。营养学家和支持部门会监督研究对象的用餐过程,并对饮食的营养概况进行说明并加以指导,这可能会使护理人员在试验过程中知晓研究对象的分组。2.3如果2.1或者2.2回答“Y/P Y/N I”时:干预方式出现了与常规医疗不同的偏离吗?N I 发表论文第5页F i g 2 P a r t i c i p a n t f l o w。图中写明4 2人 (2 5.6%)未实现控制体重波动在2 k g以内,可能未严格遵守膳食计划,但未说明他们既定膳食方案的遵守情况。2.4 如果2.3回答“Y/P Y”:偏离既定干预的情况是否影响组间均衡性?N A 2.5 如果2.4回答“N/P N/N I”:这些偏离是否会影响结局?N A 2.6 评价干预效果的分析方法是否恰当? P Y “T w o r a n d o m i z e d p a r t i c i p a n t s w e r e e x c l u d e d f r o m a l l a n a l y s e s: o n e d e v e l o p e d h y p o t h y r o i d i s m a n d o n e p r o v i d e d u n r e l i a b l e d a t a f o r d o u b l y…”发表论文第4页M i s s i n g d a t a a n d q u a l i t y o f f i t部分。随机分组后排除了不合格的研究对象,排除原因与分组无关。“A n a l y s i s w a s p e r f o r m e d o n t h e f u l l i n t e n t i o n-t o-t r e a t s a m p l e a n d a p e r p r o t o c o l s u b s e t c o m p r i s i n g t h o s e p a r t i c i p a n t s w h o m a i n t a i n e d…”发表论文第4页S t a t i s t i c a l a n a l y s i s部分第4段。研究者进行了意向性分析和方案分析2.7 如果2.6回答“N/P N/N I”:无法按照事先随机分组对研究对象进行分析是否可能会对结果产生较大影响?N A偏倚风险评价 可能存在风险偏离既定干预的偏倚(依从干预)2.1 研究对象是否在试验过程中知晓自己的分组P N “W e u s e d m a n y o f t h e s a m e f o o d s, i n d i f f e r i n g a m o u n t s, a c r o s s d i e t s a n d s y s t e m a t i c a l l y r e p l a c e d f o o d s w h e n n e c e s s a r y t o a c h i e v e t h e s p e c i f i e d m a c r o n u t r i e n t t a r g e t s.”P r o t o c o l第5页4.2 T e s t p h a s e部分。研究人员为了防止研究对象知晓自己的分组情况,尽可能的让不同组的食物种类相同,通过食物数量的改变来控制碳水化合物含量。“R e l a t i v e t o t h e m o d e r a t e-c a r b o h y d r a t e d i e t, t h e s e t a r g e t s w e r e a c h i e v e d b y e l i m i n a t i n g a l l g r a i n s, r e m o v i n g s o m e f r u i t s, a d d i n g m o r e f o o d s c o n t a i n i n g f a t, f u r t h e r d e c r e a s i n g a m o u n t s o f l e g u m e s w h e n n e c e s s a r y, a n d i n c r e a s i n g s o m e h i g h e r f a t d a i r y p r o d u c t s.”P r o t o c o l第5页4.2 T e s t p h a s e部分和T a b l e 3 E x a m p l e m e n u。与中等碳水含量饮食相比,低碳水化合物饮食不含全部谷物食物,缺少面包、米饭等主食。研究对象可能会在用餐过程中发现自己的餐点与别人不同而知晓自己的分组。2.2 护理人员或试验实施者是否在试验过程中知晓分组P Y “T h e s e m e a l s w e r e s u p e r v i s e d b y d i e t i t i a n s a n d o t h e r s u p p o r t s t a f f (d i e t t e c h n i c i a n, F S U u p p e r c l a s s m a n t r a i n e d i n c o u n s e l i n g) …”P r o t o c o l第5页4.4 S u p p o r t a n d m o n i t o r i n g部分第1段。研究人员会监督研究对象的用餐过程,并对饮食的营养概况进行说明并加以指导,这可能会使护理人员在试验过程中知晓研究对象的分组。2.3 如果2.1或者2.2回答“Y/P Y/N I”时:重要的协同干预措施组间是否均衡?N I “T h e s e m e a l s w e r e s u p e r v i s e d b y d i e t i t i a n s a n d o t h e r s u p p o r t s t a f f (d i e t t e c h n i c i a n, F S U u p p e r c l a s s m a n t r a i n e d i n c o u n s e l i n g) …”P r o t o c o l第5页4.4 S u p p o r t a n d m o n i t o r i n g部分第1段。营养学家的言语鼓励可视为干预措施,文章未提及其在组间的均衡性,但该干预对结局影响可能有限。2.4 如果没有完成既定干预,是否会影响结局P Y 发表论文第5页F i g 2 P a r t i c i p a n t f l o w。图中明确写明6人 (3.6%)中途退出研究,4 2人 (2 5.6%)未实现控制体重波动在2 k g以内,可能未严格遵守膳食计划。2.5 研究对象是否对分配的干预依从? Y “W e f o u n d s t r o n g d i f f e r e n t i a t i o n o f 1,5-a n h y d r o g l u c i t o l (a b i o m e a s u r e o f c a r b o h y d r a t e i n t a k e, s e e s u p p l e m e n t a l m e t h o d s) a m o n g d i e t g r o u p s…”发表论文第6页R e s u l t s P r o c e s s m e a s u r e s a n d b i o m e a s u r e s o f c o m p l i a n c e部分。研究者通过测量生物指标验证研究对象的依从性,证据表明大部分研究对象遵循了既定的膳食方案。2.6 如果2.3或者2.5回答N/P N/N I或2.4回答Y/P Y/N I:对依从干预的研究对象进行分析是否使用了恰当的统计学方法?Y “T o f u l l y a s s e s s t h e i n f l u e n c e o f m i s s i n g d a t a (d r o p o u t s a n d u n u s a b l e d a t a p o i n t s), w e p e r f o r m e d a n i n v e r s e p r o b a b i l i t y w e i g h t e d v e r s i o n o f t h e p r i m a r y a n a l y s i s, c o n s t r u c t i n g a l o g i s t i c m o d e l f o r m i s s i n g n e s s a n d e m p l o y i n g t h e f i t t e d p r o b a b i l i t i e s t o a s s i g n w e i g h t s i n t h e p r i m a r y a n a l y s i s. “发表论文第4页S t a t i s t i c a l a n a l y s i s部分。研究者使用逆概率加权法弥补终止干预的研究对象对结果可能造成的偏差。偏倚风险评价 可能存在风险
领域 信号问题 回答 支持信息/理由结局数据缺失的偏倚3.1 是否所有或几乎所有随机化分组的研究对象都获得了结局数据P N “T w o r a n d o m i z e d p a r t i c i p a n t s w e r e e x c l u d e d f r o m a l l a n a l y s e s: o n e d e v e l o p e d h y p o t h y r o i d i s m a n d o n e p r o v i d e d u n r e l i a b l e d a t a…”发表论文第4页M i s s i n g d a t a a n d q u a l i t y o f f i t部分。文中明确说明了主要结局数据缺失情况,两名研究对象未纳入意向性分析,其余应有的4 8 6条总能量消耗值(1 6 2个参与者×3个时间点),缺失2 9条,与随机分组时的预期相比,主要结局变量数据缺失达到7%3.2 如果3.1回答“N/P N/N I”:是否有证据表明结果不受到缺失的结局数据的影响?P Y “N e i t h e r t h e i n t e n t i o n-t o-t r e a t n o r t h e p e r p r o t o c o l f i n d i n g s c h a n g e d m a t e r i a l l y w h e n w e a p p l i e d i n v e r s e p r o b a b i l i t y w e i g h t i n g t o c o m p e n s a t e f o r t h e m i s s i n g d a t a.”发表论文第4页M i s s i n g d a t a a n d q u a l i t y o f f i t部分。研究中使用逆概率加权法校正可能的偏倚,在无论是意向性分析还是方案分析中,使用校正方法前后所得结果都没有实质差异。但使用该法校正偏倚不一定有效。3.3 如果3.2回答“N/P N”:结局变量的缺失与结局本身是否相关?N A 3.4 如果3.3回答“Y/P Y/N I”:结局变量缺失的比例在两组间是否不同?N A 3.5 如果3.3回答“Y/P Y/N I”:结局变量的缺失是否很可能与结局本身相关?N A偏倚风险评价 低风险结局测量的偏倚4.1 结局测量方法是否不恰当? N P r o t o c o l第6~8页5.1--5.3 S t u d y o u t c o m e s 部分。测量方法可靠性较好,采取了减小测量偏倚的方法。4.2 结局的测量或确证方法是否在两组间存在差异?N P r o t o c o l第6~8页5.1--5.3 S t u d y o u t c o m e s 部分。统一了所有研究对象的测量方案,明确说明了所用方法、试剂、仪器型号,所有的样本(血液、尿液等)均统一收集送往同一具有资质的检测机构。4.3 如果4.1或者4.2回答N/P N/N I:结局测量者是否知晓研究对象接受的干预?N “S t a f f m a s k e d t o d i e t a r y g r o u p a s s i g n m e n t c o l l e c t e d d a t a o n o u t c o m e s”发表论文第3页S t u d y o u t c o m e s部分“A l l s t a f f m e m b e r s a s s e s s i n g s t u d y o u t c o m e s a n d c o n d u c t i n g a n a l y s e s o f b i o s p e c i m e n s w e r e m a s k e d t o d i e t a r m a s s i g n m e n t.”P r o t o c o l第3页3.3. R a n d o m i z a t i o n部分。文章中明确说明对收集结果的工作人员设盲4.4 如果4.3回答“Y/P Y/N I”:如果知晓与干预相关的医学知识 ,是否会影响结局变量的测量N A 4.5 如果4.4回答“Y/P Y/N I”:结局变量的测量是否被与干预相关的知识影响?N A偏倚风险评价 低风险结果选择性报告的偏倚5.1 试验分析方法是否与数据对分析者揭盲前所制定的研究计划一致N 1 “w e w i l l a d j u s t t h e A N O V A f o r a n u m b e r o f b a s e l i n e a n d t i m e-v a r y i n g c o v a r i a t e s i n o r d e r t o r e d u c e r e s i d u a l v a r i a n c e a n d i m p r o v e p o w e r t o d e t e c t d i e t d i f f e r e n c e s. T h e s e i n c l u d e t h e o u t c o m e o f i n t e r e s t a t B S L (p r e-w e i g h t l o s s) …”P r o t o c o l第9页8.1. A n a l y s i s p l a n 部分第2段"T h e m a i n m o d e l w a s u n a d j u s t e d e x c e p t f o r d e s i g n f a c t o r s (s t u d y s i t e, c o h o r t, a n d e n r o l m e n t w a v e) …”发表论文第3页S t a t i s t i c a l a n a l y s i s部分第4段。调整的变量与所指定的研究计划不一致,试验期的体重变化未纳入调整2 “W e w i l l e m p l o y a n a u t o r e g r e s s i v e c o v a r i a n c e s t r u c t u r e t o a c c o u n t f o r p o t e n t i a l l y d i m i n i s h i n g w i t h i n-s u b j e c t c o r r e l a t i o n o v e r t i m e.”P r o t o c o l第9页8.1. A n a l y s i s p l a n 部分第2段"A n u n s t r u c t u r e d c o v a r i a n c e m a t r i x p r o v i d e d m a x i m u m f l e x i b i l i t y i n m o d e l i n g c o r r e l a t i o n w i t h i n p a r t i c i p a n t s o v e r t i m e.”发表论文第3页S t a t i s t i c a l a n a l y s i s部分第4段。未使用原研究计划的自回归协方差结构而是使用了非结构化协方差矩阵来处理重复测量资料是否从以下来源得到多种结果,基于结果本身进行了选择性报告5.2 进行的多种结局测量(如:量表,不同定义,不同时点)P N P r o t o c o l第6页5.1.1. T o t a l e n e r g y e x p e n d i t u r e部分“W e e x p r e s s e d t o t a l e n e r g y e x p e n d i t u r e i n k c a l p e r k g b o d y w e i g h t, t h e n n o r m a l i z e d t h i s t o a v e r a g e s t a r t o f t r i a l b o d y w e i g h t (8 2 k g) f o r a n a l y s i s a n d r e p o r t i n g.”“W e a l s o e x a m i n e d a b s o l u t e t o t a l e n e r g y e x p e n d i t u r e e x p r e s s e d a s k c a l/d, w i t h a n d w i t h o u t b o d y w e i g h t i n c l u d e d a s a c o v a r i a t e, a n d w e o b t a i n e d s i m i l a r r e s u l t s.”发表论文第3页S t u d y o u t c o m e s部分第1段。与预期计划不一致的是,研究人员在分析中使用了校正体重后的总能量消耗(k c a l/d),虽提及与原始值相似,但并未提供具体数据。
领域 信号问题 回答 支持信息/理由5.3多种分析方式 N “In all analyses, except “per protocol,” we will follow the intention-to-treat principle, ascribing the randomly assigned diet to each participant regardless of degree of compliance.”Protocol第9页8.1. Analysis plan 部分第6段“Analysis was performed on the full intention-to-treat sample and a per protocol subset comprising those participants…”发表论文第4页Statistical analysis部分第4段。均与预期分析方法的一致,进行了意向性分析和方案分析偏倚风险评价 可能存在风险
对于随机对照试验的质量评价,量表繁多,结构各异。由Cochrane协作网的方法学专家、编辑和系统评价员共同制作的偏倚风险评估工具结构清晰、全面可靠,一直是RCT质量评价的重要工具。新版RoB2.0完整覆盖了随机试验可能产生偏倚的各个方面,是目前值得推荐的随机对照试验偏倚风险评估工具。