周 奇 张 渊 杨 楠 陈耀龙
临床决策不仅要考虑研究的证据质量,还需要考虑结局指标的重要性、患者偏好与价值观、利弊平衡、资源使用、公平性、可接受性、可行性等因素,最后综合上述因素给出临床决策最佳的方向和强度[1,2]。
本文重点解读GRADE工作组推出的系列文章的第19篇中的偏倚风险和间接性进行可靠性分级的原理[3]。由于结局指标重要性也可表述为患者偏好与价值观,下文统一简称为“结局重要性”。需要说明的是,在解读中以文献[4]为例,深化理解GRADE在结局重要性上的运用,以期更清晰地理解和正确使用GRADE。
基于前期的文献回顾、具体实例运用和专家线上咨询等主要过程,GRADE工作组形成了针对“结局重要性”进行证据质量分级的方法学指导。该方法学指导于2017年4月的GRADE工作组会议上被正式通过[3,5]。该方法学指导与此前干预性研究的证据体分级原理类似,在进行结局重要性证据分级时,所有研究设计的证据都从“高质量”开始,然后基于5个降级因素[6-11]的考量,最终给出综合性证据等级:高、中等、低或极低质量。本文将解读如何基于“偏倚风险”和“间接性”2个降级因素对结局重要性进行证据分级;“不一致性”、“不精确性”及“发表偏倚”降级因素在GRADE指南20[12]中解读。
1.1 偏倚风险 GRADE工作组确定了4个影响“结局重要性”研究偏倚风险的领域(表1):①受试者遴选领域:指入选的研究样本在多大程度上反映预期人群,如果不同的人群特征与结局重要性有关,不恰当的样本选择将导致对结局重要性的估计出现偏差。②数据完整性领域:指应答者和未应答者在多大程度上相似,随访过程中的高失访率或横断面研究的低回复率可能导致参与者与未参与者在结局重要性上存在系统差异。③测量工具领域:指多大程度上选择了有效的工具测量结局重要性,并且测量结果得到管理。④数据分析领域:是指估计值在多大程度上被不恰当的数据分析扭曲,而分析中的调整、分层和模型选择能否避免混杂因素造成的结果扭曲。
针对偏倚风险的4个评价领域,评价者需要对7个标志性问题进行回答,每个标志性问题回答结果为“是”(Y)、“可能是”(PY)、“可能不是”(PN)或“不是”(N),基于回答结果对各个领域给出偏倚风险的程度——“低偏倚风险”、“中等偏倚风险”、“高偏倚风险”、“极高偏倚风险”。最终基于4个领域的偏倚风险程度,给出总体的偏倚风险,即低、中等、高、极高偏倚风险(表1)。
1.2 间接性 在间接性方面,GRADE工作组提出2个影响结局重要性的领域(表2)。①PICO的间接性:如果纳入证据体的研究人群、干预方案和测量结局与研究问题所关注的研究人群、干预方案和测量结局不一样,势必会降低对证据体结果的可靠程度[13]。例如:关注的临床问题是“糖尿病患者最关心哪些预后结局?”,此时针对该临床问题系统评价纳入的人群中,有20%左右的人群是高血糖人群,那么在“P”这个层面上,证据体存在一定的间接性,通常需要降级。②方法学的间接性:用于形成结局重要性的方法也可能作为间接性的来源。例如,研究人员使用间接测量工具(即多属性效用量表)来衡量结局的效用,而这些工具的开发和映射算法,一般是基于其他人群样本,因此会存在间接性[14]。
表1 偏倚风险评价领域和标志性问题
针对间接性的2个评价领域,评价者需要对4个标志性问题进行回答。基于回答结果,综合得出证据体需要降级的级数。
表2 间接性评价领域和标志性问题
文献[4]中针对静脉血栓栓塞性疾病管理的系列结局进行了重要性证据分级,本文节选了其中“预防性使用医疗装置的治疗负担”和“不良事件”两个结局,对偏倚风险和间接性的分级进行实例解读(表3)。
表3 VTE管理重要性结局的偏倚风险与间接性分级
2.1 预防性使用医疗装置的治疗负担 3篇横断面研究[15-17]评估了预防性使用医疗装置的治疗负担的重要性,其分级结果显示:在偏倚风险方面,在测量工具领域均存在不同程度的偏倚,尤其是文献[17]研究者直接采用询问的方式获取受试者更喜欢的给药途径,而没有采用合理的测量工具。除此之外,研究者也没有核查受试者是否理解工具的含义,同时也没有描述治疗后的可能结局。因此,基于3篇中等或高偏倚风险的研究,在偏倚风险方面降1级。在间接性方面,3篇研究在PICO方面存在间接性,文献[16]评估的是顺序压缩装置和血栓弹力袜干预的效果,而文献[15,17]评估的是足泵装置的干预效果。考虑到足泵装置干预与研究问题所关注的干预措施有所差异,因此在间接性方面也需要降1级。
2.2 治疗相关的不良事件 4篇横断面研究[18-21]评估了治疗相关不良事件的重要性,其分级结果显示:在偏倚风险方面,仅文献[19]为低偏倚风险,文献[18,21]未阐述受试者人群的回复率,文献[20]未给出明确的抽样方法,文献[18,20]直接采用询问方式获取受试者更喜欢的给药途径,而未采用合理的测量工具。综合4篇研究,在偏倚风险方面降1级。在间接性方面,基于对4个标志性问题判定后,4篇研究在PICO和方法学上均未发现相关的间接性,故不降级。
3.1 结局重要性评价并非结局测量工具 结局重要性是患者或受试者对结局的价值观偏好,此前尚无专门的评价工具,而原文作者首次提出了结局重要性研究偏倚风险的评估工具。结局测量工具是对结局的定义和量化,可以采用基于共识的卫生测量工具选择标准(COSMIN)进行评估[22],因此两者在本质上的使用是有所差异的。
3.2 结局重要性的偏倚风险评价与干预性研究判断类似 每个领域的偏倚风险对结局重要性研究估计值的影响大小分为低、中等、高、极高,只有所有领域为低偏倚风险时,该研究才为低偏倚风险,而只要有1个领域为极高偏倚风险,研究即为极高偏倚风险。结局重要性的证据体根据有偏倚风险的研究对证据体的贡献评为不严重、严重或非常严重,分别选择不降级、降1级和降2级[23]。
3.3 系统评价和指南对间接性的判断有所差异 在大多数情况下,系统评价作者只纳入符合PICO纳入标准的研究,保证直接性,仅有少数情况在人群和结局测量方面存在间接性[10]。指南评价结局重要性的目的相比系统评价更为具体,因此证据的间接性判断更为普遍。例如,对于比较出血风险重要性的系统评价而言,服用阿司匹林后发生的出血与服用华法林后发生的出血相比不存在间接性,但在指南制定中,患者服用华法林带来的出血风险相比阿司匹林带来的出血风险显得更为重要。
结局指标重要性的证据分级原理虽然相对于以往干预性、诊断性研究证据分级而言有所差异,但整体上都是围绕5个降级因素进行的。尽管结局重要性评估对指南决策具有重要意义,但调查研究显示中国指南和WHO指南应用GRADE的比例(9.5%vs81.3%)和报告结局遴选的比例(9.9%vs81.3% )都低[24-26]。为进一步改善我国指南对结局重要性评估的推广与应用,国内已成立的兰州大学GRADE中心、宁波诺丁汉 GRADE中心、北京GRADE中心、复旦大学GRADE中心应联合起来,未来就结局重要性研究的开展、患者参与指南制定、结局重要性分级方法的使用等优先主题开展相应的方法学研究。