临床实践指南制订方法
--GRADE在诊断试验系统评价中的应用

2019-04-25 07:36王云云邓通黄桥方程靳英辉王行环

中国循证心血管医学杂志 2019年3期

王云云，邓通,2，黄桥，方程，靳英辉，王行环

诊断试验系统评价是支持临床实践指南推荐意见制订的证据来源之一，特别是疾病诊断或程度评估方面常需要借助于此进行诊断策略选择。诊断试验系统评价是通过系统搜集现有原始研究，按照特定的纳入、排除标准筛选文献，对其进行严格质量评价后，经定性描述和（或）定量合成分析判断某一种诊断方法或策略的诊断准确性和重要性的研究方法。目前诊断试验系统评价逐渐增多，截至2019年3月，Cochrane Library收录的Cochrane reviews 7932篇及protocol 2434篇中诊断试验试验Cochrane reviews 114篇，protocol 110篇。本文将讲述GRADE（Grading of Recommendations Assessment，Development and Evaluation，GRADE）方法在诊断试验系统评价中的运用[1]，以及如何运用GRADEpro GDT（Guideline Development Tool）（https：//gradepro.org/）呈现分级结果，最终为指南的制订提供证据基础。

图1 诊断试验研究类型

1 GRADE在不同诊断试验系统评价类别中的分级原理

目前，根据诊断试验观察的结局指标不同，可将诊断试验分为诊断干预性试验研究和诊断准确性试验研究（图1）。诊断干预性试验研究是评估诊断性试验作为一种干预措施对使用或不使用该诊断试验患者结局（如病死率、致残率、生活质量）的影响，其根据是否将研究对象进行随机分组分为诊断随机对照试验、诊断观察性研究，其中随机对照试验被认为基于患者重要结局指标判断诊断试验效果的优选试验设计；诊断准确性试验研究是判断诊断试验真实性的研究，诊断试验中的真实性是指待评价诊断试验与金标准的相符程度。结局指标通常为真阳性、假阳性、真阴性、假阴性，试验设计一般为横断面研究。需注意的是，GRADE是基于患者的重要结局（如死亡率、发病率、生活质量）对证据体进行质量分级。若对诊断干预性研究系统评价进行证据分级，可直接以其关注的患者重要结局指标为证据体单位进行质量分级，其分级原理见表1；若对诊断准确性试验的系统评价进行证据分级，则对以其试验结局灵敏度、特异度等为证据体单位进行质量分级，就诊断试验的准确性而言，证据的起始质量为高，其分级原理见表1。

2 GRADE在诊断准确性试验系统评价中的应用

以2017年发表在中国耳鼻咽喉头颈外科的系统评价“窄带成像技术诊断喉癌价值的Meta分析”[9]为例进行讲解。该系统评价评估窄带成像技术相较白光成像在喉癌诊断中的优势，窄带成像技术与白光成像分别与金标准比较判断其诊断喉癌的价值。本文只选用窄带成像技术与金标准比较的数据进行证据分级。此时，PICO问题为：P：临床上经初步诊治后疑诊为喉癌的患者；I：窄带成像技术；C：手术病理学检查；O：真阳性、假阳性、真阴性、假阴性；S：诊断准确性试验。本例分析中只关注诊断试验的准确性，故不因为这些结局指标只是与患者重要结局相关的中间结局指标而降级。窄带成像技术诊断喉癌的灵敏度、特异度Meta分析结果见图2～3。

表1 GRADE在不同诊断试验系统评价类别中的分级原理

图2 窄带成像诊断喉癌的灵敏度

2.1 偏倚风险此条目主要考量系统评价纳入的原始研究方法学质量，包括在研究设计、实施、测量环节中出现的各种偏倚。目前，多采用QUADAS-2评价其方法学质量[10,11]。QUADAS-2由病例的选择、待评价试验、金标准、病例流程和进展情况4个领域组成，根据每部分纳入的相关标志性问题的回答“是”、“否”或“不确定”，可对应将偏倚风险等级判定为“低”、“高”或“不确定”[10,11]。若上述4个方面都存在重要偏倚，则证据质量降1级或2级。有学者认为若仅为某个领域，或虽然某几个领域都存在偏倚，但对结局指标影响不严重时，可酌情考虑降1级或不降级[12]。

图3 窄带成像技术诊断喉癌的特异度

本案例中，经QUADAS-2评价后（图4），原始研究偏倚风险较小，在真阳性、假阳性、真阴性、假阴性4个结局指标上均不考虑降级。

图4 风险偏倚条形图

2.2 间接性“间接性”主要是衡量纳入的原始研究与系统评价预回答的临床问题的相符程度[13]。比如系统评价纳入的人群与实际待应用此诊断标准的人群可能存在不一致；待评价诊断试验（策略）间存在不一致；对照的诊断试验（策略）或金标准之间存在差异；通过相同的金标准间接比较不同诊断试验之间的诊断准确性。由于诊断准确性试验关注的结局指标真/假阳性和真/假阴性，在结局指标方面可不考虑这个降级来源。

该案例纳入研究均为窄带成像技术与手术病理检查的直接比较，金标准均为手术病理检查，待评价诊断试验均为窄带成像技术，若指南制订也是面向初步诊治后疑诊为喉癌的患者进行院内确诊，则不存在人群的间接性。窄带成像技术使用的机器型号不同（ENF或Evis），以机型为亚组进行分析后，使用Evis机型进行喉癌诊断时灵敏度更高，可能会对结果产生重要影响。如果指南制订者认为喉癌的诊断应尽可能提高灵敏度即漏诊的后果严重，尽可能保证诊断出所有患者则可能更倾向于选择灵敏度高的研究，则此亚组分析具有较重要意义，同时指南制订者还需考察此亚组分析属于研究前提出假设还是研究后提出假设，亚组分析显示的差异是否有外部证据支持，亚组分析的差异是否在其他重要结局指标得到验证。如果指南制订者分析后认可此亚组分析的结论则可根据亚组分析的结果进行推荐意见的制订。反之，则极有可能因为间接性进行降级。

此外，系统评价纳入的原始研究研究对象人群年龄范围为20～95岁，跨度较大。有研究显示，在英国人群，喉癌在男性比女性更常见，男性的诊断率是女性的5倍多；喉癌在老年人中比在年轻人中更常见，40岁以下的人很少见[14]。实际指南制定中研究者需根据指南制订面向的待诊断人群进行分析，即系统评价纳入研究的研究对象与临床环境中实际接受诊断的人群是否相符，若相符，或再指南面向的人群也确实存在年龄的巨大差异，则可不降级。若有研究支持，本次指南制订待确诊喉癌患者年龄均集中在一个较小的范围，则系统评价所提供证据可能存在间接性。

2.3 不一致性“不一致性”是指系统评价纳入的原始研究之间存在的差异性[15]，包括临床不一致性、方法学不一致性和统计学不一致性。不一致性的判断可通过点估计值的差异大小及95%置信区间重叠程度，若不同研究间置信区间的重叠度好，则说明纳入研究的异质性小，不考虑降级。也可通过I2检验和Q检验，若异质性检验结果显示I2＞50%且P＜0.1，则怀疑存在较大异质性，考虑降1级。

本案例中，图2、3分别显示灵敏度、特异度合并结果，纳入研究之间可信区间可重叠性较差，其异质性检验结果分别为I2=71.87，P=0.00；I2=83.95，P=0.00。尽管该系统评价作者考虑异质性来源可能是不同的操作内镜机型、文献的研究类型有关，并进行亚组分析，但未呈现亚组分析的异质性检验结果，无法断定是否真正解决了异质性带来的结果差异。因此，真阳性、假阴性、假阳性和真阴性4个结局指标在“不一致性”这个领域各降1级。

这里证据分级者特别需注意不能简单的依靠I2的大小来判断是否进行不一致性的降级，应对明显导致异质性的个别研究进行深入分析，如果有确定的原因解释为什么此研究偏离其他研究置信区间（导致置信区间重叠程度较小），则可能不需要降级。如图2中的lrjala 2011研究结果与其他研究结果差别较大（置信区间明显偏离），如果通过分析判断lrjala 2011的研究存在导致区别于其他研究的某个特征，此特征又是明显导致对窄带成像结果产生影响或降低对喉癌检测的敏感性时则即便合并结果呈现明显异质性，也可能没有充足的理由进行降级。

还有一点，证据分级者需要注意间接性降级与不一致性降级的分析有时有重叠的部分，比如纳入研究患者的年龄跨度较大，即可能是间接性降级的原因，也可能为导致不一致性的原因，实际证据分级时不可以重复降级。

2.4 不精确性此条目主要考量的是系统评价纳入的不同研究合并结果的精确程度[16]。诊断性试验系统评价的不精确性可从纳入研究的样本总量和合并结果的95%置信区间宽窄进行判断。前者是指纳入研究的样本总量应达到开展同样一项诊断性试验检验效能所需的最小样本量，目前比较常用的诊断性试验样本含量的估算方法包括公式计算法[17]、画图法[18]、查表法[19]，若经计算后发现样本总量不满足最低标准，则考虑降级；后者需要基于临床专家针对某项诊断性试验给出的能够接受的置信区间绝对宽度[20]进行判断，若某项诊断试验合并的结果超出临床专家可接受的置信区间绝对宽度范围，则考虑则可能考虑降级。

假如临床医生要求窄带成像技术诊断喉癌的灵敏度和特异度具有相似的准确性，且对其可接受的置信区间下限均为0.90。本例中灵敏度的中位数为0.93，特异度的中位数位0.96，以灵敏度为参数经公式计算所需样本量为1186，以特异度为参数经公式计算所需样本量为284，为保证诊断试验的准确性均达到预期值，理论最小样本量为1186，本案例纳入样本总量为2205，满足最低理论样本量标准。图2显示灵敏度合并结果为0.94[95%CI（0.91，0.96）]，图3显示特异度的合并结果为0.94[95%CI（0.90，0.97）]，两者置信区间的下限均高于临床专家可接受的阈值下限。因此，真阳性、假阳性、真阴性和假阴性4个结局均在“不精确性”这个领域上不降级。

2.5 发表偏倚“发表偏倚”是判断符合系统评价纳入标准的相关文献的纳入是否全面（如是否检索灰色文献、是否检索在研试验、是否进行语言或数据库的限制等）[21]。发表偏倚常用的检验方法包括漏斗图法[22]、Begg’ s 检验[23]、Egger’s检验[24]、Deeks’检验[25]。

本案例中，Deeks’漏斗图结果显示，P=0.648＞0.05，表明漏斗图对称，存在发表偏倚的可能性较低，可考虑不降级。

3 GRADEpro GDT操作流程

诊断性试验系统评价在GRADEpro GDT中操作的基本流程如图5所示。创建个人账号及新项目的过程同干预性系统评价，可查阅本研究团队发表的系列文章[4]。

项目创建完成后，点击“Add diagnostic question”添加诊断问题。进入补充诊断问题相关信息界面（图6）。诊断问题的格式在GRADEpro GDT中可供选择的有2种形式：①should index test be used to diagnose target condition in health problem and/or population?②should index test vs comparator test be used to diagnose target condition in health problem and/or population?。两种问题格式的变换通过“+”完成。此外诊断问题的相关信息还包括应用情景（Setting）、待评价诊断试验的诊断界值（Cut-off value for index test）、参考试验（Reference test）、参考试验的缩写（Short name for reference test）、参考试验试验的诊断阈值（Threshold value for reference test）等信息。相应的信息填写完成后，可点击“”进行保存，也可点击“”或“”直接关闭此界面，系统默认保存之前操作记录。若不保留此诊断问题的任何信息，可通过“”进行删除。

诊断问题信息录入后，左键单击该诊断问题，进入结局指标录入界面（图7）。

图5 诊断性试验系统评价在GRADEpro GDT操作的基本流程

图6 GRADEpro GDT诊断问题基本信息录入界面

点击或定位“i”可以获得详细的相应项目介绍的信息。在正式录入结局指标信息前，首先选择数据的来源类型（Source of data），GRADEpro GDT提供3种数据来源：①单一研究（from single study）：一个或多个研究符合纳入标准，但是没有纳入Meta分析；②多个研究的合并结果：多个研究符合纳入标准，且以灵敏度和特异度为结局指标进行Meta合成；③多个研究符合纳入标准，但由于个研究间存在的不一致性等原因导致数据不能定量合成。其次根据实际诊断问题的结局指标等信息录入完成，包括灵敏度、特异度、疾病发病率、相应结局指标、纳入研究的数量、试验设计类型、GRADE分级结果等信息。假设本案例喉癌的发病率为每1000人0.9%，录入上述GRADE分级结果，录入完成界面如图8所示。右侧“Test accuracy CoE”一列即为GRADEpro GDT根据“偏倚风险”、“间接性”、“不一致性”、“精确性”、“发表偏倚”的评估结果自动生成的证据体整体质量的结果。需要注意的是验前概率（pre-test probability）是根据录入的发病率，软件自动计算产生的结果，若不考虑诊断试验的验前概率或无法获知疾病的发病率，可不输入此项内容。录入完成后，可点击右上角“”，选择相应的文件格式进行保存。表2为窄带成像技术诊断喉癌的灵敏度和特异度GRADE分级结果。有中等质量的证据显示，窄带成像技术诊断喉癌具有较高的灵敏度和特异度，但无法获悉该诊断试验结果对患者重要结局的影响，指南制订者在制订诊断类推荐意见时需要多加考虑。

4 小结

图7 GRADEpro GDT诊断问题结局指标录入界面

图8 窄带成像技术诊断喉癌GRADE分级结果

表2 窄带成像技术诊断喉癌的灵敏度和特异度GRADE分级结果

诊断试验研究相较治疗、预后等研究更为复杂。GRADE用于诊断试验性系统评价的证据分级仍处于不断发展和完善的过程。笔者仅基于GRADE方法学系列文章及GRADE手册，简要介绍GRADE使用的基本原理及使用GRADEpro GDT在线工具完成证据分级的基本方法。GRADE在诊断试验性系统评价中的应用及制订诊断类推荐意见的方法学仍需临床专家、循证方法学家、流行病学家等持续探讨。

临床实践指南制订方法--GRADE在诊断试验系统评价中的应用

1 GRADE在不同诊断试验系统评价类别中的分级原理

2 GRADE在诊断准确性试验系统评价中的应用

3 GRADEpro GDT操作流程

4 小结

临床实践指南制订方法
--GRADE在诊断试验系统评价中的应用