国际临床指南评价工具的发展与启示

2015-03-22 06:48士靖

中华医学图书情报杂志 2015年1期

，士靖，，

临床指南是循证医学资源的重要组成部分，也是循证医学在医疗实践中的具体应用[1]。根据1990年美国医学研究所(IOM)的定义，临床指南是系统开发的多组临床指导意见，以帮助医生和患者针对特定的临床问题做出恰当处理，选择和制定适宜的卫生保健服务[2]。其作用是规范诊疗流程，为临床决策提供依据，以减少医疗差异、提高临床质量和效率、控制医疗保健费用、提高病人医疗活动自主性。因此，临床指南得到临床医生和管理者的重视。但随着指南文献的不断增加，同一个主题的不同指南可能有几种不同、甚至相互矛盾的推荐措施，在临床指南的使用过程中，过去开发的许多指南经临床检验也被证明是不可信,有些甚至有严重错误。因此，要通过临床指南评价发现指南开发过程中的程序问题、方法学缺陷和潜在利益偏倚并加以解决，保证指南的严谨性、正确性、及时性与可行性。目前，主要有美国、加拿大、英国、意大利、澳大利亚、法国、德国、西班牙等国家和AGREE、WHO等国际组织制定的20多个临床指南评价工具[3]。这些评价工具的条目数量和评价形式各不相同，也各有优劣。

从20世纪80年代起，我国卫生部及各医学协会陆续开发了一些临床指南，近年也有学者开始关注指南评价问题。但是国内对临床指南的评价，多是对评价原则与方法的探讨[4-5]、对比分析某一类疾病的不同指南[6]、用文献计量方法分析指南的影响力[7]，或直接使用国外评价工具[8-9]，或使用以AGREE为模板稍作改动的中文评价工具[10]，评价结果都不理想。目前我是尚无一个适用本国国情的、正式的、可以通用的评价工具。因此，本文拟通过介绍国外临床指南评价工具的开发历程、出台背景、演化过程、发展规律和存在的问题，为开发本土化的临床指南评价工具提供可借鉴的国际经验。

本文以SCI，PubMed和Google Scholar为数据源，使用“guideline”，“appraisal tools”，“quality”，“assessment”和“evaluation”等词进行检索，对检出文献进行分析，锁定43个曾被相关研究人员认定为评价指南质量的工具。再对所得文献的参考文献追溯检索，得到36篇以各种形式发表的评价工具文献。选择其中的英文文献，以“以评价指南质量为目的、有明显清晰的评价标准条目的通用评价工具的最新版本”为纳入标准，得到22个符合标准的评价工具。通过内容分析，确定各评价工具的条目内容。摘取相关问题或陈述，根据问题内容对条目进行分类，最后将各条目归入指定的质量维度。由于各评价工具的条目不尽相同，选取业内认可程度最高、评价范围相对全面的AGREE评价工具，以其6个维度和23个条目的框架为基础，汇总22个工具的维度和条目信息。为便于观察，按照细化程度或要求的严格程度对各条目进行了评级，并用星号表示(表1)。

1 临床指南评价工具的发展

通过表1回顾临床指南评价工具发展历程,并对22个临床指南评价工具进行比较。

最早的指南评价工具可以追溯到1992年。IOM从指南自身特点出发，提出理想指南应该具有8个属性，并在此基础上开发出了一个暂时的指南质量评价工具[11]。该工具主要评价了指南的8种属性，其中4个考察指南本身的临床适用性或适用范围、临床的灵活性、可靠性以及有效性和可重复性，另外4个考察指南开发过程的清晰度、多学科的过程、定期审查和参考文献。这是循证医学界公认的第一个指南质量评价工具[3]，但由于其操作繁琐，需要多个领域的专家共同参与，始终没有投入使用。此后以该评价工具为基础，出现了不少的变型工具,如Shanefelt 1999[12]、Sanders 2000[13]、 Cluzeau 1999[14]和Shiffman 2003[15-16]。

从表1可见，最初的指南评价工具的评价范围主要集中在指南的范围与目的、开发过程的严谨性和语言清晰性三个方面，例如Hayward 1995[17]和Calder 1997[18]。而较少提及参与人员、编辑独立性和指南的应用性。Graham等[19]在2000年发表的一篇综述中对13种临床指南评价工具进行比较时，发现单独运用这13种评价工具中的任何一种都不足以完整而准确地评估一篇临床指南。

1999-2003年是指南评价工具开发的高峰期，Shaneyfelt 1999等13个指南陆续出台[12-16，20-28]。这些评价工具包含的条目较多，维度也较全面。其中APA 2002的条目和维度数均为最多，有21个维度下的47个条目[22]。但APA评价要求过高(如要求具有相关学科专家、科学方法论专家、熟悉患者状况的代表、对多样化问题具有专业知识和敏感性的分析成员同时参与)，导致最终没能通过有效性检验。在13个评价工具中，通过有效性检验的评价工具只有Shaneyfelt的指南质量评估问卷GQAQ 1999[12]和 Cluzeau的临床指南评估工具AICG 1999[14]。Cluzeau信度较高，但其量表有37个条目，临床应用不方便，因此也没有得到大范围的推广。

在吸收上述量表开发的经验教训的基础上，2001年Agrawal等人开发了一个适用于计算机的指南质量自动化评价工具GEM-Q[29]。它是一个基于可扩展标记语言(XML)的应用，根据指定的质量评价工具提取出指南文件中的特定文本内容，实现了指南质量评价的自动化[30]。

对指南开发起推动作用的是2003年出台的临床指南研究与评价工具(AGREE)[31]。该工具将指南评价定义为：“充分考虑指南制定的潜在偏倚，强调推荐建议的内/外部真实性和可行性”。AGREE量表在Cluzeau量表的基础上进行了精简，其有效性已被证实，目前国际上有其诸多语种的翻译版本。AGREE已被百余篇文献引用，得到国际上多个卫生保健机构的认可，成为指南质量评价的“金标准”。

从2003年以后，指南评价工具开始注重用户体验。Shiffman 2003[15-16]要求尽可能根据指南中的医疗步骤和决策，给出具体的实施步骤图；Hindley 2005[32]要求用易于理解的方式总结证据，有相关的知识作为附录，以便于操作者理解；Hargrove 2008[33]要求通过用户调查寻求反馈意见。

2005年，Vlayen等[3]对指南评价工具进行了系统评价。该研究纳入了24个评价工具，涉及10个质量维度下的50个条目，得出的结论是AGREE是唯一通过验证的评价工具，AGREE使用数字计分标度，很容易比较指南之间的分数，比Cluzeau评价工具更加精简(仅包含23个项目并归入6组维度)。但同时指出了AGREE的缺陷：没有设置“好”与“坏”的分数阈值来定性判断指南；没有评价指南的临床内容，也没有评价得出各项推荐建议的证据质量。Vlayen等指出，这些是现有评价工具普遍存在的问题。

为了进一步提高AGREE的科学性及可行性，AGREE协作网的部分成员组建了AGREE Next Steps协会对AGREE工具开展了修订工作，并于2009年发布了AGREEⅡ[34]和新版用户手册。与原版AGREE 相比, AGREEⅡ作了以下改进[35]：各条目以7分表, 代替原版的4分等级表；用户手册对23个条目进行了清晰的说明，明确定义了各条目中的术语概念；提供了使用该评分表评价的案例，为用户的评价提供了详细指导；增加了“何处查找相关信息”部分, 指导评价者在临床指南的哪个部分能找到相关信息；增加了“如何评价”部分, 描述评价标准的细节信息和评价各条目的理由。2012年，国内学者翻译和引进了修订版AGREE，并开始大量使用AGREE进行评价。

GLIA 2011是一个侧重于评价指南应用性的工具。耶鲁医学信息学中心的Shiffman等人研究发现，大量资源用于临床实践指南的开发，但是临床实践指南在应用中还存在问题，于是开发了GLIA 2011[36]。GLIA旨在帮助提早发现影响临床实践指南应用的内部因素并及时修改完善，提高指南质量。QUADAS 2003是一种专门用于诊断性指南的质量评价工具[37]。还有一些工具虽然并不是严格意义上的指南质量评价工具，但是为评价和提高指南质量提供了很好的借鉴，许多研究人员也将其列为评价工具进行研究，如GRADE，ADAPTE和Guideline 2.0。

GRADE是由WHO的19个成员国和国际组织2000年成立的“推荐分级的评价、制定与评估工作组(Grades of Recommendations Assessment,Development and Evaluation，GRADE)”2004年推出的一个证据质量分级和推荐强度系统[38]。它明确界定了证据质量和推荐强度，对证据的升降级有明确标准，从多角度阐释推荐意见的强弱标准，为指南开发特别是推荐意见的质量提供保障。Cochrane即利用该系统对系统评价的质量进行判断，并使用GRADEpro软件对评价结果进行总结[39]。ADAPTE是为临床实践指南的改编提供指导的工具，在指南开发领域受到高度评价[40]，几乎包含了所有可被归入“信息检索”和“证据评价”质量维度的问题，为指南更新提供指导[41]。Guideline(目前更新至Guidelines 2.0)是Schüenemann等人编制的指南开发所需物品、资源、步骤等的项目清单，为指南开发的所有阶段提供指导，从计划和提出推荐建议到实施、评价和更新，并试图找出现存开发过程和工具的缺陷，提供克服这些缺陷的机制[42]。

2 启示

从上述指南评价工具的开发历程可见，国外临床指南评价经历了一个不断改进、完善和优化的漫长过程。起初的指南评价因维度不够全面而无法通过有效性检验。随着评价维度不断增加，工具使用的便利性受到关注。AGREE是首个兼具维度全面性和使用便利性的评价工具，因此得以大范围推广。专门工作组或国际协作组织对AGREE的发展发挥了重要作用。从近期研究成果看，一些评价工具有放弃全面性评价而尝试从指南的某个方面进行有针对性评价的趋势。对我们的启示主要表现在以下几个方面。

2.1 临床指南评价应该更多地考虑利益冲突、病人意愿和社会价值取向

2002年，Guyatt等人的解释被公认为循证医学原理的成熟释义[43]。循证医学应“强调其自身如何形成一种人性化的医学实践方法，充分承认医生对社会的责任和深刻理解及同情病人的痛苦，并优先考虑医疗决策中病人和社会的价值取向和意愿，将医疗决策中病人和社会的价值取向和意愿作为评价指南质量的一个影响因素”[44]。几乎所有的评价工具都会评估文献搜索方法、证据质量、证据合成以及是否体现循证医学原则。临床指南开发者的利益、标准和价值观念间的冲突，以及病人的参与，都会影响指南的真实可信度，但现存的研究缺乏对这些因素的考虑[22，32-33，45-46]。

2.2 临床指南评价应兼顾全面性和实用性

从表1可以看出，AGREE是在 Cluzeau的基础上建立的，却得到广泛的使用。比较分析两者可以发现，AGREE使用数字计分标度，使得比较分数变得更容易；AGREE为评价者提供指导手册，便于使用者的理解和操作； AGREE比Cluzeau评价工具更加精简，仅包含23个项目并归入6组维度，但没有对维度“指南的发布”进行评价。总之，AGREE易于理解的同时也易于使用，并经过多方验证，被国际人士广泛接受。可见，临床指南评价工具并不是条目越多、维度越全面越好，还要兼顾使用上的便利性。因此我们对指南的评价应该详略得当、重点突出，并且注重评价工具的用户导向，如通过提供指南评价指导手册、自动化评价程序等途径提升用户体验。

2.3 指南评价工具应重视对临床内容的评价

现有的评价工具多是从开发流程、方法学上的严谨性、语言清晰度等方面对指南进行评价。或许开发者认为，只要开发过程严格遵守规则就能开发出高质量的指南。事实上，好的证据基础并不一定可以得出高质量的推荐意见[47]。因此我们应该积极寻找更能代表指南临床内容质量和正确性的指标进行评价。

2.4 优化指南评价工具的评分系统

各个评价工具都对指南的相应条目和维度进行质量分级，但并不是所有的条目和质量维度对指南的重要性都是相同的[19]。因此应当根据各维度的重要性分配给不同的分数权重，才能优化指南评价标准体系。

2.5 根据需要选择临床指南评价工具

指南评价分化为：全面化的指南评价、专门化的指南评价和指南开发指导手册三类，用户可以根据自己的需要选择相应的评价工具。如果评价的基本目标是了解指南适用性，GLIA工具较为合适，因为它评价了影响指南适用性的各个方面；如果评价目的是获取指南临床内容质量的信息，则ADAPTE更为适用，但对使用者的技能要求较高；如果目标是对指南进行全面性评价， AGREE II或德语版DELBI最适用[46，48]。