临床实践指南综合评价的思考与探索

2023-02-10 03:05孙雅佳史乾灵郭强强苏仁凤张广新曹锡超陈耀龙

协和医学杂志 2023年1期

孙雅佳，史乾灵，杨楠，郭强强，苏仁凤，陈泽，张广新，曹锡超，陈耀龙，，5，6

兰州大学 1公共卫生学院 2第一临床医学院 3基础医学院循证医学中心 4第二临床医学院，兰州 730000 5中国医学科学院循证评价与指南研究创新单元兰州大学基础医学院，兰州 730000 6世界卫生组织指南实施与知识转化合作中心，兰州 730000

临床实践指南(下文简称“指南”)对医务工作者和患者具有重要的指导作用[1-3]。据调查显示，国内外指南的数量一直在快速增加[4-7]，2021年期刊发表的由中国学者牵头制订的指南达352篇[8]，2022年1—9月在国际实践指南注册与透明化平台(Practice guideline REgistration for transPAREncy，PREPARE)注册的指南已达325篇[9]。然而，只有严格按照方法学规范制订的循证指南才能使患者从中获得最大的潜在健康获益[10-11]。因此，指南制订完成后对其质量进行全面、科学的评价，是实施指南前的必要环节。本文将系统介绍现有的指南评价工具，探讨指南综合评价的方法，以期为指南的全面评价和高质量制订提供参考。

1 指南评价的现状与发展

对某一领域相关或相似的指南进行系统评价，一方面可全面了解指南制订方法的严谨性和报告内容的完整性，另一方面通过对指南所包含的推荐意见进行分析比较(推荐方向、推荐强度和所基于的证据质量)，有利于医务人员更好地选择和应用相关干预措施[12]。

评价工具是评价体系的核心。1992年，美国医学研究所(Institute of Medicine，IOM)较早提出了评价指南质量的试用工具[13]。此后，Hayward等和苏格兰校际指南协作网(Scottish Intercollegiate Guidelines Network，SIGN)等相继发布了其他在国际上产生较大影响力的指南质量评价工具[14-19]。2000年，Graham等[20]开展了对指南质量评价工具的比较研究，共纳入了15个评价工具，涉及8～142个指标或条目。此后，Vlayen等[21]进一步汇总和分析了24个指南质量评价工具，其中包括由13个国家的研究者共同开发并于2003年发布的评价工具AGREE(Appraisal of Guidelines for Research & Evaluation Instrument)[17]。2009年，AGREE国际协作组对AGREE工具修订后推出了AGREE Ⅱ[22]。2013年，Siering等[23]对1995—2011年发表的指南评价相关原始研究和二次研究进行汇总分析后共确定了40个评价工具，评价的主要焦点为质量维度。随着循证指南在各个国家的深入发展，越来越多的指南质量评价工具被开发和应用。在我国，王吉耀等[24]基于AGREEⅡ框架研制了中国指南评价工具AGREE-China并得到了应用[25]。

完整、充分和透明的报告对于指南质量评价以及传播与实施至关重要。2017年，国际实践指南报告规范(Reporting Items for Practice Guidelines in Heal-thcare，RIGHT)发表，其可用于评价指南的报告质量[26]。随后，相继有学者在RIGHT的基础上开展相关领域的扩展研究[27-31]。为促进指南的透明化制订，2021年杨柳等[32]构建了针对指南透明度的评价工具。

实施高质量的指南有助于改善患者预后，降低医疗费用[33-34]。而医务人员对推荐意见的遵循程度取决于指南的可实施性。2005年，美国学者建立了由10个维度、31个量化条目组成的指南可实施性评价工具(Guideline Implementability Appraisal，GLIA)[35]。此后，加拿大学者提出了包含8个维度、22个定性条目的指南实施评价框架[36]。我国学者也分别于2020年和2022年针对指南的适用性和实施性研发了相关评价工具[37-39]。

2017年，王琪[40]对各种类型的指南评价工具进行了汇总和比较，本文在该研究的基础上进行更新，纳入了近年来研发的AGREE和RIGHT工具扩展版等新评价工具，并按照研发时间、适用人群、评价维度等对各个工具进行综合梳理，详见表1。通过对现有指南评价工具的分析，发现评价维度主要聚焦于方法学质量、报告质量以及指南的可实施性或适用性[41-47]，目前尚无评价工具同时考虑上述多个维度，现有评价工具的条目之间相互交叠或不一致，且大部分工具缺乏严格的信度和效度验证。因此，研发一套更为全面的指南综合性评价工具势在必行。

表1 临床实践指南评价工具及其特征

2 指南综合评价工具的研发与应用

2021年，世界卫生组织指南实施与知识转化合作中心和中华医学会杂志社联合成立了一个多学科专家工作组，在系统分析现有各类指南评价工具后，通过文献调研、德尔菲调查、层次分析法和共识会议，研制了针对指南科学性(Scientific)、透明性(Transparent)和适用性(Applicable)的评级(Rankings)工具(缩写为“STAR”)[48]，并使用STAR对2020年指南评价报告研究中得分靠前的50部指南进行预评价，在信效度检验和易用性评价的基础上最终形成了包含不同权重的11个领域共39个条目的综合评价体系[48]。此后，工作组应用STAR对2021年医学期刊发表的中国指南和共识再次进行了验证性评价[8]。相较于既往指南评价工具，STAR具备以下特点：

第一，在研发团队方面，STAR工作组成员由来自15个省、直辖市、自治区的79名学者构成，同时覆盖华东、华南、华西、华北和华中五大区域，涵盖指南方法学、临床医学、流行病学、统计学等34个专业和学科，具有较好的地域代表性和专业代表性。

第二，在研发方法方面，同时采用了概况性评价(scoping review)、德尔菲法、层次分析法和“面对面”共识会议；条目形成后，分别从内在信度、评价者间信度、内容效度、效标效度和易用性评估5个方面进行了测试和验证。

第三，在评价维度方面，在体现全面性的基础上，根据条目的内在联系，将其重新划归为科学性、透明性和适用性3个维度，包含11个领域、39个条目，其中特别聚焦于指南的入口把关(指南的注册)和出口质控(指南的发表)。

第四，在指标权重方面，既往多种评价工具(包括AGREE，RIGHT和GLIA等)均未对条目赋权重，而STAR工具采用层次分析法确定了条目权重。研发时分为三层，STAR工具为最高层，评级领域设置为中间层，领域包含的条目设置为最底层，研发人员对不同层级进行打分。根据重要程度的打分结果，使用层次分析软件(网络层次分析法辅助软件yaanp V 2.3)构造判断矩阵，得出各领域权重和领域内各条目权重。

第五，在评价对象方面，STAR工具除纳入指南全文外，还通过联系通信作者，获取指南制订过程中的相关支撑材料，包括计划书、利益冲突声明和证据总结表等，通过对原始数据真实性和全面性的核查，进一步确保了评价结果的可信度。

第六，在评价效率方面，此前使用1种工具评价1篇指南需3～4人(如AGREEⅡ)。如要达到综合评价目的，需同时使用2种及以上评价工具，用时可能超过2 h(如同时使用NEATS[49]和其他工具)。而采用STAR工具后，评价1篇指南需2～3人，每人平均用时约20 min即可完成，明显节省了评价人员的时间成本，提升了评价效率[8,49]。

第七，在结果解读方面，仅使用一种评价工具评价指南，结果解读较为片面和单一，但如果同时采用多种评价工具，则难以对最终结果进行恰当解读。此外，不同评价工具的条目之间又存在重叠或冲突，进一步增加了结果解读的难度，可能使读者产生歧义和误解。而采用STAR工具，可直接给出综合评价后的总分，同时采用标准九分法，将结果分为9个不同等级，以1.0～5.0星级表示，进一步增强了使用者对结果的理解。

第八，在评级人员方面，STAR工具的评级人员在评价指南前需经过统一培训和认证，并签署利益冲突声明，评价过程公开透明。此外，STAR工作组根据历年中国学者牵头制订指南和共识的专业和领域，于2022年9月成立了37个专科委员会，聘任来自全国21个省级行政区的各专科委员会主任委员38名、副主任委员95名、委员300余名，分专科开展后期相关评级工作。

第九，在评级数据方面，为方便医务人员检索和使用评级结果，STAR工作组建立了专门的网站和数据库[50]，该数据库收录了纳入评级的指南和共识的分数和相对排序，并对用户开放了互动点评功能，医务人员可根据指南和共识在临床中的使用情况进一步为其打分，提出改进措施。STAR工作组将对这些评分进行审核与整合，确保评级结果能够在一定程度上体现用户的反馈。此外，该数据库还根据每篇指南和共识中提出的研究缺口(缺乏证据或仅有低质量证据)，开发了临床研究选题数据库子库，为研究者开展能够改写指南的临床研究提供参考和依据。

第十，在评级体系建设方面，除上述提到的专科评级委员会外，STAR工作组还建立了方法学委员会(针对STAR条目进行更新和完善)、实施委员会(针对STAR工具遴选的高质量指南进行传播与实施)、培训和教育委员会(开展培训班和研讨会，编写评级教材)以及认证委员会(对未纳入评级清单但有评级需求的制订机构提供指南评级认证)。

目前，STAR工具在指南评价中已取得了较好的验证和应用[8]，未来STAR工作组将开展各专科评级工作，从而更为全面、连续地观察中国指南的进一步发展。此外，工作组还将逐步纳入国际指南和共识，对其质量进行综合评级，进一步落实《“健康中国2030”规划纲要》中提出的相关要求，即“在相关国际标准、规范、指南等的研究、谈判与制定中发挥影响，提升健康领域国际影响力和制度性话语权”[51]。

3 小结

本文对当前国内外指南评价工具和方法进行了阐述，并重点介绍了基于科学性、透明性和适用性的综合评级工具STAR。指南的综合评级能够为医务人员提供可信的指导，为指南制订者提供针对性的改进建议，为医保部门遴选药品和医疗器械提供参考。未来仍需进一步加大对指南综合评价的研究和应用。

作者贡献：孙雅佳负责资料搜集、整理分析及论文初稿撰写；史乾灵、杨楠、郭强强、苏仁凤、陈泽负责资料补充及论文初稿修订；张广新、曹锡超负责资料核查与论文修订；陈耀龙负责论文选题、结构设计、团队组建、质量控制及论文审校。

利益冲突：所有作者均声明不存在利益冲突