刘云兰,张静怡,史乾灵,杨 楠,王子君,罗旭飞,任梦娟,荀杨芹, 周 奇,刘 辉,吕 萌,陈耀龙,,5,6,7,8,9
兰州大学 1公共卫生学院 3第一临床医学院 4基础医学院循证医学中心 5健康数据科学研究院,兰州 730000 2广东省第二人民医院临床流行病与方法学中心,广州 510317 6中国医学科学院循证评价与指南研究创新单元,兰州大学基础医学院,兰州 730000 7世界卫生组织指南实施与知识转化合作中心,兰州 730000 8Cochrane中国协作网兰州大学分中心,兰州 730000 9兰州大学GRADE中心,兰州 730000
高质量指南的制订不仅应符合严格的方法学标准,还应清晰完整地对其关键信息进行报告[1-2]。指南的方法学质量反映了指南制订方法和过程的可靠性,以及推荐意见是否基于当前最佳研究证据[3]。报告质量反映了指南的撰写是否清晰、明确和格式化,是否便于使用者理解和应用,以及是否提供了足够的细节供读者判断其可靠性[4]。指南研究与评价工具(Appraisal of Guidelines for Research and Evaluation Ⅱ,AGREE Ⅱ)[5]和卫生保健实践指南的报告条目(Reporting Items for Practice Guidelines in Healthcare,RIGHT)[6]是目前相对权威且接受度较高的指南方法学质量和报告质量评价工具。前期研究显示,我国指南的方法学质量和报告质量与国际指南存在较大差距[7-8]。对指南进行持续评价,有助于了解指南质量的变化趋势,发现存在的问题,并找出相应对策[9]。本研究将对2019年期刊公开发表的中国临床实践指南(下文简称“2019年中国指南”)的方法学质量和报告质量进行评价,并与此前国内外相关评价结果进行对比分析。
纳入符合美国国家医学院1990年或2011年定义的指南[10],第一作者单位为中国机构,公开发表于同行评审期刊,正式刊出时间为2019年1月1日至2019年12月31日,语种为中文或英文。研究人员每2人一组独立在中国知网、万方数据知识服务平台、中国生物医学文献数据库进行中文指南检索,在PubMed数据库进行英文指南检索,并补充检索中华医学期刊全文数据库、香港期刊在线、港澳期刊网、澳门期刊论文索引及台湾期刊论文索引系统。具体文献检索策略及筛选标准详见《2019年期刊公开发表的中国临床实践指南文献调查与评价——制订人员及工作组情况》[11]。
1.2.1 方法学质量评价
通过方法学培训的16名研究人员作为评价者,每4人一组应用AGREEⅡ工具独立地对纳入指南进行方法学质量评价。评价内容分为6个领域共23个条目,包括:范围和目的(3个条目)、参与人员(3个条目)、制订严谨性(8个条目)、表达清晰性(3个条目)、应用性(4个条目)、编辑独立性(2个条目)。评价者根据指南内容对各条目进行1(很不同意)~7分(很同意)的评分。评价者间的组内相关系数(intraclass correlation coefficient,ICC)≥0.75时,认为一致性良好[12]。对于AGREEⅡ得分,仅计算2019年中国指南的整体得分,并以60%作为指南AGREEⅡ得分的合格阈值[13]。各领域得分和平均得分的计算方法如下:
1.2.2 报告质量评价
通过方法学培训的16名研究人员作为评价者,每2人一组应用RIGHT工具独立地对纳入指南进行报告质量评价,对于评价结果不一致的条目通过讨论达成一致,若讨论后仍无法达成一致,则请第三方协商解决。评价内容分为7个领域共35个条目,包括:基本信息(6个条目)、背景(8个条目)、证据(5个条目)、推荐意见(7个条目)、评审与质控(2个条目)、资助与利益冲突的声明和管理(4个条目)、其他方面(3个条目)。每个条目的评价结果为“报告”或“未报告”,“报告”是指该条目相关信息部分或完整呈现,“未报告”是指该条目相关信息完全缺失或指南呈现内容不符合该条目的评价要求。对于RIGHT报告率,仅计算2019年中国指南的整体报告率,并以60%作为指南RIGHT报告率的合格阈值[12]。各条目报告率、各领域报告率和平均报告率的计算方法如下:
采用Microsoft Excel 2019软件进行数据整理及AGREE Ⅱ得分、RIGHT报告率的计算;采用SPSS 26.0软件进行ICC值的计算。计数资料采用频数和百分数表示,计量资料采用均数±标准差表示。
纳入指南按照以下亚组进行分析:发表语种(中文、英文)、注册状态(注册、未注册)、制订机构(卫生管理部门、学会/协会、医院、其他)、期刊收录情况[中国科学引文数据库(Chinese Science Citation Database,CSCD)收录期刊、非CSCD收录期刊、科学引文索引(Science Citation Index,SCI)收录期刊、非SCI收录期刊]。
最终纳入2019年中国指南226篇。语种为中文的指南187篇,其中114篇(61.0%,114/187)发表于CSCD收录期刊;语种为英文的指南39篇,其中34篇(87.2%,34/39)发表于SCI收录期刊。12篇(5.3%,12/226)指南报告已在国际实践指南注册平台(International Practice Guidelines Registry Platform)进行注册。
2.2.1 评价者一致性分析
图 1 2019年期刊公开发表的中国临床实践指南AGREEⅡ各领域得分 注:D1:范围和目的;D2:参与人员;D3:制订严谨性;D4:表达清晰性;D5:应用性;D6:编辑独立性
4组评价者的组内ICC值分别为0.95、0.91、0.95、0.91,组内评价者一致性良好。
2.2.2 AGREEⅡ各领域得分
2019年中国指南AGREE Ⅱ 各领域评价结果见图1。平均得分为25.3%;得分最高的领域为“表达清晰性”领域(39.1%);得分最低的领域为“应用性”领域,仅14.6%,其次为“制订严谨性”领域(14.9%)。
2.2.3 AGREEⅡ得分亚组分析
AGREE Ⅱ得分亚组分析结果见表1。对于不同语种的指南,AGREE Ⅱ平均得分仅相差0.1%;注册指南的AGREE Ⅱ平均得分较未注册指南高24.3%(48.3%比24.0%),各领域得分也高于未注册指南,尤其是“制订严谨性”(45.3%比13.2%)和“表达清晰性”(68.3%比37.4%)领域。卫生管理部门制订的指南AGREE Ⅱ平均得分较学会/协会制订的指南低10.1%。
2.3.1 RIGHT各领域和各条目报告率
2019年中国指南RIGHT各领域报告率见图2。指南平均报告率为33.9%;报告率最高的领域为“基本信息”领域(59.2%),其次为“背景”领域(51.9%);报告率最低的领域为“评审与质控”领域(4.4%),其次为“证据”领域(10.8%)。
指南RIGHT评价各条目报告率见图3。报告率低于10%的条目共11个,主要分布于“证据”和“评审与质控”领域。报告率高于60%的条目共7个,主要分布于“基本信息”和“背景”领域。
表 1 2019年期刊公开发表的中国临床实践指南AGREEⅡ得分亚组分析
图 2 2019年期刊公开发表的中国临床实践指南RIGHT各领域报告率 注:D1:基本信息;D2:背景;D3:证据;D4:推荐意见;D5:评审与质控;D6:资助与利益冲突的声明和管理;D7:其他方面
2.3.2 RIGHT报告率亚组分析
RIGHT报告率亚组分析结果见表2。不同语种的指南RIGHT平均报告率仅相差1.9%。注册指南的平均报告率较未注册指南高21.2%(54.0%比32.8%),除“基本信息”领域外,注册指南其他各领域的报告率均高于未注册指南,尤其是“证据”和“推荐意见”领域,注册指南较未注册指南的报告率高约40%。卫生管理部门制订的指南较学会/协会制订的指南平均报告率低11.8%。
本研究运用AGREEⅡ和RIGHT工具对2019年中国指南进行评价发现,尽管其方法学质量的平均得分和报告质量的平均报告率仍未超过60%,但与2014—2018年中国指南[7]相比,2019年中国指南的AGREEⅡ平均得分提高了5.9%(25.3%比19.4%),RIGHT平均报告率提高了5.3%(33.9%比28.6%)。究其原因,一方面随着指南方法学在国内的发展,越来越多的指南制订者开始学习指南方法学或邀请指南方法学家参与指南的制订工作。另一方面,持续的指南评价及其结果的发布也推动了指南制订者对指南质量的重视[8]。然而与国际或世界卫生组织(World Health Organization,WHO)指南相比,仍然存在较大差距,2011—2017年发表的国际指南AGREEⅡ平均得分及2007—2017年WHO批准指南的RIGHT平均报告率均约为2019年中国指南的2倍(46.0%比25.3%;78.0%比33.9%)[14-15]。
图 3 2019年期刊公开发表的中国临床实践指南RIGHT各条目报告率
从具体领域分析,在方法学质量方面,2019年中国指南的AGREE Ⅱ各领域得分相较于此前的中国指南均有一定程度提升(图4)。但“制订严谨性”和“应用性”领域的AGREE Ⅱ得分提升速度相对缓慢,仍为2019年中国指南AGREE Ⅱ得分最低的两个领域[7,14],而国际指南在“制订严谨性”和“应用性”领域AGREE Ⅱ得分虽较中国指南高,但相较于其他领域得分亦较低。有研究指出,“制订严谨性”是影响指南质量最大和最直接的因素之一[4],能够反映从证据至推荐意见这一过程的科学性和透明性。因此,为更好地提高中国指南的方法学质量,指南制订者在形成推荐意见时应加强对当前研究证据的全面检索和评价,遵循严格的方法学过程[18],并充分考虑可能的利弊(如对健康的益处、副作用及风险)和影响推荐意见的其他因素(如目标人群的价值观和偏好、成本和资源利用、公平性和可接受性等)。在形成推荐意见后,还应收集除指南制订者外更广泛的利益相关者对指南的建议和反馈,进一步提高指南的质量[10]。此外,为使指南真正服务于临床实践,在制订过程中有必要考虑指南的应用性,如明确指南应用时可能的促进或阻碍因素,潜在的资源投入,以及将推荐意见应用于实践的配套工具等[19]。
表 2 2019年期刊公开发表的中国临床实践指南RIGHT报告率亚组分析
图 4 期刊公开发表的中国临床实践指南与国际或WHO指南比较[7- 8,14- 17]
在报告质量方面,与2014—2018年中国指南相比[7],大部分领域的RIGHT报告率有一定的提高,而“证据”和“评审与质控”领域的RIGHT报告率反而降低,此为2019年中国指南报告率最低的2个领域。“证据”领域虽是WHO指南报告率最低的领域,但其报告率远高于2019年中国指南(66.8%比10.8%),“评审与质控”领域则是WHO指南报告率最高的领域(96.0%比4.4%)[15]。从具体条目内容来看,“证据”和“评审与质控”领域主要是对AGREEⅡ“制订严谨性”领域内容的全面报告。因此,指南制订者不仅应按照严格的方法学过程制订指南,同时还应对指南制订过程的具体信息如证据选择标准、证据评价方法、外审过程等进行清晰完整地报告,以便于使用者判断指南的质量[20]。此外,与2014—2018年中国指南相比,2019年中国指南在“资助与利益冲突的声明和管理”领域的报告率有较大提升,但其报告率仍较低,且与WHO指南存在较大差距(80%比22.3%)。主要表现为,虽然近1/3的指南报告了资助来源以及超过半数的指南报告了是否存在利益冲突,但对于资金在指南中的作用以及利益冲突的管理办法报告率极低,而指南资助和利益冲突信息报告的缺失或报告不全面,也会对推荐意见的独立性、透明性和公平性产生重要影响[21]。
对指南进行亚组分析发现,注册指南的方法学质量和报告质量均高于未注册指南,提示指南注册不仅可以促进指南制订的科学性和透明性、避免重复制订,还可通过上传计划书等形式确定指南制订所需遵循的步骤和方法,有助于提高指南的方法学质量,并增加对指南重要信息的报告[22]。
为进一步提高我国指南的整体质量,国家相关部门应加大对指南的监管,提供充分的资源支持;指南制订者应遵循国际公认的指南标准和制订方法科学制订指南,特别是指南制订前应在国际实践指南注册平台(http://www.guidelines-registry.org)进行注册并上传计划书。指南完成后,应参考RIGHT进行指南的规范撰写[6];期刊可将指南报告规范引入稿约;研究人员也应持续开展指南相关研究和指南评价,探索如何进一步推动指南质量的提升。
本研究在此前指南评价的基础上对2019年中国指南进行了连续评价,可更好地揭示我国指南方法学质量和报告质量的发展趋势,探讨我国指南持续存在的问题并提供解决方案。本研究存在以下局限性:(1)仅评价了期刊正式发表的指南;(2)指南方法学质量的评价主要取决于作者对指南的报告,对于报告不充分的指南未联系作者进一步获取相关数据,可能导致评价无法准确反映指南的方法学质量。
2019年中国指南方法学质量和报告质量较此前逐步提高,但与国际水平相比仍然存在较大差距。注册是提高指南方法学质量和报告质量的重要途径。建议指南制订者在指南制订前先进行注册,并遵循国内外指南制订的原则、方法和流程,提高指南制订的科学性、透明性以及指南报告的规范性。
作者贡献:刘云兰、张静怡、史乾灵、杨楠、王子君、罗旭飞、任梦娟、荀杨芹、周奇、刘辉、吕萌负责指南的评价;刘云兰、张静怡负责统计数据并撰写文章;史乾灵、杨楠、王子君、罗旭飞、任梦娟、荀杨芹、周奇、刘辉、吕萌负责修改初稿;陈耀龙负责文章选题、结构设计、团队组建、数据核查及文章修订。
利益冲突:所有作者均声明不存在利益冲突
志谢:感谢刘萧、马艳芳、卢姝亚、李乐、王健健、赵思雅、郭强强、吴守媛协助对指南进行AGREE Ⅱ和RIGHT评价。