国外循证社会科学证据知识库的证据类型与标准探析及其启示

2023-02-22 00:35王思丽祝忠明李慧佳
现代情报 2023年2期
关键词:循证证据基础

王思丽 祝忠明 李慧佳

(中国科学院西北生态环境资源研究院文献情报中心,甘肃 兰州 730000)

近年来,随着循证医学相关的科学理念和方法逐渐在社会科学领域被越来越多地研究者以及决策者不断了解、掌握,继而认可和应用,循证社会科学[1-2]应运而生,被誉为社会科学的第三次科学化浪潮。

循证社会科学证据知识库作为一种基于互联网的动态跟踪监测、收割聚合、组织集成、转化传播社会科学领域证据资源的重要工具平台,不仅可以为研究者与决策者提供访问相关研究发现及证据资源的最佳途径和可靠入口,无需筛选繁杂的研究资料或进行大量的参考咨询,而且可以方便使用相关研究结果及证据标准来快速建立科学依据,辅助制定科技政策,对于促进基于证据的科学决策与循证实践作用重大且意义深远。

本研究通过对国外社会科学领域多个不同主题的证据门户网站进行调研,参考已有证据生态系统和证据标准的概念框架对相关数据进行分析,对比总结不同证据门户网站在证据资源类型性质、证据标准及相关研究方法等方面的差异性和优缺点,讨论形成中国循证社会科学证据知识库建设关于证据主张提出、证据基础问题采用与评估、证据综合方法应用、循证指导与实践方法研发的建议和策略,为未来建立基于知识共享网络的中国循证社会科学证据知识库工具平台提供可靠证据资源来源、证据类型与标准建设的理论依据和启示借鉴,也为进一步实现全球循证社会科学证据资源的深度关联发现和共享利用服务奠定基础。

1 研究背景与现状

研究表明,政策、实践和个人决策可能受到许多有意识和无意识因素的影响。这些因素一般包括价值观、资源、关于当前和潜在未来形势的信息,以及正在做出的不同决策可能产生的影响。既然信息是决策的一个关键组成部分,那么如何确保这些信息是基于现有的最可靠的研究则显得至关重要,这也是循证决策的研究起源,即,将研究证据作为决策过程的一部分。研究证据通常包含在各种研究成果如学术论文、科技报告中,但过去因为商业付费壁垒和低可发现性,以及已有研究结论对政策影响的描述可能不甚清楚,甚至相互矛盾等,导致研究证据往往无法直接被决策者获得和使用,也并没有一个良好的证据生态系统能够将研究的使用与研究成果很好地联系和运作起来。

在此背景下,最早出现的是知识中介(Knowledge Brokering)[3-4]。知识中介作为一项独特的知识活动,其发展体现在创建个人知识经纪人及中介组织角色,以帮助改善研究与使用之间的联系。知识中介的影响是双向的,一方面使得决策者或受决策影响的人和机构可以影响所进行的研究;另一方面使得研究成果可以更容易获得,也更能与研究的潜在使用者相关联。但是这些知识中介需要考虑的研究证据的体量往往是巨大的,因为即使在同一个主题领域内,可能有许多问题会被咨询到,也可能有许多研究方法可以解决这些问题。在具体实践中,许多知识中介关注的是证据的有效性和功效的问题。如Langer L等[5]利用研究使用者和研究生产者之间交互的6种机制和3种行为组成的框架,对决策制定中增加研究使用的不同策略的有效性和功效进行了评价。如Gough D等[6]调研发现,政府内部研究分析员通常采用的方法之一是直接展开互动,即知识中介经纪人与决策者面对面讨论证据需求,然后向决策者提供现有证据的概述,帮助他们解读相关政策问题可能产生的影响。如西欧或北欧国家政府资助的专家经纪中心[7]等,针对与政府部门商定的主题,为健康、教育和社会福利等领域提供政策导向的证据综合。

当为中央政府部门等单一决策制定机构提供知识中介角色时,直接互动方式可以很好地发挥作用。但当决策权分散,由诸如机构管辖者、学校管理人员、案件工作人员等共同进行决策时,这种方法就可能不太适用。在这种情况下,开发证据产品,更专门地概括总结诸如证据门户、证据指南或证据检查清单等已知的证据信息,可能是一种更有用的方法。证据门户等证据产品通常有一个共同点,即不需要使用者查阅大量基础研究,它们在留给决策者进行信息筛选的工作量上与知识中介经纪人和代理机构已有很大不同。具体来说,证据门户一般提供某些特定主题领域的一系列具有一定格式的证据元数据信息供使用者自由查询或浏览。证据指南一般是由专家委员会在证据评价的基础上编写,对将要做出的决策提出指导建议。证据检查清单一般是使用与证据指南类似的流程生成,建议实践者可以或应该做些什么。如美国教育部开发的教学策略有效性证据门户(IES-WWC)[8],用于系统评价教育中不同项目、产品、实践和政策的现有研究,旨在为教育工作者提供循证决策所需的信息,目前已提供了涉及教育工作的13个主题领域(如读写能力、数学、科学等)的3类证据资源,包括干预报告、实践指南和个案研究评价等。如由美国、英国、法国等多个国家(地区)的科研机构及社会组织资助创建的环境证据协作门户(CEE)[9],致力于打造一个可持续的全球环境和生物多样性保护的利益相关者的开放式社区,寻求促进和提供有关环境政策和实践作为公共服务的最关注问题的证据综合,目前开发了试用版的证据评价数据库CEEDER,初步提供了涉及环境政策与管理相关问题研究的多个主题领域的开放获取证据资源服务,包括综述评价(Literature Reviews)、元分析(Meta Analyses)、系统评价(Systematic Reviews)等。

但包括上述证据产品在内的以往大多数证据门户一般更像是一个单链条的数据库、资源库、证据工具包或证据信息交换所,不同的证据产品使用的是不同的自定义的标准规范和内容格式进行展示,提供的是基于某一特定行业或专业领域相关研究主题及研究结果的简单浏览及检索功能,通常作为获取研究结果的门户或导航来使用。它们并不概括总结不同研究领域、研究问题及研究结果中的已知证据信息,也并没有集中规范地基于知识网络获取、管理和共享不同研究领域及研究结果中对不同研究问题的综述、评价和关联关系等,与基于一定标准规范及知识共享网络等构建的证据知识库还存在一定差距。与此同时,研究证据的使用者通常期望得知所使用的研究发现的强度、可信度和相关性,需要知道可以应用什么标准来对相关研究结果进行判断评估及所提出的证据主张的依据。因此,要使证据知识库有用且值得信赖,并能够推动循证决策和实践,需要有明确一致的证据标准。证据标准是指用于开发和评估研究质量以及证据门户网站中提供的研究结果的可靠性的方法,其中最为重要的是要有清晰、健全和透明的证据标准,以增强证据门户的可信度,为证据使用者提出证据主张提供证据基础,并保护相关机构组织在出示证据时免受不公正的指责。

2 国外社会科学证据门户的证据类型与标准探析

调研发现,不同证据门户在所提供的证据资源类型和作为证据主张基础的证据标准这两个关键维度上是不甚相同的,如表1所示。

表1 调研的主要证据门户网站列表

表1(续)

表1(续)

2.1 证据类型分析

第一个维度是证据资源类型,它是证据门户建设的核心所在。大部分证据门户网站提供的证据资源类型大致可分为3种:个案研究、证据综合、循证指南。这些不同的证据资源类型并不是相互独立的,而是作为证据生态系统的一部分彼此密切相关联的,最终目的都是为了支持循证决策,如图1所示。

图1 不同的证据资源类型在证据生态系统中的关联关系

2.1.1 个案研究

个案研究一般是指对某种特定或一组干预措施的研究的调查发现和结果。这些研究可能是对干预措施所产生的影响或效果的定量分析,也可能是对诸如背景、受益人视角、实施问题等重要事项的定性研究。理想情况下,决策者是可以直接使用个案研究的原始研究结果的,但在实际应用中,还可能存在着诸多挑战。例如,这些研究结果可能很难被公开访问到;可能难以理解;可能由于所使用的方法学质量的有效性较低或做出结论所依据的证据范围较小而不值得信赖;可能值得信赖但无法代表其他研究结果,即更广泛的证据基础;可能值得信赖也具有一定代表性,但与决策制定者的关注焦点和相关事件的背景没有太大关系。即使一一克服了上述挑战,访问、理解、评价一个研究领域尤其是那些正在迅速发展或新兴的研究领域的过程,也将是一项极其耗时且需要专门技术的活动,而决策者如政策制定者、专业从业人员或社会公众可能并没有这样的时间和技能。因而,相对于使用个案研究的结果可能存在的诸多问题来说,一般情况下,决策者可能认为使用对感兴趣问题的证据基础的概述对他们而言会更有效。

2.1.2 证据综合

证据综合一般是指综合多项已有研究结果对研究问题相关的证据基础进行更广泛的陈述。采用的陈述方法可能有多种:①系统综述(系统评价):系统综述是最常用的证据综合方法,是针对某一特定问题去全面综合相关研究证据的一个明确的研究过程,通常采用严谨的方法去审查和评价相关研究证据。与个案研究不同,系统综述研究并不是进行新的原始研究,而是通过审查已有研究的发现和结果来处理和解决研究问题;②非系统性综述:与系统综述的研究方法和过程有所不同,非系统性综述通常是指没有正式应用系统评价方法进行的综述评价,是一种针对某一特定问题去综合相关研究证据的可能较为非正式的或隐含的不太透明的过程,但也是在充分详实的背景材料和知识下进行。如传统的文献综述、概念性综述、叙述性综述、概括性综述、评论性综述、专家/同行评议、现实性综述、前沿性综述、范围界定性综述等[2];③特定评估:特定评估一般是指对一项或多项已被确认和报告为特定发现的严谨研究结果的评估,允许在不必检查完整的证据基础的情况下陈述足够的证据;④快速评估:快速证据评估通常提供了比文献综述更结构化、更严谨的证据搜索和质量评估方法,但可能没有系统综述详尽和全面。快速评估一般可用于:获得关于某个特定议题的证据密度和质量的概览;通过提供关键主题的证据来支持规划决策;通过识别和确定证据差距支持开展进一步研究等。

2.1.3 循证指南

循证指南一般是在对证据进行审查和评价的基础上制定的,目的是基于已有研究证据和其他相关因素为决策者提供指导和建议。对于一般决策者来说,研究问题的出发点通常是他们亟需解决的某个重要议题,个案研究或证据综合的研究结果已足够帮助他们快速确定最有效的解决方案,并提供能够证明解决方案有效性的相关证据。这种方法常应用在社会政策的医药产品和品牌干预计划中,一般都是先提出行动方案,然后寻求有关其有效性的证据,在这种具体方案已确定的情况下,基于一些严谨研究报告的正面结果即可确定干预计划是有效的,并可根据一到两项好的研究结果来快速建立证据基础。但是,已有研究证据的研究问题的范围常被限定在一个特定问题或特定干预上,在解决方案不确定的情况下,如果仅根据一到两项好的研究结果就做出决策,无论这些研究结果是多么可信,也难以对潜在的更广泛的证据基础提供严谨的评估。因而,循证指南的实现过程通常是基于专家对已有研究的解释,并在与其他利益相关者进行协商的基础上来进行,具体协商的内容信息可能包括:①决策者运作的目标群体的各个方面的特定背景信息,这些背景信息可能与已有证据基础的研究背景有所不同;②参与决策制定或受决策影响的不同利益相关者的特定视角,如价值观和优先权等。理论上,个体决策者也可以直接使用已有证据基础,但实际上与使用个案研究的研究结果一样,仍然需要时间和专业技能。此外,一般决策者可能无法接触或难以充分理解不同利益相关者的观点。因此,由国家或地方专家组、服务使用者和决策者在特定背景和视角下对证据基础进行解释,并在循证指南中提出结论,往往可能会更具效率和优势。

2.2 证据标准分析

第二个维度是证据标准,这是证据门户提供证据主张的基础准则。本文主要从两方面进行着重分析:证据基础纳入信息的标准、评估和应用证据基础的标准。

2.2.1 证据基础纳入信息的标准

证据基础纳入信息的标准,本文研究的重点是“什么样的信息可以作为证据,并被证据基础所需要和纳入”。通过重点关注那些提供干预措施有效性信息的证据门户网站,调研和分析一些具体方法或计划是否能有效地实现某些成果。如英国的有效性策略网络(WWN)[10]目前由13个有效性策略研究中心组成,其中之一的教育捐赠基金会(EEF)[11]研发的教学和学习工具包,致力于总结和提供关于改善5~16岁儿童教学和学习成果的国际证据。该工具包目前已收录了35种有关儿童教学和学习的干预措施,包括“艺术参与(Arts Participation)”“行为干预(Behaviour Interventions)”“协作学习(Collaborative Learning)”等,针对每一种干预措施都详细报告了措施的具体内容、效果、证据的安全性、成本、实施相应策略前应考虑的事项、证据的定义和评级、相关参考文献、元分析摘要、相关项目等。如美国教育部开发的教学策略有效性门户(IES-WWC)[8]旨在为教育工作者提供循证决策所需的信息,主要通过实施一些品牌计划来构建证据基础,如“知识就是力量计划(Knowledge Is Power Program-KIPP)”“推广另类思维策略(Promoting Alternative THinking Strategies-PATS)”“为美国而教(Teach for America-TFA)”等,针对每一项计划都详细报告了计划实施的具体内容及对相关证据进行了系统评价研究,并提供了结果摘要及干预报告,内容包括证据适用的结果域(IES-WWC中实际是指主题领域)、证据的有效性评级、符合WWC证据设计标准的研究数量、干预有效性指标的改进指数等。再如美国司法部少年司法和犯罪预防办公室创建的示范计划指南(OJJDP-MPG)[15]旨在提供基于证据的少年司法、青少年预防、干预和再入境计划信息,也主要通过实施一些品牌计划来构建证据基础,如“成长中的成年人(Adults in the Making-AFM)”“更好的未来计划(Better Futures Program-BFP)”“家校共育(Families and Schools Together-FAST)”等,针对每一项计划也都详细报告了计划的类型、目标、理论、组成内容、适用目标人群,以及评估结果、评估方法、成本、基于系统评价的证据基础、证据等级及相关实践等。

调研发现,大部分证据门户网站都比较关注干预措施的有效性信息,但由于它们所致力于解决的研究问题的类型不同,因而在如何制定干预措施并利用干预措施来构建证据基础方面是有所不同的。初步来看,美国等提供干预措施有效性信息的证据门户网站一般侧重通过实施品牌计划来制定干预措施并构建证据基础,而英国及欧盟等的证据门户网站一般侧重通过实施一系列个案研究实践来制定干预措施并构建证据基础,这也从侧面反映了不同国家和地区在提供教育和社会服务等的理念和性质方面是有所不同的。也有少数一些证据门户网站在制定干预措施时既关注特定的品牌计划项目,又注重于提供研究实践指导,如英国国家健康与临床卓越研究所(NICE)[12]从特定实践问题(如虐待儿童、体育活动或饮食等)开始采取更广泛的方法,然后考虑哪些干预措施可能有所帮助,以及存在哪些证据可以证明这些干预措施的有效性。进一步分析发现,研究证据的使用者希望了解有关干预措施有效性的证据基础的目的一般是为了应对社会问题,他们感兴趣的重点可能包括一些不同的方面,如证据产生或被发现的背景、证据的有效性、证据的强度、实现影响的过程、成本或成本效益等。大多数证据门户网站的另一个不同之处在于总结证据基础的方法可能有所不同。一种常见方法是使用现有的系统评价方法,如基于统计的元分析、基于严谨和相关性审查的概述、基于事先审查的叙述性综述等;另一种方法是实施新的系统评价方法,如非系统性综述、使用特定的量表去评估原始研究,并对满足方法学质量阈值的研究进行叙述性综合、对文献进行系统搜索并使用专家模型去创建证据基础的概要等。此外,也有一些证据门户网站在总结证据基础时采用特定的方法,如IES-WWC并不审查整个证据基础,认为只要没有研究表明当前存在压倒性的相反证据,就根据至少一到两项具有有益影响证据的严谨研究去判断计划的有效性。

因此,综合整体调研结果深入来看,证据基础纳入信息的标准主要可概括为以下几个方面:①背景信息:主要用于解释证据从何而来,以方便证据使用者判断证据与其研究背景或上下文语境的相关性;②有效性信息:主要用于报告干预措施的影响有多大,并对证据进行评级。一般是基于研究的质量,研究发现和调查结果的统计显著性、重要程度和一致性等,总结在目标成果领域进行干预的安全性和有效性,并基于一项或多项的随机对照试验RCTs、元分析方法、系统评价方法等评估方法对证据的质量或有效性进行评级。如EEF基于一系列的系统评价和元分析研究结果指出:总体而言,艺术参与对于儿童学术学习的影响似乎是积极的但较低;③强度信息:主要用于描述证据的强度和范围,即证据产生影响的程度。如美国加州儿童福利循证信息交换所(CEBC)[22]使用科学评级量表(Scientific Rating Scale)[32]对支持实践或计划的研究证据的强度进行1~5级的分类评级:a.得到研究证据的充分支持;b.研究证据支持;c.有希望的研究证据;d.证据不能证明效果;e.考虑了实践(可能存在有害风险)。如EEF使用1~5个带锁的小图标来展示证据的强度:1个锁表示非常有限的证据;2个锁表示有限的证据;3个锁表示适度的证据;4个锁表示广泛的证据;5个锁表示非常广泛的证据;④过程信息:主要用于报告证据实现影响的过程,包括在不同背景或实施问题下进行干预决策的相关的计划目标、干预过程、理论依据及关键组成部分等;⑤成本信息:主要用于报告实施干预所需要的资源和费用,包括财政拨款、场地租金、培训费用、人员工资、福利待遇等各方面财力、物力、人力的支出消费等。如NICE构建了经济模型对证据进行经济评估审查和成本效益建模,主要使用质量调整寿命年(Quality Adjusted Life Years,QALYs)[33]进行计算以确定相关的资源分配问题;⑥实践指导:除了与评估干预措施直接相关的证据基础外,一些证据门户网站还针对如何采取行动提供了相应指导和建议,通常也作为干预报告的相关参考或附录部分被链接和纳入证据基础,有的规模比较庞大的甚至还作为独立的资源模块供查询浏览。具体内容有的是针对实施干预时应考虑的问题提供一些简单的建议(如EEF、EMCDDA[13]等),有的则是关于实施过程的更具体的建议(如IES-WWC、CEBC等)。部分证据门户网站如IES-WWC、EEF、NICE等除了关注证据的有效性信息之外,还通过成立独立的工作小组或委员会(包括专业人士和非专业人士)基于证据和利益相关者的咨询建议创建更为正式的循证指南和实践指导等。总的来说,实践指导不仅仅是简单地总结证据,它还需要评估证据,同时需要考虑到在特定背景下应用证据时可能出现的适用性和价值问题,尤其是在卫生领域和机构相关的证据门户中比较常见。

2.2.2 评估和应用证据基础的标准

上文中研究的用于提供证据主张的证据基础都是基于不同类型的证据。因此,提出证据主张时也同样需要不同的研究方法和不同的标准去评估和应用这些证据基础。例如,该采用何种标准去判定证据的有效性有多强?该如何判断这些证据基础是否正当合理以及该如何应用这些标准?证据标准应是一种开发和评估研究质量和研究结果可靠性的方法体系,它不仅要能捕获研究的内部有效性(Cochrane偏倚风险工具将其定义为“偏倚风险”),即研究采用的内部方法体系的一致性,包括研究结果是否真实可信等,而且还要能捕获研究的外部有效性(SURE将其定义为精确度与普遍性),即研究评估的程度是否能真正达到外部真实世界所希望达到的评估程度,以便去衡量研究结果是否可以重用等。显然,很难有一个通用的证据标准,因为标准可能因研究问题(可能涉及不同研究主体、研究主题领域等)、研究产品类型(如个案/单项研究、证据综合、循证指南等)或研究设计(如定量研究、定性研究、混合研究等)而异。

调研发现,目前已经有许多证据标准可用于评估不同研究产品类型或研究设计的质量,有的还提供了评估工具或评估检查清单,以帮助识别可能扭曲研究结果的各种错误或偏倚。如英国卡迪夫大学的审查证据专家组(Specialist Unit for Review Evidence,SURE)[34]致力于在健康和社会护理领域进行系统和文献审查,调查方法创新并提供咨询和培训服务,它创建和维护了一系列评论性评估工具和评估检查清单,提出了根据研究设计分类的证据标准:将研究设计细分为初步研究相关的系统文献综述研究、随机对照试验、非随机对照试验、观察性研究、定性观点和意见研究、诊断准确性研究、经济评估研究等,针对每一种研究设计都提出和推荐了多种不同的评估方法,包括SURE(SURE专家组自建和推荐标准)、ROBIS、AMSTAR 2、CASP、JBI、NHLBI、SIGN、ROBINS-I、QUADAS-2等。同时,目前也已经有一些用于评估具有不同研究设计的研究主体的证据标准,最知名的是GRADE标准[35-36],它整合了证据分类分级、质量评估和推荐转化的证据标准,已经被WHO、Cochrane等多个国际组织机构所广泛采纳应用,并且GRADE标准同样适用于开发和评估研究报告、系统综述/评价、技术/实践/循证指南等。如WHO目前发布的很多报告与指南都是基于GRADE标准,涉及应对COVID-19、流感临床卫生管理、学校卫生服务、营养健康等[37]。此外,一些专注于研究和采用循证方法的组织机构也会制定和发布相关的证据标准。如英国政府外交、联邦与发展办公室(FDCO)于2013—2014年先后发布和更新了“注意事项:评估证据的强度(How to Note:Assessing the Strength of Evidence)[38]”指南文件,旨在向从事国际发展规划的人员提供和解释评估证据的最佳方法,包括对单项研究的描述和其质量的评估,以及对证据主体主要特征的总结和其整体强度的评估等。再如NICE于2012—2022年持续发布和更新了“质量标准过程指南(Quality Standards Process Guide)[39]”,旨在帮助想要提高健康和社会护理服务质量的机构和人员,通过证据定义和识别优质护理、监控与改善实现结果的相关过程。NICE质量标准有两个主要组成部分:质量声明和质量评估措施,每个质量标准通常包含至少5个带有相关评估措施的质量声明,每个质量声明都指定了高质量护理或服务提供的至少1个概念或要求(如单一干预、行动或事件),并且每个声明都附有其对不同受众(如服务提供者、相关从业者、专员、服务使用者等)的影响的描述、使用指导、评估的数据来源、所使用术语的定义及对证据的相关性、平等性与差异性的考虑。目前,基于该质量标准NICE已经制定了关于多种主题的循证指南和建议,包括药物实践指南、公共卫生指南、癌症服务指南等。

总体来看,大多数证据标准都比较关注证据的技术质量,并且对证据的质量评估还包括研究方法是否符合预期目标、研究问题与研究重点的相关性、研究结果的可靠性与可重用性的评估等。综上研究,评估和应用证据基础的标准主要可以概括为以下几个方面[40]:①对证据进行审查以提出关于证据基础主张的方法进行评估的证据标准。具体内容一般包括:证据基础审查的技术质量;审查问题的方法是否符合预期目标;审查问题与审查重点的相关性;审查结果的可靠性与可重用性;②对包含在证据基础审查中的个案研究的质量和相关性进行评估的证据标准。具体内容一般包括:个案研究的技术质量;审查个案研究相关问题的方法是否符合预期目标;审查问题与研究重点的相关性;个案研究结果的可靠性与可重用性;③对包含在证据基础审查中的证据总体进行评估的证据标准。具体内容一般包括:证据总体的性质;证据的范围和分布;④对审查提出的不同证据主张进行评估的证据标准。其具体内容一般取决于所提出的证据主张的类型,可根据实际情况基于上述3种证据标准进行组合评估,并可按需对每一部分内容赋予不同的权重。

3 对我国循证社会科学证据知识库建设的启示

3.1 明确提出证据主张的目的和方法,确保证据分级的一致性

不同的证据门户可能具有不同的产生背景、发展历史、资源类型、目标受众等,因而它们不仅在形式和功能上有所不同,相关研究方法和证据标准也不尽相同。尤其是一些证据门户网站可能提供了非常详细的方法或标准来评估纳入的原始研究,但在如何评估和应用整个证据基础方面提供的细节信息却相对较少。可见不同的证据门户在对它们所涵盖的证据生态系统不同部分的细节问题的解释和复杂性方面,所投入的注意力也是不均衡的,因而几乎所有的证据系统都存在着不同程度的优劣点。

因此,在构建中国循证社会科学证据知识库时,应明确提出证据主张的目的和方法,并确保证据分级的一致性,包括相关循证指导、证据基础、纳入的研究等。具体如一方面需考虑证据知识库的目标受众和应用场景,对其目标和方法、相关研究和循证指导产生的特定作用等做出解释,以便向用户证明其是否实现了自己的预期使命;另一方面可能还需要考虑证据知识库所涵盖的证据生态系统的不同部分的证据标准在细节问题和复杂性方面的一致性,以便让用户了解其是否适合自己的研究目的。

3.2 考虑关注和采用更广泛的而不是狭窄的证据基础问题

大多数证据门户网站都比较关注干预措施的有效性问题,尤其是美国的一些证据门户网站更加关注某些特定品牌计划的有效性,这可能表明它们纳入的研究都是可用的干预措施,并且可能聚焦于某些特定社会政策问题已经经历了一段较长的研究与开发时期。但是,计划方法通常针对的是较为狭窄的研究问题,有助于在使用时快速便捷地比较其相对有效性,但如果它们之间的差异较小,用户则可能难以抉择。因此,一些证据门户网站如EEF、NICE等采取了更广泛的方法去评估其定义的证据基础问题,这对用户来说可能更有成效。尤其是那些包含逻辑模型和过程数据的重要议题驱动的问题,可以让用户更清晰地了解其因果流程、某些干预措施在不同情境下的相对有效性以及干预措施如何适应这些情境等,对用户来说可能非常有用。但该方法存在的一个挑战是如何对已有品牌计划程序进行重新编码,以便将它们分配到其中一种更广泛定义的方法中去。一个单一的程序在理论上是可以联合多个组件的,只要有足够的样本量支持,那么探索这些不同组合的叠加或交互效应也是可能实现的。此外,一些着重关注特定品牌计划有效性的证据门户网站也有可能采用“一到两项良好的研究”方法去声明证据基础,究其原因可能是因为其设立的目的是为了评估是否存在证据去支持某项计划,而不是对解决问题的不同方法的相对功效进行比较分析。

因此,在构建中国循证社会科学证据知识库时,应考虑关注和采用更广泛的而不是狭窄的证据基础问题,如包含有效性或成本效益的证据,以及有关在不同情境下产生影响的过程的理论和数据等。具体可能涉及对某些问题或重要议题的分析、对为什么某些干预措施可能会有用的说明、对因果流程研究的评价、对在不同情境下为实现预期收益而采取的干预措施的成本效益证据的审查等。此外,还可以在不考虑相似的干预措施的更广泛的情境下,关注特定干预措施功效的适用性问题。

3.3 采用明确严谨的证据综合方法对已有证据基础提出主张

不同的证据门户评估证据基础的方法也是各不相同的。如前文所述,一些证据门户网站使用预先存在的系统评价方法,如明确严谨的方法去评价现有研究的综合结果,另一些实施了新的系统或非系统评价方法,还有一些是基于一项或多项严谨的评估来做出判断。总的来说,当前最强健的证据标准是系统评价方法,因为它使用了严谨透明的研究过程来识别先前作为证据基础的研究中某个问题的已知或未知之处,可以帮助用户在规划新研究时及时深入了解和掌握已有证据,并且使用预先存在的系统评价方法会提高证据评估的效率和减少重复研究。但是,使用预先存在的系统评价方法仍需确保其评价方法符合相关技术标准及与所研究问题的相关性。如果综合报告不清楚研究问题的框架结构和综合集成的结果导致决策者误解和误用研究结果的后果将是极其严重的,决策者需要的应是一个严谨、明确的和决策制定相关的综合报告。此外,综合报告研究的通常是广义的全局性知识,在使用时可能需要基于本地背景信息对证据进行重新解释。另一种选择是实施新的系统评价方法,不仅需要进行原始研究,而且仍然需要基于严谨透明的方法将其系统化以符合相关评价的证据标准。还有一种选择是基于一项或两项高质量的严谨的个案研究进行评估的方法,但由于其没有考虑到其他显示没有影响或有害影响的研究,并且需要统计正面、负面及没有影响研究报告的数量,导致它可能是一种比普通计票方法更弱的方法。而且,对证据有效性的研究一般是基于概率统计的方法,个案研究的结果经常各不相同且很容易存在随机错误,从而歪曲潜在的事实,因而仅依赖一到两项恰好显示出正面影响的研究结果而不参考其他相关研究则很可能产生误导。统计综合报告中的数据集成提供的一般是对整个证据基础的全局性指示而并非基于某项研究结果所选择的证据,因而即使关于某个主题的已有研究很少,使用系统评价方法来编排和综合已有的研究仍是比较好的方法。

因此,在构建中国循证社会科学证据知识库时,应采用明确严谨的证据综合方法对已有证据基础提出主张,如优先考虑使用系统评价方法,首先是预先存在的系统评价方法,如果它们与所研究问题严格相关或者有重叠或补充之处;其次是一些新的系统评价方法;最后是尽量避免使用非系统性评价方法和诸如“一到两项好的研究”此类评价方法。同时,需要对所使用的评价方法进行明确规定和解释说明,使其能够遵循系统评价所有预期的步骤、过程和透明度,具体可能涉及:评价的类型、所提出评价问题的性质及任何潜在的观点或假设、研究方法的纳入标准(如实验性研究、非实验性研究等)、其他方面的纳入标准(如主题领域、地理位置、历史背景和语种限制的规范说明等)、对纳入研究的数据进行编码和分析及综合的方法等。此外,还需要考虑对基于已有证据基础提出不同主张的不同证据标准进行明确规定和解释说明,包括干预措施的影响(包括有害和有益的影响)、证据的强度/范围/一致性/可信度、过程数据和逻辑模型、背景(如不同研究背景下研究结果的差异和适用性等)、成本和成本效益数据等信息,因为这些也都可视为有助于决策制定的良好数据。

3.4 基于已有证据基础研发政策和实践指导的方法及标准

不同的证据门户解释其研究方法和证据标准的方式在思路和细节上也有较大差异。有一些提供了大量关于评估原始研究的标准的详细列表,但却较少涉及如何综合和评估所有相关研究的证据基础方面的信息;另一些提供了关于评估一项或多项研究的标准量表用以声明和陈述证据基础,但却较少涉及相关方法学问题方面的具体信息;还有一些提供了大量基于证据基础进行综合研究的方法的详细手册,并提出了用于评估最终证据有效性的具体标准。那么,究竟哪一种方式才是解释和呈现证据相关研究方法及标准的最佳方式,可能还需要进一步深入思考。从理论层面来讲,可能需要在证据的研究方法、过程和标准的规范说明之间,在对证据基础的评价和作为证据基础的研究之间寻找到一个均衡点。但从应用层面出发,构建证据门户网站的首要目的是将研究的使用与生产过程紧密衔接起来,而循证指导和建议用于解释证据对政策、实践及个人决策的意义,因此证据导向的指导对忙碌的决策者来说可能是最有用的产品。一方面,代表主要利益相关者的委员会参与研究的细节并解释其影响,可能比每个决策者单独这样做更有成效,并且也可能增强人们对干预措施产生效应的过程,以及其如何受到应用了相关政策和实践的本地环境的影响的关注;另一方面,可以促使以用户的视角去影响研究问题,如一开始就将研究聚焦于决策者试图解决的挑战性问题,而不是泛泛地从了解一些干预方案的有效性问题入手。总的来说,随着国际上GRADE标准指导框架以及NICE、SURE等标准指导产品的不断发展完善,创建循证指导的过程将变得越来越清晰明确和有章可循,循证指导和建议将可能是证据知识库及门户最应该研发的和最有用的产品。

因此,在构建中国循证社会科学证据知识库时,应基于已有证据基础研发政策和实践指导的方法及标准。首先,可考虑明确规定实现和达成某种证据标准的方法及准则,具体可能包括:创建符合某种标准的证据的方法步骤、可采用的方法程序(包括内部和外部的质量保证过程)、指定要达成的证据标准的声明和量表等。其次,可考虑循证指导的潜在应用场景和益处及其创建的方法路径,具体可能涉及:循证指导在特定社会政策和实践问题中可以发挥的作用、不同利益相关者群体的参与方式、需求的信息类型和相应的证据标准,以及与其他类型证据综合集成的方法、循证指导相关证据评估的社会价值观、提出对策建议时以不同方式使用的其他非证据基础信息的信息类型等。

猜你喜欢
循证证据基础
“不等式”基础巩固
“整式”基础巩固
《循证护理》稿约
位置大数据侦查循证研究
对于家庭暴力应当如何搜集证据
“大禹治水”有了新证据
手上的证据
循证医学的人文精神
循证医学在中医教育实践中的应用
“五抓五促”夯基础