2021年中国基层卫生和全科医学方法学质量评价报告：定量研究、系统综述和指南/共识部分

2023-12-18 09:43中国全科医学定量研究系统综述和指南共识质量评价小组

中国全科医学 2024年7期

《中国全科医学》定量研究、系统综述和指南/共识质量评价小组

作为WHO提出的14种发展基本医疗卫生服务的杠杆之一，基本医疗卫生服务研究能够通过产生和传递知识、经验和证据，全面支持其他13种杠杆（如人力供给、支付方式改革、基础设施建设等）的实施，进而推动医疗体系的发展和全民健康状况的改善［1］。2019年发布的《中华人民共和国基本医疗卫生与健康促进法》［2］规定，基本医疗卫生服务包括基本医疗服务和基本公共卫生服务两个方面，其中基本医疗卫生服务的主要提供者是以全科医生为主体的家庭医生团队。因此，在我国新时期医疗卫生改革的背景下，发展基本医疗卫生服务和全科医学领域的相关研究，对于推动该学科的发展壮大和赋能我国基本医疗体系的发展具有重要的现实意义。

一项基于文献计量学的研究显示，2021年我国在基本医疗卫生服务和全科医学领域发表的原创研究数量达到3 122篇，约为美国的1.5倍、英国的3倍和澳大利亚的6倍以上，成为该领域原创研究发表数量最多的国家［3］。然而，在我国该领域科研论文产量快速增长的同时，也存在限制科研工作和质量的阻碍因素，如研究者在研究工作中普遍存在的孤立化和合作碎片化、不同地区的研究者科研水平参差不齐以及科研基础设施不完善等［4-6］，以至于难以产生客观、精确、可靠、完整和无偏倚的数据，以及稳健、可重复和可推广的结果［6］。

本研究基于学科发展的视角，试图通过对2021年发表的具有代表性的定量研究、系统综述和指南类文献进行横断面的方法学质量评价，以呈现我国该领域研究的总体方法学质量特征。对这一领域研究方法学质量的呈现和对相应问题的分析，将有助于我国该领域的研究者在未来的科研工作中减少研究设计和方法学报告失误，从而进一步提升科研工作和成果的质量。

1 方法

1.1 文献检索和抽样

本研究所评价的论文来源于《2021年中国基本保健和全科医学科研论文生产力研究》［3］中检索和筛选的论文数据集。在中国知网、万方数据知识服务平台、PubMed、Web of Science中系统检索了我国2021年发布的，以基层卫生和全科医学为研究环境的论文。由两位具有文献分析经验且接受过培训的研究者通过EndNote 20.4.1（Clarivate Analytics，Philadelphia，United States，2020）和在线文献筛选工具Rayyan（https://www.rayyan.ai）对文献进行手动对照筛选。文献检索策略和筛选过程参阅文献［3］。

由于采用横断面调查（1 146篇）、非随机对照干预（497篇）和随机对照干预（1 276篇）的定量研究论文总量较大，为确保研究可实施，研究者采用了随机抽样设计，设置允许误差为5%，置信度为95%，预期发生率为10%，计算单一类别论文需要随机抽取的数量（表1）。根据该类论文发表于非核心期刊、中文核心期刊以及SCI/SSCI期刊的比例（与研究被学术界的认可程度潜在相关），通过随机数从发表在特定类别期刊的论文中分层随机抽取了相应数量的论文（共320篇）。因定量研究中的前瞻性纵向研究、回顾性纵向研究、系统综述和指南（共识）发表文献数量分别仅为20、48、20和7篇，均＜50篇，本研究纳入了在该数据集中检索到的全部论文。

表1 本研究抽样的3种论文的数量（篇）Table 1 The number of three types of articles sampled in this study

1.2 方法学质量评价者的招募和组成

为确保方法学质量评价工作的客观性和严谨性，以中国全科医学杂志社为纽带，在全国范围内邀请22位在2021年发表过较高水平原创论文的研究者组成了定量研究部分的方法学质量评价小组，其中10位研究人员来自不同的公共卫生研究机构，12位研究人员来自不同的全科医学临床和科研机构。方法学质量评价小组的协调、联络，数据清洗和可视化工作由中国全科医学杂志社的2名科学编辑完成，但出于规避《中国全科医学》作为学术期刊可能存在的潜在利益相关考虑，科学编辑不参加论文的方法学质量评价工作，也不对评价结果造成任何影响。

1.3 方法学质量评价实施

在正式的方法学质量评价工作开始前：（1）方法学质量评价小组的成员接受方法学专家的培训和答疑，评价工作的培训工作由1名在国外知名循证医学研究机构工作的方法学专家负责在1个月内完成。在培训结束后成员之间相互沟通质量评价方法、统一意见，通过对少量其他文献开展预评价，以实现工具使用和文献质量评价的规范化与标准化。（2）方法学专家与筛选文献的研究者就评价工具的选择和使用，以及特定工具对纳入文献的适用性进行了多次讨论。

2022年8—12月方法学质量评价小组以2人1组的形式对选定的论文进行质量评价，按照《欧洲全科医学/家庭医学和初级卫生保健科研纲要》［7］推荐的方法学类别对论文分类，重新整理为与不同的循证医学评价工具［8-13］相匹配的6个新分类（表2），并按照每个方法学类别中的文献数量，分配相应数量的专家进行评价。当组内评价结果出现分歧时，与循证医学和方法学专家讨论解决。

表2 不同类别方法文献的论文数量、专家数量和评价工具Table 2 Number of papers，number of experts and assessment tools for different categories of methodological research literature

1.4 结果生成和分析

对研究论文评价结果采用“是（yes）”“否（no）”和“不清楚（unclear）”表述。在指南或共识的评价结果中，对某些问题除表述为“是（yes）”“否（no）”和“不清楚（unclear）”外，也采用Likert 5级评分法表示质量差异。使用Microsoft Excel 2019制作质量评价表记录评价数据，随后导入Stata 17.0 SE（StataCorp）进行描述性统计分析和制图。

2 结果

2.1 横断面研究

如图1所示，共纳入114篇横断面研究，其中SCI/SSCI期刊12篇，中文核心期刊33篇，其他非核心期刊69篇。对横断面研究质量的评价包含5个条目，存在问题较普遍，即评价者做出否定判断较为频繁的条目为其中的3项：源人群是否代表目标人群（47篇，占41.2%）、调查工具的可靠性和有效性是否可以确证（37篇，占32.5%）、该调查是否具有临床意义（30篇，占26.3%）。

图1 横断面研究质量评价结果Figure 1 Quality evaluation results of the cross-sectional studies

2.2 队列研究

25篇队列研究中SCI/SSCI期刊15篇、中文核心期刊7篇、其他非核心期刊3篇。队列研究质量的评价包含8个条目，其中评价者做出否定评价较为普遍的条目为是否对队列进行了充分随访（11篇，占44.0%）和各组之间的共同干预是否相似（14篇，占56.0%）。

得到肯定评价较普遍的项目为暴露与非暴露队列是否来自同一人群（21篇，占84.0%），对暴露的评估是否有信心（17篇，占68.0%），以及对结局的评估是否有信心（20篇，占80.0%），见图2。

图2 队列研究质量评价结果Figure 2 Quality evaluation results of the cohort studies

2.3 干预前后研究

本研究共纳入34篇干预前后研究，其中SCI/SSCI期刊1篇，中文核心期刊3篇，其他非核心期刊30篇。其中评价者做出否定评价较为集中的条目包括是否在干预前后多次测量目标结局（33篇，占97.1%），样本量是否足够大、足以对研究结果产生信心（28篇，占82.4%），以及研究参与者能否代表符合条件的人群（21篇，占61.8%）。

评价者做出肯定评价较为集中的条目包括：是否清晰的描述干预并在研究人群中一致地实施（33篇，占97.1%），是否明确阐述了研究问题和目标（27篇，占79.4%），统计方法是否比较了干预前后结局测量的变化（29篇，占85.3%）（图3）。

图3 干预前后研究质量评价结果Figure 3 Quality evaluation results of the pre- and post-intervention studies

2.4 随机对照试验

本研究共纳入122篇随机对照试验，其中2篇发表在SCI/SSCI期刊，9篇发表在中文核心期刊，111篇发表在其他非核心期刊。出现否定评价的条目包括对不同的利益相关者实施盲法（31～75篇，占25.4%～61.5%）、对随机分配的充分隐藏（51篇，占41.8%）及其他偏倚风险（88篇，占72.1%）；肯定性评价出现较高的条目则为较少的失访和结果数据缺失（97篇，占79.5%）及未选择性报告结果（100篇，占82.0%），见图4。

图4 随机对照试验质量评价结果Figure 4 Quality evaluation results of the RCT

2.5 系统综述

本研究共纳入19篇系统综述，其中17篇发表在中文核心期刊，2篇发表在其他非核心期刊。如图5所示，存在否定性评价较为频繁的条目主要为：是否报告了纳入研究的资助来源（19篇，占100.0%）、综述方法是否在综述开始前制定（18篇，占94.7%）、是否合理的讨论和解释了异质性（16篇，占84.2%）和是否考虑了个别研究的偏倚风险（16篇，占84.2%）。获得肯定评价较多的条目则为：是否解释了综述纳入的研究类型选择（15篇，占78.9%）、是否重复进行了数据筛选（15篇，占78.9%）和是否重复进行了数据提取（16篇，占84.2%），见图5。

图5 系统综述质量评价结果Figure 5 Quality evaluation results of the systematic reviews

2.6 基层卫生/全科医学共识

如图6所示，本研究共纳入6篇基层卫生/全科医学共识，均发表在中文核心期刊。判断为最低遵从度比例普遍很高，包括未考虑患者和公众视角（6篇，占100.0%）、未报告检索策略（5篇，占83.3%）、未报告研究选择（5篇，占83.3%）、未对证据强度或质量进行评级（5篇，占83.3%）、未对推荐强度进行评级（5篇，占83.3%），以及未进行外部审核（5篇，占83.3%）。

图6 基层卫生/全科医学共识质量评价结果Figure 6 Quality evaluation results of the consensus

3 讨论

本研究对我国2021年在基层卫生和全科医学领域发表的科研论文进行了代表性的方法学质量评价，结果显示，该领域的研究存在普遍的、系统性的质量问题，在研究方法的设计、实施和报告等方面均较为明显。

3.1 横断面研究

从方法学质量的角度来看，本研究纳入的横断面研究质量问题主要表现在两个方面。首先，在超过40%的研究中，研究人群无法合理地代表目标人群；此外，在接近40%的研究中，使用的测量工具或评价指标缺乏足够的可靠性，这两个问题均可能严重限制研究结果的科学性［14］。

在横断面研究中，研究者选取的样本应充分代表目标人群的总体特征，在满足样本量的需求下，尽可能确保样本人群在年龄、性别等社会人口特征以及其他与研究相关的关键特征上与目标人群保持一致［15］。因此，在抽样前制定计划和采取措施，将选择偏倚控制在最小十分必要。此外，研究者还应关注未参与调查的人群和样本人群是否存在较大的差异，以减少无应答偏倚的可能性［16］。不恰当的抽样方法可能导致横断面研究结果偏离真实人群的情况。例如，在评价的一项横断面研究中，该研究的目的是分析台湾北部某社区老年人同型半胱氨酸水平与心血管疾病风险之间的关联性，研究结果发现高同型半胱氨酸水平与社区居民的心血管疾病高风险显著相关，然而该研究在未做样本量计算的情况下仅对一家社区的396名居民进行调查，缺少对受访者抽样和招募过程的具体说明，研究结果不仅无法反映台湾北部的真实情况，抽样过程是否消除了随意性、偏见和人为因素等的影响也难以得到确认［17］。

选择和应用可靠的测量工具是保证研究内容和结果精确可信的重要基础。根据研究问题的需要，选择已在类似研究和人群中得到验证的测量工具，或在暂无适合本土文化的测量工具的情况下选用或修改其他国家或地区学者开发的测量工具并进行跨文化调整和检验，均是较为简易和通行的做法［18］。如果现有工具均无法满足研究需求，研究者也可以考虑开发和验证新的测量工具，并对其进行可靠性检验［19］。但如果上述步骤全部缺失，而无法保证测量工具的可靠性和科学性，其测量结果则可能存在偏离实际情况，从而得出错误或不一致结论的风险。例如在另一项被评价的横断面研究中，研究者使用在线填写的问卷评估某地区家庭医生团队对药师加入提供社区药学服务的认知。其中，调查问卷的一部分为自主编写，最终问卷在10名家庭医生成员中进行初步测试并经过修订［20］。鉴于研究者对该问卷的检验过程报告过于简略且预调查的样本量过小，方法学质量评价小组认为该研究在此处存在明显的质量限制。

3.2 队列研究

在纳入的队列研究中，质量总体相对较好的条目为：暴露与非暴露队列是否来自同一人群、对结局的评估是否有信心和对暴露的评估是否有信心。存在问题的条目则主要为是否对队列进行了充分的随访，约44%的队列研究论文对随访相关信息的报告存在不足。

作为流行病学分析性研究的重要方法之一，队列研究的基本原理是：按照研究开始时人群是否暴露于某因素将人群分为暴露组和非暴露组，然后进行一定时间的随访，观察并收集两组所研究疾病或其他结局的发生情况，计算和比较暴露组和非暴露组结局发生率的差异，从而判定暴露因素与结局之间有无因果关联及关联的程度［21-22］，其基本设计要求是暴露组与非暴露组之间具有可比性。由于一些研究随访时间较长，容易产生失访，且研究对象的暴露情况可能在随访过程中发生变化，使结局受到影响［23］。因此，在队列研究中清晰、详细地报告随访相关信息非常重要。

既往文献常见的对随访信息的遗漏可大体分为5类：（1）是否有随访结局数据缺失，以及缺失的比例大小；（2）缺失随访结局数据的原因；（3）暴露组与非暴露组间结局数据的缺失是否均衡，缺失原因是否相似；（4）结局数据的缺失程度是否严重影响效果估计；（5）是否已使用适当方法处理缺失数据。例如，本研究中评估了一篇关于人工流产经历与孕早期妊娠压力关联性的队列研究，该论文说明了纳入和排除标准及随访时间，但没有报告研究对象筛选人数、基线排除人数和原因及失访人数和具体原因等。另一篇论文则通过队列设计探索了血压变异性与2型糖尿病肾病的关联性。虽然该研究报告了随访过程中的失访患者数量及失访率，但没有描述失访人群在暴露组与非暴露组间的结局数据缺失是否均衡，以及分析时是否使用适当方法进行了处理。这些遗漏的关键信息不可避免地会影响读者对该研究结果的理解和证据稳健性的评价。

加强流行病学中观察性研究报告质量（Strengthening the Reporting of Observational studies in Epidemiology，STROBE）声明是一种普遍使用的、可以帮助研究者和编辑提高观察性研究报告质量的检查清单，其中包含专门针对队列研究的版本，可以作为队列研究设计、实施、报告和审核时的方法学参考［24］。此外，由于本研究最终筛选并纳入的队列研究文献数量相对少，未明确区分前瞻性和回顾性队列研究类型，未来仍需对既往不同类型的队列研究进行更为深入的对比分析。

3.3 干预前后研究

在本研究中，纳入的干预前后研究主要存在的质量问题表现在两个方面，一是大多数研究没有多次测量结局，二是样本的代表性和样本量存在缺陷。

干预前后研究的核心思想，一言概之，即为在开始干预之前测量一组参与者的结局，在干预之后再测量一次，并将结局的变化归因于干预。相比于随机对照试验，此类方法的优势是研究更为灵活，成本更低，但也具有一些根本劣势，尤其是因为缺乏对照组而很难排除可能由干预之外因素导致的结果变化［25-26］。为使干预前后研究的结果更为稳健，多次测量结局成了一种较为通用的方法，其对于增强结果可信程度的主要贡献在于通过多次重复测量，研究者可以更准确地判断干预效果在多个时间点或阶段的改变趋势［27］。此外，在干预前后研究中，样本的人群代表性以及样本量限制则与横断面研究类似，这方面的缺失同样会限制研究结果的外延性和统计效能，以至于使研究结果的适用范围被限制在狭窄的小规模人群，或是研究所发现的关联性结果难以在统计学上被置信［10］。

需要强调的是，在运用此类研究方法时，除上述内容外，还存在另一种可以进一步增强此类研究稳健性的设计方式，即在选择干预（暴露）组的同时，也随机选择一组对照组，在不实施干预的情况下同样进行前测和后测，通过综合比较4组结果，从而使干预前后研究更趋近于随机对照试验［28］。该方法有时也会和在不同时间点上多次测量结局的方法结合。此类研究设计方法在全科医学和基层卫生领域的教育干预研究中应用较为普遍。邹川等［29］发表的相关方法学述评曾对此做出过全面的阐述。

3.4 随机对照试验

对纳入的随机对照试验的评价结果显示，一方面大多数研究在随访过程中的数据丢失很少，在结果报告中没有显示出选择性，展现出了数据的完整性和较为透明的结局报告方式；但另一方面，在80%～90%的论文中，对不同的利益相关者实施盲法、隐藏随机分配以及其他偏倚风险均普遍呈现出严重的设计和报告限制。

不恰当的盲法实施或未对参与者实施盲法，以及未有效的隐藏随机分配均可能会影响研究所涉及的、不同利益相关者的行为和判断，进而导致研究结果的偏差，降低结果的可靠性。正如在Cochrane手册中指出的，随机对照试验中未设盲法可能会引发更为夸张地对干预效果的估计（平均为9%），而未隐藏分配序列可能导致试验效果的估计误差更为夸张，平均值甚至高达18%［30］。这凸显了随机对照试验作为一种较为精密和严谨的干预性研究，确保其设计的严谨性是实现更准确的结果估计的关键前提。

本研究的评价结果支持了此前的发现：在我国全科医学和基层卫生研究领域，绝大部分随机对照试验的文献作者数量仅为1～2人，这暗示了该领域研究可能普遍存在质量问题［3］。但其背后也同样隐藏着很多现实的研究困难，例如在一些使用针灸治疗的研究中，尽管一些研究者探索性的尝试对受试者、疗效评价者以及统计分析师进行盲法操作，以及通过采用安慰剂性的针灸技术（即针刺非经络穴位）来实现双盲［31-32］，但双盲法的实施仍然普遍面临困难，可能仍需要进一步完善相关的干预研究规范。

为提升随机对照试验的报告质量，建议研究者在设计和发表随机对照试验时，更为深入地参考相关指南，这有助于避免过高估计干预措施的有效性和其他可能扭曲研究结果的偏见，从而设计更严谨的研究。也建议期刊编辑和审稿人对此类研究进行基于该研究是否能形成有效证据视角的、更为审慎的审核。CONSORT 2010声明为随机对照试验提供了详尽指南，以改善试验报告质量，确保读者理解试验设计、实施、分析、解释，并准确评估结果［33］。目前，该指南已被翻译成多种语言，包括中文，可为研究者、评审员、编辑及读者评估随机对照试验的质量和可靠性提供方法学框架上的支持。

3.5 系统综述

对纳入的系统综述的评价结果显示，我国该领域近年发表的系统综述可能存在某些共性：似乎整体强于对有效信息的识别和选择，如文献检索和数据提取，而弱于对所获取的信息进行系统综合，特别是关于分析和解释一些可能存在风险以及导致偏倚性结论的孤立信息。考虑到系统综述的根本作用，是以系统和透明的方式识别、选择、综合和评估给定的研究问题的所有证据［34］，这种“头重脚轻”的格局，则很明显会限制系统综述形成的主要结果的中立性和稳健性。对此，一个可能较为有效的解决方法是研究者在设计系统综述时参考主要的国际循证医学研究组织，如Cochrane或JBI制定的循证方法学手册。例如JBI的证据生成手册（JBI Manual for Evidence Synthesis）将系统综述划分为了12个类别，对于每一类均系统性的结合研究案例，展示了从基本介绍到开发设计方案再到数据合成和分析的逐步实施过程［35］。

另一个值得强调的问题是，绝大部分系统综述没有报告研究资助的信息，这是因为研究者普遍存在潜在的利益相关，更契合实际情况的一种解释可能是我国该领域的研究尚未充分和国际循证医学体系接轨，以至于研究者很多时候仅看重系统综述作为研究成果的一面，而尚未认识到严谨的系统综述在形成高质量证据、影响和改变实践指南和卫生政策方面的潜力［36］，因而未能高度重视维护系统综述的中立性，以及规避利益相关风险。

此外，本研究结果也强调了学术期刊和作者共同对系统综述的报告内容进行充分检查的重要性。作为国际最通用的检查清单之一，PRISMA 2020提供了一份27项清单，详细列出了系统综述报告应包含的内容，旨在确保报告的完整性和透明度，内容包括标题、摘要、引言、方法、结果、讨论以及资金等［37］，从而提升系统综述报告的质量，增加其透明度，并使读者能更好地理解和评估综述的设计和结果。实际上，目前系统综述论文的报告缺陷不仅在我国基层卫生和全科医学领域普遍存在，也同样存在于其他学科中［38-39］，特别是在中文学术期刊中尤为明显［40］。这也敦促我国的中文学术期刊进一步完善手稿检查和审核过程和质量，以提升发表的系统综述成为更高等级的循证证据的可能。

3.6 临床指南/共识

对纳入的临床指南/共识的评估结果显示，我国近年来在该领域的指南或共识的整体质量相对较低。常见的问题包括忽视患者的意愿和价值观，缺乏文献证据的系统检索，对纳入/排除标准的描述不充分，缺失证据质量和推荐意见的分级，缺乏外部审查，以及未详述指南的更新策略等。这些问题凸显了在本土研究稀缺且质量普遍较差的有限条件下，合理构建足够严谨且符合实际的基层医疗领域指南的路径，并逐步形成学科共识的重要性。

根据循证医学和方法学理论，美国医学研究所（IOM）将临床实践指南定义为根据证据的系统审查和对替代照护方案收益和成本的评估得出的，包含优化患者照护建议的声明；并强调高质量的指南应全面收集证据，由多学科专家组（包括患者代表）制订，合理划分患者人群并充分考虑患者价值观，过程清晰、透明，合理控制偏见和利益冲突，明确证据级别和推荐强度，并持续更新和升级［41］。然而，当现有证据有限，无法提供足够支持制定指南时，由专业协会制定的专家共识则成为一种现实中的替代方案，其与指南的主要区别在于其只能反映专家小组对特定主题的意见，常缺失报告的透明度，这一现象不仅在我国的全科医学和基层卫生领域常见，在国际研究中也常见［42］。

对此前5类研究的分析已经证实：在当前，乃至未来一段时间，我国在这一领域的研究可能会在产生大量低质量研究的同时，难以产生充分、有效的临床和卫生服务证据。在这种情况下，准确寻找优质证据较为充分，并受人口特性和外部环境因素影响较小的领域；基于国际证据制定适用于我国基层环境的指南；引入经典的国际指南，如美国预防医学工作组和澳大利亚全科医师学会开发的预防医学指南［43-44］；组织跨学科医患团队，基于充分的国内外信息制订国内共识，均可作为支持和推动我国在这一特定时期该领域的循证医学和实践发展的较为务实的暂时性策略。然而，需要强调的是，无论选择哪一种路径，为产生可信赖且可行、可能对临床产生影响的指南和共识，仍需要高度重视一些循证医学和方法学原则，包括保证过程的透明度和开放性、促使多元利益相关者（包括患者）的全面参与、与本地背景和环境相协调、与国家政策相一致、采用科学和中立的共识制订方法（包括但不限于德尔菲法或名义小组法）、做出更明确和合理的分级推荐指示、进行充分的同行评审，以及邀请专业的方法学家充分参与其中［45-46］。

为实现这一目标，可能需要借鉴一些现有的国内外指南评价和开发工具。例如，全球广泛使用的指南证据质量分级和推荐意见强度系统GRADE［47］；WHO发布的指南制订手册［48］；麦克马斯特大学开发的指南制订清单［49］；美国家庭医师学会开发的两种分别适用于临床和药学的证据评价工具SORT［50］和STEPS［51］；以及由我国多个机构的循证医学专家共同开发的临床实践指南评级工具STAR［52］。熟练应用上述工具，将有助于更好地制定和评估这一领域未来的循证指南和共识，并使其可为从业者、患者，乃至整个社会所信服，使这些指南和共识可以真正深入人心，对临床实践和卫生政策，以及隐藏于其后的患者和居民的健康和福祉产生切实的影响，而非仅停留于务虚的“影响力”和“学术成果”的理论层面。

3.7 系统性挑战和改进建议

基于对使用此前6类研究方法的研究论文、系统综述和指南/共识的分析，目前存在于我国基层卫生和全科医学科研中的问题可能正面临着系统性挑战。尽管我国该领域发表的研究论文数量已达到了世界领军水平，但整体的质量和有效性仍存在较为严重的局限性。作为被运用得最频繁、论文发表量远高于其他类别的研究方法，横断面研究、前后干预研究以及随机对照试验的论文质量普遍受限严重，方法学质量相对较好的队列研究则数量相对有限，这种“上游”的阻塞，可能会潜在地削弱“中游”的系统综述和指南/共识的有效证据来源；而“中游”的系统综述和指南/共识，在信息收集、分析和报告方面的不严谨又可能继而削弱身处“下游”的医学和卫生从业者对“科研成果”的信任，从而造成循证医学所指出的“形成证据”和“改进实践”两个环节的脱节，以致正向循环无法持续转动。

在现实中，这一困局则可能进一步造成基于我国实际的医疗体系和社会经济情况而产生的科学证据，在我国基层卫生和全科医学领域的卫生政策、服务模式和临床实践规范的制订中相对缺席，而不得不被在与我国医疗体系、社会情况和人口特点不完全一致的其他国家生成的国际证据，或是部分专家依靠个人经验集思广益而形成的集体意见所替代，从而影响我国基层卫生、全科医学发展方向和策略整体的科学性和务实性。从这个意义上说，提升我国基层卫生和全科医学领域的科研能力，尤其是设计和实施高质量研究的能力，以及开发高水平系统综述、指南和共识的能力，可能在未来的很长一个时期是一项需要学科整体自上至下，自学会、学术期刊、机构乃至研究者个人集体关注，以求改观的关键问题。

基于以上研究结果，结合全体评价者的共识意见，向学科相关的科研管理者、研究者和学术期刊编辑提出以下3项建议：

（1）在科研教育培训方面，应在基层卫生和全科医学的教学和继续教育中提高本学科科学研究的教学和培训质量，尤其是关于科研设计和方法学质量的部分，以为该领域的科研工作奠定务实的、牢固的、系统性的理论知识体系，持续改善研究者尤其是青年研究者在资源有限的情况下，识别、设计和运用较为严谨的研究成果的知识和能力。

（2）在研究的设计和审核方面，研究者、学术期刊的审稿人和编辑均应更加重视原创科研论文和系统综述的设计和报告的参考规范，以及透明的报告研究内容的重要性，从形成有效证据的角度进一步设计、完善和审核可能会公开发表的论文，以使其可以更好地为读者所了解和信任，并具备形成有效研究证据的潜力。

（3）在指南和共识开发方面，需要结合国内外学术理论和当前我国该学科的实际情况制订科学和可行的，开发基本医疗服务领域相关指南的方法学规范，以促使该领域在未来发布的指南和共识能够使多元利益相关者参与其中，流程更为透明、严谨，推荐更为清晰合理，且包含可信的同行评审和持续更新设计。

通过对2021年发表的我国全科医学和基层卫生领域的代表性科研论文的方法学质量评价发现，这一领域的科研成果近年在总体上仍存在较严重的质量限制，且在横断面研究、干预前后研究和随机对照试验等研究类别表现得尤为严重。此外，数量有限的临床指南/共识的质量也整体较低。以上发现凸显了我国这一研究领域增强系统性的科研培训、重视科研报告规范以及制订科学和务实的指南/共识方法学规范的迫切性和重要价值。

审核专家：梁万年（清华大学万科公共卫生与健康学院、健康中国研究院），杨辉（澳大利亚Monash大学）

《中国全科医学》定量研究、系统综述和指南/共识质量评价小组成员名单：

执笔人（根据姓氏笔画顺序排列）：叶志康（加拿大Michael G.DeGroote国家疼痛中心），汪洋（北京大学中国卫生发展研究中心），林恺（汕头大学医学院第一附属医院全科医学科），赵洋（乔治全球健康研究院），徐志杰（浙江大学医学院附属第二医院全科医学科）

文献质量评价（根据姓氏笔画顺序排列）：王志翊（温州医科大学附属第二医院全科医学科），公为洁（深圳大学医学部全科医学系），朱俊利（首都医科大学公共卫生学院），刘晨曦（华中科技大学医药卫生管理学院），张金佳（河北医科大学第二医院全科医学科），陈少凡（南京医科大学医政学院），邹川（成都中医药大学附属第五人民医院全科医学科），林恺（汕头大学医学院第一附属医院全科医学科），林春梅（国家卫生健康委卫生发展研究中心），金花（同济大学附属杨浦医院全科医学科），郭然（北京协和医学院卫生健康管理政策学院），赵洋（乔治全球健康研究院），饶昕（四川大学华西医院全科医学中心），姚弥（北京大学第一医院全科医学科），段红艳（河南省人民医院全科医学科），钟陈雯（香港中文大学医学院公共卫生和初级保健学院），徐仲卿（上海交通大学医学院附属同仁医院全科医疗科），高晓彤（中国医科大学附属第一医院），黄艳丽（四川省成都市武侯区医院管理服务中心），景日泽（中国人民大学公共管理学院），廖靖（中山大学公共卫生学院医学统计与流行病学系），潘子涵（北京大学第一医院全科医学科）

文献筛选：汪洋（北京大学中国卫生发展研究中心），曹新阳（中国全科医学杂志社）

统计学分析：汪洋（北京大学中国卫生发展研究中心），徐真（河北工程大学医学院生物教研室/中国全科医学杂志社）

本文无利益冲突。