基于德尔菲法构建临床住培基地（综合医院）全科医学科配置与建设评价模型

2021-01-06 11:57沈士立吴彬齐殿君陈歆悦张鑫岩李一萱张旭宫雪于晓松

中国全科医学 2021年7期

沈士立，吴彬，齐殿君，陈歆悦，张鑫岩，李一萱，张旭，宫雪，于晓松*

2018年，原国家卫生计生委出台文件：要求所有承担全科医学住院医师规范化培训的临床基地（综合医院）〔临床住培基地（综合医院）〕必须在2019-12-31之前独立设置全科医学科[1-2]。但国内对于如何设置和建设综合医院全科医学科尚缺乏研究和共识。目前，与综合医院全科医学科有关的研究文献主要集中于探讨建科的必要性和重要性、科室建设的现况、全科医学师资队伍、人才培养、住培带教中的发现，而在科室建设的整体规划与评价方面存在领域的研究缺口。本文旨在报告中国医科大学附属第一医院全科医学科运用德尔菲法构建临床住培基地（综合医院）全科医学科配置与建设评价模型的过程，以期为今后发展和完善相关评价工具提供借鉴。

1 对象与方法

1.1 研究团队和方法选择本课题工作小组成员共9名，包括教授2名、副教授1名、讲师1名、在读博士研究生1名、在读硕士研究生4名。其中，由1名教授与2名研究生组成文献检索小组，主要负责文献检索、翻译、分析与整理；由1名教授与5名研究生组成专题讨论小组，主要负责会议布置、专家联络、提纲的拟定讨论及会议资料的转录、编码与分析；由2名教授、1名副教授、1名讲师、1名研究生组成德尔菲专家咨询工作小组，主要负责专家遴选与联系、问卷制定、组内研讨和决策。针对研究中出现的问题和歧义，均通过组内讨论得出一致观点。

本课题工作小组首先通过文献检索和专题小组讨论设计制定了临床住培基地（综合医院）全科医学科配置与建设评价模型的基本框架和草案，然后通过德尔菲法进行全面的指标筛选、权重估计和评价标准的修改，最终完成模型构建。德尔菲法是本研究的主要研究方法，主要通过发挥专家群体经验对特定项目进行预测，多应用于没有历史事件或历史经验可以借鉴的预测环境[3]。由于我国全科医学起步较晚，发展经验相对较少，且在国际上没有同类发展模式可以完全借鉴，故德尔菲法具有方法学的适用性。

1.2 文献检索研究者使用“全科医学科”与“评价或指标”（中文）及“general practice department or family medicine department or family practice department”and“evaluat*or indicator*or index*”（英文）的检索词对PubMed、万方数据知识服务平台、中国知网及国内外卫生系统的官方网站〔如中国卫生健康委、英国国家医疗服务体系（NHS）、澳大利亚皇家全科医师协会（RACGP）网站等〕进行了文献搜集。检索时间为2000-01-01至2019-06-01，纳入与综合医院全科医学科建设相关的研究文献（包括政策文件、研究论文、制度标准等）。排除标准：（1）与评价指标构建相关较小的文献；（2）与综合医院全科医学科建设相关较小的文献；（3）语言为英语/汉语以外的文献。由1名研究者负责文献检索，并通过题目、摘要筛选文献；由2名研究者独立地进行全文筛选，并从文献中提取评价指标和评价内涵，而后交叉核对，意见不一致时通过讨论或咨询第3名研究者得出一致观点，文献检索过程见图1。

通过文献检索，最终纳入各类资料15篇[1，4-17]，包括原国家卫生部发布的（综合医院）临床重点专科建设项目评分标准2篇[4-5]，国家卫生健康委发布的全科医学政策法规5篇[1，6-9]，国外发达国家全科医疗评价研究7篇[10-16]，专业书籍1本[17]，由此组成了本项目的参考文献池。

图1 文献检索示意图Figure 1 Literature retrieval

1.3 专题小组讨论研究者于2019年3月29—31日，两次邀请数名来自不同省市的综合医院全科医学科的科室负责人参加专题小组讨论会议，第1次参会专家7名，第2次参会专家4名。两次会议均围绕临床住培基地（综合医院）全科医学科的科室建设展开讨论，尤其对临床住培基地（综合医院）全科医学科的定位及科室建设相关评价指标进行了深入探讨。以上工作已通过《临床住培基地（综合医院）全科医学科的定位与评价指标研究：基于专题小组讨论的归纳性分析》[18]一文进行发表。

1.4 问卷设计由2名研究者从检索文献池、另2名研究者从专题小组讨论转录文本中提炼了临床住培基地（综合医院）全科医学科建设的评价指标和评价标准，相关内容经研究团队集体讨论后形成一致观点。由1名研究者将文献研究结果和专题小组讨论结果进行综合，经研究团队集体讨论后初步设计形成了一级、二级、三级指标和评价标准的草案，以及德尔菲专家咨询问卷（第一轮）。

1.5 遴选专家根据研究的目的和内容，研究者制定了以下专家遴选标准：（1）地域：按照比例分层抽样，从我国东部、中部、西部和东北部四大区域选取专家[19]，因东部地区全科医学发展较早，专家经验相对丰富，适当增加了东部地区专家人数。（2）专业经验：从“中华医学会全科医学分会第八届委员会委员名单”“中国医师协会全科医师分会第四届委员名单”“海峡两岸医药卫生交流协会第二届全科医学分会委员名单”等名单中优先选取多年从事全科医学相关工作或研究的专家，以保证专家对我国全科医学的发展具有全面的认识和见解。（3）全面性：除全科医学临床专家以外，研究者也适当选取了全科医学兼医学教育或兼医院管理或兼公共卫生与预防医学的专家，以保证参与者在专长领域上的全面性。

1.6 专家邀请和问卷发放研究者主要通过电子邮件、短信、电话等方式联系专家。于2019年6—8月，通过E-mail和现场发放问卷的方式发放并回收专家咨询问卷（第一轮），发出问卷45份，回复38份，均填写基本完整；于2019年9—11月，通过E-mail发放并回收专家咨询问卷（第二轮），发出问卷38份，回复35份，均填写基本完整；于2019年12月—2020年3月，通过E-mail发放并回收专家咨询问卷（第三轮），发出问卷35份，回复32份，均填写基本完整。

1.7 指标筛选采用Likert 5级评分法，请专家对每个指标的同意程度赋分，以非常不同意计1分，非常同意计5分，并请专家在“专家意见”中以开放填写的形式，阐明自己对评价指标的不同看法。回收问卷后，根据专家的意见，计算各项指标的算数均数、变异系数和满分比。采用界值法，要求所有纳入指标的同意程度必须满足标准：算数均数≥4.00分且满分比≥30%且变异系数≤0.25。对不符合界值法标准的指标，根据专家意见进行相应修改或删除；对满足界值法标准的指标，针对个别专家的修改建议，经课题组集体讨论后决定是否改动。最终，当所有指标均符合界值标准，且专家意见趋于统一，完成指标筛选。

1.8 权重确定采用层次分析法计算一、二级指标的权重系数，采用专家评分法计算三级指标的权重系数。首先请专家填写一、二级指标的判断矩阵，填写过程见表 1～2。

然后对判断矩阵进行逻辑性检验和一致性检验，具体为：（1）对每个判断矩阵分别进行检验，对检验结果不合格的数据予以删除；（2）若同一专家检验不合格次数≥3次（最多出现不合格次数为6次），则认为该专家对层次分析法的理解存在偏差，剔除该专家的全部矩阵数据。根据纳入数据，计算各项指标的权重系数并取几何均数形成“初始权重”。随后，对“初始权重”进行标准化处理，具体为：权重系数为0～2.49%标准化为0%，权重系数为2.50%～7.49%标准化为5%……权重系数为97.50%～100.00%标准化为100%，将一、二级指标权重以5%为单位进行标准化处理，形成“标准化权重”。然后，将“初始权重”和“标准化权重”再次发给专家，征询专家是否同意“标准化权重”，根据专家反馈，结合初始权重结果，经课题组集体讨论后确定一、二级指标的权重系数。同时，采用Likert 5级评分法，请专家对三级指标的重要程度赋分，以非常不重要计1分，非常重要计5分，然后通过直接评分法和Satty法计算获得各项三级指标的权重系数[20]。

表1 一、二级指标判断矩阵填写表Table 1 Judgment matrix filling table of first-level and second-level indicators

表2 αij赋值说明表Table 2 αij assignment description table

1.9 评价标准的修改由于评价标准是评价模型的具体操作细则，工作量庞大且细碎，为控制工作量和提高效率，本研究未设置评价标准的界值法修改标准。但课题小组整理了专家在问卷中提出的每一条评价标准修改建议，并进行了逐条讨论，以不同专家提出的相似观点为重点参考，以不同专家提出的不同观点或个别专家提出的个别观点为辅助参考，最终由课题组集体讨论是否修改该项评价标准。当专家对某一个评价标准提出的修改建议明显减少，则认为专家群体对该项目趋近认可。

1.10 质量检验采用Excel 2010和SPSS 20.0软件进行数据录入和分析，采用专家积极系数、专家判断依据、专家熟悉程度、专家权威系数、专家协调系数分析专家咨询的可靠性，以P＜0.05为差异有统计学意义。专家积极系数为问卷的有效回收率，专家判断依据由自评得出，赋值说明见表3，专家熟悉程度由自评得出，赋值说明为：很熟悉赋值为1.0，较熟悉赋值为0.8，一般赋值为0.6，较不熟悉赋值为0.4，很不熟悉赋值为0.2。专家权威系数为专家判断依据与专家熟悉程度的算术均数。专家协调系数由SPSS 20.0计算得出，以协调系数＞0.5、P＜0.05代表专家意见趋于统一。

2 结果

2.1 专家基本情况本研究共选取全国各地全科医学资深专家45名，根据专家回复情况分别发放3轮德尔菲专家咨询问卷。三轮函询的专家基本情况见表4。

2.2 可靠性分析

2.2.1 专家积极系数第一轮发放问卷45份，回收问卷38份，积极系数为84.4%；第二轮发放问卷38份，回收问卷35份，积极系数为92.1%；第三轮发放问卷35份，回收问卷32份，积极系数为91.4%。

2.2.2 专家权威系数专家判断依据为0.955 3，专家熟悉程度为0.926 3，专家权威系数为0.94。

2.2.3 专家协调系数第一轮咨询，专家协调系数为0.253，协调性检验P＜0.001；第二轮咨询，专家协调系数为0.198，协调性检验P＜0.001；第三轮咨询，专家协调系数为0.716，协调性检验P＜0.001。

表3 专家判断依据及其影响程度赋值表Table 3 Basis for experts' judgment of the value of indictors and influence degree assignment table

2.3 指标筛选结果根据界值法标准，第一轮专家咨询后，共有2个二级指标、15个三级指标不满足保留标准，对以上指标均进行了修改或删除。第二轮专家咨询后，所有指标已符合保留标准，不再进行相应改动。根据专家修改意见，经课题小组集体研讨，第一轮咨询后，一级指标数量增加1个，将原一级指标“教学与科研”单列为“教学”与“科研”两个一级指标；二级指标数量减少9个，包括删除7个指标，修改4个指标，合并2个指标。三级指标数量减少30个，包括删除31个指标，新增8个指标，修改22个指标，拆分3个指标，合并10个指标。第二轮咨询后，一级指标不做调整；二级指标数量减少1个，包括删除1个指标，修改3个指标；三级指标数量保持不变，但删除3个指标，新增5个指标，修改6个指标，合并1次指标。第三轮咨询后，一、二级指标不做调整，仅修改1个三级指标。一、二级指标修改过程见表5。

表4 专家基本情况表〔n（%）〕Table 4 Basic information of experts invited

2.4 权重确定结果

2.4.1 一、二级指标权重

2.4.1.1 逻辑检验和一致性检验经逻辑检验和一致性检验，一级指标判断矩阵排除12份，有效录入23份；“基础条件”下属二级指标判断矩阵排除12份，有效录入23份；“医疗技术队伍”下属二级指标判断矩阵排除11份，有效录入24份；“医疗服务能力与水平”下属二级指标判断矩阵排除12份，有效录入23份；“医疗服务质量”下属二级指标排除9份，有效录入26份；“教学”下属二级指标排除15份，有效录入20份；“科研”下属二级指标排除11份，有效录入24份。

2.4.1.2 权重结果一级指标的权重经标准化处理后，标准化权重方案专家同意人数26名，不同意人数6名，同意率为81.3%。在6名不同意的专家中，有5名专家认为：应进一步提高“教学”指标权重，意见较集中。但是，提高“教学”权重之后，同比降低哪个指标的权重系数，专家意见较分散。对此，笔者团队结合初始权重计算结果，经课题组集体讨论，适当提高了教学的权重，将一级指标权重系数最终调整为16%、20%、18%、18%、18%、10%，权重调整过程见表6。

各二级指标的权重经标准化处理后，专家同意人数波动于28～29名，不同意人数波动于3～4名，同意率为87.5%～90.6%。鉴于各二级指标同意率总体较高，且持有不同观点的专家意见比较分散，经课题组集体讨论，各二级指标权重系数不再调整。

表5 专家咨询后一、二级指标修改情况Table 5 Modification process table of first-level and second-level indicators according to experts' consultation

2.4.2 三级指标权重三级指标以专家咨询“重要程度”赋分为依据，根据直接评分法和Satty法计算确定权重结果。

2.5 评价标准的修改根据专家建议和课题小组讨论，笔者团队对各项三级指标的评价内容、评价方式、评价分值进行了全面优化和调整。第一轮咨询后，收到专家修改意见数百条；第二轮咨询后，收到修改意见一百余条；第三轮咨询后，收到修改意见三十余条，代表专家对评价标准趋于认可。

3 讨论

本研究起自2018年11月，终止于2020年5月，历时一年余。由4名全科医学师资和5名全科医学研究生组成课题工作小组协调管理研究进展，由38名来自全国22个省、市、自治区的全科医学学科带头人或学科骨干组成德尔菲专家咨询小组参与指导模型构建。研究前期，通过文献检索和2次专题小组讨论构建了评价模型的基本框架，然后通过3轮德尔菲专家咨询进行指标筛选、权重估计和评价标准的修改，最终构建形成包含6个一级指标、22个二级指标、78个三级指标及其评价标准在内的评价模型。研究过程由浅入深，遵循探索性研究的基本设计流程。专家积极系数和权威系数较高，研究结果较为可靠；专家协调系数＞0.5、P＜0.001，专家意见较为统一。

该模型在设计中，首先通过参考原国家卫生部于2010年颁布的《国家临床重点专科评估试点评分标准（通用部分）》[4]和2012年颁布的《关于印发肿瘤科等国家临床重点专科建设项目评分标准（试行）的通知》[5]形成该模型的结构性框架，使模型在主体结构上符合原国家卫生部对医院临床科室建设的一般要求。继而应用三角互证（triangulation）的方法[21]对多元信息和数据进行组合，从方法学上提升了指标收集与筛选、方案收集与筛选和权重设计过程的准确性。在前期资料收集中，由于考虑文献研究相对全面，但不够深入；专题小组讨论相对深入，但不够全面，研究者综合了文献研究结果和专题小组讨论结果，使初步设计的模型框架尽可能完善，为德尔菲专家咨询的开展提供了必要的准备。在之后的专家咨询中，采用界值法标准和专家意见相结合进行指标筛选，采用层次分析法和专家评分法相结合进行权重估计，采用课题组集体研讨决策专家建议进行指标评价标准的修改，都属于三角互证设计。

德尔菲法目前在国内较多用于评价指标和权重的设计，较少用于评价标准的修改和咨询。本课题组在专家咨询问卷中放入了评价标准，但未设置界值法标准，仅请专家提出开放式修改意见，并经课题工作小组研讨后做出决策。这一方面确保了评价标准的准确性，一方面则尽可能地减少专家填写问卷的工作量，在国内具有一定的方法学创新性。同时，在一、二级指标权重设计中，为了使评价模型便于开展实际评估，本课题组设计了标准化处理和专家再次确认的研究步骤，从而兼顾了评价模型的应用性和科学性，这也具有一定的方法学创新性。

表6 一、二级指标权重调整Table 6 Weight adjustment table of first-level and second-level indicators

然而，这种评价指标的开发和调整方法是否稳健，所生成的结果是否可以在实践中展现出充分的实用性，仍有待后续研究和实践检验所证实。此外，在一、二级指标的权重确定中，笔者团队对所有数据进行了逻辑检验和一致性检验，对一级指标排除了12份数据，有效录入23份；对二级指标排除了9～15份数据，有效录入20～26份数据，排除数据总体相对较多，可能存在一定的研究者偏倚。

综上，本研究完整透明地报告了中国医科大学附属第一医院全科医学科研究组开发和完善临床住培基地（综合医院）全科医学科配置与建设评价模型的方法和过程。由文献检索—专题小组讨论—德尔菲法组成的信息获取环节，以及由界值法—判断矩阵—对开放意见的小组讨论组成的信息筛取排序环节共同确保了这一评价模型在理论上的全面性、效率和稳健性。这一全新的评价模型开发路径可以为后续研究提供重要的方法借鉴。

作者贡献:沈士立、于晓松负责文章的构思与设计、论文撰写与修改；沈士立、张鑫岩、李一萱、张旭、宫雪负责文献/资料收集和整理、访谈转录与分析；沈士立、吴彬、齐殿君、陈歆悦、于晓松负责专家遴选与联系、课题小组研讨和决策；于晓松负责文章的质量控制及审校，并对文章整体负责，监督管理。

本文无利益冲突。