基层全科医生应诊能力评价指标体系的信效度研究

2023-11-14 07:54顾劲梅纪舒妤奚谦彭厚瑄覃丽赵璨陈培萌黄小翠梁睿莹申颖

中国全科医学 2024年4期

关键词：信度全科条目

顾劲梅，纪舒妤，奚谦，彭厚瑄，覃丽，赵璨，陈培萌，黄小翠，梁睿莹，申颖

1.530021 广西壮族自治区南宁市，广西医科大学第一附属医院全科医学科

2.543103 广西壮族自治区梧州市龙圩区新地镇卫生院

3.530229 广西壮族自治区南宁市江南区延安镇卫生院

4.530603 广西壮族自治区南宁市马山县周鹿中心卫生院

5.530041 广西壮族自治区南宁市西乡塘区坛洛中心卫生院

6.543214 广西壮族自治区岑溪市糯垌中心卫生院

7.530047 广西壮族自治区南宁市江南区江西中心卫生院

8.530021 广西壮族自治区南宁市，广西医科大学全科医学院

全科医生临床能力测评是基层卫生人力资源领域的研究热点［1］。客观、科学评价全科医生在基层执业环境中真实的医疗及公共卫生服务能力，并准确鉴定全科医生基层卫生服务能力缺口与不足具有重要的现实意义，可以为有效提升全科医生教育培训工作质量提供改进方向及有益参考［2］。我国城乡发展不平衡，城市社区卫生服务中心和农村乡镇卫生院虽同属基层医疗卫生机构，但服务人群、医疗环境、基层卫生服务内容、风俗文化等均有所差别［3］，对全科医生的服务能力也有不同要求。目前，针对在农村基层执业的全科医生的临床能力测评研究较为匮乏，缺乏适用于农村基层医疗环境的医疗服务能力评价工具是导致该类研究偏少的重要原因之一［4］。列斯特评估量表（Leicester Assessment Package，LAP）是由英国莱斯特大学Fraser 教授首先提出，并经过广泛验证的用于全科医生、医学生及住院医师应诊能力评估的工具［5-6］。近年来，我国北京市、上海市等地的极少数社区卫生服务中心引入该量表评估全科医生应诊能力及全科医生培训效果［7-9］，但纳入评估的全科医生样本量偏小，缺少LAP 在国内全科医生人群中的信效度验证数据及LAP 在农村基层执业的全科医生应诊能力评估中的应用。本课题组在前期研究中，以经典LAP 为蓝本，通过德尔菲法构建了适用于基层环境的全科医生应诊能力评价指标体系，并采用层次分析法明确各级指标的权重。本研究旨在以农村乡镇卫生院工作的全科医生及助理全科医生为验证人群，采用问卷调查法检验前期研究中所构建的基层全科医生应诊能力评价指标体系的信度和效度，为在农村基层医疗环境中科学、客观测评全科医生应诊能力提供标准化工具，为推动农村基层全科医生临床能力测评研究和工作提供理论依据和研究范例。

1 对象与方法

1.1 调查量表设计

依据基层全科医生应诊能力评价指标体系设计相应的调查量表，包括接诊和病史采集、体格检查、患者管理、解决问题、医生行为和与患者的关系、预防性照顾及病历记录7 个一级指标和42 个二级指标。农村基层全科医生应诊能力评价量表包括8 个部分：第1 部分为研究对象的基本人口学信息，含性别、学历、基层工作年限、职称、执业资格、执业注册范围6 个条目；第2～8 部分以基层全科医生应诊能力评价指标体系的一级指标为各部分问题，各部分所纳入的条目为所属的各二级指标内容，共计42 个条目，每个条目提供5 个选项，根据Likert 5 级评分法，各选项按照“很难做到”“难做到”“一般能做到”“容易做到”“非常容易做到”分别赋值1～5 分。研究对象根据自身情况如实作答，总分为42～210 分，得分越高表示应诊能力越强。

1.2 研究对象

本研究以正在农村乡镇卫生院工作的全科医生或助理全科医生为研究对象。纳入标准：（1）具有执业医师资格证或执业助理医师资格证，且执业注册范围包含全科医学；（2）现正在农村乡镇卫生院工作，且至少有1 年及以上的农村基层医疗卫生工作经验；（3）自愿参与研究。排除标准：（1）从未在农村基层医疗环境中接诊患者；（2）未能提供自愿参与研究的书面知情同意书。

1.3 抽样方法和样本量估算

采用目的性和分层抽样方法，按照东、南、西、北、中方向，在广西壮族自治区抽取南宁、桂林、梧州、百色、贵港5 个城市，再依据2021 年广西农村乡镇卫生院年收入情况将以上5 个城市的乡镇卫生院分为年收入＞2 000 万元的高收入机构、1 000～2 000 万元的中收入机构、＜1 000 万元的低收入机构，在每个城市中抽取高、中、低收入机构各13～14 家。于2022 年9—12 月，通过“问卷星”平台将评价量表发放给在抽取的乡镇卫生院工作的全科医生或助理全科医生开展调查。

除基本人口学信息外，评价量表余下42 个条目。根据因子分析需要5～10 倍于量表条目的样本数量，故本研究样本量在210～420 较为合适。

1.4 量表条目筛选

联合Cronbach'sα系数、临界比值法及Pearson 相关性分析决定是否删除量表的条目。如删除某一条目后，总量表Cronbach'α系数大于未删除前，则考虑删除该条目［10-11］；将研究对象问卷得分按从高到低排序，取得分前27%为高分组，得分后27%为低分组，采用独立样本t 检验计算各条目高分组和低分组得分的均值差异，即临界比值（CR），并进行假设检验，如CR ≤3.000 或P＞0.05，则考虑删除该条目［12-13］；计算各条目得分和量表总得分的相关系数，如相关系数＜0.400 或P＞0.05，则考虑删除该条目［14-15］。

1.5 量表信度检测

采用Cronbach'sα系数和折半信度检测指标体系的内部一致性信度。计算量表第2～8 部分的Cronbach'sα系数和总量表的Cronbach'sα系数，Cronbach'sα系数≥0.700 认为量表内部一致性信度较高［16］；将量表条目分两半计分，计算量表前半部和后半部得分的相关系数，如两半得分方差相同，则计算两半部分得分的Spearman-Brown 系数判断折半信度；如两半得分方差不相同，则采用Guttman Split-Half 系数表示折半信度。折半系数＞0.700 视为折半信度较优［17］。

1.6 量表结构效度检测

基层全科医生应诊能力评价指标体系保留了经典LAP 的核心结构，即接诊和病史采集、体格检查、患者管理、解决问题、医生行为和与患者关系、预防性照顾及病历记录7 个一级指标，此外仅增加了3 个二级指标，故农村全科医生应诊能力评价量表具有较强的理论支持，可不再使用探索性因子分析法（explorative factor analysis，EFA）探索其维度结构，而直接采用验证性因子分析法（confirmative factor analysis，CFA）验证其结构效度［18］。采用Amos 24.0 统计软件构建CFA 模型，计算模型基本拟合度（preliminary fit criteria，PFC）、整体模型拟合度（overall model fit，OMF）及模型内在结构拟合度（fit of internal structural model，FISM）三类指标判断模型拟合程度，即假设模型与调查数据之间的拟合程度，从而验证量表的结构效度［19］。再通过潜在变量的相关系数高低判断是否具有更高层次因子结构，考虑构建二阶模型及进行相关模型拟合［20］。如模型拟合不佳，本文将以协方差的修正系数（MI）＞20 作为标准，将相应的误差变量从固定参数调整为自由参数，从而修正模型适配度。

1.7 统计学方法

量表数据录入采用Excel 2010 软件，数据分析使用SPSS 26.0 及Amos 24.0 统计软件。采用相对数描述计数资料，采用（±s）描述计量资料。以P＜0.05 为差异有统计学意义。

1.8 伦理

纳入的研究对象可通过评价量表中的附件说明详细了解本研究目的、内容、收集信息的用途及个人信息使用等情况。要求各研究对象将自愿参与本研究的知情同意书签字后扫描发送至一位本文作者的邮箱。考虑到本研究不涉及公开发表任何单一研究对象的个人信息及应答情况，亦不涉及人体试验，故无须申请伦理审批。

2 结果

2.1 研究对象的基本人口学信息

2022 年9—12 月，通过问卷星共计发放600 份评价量表，回收398 份，排除填写不规范、雷同答案过多及填写人员符合排除标准等问卷，共回收有效量表366份，有效应答率为61.0%。问卷应答者来自南宁、桂林、梧州、百色、贵港5 个城市中的204 家乡镇卫生院，其中女175 人（47.8%），男191 人（52.2%）；297 人（81.1%）具有本科及以上学历，293 人（80.1%）在基层工作年限＜5 年，215 人（58.7%）具有中级职称，315 人（86.1%）具有执业医师资格证，应答者的执业注册范围均包括全科医学，见表1。

表1 研究对象的基本人口学信息（n=366）Table 1 Demographics of subjects included in the study

2.2 Cronbach's α 系数、CR 及相关系数

量表总Cronbach'sα系数为0.976，删除各条目后量表总Cronbach'sα系数波动在0.975～0.976，未高于0.976，提示指标体系各条目间一致性较高，保留所有条目；将每份量表得分从高到低排列，前27%高分组（截至前99 例）和后27%低分组（截至倒数第99 例）的42 个条目CR 范围是10.727～18.906（均＞3.00 且P＜0.001），说明各条目具有良好的区分度，保留所有条目；在Pearson 相关性分析中，各条目得分与量表总得分的相关系数均＞0.590，P＜0.001，表明各条目与整体量表有较强相关性，保留所有条目，见表2。

表2 基层全科医生应诊能力评价指标体系的条目筛选情况Table 2 Screening of items in the evaluation index system for consultation competency of GPs in primary care settings

2.3 量表的Cronbach's α 系数和折半信度

总量表及7 个维度的Cronbach'sα系数均＞0.700（表3），总量表的Guttman Split-Half 系数为0.931，提示问卷具备良好的内部一致性信度。

表3 基层全科医生应诊能力评价指标体系总量表及各维度的Cronbach's α 系数Table 3 Cronbach's α for the whole questionnaire and subsections

2.4 量表的结构效度

2.4.1 量表的一阶CFA 模型构建、修正及拟合：KMO=0.972，Bartlett's 球形检验χ2=12 216.905（P＜0.001），提示量表数据适合进行因子分析。运用Amos 24.0 软件构建了初始一阶7 个因子的CFA 模型，再运用极大似然法拟合模型及估计参数。结果显示，模型PFC 良好，未违反模型辨认规则，表现为：（1）测量误差方差无负值，并达到显著水平；（2）一级指标和二级指标间的标准化因子载荷为0.59～0.87（一般标准为0.50～0.95［21］）；（3）非标准化因子载荷、因子间协方差、残差间协方差、因子及残差的方差等模型参数估计值的t 检验均达到P＜0.001 的显著性水平（一般标准为P＜0.05［21］）；（4）模型参数估计值的标准误小，波动在0.012～0.107。

但是，模型OMF 未达理想。依据MI＞20 的标准，依次将e1 和e2、e37 和e38、e3 和e4、e12 和e13、e10和e11 等误差项从固定参数改为自由参数，每次修正后均进行模型拟合。经过5 次修正后，最终一阶模型的OMF 指标较初始模型有一定程度改善。如拟合优度指数（GFI）、调和拟合优度指数（AGFI）、均方根残差（RMR）、近似误差均方根（RMSEA）、标准拟合指数（NFI）、比较拟合指数（CFI）、增值拟合指数（IFI）、非规准适配指数（TLI）、χ2自由度比值（χ2/df）、简约适配度指数（PGFI）、简约标准拟合指数（PNFI）等指标在修正后均获得优化，尤其是TLI 修正后从未达理想到达到理想水平。尽管GFI、AGFI 及NFI 等指标在修正后仍未达最佳，但大多数OMF 指标已达理想水平，故整体而言，最终一阶模型的OMF 尚称良好（表4）。

表4 一阶模型和二阶模型修正前后的整体拟合度指标Table 4 Overall goodness-of-fit metrics before and after correction for the first-order and second-order models

在模型内在结构拟合度方面，所有模型参数估计值达显著水平（P＜0.001）（一般标准为P＜0.05［21］）；最终一阶模型的标准化残差绝对值＜3；一阶因子的平均方差抽取值（AVE）波动在0.529～0.697（一般标准为＞0.500［21］）；一阶因子的组合信度为0.785～0.940（一般标准为P＞0.600［21］），见表5。33 个观测变量的项目信度（R2）＞0.5，9 个观测变量的R2＜0.5（一般标准为＞0.5［21］），见图1。虽然R2未达最佳适配标准，但总体来看，其他FISM 指标均已达标，故认为修正后的一阶模型内在结构拟合度仍为良好。

图1 应诊能力调查量表7 因子结构方程模型（一阶模型）Figure 1 Seven-factor structural equation model of the consultation competency survey scale（the first-order model）

表5 最终一阶模型和二阶模型的内在结构拟合度指标Table 5 The fit of internal structural model metrics for the final first-order and second-order models

2.4.2 量表二阶CFA 模型构建、修正及拟合：最终一阶模型的标准化路径图（图1）可显示二级指标/观测变量的标准化回归系数，7 个一阶因子/潜在变量之间的相关系数及个别观察变量信度系数（R2）。相关系数较高，为0.68～0.91，提示该模型可能具有更高层次的因子结构。同样采用Amos 24.0 统计软件和极大似然法构建、修正及拟合模型，并进行参数估计。

与初始一阶模型相比，修正前的二阶模型依然具备较好的PFC。无负的误差方差；二阶因子与一阶因子之间的标准化因子载荷为0.79～0.96，一阶因子与各二级指标之间标准化因子载荷为0.59～0.87；模型参数估计值的t 检验均达到显著性水平（P＜0.001）；模型参数估计值的标准误小，为0.008～0.118。

针对MI＞20 的误差项修正初始二阶模型，依次释放e1 和e2、e37 和e38、e3 和e4、e36 和r3、r5 和r6、e12和e13、e10 和e11。在经历7 次修正拟合后，构建最终二阶7 因子模型（图2）。修正后的二阶模型与修正前相比，GFI、AGFI、RMR、RMSEA、NFI、CFI、IFI、TLI、χ2/df、PGFI、PNFI 等指标均有不同程度改善（表4）；但和一阶模型相比，OMF 效果差异不大，均为合格。

图2 应诊能力调查量表7 因子结构方程模型（二阶模型）Figure 2 Seven-factor structural equation model of the consultation competency survey scale（the second-order model）

修正后二阶模型的内在结构拟合度逊于修正后一阶模型，其标准化残差协方差矩阵中有3 个绝对值＞3 的标准化残差，其余指标与修正后一阶模型相似。如：所有模型参数统计量的估计值有统计学意义（P＜0.001）；一阶因子对二阶因子的AVE 是0.811，7 个一阶因子的AVE 在0.529～0.697，均＞0.500（表5）；组合信度为0.786～0.968，均＞0.600（表5）；观测变量R2＜0.5 的观测变量个数仍保持9 个（图2）。

综合PFC、OMF 和FISM 效果来看，一阶7 因子CFA 模型的拟合效果优于二阶7 因子CFA 模型，且模型更为简约，表明广西农村基层全科医生应诊能力评价量表具有一阶7 因子结构，结构效度较好。

3 讨论

本文将基于经典LAP 构建的基层全科医生应诊能力评价指标体系转换为农村基层全科医生应诊能力评价量表，以在农村乡镇卫生院工作的全科医生及助理全科医生为验证人群，采用Cronbach'α系数和折半信度法检验评价量表的内部一致性信度，运用验证性因子分析法和结构方程评估量表的结构效度，结果显示评价量表具备较高的信度和效度，可用于农村基层全科医生应诊能力评价研究及实际评估工作。本文是国内较早开展的以在农村基层执业的全科医生为评估对象的临床能力指标体系信效度验证的研究，为我国农村基层全科医生临床能力评估提供具备较高信效度的评价工具，促进农村基层医疗卫生人才能力评价研究及工作开展。

3.1 量表的信度检验

本研究联合传统的Cronbach'sα系数及折半信度系数和结构方程中潜在变量组合信度及个别观察变量项目信度（R2）等指标来评估农村基层全科医生应诊能力评价量表的信度。结果显示，总量表及除基本人口学信息外的各部分Cronbach'sα系数均＞0.700，删除每一个条目后，总量表Cronbach'sα系数无明显变化，同时总量表折半信度Guttman Split-Half 系数较高（为0.931），以上说明传统的信度计算方法证明了量表及各组成部分的内部一致性良好。在验证性因子分析中，潜在变量组合信度作为模型一级指标的信度系数，可评估模型的内在稳定性［22］。本文最终一阶模型的潜在变量组合信度为0.785～0.940（＞0.600），说明拟合的模型内部稳定性较好；个别观察变量项目信度是另一个评测模型信度的指标［23］。在一阶和二阶模型中，有9 个观察变量的项目信度＜0.500，提示以上9 个观察变量有一半以上的观察变异来自随机误差，个别观察变量信度略不足［24］。但是，Cronbach'sα系数、折半信度及组合信度均呈现较高数值，且彼此间相互验证，故量表依然被认为具备较高的内部一致性信度。目前，国内多数文献仍采用Cronbach'sα系数和折半信度系数指标作为评价量表信度的首要方法［25-26］，本文采用联合方法检验量表信度，显示出从多角度、多层面评价信度的优势。除采用量表数据验证内部一致性信度外，国外文献还报道了通过视频方式录制全科医生接诊患者的真实过程来评价经典LAP 信度，并评测经典LAP 的评价者间信度［27-28］。这些为完善本文基于经典LAP 构建的基层全科医生应诊能力评价指标体系在未来的实际运用提供了有益参考。

3.2 量表的结构效度检验

本研究所构建的农村基层全科医生应诊能力评价量表是以经典LAP 为参考，具备坚实的理论构建基础，故无须进行EFA 确定量表所含的因素结构，直接使用CFA 检验量表实测数据与量表假设因素结构的契合度。CFA 的适用范畴是研究者明确量表或问卷的因素结构后，探究量表的因素结构模型是否和实测数据相契合，指标变量是否可有效测量因素构念［29］。本文采用PFC、OMF 及FISM 3 类指标评估应诊能力评价量表的假设模型是否和量表实测数据契合。PFC 旨在检测以实测数据构建的模型是否违反模型辨认规则，存在叙列误差、辨认问题或数据文件输入错误是模型是否成立的基本条件［29］；OMF 则是检验模型的外在质量，即构建的模型与实际观察数据的适配情况［29］；FISM 是模型内在质量的核验，重点考察模型的信度及效度［29］。国内外文献对于如何判断模型适配度并无统一标准。除了本文所采用的由BOGOZZI 等［30］提出的3 类评判指标外，DIAMANTOPOULOS 等［31］曾提出从模型适配度、测量模型评估、结构模型评估及统计检验力评估4 方面来检测模型的适配情况。目前，国内仍有较多文献仅从OMF 一个方面考虑假设模型的适配度，判断标准仍显单薄和不全面［32-33］。

除模型适配度缺乏统一判断标准外，对PFC、OMF及FISM 3类指标应达到什么程度方可认为适配度理想、良好或可接受也无一致共识。比如，本文的一阶和二阶模型均存在GFI、AGFI 及NFI 等OMF 指标和个别观察变量信度不达标的情况，但从整体来看，OMF 和FISM中达到理想的指标数远大于未达标数量，故仍可认为本文构建的量表的效度良好。达理想指标和未达理想指标的数量差异是国内普遍采用的评价模型适配度是否良好的考虑之一，但仍缺乏明确的经过科学研判的判断标准。

3.3 量表的应用前景

目前，我国缺乏具备较高信效度的评价农村基层全科医生应诊能力的指标体系或测评量表，致使农村基层医疗卫生人才工作能力评价研究较少，相关的评价工作难以开展。本研究所构建的农村基层全科医生应诊能力评价量表经研究证实具备较高内部一致性信度和良好的结构效度，适用于在农村基层医疗卫生环境中测评全科医生的应诊能力，为农村基层医疗卫生人员临床能力评价提供标准化工具。国内外文献已肯定经典LAP 适用人群广泛，可用于全科医生、医学生及住院医师的应诊能力评价，并且可采用直接观察和视频录像两种方式评估被评估者接诊患者的过程及表现［34-36］。以此为参考，本研究所构建的评价量表或指标体系，经过相应样本人群验证信效度后，可有更为广阔的应用空间，除基层医疗外，还可用于本科医学教育及住院医师规范化培训中的应诊能力评估，可切实推动基层医疗卫生人才临床能力评估及教育工作。

综上所述，本研究以在农村乡镇卫生院工作的全科医生作为样本人群，采用问卷调查法，验证了前期构建的基层全科医生应诊能力评价指标体系具备较高的信度和效度，可用于在农村基层执业环境中全科医生应诊能力测评研究和实际工作，并有望成为评价全科医生、医学生及住院医师应诊能力的标准化工具。本研究的局限性在于：本研究所采用的信效度验证人群为抽样样本，代表性和样本数量的局限使研究结果的外推需谨慎。同时，为促进基层全科医生应诊能力评价指标体系的实际运用，下一步将在真实的农村基层医疗执业环境中使用该指标体系评价全科医生接诊患者的过程和能力，收集真实世界的测评数据，持续改善指标体系质量。

作者贡献：申颖负责研究构思与设计；顾劲梅、申颖设计调查量表和实施抽样，负责撰写论文；纪舒妤、奚谦、彭厚瑄、陈培萌、黄小翠、梁睿莹发放及收集调查量表；顾劲梅、覃丽、赵璨整理数据，并进行统计学分析；申颖负责论文最终版修订，对论文整体负责。

本文无利益冲突。