基于列斯特评估量表的基层全科医生应诊能力评价指标体系构建研究

2023-11-14 07:54:20顾劲梅覃丽赵璨彭厚瑄奚谦申颖

中国全科医学 2024年4期

关键词：全科可行性咨询

顾劲梅，覃丽，赵璨，彭厚瑄，奚谦，申颖

1.530021 广西壮族自治区南宁市，广西医科大学第一附属医院全科医学科

2.530041 广西壮族自治区南宁市西乡塘区坛洛中心卫生院

3.530603 广西壮族自治区南宁市马山县周鹿中心卫生院

4.530229 广西壮族自治区南宁市江南区延安镇卫生院

5.530021 广西壮族自治区南宁市，广西医科大学全科医学院

加强以全科医生为核心的基层医疗卫生队伍能力建设是提升我国基层医疗卫生服务质量和水平的重要保障。自2009 年新医改启动以来，《以全科医生为重点的基层医疗卫生队伍建设规划》［1］、《关于改革完善全科医生培养与使用激励机制的意见》［2］、《“健康中国2030”规划纲要》［3］、《“十四五”国民健康规划》［4］等一系列国家政策均提出强化基层卫生人才队伍建设的要求，尤其明确了加强全科医生教育培养的重要性和紧迫性。目前，我国关于全科医生临床能力测评的研究较少，缺乏评估全科医生在基层环境中执业能力的指标体系［5］，不利于客观鉴别全科医生临床能力缺口及其教育培训的薄弱之处。列斯特评估量表（Leicester Assessment Package，LAP）是欧美国家广泛使用的评估全科医生应诊能力及接诊患者过程的工具之一［6］。LAP 包含7 个维度、39 个条目，用以评价全科医生在应诊过程中接诊和病史采集、体格检查、患者管理、解决问题、医生行为和与患者的关系、预防性治疗、病历记录7 个方面的表现及能力［6］。1994 年，英国莱斯特大学FRASER 等［7］首次提出LAP，并在临床医学生、住院医师及临床医师中检验了LAP 的内部一致性信度、外表效度及评价者间信度［8］。LAP 适用范围颇广，既可在真实或模拟诊疗场景下评估全科医生、医学生及其他专业住院医师的应诊能力，也可回顾性测评应诊过程的视频录像［9］。除英国［10］外，荷兰［11］、爱尔兰［12］、澳大利亚［13］、科威特［14］等多个国家，以及我国香港特别行政区［15］等多地区已出现根据本地实际情况改良的LAP，并将其常规运用于全科医生应诊能力的评估与教育培训中。近年来，我国北京市、上海市等地区零星开展了应用LAP 测评全科医生或住院医师规范化培训（简称住培）学员应诊能力及医患沟通能力的研究，但数量较少，纳入的全科医生或住培学员样本量偏低，且局限在极少数城市社区卫生服务中心环境中测评［16-18］。我国仍然缺乏在基层执业环境中测评全科医生应诊能力的指标体系及工具。本研究基于LAP 的测评条目，构建适用于基层环境的全科医生应诊能力评价指标体系，为客观、科学评价以全科医生为核心的基层医疗卫生队伍能力提供理论基础和研究依据。

1 对象与方法

1.1 基层全科医生应诊能力评价指标体系指标筛选

本研究纳入经典LAP 中文版的全部7 个一级指标和39 个二级指标作为初步构建的基层全科医生应诊能力评价指标体系内容。7 个一级指标分别为接诊和病史采集、体格检查、患者管理、解决问题、医生行为和与患者的关系、预防性治疗、病历记录；39 个二级指标包括允许患者详述现患问题，识别患者就诊原因，适当地使用仪器，善用化验、转诊及药物治疗，形成恰当的诊断或根据所处环境确认问题所在，与患者建立一种友善、专业和道德的关系，跟患者合作促进健康的生活方式，准确、清楚、恰当地记录每次医患沟通和转诊等［19-20］。

1.2 专家咨询法

1.2.1 咨询专家遴选：于2022 年5—8 月，采用目的抽样法，从全科医疗、全科医学教育及基层医疗卫生管理3 个领域遴选咨询专家。遴选标准为：（1）具有高级职称；（2）有≥5 年的全科医疗工作经验，且熟悉基层医疗工作；（3）熟悉基层卫生人才队伍能力评价，并具备实践经验；（4）自愿参与课题研究，且能完成连续2～3 轮咨询。依据以上遴选标准，最终从北京市、长春市、成都市、长沙市、深圳市、南宁市、桂林市、柳州市等地遴选出15 名专家，专家的地域分布较广。其中，医科大学附属教学医院全科医学科科室主任4 名、全科医师3 名，市级三级甲等医院全科医学科科室主任4 名，社区卫生服务中心主任3 名、全科医师1 名。

1.2.2 函询问卷设计：第1 轮函询问卷包括致专家信、专家基本情况调查表、初始指标体系评分表3 部分内容：（1）致专家信详述研究背景、专家咨询法原理及流程、初始指标体系框架及填写注意事项等，以便让专家熟悉咨询内容、流程及方式。（2）专家基本情况调查表旨在调查专家对咨询内容的熟悉程度、判断系数及权威系数。其中，熟悉程度测评提供非常熟悉、熟悉、一般、不太熟悉及不熟悉5 个等级选项，分别赋值0.9、0.7、0.5、0.3、0.1；判断系数提供2 个维度测评，一从临床经验、理论分析、国内外文献及直观感觉等方面考量，二从大、中及小等程度方面考察，2 个维度形成一个综合判断，各项相加即为判断系数；权威系数=（熟悉程度+判断系数）/2。（3）初始指标体系评分表要求专家对各条目的重要性和可行性评分，采用Likert 5 级评分法，重要性分为非常重要（5 分）、重要（4 分）、一般（3 分）、不重要（2 分）、完全不重要（1 分），可行性分为可行性较高（5 分）、可行性高（4 分）、一般（3 分）、可行性差（2 分）、可行性很差（1 分），并设置相应的修改、增加及删减意见栏。

以电子邮件的形式将函询问卷发放给各位专家，问卷回收后及时进行统计分析，形成第2 轮函询问卷。第2 轮函询问卷不再包括致专家信，提供第1 轮咨询的专家增删修订意见和各条目重要性及可行性评分均值，其余设置同前轮。多轮反复咨询后，专家意见渐趋一致，即可停止咨询。

1.3 层次分析法（analytic hierarchy process，AHP）

本研究采用AHP 确定应诊能力评价指标体系各一级和二级指标的权重。AHP 的具体步骤为：（1）建立各指标的层次结构模型；（2）构造判断矩阵；（3）检验判断矩阵的一致性；（4）计算各指标权重及组合权重。本文依据最后一轮专家咨询后确定的各指标的重要性和可行性得分之和的算数均值进行指标间两两比较排序，以此来构造判断矩阵，随后计算各指标权重及组合权重。

1.4 统计学方法

使用SPSS 26.0 统计软件进行数据统计分析。以相对数描述计数资料，以（±s）描述计量资料。专家基本情况采用描述性统计分析；专家参与咨询的积极程度采用有效问卷回收率表示；专家意见的集中程度使用重要性得分的算数均数表示，均数越大表明专家意见越集中，该指标越重要；专家意见的协调程度用肯德尔和谐系数（Kendall's W）及重要性、可行性得分的变异系数（CV）表示。本研究基于每一轮专家咨询的各条目的重要性及可行性评分进行肯德尔W 检验计算Kendall's W。Kendall's W 数值越接近1 说明专家对指标认同的一致程度越高，P＜0.05 表示专家意见协调程度有统计学意义。CV 计算方法为各项指标重要性、可行性得分的标准差除以均数，CV 越小（CV＜0.3）说明指标间专家意见差异程度越小。将各指标重要性或可行性得分的算术均数＜3 分或相应的CV＞0.3 作为删除指标的标准，同时结合专家咨询意见及课题组讨论意见进行最终判断。

运用SPSSAU 数据科学分析平台（https://spssau.com/index.html）构建8 个判断矩阵（含1 个一级指标判断矩阵和7 个二级指标判断矩阵），计算各一级和二级指标的特征向量及最大特征根；随后采用一致性比率（CR）检验各判断矩阵一致性，CR=一致性指标（CI）/随机一致性指标（RI），CI=（最大特征根-n）/（n-1），n 表示各判断矩阵中的指标数，即n 阶，RI 可从平均随机一致性指标RI 表格中获取，CR＜0.1 表明判断矩阵通过一致性检验，此时最大特征根所对应的归一化后的特征向量即为各指标权重。然后再计算各二级指标组合权重，其为各二级指标的权重与对应一级指标权重的乘积。

2 结果

2.1 咨询专家基本情况

本研究共进行2 轮专家咨询，完成2 轮咨询的专家共计15 名，均为执业全科医师。其中，11 名为女性，4 名为男性；6 名具有副高级职称，9 名具有正高级职称；学历以硕士研究生、博士研究生居多（13 名）；15 名专家的专业领域均涉及全科医学、医学教育，见表1。

2.2 专家积极程度及权威系数

第1 轮和第2 轮咨询各发放函询问卷15 份，回收有效问卷15 份，专家积极系数为100.0%。两轮咨询的专家熟悉程度、判断系数及权威系数分别为0.77、0.91、0.84，见表2。

表2 专家熟悉程度、判断系数及权威系数Table 2 Expert familiarity coefficient，judgement coefficient and authority coefficient during two rounds of Delphi consultation

2.3 专家咨询意见

第1 轮专家咨询包括7 个一级指标和39 个二级指标，提出新增指标类意见10 条，合并指标类意见1 条，修改指标表述类意见26 条，共计37 条意见。第2 轮专家咨询7 个一级指标和42 个二级指标，提出修改指标表述类意见3 条。结合课题组讨论、各指标重要性和可行性得分及CV 考量，最终采纳34 条专家修改意见，见表3。

表3 两轮专家咨询意见汇总Table 3 Summary of two rounds of Delphi consultation

2.4 各指标的重要性、可行性评分及专家意见协调程度

各指标重要性或可行性评分的均数在两轮专家咨询中均＞3.5 分，CV 均＜0.3，专家意见集中程度较高，未因重要性、可行性得分及CV 值删除任何指标（表4）。Kendall's W 在两轮专家咨询中均显示有统计学意义，且第2 轮咨询高于第1 轮咨询（表5）。专家意见在第2轮咨询中仅有3 条修改指标表述类意见，无重大指标增删意见，专家意见的协调程度和集中程度均较高，即专家意见趋于一致，可停止咨询。最终构建了包含7 个一级指标和42 个二级指标的基层全科医生应诊能力评价指标体系。

表5 专家咨询的肯德尔和谐系数Table 5 Kendall's W during two rounds of Delphi consultations

2.5 各指标权重及组合权重

依据层次分析法，最终的指标体系构建出1 个一级指标判断矩阵和7 个二级指标判断矩阵。各矩阵内指标均通过随机一致性检验，最大特征根值、CI 和CR 见表6，各一级和二级指标的权重及组合权重见表7。

表6 最大特征根和一致性检验结果Table 6 Greatest characteristic root and the consistency test results

表7 基层全科医生应诊能力评价指标体系及权重Table 7 Evaluation index system and weights for consultation competency of GPs

3 讨论

本研究基于经典LAP，通过2 轮专家咨询及AHP，构建了适用于我国基层执业环境的全科医生应诊能力评价指标体系。该指标体系包含接诊和病史采集、体格检查、患者管理、解决问题、医生行为和与患者的关系、预防性照顾及病历记录7 个一级指标，42 个二级指标，全面体现基层全科医生接诊过程中的各重要环节和内容，为客观评价全科医生在基层环境中的执业能力提供科学、可行的指标体系框架。本研究是国内较早开展评价全科医生应诊能力的研究，可为我国基层医疗卫生队伍能力评价提供理论基础和研究范例。

参与本研究的专家均具备全科医学、医学教育或基层卫生管理专业背景，从事全科医疗一线工作，熟悉全科医生应诊或接诊内容；第1 轮和第2 轮专家熟悉程度、判断系数及权威系数无变化，分别是0.77、0.91、0.84，均处于较高水平，且专家有主动参与研究的意愿，两轮专家积极系数均达100.0%。以上数据提示，本研究遴选的专家合适，具有较好的权威性［21-22］。从德尔菲结果来看：一方面，第1 轮和第2 轮各指标的重要性及可行性评分均数均≥3.5 分，CV 均＜0.3，两轮专家意见重要性及可行性的Kendall's W 值分别是0.173、0.170、0.296、0.321，肯德尔W 检验的P 值均＜0.001，具有统计学意义，且第2 轮的Kendall's W 值大于第1 轮数值，表明专家对指标体系的结构及各指标的认可度较高，专家意见协调程度好、分歧少［23-24］；另一方面，专家对初始指标体系提出较多修改意见。在第1 轮咨询中提出37 条修改意见，包括新增指标类意见10 条，合并指标类意见1 条，修改指标表述类意见26 条。课题组采纳4 条新增指标类意见，如“适时的问诊总结，再做相应补充”“采集病史的完善程度”“注意对患者隐私的保护”“尝试改变患者不当的就医行为”等，其余该类别的意见均因与其他指标内容重复，不予采纳；接受合并指标类意见1 条（“善用化验、转诊及药物治疗”）、修改指标表述类意见26 条。在第2 轮咨询中，专家仅提出3 条修改指标表述类意见，全部采纳。大多数专家意见旨在改善指标表述，提高其理解性和操作性；同时在初始指标体系中增加保护患者隐私、帮助改善患者就医、遵医行为及完善病史采集等评价内容，体现全科医生执业中所要求的医学人文关怀、赋能患者的要求。本研究所构建的基层全科医生应诊能力评价指标体系保留了经典LAP 的核心结构，依据我国基层医疗特点，增减少量指标条目，并修订指标表述。这与经典LAP 在多个国家（地区）的应用情况相似，除英国外，其他一些国家（地区）均采纳了LAP 的核心内容，调整了少量细化条目以加强本地适用性，因此相关文献中出现由5 个或6 个一级指标、28 个或35 个二级指标构成的LAP 改良版本［15，25］。

本研究所构建的指标体系中各级指标的权重较为接近，差别不大。7 个一级指标的权重波动于13.61%～14.69%，42 个二级指标的组合权重范围是0.95%～4.91%，这意味着7 个维度相对于全科医生应诊能力评价的重要性相当。而经典LAP 的7 个一级指标权重分别是20%、10%、20%、20%、10%、10%、10%［26］，相较于体格检查、医生行为和与患者的关系、预防性照顾及病历记录等维度，接诊和病史采集、患者管理和解决问题等维度被赋予更高的重要性得分。两者一级指标权重不一致的原因考虑可能与以下两个因素相关：一是咨询专家对全科医生应诊工作中各项任务相对重要性的认知不尽相同。显然，构建经典LAP 的专家认为在全科应诊工作中如何接诊患者、病史采集、患者管理及解决问题等能力的相对重要性或对应诊结果的相对贡献度要明显高于体格检查、医患关系、预防性照顾及病历记录等方面的能力；而本研究邀请的专家则认为以上7 个维度的能力在全科医生实际应诊工作中均有相似的重要性或对应诊结果产生类似的贡献度。各国对全科医生执业定位、医疗工作内容及临床能力所形成的不同共识是造成专家对全科医生应诊能力评价指标权重判断差异的重要原因［27］。二是权重计算方法差异。与传统AHP采用各指标重要性评分均数作为权重计算依据不同，本研究采用各指标重要性得分和可行性得分之和的均数计算权重。权重计算同时纳入指标重要性和可行性的评分，充分考虑了所建指标是否能在实际环境中操作执行，突出指标体系的实用性和可操作性，但合并重要性和可行性评分计算权重，可能稀释重要性对权重计算的影响，导致各一级指标的权重趋于一致。

传统的AHP 需要专家按照Saaty 标度填写两两比较的问卷，结构复杂，当指标较多时填写难度大，易引起咨询专家的反感和判断混乱［28］。本研究直接采用专家咨询法中各指标重要性和可行性评分数据实施AHP，无须再请专家就每个判断矩阵内的指标进行两两比较，能较好地规避判断混乱及逻辑错误的发生。专家在德尔菲法中给予各指标重要性及可行性评分，已经包含对各指标间相对重要性或相对可行性的比较。充分利用以上数据之间所蕴含的相对关系开展后续权重计算，可提高研究效率及数据利用率。目前相关文献已有改良AHP计算权重的报道，值得进一步实践［29-31］。

本研究基于全球广泛使用的经典LAP，构建了适用于我国基层医疗环境的全科医生应诊能力评价指标体系，指标体系包括7 个一级指标和42 个二级指标，内容覆盖全科医生应诊工作的各主要环节和重点任务，具备较高的科学性和实用性，为我国基层全科医生应诊能力评价提供标准化工具。本研究的局限性在于：所构建的基层全科医生应诊能力评价指标体系尚需进一步在相关人群中验证信度和效度，以实际人群检验的数据持续改进指标体系质量，同时还应进一步细化评估指标，提高科学性和实用性，从而推动指标体系的实际应用。

作者贡献：申颖负责研究构思与设计；顾劲梅、覃丽、赵璨、彭厚瑄、奚谦实施专家咨询法及层次分析法；顾劲梅、覃丽、赵璨进行数据收集、整理及统计学分析；顾劲梅、申颖负责撰写论文；申颖负责论文最终版修订，对论文整体负责。

本文无利益冲突。