涂文记,赵峻,徐薇薇,张勤
1.中国医学科学院北京协和医学院教务处,北京 100730;2.中国医学科学院北京协和医院教育处,北京 100730;3.中国医学科学院北京协和医院党委,北京 100730
国务院于2020 年颁布了《深化新时代教育评价改革总体方案》,明确提出要创新学生评价,完善德智体美劳过程性评价,并健全综合素质评价体系。为改善医学生评价体系,北京协和医学院针对长学制八年制临床医学生设计了“以胜任力为导向的医学测评综合体系”[1]。医学培养是一个漫长的过程,特别是对于八年制长学制医学生而言。目前我国临床医学多为分段式培养,分为临床前和临床阶段的学习。北京协和医学院的临床医学八年制培养模式一直沿袭创校初期的三段式,即预科阶段、基础医学阶段和临床阶段。这种培养模式旨在让学生逐步从基础知识学习过渡到临床实践,为未来的医生职业打下坚实的基础。从总体上看,当前临床医学专业教育存在以下核心问题:①学生报考医学院的心理准备不足。许多高中毕业生在报考医学院时,并未充分认识到医学专业的挑战性和长期学习的艰辛。部分学生是由于家庭成员的影响而选择医学专业,他们对医学并无深刻了解,更未培养出对医学的深厚兴趣。还有一部分学生对医学的了解仅限于一些理想化的概念,他们在面对实际医学学习的困难和挑战时,往往感到迷茫和动摇。②预科教育与医学教育的衔接有待改善。当前,基础医学和临床医学之间的脱节现象仍然存在。这种脱节不仅表现在课程设置和教学内容上,还反映在学生的思维方式和学习习惯上。这种现象给学生的学习带来了困扰,也给他们的专业成长带来了障碍。③医学生的分流出口制度不完善。为此,北京协和医学院针八年制医学生设计了“预科”与“基础”衔接综合测试,包括多站迷你面试(Multiple Mini-interview, MMI)的考核形式,希望通过“以考促学”的方式促进学生学习。目前国内较少对多站迷你面试进行应用实践研究,对考试质量的研究更多采用经典测量理论(classical test theory, CTT)。为了更好地分析考试的质量,本研究采用概化理论分析考试的质量。
概化理论是一种现代心理测量理论,广泛应用于心理与教育测量领域[2]。其优点在于能够精确定位测量误差的多个来源,从而更好地理解测量结果的准确性。概化研究的目的是在明确测量目标和测量侧面的前提下,尽可能探明研究设计中各种测量误差的来源和结构[3]。这有助于提高测量的精度和可靠性,为研究和应用提供更准确的数据支持。概化系数是指从一个测验的被试得分拓广到测验程序同等接受度的条件全域中,被试均分估计的准确性[4]。这个系数被定义为全域分数方差与其和相对误差方差两者之和的比率,它反映了测量结果的精确度和可靠性。通过计算概化系数,可以对不同测验程序下被试得分的差异进行比较,进一步评估测量程序的优劣和改进方向[5]。计算表达式为:
在公式1 中,Eρ2代表的是概化系数,而δ2(p)则表示全域分数的方差分量,即测量目标的方差。同时,δ2(δ)表示的是相对误差方差,它是由与测量目标相关的测量侧面交互作用所产生的方差之和。
概化理论分为概化研究(G study)和决策研究(D study)。决策研究旨在根据特定的决策需求,通过概化研究得到的方差分量估计值来调整测量过程中的各方面关系。这包括调整不同侧面的样本水平、调整各个侧面之间的关系、改变不同变量的权重等,以探索如何控制和调节测量误差[6]。杨志明等[7]的研究表明,多元概化理论为提高考试测量效果、降低测量误差提供了新的视角和方法,尤其在研究涉及多个相关学科因子的综合考试方面具有独特优势。
本文旨在运用多元概化理论评估临床医学生的MMI 的可靠性。通过评估,可以进一步优化考试设计,发现并解决考试过程中可能存在的问题,为改进MMI 的蓝图设计和考站评分方案提供参考依据,从而确保更高质量的考试效果。
选取已实施的4 个考站MMI 的为研究对象,考试主题有:沟通交流能力(中、英文)、自我管理能力(模拟场景)、帮助他人的意愿与能力(爱伤)。考试蓝图见表1,考试结果详见表2。
表1 八年制医学生多站迷你面试蓝图
表2 医学生MMI 考试成绩及描述统计
计算采用瑞士教育研究学会教育测量研究小组设计(Swiss Society for Research in Education Working Group)的概化理论软件EduG -6e,根据概化理论的原理及软件使用说明,把医学生(Participant)作为测量目标,考试分成平行的2 组(G)作为测量侧面1,4 人/轮/组开展,作为测量侧面2,考站(Station 考站序号与评分者(Rater)分别作为测量侧面3和4。两组考生同时进行考试,考站(Station)共有四个。考生与组别之间存在一种嵌套关系,可以表示为R:C:G。在每个考站,由两位专科医生作为评分者,这表明考官与考站之间也存在相互嵌套的关系,记为R:S,概括而言,考试的设计为[学生(P):轮次(C):组别(G)]×[考官(R):考站(S)]多元概化理论分析,见表3。
表3 多元概化理论研究设计
按照研究设计,将各个考站的原始分录入EduG 软件中,运行之后得到小组(G)、同组内不同轮次(C:G)、学生(在组内轮转的学生P:C:G)、考站(S)、小组与考站(GS)、不同小组的考官与考站之间(GD:S)、不同轮次的考站与组别之间(CS:G)、不同轮次的考官及不同组别的考站之间(CR:GS)、考生与考官及轮次及组别之间(PS:C:G)、考生与考官及轮次及不同组别的考站之间(PR:C:GS)交互作用的方差估计矩阵,见表4。
表4 方差分析(Analysis of variance)结果
最终计算绝对概化系数为0.92,信度系数较高,见表5。
EduG 提供了G-Facets 分析的功能,它可以评估当移除某个考站后,整体考试的信度变化情况。如果移除其他任何一个考站,考试的相对信度系数仍然在0.90 以上。见表6。因此,可以得出结论,该考试的设计具有较高的可靠性,并且可以有效地评估考生的能力水平。
表6 去掉某个考站后信度分析
D 研究结果表明,现有的5 个考站的考试方式已经具备了较高的考试信度,相对G 系数达到0.95。进一步增加考试站点会导致考试信度略有提升。当站点数目增加至6 个时,相对G 系数将提高至0.96,见表7。
表7 D 研究
概化理论是对经典测量理论的升华,它借助实验设计和方差分析技术,以实现对测评情境中各类误差的细致分解与有效控制。该理论框架包括G研究和D 研究两个部分。其中,G 研究主要关注测量目标与测量方面的关联,而D 研究则在此基础上,通过巧妙转化随机方面为固定方面,从而获取最高的概化系数,以便优选最佳的测量方案。概化理论在解决许多现实能力测评问题方面具有广泛的应用价值,尤其在医学领域的临床技能多情景考试评价中表现突出。
本研究借助多元概化理论深入剖析了长学制医学生MMI 考试。此次考试具有较高的信度,其相对G 系数达到了0.95,绝对G 系数为0.92,充分证明了该长学制设置的合理性。方差估计的结果显现,两个小组之间的考生成绩存在较大差异。考生的方差贡献率最为突出,这再次证实了考生间在考试能力上存在较大差异,而非考试本身的影响。进一步的研究发现,不同组之间的考生与考站交互作用对误差的贡献率最大(56.9%),这表明两组考生在面对相同的考站时,表现出的能力存在显著的差异。另外,从组别与考站之间的交互作用对误差的贡献率为26.5%来看,也再次证明了两组考生之间在能力上存在一定差距,其中一组考生的总体能力似乎更胜一筹。为了真正达到以考促学的目的,针对这一结果,可以对两组考生进行更为深入的分析,探究导致差异的原因。此外,考虑到提高考试信度,将考站数量增设为6 个是必要的,这将使考试的相对概化系数提高至0.96。
医学是一门实践性很强的学科,为了更好地促进即将进入基础医学学习阶段的学生了解临床医学在实际实践中所应具备的沟通能力、随机应变能力、时间和空间管理能力,在学生从综合性大学进入医学院学习基础医学知识增加一次“衔接”MMI考试非常的有必要。MMI 主要考察非认知方面的职能,以考察医学生所应具备的综合素质。传统的笔试在评估医学生的医学素养方面存在诸多局限性,因此,如何科学客观地评价MMI 考核指标体系的有效性和科学性成为了当前医学教育评估中的重要问题。本文运用多元概化理论对长学制医学生MMI 结果进行了深入研究。多元概化理论能够客观科学地评估长学制医学生MMI 考试结果,同时对于提升和优化医学生医学素养的考核质量具有积极的推动作用。