医师资格考试医学综合笔试“一卷多式”等效性研究

2012-01-03 09:21张颖卢燕冯攀何佳

中国考试 2012年2期

张颖卢燕冯攀何佳

张颖卢燕冯攀何佳

从2009年开始医师资格考试医学综合笔试临床执业医师类别实行“一卷多式”，即试卷的内容相同，但试题顺序和选项顺序不同。为了检验不同卷式之间的等效性，本文通过PASS软件确定了所需要的最适样本量，借鉴了平行试卷的概念，使用了平行试卷的分析方法，重点从题目功能和结果分数两个角度进行了讨论。数据显示，2010年医师资格考试医学综合笔试（临床执业医师）各单元内不同卷式之间的平均数差异基本低于1分，分数分布形态基本相似；同一题目不同卷式难度和区分度的差异很小，基本都不超过0.02。结果表明2010年医师资格考试医学综合笔试（临床执业医师）不同卷式之间基本等效。

一卷多式；平行试卷；等效性

医师资格考试于1999年正式实施，作为行业准入考试，其设立的目的就是评价申请医师资格者是否具备从事医师工作所必需的职业精神、专业知识与技能。考试分为两级四类，即执业医师和执业助理医师两级；每级分为临床、中医、口腔、公共卫生四类。考试的内容主要包括实践技能考试和医学综合笔试两部分。[1]

医师资格考试自举办以来，考生逐年增加，考风考纪问题日益突出，作弊形式多样，作弊手段日益先进，作弊防范难度增加。为了防范考试中的作弊现象，维护医师资格考试的公平与公正性，卫生部相关考试管理部门逐年加强了考试组织的管理，为考场安装监控设备，为监考人员配备高科技防作弊仪器，与其他公共治安管理部门合作，在考试期间协同“作战”治理作弊现象。2009年，国家医师资格考试中心开始使用“一卷多式”的考试模式来防治愈演愈烈的考试作弊情况。根据考后对“错同率”的研究证明，“一卷多式”考试模式对加强考试管理，抑制考试作弊起到了至关重要的作用。[2]

但是不同卷式是否具有等效性，影响考试的公平性？查询国内文献，对于一卷多式的研究很少，国外文献的研究基本也是集中在单个试题相关指标的变化上。因此，本研究尝试将“一卷多式”的概念放在更广义的测验等效这个范畴中，将其与平行试卷这个概念进行类比，通过使用分析平行试卷的方法来验证“一卷多式”的等效性。

平行试卷是指在试题题量、题型、知识内容结构、考试结果的一致性与分数的可比性都完全一致的两套乃至多套试卷。而一卷的多个卷式因基本上为一套试题顺序和选项的不同组合，在前面几个因素上都具有一致性的前提下，最后两个因素便成为了探讨卷式等效性的关键因素。本研究即尝试以对考试结果一致性与分数可比性为基础，通过对不同卷式考生分数的分布、差异性检验，以及试题参数差异的计算分析，来验证一卷多式的等效性。

1 研究对象与方法

1.1 研究对象

本研究使用了2010年参加医师资格考试医学综合笔试（临床执业医师）考生的数据，由于考生数量较多，在进行分析时考虑了差异性检验的统计效力以及分层随机抽样方法的特点对样本量作了估计，并根据得出的样本数对总体随机取样。研究中所使用的具体样本量及计算方法将在研究结果部分详细阐述。

1.2 研究方法

本研究首先讨论的是对总体抽样的样本量估算问题。一般抽样样本量是根据具体抽样方法计算得出的。由于本研究是以单元为基础，各卷式分别抽取一定比例考生，合成样本总体，属于典型的分层抽样，因此应该采用分层抽样对样本量的计算方法。但由于本研究将对抽取出的样本进行方差分析，区间估计等统计检验，所以为了提高统计检验的效力，本研究还根据这些分析方法的特点使用PASS软件分别计算了达到一定效力标准（α=0.05；β=0.1）所需要的最适样本量。

在验证不同卷式之间的等效性时，本研究借鉴了平行试卷的概念，即对副本试卷之间是否具有平行性的检验方法来进行分析。如前所述，复本试卷的平行性可界定为相同专业下同一课程的不同复本试卷在形式、内容、功能和结果分数上的一致性和可比性[3]。同复本试卷平行性有关的因素主要分为四类：试卷结构、题目内容、题目功能和结果分数。[4]由于医师资格考试的“一卷多式”采用的是将标准卷的试题重排为几个不同卷式的方法，因此多个卷式之间的题目本身是相同的，形式和内容上也都必然一致，基本上具有一致性和可比性，所以本研究基本集中在对题目功能和结果分数两个角度的分析讨论上。

对结果分数的分析上，本研究的重点放在了对同一单元内不同卷式之间分数的比较上，一方面对各个卷式的考生分布形态进行研究，另一方面则采用方差分析的方法检验同一单元内不同卷式考生的得分之间是否存在显著差异。

对题目功能的分析上，本研究则注重在对不同卷式同一题目的参数变化上，分析内容包括难度的变化以及区分度的变化，目的是用这种方法来检验卷式的不同是否会对题目本身的参数产生影响。

2 研究结果

2.1 抽样样本量计算结果

表1 不同检验方法各单元所需样本量（α=0.05；β=0.1）

表1所示，为使用PASS软件估算得出的每单元所需的样本总量。由于医师资格考试“一卷多式”是以单元为基础，也即每个单元都各自使用了5个卷式，而后面所作的其他各项差异分析基本也是单元内各卷式的比较，所以表中计算的是各个单元5种卷式加和后所需的样本总量。

表中共使用了三种方法计算样本量，每种估算标准都满足α=0.05，统计效力为0.9，也即β=0.1。第一种方法是区间估计，即使用样本平均数估计总体平均数时要达到以上统计效力所需最适样本数；第二种方法为进行方差分析达到以上统计效力所需最适样本数；第三种方法为分层抽样所需最低样本数。

一般的统计抽样只使用最后一种方法来估算抽样样本量，但由于本研究后面将涉及方差分析和区间估计等统计分析，为了保证这两种统计分析的统计效力，也分别对它们作了相应的样本量估算。综合以上三种估算方法，方差分析所需样本量最大，因此本研究采用了此方法得出的样本量来进行抽样。同时为了方便计算样本量，各单元统一取整10 000个考生样本，同一单元不同卷式按照各自的考生数量比例抽取，各单元各卷式实际抽取样本量见表2。

2.2 样本方差分析结果

表2为各单元各卷式样本考生的人数、平均数、标准差、众数及中数等描述性指标。由表可知，各单元各卷式之间的平均数和标准差相差很小，单元内卷式平均数最高与最低值之间的差异都在1.5分以内。图1为各单元各卷式分布图，由图中可知，单元内各卷式之间的分布形态基本一致。

表2 各单元各卷式样本统计描述

图1 各单元各卷式样本分布

表3为单元内各卷式之间的方差分析检验结果。在进行方差分析前，先使用了SPSS软件内ANOVA分析模块的齐次性检验对各单元内卷式之间的方差齐次性进行了检验，结果表明单元内各卷式方差之间的差异均不显著，基本认定满足方差分析的假设条件。继续使用SPSS软件ANOVA模块进行各单元方差分析，得到结果如表3所示。从表3中可知，各单元各卷式检验所得P值都大于0.05水平，也就是说各卷式平均数之间的差异均不显著，无法推翻原假设，因此可以认为同一单元内各卷式之间的平均数基本相等。

表3 各单元不同卷式方差检验结果

2.3 试题难度分析结果

表4为各单元不同卷式试题难度的统计描述结果。为了检验试题参数的一致性，本研究分别计算了各个单元下同一试题在不同卷式中的难度参数，并以单元为基础进行了统计描述分析，结果如表4所示。从表中可以看出，每个单元每个卷式的试题平均难度都在中等难度0.5～0.6之间，难度最大值接近1，难度最小值接近0.1。本研究中所使用的难度为试题的通过人数与总人数的比，也即通过率，所以难度数值越大，题目越容易。

表5为同一题目不同卷式所得难度值的差数分析结果。具体的计算方法为将同一试题不同卷式所得的难度值两两相减，由于每道试题分别对应5个卷式，排列组合，也即共有10种两两相减的形式，分别计算出这10个差数；因这里的相减没有涉及方向，所以将10个差数都取绝对值后进行平均，即得到此题的平均差数。最后以单元为基础计算各单元内部150题的平均难度的各种统计指标，结果如表5所示。从表5可知同一试题不同卷式之间的难度绝对差异平均数基本都在0.02左右，最大值不超过0.2，最小值均为0，全距（指最小值与最大值之间的距离）不超过0.2，因此可以认为同一试题在不同卷式中所得难度参数的差异很小。

表4 各单元试题难度统计描述

表5 各单元同一试题不同卷式难度绝对差异分析

2.4 试题区分度分析结果

表6为区分度的统计描述结果。因医师资格考试医学综合笔试题目均为选择题，且为0/1计分，所以区分度的计算公式采用了点二列相关。如表6所示，各单元试题的区分度基本在0.2～0.3之间。

表7为同一试题不同卷式区分度绝对差异的分析结果。所使用的计算方法同难度差异的计算基本相同。从表7中可以看出，同一试题不同卷式之间的差异平均数不到0.03，最大值也只在0.1左右，因此可以认为同一试题在不同卷式中所得难度参数的差异很小。

表6 各单元试题区分度统计描述

表7 各单元同一试题不同卷式区分度绝对差异分析

3 问题与讨论

资格考试作为一种对人的知识、技能和创力进行考核或评价的活动，其结果直接影响到考标对象能否进入就业领域和专业岗位，因此必须保证考标的公平性、科学性和权威性[5]。“一卷多式”的考试模式正是为了防范考生作弊，保障考试的公正性所采取的措施。由于试题的排列顺序、呈现方式等因素不同就有可能导致作答不同卷式的考生成绩出现差异。因此对不同卷式之间的等效性进行验证分析就变得尤为必要。

本研究借鉴了经典测量理论中平行测验这个概念，尝试从考生分数与试题参数两个方面来验证不同卷式之间是否存在差异。从本研究得到的结果看，各单元5个卷式之间基本是等效的，单元内各卷式之间的平均数差异基本不足1分，分布图形态基本相似；同一题目各卷式难度和区分度的差异很小，基本都不超过0.02。这个结果证明了医师资格考试医学综合笔试（临床执业医师）“一卷多式”具有公平性。

但本研究所采用的试题参数还是经典测验理论下的难度与区分度，且只是以样本总体作为计算对象。其实在对试题参数的变化进行分析时可以参考项目功能差异的概念。项目功能差异（DIF）通常是指两组被试选择某项目的某一答案的概率除了自身的特质水平外还要受到其他因素的影响，使得同一项目具有不同的特征曲线。[6]这个概念其实和本研究所讨论的项目等效性基本相同，只是这里的其他影响因素为卷式不同。因此，下一步可以借鉴项目功能差异的分析方法，对试题参数的等效性进行更深入的研究。

[1]卢燕，张颖.使用聚类分析验证Angoff专家判断法有效性的研究[J].中国考试，2010（5）.

[2]凌玉.医师资格考试考场管理和作弊防范措施效果评价[J].华夏医学，2010，6（23）：310-312.

[3]王桥影，赵海燕.高等教育自学考试复本试卷的设计及其平行性控制[J].中国考试，2011（2）.

[4]漆书青，戴海崎，丁树良.现代教育与心理测量学原理[M].南昌：南昌江西教育出版社.1998.

[5]刘孟州.日本资格考试制度的现状及对我们的启示[J].日本研究，1998（2）：52.

[6]Holland P W，Wainer H.Differential item functioning[M].Hills⁃dale，NJ:Erlaum，1993.

Equivalence Study of National Medical Licensing Examination Comprehensive Written Test

ZHANG Ying,LU Yan,FENG Pan and HE Jia

Since 2009,National Medical Licensing Examination Comprehensive Written Test（NMLE CW Test）has been given in the form of“same content with multiple sequences”.The same test content is presented to examinees with multiple types of item and option sequences.This paper studies the equivalence of papers with different sequences.The best sample size is calculated under the help of PASS software.Parallel paper is defined and analyzed.Discussion is made both from item function and final score.The data shows that the difference of average score between different papers applied in 2010 NMLE CW Test is less than 1.The distribution of scores is basically the same.Difficulty and differentiality varies little across papers（basically ＜0.02）.The result shows that different papers applied in 2011 NMLE CW Test are equivalent.

Same Content with Multiple Sequences；Parallel Paper；Equivalence

G405

1005-8427(2012)02-0044-6