PETS-CAST的效度研究

2013-11-08 08:06刘庆思关丹丹

中国考试 2013年9期

刘庆思关丹丹

1 引言

计算机自适应序列测试（Computer-Adaptive Sequential Testing，CAST）是一种在计算机自适应测试（CAT）基础上开发出的计算机化测试形式，几乎继承了CAT所有的优点，同时还有独到之处，已经成为计算机辅助测试发展的方向（关丹丹&刘庆思，2010）。注意跟踪考试技术发展的全国英语等级考试（Public English Tests System，PETS）在此领域进行了探索，并开发出了相应的考试系统，称为PETS-CAST（关丹丹，刘庆思，莫春晖，2011）。

PETS-CAST采用的是1-2-5-5框架，每个控制板由13个模块构成，组成13条路径（见图1，最初的设计不包含通过虚线箭头所能到达的路径）。PETS-CAST将对考生在英语语言知识掌握方面和听、读方面的能力进行考查，采用的题型为较适合自适应测试需要的选择题。首先，任一考生将需要解答来自PETS-3级的完形填空题。作为本测试系统中的中等难度试题，该部分内容有着双重考查功能，一是确定考生的大致能力层次，以为其选取相应难度的后续试题；二是考查本级别考生对语言知识的掌握情况。鉴于PETS各级别试题难度跨度较大，一、二级别的考生会觉得该完形填空题过难，而四、五级别的考生则会觉得过易，因此，难以用这篇完形填空考查出这几个能力层次考生对语言知识的掌握情况，所以在第二阶段为这些考生设计了难度较为恰当的完形填空题。处于三级能力范围内的考生，将直接得到PETS三级听力试题。测试系统会对考生解答每一阶段试题的情况进行分析，估算出其大致的语言能力，然后据此为其投放相应难度（级别）的下一阶段的试题。考生的作答反应组态为0/1二元计分方式，考生的能力估计采用极大似然估计法，作答完阅读理解模块后施测终止。

为了检验PETS-CAST测试系统的性能，研究者从理论和实践两方面探讨CAST测试的可行性和测试效果。模拟研究显示（关丹丹，刘庆思，莫春晖，2011；关丹丹 & 刘庆思，2013）PETS-CAST测试所设计的路径能够满足不同能力水平考生的要求，一次测试能够对考生英语水平所达到的级别（五个级别）进行准确的判断，各条路径的测量精度均能够达到适应性考试的要求。为了确保PETS-CAST测试的效度，除了模拟研究外，实证研究是必不可少的。谈到效度的概念时，《心理与教育测量标准》指出，“效度指证据和理论支持从测验分数得出推断的程度”（p.9）；“效度研究（validation）就是搜集证据来科学合理地论证测验的解释是否恰当。按照现代效度理论观，研究者需要从整个考试过程的各个环节来阐述效度概念。为了检验PETS-CAST的效度，根据全国英语等级考试的考生群体分布，研究者选择有代表性的学生群体参加PETS-CAST考试，从多个角度搜集效度证据。具体包括：了解学生的计算机操作水平，采用实证方式获得PETS-CAST的多项信度和效度指标，调查学生对PETS计算机呈现形式和辅助工具的意见。测试系统的效度研究，有助于为该测试形式的完善和正式推出提供依据。

2 研究方法

2.1 被试

考虑到PETS各级别目标学生的英语语言能力，研究者选择了两个考试群体作为考试样本，一个是普通中学的高二学生，主要用于测试PETS低级别；另一个是大学英语系学生，主要测试PETS高级别。为了便于考试实施，利于考试效度研究，该研究采取整群抽样方法。

北京某中学高二的全体学生共423人参加了PETS-CAST考试；男生179人，占42.3%；女生244人，占57.7%。北京某高校英语系大一（75人）、大二（140人）和大三（126人）共 341人参加了PETS-CAST考试；男生24人，占7%；女生317人，占93%。大部分学生熟悉计算机操作，65.72%的高二学生经常（一周一次以上）使用计算机，93.26%的大学生经常使用计算机；高中从未使用过计算机的为16人（3.78%），大学从未使用过计算机的有2人（0.59%）。88.74%的学生对自己计算机熟练程度的自我评定为一般或较好，其中高二学生中认为自己计算机操作水平为一般（67.14%）和较好（19.39%）的占总人数的86.52%，大学生认为自己计算机操作水平为一般（66.57%）和较好（24.93%）的占总人数的91.50%。因此，大部分学生都具备了一定的计算机操作技能，达到了作答PETS-CAST考试的基本要求。

2.2 研究设计

为了验证PETS-CAST的可靠性，大学英语系学生在参加完第一次PETS-CAST考试（使用控制板1）一个月后，再次参加了PETS-CAST考试（使用控制板2）。两次考试中，构成考试控制板的模块的数量、试题量，以及模块的难度等均是平行的，即为两套等价、可替换的考试控制板。

为了验证PETS-CAST的效度，研究者搜集了各学生群体最近一次的英语统一模拟考试成绩，作为效标。

考试结束后，通过在线问卷调查的形式从四个方面调查了学生对本次PETS-CAST考试的感受与意见，分别是：对答题演示、指导语和作答方式的满意情况，对试题难度的感知情况，对计算机自适应考试优点的认同情况，对计算机自适应考试缺点的认同情况。

3 结果分析

3.1 接受各路径的学生人数

表1显示的是抽样学生在各路径的人数分布。

表1 学生在各路径的人数分布

高中作答人数较多的路径是3222、3-32和3-33这三个路径，占高中学生总人数的61.47%，为低级别学生设计的各条路径均有学生分布（3232、3233、3234、3432、3433、3434这六条路径试测时尚未开启）；从路径来看，大部分高二学生的英语水平应介于PETS-2级和PETS-3级之间。大学生作答人数分布较多的路径是3434、3444、3445和3455，占总人数的84.76%，各高级别路径均有学生分布；从路径来看，大学英语系学生的英语水平应介于PETS-4级和PETS-5级之间。另外，3434这条临时开启的辅助路径考试人数最多，这说明增加辅助路径的决策是正确的，对于某个水平的学生而言，辅助路径可能恰恰是测量这部分学生的最佳路径。据此，最终确定了PETS-CAST系统测试框架（见图1，包含通过虚线箭头所能到达的路径）。

3.2 对学生英语水平所属级别的判断

学生作答结束后，根据学生在各部分的作答情况采用极大似然法估计学生能力值，同时，参照PETS各级别合格标准，对学生英语水平所属级别进行判断（见表2）。

表2 PETS-CAST对学生合格与否的判断情况

69.27%的高二学生达到PETS二级合格水平，达到一级合格和三级合格水平的学生分别占高二学生的14.89%和14.18%；57.48%的大学英语专业学生达到PETS四级合格水平，31.09%达到五级合格水平。

高二男生和女生英语水平对比见图2。女生达到PETS二级合格和三级合格的总百分比（91.80%）要远高于男生（72.07%）。

大一、大二、大三3个年级学生的英语水平对比见图3。大二和大三学生在PETS三级和四级合格率上相差不明显，大一学生的五级合格率（14.67%）要远远低于大二学生（34.29%）和大三学生（37.30%）的合格率。

图1 PETS-CAST系统测试框架

图2 PETS-CAST考试高二男、女学生各级别合格率

3.3 PETS-CAST的测量标准误

由于PETS-CAST采用的是项目反应理论模型，反映测量信度的指标是估计的标准误。高二学生和大学英语系学生的具体测量精度分别见表3和表4。对于不同的群体，测量标准误均小于0.20，显示该考试具有非常高的测量精度。

图3 PETS-CAST考试大学一、二、三年级学生各级别合格率

表3 高二学生在PETS-CAST上的测量精度

表4 大学英语系学生在PETS-CAST上的测量精度

3.4 PETS-CAST的重测信度

重测的有效样本为223人。计算两次考试对学生能力估计值的相关，即为大学英语系学生在PETS-CAST上的重测信度。PETS-CAST的复本重测信度为0.785。其中，大一学生的重测信度为0.746，大二学生的重测信度为0.815，大三学生的重测信度为0.713。PETS-CAST覆盖的学生英语水平跨度较大，而考试中受各种条件的限制仅选取高级别学生作为试测对象，使得群体的同质性较强，这一样本选取方法无疑会低估PETS-CAST的重测信度。

3.5 PETS-CAST的效标关联效度

高二学生在PETS-CAST上的成绩与最近一次模拟考试成绩的相关为0.557，男生的相关系数为0.523，女生的相关系数为0.439。大学英语系学生在PETS-CAST上的成绩与最近一次模拟考试成绩的相关具体为：大一学生的相关系数为0.438，大二英文专业学生的相关系数为0.619，大二英教专业学生的相关系数为0.556，大三英文专业学生的相关系数为0.520，大三英教专业学生的相关系数为0.444。

上述相关系数的大小介于0.40～0.65，属于中等程度相关。经检验，均具有统计学意义（P＜0.01），即学生在PETS-CAST上的成绩与最近一次模拟考试成绩具有显著相关。对于高二学生而言，男生在PETS-CAST上的成绩与最近一次模拟考试成绩的相关系数要明显高于女生的相关系数；对于大学英语系学生而言，大二学生在PETS-CAST上的成绩与最近一次模拟考试成绩的相关系数要高于大一、大三学生的相关系数。虽然总体上选择了两个英语水平相差比较大的群体，但在计算效标关联效度时却需对若干群体分别计算，即仍然是同质性比较强的群体，这无疑也会低估PETS-CAST的效标关联效度。

另需加以说明的是，作为效标的模拟考试与PETS-CAST考试的考试性质、构想等均有较大差别，这也是造成两者相关不够高的原因。

毫无疑问，计算机熟练程度会影响学生在PETS-CAST上的成绩。将高二学生和大学英语系学生中计算机操作水平自评为较差的（高二删除52人，大学删除29人）删除后，再次计算其他学生在PETS-CAST上的成绩与最近一次模拟考试成绩的相关。高二学生在PETS-CAST上的成绩与最近一次模拟考试成绩的相关无论是总体（0.588）上，还是分男生（0.553）、女生（0.474）不同群体，均有一定程度的提高；大学英语系学生则表现为英文专业（大一为0.495，大二为0.633，大三为0.577）均有提高，而英教专业（大二为0.533，大三为0.436）略有下降。对于大学英语系学生而言，计算机水平较差的人数非常少（29人），具体到各年级和各专业删除掉的学生更少，如英教大二和英教大三各删除3人，所以英教专业相关系数的下降幅度可以忽略。

总体上看，校正后的相关系数提高，表明计算机操作水平对学生在PETS-CAST的成绩有一定影响。

3.6 学生参加PETS-CAST考试的感受

3.6.1 对考试形式和优缺点的评价

绝大部分学生都“同意”或“基本同意”“考前答题演示对答题有帮助”（92.41%）、“各部分指导语清楚，容易理解”（96.86%），以及“各部分试题呈现和答题方式合适”（95.55%）。

学生对计算机化英语考试的优点满意程度非常高，大部分学生都认同计算机自适应考试的各项优点，具体包括：形式新颖（92.80%），界面舒服（85.99%），无须书写、涂卡（96.47%），听力声音大小可调（94.50%），提供标记等辅助工具（92.67%），显示剩余时间提醒（93.98%）和有漏答提醒（97.77%）。同时，他们认为，相比于纸笔考试，计算机自适应考试形式也有很多不易适应之处，具体包括：“长时间盯着计算机屏幕”（86.39%）、“不能答题前浏览全卷”（88.35%）以及“不能自由选择作答的顺序”（87.57%）。这些缺点对计算机自适应考试而言难以克服。

另外，考试过程中，研究者记录了学生使用标记等辅助工具的情况，对试题题号做标记的频率为人均0.92次，对试题内容做标记的频率是人均1.04次。对标记等辅助工具使用的频率总体上非常低。这表明学生对计算机呈现的英语考试还不太适应，不能有效地利用计算机提供的辅助工具做标记。

3.6.2 学生对PETS-CAST的难度感知（见表5）

表5 学生对PETS-CAST难度的感知

表6 学生对PETS纸笔考试和计算机考试的偏好

总体看来，超过60%的学生认为试题难度适中；但具体到两个群体，差别较大。高二学生近半数认为试题较难，原因是：其一，PETS考试与学校里常见的英语水平考试在设计理念、题型上等有所不同，学生不适应；其二，PETS-CAST针对某些能力较强学生抛出的试题较他们熟悉的高考题难度增加，而导致他们明显感到试题较难。这两点在最后的开放性意见与建议中，均得到印证，许多英语水平好的学生都在“其他意见与建议”中指出试题较难。

68.85%的学生认为不同阶段的试题在难度上有一些差别，76.70%的学生感觉“有些不会答、有些会答”，这两个问题的调查结果可互为印证，符合自适应考试的特点。

3.6.3 学生对英语采用纸笔考试和计算机自适应考试的偏好

关于学生对纸笔考试和计算机自适应考试的感受见表6。

总体看来，学生关于“计算机打字速度与手写速度哪个更快”的选择，“计算机”（49.61%）比“手写”（34.42%）稍多；认为“计算机上对试题做标记有影响”的比率（45.94%）比没影响的（33.51%）稍多；认为“在屏幕上阅读长篇材料需要滚动，影响作答”的比率（44.24%）与没影响的（44.76%）持平；但喜欢“参加纸笔考试”的比率（59.16%）远远高于计算机的（26.83%）。

大学英语系学生对计算机考试的喜好程度大大低于高二学生，喜欢参加纸笔英语考试的竟占到80.35%；高二学生对纸笔考试（42.08%）和计算机考试（41.61%）的选择基本持平，没有明显偏好（见图4）。

图4 高二学生和大学生对纸笔考试和计算机考试的偏好选择

4 总结

该研究所选取的被试为高二学生和大学英语系学生。高二学生是PETS低级别考试的目标考试对象，而大学英语系学生则是PETS高级别考试的目标考试对象，关于他们英语水平的级别判断也符合研究者对学生能力分布的预期。

大部分学生具备计算机操作的基本能力，仅少数学生尚未接触过计算机，可能导致对其英语成绩的测量产生一定误差。高二学生的英语水平基本上呈正态分布，大部分处于PETS二级合格水平，其次是一级合格和三级合格水平；大学英语系学生大部分处于PETS四级和五级合格水平。从能力分布看，所选被试广泛地分布于PETS的各个级别，具有一定的代表性。

从测量标准误来看，PETS-CAST的信度非常好，能够对学生的英语水平进行比较准确的测量；从PETS-CAST成绩与最近一次统考成绩的相关来看，相关显著但相关系数并不高。这一方面与效标的选择有关，校方提供的最近一次统考成绩都是由学校老师自命的非标准化测验，无论是测量目标、测验构想、测验质量都与PETS考试不同。另一方面，计算机考试形式以及被试对计算机的熟练程度等会对考试成绩带来一定影响，如，女生的相关系数值明显低于男生，可能是女生对计算机不够熟练而受作答方式的影响较大；另一例证是，排除了计算机操作水平较差的学生后，效标关联效度有所提高。

就学生对PETS-CAST中工具的使用以及考试感受进行的调查显示，学生对考试系统所提供的辅助工具使用不足，这与学生不熟悉计算机形式的英语考试、缺乏经验等有关。学生对计算机自适应考试的优点非常认同，对其缺点也有同感，这与其他计算机自适应考试研究得出的结果类似。总体上看，高二学生对于计算机自适应考试和纸笔考试的选择没有明显偏好，但大学英语系学生则对计算机考试的缺点反应更加强烈，更倾向于选择纸笔考试。

综上所述，计算机自适应英语考试的效度研究，证实了PETS-CAST系统的考试效果，展现了CAST考试的优越性；研究结果为该考试形式的完善指明了方向。由于本研究中考试对象的代表性不够，试测样本未能覆盖PETS各级别的目标学生；另外，还需对两种考试成绩的可比性等进行更为深入的研究。所以，PETS-CAST考试目前只能作为英语学习者或者PETS考生的自我考试或练习工具，尚难以取代现有的各级别纸笔考试。

[1]关丹丹，刘庆思.计算机自适应序列考试概述[J].中国考试，2010（1）：29-35.

[2]关丹丹，刘庆思，莫春晖.PETS计算机自适应序列测试设计与模拟研究[J].心理学探新，2011，31（5）：467-471.

[3]关丹丹，刘庆思.两种PETS计算机自适应序列测试框架比较研究[J].中国考试，2013（1）：16-22.

[4]AERA，APA，&NCME.Standardsfor Educational and Psychological Testing.Washington，D.C.:AERA，1999：1-174.