大学英语机考条件下随机生成试卷的概化理论研究

2018-03-03 02:48王天剑
关键词:机考题库信度

王天剑

(贵州财经大学 外国语学院,贵州 贵阳 550004)

`

一、引 言

随着四、六级英语机考的逐渐推广,大学英语学期考试方式也开始向无纸化方向转变。机考或者无纸化考试可以节约资源,节省阅卷工作量。借助题库和工具软件,计算机系统能够随机生成大量不同内容试卷,使学生难以在考场中抄袭他人答案。但机考也有潜在问题。例如机房软硬件的稳定性、学生对键盘操作的熟练度,以及对机考的心理反应(如焦虑、恐惧等),都可能影响考试结果[1]。更主要的问题是试卷很难真正同质。无论什么样的题库,同类试题之间所谓的“同质”、“ 等值”仅是相对而言。据笔者调研,不少高校大学英语机考依托的是任课教师命题创建的题库。由于缺乏严格质量监控,这些题库在机考中随机组合生成的试卷,同质性尤其值得怀疑。试卷同质性越小,测试信度越低。考查同质性和信度,离不开现代高级测量理论。

概化理论是一种教育、心理和行为测量理论。它是在方差分析与经典测量技术基础上,逐步发展而来的理论体系[2]。按照经典测量理论,测量结果包括真分数与误差。利用方差分析,概化理论进一步将误差区分为不同来源成分,计算各自比重,并估算概化系数和可靠性指数。两种指标类似于经典测量的信度,其中概化系数旨在衡量,测量结果用于跟据某种特质将对象排序时的稳定性(相对测量信度);可靠性指数旨在衡量,测量结果用于考查对象某种特质绝对水平时的可靠性(绝对测量信度)[3]。

概化分析包括G研究(概化研究)和D研究(决策研究)两部分。前者可在观测全域上展示各种方差来源及其比重;后者可在概化全域上,借助G研究的方差比重,通过调整测量条件(如样本、任务、评分员、侧面关系、权重等),展示信度变化,从而提供优化测量设计的信息[4-5]。因其在测量中的重要价值,概化理论被誉为三大高级测量理论之一(另外两种是经典测量理论及项目反应理论)。概化分析可分为一元概化分析和多元概化分析。前者用于单变量(univariate)研究,后者用于多变量(multivariate)研究。

近年来,国外和国内有不少研究采用概化理论考查语言测试的质量[6-7],但是以外语机考信度为对象的概化研究尚不多见。面对不断推广的机考,有必要对其进行概化分析,及时发现问题并予以解决。以下采用多元概化分析,考查大学英语机考的信度。

二、研究方法

研究数据为某校120名学生的大学英语读写机考成绩。每名学生的成绩包含两篇写作分数(每篇20分,共计40分)和三篇阅读理解分数(每篇20分,共计60分)。

由于试题包含写作和阅读两类题型,写作可视为一个变量(“因子”),阅读可视为另一个变量(“因子”)。研究宜采用二因子、单侧面多元概化分析设计:p˙×iO,其中p代表考生,i代表试题(字母p的上标圆点表示每组数据中各个因子测量的对象相同,字母i的上标圆圈表示不同因子包含的项目不同)。分析借助mGENOVA 软件进行,该软件是Brennan开发的多元概化分析专用工具[8]。

三、研究结果

(一)成绩的分布特征

在进行概化分析前,对120名学生的机考分数进行了描述统计,以展示成绩的分布特征(表1)。

(二)多元概化分析结果

多元概化分析主要在两种试题变量(因子)上展开,分析包括G研究和D研究两部分。

1.G研究结果

借助G研究,可以获得各个效应(考生、试题、考生与试题的交互)在“写作”和“阅读”两个因子上的方差等指标,结果如表2所示。

注:各个效应矩阵中,主对角线上的数据是效应在对应因子上的方差估计,主对角线之下为因子间的协方差估计,主对角线之上为因子间的相关系数。

交互效应是指一个变量的不同水平对结果的影响趋势,在另一个变量的不同水平上呈现反差,在坐标系中表现为交叉直线。例如,学生和试题可视为两个变量,如有交互作用,会出现A生在第一题得分高、第二题得分低,而B生在第一题得分低、第二题得分高。在两道题上,两个学生的得分连线交叉。根据表2可知,交互效应在“写作”和“阅读”二因子上的方差,明显高于考生在二因子上的对应方差(6.16>3.10, 11.85> 4.23)。试题难度的方差也不容忽视(在阅读上的方差为3.41,接近考生的方差4.23)。交互效应和试题难度在“阅读”上的方差,高于其在“写作”上的对应方差(3.41>1.84, 11.85>6.16)。方差大小反映着一种效应对成绩影响的大小。交互效应方差较大,意味着不同学生在不同试题上,得分或失分的倾向存在明显反差(如A生在第一篇写作上得分很高,在第二篇上很低;B生在第一篇上很低,在第二篇上很高)。试题难度在“阅读”上的方差,与考生的对应方差相去不大,表明试题对“阅读”绝对测量信度的影响不能忽略(会导致低估或高估学生的绝对阅读水平)。考生对成绩影响不占优势,表明考试未能有效反映学生的写作和阅读水平。

2. D研究结果

(1)不同因子测量的信度。针对不同因子测量信度的D研究结果显示,“写作”因子的概化系数为0.50,可靠指数为0.44;“阅读”因子的概化系数为0.52,可靠性指数为0.45。所有信度指标都远远低于理想标准(0.80)。

(2)全域合成分测量信度。按照两因子所占比重(“写作”分值比重为40%,“阅读”为60%),设定权重系数,对测量结果进行整合,可得全域合成分测量信度估计值。分析显示,全域合成分概化系数和可靠指数分别为0.63和0.56,与单个因子测量精确度相比有所提高。这表明,“写作”和“阅读”两个因子得分合并起来代表读写水平,具有一定的合理性。但是两个信度指标仍显著低于0.80。

(3)两因子对全域合成分的贡献。虽然两因子的赋分显示其权重分别为40%和60%,但两者对全域合成分方差的实际贡献如何仍需D研究检验。根据分析,“写作”对全域合成分方差的贡献(34%)明显低于其赋分,而“阅读”的贡献(66%)明显高于赋分。当然“阅读”的测量误差所占比重也较大(相对和绝对误差方差分别为74.25%和74.08%)。由此可见,“写作”和“阅读”的权重有待调整。

(4)权重优化后的全域合成分信度。鉴于“写作”和“阅读”赋分与实际贡献的差别,调整两因子权重,进一步分析信度变化。结果显示,在“写作”和“阅读”权重调整为45%与55%时,概化系数和可靠指数分别可提高到0.63与0.57;两权重各占50%时,两系数可提高到0.64与0.57。所以在可操作范围内,改变“写作”和“阅读”的权重,概化系数和可靠指数虽有提升趋势,但变化很慢。由于两个因子是读写课程测试的两个平行特质,不易进一步改变权重。

(5)试题数量优化后的全域合成分信度。改变试题数量是尝试调整信度的常用手段。在“写作”和“阅读”权重各保持50%的情况下,将“写作”变为3篇(或4篇),“阅读”变为4篇(或5篇),概化系数与可靠指数分别可提高到0.71(或0.76)与0.65(或0.71)。由此可见,在可操作范围内,合理增加任务数量能够提高信度,但是不能完全解决问题(信度仍未达到0.80)。

四、讨 论

本研究采用多元概化分析,考查了机考大学英语读写成绩的信度。结果表明,对于成绩的影响,考生与试题的交互效应远远高于考生效应,试题难度效应也不容忽视。交互效应和试题难度效应的影响在“阅读”方面尤为突出。无论是在“写作”和“阅读”两个因子层面,还是在整个测试层面,测试的信度都未达到理想水平。在可操作范围内调整试题权重和题量,仅能在一定程度上提高信度,但不能使信度达到理想水平。

本研究与其他相关概化分析出入较大。Bae等对双语儿童不同语言、不同写作任务进行的概化分析中发现,考生是成绩变异的主要来源[9]。在一项综合研究中,In’nami等考查了17项写作概化研究(涉及22个数据集)。结果发现,平均而言考生是成绩变异的主要来源,其次是考生与试题的交互效应,试题效应是比较微小的变异来源[10]。Huang在元分析中,综合了9项外语测试,发现任务与考生的交互效应方差比重平均为15.06%,试题效应的方差比重平均为0.04%[11]。由此可见,一般语言测试中,考生是成绩的主要影响因素,交互效应、试题等属于次要影响因素。这是因为一般测试具有效度信度,成绩主要反映的是考生的相关特质(知识、技能、能力)水平。

本研究发现,交互效应对于成绩的影响远远高于考生效应,试题难度效应不容忽视。其原因很可能在于机考时计算机系统随机生成的试卷缺乏同质性。在同一道试题中,不同考生遇到的具体任务难度忽高忽低,不同试卷难度波动较大。

试题难度的影响,主要表现在绝对测量信度上;考生与试题交互效应的影响,同时表现在相对测量和绝对测量信度上。当成绩不能较好地反映个人在特定方面的绝对水平和名次时,不仅考试信度较低,而且效度也值得怀疑。

由于随机组卷依托的是题库,本研究发现的机考问题,其深层原因可能是题库质量不稳定、各题的难度差异太大。在缺乏可操作的标准以及必要的技术条件下,任课教师集体构建的题库很容易出现同类任务难度不同的情况。这样的题库未经严格质量鉴定和审核,直接用于机考组卷,导致异质试卷及较低的考试信度和效度也就不足为奇了。

此外,本研究也发现,试题难度、交互效应对成绩的影响在“阅读”上较为突出,这可能是因为:“阅读”是客观题,系统自动评分,难度差别会不折不扣地反映在分数上;“写作”是主观题,教师在改卷时会根据经验,对难度较大的“写作”放宽标准评分,因此缩小了不同“写作”任务之间的分数差别。此外,一个教师要对同一个学生两篇作文评分,晕轮效应(Halo effect)也会降低分数的差别。由于试题难度、交互效应对“写作”成绩的影响相对较小,因此提升“写作”并降低“阅读”赋分权重可以缓解信度危机。

考试信度不仅关系到结果的稳定性,也涉及公平性问题。提高机考信度,需要创建优质题库。为了测量写作和阅读,命题者应查阅相关文献,全面理解两者的发展规律。不少研究显示,学生对不同体裁(genre)任务的写作能力发展是不平衡的,一种体裁的写作能力,不能预测另一种体裁的水平[12],因为不同体裁文章需要不同的修辞结构、基本语言成分、甚至单词类型。一般学生会对某些体裁的写作擅长,对另一些则生疏[13]。全面衡量写作水平,需要多篇不同作文测试任务[14]。

对于阅读,在命题时不仅应考虑体裁问题,也应考虑文本的其他特征(如风格、可读性、篇长、句长、词长、词汇级别、词汇密度等)[15],并通过实测建立文本特征与难度级别之间的对应关系,以便使同类任务逼近同质。

五、结 论

本研究考查了某高校大学英语读写机考的信度,结论如下:在缺乏同质题库条件下,大学英语机考中采用随机组卷会导致信度不足,甚至扭曲考试结果,无法真正客观、公平地反映学生的真实英语水平;在缺乏同质题库条件下,调整试题数量和赋分权重、适当增加主观题分量,可以在一定程度上缓解信度危机。

为从根本上解决机考信度危机问题,随机组卷需要以同质题库为基础。建议在建立大学英语读写题库时,命题者要根据学生写作和阅读发展规律,采用定性、定量、实证研究结合的方法,对试题进行分析和研究,对难度进行准确评定。在无法保证试题同质条件下,不宜采用随机组卷,而应采用相同试卷,这样至少可以在一定程度上减少考生与试题交互作用的影响。

猜你喜欢
机考题库信度
《广东地区儿童中医体质辨识量表》的信度和效度研究
“勾股定理”优题库
中国注册会计师协会关于更新注册会计师考试机考练习网站的公告
“轴对称”优题库
“轴对称”优题库
“整式的乘法与因式分解”优题库
雅思机考落地中国大陆半年这些问题你应该心中有数
机考普遍 引发“手写死亡”担忧”
平衡损失函数下具有时间效应和通胀因子的信度估计
ACT将于2017年在所有国际考试中心推行机考