常诚 陶希雅 景艳燕
内容效度又称逻辑效度,是指项目对预测的内容或行为范围取样的适当程度。内容效度也经常用于检测教学质量 ,目的是通过从大量的试题中取样检测学生对于某科知识的掌握情况。而一份准确的样题将全面检测该学科内容并且占据适当的比例。本文的研究对象是德语专八测试卷翻译试题(中译德,德译中);语言测试的内容效度就是检测试题内容是否符合考试大纲的要求。
而考试大纲是阐述考试目的,定义试题内容,结构以及形式的官方文件;它对参加考试的人员来说起着参考的作用。上文提及,语言测试的内容效度就是检测试题内容是否符合考试大纲的要求,那么,考试大纲也是充当着检测内容效度的标准。
1.1主题與大纲
关于翻译试题主题,大纲中并没有给出明确的定义;大纲指出,翻译内容试题内容多来自中德两国报纸、杂志、书籍和网页上德文章;根据大纲所定义的选材原则,测试内容相当于各校翻译课教学内容平均水平的译文。根据笔者对2007-2018年专八翻译试题的统计,有关于民族文化的主题有5篇,有关于各国社会事件主题有9篇,有关于两国国家政治体制经济的主题有8篇,有关于两国交流合作主题有2篇。
1.2文章类型与大纲
该试题的主题则多涉及国家政治,外交经济,社会生活等内容,其他方面的内容设计较少。相对应的文章类型多是说明文,新闻报刊为主。根据大纲对试题类型的描述,翻译内容试题内容多来自中德两国报纸、杂志、书籍和网页上德文章。而考试试题多是从某篇文章中截取,并且试题尾部无文章来源,所以无法判断其属于说明文或是属于报刊;但是根据文章内容形式,大体可以判断出其来自于应用型文章。
1.3 翻译长度与大纲
据大纲描述,汉译德每篇约120个字,德译汉每篇约150个字。从2007-2018试题统计表中,其中有两篇字数不超过100,有6篇字数在100—110,有1篇字数为112,有9篇字数在120-130,有5篇字数在130-140,还有3篇字数超过150。大体上,翻译试题的长度与大纲基本符合。
2.1信度与成绩
信度(reliability)即可靠性,它指的是采取同样的方法对同一对象重复进行测量时,其所得结果相一致的程度。
考生在专八考试中的得分能在一定程度上客观反映出德语专八考试翻译试题的信度与评卷时的阅卷信度,信度的高低便能体现出试题是否能检测出考生的真实水平,与阅卷老师的评分是否能公平的评判考生的能力。我们收集到17,18届三所学校(南京大学、南京大学金陵学院、南京师范大学)的学生们的各项成绩(听力、词汇、语法、阅读、概况和翻译总分)
2.2实验分析
本章的数据分析所运用的主要方法为单因素方差分析法。
在方差分析中,我们将要考察的对象的某种特征称为试验指标,影响试验指标的条件称为因素。下面所讨论的因素都是指可控制因素。每个因素又有若干个状态可供选择,因素可供选择的每个状态称为该因素的水平。如果在一项试验中只有一个因素在改变,则称为单因素试验。
该研究中,唯一的改变因素就是各个学生的能力,我们将17,18届三所学校的学生们的各项成绩都进行了分别统计和归纳分析,并由此得出结论。
首先,我们将所得到的各项分数数据进行整合,为了使数据体现得更清晰,我们将17届和18届两届同学分开,并且分成了17届合格同学各项得分、17届不合格同学各项得分、18届合格同学各项得分、18届不合格同学各项得分。
我们将数据分成六列,本别为:听力得分、词汇得分、语法得分、阅读得分、社会概况得分和翻译总分,并用excel表格中的单因素方差分析得出下面数据:(数据选取小数点后两位)
(1)17届总分合格同学各项得分的方差:
听力:11.50;词汇:6.27;语法:2.77;阅读:15.07;社会概况:2.02;翻译:37.02
(2)17届总分不合格同学各项得分的方差:
听力:19.41;词汇:4.53;语法:3.32;阅读:22.42;社会概况:1.91;翻译:37.72
(3)18届总分合格同学各项得分的方差:
听力:11.91;词汇:7.38;语法:4.26;阅读:13.23;社会概况:2.06;翻译:15.99
(4)18届总分不合格同学各项得分的方差:
听力:14.84;词汇:5.91;语法:7.12;阅读:22.97;社会概况:2.73;翻译:59.65
以上四组数据中,都是翻译得分的方差最大,便可直接说明翻译得分是所有单项得分中最不稳定的一项。
在总分合格和不合格的翻译方差相对稳定的17届同学中,我们挑选了10位客观题得分相当,但是翻译得分差距较大的同学,为了更加清晰地反映出数据差距,我们将其得分做成了折线图。
由折线图便可看出,听力、词汇、语法和概况这种客观题和主观阅读的得分相对稳定,即这10位同学们的能力应是大体相同的,可是折现波动最大的便是翻译题得分,这也充分证明了这10位同学的翻译能力差异较大,这便与之前的客观题测试出的能力水平形成了较大的矛盾。
2.3实验结论
单因素方差实验中,我们可以清晰地看出专八翻译试题中学生们得分的不稳定性,这也从侧面说明试题不能很好的反映出学生们真实的翻译能力,我们亦或者可以解读为阅卷老师针对翻译试题部分的评分不能很好地反映出学生的真实语言能力,即阅卷信度。折线图的实验更是能说明这一点,客观题得分相对相似的10位同学在翻译题中的得分却是大相径庭,得分高低之间的差距很显然与考生的真实水平不符,所以试题信度与阅卷信度在此处都需打一个大大的问号。
同时,我们也整理了2007年至2018年的翻译考试的内容范围,我们发现专八考试中的翻译题目的选题范围也较单一且与生活的关联度较弱,所运用的语言多是官方且复杂难懂的语言。
对比分析试题与考试大纲的过程,不难发现,大纲中对于试题主题,文章类型都没有详细进行说明。这样就必然导致考生在复习过程中,抓不住重点,找不到复习方向。
根据对试题分析,可以总结出试题的主题大多涉及国家政治,外交经济,社会生活等内容,其他方面的内容设计较少;文章类型偏实用性文章,相对应的文章类型多是说明文,新闻报刊为主;诸如散文,小说,书信之类的文学体裁基本不涉及。注重实用性文章的翻译必然会导致学生对文学性文章的忽视。
而文章的长短是符合考试大纲,大多是在90-130字范围。值得注意的是,专八考试大纲并没有明确给出详细的评分准则。
信度方面,翻译试题的信度与老师阅卷的信度都有进步的空间,现阶段的翻译试题与评分并不能很好的反映出学生的真实语言能力,我们在此建议,之后的德语专八考试的翻译试题可以尝试多元化出题,并且增加试题信度,使试题能真正地反映出考生的真实水平。
该论文受“2018年江苏省大学生创新训练计划项目”资助支持。
(作者单位:南京大学金陵学院)