关于“考试”,我们了解多少?

2015-05-11 16:18廖先祥莫海浪
广西教育·D版 2015年2期
关键词:真分数赋分每题

廖先祥 莫海浪

关于教育测量理论,好像离我们很远,所以我们都不太去关心它、研究它,认为那是专家们的事。但是,考试却离我们很近,对于我们中小学教师而言,它一直伴随着我们,直到我们离开教学岗位。每一次考试,我们好像都只是关心考什么,怎么才能让学生考得好,得到多少分数,班级排名第几……仅此而已。其实,我们对考试的了解远远不够,甚至有时会被“现象”蒙蔽,以为真的就像我们想象的那样。当然,任何事物都有一个由初级到高级,由粗到细,逐步发展,精益求精的过程,关于考试也是如此。真正关心、懂得考试的人,他会从考试的现象、结果里看到很多很多隐藏在它背后的东西。在后面的文中你可以了解到,关于“考试”,今天已经发展到了什么程度。

我们不讲太“理论”的东西,让我们就从身边的问题开始认识和了解吧。

问题1:我们的考试真的公平吗?

考试,在大多数人的眼里都被认为是一种最公平的评价方式,是“天然公平”的,所谓“考试面前人人平等”。考生如果因考试成绩不好而被拒绝入学或录用,大多不会有什么怨言,他们会首先从自己身上找原因,认为自己学识不深、能力低,顶多也是怪自己考试时发挥不正常。有时问题确实如此。但还有一些深层次的问题:我们很少去质询这项考试是否可信、是否有效以及处理考试结果的方式方法是否科学合理等等。

假设有下面一个简单的“考试”,我们来分析一下这次考试的深层次问题。

填空(每题10分,满分100分)

1.2+5=( );

2.9-6=( );

3.3+( )=14;

4.比3大9的数是( );

5.比12少1的数是( );

6.和6相差4的数是( );

7.一队小朋友排队做操,小冬前面有7个人,后面有5个人,这队一共有( )人;

8.哥哥有4塊糖,弟弟有8块糖,弟弟给哥哥( )块糖,两人的糖就一样多了;

9.一条路长9米,在这条路上每隔1米插一面彩旗,共能插( )面彩旗;

10.一个数,十位上的数是1,个位上的数比十位上的数多7,这个数是( )。

显然,这10道题我们是由易到难依次排下来的,也就是说,后面一道题总比前面一道题难。有一个极端的案例:孩子A做对了前面的1-5题,孩子B做对了后面的6-10题,他们的得分都是50分。你怎么看待这个考试结果?如果在平时,你不去分析题目的难易度,一定会说:“啊,这两孩子成绩一样,他们在同一个水平上呢!”可是,现在你还认为他们的水平是一样的吗?如果你就是那个B孩子,而我就是那个A孩子,关于我们的能力与水平的评价,你有什么想要说的?

当然,这只是一个极端的例子,我们很少遇到。

就这次“考试”,我们再讨论一个问题:老师,为什么每道题目不分难易,赋分都是10分呢?如果在平时,你的回答可能会是这样的:“因为满分是100分,只有10道题,而且都是填空题,它们属同一类题,只能按平均分,每题10分了。”我跟你们说出了题目有难易的问题以后,你也许会感觉到这样赋分有点不公平了,因为题目的难度不同,赋分值也应该不同才对,否则遇上上面那样极端的例子,对孩子真的是不公平的,你不认为是这样吗?

事实上,在平时我们命题的过程中,往往同一种题型中的每道题,赋分基本相同,如填空题、选择题等。

也许你会提出反对意见:“也不全是呀,在平时命题中,同一份试卷里也有些是2分一题,有些是4分一题,有些是6分题,还有些是8分题、12分题,甚至有些是50分一题的呢。”是的,我们确实发现有这种情况,但问题是,你是根据什么来确定题目赋分的差距的?

上面的情况在下面这张图中都真实地出现了,即有的题目难度不同赋分却相同,有的题目难度相同赋分却不同,题目赋分差距没有更充分的理由。这是一次真实的大型考试试题难度及赋分分布表,其中每题赋分及其难度系数如下:第1-14题以及18题,每题2分,难度系数从0.4到0.8左右的都有;第15-16题,每题3分,难度系数分别是0.6和0.4;第17题10分,第19-24题每题4分,难度系数从0.5到接近0.8;第25题50分,难度系数与第1、3、9、10题却非常接近!

可能你会说:“容易的题目赋分那么高,是因为想给那些基础比较差的学生送点分,不至于让考试成绩那么难看,这叫‘送分题。其实呀,你都不知道,有时送分题还不一定能送得出去呢,他们就是不会做!”

这就是我们平时的考试,我们平时看到的多数情况下的考试。而且我们都会在不同程度上用这个考试成绩来评价学生的学习水平和能力,评价老师们的教学水平,评价学校的教学水平和质量。

我们并不是想说目前的考试不好,而是想发现其中的奥秘,想知道该怎样做才能让我们的考试更具有可信性、有效性和科学性,从而使我们对学生的学业测评所下的结论更贴近真实。

问题2:我们考试的依据是什么?

说起考试,在我国可谓历史悠久,自隋朝的科举考试算起,已有一千多年历史。这一千多年来,我们已经将考试的功能与应用进行了大大的拓展,在国内外都有大量的专家学者对考试进行研究,得出了很多“理论化”的成果。比如大家所熟知的、已被广泛运用于中小学的学科考试,就可归入“古典测量理论”或“经典测量理论”。

人们认为,要想了解一个人在某些问题上的知识、能力水平如何,就要有意识地提出一些问题给他去解答,然后通过他解答这些问题的实际情况来评判他的能力和知识水平,这就是“考试”。

专门研究考试的专家们认为,如果通过考试能知道一个人的知识、能力或某种特质的水平,那么考试所得分数就是他在这方面水平的表现。虽然他们的真实水平在一定范围和条件内是不会改变的,但是,由于考试时会受到很多因素的影响,会存在一定的误差,所以,考试所得分数不能完全看成是他真实水平的表现;又因为那个误差是随机出现的,于是专家们想出了一个数学公式,用这个公式把他的真实水平分数从考试所得的分数中分离出来,这就是X=T+E这个公式的由来。这个公式表明,在一次考试中,一个人的真实水平等于这次考试所得分数与这次考试误差值的和,X代表真实水平的分数,T是考试所得分数,E则是考试误差值。由于E是随机出现的,每次考试所出现的误差值E有正有负:当E值为正值时,说明这次考试卷面成绩低于他的真实水平,也就是我们平时所说的“没有发挥出真正水平”;如果E值为负值时,卷面成绩高于他的真实水平,就是我们平时所说的“超水平发挥”了。由此我们知道了,无论是“没有发挥出真正水平”还是“超水平发挥”,考试都不是一个人真实水平的全部表现。

比如,我们用一组如下的试题对一年级的小学生进行两位数以内的加减法进行掌握和运用水平的测试。

假若某一学生在这次考试中所得分数是95分,那么,他的真实分数就应该被表述成这样一个式子:X=95+E。即学生的真实分数X对我们来说还是一个未知数,我们只是知道了我们所看到的学生的卷面分数95分,因为我们并不知道那个考试误差值E具体是多少。要是在平时,我们已经将这个95分等同于这位学生的真实分数了,其实不应该是!

那我们要怎样做才能得到考生的真实分数呢?于是,专家们又做了一个假设:若一个人的某种心里特质(比如上面的小学一年级学生两位数以内的加减法运算能力)可以用平行的测验方法反复测验足够多的次数来获得,那么他的这些测验所得分数的平均值就会接近于他的真实分数。利用这个假设,如果我们对小学一年级学生两位数以内的加减法运算进行足够多次的反复测验(如下表),那么,计算出这个学生的这些考试所得分数的平均成绩,这个平均成绩就相当接近他的真实分数了。

这样求得的学生的真实分数,专家们有一个说法,叫真分数理论。

真分数理论是最早实现数学形式化的测量理论。它兴起于十九世纪末;到二十世纪三十年代趋于成熟,形成比较完整的体系;到二十世纪五十年代格里克森的著作使其具有完备的数学理论形式;到1968年洛德和诺维克出版《心理测验分数的统计理论》一书,将经典真分数理论发展至颠峰状态,并实现了向现代测量理论的转换。人们将以真分数理论(True Score Theory)为核心理论假设的测量理论和方法体系,统称为经典测验理论(Classical Test Theory,CTT)。我们平时的考试就是以这一理论为依据进行的,只不过在现实的应用中我们并没有像理论中所要求的那么严格和严密而已。

(责编 白聪敏)

猜你喜欢
真分数赋分每题
农业科研系列晋职初审程序电子化方案设计
——业绩赋分
阅读理解精练
最简真分数的个数
教育厅长因决策失误被责令辞职
期末小考场
浅析浙江新高考制度下的等级赋分制
阅读理解
第一、二、三章单元测试题
出新不足,守正有余
“真分数”新解