SOLO 试题质量检测的实证研究

2020-07-21 00:43吴维宁孙元平
考试研究 2020年3期
关键词:特曼评测样式

潘 瑜 吴维宁 孙元平

一、相关概念

本研究涉及两个基本概念:SOLO 理论和SOLO试题。SOLO 理论又称为SOLO 分类法 (SOLO Taxonomy),它是一种基于问题解决的、等级描述式的目标分类理论。与传统的目标分类理论相比,SOLO 具有三个重要特征:一是可用于开放性问题;二是量的评测与质的考查相结合;三是目标表述简单清晰便于师生识读。SOLO 的基本含义可以用下面的图示来表征。

学生对于某一个具体问题的反应可以分为五个不同的结构水平[1]:

前结构水平(Prestructural):学生基本上没有形成对于问题的理解。

单点结构水平(Unistructural):学生有了一点对于问题的理解,但只是略知一二。

多点结构水平(Multistructural):学生对于问题有了更多的理解,但仍不全面。

关联结构水平(Relational):学生对于问题有了整体的把握并能独立解决问题。

拓展抽象水平(Extended abstract):学生不仅有了对于问题的整体把握,而且还能对于问题进行抽象概括,使之适用于新的问题情境。

其中,单点结构水平和多点结构水平主要表征学生学习的数量特征;关联结构水平和拓展抽象水平侧重表征学生学习的结构即质量特征。SOLO 评价的基本方法是: 将某种具有一定开放度的问题或学习任务呈现给学生,使其作出反应。根据学生对问题的不同反应,依据上述标准,判断学生对于该问题的把握水平。在此基础上,用某种符号对于学生的学习给予等级评定。如:前结构水平为P、单点结构为U、多点结构为M、关联结构为R、拓展抽象水平为E 等等。SOLO 认为,学生的SOLO 水平并非一成不变,它随着智力发展和学习情境的变化而变化。

应该说,SOLO 理论起初是建立在开放性问题基础之上的,后来,SOLO 理论的创立者比格斯又将它运用于封闭性问题的研究,使之适用于更加广泛的学科领域和问题情境,SOLO 试题由此应运而生。

所谓SOLO 试题,就是将原始的开放性问题改编成符合SOLO 的四个层次(单点结构、多点结构、关联结构和拓展抽象结构)的四个小题,也就是说,每一个小题对应一个SOLO 层次,四个小题的难度由低到高排列。这样的四个小题就构成一道SOLO试题。SOLO 试题可以方便地运用于各学科问题的评测,所以其运用领域迅速扩展,研究文献迅速增加, 我国个别省份甚至将SOLO 理论应用于高考命题和评卷, 但针对SOLO 试题质量评价标准的研究还非常欠缺, 截止目前还没有看到SOLO 试题质量评价的实证研究报告。基于以上事实,笔者设计并实施了一项小型的SOLO 试题质量检测的实证研究。

二、研究设计

(一)样本流程

本研究的样本包括学生样本和试题样本。学生样本又分为评测样本和访谈样本。 试题样本作为评测工具稍后介绍。 学生样本是来自武汉市某高级中学高三年级的两个班的学生,共107 人,其中(1)班54 人,(2)班53 人。两个班共回收有效试卷105 份。该中学的生源质量在武汉市属于中上等水平。 访谈样本包含于评测样本之中, 共11 人,其中,男生5 人,女生6 人。 若按照成绩对访谈对象进行划分,则高分段有3 人,中等成绩者6 人,低分段2 人。 学生评测样本的选取主要采用方便抽样的方法,同时考虑到学校代表性的因素。访谈样本的选取方法则是寻找评测结果出现异常的学生代表。评测时长为40 分钟,做2 道试题;访谈时长为每人10 分钟,根据各人在评测中出现的具体问题提问。评测和访谈的时机背景如下:实施时间为12 月份,高三学生已全部结束高中新课程,但却未集体组织复习高考原题; 由于该校在武汉市排名中上, 所以理论上可保证五个层次均有学生可以达到;两个班入学均实行平行分班原则,两个班学生的成绩相当; 评测未提前告知学生此次评测目的,学生均以严肃认真的态度参考,评测过程极少出现蒙混敷衍的现象。整个研究分为四个阶段:准备评测工具、具体实施评测、统计分析数据、实施个别访谈。

(二)评测工具

本项目研究的评测工具也是SOLO 试题样本,一道是计算题,另一道为实验题。 两道题分别选自2016 年高考全国卷I[理综]和2014 年江苏卷[物理],并按照SOLO 试题的标准分别增加了一个相对容易的小问题(又称亚题),增加的亚题(1)对应于SOLO 的单点结构水平,(2)、(3)、(4)亚题(即高考原题中的三个小问题)分别对应于SOLO 的多点结构、关联结构和拓展抽象结构水平。 两道SOLO 试题的层次划分标准如下:

表1 计算题的SOLO 层次划分标准[2]

表2 实验题的SOLO 层次划分标准[3]

(三)检测方法[4]

关于SOLO 试题质量的检测方法,比格斯认为可以采用格特曼量表分析法 (Guttman’s scalogram analysis)。量表是一种心理测量工具,格特曼量表则是一种具有累积特征的态度量表。它包含一组陈述,这些陈述都是关于某人对于某个对象所持态度的描述。格特曼量表有两个主要特征:其一,它的各个陈述都是按照肯定程度逐步加强的顺序排列的;其二,应试者对于任何一个陈述的赞同,都意味着对每一个肯定程度较低的陈述的赞同。如前所述,SOLO 试题的评分结果有五个层次:前结构、单点结构、多点结构、关联结构、拓展抽象结构。其中的每一个层次都包含了前一个层次的内容,因此一个完整的SOLO试题在结构上具有格特曼量表的特征,因而它在结构上与格特曼量表同构。

格特曼的思想可以用来考查SOLO 试题的质量。对于一道编制质量良好的SOLO 试题来说,如果学生的反应正常,那么他们在各个水平上的反应样式应该具有如下特征:

表3 SOLO 试题允许的反应样式

其中, 反应样式一至反应样式五分别对应于SOLO 的前结构、单点结构、多点结构、关联结构和拓展抽象结构。格特曼将具有上述特征的反应样式称为“允许的反应样式”。 在数学上,可以用五个矢量来代表上述五种不同反应:[0,0,0,0],[1,0,0,0],[1,1,0,0],[1,1,1,0],[1,1,1,1], 其中,0 代表错误的回答,1 代表正确的回答。 第一个矢量代表前结构,第二个矢量代表单点结构,第三个矢量代表多点结构,第四个矢量代表关联结构,第五个矢量代表拓展抽象结构。 实践中可能看到这样的情形:学生的反应并非如预期的反应样式,也就是说可能出现“非允许的反应样式”,如[1,0,1,0]。格特曼认为,这是一种测量误差, 这种误差可能由两个因素构成:其一,试题的编制有问题。 例如:代表关联结构亚题的难度低于代表多点结构亚题的难度;其二,学生的反应有问题。例如:由于心理、身体或者环境因素造成学生反应错误等等。对于可能由于学生自身原因造成的测量误差,可以将与他的反应样式最为接近的“允许的反应样式”作为该生的反应样式的测试结果。例如:与上面提到的“非允许的反应样式”[1,0,1,0] 最为接近的 “允许的反应样式”是[1,1,1,0],则可以将[1,1,1,0]作为该生的反应样式的测试结构。但如果“非允许的反应样式”出现率很高,就不大可能是个别学生的反应失常造成的了,这时, 试题本身的质量就应当成为重点考察的目标。那么怎样判定试题是否存在问题呢?格特曼在二十世纪四十年代提出了一个判定量表测量误差度的指标,他称之为“复现性系数”(coefficient of reproducibility):

其中,总反应次数等于量表的陈述个数乘以应试人数。 对于SOLO 试题来说,总反应次数应等于该题的反应样式数目(一般为五种)乘以应试学生人数。而总误差次数则是试题测试中“非允许反应样式”出现的总次数。 上式中rep 系数取值在0、1之间,其中取1 表示量表质量很完美,取0 则表示量表质量很糟糕。 一般认为,格特曼量表的rep 系数的取值应该在0.90 以上,而托格森(Torgerson)则发现多数研究者都将完美格特曼量表的rep 系数值定在0.95 以上[5]。如果是大规模的测试,rep 系数的分析可以借助专门的计算机程序去完成;如果测试样本不是很大,则rep 系数的分析可以通过人工来完成。

复现性系数的计算方法举例如下:假设有100名学生参与某道SOLO 试题的质量检测,若其中出现“非允许的反应样式”共有30 次,则此题的复现性系数为:

三、研究结果

笔者对学生的反应样式进行归类统计,得到12种反应样式,包括5 种允许的反应样式和7 种非允许的反应样式。如表4 所示。

以上是两种题型分别对不同班级的所有学生出现的反应类型的统计结果,共出现5 种“允许反应样式”和7 种“非允许反应样式”①理论上说,还应当存在其它非允许的反应样式,但在实际测量中,只看到(包括通过归并方式最终得到)以上7 种反应样式。,统计其相应人数百分比如上。需要说明的是,经过数据整理和个别访谈,对某些数据作了若干调整,具体内容及原因如下:①将题Ⅰ中的非允许的 [0,1,0,0] 样式归类[1,1,0,0]样式,原因是105 人中仅有1 人出现该非允许样式,并通过访谈了解属于学生自身原因——解法正确而代入计算错误;②将题Ⅱ中的[0,1,0,0]样式归类到[1,1,0,0]样式,[0,1,1,1]样式归类到[1,1,1,1]样式,原因同上且只有1 份特例;③将题Ⅱ中的[0,0,0,1]样式归类到[1,1,0,1]样式,原因是仅有1 名学生出现此情况,且通过答卷和访谈了解到,该生出现力的标注不完整等细节错误,属于学生自身因素造成的测量误差。

表5 两道SOLO 试题的复现性系数

说明:表5 中左侧第一列序号代表测验的两种题型; 第一行rep 表示不同班级的复现性系数,如rep1表示一班的复现性系数;rep2表示二班的复现性系数。表示两个班级的平均复现性系数。

表5 中的复现性系数系根据表4 中反应样式的相关数据,依据复现性系数公式计算而得。从表5 中可以看到,计算题Ⅰ在两个班级测得的复现性系数和综合均在0.98 以上,上文已提及当rep≥0.95时,量表可算作完美格特曼量表,即该试题为一道高质量的SOLO 试题;而实验题Ⅱ所测得的三种复现性系数rep 均在0.9 以下。

四、结论与讨论

本次研究的目的是判断SOLO 试题质量的格特曼量表分析法的合理性与可行性, 从评测结果来看,答案大体是肯定的。这需要从两道试题分别进行分析。

从计算题的评测结果来看,两个班的平均复现性系数高于0.98,表明该题是一个非常好的格特曼量表。由于该题改编于高考题,一般来讲,高考题的信度与效度等各项测量学指标都是非常好或者比较好的,也就是说,试题本身没有问题。而从学生方面来看,因为计算题都是学生高度重视的考试内容,他们都会竭尽全力地投入,因而由于学生粗心、随意等因素造成的测量误差相对较小。归结起来说,测量的误差不大。因而可以说,良好的反应样式分布和较高的复现性系数表明, 被测试题是一个质量较高的SOLO 试题,同时,采用格特曼量表法判断SOLO 试题的质量也是合理可行的。

再从实验题的评测结果来看,两个班的复现性系数都未达到0.9,似乎表明该实验题不是一道好的SOLO 题,但情况没有这么简单,在此必须充分考虑测量误差的问题。如上所述,测量误差主要来自两个方面:一是试题本身,二是学生因素。先从试题本身来说,试题改写自高考题,虽然有所变动,但只是增加了第一小题,且内容相对简单,一般不会对被试产生太大影响。所以试题的主体部分依然是高考题,其各项测量学指标不会太差。但学生方面对测量结果的负面影响较大:首先是时间分配的问题。在评测现场可以看到,学生对实验的重视程度不够,花在实验题上的时间太少,加上实验题的题干较长,用于思考的时间明显不足。其次是内容熟悉程度的问题。学校还未开始组织对实验部分的系统复习,学生对于实验部分较为陌生也是引起测量误差的重要原因。所以随意答题的现象是存在的。

由此可以想见,如果给予足够的时间并排除不必要的干扰,实验题的测量误差一定会减少,复现性系数定会有所提高。所以格特曼量表分析的方法对于实验题也应该是适用的。当然,若要得到十分肯定的结论,还需要用进一步的实证研究来证实。最后需要说明的是,在像高考这类选拔性的考试中,SOLO试题的基本构架是可以采用的,但不必保留其中的单点结构,因为单点结构的题往往过于简单。而其质量评判方法,仍然可以采用格特曼量表分析法,不过展示其允许的反应样式的几个矢量可以相应地调整为[0,0,0],[1,0,0],[1,1,0]和[1,1,1],反映其合格标准的复现性系数的临界值也需要重新测定。

附录 评测工具(试卷样本)

题Ⅰ(计算题)如图,一轻弹簧原长为2R,其一端固定在倾角为37°的固定直轨道AC 的底端A 处,另一端位于直轨道上B 处,弹簧处于自然状态,直轨道与一半径为5R/6 的光滑圆弧轨道相切于C 点,AC=7R,A、B、C、D 均在同一竖直面内。质量为m 的小物块P 自C 点由静止开始下滑,最低到达E 点(未画出),随后P 沿轨道被弹回,最高点到达F 点,AF=4R,已知P 与直轨道间的动摩擦因数μ=1/4,重力加速度大小为g。

(取sin37°=3/5,cos37°=4/5)

(1)求物块P 在下滑过程中受到的摩擦力。

(2)求P 第一次运动到B 点时速度的大小。

(3)求P 运动到E 点时弹簧的弹性势能。

(4)改变物块P 的质量,将P 推至E 点,从静止开始释放。已知P 自圆弧轨道的最高点D 处水平飞出后,恰好通过G 点。G 点在C 点左下方,与C 点水平相距7R/2、竖直相距R,求P 运动到D 点时速度的大小和改变后P 的质量。

题Ⅱ(实验题)小明通过实验验证力的平行四边形定则。

图1

图2

图3

图4

(1)如图1 所示,实验前小明想试试已有的橡皮筋弹性如何。将所选橡皮筋的中点固定于结点O,沿图示方向将橡皮筋的两端拉至图中P1、P2位置处,请用图示法在图中作出结点O 所受的合力。

(2)实验记录纸如图2 所示,O 点为橡皮筋被拉伸后伸长到的位置,两弹簧测力计共同作用时,拉力F1和F2的方向分别过P1和P2点,一个弹簧测力计拉橡皮筋时,拉力F3的方向过P3点。三个力的大小分别为:F1=3.30 N、F2=3.85 N 和F3=4.25 N。请根据图中给出的标度作图求出F1和F2的合力。

(3)仔细分析实验,小明怀疑实验中的橡皮筋被多次拉伸后弹性发生了变化,影响实验结果。他用弹簧测力计先后两次将橡皮筋拉伸到相同长度,发现读数不相同,于是进一步探究了拉伸过程对橡皮筋弹性的影响。

实验装置如图3 所示,将一张白纸固定在竖直放置的木板上,橡皮筋的上端固定于O 点,下端N挂一重物。用与白纸平行的水平力缓慢地移动N,在白纸上记录下N 的轨迹。重复上述过程,再次记录下N 的轨迹。

两次实验记录的轨迹如图4 所示。过O 点作一条直线与轨迹交于a、b 两点,则实验中橡皮筋分别被拉伸到a 和b 时所受拉力Fa、Fb 的大小关系为____________。

(4)根据(3)中的实验,小明得出的实验结论是什么?请从小明探究的实验结论的基础上提出“验证力的平行四边形实验”中,优化实验的最佳改进方案。

猜你喜欢
特曼评测样式
CPMF-I 取样式多相流分离计量装置
热力站设备评测分析
CPMF-I 取样式多相流分离计量装置
“残奥会之父”古特曼医生
次时代主机微软XSX全方位评测(下)
次时代主机微软XSX全方位评测(上)
取样式多相流分离计量装置
最美的一推
最美的一推
“上帝视角”看地球