朱文琴
目前,在教育测量领域主要以经典测量理论和项目反应理论为指导。传统的经典测量理论具有测量依赖性和样本依赖性,即经典测量理论的测验结果不具备测量的独立性,同时受被试样本水平和测量项目本身性质的影响。Rasch模型是丹麦数学家Georg Rasch于1960年基于项目反应理论提出的一种数学模型,它是一个单参数项目反应理论模型,用于衡量学生能力水平与题目难度之间的关系。
Rasch模型比经典测量理论更具优势,克服了经典测量理论存在的测量依赖性和样本依赖性[1]。Rasch模型是一个理想状态下的模型,运用它进行分析时,需要满足两个必要条件:一是对于单独被试来说,答对难度系数高试题的概率低于答对难度系数低试题的概率;二是对于试题来说,能力低的被试答对试题的概率低于能力高的被试答对试题的概率。即个体能否答对题目由个体的能力水平与题目难度之间的关系决定。
基于以上特点,运用Rasch模型进行分析时,首先需要将学生的原始成绩(非线性数据)转换成logit分数(线性数据),进而将学生能力水平与题目难度放在同一水平标尺上进行比较。
研究对象为小学六年级学生,分别选取了南京市两所教学质量中等的公立小学A和B的六年级学生作为被试。两所小学的男女生比例接近于1:1。这两所学校的教学质量在区域内具有代表性,因此选择这两所小学的学生进行科学素养评测。其中,A小学选取两个班学生共66人,B小学选取两个班学生共84人。在所调查的150名被试学生中,男生77人,女生73人,平均年龄为13岁。
本研究采用EXCEL和Winsteps3.72.3软件(https://bbs.pinggu.org/a-1386878.html)进行数据分析。Winsteps是一款专业的Rasch模型软件,广泛应用于教育测验领域,如GRE、TOEFL等。
按照Rasch模型质量分析的步骤,首先对评测方案试题进行整体质量检验;接着进行单维性分析,检验评测方案是否考查学生单一的心理特质或结构;通过怀特图(Wright Map)检验题目难度和被试能力的匹配性;再对各题质量进行具体分析,最后通过气泡图(Bubble Diagram)进行题目拟合度和测量误差的检验。
评测方案正式实施之后,首先将所有被试学生每一道题目的答题得分录入EXCEL中。本评测试卷的题型和对应的题量为:16道选择题,1道连线题,1道判断题,3道情境题。其中,情境题“鸟类迁徙”包含两小题,“番茄种植”包含3小题,“种子的传播”包含3小题,为准确分析每道题目的质量,将情境题的每一小题设置为1题。因此,本评测方案共26题,包括19道单选题和7道非选择题。首先在EXCEL中对原始数据进行转换,为满足Rasch模型分析要求,对所有题目进行4级计分,单选题答错计0分,答对计3分,其他题目答错计0分,30%-60%正确计1分,60%以上计2分,完全正确计3分。接着将数据导入Winsteps3.72.3软件中进行分析。
Rasch模型通过残差计算得出两个拟合度检验指标:Infit MNSQ(简称IMNSQ,表示加权后的指标)和Outfit MNSQ(简称OMNSQ,表示未加权指标,易受极端值影响),ZSTD(Z standard)是两者的标准化形式[2]。IMNSQ和OMNSQ的理想值均为1,代表所测数据与Rasch模型预期完全拟合,当二者值在0.5~1.5之间时,代表所测数据与模型预期的拟合程度在可接受的范围内[3]。ZSTD的理想值为0,代表理想拟合状态,当ZSTD的值在-2~2之间时,则代表拟合较好[4]。其中,IMNSQ对题目难度和学生能力水平数据比较敏感,OMNSQ对异常数据比较敏感。因此本研究选择IMNSQ对评测方案进行分析。
如表1所示,被试的IMNSQ为1.00,题目的IMNSQ为1.07,均等于或接近IMNSQ的理想值;被试的ZSTD为0.10,题目的ZSTD为-0.20,均接近ZSTD的理想值。表明评测方案的题目拟合情况较好,题目的难度与学生的能力水平相匹配。评测方案题目的信度(ITEM RELIABILITY=0.95,>0.7),题目的区分度(ITEM SEPARATION=4.24,>2)均大于理想值,表明本评测方案题目的整体信度高,区分度较好,可以将不同能力水平的被试区分出来。被试的信度(PERSON RELIABILITY=0.68,<0.7)良好,这是因为评测是在两个教学质量不同的学校中进行,学生的能力水平分布差异较大,个体差异性明显。综上,本研究的评测方案试题整体质量良好,可以开展进一步分析。
表1 整体质量检测表
单维性要求测试的试题考查的是某种单一的心理特质或结构,即被试学生能否答对题目只与其某一种能力有关,忽略其他因素的影响。单维性检验可以通过分析各试题的标准残差(standardized residuals)进行判断。本研究通过Winsteps3.72.3软件处理数据得到评测方案的标准残差图,用以判断本评测方案所使用的试题是否具有单维性。
如图1所示,每一个大小写字母分别代表评测方案中的一个题目,具体对应的题目可通过查表获知,横坐标代表评测方案题目的难度,纵坐标代表题目与其他影响因素之间的相关关系值,当该值在-0.4到+0.4之间时,则题目具有单维性[5]。由图1可以看出,本评测方案26道题目只有4道题目超出了可接受范围,大部分题目均分布在-0.4到+0.4之间,4道超出-0.4到+0.4范围的题目是A、B、C和a。通过查表可知这4道题目分别对应第20、14、11和第5题。对这4道题目进行深入分析发现,这4道题目并不是考核学生的某一种能力水平,Rasch模型不能对其进行准确分析。例如,第20小题为:“写出一种可能会导致志愿者对候鸟计数不准确的因素,并解释这种因素是如何影响计数的。”该题不仅考核学生的分析问题能力,还涉及想象和解释的能力。本评测方案的26道题目仅有4道题目超出了单维性的可接受范围,可以判定该评测方案整体只受某一单一因素的影响,具备单维性,即该评测方案测试的是学生的生命科学领域科学素养水平。
图1 标准残差图
在Rasch模型中,题目的难度和学生的能力水平均被转换成具有等距意义的logit分数,因此可以在同一水平标尺(即怀特图)上比较题目难度和学生的能力水平。本评测方案的题目难度与学生的能力水平关系图如图2所示。
图2 怀特图
在图2中,中间的竖线是共用的logit标尺,标尺左侧是学生能力的分布,标尺右侧是题目的难度分布。标尺左侧的“#”代表两名学生,“·”代表一名学生,标尺右侧的标号为评测方案的题目序号。标尺旁的M代表平均值,M两侧的S代表距离平均值一个标准差,T代表距离平均值两个标准差。标尺最左侧的数值代表logit分数,从下往上看标尺,logit值逐渐增大,代表被试的能力增大,题目的难度增大。
从logit标尺左侧可以看出,大部分被试学生的能力水平分布在0-2 logits之间,呈负偏态,表明该评测方案对学生来说整体难度不大,评测方案的难度与学生的能力水平相适应。但在logit值>1时,没有与学生能力水平相适应的题目,表明该评测方案缺少难度大的题目。从logit标尺右侧可以看出,大部分题目的难度水平分布在-1~1 logit值之间,评测方案的题目难度较为均衡。而第1、3、16题过于简单,因为这三道题目属于与实际生活密切相关的科学素养常识题,几乎所有学生都可以答对。
在对评测方案进行整体质量检测和学生能力与题目难度的匹配性检验之后,接着对评测方案的每个题目进行具体分析。如表2所示,Measure是指题目的难度,Model S.E.是标准误差,代表题目测试学生能力时的误差,其值在-0.75到+0.75之间为可接受范围。Cor.是相关系数,表示题目与测量目标的拟合程度,其数值越大代表拟合情况越好。
表2 评测方案各题信息表
续表2
由表2可知,评测方案的26道题目里,Measure值最大的是第23题,代表评测方案中最难的题目是第23题,第11题、14题、20题和22题均较难,最简单的题目是第3题,几乎所有的学生都能答对。从26道题目的难度值来看,试卷的前半部分题目的难度值均较小,这符合学生的评测心理,有利于培养他们的信心,后半部分难度逐渐加大,区分度变大。因此,本评测方案在试题难度的安排上由易到难,具有梯度合理性,可以更准确地评测出学生的真实科学素养水平。评测方案的26道题目的Model S.E.均在-0.75到+0.75之间,因此本评测方案的标准误差均在可接受的范围内。第3题的相关系数最小,说明第3题在评测学生科学素养水平时,获得的有效信息最少。且第3题的IMNSQ=1.56(>1.5),和模型预期不拟合,说明低水平能力的学生答对了该题,而高水平能力的学生答错了该题。从题目的难度值上可以看出,第3道题目的难度值为-1.34,是26道题目中最简单的题目。第3题题目为:“人们生下来是卷发还是直发是因为他们兄弟姐妹的发质、他们父母的发质、他们自己头发的颜色还是他们自己皮肤的颜色。”这是一道简单选择题,编制这道题目的预期是几乎所有的学生都可以答对该题,但评测结果却与预期目标背道而驰,对于第3道题目是保留还是删除需进一步分析。此外,大部分的题目的IMNSQ在可接受的范围(0.5-1.5)内,其中第25题的IMNSQ=0.48(<0.5),表明能力水平高或者低的学生均不能完全答对。第25小题是一道开放题,让学生说出3种种子在蚂蚁窝里保存的优点,大部分学生未能得分是因为审题不清,答成种子在蚂蚁窝内发芽的优点。
Rasch模型可以通过气泡图直观地描述出每一道题目的拟合情况和标准差,与数据表格相比,气泡图更加一目了然。如图3所示,横坐标表示OMNSQ的值(拟合度检验指标),纵坐标表示题目的难度,每一个气泡代表一个题目,气泡大小代表题目的标准差,气泡越大代表题目的标准误差越大,气泡越小则代表题目的标准误差越小。气泡越靠近横坐标,表示题目的难度越低,离横坐标越远,表示题目的难度越大。
从图3的横坐标方向可以看出,大部分试题的OMNSQ值在0.5到1.5之间,表明试题的拟合度较好,评测方案质量较好,可以准确地测出学生的科学素养水平。但第6和第15道题目的OMNSQ大于1.5,与模型预期不够拟合,表明这两道题目无论科学素养水平高低的学生都能答对或者都会答错。从表1可知,第6道题目的难度为-0.51,第15题的难度为-0.39,两道题目属于简单题,因此无论科学素养水平高低的学生均能答对。其中,第6题考查两栖动物的生活习性,第15题考查食物的消化,学生可根据生活经验选择出正确答案。从图3的纵坐标方向可以看出,较难的题目有第23、20、22、25等题,较简单的题目有第3、1、6、10等题,评测方案题目的分布由易到难,有助于学生快速适应评测过程。图中26个气泡代表26道题目,第3道题的气泡半径明显大于其他题目,表示第3道题的测量误差较大,具体原因在上文中已作分析,其他25道题目的误差均在可接受的范围内。
图3 气泡图
此外,图中有部分气泡有重叠,这是因为这些重叠的气泡在测试难度、测量误差和拟合度这三个方面均较为接近。如第2题和第4题气泡接近重叠,二者均为简单试题,且拟合度和测量误差相近。第20和22题的气泡接近重叠,二者均为较难的试题。
通过对评测方案分别进行整体质量检验、题目单维性检验、题目难度与被试能力匹配性检验、各题质量分析和测量误差检验之后,发现本评测方案整体上符合评测目标的要求,与Rasch模型预期拟合较好,具备单维性。题目难度与被试能力匹配性较好,大部分题目质量良好,测量误差较小。但在评测方案质量检验过程中发现少量题目存在问题,第3、1、16题难度过低,第25题拟合度较差。下面对这些题目进行具体分析。
第3题难度太低,通过怀特图分析之后可知,该题的难度远远低于学生的能力水平。但难度低并不意味着一定要将题目删除,评测并非选拔,因此试卷中应保留一部分简单题目,让部分能力偏低的学生可以答对,避免评测分数过低。第3题题目为“人们生下来是卷发还是直发是因为他们兄弟姐妹的发质、他们父母的发质、他们自己头发的颜色还是他们自己皮肤的颜色”。这是一道简单选择题,但评测结果发现该题的IMNSQ和OMNSQ均大于或接近1.5,表明部分能力水平高的学生反而答错了该题,这与Rasch模型预期不拟合。同时,第3题在气泡图中其气泡半径过大,表明测验误差较大。因此,第3题无法准确地评测出学生的能力水平,应舍弃。
第1题和第16题的难度偏低,通过怀特图分析发现这两道题目的难度水平略低于学生的能力水平。第1题考查的是人体食用食物之后能量的转换,是小学四年级上册第四单元“今天吃什么”的内容,学生即使没有学过相关知识,凭借生活经验也知道当食用食物超过自身需要,食物会储存为脂肪。因此,不论能力水平低或者能力水平高的学生均可以答对。第1题的IMNSQ和OMNSQ均在可接受的范围内,测量误差合理。第16题是一道复杂选择题,让学生对操作步骤进行排序。大部分学生可根据生活经验答对该题,难度较小。该题的IMNSQ和OMNSQ值均在合理范围内,测量误差较小。因评测试卷中应保留部分简单题,故第3题和第16题保留。
第25题的拟合度较差,通过质量分析发现该题的IMNSQ<0.5,与模型预期不拟合,说明不论能力水平高或者能力水平低的学生均不能答对该题。第25题是一道开放题,考查学生的发散思维,让学生说出3种种子在蚂蚁窝里保存的优点,大部分学生由于审题不清,答成种子在蚂蚁窝内发芽的优点。经过与一线老师沟通交流后认为,题目本身并无问题,决定保留这道题目,并对题目中的“种子的保存”做文字加粗处理,以提示学生审题。
目前小学阶段教育测试数据质量分析大多依据经典测量理论进行,现代测量理论的应用不足。本研究采用Rasch模型对科学素养评测进行分析,希望能够为一线教育者和研究者提供参考。研究表明,本次科学素养评测评测试题质量较高,能区分出不同科学素养水平的学生,同时也存在部分评测试题不拟合的情况,可依据数据分析结果进行调整,为下一阶段的评测研究提供测量学参考。
附录:科学素养测评试卷
科学素养评测试卷
一、选择题
1.我们每天都会吃各种各样的食物,如果我们吃的食物超过自身需要会怎么样?( )
A.呼吸变快 B.体重变轻 C.心率变快 D.食物储存为脂肪
2.小明不小心割伤了自己的手指,他的身体需要能量来愈合伤口。愈合伤口需要的能量从哪里获得?( )
A.从他绑在伤口上的绑带里 B.从他抹在伤口上的抗菌剂里
C.从他吃的食物里 D.从他喝的水里
3.有些人是直发,有些人是卷发。什么会决定人们生下来是卷发还是直发?( )
A.他们兄弟姐妹的发质 B.他们父母的发质
C.他们自己头发的颜色 D.他们自己皮肤的颜色
4.肾脏是人类身体的重要器官。有一个人在年轻时由于疾病切除了两个肾脏中的一个。如今他有一个儿子。请问,当他儿子出生时,有几个肾脏?( )A.一个 B.两个 C.一个或两个 D.不确定
5.谚语“一母生九子,九子各不同”是说同一个母亲生九个孩子,九个孩子都不一样,这句谚语表明了什么现象?( )
A.繁殖现象 B.遗传现象 C.变异现象 D.哺乳现象
6.人生活在陆地上,鱼生活在水中,那下列哪种动物在很小的时候生活在水中,长大了生活在陆地上?( )
A.鲨鱼 B.蛇 C.企鹅 D.青蛙
7.下列各项中正确的食物链是( )
A.草→羊→狼 B.阳光→草→昆虫→蛙
C.兔→狐→细菌 D.草→兔→狼→细菌
8.人在陆地上通过呼吸新鲜空气获得氧气,鱼生活在水中,它们如何获得生存所需的氧气呢?( )
A.它们吸收水并将其分解为氢气和氧气
B.它们每隔几分钟浮出水面,呼吸空气进入它们的肺部
C.它们从吃的食物中获取氧气
D.它们通过鳃,吸收溶解在水中的氧气
9.下列哪一组动物都是哺乳类?( )
A.鸭子、老鹰、鹦鹉 B.老虎、猴子、蝙蝠
C.蝴蝶、蚂蚁、蚊子 D.鳄鱼、蛇、乌龟
10.如果你去热带雨林旅游,你可能会发现下列哪一组生物?( )
A.蜥蜴,昆虫,仙人掌,袋鼠 B.藤蔓,毒蛇,树蛙,猴子
C.常青树,鹿,黄鼠狼,水貂 D.地衣,苔藓,麋鹿,北极熊
11.人们观看健美运动员的展示时,运动员身体某处多次产生的隆起是因为什么?( )
A.肌肉组织具有收缩功能 B.肌肉组织具有舒张功能
C.上皮组织具有分泌功能 D.上皮组织具有保护功能
12.血液能在人体全身流动,是因为什么?( )
A.脉搏的跳动B.血管的收缩C.肌肉的收缩和舒张D.心脏的收缩和舒张
13.南京一年四季气候分明,请问食物在下列哪种气候中最容易发霉?( )
A.温暖干燥的春季B.闷热潮湿的夏季C.干燥凉爽的秋季D.寒冷干燥的冬季
14.环境中影响生物生活的因素有生物因素和非生物因素。下列主要反映非生物因素对生物影响的是哪个?( )
A.田鼠大量繁殖使农作物减产 B.大量捕捉青蛙使农作物减产
C.杂草丛生使农作物减产 D.旱灾使农作物减产
15.胆囊可以存储胆汁,而胆汁可以帮助消化脂肪。请问当一个人的胆囊切除之后,应该要避免食用哪一类的食物?( )
A.水果 B.五谷 C.乳酪D.蔬菜
16.艾米丽为了证明西红柿中含有大量水分,她决定榨取西红柿汁。下面是艾米丽榨取西红柿汁的几个步骤,正确的操作顺序(注意:是排序):( )
①比较西红柿汁和剩余渣子的多少(或称重)
②用纱布把西红柿块包起来
③将西红柿汁挤到烧杯中
④将西红柿切成小块
二、连线题
把下列动植物的形态结构与它们的功能用线连接起来。
A.苍耳果实有钩毛 a.在水中漂浮并流传种子
B.莲的果实是莲蓬 b.能随风传播到各处
C.蒲公英果实有冠毛 c.可钩在动物皮毛上而传播到各处
D.鸭脚上的蹼 d.适合于悄悄接近猎物
E.猫爪上的厚肉垫 e.适合在水中游泳
F.毒蛾鲜艳的色彩 f.有助于警告天敌并保护自己
三、判断题
班上要演节目,凯特编了一个剧本,里面有许多卡通动物明星,下面是剧本的一个片段。
米老鼠:我太太昨天下了三个蛋,正忙着在家孵蛋呢。
唐老鸭:孵蛋最麻烦了!要很细心照顾才行,不然可能孵不出小宝宝。
酷企鹅:像我们这样多好,一出生就是企鹅宝宝,根本不用孵蛋。
加菲猫:不用孵蛋是很好啦,但是我们要给小宝宝喂奶,也很辛苦。
维尼熊:嘻嘻,那我们最好了,我们不用喂奶,只要抓几条小鱼,就可以喂饱小熊宝宝了。
高飞狗:真羡慕你们!唉,我得回家了,我太太这几天也要下蛋了。
请问哪几个动物明星说的话是正确的?哪几个动物明星说的话是错误的?(不考虑动物明星的性别)请在后面的括号里分别打“√”或“×”。
米老鼠( );唐老鸭( );酷企鹅( );加菲猫( );维尼熊( );高飞狗( )
四、情境题
1.鸟类迁徙
鸟类迁徙是一种鸟类往返于它们繁殖地之间的大规模季节性移动。每年志愿者们都在特定的地点给迁徙的鸟计数。科学家们捕获一些鸟,然后在它们的腿上系上有颜色的环和标识。科学家们结合对标识的观察和志愿者的计数来确定鸟类迁徙的路线。
参考上面的材料“鸟类迁徙”,选择正确选项。
(1)大多数迁徙的鸟类都聚集在一个区域,然后大规模地迁徙而不是单独迁徙。这种行为是生物进化的结果。下列哪种解释能最科学地阐述大多数迁徙鸟类的行为的进化?
A.独自迁徙或小群体迁徙的鸟类,存活下来并能繁殖后代的可能性较小。
B.独自迁徙或小群体迁徙的鸟类,找到充足食物的可能性较大。
C.大规模迁徙允许其他种类的鸟加入到迁徙队伍中。
D.大规模迁徙可以让每只鸟都有更大的机会找到筑巢地。
(2)参考上面的材料“鸟类迁徙”。写出一种可能会导致志愿者对候鸟计数不准确的因素,并解释这种因素是如何影响计数的。
2.番茄种植
一个农民想要种植出果实更多的番茄植物。他决定测试两种方法。
方法一:买种子并增施更多的肥料;
方法二:保留下高度最高的番茄植株的种子,在第二年将这些种子种下。
方法一的结果如下表所示:
(1)结有果实的植株,其大部分的重量由番茄果实和茎叶组成。
请选出你认为茎叶更多的番茄植株组( )
A.A组 B.B组
方法二中,农民从他的最高的番茄植株上(高130cm)收集种子。第二年,他种下这些种子,测量从种子中长出的植株的高度,并画出了下面的柱状图。
请根据柱状图回答以下问题:
(2)种子长出了多少植株?最高的植株是多高?
(3)农民想要知道使用方法二种植番茄是否比方法一更好,他还需要收集关于番茄植株的什么信息?
3.种子传播
种子的传播有多种多样的方式,有一类种子可以附着在动物的皮毛上,通过动物的奔走进行传播。
(1)以下哪种种子最有可能以这种方式传播?( )(3分)
A.带钩的种子 B.可漂浮的种子
C.种子色泽鲜艳 D.种子表面光滑
(2)小小的蚂蚁也有助于许多植物的种子传播。蚂蚁会将种子移到巢穴。蚂蚁巢里的种子和外面的种子相比,在种子的保存上有什么优势?请至少说出三点。(6分)
(3)种子有一部分富含脂肪,富含脂肪的部分可以产生一种化学物质,如下图所示。蚂蚁通过食用种子富含脂肪的部分来获取能量,并将种子剩下的部分留在巢中,种子因此得到保存。
以下哪项描述了化学物质和富含脂肪的部分的作用?( )(4分)
A.化学物质阻止蚂蚁吃种子,富含脂肪的部分是蚂蚁的食物来源
B.化学物质吸引蚂蚁,富含脂肪的部分是植物的食物来源
C.化学物质阻止蚂蚁吃种子,富含脂肪的部分是植物的食物来源
D.化学物质吸引蚂蚁,富含脂肪的部分是蚂蚁的食物来源