李振文 中国教育科学研究院基础教育研究所
在当今教育领域,各种测试题以纸笔测试居多。随着信息技术的进一步应用,基于电子设备终端而进行的测试正在迅速发展,比如计算机等级考试、雅思和托福考试、建造师考试等。基于电子设备终端而进行的测试,为测试者和阅卷者带来便利。
当前所出现的基于电子设备终端而进行的测试,多数是基于静态文本而呈现的信息,即实现了将纸笔测试转移到电子终端,但并没有发挥电子终端的智能特征。而国际上在PISA(Programme for International Student Assessment,国际学生评价项目)和NEAP(National Assessment of Educational Progress,美国国家教育进展评价)测试中,其题目已经出现了显著变化,即交互式试题。这种试题不再是纸笔测试,而是直接搬到电子屏幕上,利用电子设备的智能化特征,实现学生和终端之间的互动。这样的测试能更深入地了解学生的能力值,能模拟现实世界中难以接触的模型,能带来学生和测试工具之间的互动,以实现纸笔测试所不能实现的功能。
由此可见,交互式试题是以计算机、手机、平板电脑等智能设备为工具,通过测试者与智能设备之间的信息互动,达到对测试者知识和能力考查的目标。
在PISA 测试中,交互式试题一般由一个情景和多个问题组成,从而构成一个测试单元。交互式试题提供了一个模拟的互动科学探究环境,用以评估学生在现实世界中的真实科学能力,帮助测查学生对应的多个水平。在大多数情况下,每个交互式试题对应评估多个知识和能力类别,个别试题可能只对应评估一种形式的知识或能力。
PISA 运用这种试题结构来达到尽可能真实的情景,从而有效反映现实生活的复杂性,高效利用测试时间。每个试题可以提出若干问题,避免针对不同情况单独提出问题,避免因减少了测试字数而相应减少学生阅读每个问题材料的时间。整个情景内的试题内容不能有关联,不能影响测试的结果,要确保能使用足够多的情景,还得保证情景的选择不能影响测试的结果。
在NEAP 测试中,交互式试题记录了学生对多项选择类问题的答案以及对描述类问题的反应,并能在学生完成任务期间捕获学生的行为,这些行为提供了与探究技能相关的深层次信息。例如,在“神秘植物”任务期间,学生在进行实验时所使用的植物托盘的数量可以由测试系统捕获。交互式试题的评分环节由计算机依据一定的算法自动完成。
当下出现的交互式试题主要集中在PISA 和NEAP中,本文主要针对这两种测评中的交互式试题分类进行说明。
在PISA 测试中,交互式试题出现在“问题解决类”(problem solving)试题中。PISA 根据问题情景的性质,将问题解决类题目分为静态和互动两种。静态意味着所有的信息会在同一时间全部公开,包括文本、图形、表格、图表和相关问题等。互动意味着不是所有的信息会在同一时间全部公开,它包括互动的刺激材料和相关问题,所以有些信息必须通过探索过程才能被发现。交互式试题对应互动类别,通过模拟科学探究过程评价学生的科学素养。试题由特定刺激材料构成,其可以是简短的书面段落或者带有表格、图像的文字,还可以包括非静态刺激材料,如动画和交互式模拟。试题中包含一组多种类型并独立评分的问题。
在NEAP 测试中,交互式试题出现在交互式计算机任务(interactive computer tasks,ICT)中。交互式试题通过模拟自然或实验室环境,要求学生在基于计算机的环境中解决科学问题。这些任务为学生提供了一个多样化参与科学问题的机会,但没有与真实任务相关的物质条件等方面的限制。
以PISA 官网所呈现的交互式试题“圣德”为例,该题是以地理学科为主的题目,考查的核心目标是协作解决问题技能。试题开始有少量简介,之后包含三部分内容。每个问题的选项限于篇幅,在本研究中未能全部包含,仅展示两个问题的全部选项,并将其作为下文评分标准的示例。
试题简介部分如下:
你的老师将全班学生分成三人小组进行比赛,回答12 条有关一个名叫圣德的国家的问题,最先答对的组别将会获胜。开启圣德地图上的联结,可以找到有关的答案。有四条是“地理”的问题,如圣德最大的雨林是什么?有四条是“人民”的问题,如圣德人的平均年龄是多少?有四条是“经济”的问题,如圣德的就业率是多少?
试题的第一部分主要是小组讨论完成任务的策略和分工,内容如下:
你和你的组员丽斯和硕祺,可以使用以下功能:
聊天:用来互相沟通
标示主题的按钮:用来显示比赛的问题,并在圣德地图上寻找答案。
计分卡:用来追查小组的进度。计分卡会显示小组答对的题数。
老师要求小组在比赛开始前,不要寻找问题和答案。相反,她建议花一点时间与组员讨论如何以最好的方法来完成比赛。你的组员丽斯和硕祺已经开始聊天。
点击以下按钮来加入聊天。
当点击聊天按钮后,界面显示如图1所示:
图1 加入聊天后的交互式试题界面
加入聊天后,窗口内是小组成员的聊天内容,下面有若干选项供学生选择。点击某个选项,然后点击“传送”按钮即可参与聊天。
谁在聊天
你 丽斯 硕祺
丽斯:嗨,我不太肯定用什么方法来进行比赛最好。
硕祺:我们先做了再说。
你:
(问题1)
我怀疑其他组已经开始了。
我希望题目会容易一些。
或许我们应该先讨论一下答题的策略。
丽斯,当我们开始以后,你会知道要做什么了。
你:或许我们应该先讨论一下答题的策略。(选择的选项)
在此部分,如果选择不同的选项,聊天的内容还会继续,且小组成员的聊天内容不会发生变化。
丽斯:我很想我们在开始之前有一个计划。
硕祺:我们应该要尽快回答问题。
你:没错,但是用什么方法来作答才好呢?(选择的选项)
丽斯:各位,我们需要想想小组如何才能好好合作啊。
硕祺:我们每个人用最快的速度来作答就是了。有什么难度呢?
你:假如我们分工,各自负责不同的题目,我们回答的问题可以更多。(选择的选项)
丽斯:你知道吗,如果我们一起找同一类的答案,只会做得很慢。
硕祺:噢,是的……我终于明白了。
你:我们可以每个人选择一个主题。(选择的选项)
试题的第2 部分主要是每个小组成员选择一个作答主题,内容如下:
你的小组同意每位组员负责回答一个主题内的问题。丽斯和硕祺已经开始了一个新的聊天。
点击以下按钮来加入聊天。
丽斯:我想选择“人民”。
硕祺:喂!我也想选那个。
你:你们可以各自解释为什么你想要这个主题吗?(选择的选项)
硕祺:我只是想“人民”的问题应该是最简单的。
丽斯:我对不同国家的人民和生活方式十分感兴趣。我经常阅读与这个主题有关的书籍。
你:听起来“人民”这个主题应该属于丽斯。硕祺,你认为这样好吗?(选择的选项)
硕祺:我想“经济”应该可以吧。我喜欢钱。
你:那我选“地理”吧。(选择的选项)
试题的第三部分主要是小组成员要完成自己选择的主题,内容如下:
你的小组已经达成以下共识:
“地理”是你负责的主题。
“人民”是丽斯负责的主题。
“经济”是硕祺负责的主题。
比赛开始了!请点击一个主题按钮来开始。
当点击“地理”按钮后,试题界面如图2所示:
图2 点击“地理”之后的试题界面图
当选择某个主题之后,点击地形图上面的标识,可以提取到题目给出的信息。如上图点击了左上角的标识后,题目给出的信息是图中圈住的部分“圣德最高的山是莫祖山”。然后点击第二个问题的答题按钮,按钮中就会填入莫祖山的答案。其他试题的作答过程类似。此时,小组聊天窗口还在继续。
丽斯:我们答对了一题。我们继续吧!
(问题2)
时光飞逝,我们不要浪费时间聊天了。
是谁答了地理题啊?不错啊!
既然有人回答了“地理”题,我转答其他主题吧!
你:应该由我来回答“地理”题。我们做自己原本选择的主题吧!(选择的选项)
在一定的作答时间后,试题给出下一个页面。
丽斯:我的计分卡是对的吗?我们做得怎么样?
你:我们看来表现不错,除了“经济”外。(选择的选项)
此后作答界面跳转到最终界面,显示答题成功,如图3所示:
图3 交互式试题的答题成功界面
PISA 测试中,“圣德”交互式试题围绕12 种协作问题解决技能展开,这些技能是四种问题解决的过程和三种协作能力的交叉。PISA 给出的协作问题解决技能框架见表1:
表1 PISA的协作问题解决技能框架
PISA 还提供了一个整体协作问题解决能力量表,涵盖了交互式协作问题解决中的所有项目。协作问题解决能力量表的设计目标是,经济合作与发展组织国家的平均分为500 分,约三分之二的学生得分在400 分~600分之间。该量表分为五个熟练程度等级。其中1至4 级是对成功完成问题的技能的描述,最低的级别是“低于1级”,对应学生得分为低于340分,表示学生缺乏这些技能。1 级是协作问题解决能力的最低级别,表示初级水平,对应学生得分为340 分~440 分;2 级对应440 分~540 分;3 级对应540 分~640 分;4 级对应协作问题解决能力的最高水平,对应学生得分为高于640分。成绩在1级范围内的学生有望成功完成大部分1级项目,但不太可能成功完成更高级别的项目。相比之下,成绩在4 级范围内的学生很可能可以成功完成协作问题解决测试中的所有项目。
本研究以两个具体问题的评分标准为例进行说明。
首先,以上文“圣德”试题中的问题1 为例,其评分标准见表2。问题1关注学生讨论过程中如何建立共同的理解。此问题的正确回答是“或许我们应该先讨论一下答题的策略”,这有助于团队关注如何以最佳方式完成任务。学生必须主动提出解决问题所需的逻辑选项,即应该先确定答题策略,才能帮助团队取胜。该问题对应协作问题解决能力量表的2 级,对应学生得分为502分。
表2 问题1的评分标准
其次,以上文“圣德”试题中的问题2 为例,其评分标准见表3。该问题聚焦于对小组操作的监控与反馈。在学生尝试回答地理类别中的问题之前,第一个地理问题的答案会显示在记分卡上,并带有复选标记。丽斯评论说有一个问题已经得到了回答。此时应该注意到,这个题目并不是由选择地理主题的“自己”完成,而是由别人完成。所以,这位同学的行为违反了最初制定的规则。对于该题目,学生容易选择“是谁答了地理题啊?不错啊!”选项,因为该选项是对组员的鼓励。但PISA更为关注小组合作时的规则,如果大家都不按照自己选择的主题进行作答,而是喜欢哪个答哪个,将影响到小组的分工合作,并影响到最终整个题目的答题效率。
表3 问题2的评分标准
该问题对应4 级难度水平,是测评中最难的水平。它要求学生不仅要跟踪聊天,还要跟踪答题状态的变化。也就是说,学生必须注意到,现在发生的事件违反了每个成员只能选择一个主题进行作答的协议。该问题的正确答案是合理阻止小组成员的违规行为,从而平衡个体的问题解决需求和在游戏中所分配的角色之间的关系。
交互式试题在测评学生能力时,能够更加关注学生的过程性技能,记录的信息更加详细,评分准则也将更加科学合理。在计算机应用更加普及、智能化水平越来越发达的今天,交互式试题的应用将引发测评领域的变革。
未来,交互式试题最为突出的特征,将是能够随着学生作答的变化而变化,深度适应当前学生的能力和水平,对应呈现与其吻合的测评工具,实现智能测评。首先,交互式试题与大数据若能取得更为紧密的结合,则能够有效利用大数据背后的海量信息,及时准确地对当前学生的能力做出反馈。通过适时改变测试题组,更为准确地测评到学生的能力。其次,交互式试题如果能够大范围应用,将改变当前应试教育的局面。应试教育长期存在的重要原因之一,就是测试内容主要和知识相关,而交互式试题的变化性在能力测试方面具有得天独厚的优势。理想情况下,交互式试题可以不受考试时间的限制,对学生的能力进行科学评判。当考试的核心转移到能力上时,应试教学将很难有所作为,必将得到有效限制。再次,交互式试题有助于人才选拔。当前,多元智能理论被普遍接受,但却难以广泛应用,究其原因就是单次、少量的测试工具终究难以直接测试出学生在某方面是否擅长、是否有天分。但交互式试题能够依据学生的不同反应,持续不断地输出各个维度的试题,从而确定学生是否在某个方面有特长。这对于依据单次、少量的考试确定学生未来发展方向将具有重要意义。