基于过程数据的人机“虚拟代理”协作问题解决测评研究*——以PISA中国四地区为例

2023-10-19 03:22:30首新田伟李健刘杨

现代教育技术 2023年10期

首新田伟李健刘杨

首新1,5田伟2李健3刘杨4

（1．重庆师范大学科技教育与传播研究中心，重庆 401331；2．北京师范大学中国基础教育质量监测协同创新中心，北京 100875；3．重庆高新区教育事务中心，重庆 400041；4．陕西师范大学生命科学学院，陕西西安 710119；5．西南大学教育学部，重庆 400715）

当前，随着交互测评技术的发展，分析个体与“虚拟代理”的协作动态信息已成为当前交互式协作问题解决测评的新趋势。为此，文章基于过程性视角分析了中国四地区（京沪苏粤、香港、澳门、台湾）青少年在PISA项目“Xandar”一题上的协作问题解决过程，结果发现：在交互式测评中，适量的点击鼠标更有助于思考答题；协作过程注重监控、反思、调整等更可能成为高水平者（如香港），这反映出元认知体验和策略对复杂技能的重要性；四地区学生表现可形成三类群组，其中京沪苏粤在“执行与技术”组的占比较大、香港在“决策与组织”组的占比较大，依据PISA等级水平，学生善于主动采取行动进行决策，解决分歧和冲突更可能处于高等级。最后，文章基于研究结果提出了发展协作问题解决能力的教学建议，以期更好地推进协作问题解决能力培养。

协作问题解决；PISA；交互式测评；虚拟代理；青少年

一研究背景

人机交互是研究人与计算机之间信息交流、影响的技术系统，“人”指操作者和用户，“机”指新兴技术设备。从最初的鼠标拖动、单向浏览到现如今的语言识别、情意捕捉等，交互技术已转向判别交互过程中的认知属性。随着交互技术的发展，教育领域的人机交互测评开始尝试加入虚拟代理（Virtual Agent）开展基于情境的问题解决评估[1]。在这一过程中，虚拟代理通过预先设计好的脚本模拟真实情境中与被试的限定性对话或含义更广泛的提示、引导、操作、交流等互动，让被试展现真实的协作问题解决水平。

国际大型测评项目（Program for International Student Assessment，PISA）在2015年已全面在计算机环境下对15岁青少年开展协作问题解决测验，而测验中的“虚拟代理”通过与被试对话或含义更广泛的互动，以提示、协助、引导等方式推进被试与“虚拟代理”的协作问题解决。与“虚拟代理”的协作能反映被试的协作问题解决过程和方向，这为分析协作问题解决提供了新的过程视角。为此，本研究着眼于PISA项目中国四地区（京沪苏粤、澳门、台湾、香港）协作问题解决的过程数据来刻画学生的协作问题解决历程，比较四地区青少年在协作策略、模式上的差异，为更好地开展协作问题解决能力培养提供有益建议。

二研究现状

1 协作问题解决的过程测验

捕捉协作问题解决过程可以展现个体的社会交互程度，弥补结果性评价的不足。目前国际测评PISA/ATC21S项目采用的交互式测验，都强调从过程性视角评估个体的协作问题解决能力。体现协作过程的个体表现测验主要有“人-机”交互、“人-人”交互两种测评模式，均是基于计算机环境记录被试在计算机环境中的操作，并生成日志数据来表征问题解决过程[2]。其中，“人-机”交互测验并不是简单地将纸笔测试电子化，而是被试与虚拟代理（表征团队其他成员）对话探讨问题解决路径，通过捕捉被试选择路径的过程来判别其协作问题解决水平。“人-机”交互测验的基本逻辑是，被试在精心创设的试题情境中，通过代理呈现提示，或协助、引导探究过程，让被试有充分的空间展现其问题解决水平，表达实质推进问题解决的见解。这是一种基于脚本的封闭情境测试，“封闭”是指被试只能选择脚本已有内容与虚拟代理进行“协作”，进而展现交互性的动态测验，提高测验的针对性和有效性[3]。代理是脚本的可视化，除了在测验中进行引导，还可帮助不能推进问题解决的被试逐步回归正确路径，但相应阶段的得分会降低。当然，“人-机”交互测验的封闭性也可能会束缚被试所期望的协作进程，也就是基于脚本的测验可能阻碍了被试的认知投入和知识激发[4]。

另一种相对开放的“人-人”交互测验则更能捕捉个体面对小组任务时的认知过程，此时计算机只提供虚拟情境，小组成员合作决策下一步操作，逐步达成共同目标[5]。“人-人”交互测验的基本逻辑是：充分基于个体已有经验进行社会交互，由此形成小组内部、个体外部的信息不对称态势，以对话交流、讨论、操作等过程揭示个体在团队中的协作问题解决能力。“人-人”交互测验基本无脚本限制，但也有一些独立于测验内容的脚本支架可以引导小组把握正确的方向，以明确下一步操作[6]。“人-人”交互测验展现了真实的合作过程，并且测验系统记录的丰富过程数据为揭示个体协作问题解决水平提供了证据，但计算机的记录可能会产生成千上万的碎片信息，这样建立对关键行为可识别的评判标准就显得尤为重要了。而这也是目前“人-人”交互测验的核心难题，如ATC21S项目采用“人-人”交互测验，仅涉及小组两位被试，这尚未构成个体面向外部的社会交互，显示了还原协作问题解决能力这一复杂技能的困难。

2 PISA协作问题解决测验

PISA于2003年首次增设问题解决测试项目，以测评学生综合解决现实生活实际问题的能力，PISA 2012进一步细化了问题解决中的认知过程，将其分为探索和理解、表征和形式、监控和反思、计划和实施四个方面。PISA 2015在此基础上又增加三项协作要素（达成共识、采取行动、建立团队），由此形成3×4的协作问题解决测评框架。基于该框架和测试结果，PISA制定了协作问题解决能力水平4级精熟度，其中第4级代表最高水平（640分以上）[7]。虽然都是一种个人能力，但不同于个人问题解决，PISA测评协作性问题解决的过程是建立在共同任务上，成员之间进行任务分配，激发个体尝试用知识、观点和经验来解决共同问题，期间会有争论、激励等。被试的协作对象为2～3名虚拟代理，利用预先制定的脚本尽可能体现个体与外界的社会交互和构建，在脚本控制下，被试通过选择与虚拟代理的对话内容来表征协作问题解决进程，这种模拟与情境聊天室集成在一起，以此评估其相关技能水平。

PISA利用“人-机”交互所测的协作问题解决能力用于建立通用的标准进行各个国家或地区的比较，让教育决策者发现各自学生的协作问题解决能力与其他教育体系学生相比有何差异，反思自我教育系统的不足，以制定更好的教育政策制度，因而PISA测试报告更加关注各国家或地区的结果，但国家内部的地区差异需要根据研究目标进行二次分析，这对于教育决策者关注国家内部教育均衡发展仍至关重要。我国共有四地区学生参与PISA协作问题解决能力测验，那么这些学生的协作问题解决行为表现有何差异，表现出哪些特征？高水平协作问题解决者有何特质？如何推进有针对性的教学改革扬长避短？对于这些问题的回答，本研究着眼于地区性协作问题解决过程进行比较，尝试从过程性视角解构中国四地区（下文简称“四地区”）学生与虚拟代理协作的路径及差异，以便从全新的视角提出发展协作问题解决能力的有效策略。

表1 “Xandar”一题的评测内容明细

三研究设计

基于过程数据分析视角，本研究拟采用关系挖掘、Rasch模型、序列分析、聚类等方法分析四地区学生在国际测评PISA项目“Xandar”一题（样题）上的协作问题解决过程及特征，进而提出发展学生协作问题解决能力的教学建议。

1 研究对象

本研究以四地区参与PISA协作问题解决测验“Xandar”一题作答的15岁学生为研究对象。中国四地区共4704名学生作答“Xandar”一题，加权后实际代表281375个样本。为避免地区样本差异，所有结果均采用PISA提供的权重变量“SENWT”进行加权处理，将四地区学生总数调整为相同的数值（均为5000）进行分析。

2 研究工具

“Xandar”一题创设的情境是老师把全班同学分成三人一小组进行比赛。率先正确回答出有关“Xandar”国在地理、国民和经济领域12个问题的小组获胜，老师建议小组在比赛开始前先花一点时间讨论怎样才能更好地完成任务。项目评估重点并非是回答12个问题，而是被试与另外两位“虚拟代理”Alice和Zach组成三人小组，以对话的形式商讨如何分工协作。该题展现的协作问题解决过程包括：①商定形成答题策略（每位同学负责一个领域）；②选定各自的答题领域（根据对三个领域的熟悉度确定负责哪一个）；③监控答题过程（先关注自己的领域，再帮助其他人解决有困难的问题）。这些过程涉及的协作问题解决要素包含了解问题情境、商议问题策略、达成解题共识、有效参与问题解决、评估团队进展等[8]。评测内容明细如表1所示。

表2 “Xandar”一题行为序列编码（1-11）

注：1表示从行为C101到行为C102，形成一个行为序列，其他以此类推。

3 研究过程

本研究首先初步分析四地区学生在“Xandar”一题中答题时间及鼠标点击次数方面的差异；然后深入分析其答题的行为特征，再进一步解构答题行为序列，进而寻求答题过程群组并分析差异；最后进行教学反馈并提出有针对性的教学策略。本研究涉及的变量包括：①答题时间。②鼠标点击次数。③答题行为，定义点击鼠标一次表征一个行为，“Xandar”一题共有12个关键行为。④答题行为序列。“Xandar”一题的答题操作顺序与问题解决时程一致，是链条式且不能跳跃的，因此定义两个相邻行为组成一个行为序列，“Xandar”一题设置了12个考察点，组合相邻行为共有11种行为序列，其编码如表2所示。每个行为有正（用1表示）、误（用0表示）两种情况，因此一个行为序列有0-1、1-1、1-0、0-0四种情形，本研究拟进一步分析行为序列的四种情形以获得四地区学生协作问题解决的特征。⑤学生协作问题解决表现。本研究采用Greiff等[9]的建议，以PISA提供的第一个似真值（First Plausible Value）得分表征个体协作问题解决水平。

4 研究方法

为了精准分析四地区学生在“Xandar”一题中的作答行为表现，展现其协作问题解决过程，挖掘协作问题解决特征，本研究采用相关、比率、匹配等关系挖掘方法分析四地区学生在“Xandar”一题中的答题时间、鼠标点击次数以及行为序列时程，拟合Rasch模型比较四地区学生的行为水平差异，并基于序列分析思想进一步揭示四地区学生的协作问题解决过程行为差异，进而运用两步聚类方法设置协作问题解决群组，表征四地区学生的协作问题解决特征，最终为发展学生协作问题解决能力提供有效建议。

5 数据分析

基于上述研究方法，本研究借助SPSS 22、Winsteps 3.72、Excel等工具对四地区学生作答“Xandar”一题所产生的89628条信息（数据清洗之后所得）进行数据分析，以揭示四地区学生的协作问题解决过程及行为表现特征。

四研究结果

通过数据分析，本研究获得了四地区学生在表层答题时间/鼠标点击、行为水平，在深层行为序列、协作问题解决群组等方面的结果，为揭示学生协作问题解决过程提供了依据。

1 答题时间及鼠标点击次数

“Xandar”一题的答题时间、鼠标点击次数如图1、图2所示。其中，横坐标为百分位数，纵坐标为答题时间（秒）/鼠标点击次数（次）。答题时间方面，澳门学生花费的时间最多（M=320.51秒），之后依次是京沪苏粤（M=313.26秒）、香港（M=286.26秒），而台湾学生最少（M=272.67）；尤其在60th～70th，香港学生的答题时间有骤降趋势，与台湾学生基本重合。

图1 四地区在“Xandar”一题的答题时间情况

鼠标点击次数方面，香港学生最多（M=67.32次），之后依次是京沪苏粤（M=61.46）、台湾（M=60.26次），澳门学生最少（M=57.67次）。澳门学生花费最多的时间答题但鼠标点击次数相对却最少，说明澳门学生倾向于在思考后点击鼠标答题，而非一边点击鼠标一边思考进行作答。与此形成强烈对比的是香港学生，其答题时间相对较少，但点击鼠标次数最多，反映出两地学生不同的答题策略：香港学生可能更期望通过不断点击鼠标来推进思考，加快答题速度，而澳门学生则倾向于静态思考。如前所述，“Xandar”一题共设置了12个考察点，一般认为答对80%为优良，以此为标准（至少答对9个），那么香港学生的优良率为42.26%，澳门学生为26.67%，说明回答计算机交互试题时，以点击鼠标进行操作性思考和调整更有助于答题。

2 行为水平差异

本研究建立Rasch模型，分析12个行为与学生协作问题解决表现之间的关系。Rasch模型以对数转换为基础，将个体能力（本研究中指学生的协作问题解决表现）与项目难度（本研究中指12个关键行为所表征的认知难度）放在同一量尺下进行匹配，将个体与项目的对应关系可视化。如图3所示，量尺左侧呈现学生的协作问题解决能力分布情况，右侧呈现关键行为认知水平难度。量尺从下到上，随着学生协作问题解决能力的提升，关键行为认知难度也随之增大。由图3可知，澳门、台湾学生答题显示行为C401较难（Rasch值为3.80、2.23），京沪苏粤、香港学生答题显示行为C302较难（Rasch值为2.93、2.57）。行为C302、C401同属于4级难度，且是相邻行为，其中行为C302反映学生对团队问题解决过程的监控，确保成员按照商定策略进行；行为C401反映对阶段性问题解决结果的监控，并对后续进程进行有效评估。香港学生认为C302较难而C401较简单，说明他们更倾向于对阶段性结果进行评估和反思，并预测后续过程。澳门学生与之形成鲜明对比，认为C401较难而C302较简单，说明他们更关注问题解决过程中小组的进度，并进行及时交流。从正确率来看，香港学生在C302上为18.79%，在C401上为58.03%（18.79%＜58.03%）；澳门学生在C302上为21.71%，在C401上为5.31%（21.71%＞5.31%），也充分佐证了上述不同地区学生所表现出的问题解决过程特征。

图3 四地区行为水平分布Rasch图（从左到右依次是京沪苏粤、澳门、台湾、香港）

PISA已事先标定“Xandar”一题12个行为的认知难度，分为1～4共4个难度水平（参见表1）。利用Rasch模型获得的大部分行为难度水平分布与PISA标定结果大致相同，但某些行为表现并不一致，如行为C203、C105分别标定为2级、1级难度水平，但图3显示相对其他行为其处于量尺上部；行为C201、C301标定为4级难度水平，但其相对处于量尺下部。针对Rasch实测结果与PISA标定难度水平不一致的情况，可进一步对行为所表征的认知难度进行调整。

3 行为序列分析

11种行为序列在1-0（1表示正确，0表示错误）、0-0、0-1、1-1四种情形的占比情况如图4所示。整体来看，在1-0情形中，波动较大的是行为序列7、8、9；在0-0情形中，波动较大的是行为序列6、10；在0-1情形中，波动较大的是行为序列8、10、11；在1-1情形中，波动较大的是行为序列6、10、11。行为序列7在1-0情形中占比较大，在0-1情形中占比较小，行为序列9与之类似，行为序列8与之相反，行为序列7、8、9可构成链C202-203-301-302，说明四地区大部分学生能答对C202、C301，却答错C203、C302。皮尔逊相关分析结果显示，行为C203、C302与个体协作问题解决得分相关度为0.05、0.13（＜0.2），说明C203、C302的错误导致了低得分，若都答对，学生的协作问题解决得分将增加25.01分。

行为序列10、11在0-0、0-1情形下差异较大。在0-1情形中，香港学生行为序列10占比最大，澳门学生最小，说明香港学生能答对C401，而澳门学生答错C302。行为C302、C401都属于4级难度水平，难度较大，构成的行为序列10难度就大，因此在0-0情形中占比都较大，而行为C401要求学生对阶段性结果进行监控并评估成功解决问题的可能性，说明香港学生在协作问题解决过程中更关注问题解决进程，进行监控与反思，这与上述Rasch模型分析结果类似。四地区学生的行为序列11分布各不相同，从1-1、0-1情形来看，若前行为C401正确，那么后行为C402正确率会极速增加，这在香港学生身上表现尤为明显。澳门在C402上的正确率显著提升，行为C402是监控小组其他成员的进度并调整团队角色，难度比C401低，说明澳门学生在逐步调整对问题解决过程的监控，但由于C402是最后一个行为，调整效果并不明显。

图4 四地区行为序列在4种情形下的占比（%）情况

本研究进一步采用滞后序列分析思想探求哪些行为序列的发生率达到统计显著水平，并基于显著性行为序列分析四地区学生协作问题解决的过程及差异：首先统计11个行为序列在四种情形下的频数，然后以“横坐标表示先发行为，纵坐标表示继发行为”生成行为序列频数表，再进行标准分数转换，计算其值，若值大于+1.96，则表示相应行为序列达到了概论统计的显著水平（＜0.05）。由此，本研究构建了四地区学生行为序列在4种情形（1-1/1-0/0-1/0-0）下的显著性发生率路径，如图5所示。

图5 四地区行为序列在4种情形（1-1/1-0/0-1/0-0）下的显著性发生率路径

整体来看，行为序列1～5的显著性发生率均为1-1情形，这主要源于行为C101～C201难度均较低。但从行为序列6开始，4种情形下的显著性发生率各有差异，如香港、台湾出现两种情形的发生率为显著，在某些行为序列中，甚至0-0情形也为显著性发生率，由于越靠后协作问题解决认知水平越难，这表明面对难度较大的行为时，四地区学生的表现差异较大。

分地区来看，从行为序列6开始，香港、台湾在多种情形下存在显著性发生率，香港在行为序列7、8新增1-0、0-1，说明其在C203上的正确率较低，行为C203旨在考查学生推进小组协作问题解决分工过程中的能力，反映出学生“达成问题解决共识”方面的能力还有待提高，其他三地区也有类似问题，但由于香港地区仍有1-1情形支撑，因此可以推断四地区学生在协作问题解决达成共识方面都有所欠缺，但相比而言香港仍处于前列。台湾在行为序列6、7新增0-1、1-0，这主要源于行为C202难度较小，而前行为C201难度较大，学生不能启动“解释分工缘由”的对话，也就是说不能发现小组成员的优势和观点，而其他三地区在此阶段表现较好，这反映出台湾地区学生在小组协作分工方面还有待加强。针对行为序列10，京沪苏粤、澳门的0-0情形均为显著性发生率，反映出行为C302、C401对该地区的学生而言难度较大；而香港地区出现0-1、0-0情形，说明此阶段后发行为C401相对表现较好；台湾地区出现1-0情形，说明先发行为C302相对表现较好。根据行为所表征的协作问题解决要素，表明针对监控、评估、调整等高认知协作问题解决过程，京沪苏粤和澳门学生的表现较差，而香港、台湾学生表现较好。针对行为序列11，香港又以1-1情形为显著发生率，表明其行为C401、C402正确率较高，而这两个行为都指向“评估团队进展”，故可以推断，香港学生在“监控和反思”阶段（反映高水平认知过程）表现较好。PISA报告显示，中国香港排名第三，可能就是源于学生在协作问题解决中的监控、调整、评估等“监控与反思”过程表现较好。

4 协作问题解决群组

本研究将含有四种情形的11个行为序列纳入分类变量，进行对数相似值转化以测量距离，依据贝叶斯信息准则采用自动确定聚类数量的方式对样本进行两步聚类分析，形成了3类稳定聚类结果：第一类占40.66%，第二类占57.81%，第三类占1.53%。从操作过程来看，群组1的答题时间为214.09秒/人，鼠标点击次数为12.5次/人，协作问题解决得分均值为571.59；群组2的答题时间为218.48秒/人，鼠标点击次数为15.4次/人，协作问题解决得分均值为477.84；群组3的答题时间为505.61秒/人，鼠标点击次数为93.7次/人，协作问题解决得分均值为363.07。据此初步发现，群组1和群组2能有效理解题意，通过点击鼠标对试题信息进行加工，而群组3表现出肆意点击鼠标的情况，倾向于漫无目的地答题，不能推进整个协作问题解决过程。

进一步从行为序列聚类结果进行分析1聚类群组在四种情形中的分布情况请见https://blog.sciencenet.cn/blog-3361920-1400659.html。：行为序列1～4中，三类群组的最频繁类别均在1-1情形，行为序列9～10则均在1-0、0-0情形，原因主要在于其中蕴含的行为不是过于简单就是难度过高，对大部分学生而言考查效果一致；而由中等难度构成的行为序列，三类群组表现各异。在这些行为序列中，群组1在行为序列5、6上的最频繁类别均在1-1情形，群组2在行为序列7、8上的最频繁类别均在1-1情形，说明群组1的学生能够答对行为序列5、6，群组2的学生能够答对行为序列7、8，反映出群组1在协作问题解决过程中更可能成为决策者和组织者，识别问题解决的关键方法，并且善于发现小组成员的优势以组织分配任务；群组2则倾向于成为协作问题解决过程中的执行者，且对问题解决中的关键技术和方法具有一定的话语权，善于辨别并描述重要任务。对群组3而言，在行为序列8、11上的最频繁类别均在0-0情形，反映出这类学生既不能推进协作问题解决过程，也对其中的关键方法或技术缺乏见解，或者信息技术素养较差，不能理解答题操作界面。依据上述群组协作问题解决的特征可知，群组1是“决策与组织”组，群组2是“执行与技术”组，群组3是“错误偏向”组。

图6 四地区学生的聚类群组分布情况

四地区学生的聚类群组分布如图6所示。总体而言，“错误偏向”组占比较小（1.53%），原因主要在于“Xandar”一题并非只有一个问题，而是有12个考察点，且认知难度各不相同，旨在让学生经历协作问题解决过程以考察个体的水平，因而全部答错的可能性较小。“执行与技术”组占比最大（57.81%），反映出四地区的大部分学生在协作问题解决过程中是任务执行者，较少关注共同体问题解决进程以及监控整个过程。分地区而言，香港在“决策与组织”组占比最高（45.90%），这与前述香港学生更倾向于评估和反思不无关系。京沪苏粤在“决策与组织”组占比最低（33.83%），在“执行与技术”组占比最高（64.07%），这反映出京沪苏粤学生有较为清晰的任务执行意识，更倾向于明确要做什么，但对学习过程的自主监控、管理等有待进一步加强。台湾在“决策与组织”组的占比高于澳门（42.19%＞39.92%），在“执行与技术”组的占比低于澳门（56.87%＜59.56%），在“错误偏向”组两地区的比例相当，说明台湾学生在协作问题解决过程中也多关注进展状况及小组成员表现，但如前所述，台湾学生仍不能发现小组成员的优势，或许正是这一差异，导致了其与香港学生在“决策与组织”组的差异。

五讨论与总结

上述结果展现了中国四地区学生协作问题解决过程及其特征，也反映出了协作问题解决差异及各自的不足，可为发展京沪苏粤等我国境内学生的协作问题解决能力提供了有价值的参考。

1 关注协作问题解决过程中监控、反思等高阶认知过程

行为序列分析发现，若在协作问题解决过程的监控、评估、调整等方面表现较好，其整个协作问题解决水平就较高（如香港学生），这反映了学生的元认知水平。有研究者认为，对自身认知活动进行积极监控、调节、反思等就是元认知，这一过程触及高阶认知[10]，在解决复杂问题、协作问题过程中非常重要。“Xandar”一题共3个行为（C302、C401、C402）对其进行评估，京沪苏粤地区学生的正确率均低于香港学生，特别是在C401上，京沪苏粤学生的正确率仅为19.9%，结合聚类分析结果显示，京沪苏粤学生在“执行与技术”组占比最大（64.07%），反映出中国境内学生更倾向于充当任务的“执行者”，这或与我国中学教育不太注重培养学生对自身学习过程的监控与反思能力有关。可以预测，我国学生在协作问题解决测评中元认知的不足，源于学校教育过分注重学习结果，而缺乏关注获得好的学习结果的过程，特别是对复杂的、协作性问题解决而言，或许教师在讲授学习策略和方法时，还应该有意识地将重点放在过程监控、阶段反思等方面，逐步推进协作问题解决过程中元认知体验、元认知监控意识的养成。

2 重视协作问题解决过程中决策与组织能力的培养

聚类分析结果显示，京沪苏粤在“决策与组织”组占比最小（33.83%），反映出其在问题解决过程中的协作水平、沟通和合作能力还需进一步提升。多重比较（LSD）发现，虽然四地区学生在“决策与组织”组的协作问题解决得分均值均高于540，达到了水平3，但京沪苏粤与其他三地区均有显著差异，其中与香港相差29.65分。PISA报告显示，香港在协作问题解决测评中全球排名第3，而京沪苏粤排名26，因此京沪苏粤的教育决策者更应该向香港学习如何培养学生的决策与组织能力。由于教育文化使然，我国教师倾向于训练学生的个体问题解决能力，我国中学生在国际奥林匹克竞赛中的优异表现就是最好的佐证。但随着“合作与交流”核心素养逐步得到重视，与他人合作开展探究学习成为基础教育课程改革的重要方向，如香港《中学课程纲要（科学科）》倡导学习伙伴式的学生角色，指出“中学生可以担当较活跃的角色，启发其他伙伴一起学习，大家分工合作和分享观点，给予反馈，一起探索不同的学习方式”[11]，这一学习方式显然指向协作问题解决中的决策与组织能力。因此，我国应逐步扭转只注重个人能力而忽视团队协作的意识，在教育指导纲要、课程方案、课程标准等政策文件中提倡协作学习，在课程活动中设计群体任务导向的协作问题解决活动，并鼓励学生进行协商、决策，组织讨论小组分工、策略、方法等。

3 加强基于核心素养的协作问题解决策略与方法指导

在本研究中，答题时间、鼠标点击及行为序列的差异反映出四地区学生在解题策略、方法上的特征，广义而言，这是由学习策略、问题解决方法不同而引起的结果。PISA报告显示，京沪苏粤达到协作问题解决4级熟练水平（高水平）的学生占6.4%，显著低于香港、澳门、台湾地区（13.0%、11.1%、9.6%）；而协作问题解决低于1级水平（低成就）的学生占5.8%，显著高于其他三地区（1.9%、2.2%、2.7%）。京沪苏粤是我国教育资源较发达地区，尚且有如此差异，若将其他欠发达省市青少年考虑在内，差异会进一步加大。随着以发展学生核心素养为目标的义务教育各学科课程标准的颁布，在课堂教学中让学生经历协作问题解决过程，着重训练学习策略成为新的课程改革方向。发展学生核心素养的基本要义之一，就是使其“善于发现和提出问题，有解决问题的兴趣和热情；能依据特定情境和具体条件，选择制订合理的解决方案等”，在科学课程中落地为探究实践，在数学课程中表现为“运用数学和其他学科的知识与方法分析问题和解决问题”，在艺术课程中阐述为进行艺术创新和实际应用，等等。期待与时俱进的课程方案能逐步推进我国学生协作问题解决过程中认知技能、方法以及学习策略的提升。

4 推进学生信息技术素养的提升

PISA从2012年开始实施大规模的基于计算机的测试，体现了对学生信息技术素养的要求。测评过程需要通过键盘和鼠标输入、点击、拖放、滑动、下拉等操作完成，虽然只涉及基本的计算机操作，但这种不同于传统纸笔测试的方式仍会对部分不熟悉计算机操作的学生产生影响。PISA报告显示，虽然是否使用计算机与协作问题解决总分之间存在弱相关（RR=0.72/0.77），但在控制经济、社会和文化地位因素后，自我感知信息技术素养高的京沪苏粤学生的协作问题解决总分比信息素养低的学生高6分[12]。可见，基于计算机的测试对学生有一定的影响。本研究的聚类分析结果也显示，群组三“错误偏向组”比例较小，但人均鼠标点击次数最多、答题时间也最长，这很可能是此类学生的信息技术素养较差导致，如其不熟悉计算机操作操作界面，胡乱点击鼠标，从而影响了答题进程。因此，基础教育阶段应当将信息技术素养看成是与识字、读写、计算能力一样的教育基本要求，从根本上提高学生的计算机基本操作能力、简单信息处理能力等，进而促进其整体信息技术素养的提升。

[1]Ohmoto Y, Takahashi A, Ohashi H, et al. Capture and Express Behavior Environment (CEBE) for realizing enculturating human-agent interaction[A]. Culture and Computing - Computing and Communication for Crosscultural Interaction[C]. Berlin: Springer-Verlag, 2010:22-23.

[2]袁建林,刘红云.合作问题解决能力测量:真实性与过程性评价视角[J].电化教育研究,2022,(5):100-108.

[3]Noroozi O, Weinberger A, Biemans H. Facilitating argumentative knowledge construction through a transactive discussion script in CSCL[J]. Computers & Education, 2013,61:59-76.

[4]高红丽,杨磊,徐升,等.智能导学系统人机交互机制研究[J].中国远程教育,2021,(1):50-56、65.

[5]李美娟,刘红云,张咏梅.计算心理测量理论在核心素养测评中的应用——以合作问题解决测评为例[J].教育研究,2022,(3):127-137.

[6]Vogel F, Wecker C, Kollar I, et al Socio-cognitive scaffolding with computer-supported collaboration scripts: A meta-analysis[J]. Educational Psychology Review, 2016,29:1-35.

[7][12]OECD. PISA 2015 results collaborative problem solving volume V[R]. Paris: OECD Publishing, 2017:79.

[8]OECD. PISA 2015 CPS-Xandar-scoring-guide[R]. PISA, Paris: OECD Publishing, 2017:13.

[9]Greiff S, Wüstenberg S, Avvisati F. Computer-generated log-file analyses as a window into students’ minds? A showcase study based on the PISA 2012 assessment of problem solving[J]. Computers & Education, 2015, 91:92-105.

[10]刘哲雨,王媛,杨慕娴.技术支持视角下元认知策略对中小学生学业成绩的影响研究——基于54篇相关外文文献的元分析[J].现代教育技术,2021,(8):60-66.

[11]香港课程发展议会.中学课程纲要科学科(中一至中三)[OL].

Research on the Man-machine “Virtual Agents” of Collaborative Problem Solving Assesment Based on Process Data——A Case Study of PISA Test in Four Regions of China

SHOU Xin1,5TIAN Wei2LI Jian3LIU Yang4

At present, with the development of interactive assessment technology, analyzing collaborative dynamic information between individuals and “virtual agents” has become a new trend of interactive collaborative problem sloving. Therefore, based on process perspective, this paper analyzed the collaborative problem solving process of the PISA“Xandar” test among teenagers in four regions of China (Beijing Shanghai Zhejiang Guangdong, Hong Kong, Macao, Taiwan). It was found that a moderate amount of mouse clicking was more conducive to answering questions in the interactive assessment. Emphasis on monitoring, reflection, and adjustment in the collaborative processes was more likely to be high level (such as Hong Kong), which reflected the importance of metacognition experience and strategy for complex skills. The performance of students in the four regions can be divided into three groups, with Beijing, Shanghai, Jiangsu and Guangdong accounting for more in the “implementation and technology” group, and Hong Kong accounting for more in the “decision-making and organization” group. According to the PISA level, students were good at taking the initiative to make decisions, resolve differences and conflicts were more likely to be at a high level. Finally, based on the research results, the paper put forward some teaching suggestions for developing collaborative problem solving ability, expecting to promote the cultivation of collaborative problem solving ability better.

collaborative problem solving; PISA; interactive assessment; virtual agent; teenagers

G40-057

1009—8097（2023）10—0086—12

10.3969/j.issn.1009-8097.2023.10.009

本文为中国博士后科学基金第72批面上资助项目（项目编号：2022M722625）、重庆市教育科学规划一般课题“双减新常态下课后服务STEM跨学科课程构建与实施策略研究”（项目编号：K23YG2050232）的阶段性研究成果。

首新，副教授，博士后，研究方向为科学教学心理与测评，邮箱为346532216@qq.com。

2023年3月7日

编辑：小时

基于过程数据的人机“虚拟代理”协作问题解决测评研究*——以PISA中国四地区为例

一 研究背景

二 研究现状

1 协作问题解决的过程测验

2 PISA协作问题解决测验

三 研究设计

1 研究对象

2 研究工具

3 研究过程

4 研究方法

5 数据分析

四 研究结果

1 答题时间及鼠标点击次数

2 行为水平差异

3 行为序列分析

4 协作问题解决群组

五 讨论与总结

1 关注协作问题解决过程中监控、反思等高阶认知过程

2 重视协作问题解决过程中决策与组织能力的培养

3 加强基于核心素养的协作问题解决策略与方法指导

4 推进学生信息技术素养的提升

一研究背景

二研究现状

三研究设计

四研究结果

五讨论与总结