龚鑫 许洁 胡若楠 乔爱玲
(1.首都师范大学 教育学院,北京,100084;2.浙江大学 教育学院,浙江 杭州,310058;3.华东师范大学 教师教育学院,上海,200062)
测评作为教学的有机组成部分,是教育活动的重要载体,也是促进学生知识巩固和迁移的“助推器”。新技术的迅猛发展,带来了教学测评和反馈方式的深层次融合,实现1+1 >2 的效果[1]。“游戏化+测评”的创造性结合迅速引起了国内外学者的广泛关注,其沉浸性、隐身性等特点可以有效地解决传统测评的不足之处所带来的信度和效度问题[2]。
目前,游戏化测评虽广受国内外教育领域人士的关注,但因游戏化本身相对复杂,现有研究结果不尽相同,甚至差异很大[3]。因此,如何运用游戏化策略设计评价以提升学生参与测试的积极性等问题值得系统探讨。为获得更科学、更有说服力的结论,本研究基于近2013—2023 年国际相关实证研究成果展开系统评价,梳理游戏化测评在教学中应用的整体情况,归纳总结游戏化测评的主要设计策略及相关实践领域,并结合其挑战提出对应建议,以期为游戏化测评的教学与实践提供启示,为“双减”政策下实施高效测评提供思路。
游戏化旨在将游戏元素与机制融入到普通的任务中,以让被执行的任务流程变得有趣,从而引发人们深层动机、提升学习效果、提高任务收益[4]。其中,游戏化元素作为游戏化的基本成分,类似于工具箱,每个工具都可以用来构成游戏的交互设计并驱动用户参与。
将游戏化应用于教学测评中,能够为个体创造一个互动的学习环境,激发学生积极参与测评。根据引入游戏机制目的的不同,可将与游戏相关的测评分为两类:结构游戏化测评和内容游戏化测评。顾名思义,结构游戏化测评侧重于任务流程的游戏化,任务内容本身不具有游戏感,通过游戏元素及内在机制促使学习者在愉快的学习中完成任务[5];而内容游戏化测评侧重于任务内容的游戏化,一般可用于收集学习者在游戏过程中的行为表现数据,对学习者的心理特性和行为进行量化测评[2]。
游戏化测评丰富了教育教学评价的手段,充实了教育教学评价的方式,拓宽了教育教学评价的范围。与其他技术支持的评价方式相比,游戏化测评因其沉浸性和趣味性,能够通过动画、音效、排行榜、进度条等功能减轻学生压力。在评价内容方面,游戏化测评不仅对学生的学习效果进行评价,还对学生的高阶思维、数字素养等综合素质进行评价。此外,游戏化测评在人才选拔中的应用也使其发展为未来人才测评的主要形式。有研究指出,将游戏机制和其他游戏组件(元素)纳入传统评估类型的创新方法获得了不同程度的成功[6]。由此可见,游戏化测评效果如何也一直是专家学者探究的重点。
当前国内对游戏化相关的系统研究主要集中于游戏化教学,在游戏化与教学评价领域的相关研究与实践还很有限。基于游戏化测评在教学评价中的现状,研究者还需对游戏化测评开展系统的综述分析,以更好地探索游戏化测评在教学中的应用效果及如何有效实施游戏化测评。因此,结合2013—2023 年国际的相关实证研究成果,本研究确定了如下研究问题:(1)国际游戏化测评实证研究主要呈现出哪些特征(发表期刊、研究对象、研究方法等)?(2)国际游戏化测评实证研究的主要理论依据是什么?(3)国外游戏化测评应用于教育领域的形式具体分为几类?其设计策略是什么?(4)国际游戏化测评实证研究的主要领域有哪些?(5)游戏化测评应用于教学的效果如何?
本研究采用系统性文献综述法,梳理了2013—2023 年国际关于游戏化测评在教学中的研究现状、主要研究内容和研究效果等,以期对游戏化测评研究者、一线教师等相关人员有所启发。
本研究所主张的游戏化测评包括结构游戏化测评和内容游戏化测评,两者以不同的游戏化方式对学习者进行教学过程评价,结构游戏化测评偏向于加入特定的游戏化元素,内容游戏化测评偏向于评价内容的游戏化,最终达到评价的效果。借鉴系统性综述中的文献获取方法,以Web of Science、Scopus 和Springer Link Science Direct 等数据库为主要数据来源,检索时间限定为2013—2023 年(截至2023 年5 月15 日),文献语言为英文。以(Gamif* OR Game-Based)和(Assessment OR Quiz)为检索式,共得到文献4 916 篇。其中,在Web of Science 数据库中检索到972 篇文献、在Scopus 数据库中检索到3 430 篇文献,在Springer Link Science Direct 数据库中检索到514 篇文献。
本研究遵循系统性文献综述方法(Preferred Reporting Items for Systematic Reviews and Meta-Analyses,简称PRISMA),通过检索、筛选、合格和纳入4 个阶段对游戏化支持教学测评的相关文献进行筛选,具体PRISMA筛选过程如图1所示(见下页)。其中,根据研究问题制定文献纳入和排除标准,文献剔除的标准为:(1)非英文论文;(2)非实证研究类论文;(3)非期刊论文;(4)全文不可获取;(5)重复性文献;(6)国内作者或研究对象;(7)研究没有明确的研究问题、方法及结论;(8)主题未聚焦于游戏化测评。最终确定有效的实证研究文献为79 篇。其中,6 篇出自Web of Science,70 篇出自Scopus,3 篇出自Springer Link Science Direct。结合筛选得到的79 项研究,本研究从发表时间、作者、期刊来源、期刊等级、理论基础、研究问题、学科背景、研究对象、研究方法、样本大小、研究周期、游戏化测评类型、实验设计策略、游戏设计策略、研究效果等维度依次编码分析。
图1 PRISMA 流程图
1. 所属期刊种类丰富
从文献发表数量来看,2013—2023 年国际游戏化测评应用于教学的研究呈现逐渐上升的趋势,尤其是在2018-2020 年加速上升,之后处于缓慢上升时期。从文献发表的期刊种类来看,79 项研究分别发表在50种不同的期刊上。按照2021 年SSCI 期刊最新影响因子和排名对期刊等级进行分区,在79 项研究中,有44项研究属于Q1 区,21 项研究属于Q2 区,12 项研究属于Q3 区,2 项研究属于Q4 区。由此可见,随着技术的发展和教育教学评价的精准化,游戏化测评相关实证研究逐渐受到研究者和高质量期刊的广泛关注,正处于热门研究阶段。
2. 研究对象群体多元
在79 项研究中,研究对象群体覆盖5 个不同的教育阶段。其中,7 项研究对象为成人,34 项为大学生,14 项为中学生,10 项为小学生,只有5 项研究针对学龄前儿童,还有9 项研究中包含至少两个群体(以中小学生居多)。从不同教育阶段的文献数量可以看出,当前游戏化测评的实证研究主要来自高校和部分中小学,关于学龄前儿童和成人的实证研究较少。造成这种情况的原因可归结为两方面:一是游戏化测评基本都需要技术支持,而适用于学龄前儿童的技术平台欠缺;二是对于成人群体而言,学习更多的是一种主观的积极参与,对游戏化测评的需求较低。另外,分析实证研究所采纳研究对象的数量,其中,将100 人以下作为研究对象的有32 项(40.5%),100 ~300 人的有26项(32.9%),超过300 人的有21 项(26.6%)。这表明研究涉及样本规模差异较大,较大规模的游戏化测评研究仍需加强。
3. 研究方法混合多样
本研究将79 项实证研究的研究范式分为实验设计、准实验设计和非实验设计3 大类。其中,55 项研究(67.2%)采用实验设计,20 项研究(28.4%)采用准实验设计,4 项研究(4.4%)采用非实验设计。从数据分析方法来看,实验设计、准实验设计、非实验设计3 种研究范式都以定量研究为主。整体来看,大多数研究采用定量研究方法(N=72,91.1%),少数采用混合研究方法(N=7,8.9%)。
1. 游戏化测评的理论基础
在79 项实证研究中,39 项研究明确标注出依据的理论。其中,游戏化学习理论应用频数最多(N=12),这与前期的相关综述研究结果一致[3],体现了当下游戏化学习理论的发展趋势;其次是以证据为中心的设计理论(Evidence-Centered Design,简称ECD,N=6),ECD 涉及概念和计算模型(如能力模型、证据模型和任务模型)的开发,这些模型共同完成有效的评估;心流理论(N=3)也被多次应用,主要指学习者在游戏化环境下,更易被游戏吸引并为赢得奖励而努力,最后达到忘我的学习状态。自我决定理论、动机理论、计划行为理论、社会建构主义理论、体验式学习理论、自我调节学习理论、协作学习理论等也在其他项研究中出现。可见,当前的游戏化测评理论基础比较分散,这可能源于当前在游戏化测评研究方面,尚处于理论探索阶段。
2. 游戏化测评的设计策略
依据引入游戏机制的目的差异,将79 项实证研究归类为结构游戏化测评(N=32)和内容游戏化测评(N=47)。
(1)结构游戏化测评的外在表现主要为题库型游戏
题库型游戏将游戏化元素与知识题库相结合,以游戏情节串联知识内容,但题库与游戏情节的联系并非必然。其中,有13 项是基于课堂交互系统设计的,另外19 项则是将游戏化元素直接嵌入已有的传统测评中(如多项选择题)。这些关于结构游戏化测评的研究虽然均为融合游戏化元素与题目设计,但在教学测评视角下,游戏化元素在评估中的应用在类型、数量和复杂性上有所不同。下面以余·尼克(Yee Nick)等人[7]在信息系统领域提出的“成就类—社交类—沉浸类”3 类游戏元素为例,具体分析游戏化元素的应用情况。
成就类游戏化元素是根据学习者的实际情况,给出与之相对应的参数,使学习者的学习情况能够以可视化形式呈现,并以此激励学习者持续参与。其中,在表现学习者的成绩方面,分数/积分等元素的运用频率最高,其次为徽章、排行榜等元素。而对学习者游戏时所处关卡、游戏进度、答题速度等提供标记,不仅能够有效增强其参与动力,还能提高测评完成率。但部分研究者发现,此类元素短期使用有效,长期效果有待考证。
社交类游戏化元素涉及能够推进学习进程的各类互动交往元素。其中,竞争、反馈和个性化等已获取诸多学者青睐。如李兰(Li Lan)[8]设计的寻宝游戏在任务设置时为学习者创造良好的竞争关系,助力学习者激活动机;奥拉夫·达赫利(Olav Dæhli)等人[9]以多种交互形式和反馈机制将测试内容呈现在“学习者”游戏中,旨在帮助学习者评估自身知识掌握程度、系统学习进程的同时,改善学习体验及效果。
叙事和虚拟角色等沉浸类游戏化元素能创建测评情境,提供信息支持(如给玩家提示)与诱导式沉浸体验。芬兰研究者在关于小学数学测评的研究中,利用虚拟角色作为叙述的载体,在奥林匹斯山与对手竞争回答数学问题,以获得丢失金币的踪迹,从而激发学习者对分数知识的学习兴趣[10]。虽然结构游戏化测评设计的开发难度低且适用于所有学科,但教育性与游戏性的联系紧密性难以达到理想效果,因而会影响到整体游戏体验。
(2)内容游戏化测评表现形式为融合型和仿真型游戏
融合型(N=43)和仿真型(N=4)游戏主要将游戏情节融入测评内容或作为引导置于测评场景中,能从测评对象在游戏中的各种行为表现中提取具有潜在应用价值的信息,从而获得对其能力的测评。设计内容游戏化测评需要重点平衡游戏本身的趣味性与测评结果的准确性,由此,从测评游戏的设计与开发视角,根据现有文献将其分为游戏策略设计环节、行为数据收集环节和测评目标评估环节,旨在回答现有内容游戏化测评如何设计才能实现测评的结果准确、内容有趣。
游戏策略设计环节旨在创设适当的心流互动体验,以任务指令提供学习目标引导,以即时反馈方式使学习者处于一种满足既定目标的环境。例如,有研究者将徽章引入已有的“物理游乐场”游戏评估系统,当学习者获得正确的测试结果时,为其提供奖励[11]。
在数据收集环节,伴随计算机硬件性能的飞速提升,部分测评游戏依托感知交互技术获取学习者在学习中的多模态行为数据,如学习者操作任务的行为日志数据、反映学生心理状态的面部表情等。雷切尔·M.弗林(Rachel M. Flynn)等人[12]针对儿童认知能力的游戏测评工具,监测20 个指标,将多模态数据与评估目标进行链接,从而评估游戏的坚持性、可靠性和评估潜力。
在测评目标评估环节,为实现测评的准确性,根据游戏后台收集的数据,采用数据挖掘技术和学习分析推论学生的认知能力及认知过程,有利于及时调整教学进程。具体而言,就是先基于收集的丰富数据对测评目标进行表征,实现特征提取,再采用传统的机器学习模型(如随机森林、支持向量机等)预测评估目标,这被证明能够更有效地提高预测准确率。例如,瓦莱丽·J.舒特(Valerie J. Shute)等人[13]收集了中学生参与“Use Your Brain(使用你的大脑)”的后台数据,采用贝叶斯网络等数据挖掘技术测量学习者的问题解决能力。埃琳娜·M.奥尔(Elena M. Auer)等人[14]基于弹性网络回归、随机森林回归、随机梯度增强树和支持向量机4 种有监督功能的机器学习算法,对621名学习者的认知能力和责任心数据进行预测。
尽管内容游戏化测评基于真实问题创设游戏情境,运用新技术记录并保留学习者作答过程中的数据,但其设计难度较高。并且,人们对其测评结果的信任度还有待提升,只能作为传统测评的补充验证手段。因此,还需要利用获取的大量测验数据,采用深度神经网络、贝叶斯网络、自然语言处理等先进的数据处理方法,提高游戏化测评的适用性。基于此,游戏化测评在学习与能力评估方面还需要进行更深入的研究。
3. 游戏化测评的实践领域
游戏化测评在教学中主要应用于教学目标评估(N=50)、认知能力诊断(N=21)、人格特质评估(N=8)。如表1 所示。
表1 游戏化测评的实践领域
在教学目标评估实践领域,游戏化测评可用于衡量学习者对知识和技能的掌握程度。在与学科结合方面,研究者以案例叙述的形式,开展了大量系统化的基础学科研究。例如,阿拉伯语、德语等以字母、单词、对话为内容的语言类课程,多采用题库型的结构游戏化测评工具,注重提升学生的学习兴趣以及激发学生的学习动机;而数学、物理、化学、地理等强调重复训练强化记忆和抽象知识具象呈现的基础性课程,多采用融合型的内容游戏化测评工具,借助游戏“可重复”的特点,助力学习者达到记忆的目的;计算机、辩论技能、运动技能等以程序性知识和具身体验为主的技能类课程,更侧重于情景性及具身性,允许学生在游戏中尝试、犯错,以更好地帮助学生理解和思考。
在认知能力诊断实践领域,游戏化测评以独立学习环节形式存在,多采用融合型的内容游戏化测评工具评估学习者在重构和应用知识时所需要的能力。针对问题解决能力,克里斯汀·斯托夫勒(Kristin Stoeffler)等人[15]将由12 项多维技能组成的协作问题解决矩阵结构整合到基于游戏的评估“电路运行器”中,通过提取玩家与虚拟角色互动时产生的遥测(日志文件、点击流、交互)和响应数据测评目标能力。针对阅读认知能力,鲁兹·雷洛(Luz Rello)等人[16]开发了一款西班牙语在线筛查工具,以筛查12 岁及以上的阅读障碍人群,检测正确率高达80%以上。
在人格特质评估实践领域,主要采用融合型的内容游戏化测评,依托其隐蔽性和仿真性等特点为特定困难领域的评估带来新的解决方案。例如,迈克尔·P.麦克里(Michael P. McCreery)等人[17]以游戏中的行为表现为依据,评估个体的主动性攻击和反应性攻击特质;杰森·L.哈曼(Jason L. Harman)等人[18]开发了一款情境丰富的叙事游戏,通过插图元素提升玩家沉浸感,从而测评其5 大性格特质(情绪稳定性、外向性、开放性、尽责性和亲和性)。
游戏化测评应用于教学会产生积极(N=67)、消极(N=4)及多种情况混合(N=8)3 种效果。
1. 积极效应
研究普遍认为,游戏化测评在教学中会产生积极的影响。将游戏作为测评载体,其丰富的故事情节和感官刺激给学习者带来愉悦体验。利用游戏化元素(叙事、音乐配乐和积极强化、竞争)隐藏测评目标和测评活动本身,引导学生全身心投入游戏并做出决定,从而有效降低其在测评过程中的焦虑水平、提升考试成绩。并通过计算机过程数据追踪技术建立受测者表现情况的动态变化模型,提高测评的信度和效度[15],最终为学习者提供可靠的预测结果,从而能够使其更全面、更深刻地理解与预测自身行为。
2. 消极效应
极少的消极结果来自不易量化的高级心理活动,主要是游戏化测评结果受学习者的认知能力影响,与受测者的实际水平存在较大差异[19],不能完全反映受测者的实际表现。此外,学习者的技术自我效能感与其在游戏化测评中获得的公平感显著相关,因此,这样的消极影响也可能是由于游戏化测评设计的科学性不足所造成的。
3. 混合效应
混合效应则代表着游戏化测评既有积极方面,也包含消极方面。比如,有研究发现,用游戏进行教学测评能够增强学习者动机,但是对于其学习成绩却无显著提升作用[6];游戏作为形成性评估工具有潜在益处,但其效果弱于计算机评估;因新奇效应,游戏在最开始能够提高学习者的参与度,但这种效果只能短期维持。
综观2013—2023 年游戏化测评应用于教学的79项实证研究成果,可以发现相关研究多以大学生为研究对象,重视引入游戏化学习、基于证据的设计等相关基础理论,主要采用实验研究的方法,从游戏化测评设计策略等要素出发,推进游戏化测评在教学目标、认知能力和人格特质等领域不断深入,使得其测评结果有效、可信,从而得到进一步推广和认可。
下面总结游戏化测评应用于教学所面临的挑战,并针对性地提出优化建议。
测评游戏将学习情境隐藏在游戏背后,带给学习者心流体验,以激发其学习兴趣,然而,这种方法使得教育工作者难以跟踪和分析学习者在学习过程中的学习进度,无法对学习者的学习行为做出即时反馈并帮助他们实现学习目标。此外,随着测评实施进程的推进,游戏采集数据量增多,初始定义的指标已无法精准反映学生能力的发展。基于此,教学专家应基于游戏设计开发者采用的人工智能技术所捕获的数据,借助机器将其划分到相应指标中,并根据多轮迭代判断指标的置信度更新指标体系。与此同时,游戏设计开发者也应在测评游戏中嵌入能够充分匹配动态游戏环境的具体实时分析工具,如将学习分析技术与可视化结合,以优化分析工具,进而促进决策制定。
对于认知能力及人格特质类测评目标,游戏测评工具仅能收集到部分外显行为数据,难以全面评价目标能力的隐形特质。因此,在定量分析收集的外显行为数据的基础上,需适当补充访谈、评语等定性分析数据,以弥补定量评价中对学生情感、态度、价值观的忽略,通过结合定性评价和定量分析的优势,获得多元数据,使评价结果更加全面、真实。
测评游戏的界面、人物形象、操作手法等方面的设计缺乏专业性,与日常接触的游戏差距较大,从而使受测者产生心理落差,尤其对于幼小阶段的学习者来说,较易失去参与动机和学习兴趣。而在元宇宙视域下,使用扩展现实技术,将学习者定位在“具体经验”下,实现其与虚拟对象的高度交互,可以使其在认知真实性的游戏情境中获得隐性知识,弥补虚拟世界中真实感的缺失。