人工智能何以赋能教育评价
——基于国际研究热点和前沿的分析与启示

2024-01-28 13:05赵磊,田丹

中国医学教育技术 2024年1期

赵磊,田丹

辽宁师范大学教育学部, 辽宁大连 116029

教育评价事关教育的变革方向,是教育发展的“指挥棒”,亦是教育活动中至关重要的一环。建设新时代高质量教育体系,实现教育现代化的宏伟目标,迫切需要深化教育评价改革,以探索、引导各级各类学校服务国家教育战略的发展之路。2020年10月,中共中央、国务院印发了《深化新时代教育评价改革总体方案》,针对教育评价改革的实质性问题,提出了“改进结果评价,强化过程评价,探索增值评价,健全综合评价”的目标,并特别强调“要充分利用人工智能、大数据等现代信息技术,创新评价工具,提高评价的科学性、专业性和客观性,以综合发挥教育评价的导向、鉴别、诊断、调控和改进作用”[1]。

智能技术赋能教育评价的本质在于借助大数据、人工智能等新型技术的优势,重构教育评价理念与模式,改进教育评价过程与方法,提升教育评价数字化与智能化水平,并由此引发教育评价形态的变革[2]。人工智能是智能技术的核心构成,具有自主感知、理解、预测和行动等强大功能,能够增强信息化教学过程中作为交互主体的计算机的灵活性与适应性[3],催生以“数据驱动、智能诊断和精准测评”为特征的教育评价新样态。“2018人工智能赋能教育变革国际论坛”从“知识图谱与科学教育”“学习者建模与学习分析”“智能教育解决方案”等方面探讨了未来信息化教育评价变革的主要方向[4]。“2020全球人工智能与教育大数据大会”将“智能技术助力教育评价和在线教育过程监控”作为中国教育信息化发展的新趋势[5]。这都表明当前人工智能赋能教育评价的研究已日渐升温,并引起了学界的广泛关注。那么,国际人工智能赋能教育评价的概况如何,形成了哪些研究热点和前沿,未来需要围绕哪些课题开展研究?该文尝试通过对现有国际研究的文献计量与系统性综述,回答以上问题,以期凝聚力量集中关注该领域更有价值的课题。

1 研究设计

1.1 研究方法与工具

该文采用文献计量法开展研究,并通过可重复、可复制的技术与方法对样本文献进行定量和定性分析。一方面,在文献检索、评价与筛选的基础上,利用CiteSpace可视化工具对数据库中的相关数据进行编码与计量,通过发表年份、载文期刊、高影响力作者、高频关键词和突现关键词等信息的描述性分析,揭示国际人工智能赋能教育评价领域的研究概况、热点与前沿,并将分析结果以知识图谱的形式呈现;另一方面，在文献编码与计量的基础上，精读各聚类的施引文献，并对其进行综合性分析与解读，系统归纳总结研究现状，预见研究问题与趋势，为中国人工智能赋能教育评价的研究提供参考方向。

1.2 研究样本

为了尽可能地凸显文献的学术性与代表性,该文将研究样本的来源确定为Web of Science数据库的核心合集,对人工智能赋能教育评价的文献进行梳理与筛选。截至2022年4月23日,共检索到教育科学类英文期刊文献505篇。通过逐篇浏览,剔除不相关文献335篇(对某种智能技术及其性能评估的文献180篇、人工智能应用于其他评估领域的文献120篇、访谈性或报道性文献35篇),最终获得有效文献170篇。

2 研究结果

2.1 文献分布及研究趋势

该文利用折线图描述了样本文献的年度分布特征,呈现了人工智能赋能教育评价的研究态势。如图1所示,人工智能赋能教育评价研究始于1998年,并且文献数量呈逐年上升趋势,表明越来越多的学者关注此领域的研究。1998—2007年,人工智能赋能教育评价步入研究者视野,文献数量相对较少,年均不足2篇。2008—2017年,发文量明显提升,并呈波动上升态势,年均约4篇,共计44篇。2018年起,文献数量骤然提升,直至2022年4月共有118篇文献,年均发文量超过20篇。据此可以预测,未来一段时期内该领域的文献数量仍会持续增长。

图1 文献数量的年度分布

2.2 载文期刊及研究领域

如表1所示,国际人工智能赋能教育评价的施引文献主要来源于教育学和心理学等领域的期刊,被引文献主要来源于教育学、心理学、社会学和计算机科学等领域的期刊,表明人工智能赋能教育评价的研究主要受到教育学、心理学、社会学和计算机科学等学科成果的影响与关注。统计显示,共有四种期刊的施引文献不低于10篇,分别为《计算机与教育》(Computers&Education)、《教育信息技术》(EducationandInformationTechnologies)、《IEEE学习技术汇刊》(IEEETransactionsonLearningTechnologies)和《教育技术与社会》(EducationalTechnology&Society),载文总量为64篇,约占样本文献的37.6%。

表1 期刊载文量分布

2.3 高影响力作者与研究概况

高产作者群体在一定程度上反映了某学科领域研究队伍的整体情况,筛选高产作者,分析相关文献,有助于把握某领域的研究概况[6]。研究发现,发文3篇及以上的学者共有7位,其所属研究机构分布于美国、中国和印度等国家。如表2所示,这些学者主要对机器学习支持下的自动化评价系统、智能导师系统和文本挖掘工具进行开发与应用研究。

表2 高产作者及其研究内容

2.4 关键词与研究热点

关键词是论文研究主题的集中体现,亦是论文核心内容的高度概括与凝练。如果某一关键词在某一领域的文献中反复出现,那么该关键词所表征的研究主题即是该领域的研究热点[7]。因此,通过对样本文献的关键词进行聚类分析,可在一定程度上揭示人工智能赋能教育评价研究的热点主题。该文运用CiteSpace对文献数据进行关键词共现分析,得到如图2所示的知识图谱。其中,聚类模块值Q=0.7693,表明聚类结构显著。平均轮廓值S=0.9093,表明聚类科学合理,且令人信服。结合所有聚类信息及典型文献的综合分析,总结人工智能赋能教育评价的研究热点包括以下四个方面:

图2 关键词聚类图谱

2.4.1 机器学习技术支持下的结果评价

在大数据的支持下,利用机器学习技术赋能教育教学的结果评价,并将其与文本挖掘、情感分析和语言识别等模型有机融合,不仅能够丰富结果评价的数据来源,拓展评价内容与指标维度,促进评价模式的智能转型与优化升级,而且有助于学业水平和教学质量的精准测评,有效提升评价结果的客观性、公平性和准确性。相关研究主要体现在以下四个方面:

一是基于机器学习和自然语言处理技术促进在线同伴互评。在计算机支持的协作学习(computer supported collaborative learning,CSCL)环境下,人工智能技术在很大程度上保证了同伴互评的公平性,为评价学习者的协作学习表现提供了新思路。CSCL往往要求学习者彼此之间开展同伴互评,为各自的学习同伴给予评语和评分,并保持二者的一致性。针对此问题,Rico-Juan J R等将深度神经网络和自然语言处理技术相结合,检测学习者同伴互评分数和对应评语的一致性,并以此为依据自动生成合理的分数[8];PinargoteOrtega M等[9]引入文本情感分析和模糊逻辑等软计算技术(soft computing)构建了互评模型,对主观文本的内容与互评分数进行比较,从而计算出客观、准确的成绩。这些研究均在一定程度上保证了同伴互评结果的客观性和公平性。

二是利用自然语言处理技术和机器学习算法开发自动化评价工具,对开放性问题的答案、课程论文、研究报告和口语练习内容进行分析,提升教育文本和语言数据的应用价值。例如:Westera W等[10]应用机器学习和自然语言处理技术开发了自动论文评分系统,在保证学生论文评价精准度的同时,大幅度地减轻了教师在线教学的工作量;Zhang L S等[11]运用循环神经网络开发了半开放式简答题评分模型,对七道没有固定参考答案的阅读理解试题中1.6万条答案文本进行自动化评分,结果发现该模型优于以往的封闭式问题评价模型;Zhai X M等[12]开发了科学教育评价模型,对学生所建立的科学模型及相关文本描述进行自动化评估,以帮助教师更加精确、高效地把握学生对科学知识的掌握情况,结果表明机器给出的分数与人类专家给出的分数高度一致;Hunte M R等[13]构建了儿童口语自动评分模型,并呼吁学界关注不同语言背景下人机语音评分的差异及语言材料对儿童复述故事能力的影响。

三是基于评教文本和学习日志全面、客观地评价教学质量。针对MOOC学习者规模大、问卷调查耗时费力且回复率低等问题,学者进行了相应研究。例如:Tzeng J W等[14]基于深度神经网络开发了课程满意度评价系统,并根据MOOC学习行为日志精准评价学习者对教师教学的满意程度;Lin Q K等[15]基于机器学习算法开发了评教文本的挖掘模型,对学生关于教师教学活动的短评内容进行观点提取,以弥补预试问卷对教师教学过程考察不足的局限性,提高学生评教的全面性和准确性,结果表明在学生评论情感分类任务中,该模型准确率达到84.78%;Nilashi M[16]利用数据挖掘技术对MOOC学习者的学习评论进行了文本分析,并结合问卷调查探讨了MOOC学习满意度的影响因素,包括课程可理解性、课程价值性、课程信息量、课程结构、课程内容新颖度和课程教学质量等。

四是利用机器学习技术支持题库创建与优化。例如,El-Alfy E S M等[17]构建了优化试题的溯因机器学习模型(abductive machine learning),利用溯因网络(abductive networks)模拟考生答题,并统计考试数据,分析答题情况,自动识别题库中信息量最大的试题子集,进而生成数量少、质量高的试题集。研究表明,该模型不仅适用于GRE、TOEFL和GMAT等国际或国家级别的考试,而且可用于学校期末考试等小型测验。

2.4.2 基于教育数据挖掘和学习分析技术的过程评价

过程评价强调教与学的情境性和评价者与评价对象之间的交互性。通过对学习过程的实时监测和智能评估,教师能够及时了解学习者的学习情况,发现学习问题,预测学业风险和学习绩效,并为其提供即时反馈,推送个性化学习资源,实施个别化学习指导,驱动学习者自主学习,促进学习过程与评价过程的深度融合。相关研究体现在以下三个方面:

一是基于自适应的个性化学习,即对学习者的学习过程进行动态跟踪与智能诊断,实时提供自动反馈与精准干预,促进其个性化学习。例如:Yang C W等[18]开发了智能化程序教学系统,对小学生的数学解题步骤进行自动诊断,并为学生提供即时反馈,促进其自主学习;Chen C H等[19]构建了具有即时反馈功能的交互式英语学习环境,通过智能语音识别系统对学习者口语水平进行实时监测和自动评估,为其自定步调开展口语训练提供支持与帮助;Kose U等[20]利用人工神经网络模型构建了智能化电子学习系统,对学习者的编程水平进行自动化评估,并根据评估结果为其提供个性化的学习材料;Huang C J等[21]基于支持向量机算法构建分类器,结合有效学习时间、与学习主题高度相关的讨论信息和作业中的抄袭行为三种参数,对Moodel平台中学习者的学习日志进行分析,以了解不同学习者的学习过程,促进其个性化学习;Bonneton-Botté N[22]开发了幼儿书写技能的智能评价程序,用来记录和描述幼儿使用电子笔书写时的笔迹特征,并据此为其提供实时的个性化反馈,以改善其书写水平。

二是基于学习分析的学业风险预测,即结合机器学习算法构建分析模型,追踪学习者的学习行为表现,力求对其学习绩效进行有效估计和准确预测,及时发现具有潜在风险的学习者,对其实施个别化干预,以达到提升学习效果、降低辍学率之目的。在预测指标方面,学者将在线学业成绩的影响因素分为三类,即行为性因素、过程性因素和策略性因素。例如:Luo Y Y等[23]利用随机森林(random forests)算法构建了学习成绩的通用预测模型,指出该模型可用于不同学科和不同层次的学习群体,并通过混合教学实验证明学习者观看教学视频数量与时长、提交作业次数、参与调查次数、发布讨论次数、回帖次数和收到回帖的数量等行为数据是预测学业成绩的重要指标; Monllaó Olivé D等[24]提出了监督学习框架,预测具有辍学风险的学习者,结果表明学习者在论坛中发表的内容、课程参与情况、测验完成情况、课程注册日期与开课日期等数据对学习者在线学习结果预测均有影响;Asselman A等[25]开发了融合脚手架策略的智能导师系统,一方面帮助学习者解决学习过程中的难题,另一方面对其使用脚手架的行为进行探索,以考察学习支架对学业表现的影响作用,结果表明引入使用脚手架策略的评价模型预测精度更高。在预测模型选择方面,Mason C[26]认为准确性、敏感性、特异性和总体结果是影响预测模型性能的重要因素,并据此对逻辑回归、概率神经网络(PNN)和多层感知器神经网络(MLPNN)三种算法的有效性进行了综合比较与评估,结果表明PNN的预测效果最好;在教学干预方面,Rodríguez C M E[27]开发了智能推送系统(intelligent nudging system),预测具有辍学风险的学习者,并根据风险等级,为其自动推送相应的学习资源和干预措施。

三是融合机器学习的情绪识别,即实时监测与评估学习者情绪变化,并提供适当干预,帮助其调节负面情绪,集中精力开展学习。例如:Cabada R Z等[28]利用情绪识别技术开发了监测工具,对虚拟环境下学习者编程学习情绪进行实时评估,并将其划分为兴奋、投入、受挫和厌倦四种类型。Liu X Y等[29]基于监督学习和强化学习算法开发了智能学习系统,并结合便携式脑电图设备收集学习者在E-learning环境下的脑电波,以此为依据分析学习者的学业情绪,为其推送个性化学习内容,在一定程度上提升了其在线学习满意度。

2.4.3 大数据和智能导师系统支持下的增值评价

增值评价不仅注重对学习成绩进步幅度的考察,而且关注学习成绩以外特定能力或状态的监测,对评价指标与测评模型均具有较高要求。利用大数据和人工智能技术可以对学习过程中的全样本数据进行采集,并通过较为复杂、精准的算法模型对数据集进行分析,明确各个变量和评价指标间的相互关系,从而更加方便、快捷、清晰地捕捉学习者能力或素养的最新状态,构建学习者个性化数字画像,把握其能力素养的差异化增值水平。

求助是学习者自我调节学习的主要策略之一。求助行为是学习者自我调节学习能力的重要表征和评价指标。基于此,Aleven V等[30]构建了学习者求助认知模型(help-seeking model),并将其嵌入智能导师系统,对学习者在智能学习环境下的求助行为进行分析与评估。研究表明,该模型不仅可以用于长时间、细粒度、大规模的数据采集,而且能够以无干扰的伴随方式对学习者在自然状态下的学业表现进行自动化评估,有助于教师及时了解学习者在不同学习阶段的求助行为及变化情况,并为其提供适当反馈,提升其学习质量与自我调节学习能力。与其类似,Baker R S等[31]基于数据挖掘技术开发了“逐刻学习曲线”(moment-by-moment learning curve)工具,并以大学遗传学智能辅导系统中的学习者为研究对象,对其学习进程进行长期跟踪,通过对不同时间段知识技能状况的逐点标记和可视化分析,揭示学习随时间推移发生的各种变化,进而综合多种形式的数据编码,生成学习者在不同学习阶段的数字画像,发掘学习者知识结构中稳步增长的因素,为其后续的学习准备(如未来几周内)提供指导性建议。

2.4.4 人机评分一致性研究

相关研究[32]表明,人机评分一致性是智能化测评工具信效度检验的重要指标,具体是指机器和人类专家为测试数据分配分数的相互接近程度。如果机器能够像人类专家一样学习并使用经验,那么人机评分结果将具有较高的一致性。另外,有关学者[33]对110项机器学习赋能科学教育评价的研究成果进行了元分析,结果表明科学教育中人机评分一致性的影响因素可归纳为算法模型、监督学习类型、测评方式、数据结构、学科领域和学校层次六个方面,其中算法模型和学科领域是关键因素。

2.5 突现词与研究前沿

突现词是在一定时期内频次变化较快的关键词,亦是识别某领域研究前沿的重要指标。文章运用CiteSpace对文献关键词进行分析,并将“Minimum Duration”设置为2年,发现近年来人工智能赋能教育评价研究的突现词为机器学习(machine learning,ML)和自然语言处理(natural language processing,NLP),如图3所示。

图3 人工智能赋能教育评价研究的突现词

通过“Node Details”查看突现词的施引文献发现,当前人工智能赋能教育评价的研究前沿为机器学习和自然语言处理技术支持下的教育文本和语言数据的挖掘与评价研究。机器学习是人工智能的核心技术,亦是促进计算机形成人类智慧的关键技术,通过“指导”计算机“学习”数据,“训练”算法,探索数据间相关性,发掘知识模式,力求使计算机模拟人类思维或实现人类学习活动。自然语言处理是人工智能领域的另一个重要研究方向,主要探究人类与计算机之间如何通过自然语言进行有效通信与交流的方法和技术,包括语音、语法、语义及语用等多维度操作。在自然语言处理模型中嵌入机器学习算法,如深度神经网络、监督学习和集成学习等,有利于计算机自动学习教育文本的语言特征,掌握高层次的语法和语义,提取有用信息,完善自然语言的分类和理解过程,提升教育评价的合理性与准确度。目前,相关研究主要包括两个方面:一是开发文本挖掘模型或评价工具,对质性数据进行量化分析与自动评分,主要涉及学生评教文本、开放式或半开放式问题的答案、课程论文、研究报告和口语练习等研究对象,这些在前文已有论述;二是构建“质性文本→量化数据”的转化模型,为教育评估制度有效性的实证研究提供参考依据。例如,Rybinski K等[34]对2012—2018年间英国高等教育质量保证局(QAA)的98项高校教学质量认证报告进行了自然语言处理,并提取报告文本的语义特征加以量化编码,然后基于编码后的特征变量和学生对大学教学质量的等级评分,探究了高等教育质量认证机制与学生学习体验之间的回归关系,不仅比较了各项认证报告的有效性、指导性和参考价值,而且引发了公众对英国大学认证制度的深刻反思。

3 研究启示

3.1 总结与反思:立足研究现状与现实需求,多角度推进教育评价的转型升级

在人工智能时代,尤其是在以ChatGPT为代表的生成式人工智能的驱动下,教育评价改革需要形成“思维比知道重要、问题比答案重要、逻辑比罗列重要”的新理念和新思路[35]。然而,中国教育评价长期存在方式简单初级、手段传统落后、内容片面僵化、标准单一匮乏和主体狭窄局限等诸多问题[36],侧重对学习者知识记忆、理解和再现等低阶认知能力的评价,缺乏对学习者问题解决、意义建构、批判性思维和创新能力等高阶思维与核心素养的考查,对学习态度、情绪调节及合作探究等非认知特征评价的关注度亦不够,并表现出“重结果、轻过程、欠发展”的失衡现象。人工智能技术为教育评价的变革发展和转型升级赋予了新手段和新动能,更加强调学习结果的自动化、客观性和全面性评价,同时重视高阶思维、学科素养和非认知特征的过程性、增值性与综合性评价。基于国际研究现状,并结合国内教育评价改革的现实需求,该文从结果评价、过程评价、增值评价和其他研究等不同角度总结了人工智能赋能教育评价的研究方向、核心技术与研究方法,并对未来研究取径进行了深刻反思,如表3所示。

表3 人工智能赋能教育评价的研究方向与研究取径

3.2 交叉与融合:基于跨学科意识与思维,推动研究范式和思路的转变

从国际研究现状来看,人工智能技术对教育评价的助力主要得益于教育学、心理学、社会学与计算机科学等学科领域理论、方法、技术和实践成果的交叉渗透和融合创新。这在一定程度上表明了跨越学科边界的科学思维可以作为推动人工智能赋能教育评价之前沿研究的内生力量,有助于智能时代教育评价研究范式的转变、研究思路的更新和研究成果的转化。然而,目前国内相关研究多源于教育学和教育技术学领域,跨学科研究较少,理论研究较多,设计开发和实践应用等研究较少[37]。少数学者开展了智能教学系统与评价工具的开发研究,但均处于初步探索阶段。例如:有学者提出了基于学科知识图谱的认知评估方法,仅以知识获取为评价导向,并未涉及学科能力和学科素养测评[38];还有学者对智能化评价系统进行了设计研究,但仅限于系统模型的构建,没有付诸实践应用[39]。为此,基于智能时代应有的跨学科研究意识与研究思维,逐步推动中国教育评价研究范式和研究思路的转变,显得尤为重要和必要。这需要加强人工智能与教育相关领域及各类人员的交流与合作,构建包括理论研究者、教学实践者、自主学习者、教育管理者、技术开发者和学科专家在内的协同创新平台与科研共同体,以促进人工智能核心技术与研究范式和教育科学独特规律与评价模式的交叉融合,从而实现人工智能对教育评价科学、有效的赋能。

3.3 引领与创新:构建智能教育评价体系,促进理论研究、技术应用和制度建设的同向同行

人工智能赋能教育评价并不是追求智能技术应用的量变,而是要以创新为引领,触发智能技术应用的质变,推动教育理论、评价实践和技术升级的深度融合与协同创新,并在相应体制机制的支持下促进评价理念、评价模式和评价生态的重塑与再造。目前,中国人工智能对教育评价的赋能已初显成效,但总体上还处于探索阶段,研究和实践问题颇多。例如:过于追求数据规模与技术应用[40];数据安全隐患与算法伦理风险凸显[41];个案研究成果显著,但普适性和推广性程度不高[42],等等。这些问题的共性诱因很可能在于智能时代的教育评价仍是一个新兴领域,其创新程度尚未达到较高水平,并且缺乏相应的理论基础、标准规范、方法手段、政策支持与制度保障,更没有形成较为完善的评价体系和稳健的评价模式。为此,智能时代教育评价改革之持续且深入推进亟需以创新为引领,构建既能满足现实教育需求、又能适应未来教育生态的智能教育评价体系,推动教育评价理论研究、技术应用和制度建设的统筹发展、动态联动与同向同行。首先,在基础规律层面,需要加强教育教学和人工智能的理论研究,为探索智能环境下的知识学习特征、能力形成过程、思维发展路径、教育教学本质和教育评价理念提供理论依据,并促进智能时代新知识观、新教学观和新评价观的构建与发展;其次,在教学实践层面,需要围绕新时代的课程标准、人才培养目标、学科特征和教育评价需求,加强智能化教学系统、学习环境和评价工具的设计、开发与应用研究,创新教与学的活动形式、评价模式及指标体系;再次,在体制机制层面,需要以提升教与学效果、效率和效益为目标指向,加强智能时代教育评价政策的顶层设计、制度建设和伦理规范研究,建立健全智能教育评价的保障机制,同时规避与防范测评技术应用的数据安全和伦理风险。

人工智能何以赋能教育评价——基于国际研究热点和前沿的分析与启示