贾积有,乐惠骁,张誉月,刘怀亚,陈昂轩,李姗姗
(北京大学 教育学院 教育技术系,北京 100871)
面向中小学生的智能评测和辅导研究至关重要。这体现在近两年中央颁布执行的一系列关于学生评价和减负增效重要政策文件中。2020年10月,中共中央、国务院印发了《深化新时代教育评价改革总体方案》[1],在“改革学生评价,促进德智体美劳全面发展”一节中,强调“构建引导学生德智体美劳全面发展的考试内容体系,改变相对固化的试题形式,增强试题开放性,减少死记硬背和‘机械刷题’现象”。2021年7月,中共中央办公厅、国务院办公厅印发了《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》[2],简称“双减”,提出了若干减负举措,比如在“二、全面压减作业总量和时长,减轻学生过重作业负担”一节中,强调“严禁给家长布置或变相布置作业,严禁要求家长检查、批改作业。分类明确作业总量”,“提高作业设计质量。发挥作业诊断、巩固、学情分析等功能,将作业设计纳入教研体系,系统设计符合年龄特点和学习规律、体现素质教育导向的基础性作业。鼓励布置分层、弹性和个性化作业,坚决克服机械、无效作业,杜绝重复性、惩罚性作业”。“加强作业完成指导。教师要指导小学生在校内基本完成书面作业,初中生在校内完成大部分书面作业。教师要认真批改作业,及时做好反馈,加强面批讲解,认真分析学情,做好答疑辅导。不得要求学生自批自改作业”。
以上两个重要中央文件指明了我国学生考试和作业改革的方向。考试可以评测学生学习效果,而作业是在帮助学生巩固所学知识的同时,帮助老师和学生自己诊断学情;考试和作业都是为了让学生学习得更好。
在这些政策的实施过程中,教育管理者和一线教师还面临很多具体问题:如何改变相对固化的试题形式?如何减少死记硬背和机械刷题现象?如何布置分层和个性化作业?如何在“严禁要求家长检查、批改作业”和“不得要求学生自批自改作业”的前提下,老师能够“认真批改作业,及时做好反馈,加强面批讲解,认真分析学情,做好答疑辅导”?这些问题的解决关系到评价改革、减负增效等重要政策的落地实施,也得到了国内外学者的高度关注。
在传统的学校环境和课堂教学中,一个老师要面对几十个学生,很难解决上述国家政策实施中碰到的问题,也难以很好地贯彻落实中央的文件精神。人工智能技术等现代信息技术在智能评测和辅导领域可以发挥重要作用[3]。学习分析领域期望借助大数据、人工智能、机器学习等前沿技术分析教学过程产生的数据、描述和可视化学习行为、实现个性化的学习资源推送和教学干预,这在近年来随着慕课的兴起、疫情下的在线教育的开展,已成为国内外研究的热点问题之一。柯清超等[4]和周洪宇等[5]建议通过人工智能等前沿技术为学生设计个性化作业、推送个性化教学资源,解决学生负担较重的问题;吴立宝等[6]设计了一个使用人工智能技术进行课堂教学评价的框架。
国际上,Moissa等[7]使用系统调研这一综述方法来研究学习分析领域的国际正式出版物,找到了127篇符合筛选标准的相关论文,然后按照研究目的、数据类型、技术、利益相关者和干预类型进行归类。发现:从研究目的而言,大部分研究(51.4%)主要是监控与分析学生行为,评估与反馈(27篇)、预测(20篇)也不少,但是个性化与推荐(5篇)、适应性(5篇)很少;辅导与指导最少,只有2篇,而且这两篇论文也仅仅是提供了系统框架,并未通过严格的实证研究证明其教学效果。
综合以上文献调研结果可知,国外关于智能评测和智能教学系统的相关研究中,还缺少基于大规模学生学习行为数据的适应性教学系统的研发和应用研究;国内在智能测评领域的研究以理论探索为主,鲜见基于大规模数据挖掘的智能测试系统的实际应用和基于评测结果开展的个性化辅导的实践。
为此,我们设计了学生智能评测和辅导系统,并以初中数学的勾股定理为例,编程实现了一个数学智能评测和辅导系统MIATS(Mathematics Intelligent Assessment & Tutoring System),并在小范围进行了应用测试以验证其效果。本文将介绍该系统的理论基础、架构、功能和应用测试结果。
MIATS借鉴项目反应理论和计算机适应性测试等现代教育评价理论,对学习者的学业能力进行精准、高效、动态的评测;然后基于最近发展区理论,为学习者推荐恰如其分的练习内容;在练习过程中,借助波利亚“怎样解题表”,在其遇到困难时提供及时而详细的教学支架,从而构成一个有效的学科智能教学系统。接下来分别介绍这些理论基础。
教学评价是对教学工作质量所作的测量、分析和评定。学生学业成绩的评价是教学评价的重要组成部分。项目反应理论(Item Response Theory, IRT)是评价学生学业表现的一种代表性理论。相比于经典测量理论(Classical Test Theory, CTT),IRT具有更好的统计学假设基础以及更快的测量速度。CTT的基本思想是把测验的得分X(观察得分)看作真分数T和误差分数e的线性组合X=T+e,其中X是观测分数,T是真分数,e是误差分。传统信度、效度、项目分析的原理与方法均建立在这一简单的模型之上。在CTT的模型中,T是永远无法被实际观测到的,这也意味着这一模型永远无法得到实证数据的支持。相对应地,IRT则建立在一系列已被统计证据证实的强假设的基础上[8]。
在IRT中,一般用θ表示被试的潜在特质(Latent trait)。θ的理论取值范围是整个实数域。IRT理论的核心是项目特征曲线(Item Characteristic Curve),即被试正确作答某一测验项目的概率是潜在特质的一个函数,该函数所呈现的形态即为项目特征曲线。对于一个最简单的二值作答题项(Dichotomous Item),被试m在第i个测验项目上的正确反应概率是:
公式(1)被称为三参数模型,其中,xim表示第m个被试作答第i题的反应,1为正确,0为错误。θm是当前被试的能力值,ci为试题的猜测参数,ai为试题的区分度参数,bi为试题的难度参数。猜测参数代表能力值极低的被试通过猜测做对当前试题的概率,区分度参数代表当前试题区分低水平被试与高水平被试的能力,难度参数代表当前试题的难度。
公式(1)中的函数g常见的形式是Logistic函数[9],这种模型也经常被称为三参数逻辑斯蒂克模型(3 Parameter Logistic,3PL),这正是MIATS所采用的模型。
相比于CTT需要学习者做完整套试题的繁琐测验步骤,IRT能在计算机的帮助下,通过选择最能反应当前学习者能力的试题,更快地得到学习者的真实能力,这就是计算机自适应测试(Computerized Adaptive Test,CAT)。学习者在开始测试之后,系统选择包含当前学习者水平信息量最大的题作为测验题,根据学习者的作答正误更新当前对学习者水平的估计,如此循环,直到估计的误差收敛到可接受的范围内[10]。这一测量技术已在托福、PISA等大规模测试中得到了广泛而成熟的使用。
MIATS利用IRT与CAT对学习者的能力值进行快速测量,相比于传统测试大大减少了测试所需的时间和题量,同时其测量结果有更好的信效度;在IRT理论基础上,系统可以基于学习者测试结果以及题目的项目反应参数预测出当前学习者作答系统中所有试题的正确率,在此基础上实现最近发展区视角下的试题推荐。
最近发展区(Zone of Proximal Development, ZPD)是前苏联心理学家维果斯基用来说明儿童智力发展而提出的概念[11]。他认为教学不仅应该考虑儿童已经达到的水平,而且要考虑儿童经过努力可能达到的水平,只有当教育走在发展之前时,才是好的教育。他主张教师要重视学生学习的最佳期限,不应盲目拔高或迟滞,以免错过最近发展区。儿童现有水平与经过他人的启发帮助可以达到的较高水平之间的差距,就是“最近发展区”。我国古代的“因材施教”理论也认为由于先天素质和后天环境及所受教育不同,学生的智力存在着个别差异,教师必须针对个别差异,进行区别对待,因材施教。一方面在教学的广度、深度、进度上要适合学生的知识水平和接受能力,另一方面必须考虑学生个性特点,尊重个别差异。
在传统教学中,教师通过一定的辅导提示和支架来帮助学习者超越其现有的认知层次。学习者在独立解决问题的过程中会获得成长进步,这就是最近发展区的动态变化。然而不同学习者的能力具有差异,最近发展区都不同。教师对个别学生的教学干预可以进行,但针对全班学生就无能为力。智能教学系统可以充分利用其技术优势,基于最近发展区理论,针对学习者做题情况进行及时的提示、指导、鼓励等,培养学习者的自主性与探索性,满足学习者的个性化差异。
数学家波利亚围绕怎样解题、怎样学会解题开展了数学启发法研究,设计了“怎样解题表”,通过四个阶段、以具有启发性的十五条建议和二十三个问句分解题目解法的思维过程。该思想的要点可以概括为:程序化的解题系统、启发式的过程分析、探索性的问题转换[12]。按照正常人解决问题时思维的自然过程分成四个阶段——第一步:理解题目;第二步:找出已知数据与未知量之间的关系,得到一个解题方案;第三步:执行解题方案,检查每一个步骤;第四步:检查已经得到的解答并回顾总结,尝试用其他方法得到答案[13]。相比于传统的题海战术,波利亚解题法不强调题目数量而侧重题目的质量,通过几个有意义的题目,让学习者打通对多个知识点的认知,引导学生自己探索一般性的规律,目的是提高学习者的数学素质和解题能力,有效避免为了应考所出现的“高分低能”学生[14]。
智能教学系统是模拟优秀教师,在某门学科、某个领域或者知识点对学生进行智能教学辅导的人工智能技术,是人工智能技术与教育结合最深入全面的一个研究领域,也可以说是教育领域的专家系统[15][16]。它一般包括四个模块:教师知识模块、学生特征模块、教学理论和方法模块、人机交互模块。为实现智能辅导的功能,它综合采用知识表示、自然语言处理、智能代理、多通道交互、数据挖掘等多项人工智能技20世纪60年代以来,各个学科和学段的智能教学系统不断涌现并在教学实践中得到应用。教育研究者通过准实验等教育研究方法验证了智能教学系统对学生学业表现和核心素养等多方面的正向促进作用,也通过元分析等文献综述方法对已有的大量实证研究进行了概括总结,指出了智能教学系统和传统的一对一的家教式辅导的效果差别不大[17]。
我们基于项目反应理论和适应性测试理论,分析已有的学科在线系统积累的海量学生练习等行为数据,运用极大似然估计等算法计算题目难度、区分度和猜测系数等多维参数,并链接这些参数,基于这些参数设计了适应性测试系统[18]。适应性测试就是通过这种技术不断探索和发现、逼近学生最近发展区的过程。
智能辅导系统则是让学生使用该适应性测试系统进行某个领域知识的前测,得出该生在这个领域的能力值,然后基于这些能力值进行智能辅导;辅导过程针对前测中的错误,考虑到学习者的学习风格等个性特点,由栩栩如生的虚拟老师陪伴学生,进行语音讲解[19],并基于我们提出的学生在线学习活动指数(Online Learning Activity Index:OLAI)[20]对学生进行积分激励,直到学生消灭所有错误为止;然后通过同构异数的后测题目,再次检测学生对领域知识的掌握程度、而不仅仅是对被辅导题目的掌握程度。后测题目可借助内容文本语义相似性等自然语言处理技术,从已有题目中搜索得出,也可以由教师手工编制产生。这样“前测-辅导-后测”一体化的螺旋式上升,适应于学生的知识基础,有助于学生查漏补缺、巩固提高。这种智能辅导系统就是通过人工智能技术来实现波利亚解题思想的。
系统架构用B/S(客户端/服务器)模式。服务器端采用APACHE Http服务器,使用PHP语言编程,数据库采用MYSQL数据库管理系统。客户端可以是微机、笔记本电脑、平板电脑或者智能手机;用户通过谷歌浏览器访问服务器网站,登录后即可使用系统功能。
该系统架构如图1所示。下面依次介绍该系统的五个主要功能模块及其关键实现技术:在线大数据挖掘、适应性智能评测、基于前测结果的智能辅导、基于前测和智能辅导的后测、螺旋式上升的评测和辅导一体化。
我们基于一个数学在线教学系统“乐学一百”[21]所积累的10万多名学生在7年内的6亿多条做题记录,采用高性能超算设备,计算出近6万道初中和小学数学试题中,每道题目的以下参数:
(1)完成时间均值、中位数和标准差,从而获得大部分(95.4%)学生完成题目的时间区间范围,即[均值-2*标准差,均值+2*标准差];
(2)在线学习活动指数OLAI及其三个维度(质量、速度和数量)的数值;
(3)经典测试理论下的区分度和难度;
(4)项目反应理论下的三参数模型中的区分度(a)、难度(b)和猜测系数(c);
(5)每道题目文本内容基于词频-逆文件频率(TF-IDF)提取出来的数学关键词;
(6)由(5)出发,还计算了不同题目文本内容基于TF-IDF的余弦相似度,不同题目基于这个文本相似性的聚类结果等。
这些参数都被保存数据库中,是智能评测和辅导的基础数据。
关于某个知识点的智能评测,是依托关于这些知识点的题目库进行的。比如关于初中数学的知识点“勾股定理”,我们筛选出了123道典型题目,构成“勾股定理”题库。
智能测评是在CAT技术的基础上实现的,对于一个学习者关于“勾股定理”知识和技能的掌握程度,智能评测系统会假设该学习者初始能力值为学习者群体的平均值;然后遍历题库的所有题目,找出对于这个能力值来说信息量最大的一道题目,测试学习者;学习者完成该题目并提交答案后,系统将该答案与标准答案进行比较,计算出该生新的能力的估值;然后,遍历题库中该生没有做过的所有题目,找出对于这个估值来说信息量最大的一道题目,再次测试学习者;如此循环,直到满足以下终止条件之一,前测结束,该生关于该知识点的最终能力值可以被确定:
(1)连续四次题目的能力值之间的差异绝对值小于0.1,相对稳定;
(2)标准误差小于0.1,相对稳定;
(3)题库中所有题目都被用过了。
如果前测得到的最终能力值为理想最大值,就意味着学生做对了所有测试题目,所有测试题目都无错误答案,那就没有必要再学习和巩固这个知识点了。否则,学生在前测回答中出现过错误,就要复习巩固,进入练习环节。
在练习环节,系统会依次让学生自己重做前测中出错的题目;如果学生能够自己做对,则给与虚拟货币形式的积分奖励,奖励多少与完成该题目的在线学习活动指数OLAI数值成正比,即完成越快奖励越多。如果学生花费时间较多,超出了该道题目大部分学生的做题时间,即做题时间大于(该题目做题时间的均值+2*做题时间的标准差),则不予奖励。
如果学生自己未能做对该题目,则系统会出现提示和帮助;提示和帮助包括两种类型,第一种是通用型提示,第二种是引导型帮助。
通用型提示是关于解决该题或者某个具体选项的一般性相关定理、公理、结题思路或者相关例子的提示;目前最多给出五步,从抽象到具体逐步启发学生解决问题。为了方便一般教师、助教等设计通用型提示,我们设计了基于WEB的通用型提示的编辑器。
如果根据通用型提示,学生会解决问题了,则该题目的练习和辅导结束,系统也会基于OLAI数值给予相应的虚拟货币奖励;否则,这就表明学生在这道题目上需要更详细的针对性帮助,系统就给出引导型帮助。
我们模仿优秀教师辅导教师的过程,针对“勾股定理”题库每道题目具体内容,采用脚本设计法,设计出引导型帮助,因而交互性、适应性更强,基本可以涵盖学生在解决问题中可能碰到的所有问题。
引导型帮助的最后一步,学生只要具备基本的算术知识,就能得出正确答案了。这时练习和帮助也结束了,系统会给与相应的虚拟货币奖励。
不管是通用型提示还是引导型帮助,都既可以包括文字、数学公式等信息,也可以是图片、微课视频等多媒体形式。
在学生练习和智能辅导过程中,通过键盘输入和鼠标点击选择答案后,在屏幕上看到正确与否的结果提示;还可以看到一个代表虚拟教师的二维动画人物,它可以通过文本方式显示通用型或者引导型提示,也可以通过更加人性化的合成语音的方式给学生读出来这些提示帮助,包括根号、平方等特殊符号和数字的正确汉语朗读。当然,要不要给出语音、给出何种语音提示依赖于学生的学习风格偏好;所以学生可以通过点击屏幕上的按钮打开或者关闭语音合成声音、选择男声或者女生发音。
如果学生允许打开客户端摄像头的话,则系统可以通过人脸识别技术判别是否学生用户本人在做题,通过情感识别技术判断学生的喜怒哀乐等情感状态,然后借助虚拟人物的表情动作、肢体语言和文本及合成语音等多通道信号,表达出相应的情感状态,比如与学生同情、安稳学生等。
总之,练习过程就是通过学生自己的努力、各种类型的适应性提示和辅导,让学生逐步学会纠正前测中出现的错题。
在学生完成练习之后,系统要考察学生是否真正掌握了解题思路和方法,而不仅仅是记住了刚才错题的正确答案,所以就进入了后测阶段。后测题目由前测中出现、也在练习中再次练过的同构异数题目组成。所谓的同构异数题,就是和原题结构相同或者相似,但是其中数字变化的“新”题目。这个“新”仅仅是指数字变化了。如果学生通过前面的练习和提示帮助掌握了正确的解题思路和方法,那么这个同构异数题目就会迎刃而解;反之,如果仅仅是死记硬背地记住了前测中错题的正确答案,则可能会再次出错。
同构异数题目的来源有两个。第一是基于大数据挖掘得到的题目聚类结果,每个题目类簇中的题目都是同构异数题目;当然也可以从其他来源的题目中通过上述的文本聚类方法继续发现新的同构异数题目并加入到已有的聚类结果中。第二是手工编制;为了方便教师编制,我们设计了基于web的同构异数题目的编辑器,它会分析已有题目的特点,引导用户编写出来同构异数题目;这些题目中某些数字会在学生使用中逐渐增大,实际上增加了一定的解题难度。
系统在学生完成后测后,会自动评分,总结前测、练习和后测中用到题目所涉及的知识点的掌握程度,提示给学生;学生可以根据提示继续进行相关薄弱知识点的评测和练习。
通过这样的螺旋式上升的智能评测和辅导,如图2所示,学生逐渐加深对某个知识点的掌握和熟悉程度,并会自动扩展到相关的其他知识点上。对于同一个知识点,图中每次的练习题目范围都在缩小(矩形变窄),相应后测的难度在加大(矩形变高)。这样当某次练习的宽度为零时,表明前测中没有错误,不再需要新的练习了,评测和辅导自然结束。
图2 螺旋式上升的智能评测和辅导一体化过程
教师用户可以看到所授班级全体学生的评测和练习总题情况、每个学生的详细情况,便于针对每个学生的特点释疑解惑,因材施教。
针对初中二年级下数学课程中的勾股定理知识,我们初步实现了学生智能评测和辅导系统,包括关于勾股定理的123道练习题目;然后进行了初步测试和应用,以期回答三个问题:
(1)适应性测试的结果是否真的个性化了?
(2)适应性测试的结果与传统测试的效果是否相同?
(3)适应性测试和辅导对于学生的学习效果是否有促进作用?
因为这些题目来自数学在线教学系统“乐学一百”,为了回答前两个问题,我们从这个平台上获取了完成全部123道题目的学生的数据,分析后发现共53个学生。他们来自全国各地,具有代表性。我们设计了一个模拟实验:假设让这些学生参加适应性测试,他们在每道题目上的表现就是之前的实际记录,最后的结果会是什么样呢?我们通过编程实现这个模拟实验,深入分析实验数据后发现:53人最后连续四次题目的能力值之间的差异小于0.1,相对稳定,因而适应性测试结束。
所有53个学生的做题数量不超过19道,最少为4道,均值为6.9,中位数为6。也就是说,平均而言,每个学生仅仅完成了全部123道题目的7道,占比5.7%。
在这些学生做过的题目中,不同的题目为28道。其中,只有起始的第一道题目被所有学生都做过,其他题目则最多被38人做过,有6道题目仅仅被1人做过。
53个学生做题路径中的题目序列都不相同,差异很大。
总之,适应性测试的结果完全个性化了、因人而异。
53人所完成题目的四个重要指标:最后题目能力值、最后题目传统得分、所有题目能力值均值、所有题目传统得分均值之间的相关系数都在0.8以上,并且统计意义上显著:也就是说,这53人如果真的参加适应性测试,按照能力值进行的顺序排列与按照传统得分进行的顺序排列一致。
总的来说,适应性测试可以给每个学生提供数量和内容都不同的个性化题目,而最后的测试结果与所有学生内容和时间都相同的传统测试的结果一致。
为了回答第三个问题,我们邀请15名来自全国的初二学生应用这套针对勾股定理的智能测评和辅导系统进行学习,收集了前测和后测的传统得分成绩和适应性测试能力值,使用统计方法计算了后测和前测差异显著性T检验P值、后测相对于前测的效果量,结果如表1所示。按照传统得分计算,学生在后测中的表现显著高于前测中的表现(p=0.045<0.05),效果量为0.429,属于中等水平;按照能力值计算,学生在后测中的表现高于前测中的表现,差异边缘显著(p=0.089>0.05),效果量属于中等水平。所以说,适应性测试和辅导对于学生的学习效果具有促进作用。
表1 前测和后测成绩统计
我们基于智能教学系统研究成果、从最近发展区等理论出发,借助大数据挖掘、自然语言处理、多通道人机交互等人工智能技术,设计开发了一个学生智能评测和辅导系统,并进行了基于初中数学勾股定理知识点的初步测评;测评结果表明,该系统能够给每个学生提供个性化、适应性的智能测试和辅导;在减少时间的前提下,其对学生的评测效果与传统的所有学生内容和时间都完全一样的测试方法的效果一致,对学生的正面辅导效果也比较显著。对于学生而言,该系统可以准确生成学生评价结果,实时了解每个学生的知识薄弱点,对症下药,给学生及时的反馈和恰当的帮助,使其举一反三、能力素质螺旋式上升,减少机械性的重复刷题时间。对于教师而言,系统可以自动反馈班级整体和所有学生的学习状态,减少其手工布置作业、设计考卷、评判作业和试卷的大量时间;当然更不需要家长帮助批改和辅导作业、学生自批自改作业了。
在落实国家教育评价改革、减负增效等重要教育政策背景下,如何培育核心素养,如何减轻学生的学习负担和教师的教学负担,怎样精准测评和因材施教,这些是教育研究者和实践者都需要面对的重大课题。目前国内在智能测评方面的研究多停留于理论层面,基于评测结果开展个性化辅导的技术开发与实践少有研究。我们的研究探索抓住了教学的难点和疼点,有重要的理论意义和很强的实践应用价值。
从理论意义上讲,我们提出并实现的智能评测和辅导模型真正实现了过程性评价、结果性评价和增值性评价的三位一体,螺旋式上升的智能评测和辅导一体化过程保障了以测促学和练中有测,为促进学生德智体美劳全面发展的综合素质评价进行了有益尝试、提供了重要参考。
从实践价值上说,我们的研究成果可以为贯彻落实教育评价改革和“双减”等国家政策提供成熟可靠的智能技术方案,也具有很强的推广应用价值。我们研发的智能评测和辅导系统顺应人工智能和大数据等前沿技术发展的潮流,充分发挥了数据要素价值,可以为教育的数字化转型奠定技术基础,为服务新时代教育高质量发展提供了重要借鉴。
如果能够在更多的学校让更多的学生免费使用这样的智能评测和辅导系统,就可以减轻学生的作业和测评负担,减轻教师布置和检查作业、组织考试和改卷的时间和精力。为此,还需要教育管理者、学校教师和学生家长更深入地了解系统功能,更需要政府部门支持并和企业合作,以便开发出不同学科和学段的智能评测和辅导系统,将其应用到教学实践中,为贯彻落实“双减”和学生评价改革等中央政策做出贡献,助力教育均衡发展[22]。