董建文 张一春 胡 燕
(1.南京审计大学 金审学院,江苏 南京 210023;2.南京师范大学 教育科学学院,江苏 南京 210024)
学习结果预测主要依据历史和当前的学习活动特征对学习者未来的成绩等结果表现进行预估,以优化学习过程、改善学习成效,促进学生个体能力发展和学习成功。[1]Kevin Pelaez等提出隐类森林算法来识别高校学习瓶颈课程失败几率大的高风险学生,在教学过程中,通过同伴主导的学习干预,协助他们通过课程考试。[2]Johannes Berens等运用AdaBoost算法开发了早期检测系统,预测存在退学隐患的高风险学生。[3]陈佳明等采用加权投票机制集成最优算法预测期末成绩。[4]张麒增等运用神经网络、支持向量机算法利用学生十次课的座位信息、前两年的平均成绩预测课程最终成绩。[5]已有研究表明学习结果预测通常有两种应用情境:(1)在课程教学过程中利用学生课堂座位信息、提问次数等学习数据进行预测;(2)学生入校一段时间后基于前导课程成绩等数据进行预测。
学习结果预测转变学生学习失败之后的补救策略为学习过程中的辅助策略。为教师熟悉学情特点、提高教学设计科学性、优化教学效果提供数据支持。预测为高风险的学生,借助“精准帮学”红利,顺利完成课程学习,提升学习效率,增强学习信心。高校开展学习结果预测,能够提供智慧型信息服务[6],促进构建智能化、个性化的教学体系,合理分配教学资源,提高教学质量,为创新人才培养模式提供有力支撑。
学习结果预测是教育大数据分析挖掘的重要应用。教育数据挖掘致力于开发分析方法,以探索教育环境中独特且日益庞大的数据,并使用这些方法更好地了解学生及其学习环境。[7]我国教育数据挖掘学术研究起步较晚,理论研究数量远超实践探索,解决教育问题的实证研究相对国外较少。[8]
数据挖掘方法和教育大数据是教育数据挖掘的两个核心。教育数据挖掘方法有统计分析与可视化、聚类、预测、关系挖掘和文本分析五类,其中预测和关系挖掘应用最广泛。[9]教育大数据分析工具有Python程序、R语言、SQL数据库等。运用数据挖掘方法和工具需要较高的专业技能,因而限制了实践应用的广泛开展。一些计算机领域的学者改进算法来挖掘教育数据,由于忽视教育数据的特殊性并且缺少教育教学理论支持,所构建的模型难以解释教学规律[10],例如利用学生整个学期的作业分数预测期末成绩,期末才能收齐数据,即便模型预测结果很准确,对教学发挥的作用也是有限的。大数据时代数据种类多、来源广,各类传感器、物联网能够快速采集、传递数据;网络爬虫可以自动搜集目标数据;API接口快速对接各种信息系统获取数据。但是问卷调查、网教平台和信息系统依然是当前教育大数据的主要来源,以结构化为主、样本量较小、类型单一、存在缺失或冗余的教育数据会影响分析结论的信度和效度。
学习结果预测包括发现问题、收集数据、建立模型和提供决策四个阶段。首先明确教育教学问题,并转化为待解决的数据分析挑战;然后完成教育数据采集、清理任务,生成高质量的充足数据;再确定构建模型的方法、技术,探索教育数据变量之间的关系以挑选关键变量,构建、实施模型并检验预测效果;最后提炼预测模型的分析结果形成决策,以解决问题。各阶段相互影响、循环迭代,例如模型预测效果不理想,可以重新收集数据训练模型或选择新的建模方法。
建模作为学习结果预测分析的重要环节,关键在于选择恰当的方法。决策树方法灵活且易于可视化,被普遍用于数据分类。决策树使用树形结构指定决策与结果的序列,对于给定的n个自变量X={x1,x2,…,xn},预测因变量Y。预测通过节点和分枝构造的决策树实现,在决策树的每个节点上,挑选一个特征分枝并向下遍历树,遍历最终达到一个终点,随后做出决策。图1展示了由m个样本、n个变量构成的数据基于算法生成决策树的简化过程,每个节点都会测试一个特定的变量,每个分枝表示所做出的决策,没有下级分枝的叶子节点返回概率。[11]
图1 决策树分类方法
微积分是某应用型高校经管类专业新生的一门公共基础课,所有专业按照同一教学大纲组织教学,期末采用相同试卷和评分标准进行考评。课程成绩由35%的平时成绩和65%的期末考试成绩构成。
修学微积分课程学生数多、失败率高,是该校一门典型的瓶颈课程。2017级至2019级修课学生占学生总数的67%,初修期末成绩不及格率高达49.8%,计入平时成绩后依然有20.5%的学生课程成绩不及格,未通过补考需重修的学生数也居高不下。2017级和2018级部分学生经过反复重修仍然不及格,重修2次及以上仍未及格人数占所有未获得课程学分人数的比例超过10%。反映出大一新生对微积分基本概念的理解有较大困难,迁移应用能力较差。[12]我国高等教育由精英教育转向大众教育,应用型高校扩招后生源素质下降,再加上教学资源比较紧张,微积分课程教学质量下降,已成为学生学习和升学的较大障碍。[13]
微积分课程学习结果体现了学生学业水平。按照课程成绩通过情况,把2017级和2018级共3219名学生分成初修通过(a类)、重修通过(b类)和重修未通过(c类)三类。计算每个学生的平均学分绩点(GPA)专业排名比值GPAb,GPAb=每个学生的GPA专业排名/所在专业学生数,GPAb∈(0,1],值越接近0,学生在本专业的GPA排名越靠前。按专业分类汇总三类学生的GPAb均值,样例见表1。对11个不含空值的专业汇总数据进行Shapiro-Wilk正态性检验,P>0.05说明三类数据均符合正态分布。三类之间两两进行非独立T检验,结果见表2,P值<0.001,说明三类学生的学习状态存在显著差异。绘制箱线图(图2),a类和b类学生的GPAb均值散布较广,且呈正偏态,说明a类和b类学生的GPAb均值低于平均值的人数较多,更多的学生排名靠前;c类学生的GPAb均值呈负偏态,说明c类学生的GPA排名均值高于平均值的人数较多,更多的学生排名靠后。反映了微积分课程成绩不佳的学生,整体学业水平也低。虽然学生的学业水平与学习态度、能力、方法有关,但新生微积分成绩不及格必然动摇其学习信心,知识掌握不牢也会增加后续相关课程的学习难度,重修微积分还占用正常课程的学习时间和精力,给学生带来心理和课业的双重负担。总之,微积分课程会对学生整体学业产生举足轻重的影响,在开课之前预测课程学习可能失败的大一新生,帮助他们顺利完成学习是一项富有意义的创新和挑战。
表1 按专业汇总2017级和2018级三类学生的GPAb均值
表2 2017级和2018级三类学生的GPAb均值差异
图2 2017级和2018级三类学生GPAb均值箱线图
开课前预测新生的课程成绩,可获取的数据有高考特征(高考数学成绩、生源地)、学生和教师的身份特征(性别、年龄)以及教师的专业能力特征(教龄、职称、学历、学生和督导评教)。从教务、招生和评教信息系统中收集2017级至2019级修课学生的特征数据及其平时、期末和综合成绩。去除学籍异动生、高考采用标准分数制的海南省学生后共有4812名学生作为分析对象。各高考生源地、考类的数学总分不同,把高考数学成绩除以相应总分,换算成百分制成绩(以下均为百分制)。将这些特征与学生微积分成绩进行相关性分析。
1.选择期末成绩作为预测模型因变量
由客观公正的期末成绩还是考核全面的课程成绩作为因变量Y,需分析两者的相关性。按照期末成绩的四分位数将其划分成四个分数段,分析各分数段与平时成绩的关系,见表3。四个分数段都有极其显著的统计学差异(P值<0.001)。除[43,60)分数段以外,平时成绩与期末成绩均为中度正相关。[43,60)分数段,期末成绩与平时成绩呈现负性弱相关,学生期末考试分数越低,平时成绩越高。这与课程不及格学生过多,教师普遍调高此分数段学生的平时成绩,将课程成绩上调及格的实际情况一致,可见平时成绩带有主观性,因此选择期末成绩作为模型因变量Y。
表3 期末成绩各分数段与平时成绩相关性分析
2.学生特征与期末成绩的相关性
利用R语言cor.test()函数、pcor()函数检测发现:学生年龄与期末成绩不相关;期末成绩与高考数学成绩之间存在中度正相关;学生性别(男=1,女=2)和期末成绩之间存在微弱的正相关,男生的期末成绩总体低于女生;高考类型(理科=1、综合=2、文科=3)和期末成绩之间存在中度负相关,理科生的期末成绩总体高于综合生,而文科生的期末成绩最低。
表4是对2017级至2019级修学微积分课程学生按照生源地汇总的成绩数据。检验后发现各地高考数学均分不符合正态分布,对生源地高考数学均分和期末均分进行spearman非参数性相关性分析,达到高度正相关(P<0.001,r=0.8),说明高考数学均分高的地区学生期末成绩也较高,反之亦然。
表4 2017级至2019级学生各生源地数学成绩统计
3.教师特征与期末成绩的相关性
承担2017级至2019级课程教学任务共11名教师,按照职称、教龄、学历、性别和督导评教分类描述学生期末成绩的分布状况(表5),其中N为各类教师教授的学生数。为便于比较,把教师教龄、督导评教由连续变量变成分类变量。
表5 2017级至2019级学生期末成绩按教师特征分类统计
对各类期末成绩进行bartlett方差齐性检验,不同职称、教龄、学历、性别教师的期末成绩均满足方差齐性,运用aov函数进行方差分析,各组期末成绩均值差异显著。以男女教师的期末成绩差异分析为例,P值(0.2486)>0.05,说明两类教师的期末成绩满足方差齐性,F检验统计(93.67)远大于1并且差异显著(P<2e-16),说明不同性别教师的期末成绩差别很大,女教师的教学效果较好。图3至图6依次呈现了不同职称、教龄、学历、性别教师的期末成绩均分及其置信区间。
图3 教师职称期末成绩均分及其置信区间
图6 教师性别期末成绩均分及其置信区间
图4 教师教龄期末成绩均分及其置信区间
图5 教师学历期末成绩均分及其置信区间
3290条学生评教数据不满足正态分布,QQ图见图7。1335名学生给任课教师评99.25分(满分100),只有65名学生评教分数低于80,均分96.32,说明学生对教师教学满意度很高。对3837条督导评教数据进行方差分析,F检验统计(1.444)不大,学生评教与期末成绩差异不显著(P=0.23)。
图7 学生评教QQ图
因此选择学生性别、高考数学成绩、高考类型、生源地和任课教师的教龄、职称、学历、性别八项作为自变量X,期末成绩作为因变量Y(表6)。期末成绩的预测结果分为及格、不及格两类,据前述分析将期末成绩>=43分设置为P(正类,代表及格),其余设置为F(负类,代表不及格)。
表6 自变量X、因变量Y名称及取值
分别运用条件决策树、C5.0、随机森林三种决策树算法对课程历史数据进行分类训练,生成自变量影响因变量的规则即分类模型,把新生的特征输入该模型就能预测其课程不及格的风险。[14]
1.运用C5.0决策树算法创建预测模型
把4812名学生数据(NF=1189,NP=3623)按7:3比例,随机分成训练集(N=3368)和测试集(N=1444)。基于训练集使用R语言C5.0函数生成预测模型,利用该模型预测测试集数据,对比预测结果与实际结果检测模型效果。为充分发挥C5.0算法潜力,多次调整函数参数以优化模型效果。
2.进行条件决策树和随机森林建模
分别运用条件决策树cTree和随机森林Forest算法,对同样的样本、变量、训练集和测试集进行分类训练,创建期末成绩预测模型。
1.效果分析
利用C5.0生成的模型分别预测训练集和测试集学生成绩,与真实数据比对来检验模型的预测效果(表7)。以测试集预测效果为例,敏感度表示正类样本,即成绩及格的学生被成功预测的比例是82%;特异性表明负类样本,即成绩不及格的学生被成功预测的比例是69%,说明模型在开课前识别高风险学生的能力较好;正例命中率表明被预测为正类的样本中,预测正确的样本比例,即被预测为成绩及格的学生中,实际及格的人数比例是95%;负例命中率表明被预测为负类的样本中,预测正确的样本比例,即被预测为期末成绩不及格的学生中,实际不及格的人数比例是33%,负例命中率较低说明模型扩大了高风险学生的预测范围,部分实际成绩及格的学生被预测为不及格。由于在新生刚入校,开始学习课程之前实施预测,学习相关变量较少,造成模型鉴别范围扩大。在教学过程中教师可以根据学生学习状况,排除部分预测为高风险学生。准确率表明被正确分类的样本所占比例,说明模型准确率达到80%。[15]
表7 模型的预测效果
用条件决策树和随机森林算法创建的模型分别预测测试集,效果见表7,随机森林模型的预测效果优于条件决策树模型。与C5.0创建的模型相比,cTree和Forest模型的负例命中率显著提高,即被预测为期末成绩不及格的学生中,实际不及格的人数比例提高,说明这两个模型缩小了期末成绩不及格学生的预测范围,但是特异性明显降低,即模型预测期末成绩不及格学生的能力下降了,只有约40%的不及格学生能被识别出来。预测期末成绩不及格学生是创建模型的主要目的,因此C5.0模型胜出。
2.模型应用
在C5.0创建的预测模型中,自变量X对成绩分类结果产生的影响从大到小依次为学生的高考数学成绩、高考类型、学生性别、生源地、教师职称、教龄、教师性别,教师学历几乎没有影响,说明学生特征对成绩影响大于教师特征。预测模型生成的主要分类规则有:(1)高考数学成绩>53.3的学生,及格概率为78.9%;(2)高考理科生及格概率为81.4%;(3)高考数学成绩<=53.33的文科生,不及格概率为69.2%;(4)高考数学成绩>53.3的天津文科生,不及格概率为82.6%,天津学生不及格概率为72.3%;(5)贵州文科生,不及格概率为72.6%;(6)青海学生不及格概率为76.5%;(7)高考数学成绩>48的黑龙江、宁夏、内蒙学生,不及格概率分别为73.8%、70.5%、70.1%;(8)高考类型为综合的广西女生不及格概率为80%;(9)河南、江苏、浙江、江西学生及格概率分别为91.7%、88.5%、74.9%、73.3%;(10)高考数学成绩>42.67的学生,若任课教师教龄>11,及格的概率为77%。从这些规则中发现高考数学成绩53.3是一个重要阈值,任课教师教学时要关注高考数学<53.3的学生。高考文科生比理科生不及格率更高。当学生的数学基础达到一定水平(高考数学>42.67),教师教学经验(教龄>11)对期末成绩影响较大。
任课教师在开课前获得高风险学生名单,根据这些学生的课堂交流、作业测试和在线提问等学习表现,逐步确定需要帮辅的学生,向他们推荐有助于改进学习的资源、任务和经验。[16]预测为高风险的学生可以借助网络课程平台,观看教师推荐的教学视频,得到及时的反馈指导,不断巩固基础知识,切实掌握课程重难点,有效提高学习效率。在开课前对修学微积分课程的2020级新生应用C5.0模型预测期末考试成绩,将结果告知任课教师,并开展一个学期的个性化辅助教学,2020级微积分课程期末考试通过率达到83.4%,提升约30个百分点。
从解决实际教学问题出发,考虑选取典型的瓶颈课,即对学生学业影响大的高难度、高失败率课程作为研究对象。选择或创新解决问题的最优算法,不断调整算法的参数以优化效果,而非只追求纯粹的算法创新。评价模型预测效果的指标也要针对问题需求,不能只关注预测准确率。
预测模型通过深度学习训练数据生成,数据的质量决定模型的预测效果,要确保训练数据充足准确。如果单个学期课程学习人数较少,需要收集多个学期的数据,同时考虑教学实施的一致性,比如目标、课时、教材、试卷难度、评分标准是否相同。收集完成后进行数据清理,填补缺失、纠正错误或删除冗余数据。
预测模型无论在训练生成还是预测应用环节都要注重信息安全。对学生、教师特征的敏感数据需要先进行脱敏处理,删除明显的个人标识再作为特征输入模型,例如数据中记录了大量学生的学习失败信息,学校必须重视数据安全并严格控制数据的使用方式,规定运行模型和浏览结果的主体,保护好学生个人隐私,遵循大数据道德规范。
预测课程成绩为教师充分备课提供数据,以便于针对不同学生有效开展个性化教学。运用模型预测的结果只表明学习风险概率的高低,并不是最终的学习结果。在教学过程中,教师仍需实事求是地依据学生学习的具体情况,灵活调整学生学习风险的高低,真正做到因材施教,科学开展个性化教学,把成绩预测模型的功能落实好。