基于机器学习的学生成绩预测及教学启示

2019-04-19 05:24于文兵计春雷
计算机技术与发展 2019年4期
关键词:学习成绩向量样本

吕 品,于文兵,汪 鑫,计春雷

(上海电机学院,上海 201306)

0 引 言

随着数据科学的快速发展,越来越多的教育研究者开始将目光聚焦于教育数据的挖掘分析[1-3]。目的是利用挖掘得到的结果帮助教师改进教学方法,帮助学生改善学习过程,帮助教育管理者们优化管理决策。而实现教育数据挖掘的重要技术支撑是机器学习算法。

研究者们通常利用决策树分析学生的在线学习数据,并以此预测学生的期末考试成绩[4];利用朴素贝叶斯算法分析学生入学申请背景,帮助教育机构预测学生的累计平均绩点[5]。尽管这些研究在一定程度上实现了学习期预警的作用,但是,它们关注的重点是学生的到课率和作业提交情况等,忽视了影响学习成绩的其他行为特征,如学生在课堂上是否积极举手、积极参与讨论以及关注与该课程相关信息等。因此,有必要在学习成绩预测研究中深入研究这些行为特征,分析它们对学习成绩的影响,以提高学习成绩预测的应用价值。

1 研究对象与研究步骤

1.1 研究对象

文中利用学生活动跟踪工具xAPI,从Kalboard 360[4]学习管理系统中收集了某国际学校高一年级学生春季和秋季2个学期的学习数据,共480个样本。其中,春季学期245名学生,秋季学期235名学生。研究目的旨在通过构建学生学习成绩预测模型,挖掘分析影响学生成绩的关键因素,试图结合挖掘得到的结果提出可操作性的教学策略。

Kalboard 360学习管理系统是一个基于云平台的学习管理系统,由Nidal khalifeh设计,其应用遍布世界50多个国家[4]。它的核心特征是内嵌了教室管理系统,使得学生可以通过各种移动设备来体验教室内外的学习环境,真正实现了BYOD(bring your own device)的学习理念。此外,教师,学生家长,教育管理者也可通过合适的接口连接到Kalboard 360,使得学生的学习成为一个真正的整体过程。

在研究的480名学生的样本数据中,每个样本具有16个特征。这些特征分为四类:人口特征,如性别,国籍,出生地和父母对孩子的监管,等等;学习背景特征,如教育阶段,成绩(90-100分的成绩类别为优,用H表示;70-89分的成绩类别为中,用M表示;60-69分的成绩类别为差,用L表示),年级,上课地点,学期,科目,缺勤天数,等等;家长的行为特征,如父母回答调查、父母对学校的满意度等;学生的行为特征,如课堂举手、参与小组讨论、访问资源和浏览通告等。学生的行为特征描述了学生在学习过程中的参与情况。

1.2 研究步骤

文中的研究步骤主要包括数据采集、数据预处理、模型构建、模型评价以及模型分析等。数据采集阶段,利用xAPI接口,收集480名学生在Kalboard 360学习管理系统中春季和秋季2个学期的学习数据;数据预处理阶段,首先分析原始数据的特征,以获得有利于提高模型分类性能的特征子集,其次处理数据集中的异常值,最终得到可用于构建模型的数据集;模型构建阶段,在经过数据预处理阶段后得到的数据集上训练各种机器学习算法,得到各种预测模型;模型评价阶段,基于评价标准选择性能最优的模型;模型分析阶段,从教育的角度解释模型参数的含义,为教师改进教学方法提供参考。

2 数据预处理

2.1 原始特征分析

许多特征(学生的性别/父母的受教育程度/父母对孩子的监管/学生的学习行为)对学生的学习成绩都有影响[6-14]。为了对原始特征进行筛选,利用可视化方法分别分析了每一特征与学习成绩的关系。得到了缺勤天数、学生的监护人、参与小组讨论、课堂举手、访问课程资源以及浏览与该课程相关通告等特征与学习成绩具有清晰模式的结论。为了从理论上进一步验证这些行为特征对学习成绩的影响,继续利用特征选取方法对16个原始特征进行了重要性排序。

2.2 特征选取

特征选取的目的是从理论角度分析各个特征的有效性,并选择最有代表性、分类性能最好的特征子集来有效地描述输入数据,是构建预测模型之前的一项重要任务。常用的特征选取方法有2类:基于过滤的方法和基于包装的方法。由于包装方法的性能优于过滤方法,因此文中选用了基于包装的特征选取方法—XGB算法(extreme gradient boosting)分析了原始特征重要性的排序情况。分析特征选取的结果发现:学生参与课堂讨论、访问课程资源、课堂举手以及浏览与课程相关的通告是最重要的4个特征,其次是学生学习的科目、学生所处的教育阶段、家长对学校的满意程度以及学生缺勤次数。

由于文中研究的焦点是研究学生的行为特征对学习成绩的影响,因此,结合原始特征分析的结果与特征选取的结果,从16个原始特征中选取了参与小组讨论、访问课程资源、课堂举手、浏览与课程相关的通告、性别、监护人以及缺勤天数这7个特征构成的特征子集用于构建学习成绩预测模型。尽管父母的满意度、学生所处的教育阶段以及学习科目这3个特征也比较重要,但是,由于它们并没有包含学生在课堂上的任何行为信息,因此,构建模型时不予考虑。

3 成绩预测模型构建

基于预处理后的数据集,采用10折交叉验证的形式,分别采用感知机、支持向量机和神经网络构造了3种成绩预测模型。

实验运行的环境为:Windows 8.1专业版、Python 3.6、Intel i54210-U以及8 G内存。其中,在训练阶段,感知机使用随机梯度下降算法估计参数;支持向量机的分类决策函数使用高斯核;使用误差逆传播算法训练网络。在测试阶段,利用训练阶段得到的模型对测试集中的数据进行预测。10次预测得到的性能评估值的均值如表1和表2所示。使用的性能评价标准为正确率、召回率、F值、精确度以及误分类样本个数。正确率是指预测为某一类别的样本中真正属于该类别的样本的比例;召回率是指预测为某一类别的真实类别占所有真实类别的比例;F值是指正确率与召回率的调和平均值;精确度是预测正确的样本占所有样本的比例。

表1 三种模型的正确率、召回率与F值的对比

表2 三种模型的精确度与误分类样本数量的对比

在以上三种算法构建的模型中,除了基于神经网络的成绩预测模型在H类别上的召回率上稍高于支持向量机,基于感知机的成绩预测模型在L类别上的召回率上稍高于支持向量机之外,基于支持向量机的成绩预测模型在三种类别上的正确率、F值均最高。此外,在三种成绩预测模型中,利用支持向量机构建的模型误分类样本数量最少,预测的精确度最高。

因此,文中选择支持向量机构建成绩预测模型,试图通过分析模型参数,证实行为特征对学习成绩影响的重要性。教师可以通过了解学生在学习过程中的行为特征,发现并追踪那些行为特征表现有落后倾向的学生。通过分析出现这种现象的原因,根据不同学生采取提供有针对性的教学资料或开展个别辅导。

4 模型分析与教学启示

4.1 模型分析

分析基于支持向量机的学习成绩预测模型发现,模型分类时使用的支持向量个数为300。其中,成绩类别为H、M和L的支持向量个数分别为91、136和73。由此可见,在480位学生组成的样本集合中,只需300位学生的学习数据即可实现成绩预测。由于篇幅原因,下面列举其中3个样本进行分析。

以索引号为10的支持向量为例。这是一位成绩类别为H的学生。他的学习行为特征分别为:课堂举手次数50,访问与课程相关资源次数88,浏览与课程相关通告次数30,参加小组讨论次数80,缺勤天数少于7天。该样本对应的特征权重向量为:[1.062 7 1.059 8 1.654 1 1.495 9 0.809 4 0.845 1 -0.700 3]。对比该学生的学习行为特征数据和基于支持向量机的成绩预测模型得到的权重向量发现,前4项特征的权重高于后3项特征,尤其是浏览与课程相关通告和小组讨论这2项特征的权重最高。由此可见,参与小组讨论对成绩好坏的影响较大。

再以索引号为13的样本为例。这是一位成绩类别为L的学生。他的学习行为特征数据分别是:课堂举手次数20,访问与课程相关资源次数14,浏览与课程相关通告次数12,参加小组讨论次数19,缺勤天数大于7天。该样本对应权重向量为:[0.487 2 0.275 2 1.349 1 1.532 9 -1.235 4 -1.183 2 -0.799 3]。将其与索引号为10的样本比较后发现,该样本所有特征的权重要比后者小,尤其是课堂举手和浏览与课程相关的资源。这表明,课堂举手对成绩好坏影响也较大。

索引号为285的样本对应的是一位成绩类别为M的学生。他的学习行为特征数据分别是:课堂举手次数41,访问与课程相关资源次数39,浏览与课程相关通告次数35,参加小组讨论次数39,缺勤天数大于7天。该样本对应的权重向量为:[-0.695 6 -1.505 3 -0.938 7 -0.350 2 0.809 4 0.845 1 -0.799 3]。与索引号为10的样本比较后发现,该样本中前4项特征对应的权重全部为负数,尤其是浏览与课程相关的资源和浏览与课程相关通告这2项特征的权重。这意味着,一个成绩中等的学生,他的学习行为特征比成绩优的学生要差,比成绩差的学生要好。

4.2 教学启示

基于上述模型分析,提出了如下的教学建议:

(1)合理运用价值动机理论,激发学生学习投入。

通过基于支持向量机的成绩预测模型可知,学生的行为特征对成绩好坏起着决定性的作用。学生的行为特征实质是学生的学习投入状况。学习投入[15-16]是衡量学习一种最重要的指标,是学生在学习过程中表现出的一种持续的、充满积极情感的学习状态,以活力、奉献和专注为主要特征,能直接影响学生的学习行为特征。虽然学生的学习投入受诸多复杂因素的影响,但最主要的因素是学生的动机信念[17]。而动机信念来源于任务价值。因此,教师在组织教学的过程中,需要把学生学习某项知识的过程融入到解决某项实际任务的过程中,使学生在完成该任务的过程中体验该任务的价值。

因此,教师需要通过学生的学习行为特征数据反映出的学习投入状况,在组织教学资源时要注重将传授的知识与实际问题相联系,让学生在解决实际问题的过程中体验到学习的知识与自己的生活主题相关,让学生在解决实际问题的过程中促进自我价值和自我认同,从而自觉地进行学习投入。

(2)合理运用内隐智力信念调节机制,激发学生的学习动力。

尽管行为特征对成绩有直接的影响,但每一个学生都是一个具有不同特质的个体,即每一个学生学习行为也会受其内隐智力信念的影响。内隐智力[18]信念指个体对其能力、智力等方面的自我信念,它会影响个体在学习中的行为表现。这意味着行为特征表现出来的数据值较低的学生,有可能受其接受能力的影响。因此,教师应该采取面谈、趣味性比赛或者组织一些特定的教学活动等措施深入了解行为特征数据值较低的那些学生,掌握他们的内隐智力信念差异。正确运用智力增长论[19-20]的方法,为这些成绩差的学生提供个性化的教学指导和学习任务,让他们通过自己的努力、训练、自我调节来提升他们的接受能力。

5 结束语

文中采集了在线学习者的人口统计信息、学习背景、家长的行为特征和学习者的行为特征等信息作为研究对象的特征,运用特征分析和特征选择,选取了学习者参与讨论、课堂举手、访问与课程相关资源、浏览通告、性别、监护人以及缺勤天数这7个特征构成的特征子集表示每一个研究对象。采用感知机、支持向量机和神经网络三种机器学习算法,构造了不同的学习成绩预测模型。通过比较模型的准确度、召回率、F值,误分类样本数量和精确度,选择支持向量机作为构建成绩预测模型的分类算法。通过分析基于支持向量机的成绩预测模型,发现影响学习成绩的主要因素是学习者的行为特征。为提高学习者的成绩,教师在教学过程中应该合理运用价值动机理论和内隐智力信念调节机制,激发学生的学习投入以及学生的学习动力。

猜你喜欢
学习成绩向量样本
向量的分解
聚焦“向量与三角”创新题
兄弟让举
名落孙山
规划·样本
人大专题询问之“方城样本”
随机微分方程的样本Lyapunov二次型估计
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
“官员写作”的四个样本