刘俊岭,李 婷,孙焕良,于 戈
1.沈阳建筑大学 信息与控制工程学院,沈阳 110168
2.东北大学 计算机科学与工程学院,沈阳 110006
大学生的课程学习是提高学业水平的重要组成部分。课程成绩是评价学生学习效果的主要方法,综合体现了学生对于该课程的学习兴趣和能力、成就动机、性格特征等方面。在学生的课程学习过程中及时掌握学生的学习状态,发现学习困难的学生具有重要意义。由于大学课堂规模较大,课程的学时相对较少,使得传统的对于学生课程学习中间过程的考核,如考勤和作业等,难以反映每个学生的课程学习状况。因此在课程进行的过程中预测学生的成绩,预警具有课程学习失败风险的学生,成为教育大数据研究中的一个重要课题。
观察发现,学生进入课堂的早晚、座位的选择与相应课程成绩有较强的相关性。心理学研究表明,早到教室且选择前排座位的学生具有较高的学习兴趣和成就动机,其成绩也较高[1-2]。课堂电子签到方式的出现解决了数据收集问题。课堂电子签到数据是教育大数据的重要组成部分。作为一类新型签到手段,电子签到在高校课堂上也逐渐采用[3-4]。课堂的电子签到可以同时收集大量学生的签到时间及座位信息,这些信息可以反映学生对于课程的学习兴趣、成就动机与性格特征等因素[1]。这些因素与学生的课程成绩之间存在较强的相关性,可以用于预测课程成绩。
本文研究了基于课堂电子签到数据的课程成绩预测方法。首先研究电子签到数据中的两类属性与成绩的关系:(1)签到时间属性,研究签到时间与成绩之间的关系,心理学研究显示参加一项活动的早晚能表明参加人对此项活动的重视程度,较早到达者具有较高的成就动机[5]。(2)签到座位属性,研究学生选择座位的心理动机与课程成绩之间的关系。由于座位选择除了与学生的成就动机、签到时间早晚有关外,还与同伴关系相关,则由上述两个属性衍生出第三个属性,即同伴关系属性。
本文的挑战在于:(1)学生座位选择具有一定的复杂性,除了学习兴趣、成就动机以外,还包括现有可选择座位、同伴影响以及学生的性格等多方面因素。因此,如何量化上述因素,发现相关因素与课程成绩之间的关系具有挑战性。(2)课堂座位分区将二维空间信息转化为一维的数值信息,如何选择划分粒度,结合座位选择的心理动机,产生与成绩最大相关性的区域划分成为一个挑战。(3)学生之间的同伴关系形成了一些签到时间和座位相近的小组,如何利用同伴关系修正学生预测成绩是一个挑战。
本文提出了一个基于课堂电子签到数据,结合学生心理测试数据的课程成绩预测模型,模型中包括签到时间、座位与相关心理因素等属性构造,预测方法设计,基于同伴影响的预测结果修正等模块。对于课堂座位属性,通过分析座位选择的心理动机,结合空间心理学知识,采用聚类算法设计了课程成绩相关的座位分区划分算法,产生的区域与成绩具有最大的相关性。对于签到时间属性,采用时间排序的处理方法来表现学生的签到时间信息,同时结合签到时间与座位选择信息,构造相关属性。对于同伴关系的影响,提出了一种利用同伴关系的成绩修正策略,进一步提高了成绩预测的精度。模型采用基于 Lasso(least absolute shrinkage and selection operator)的线性回归算法对学生课程成绩进行了预测,百分制成绩平均预测误差小于10分。
综上所述,本文的贡献如下:
(1)提出了一种基于学生课堂的电子签到数据进行课程成绩预测的方法,扩展了现有的学生课程成绩预测方法。
(2)设计了课程成绩相关的座位分区划分算法,结合学生座位选择的多种因素,通过训练学习得到具有最大相关性的划分。
(3)分析了课堂中学生的结伴规律,用于修正课程成绩的预测结果。
(4)利用真实数据集对本文方法与现有方法在预测精度等方面进行了充分的测试,验证了本文方法的有效性。
学生成绩预测是教育学、心理学以及计算机科学等领域中的一个重要研究问题。传统的成绩预测方法大多基于作业、考勤、教师评价等教学过程数据进行预测。文献[6]通过神经网络模型利用作业成绩数据来预测学生成绩。文献[7]基于入学学生信息数据来分析学生的学术表现。文献[8]提出一种回归模型,利用学生人口统计信息和导师评价来预测成绩。文献[9]提出利用纵向数据(如测试成绩、往年成绩)进行预测有可能发现成绩较差的学生。近年来出现了一些利用信息技术采集学生行为数据并进行成绩预测的研究。文献[10]提出一种基于多实例学习的方法来预测学生在电子学习环境中的课程表现。文献[11]利用电子信息系统的Web使用情况来预测学生在一门课程中的期末表现。文献[1]研究采用传感器感知学生使用智能手机数据来预测学生的学术表现。
课堂座位区域的选择与学生学业表现具有显著的相关性。文献[2]提出坐在教室后排区域的学生获得低成绩的可能性是坐在教室前排的6倍。文献[12]研究发现学生坐在高角度区域和低角度区域对成绩有着不同的影响。文献[13]得出与文献[12]相似的结论,成绩好的学生坐在前排区域的可能性较大,且选择前排座位学生的成绩将比选择后排的高。
心理特性与座位选择存在着一定的联系[14]。心理的作用促使学生坐在一个特定的位置,可能是习惯,也可能是一种无意识情况下的选择结果,但这种无意识选择往往反映了学生的性格倾向。坐在后排的学生具有较低的自我概念,没有安全感,学习不主动,性格内向;选择前排座位的学生普遍具有较高的成就动机[15-17]。
性格特征也可能会对学业表现产生不同的影响[18-20]。文献[18]采用学生大五人格来衡量学生个性,调查了成绩与学生个性之间的联系。文献[19]整合了学术表现和学生个性的相关研究,并提出学生成绩与其开放性、宜人性、严谨性有关。文献[20]发现神经质与外向性与成绩呈负相关关系。
研究表明通过学生的学术表现(如旷课率和出勤率)可以预测成绩,如出勤率越高的学生成绩越高,旷课率越高的学生成绩越低[21]。通过对大学生出勤情况与学术表现的关系进行研究,发现课程成绩和GPA(grade point average)与学生出勤率密切相关[5]。然而文献[1]在研究学生生活时发现出勤情况与学术表现相关性较低。
以上工作大多针对考勤、座位选择与学生心理特征等数据中的一项进行研究,本文提出的基于电子签到数据的课程成绩预测方法综合考虑了签到时间、座位选择以及心理特征等多种因素,并且量化处理相关因素,用于成绩的预测。
本文收集了沈阳建筑大学2015—2017年16个班497名学生数据,数据包括三大类:一类是学生的课堂签到数据及作为训练集标签数据的课程成绩单;第二类是所在课堂教室的座位分布图;最后一类是学生的心理测试数据。
数据集涉及三门课程,课程与教室信息如表1所示。其中阶梯教室有220个座位,多媒体教室有90个座位。采用电子签到系统收集数据,签到格式为:学号、座位号(行列)、时间,如1606420001,<8,12>,2016/05/06 07:35:48。
Table 1 Course information表1 课程信息
心理测试数据包括大五人格(神经质、外向性、开放性、宜人性、严谨性),自我效能感(一般自我效能、学业自我效能),成就动机(希望成功的动机、回避失败的动机、成就动机),MBTI(Myers-Briggs type indicator)职业性格倾向(内倾、外倾、感觉、直觉、思维、情感、知觉、判断)等18个指标。
为了发现哪些数据可以用于预测学生的成绩,本文通过对座位与签到时间等数据与成绩相关性初步分析,发现一些初步结论。采用的数据集为表1中的课程1的数据,得出了3个观察结果,下面分别对这些观察进行分析。
观察1签到时间早的学生学习成绩较好。
观察1的内容在文献[6]中有相似的论述,参加一个活动提前到达表示了参加者具有较高的成就动机,往往会取得更好的成绩。
本文计算了签到时间与成绩的相关性,结果显示95%的课程签到时间与成绩呈正相关关系,其中平均签到时间与成绩的相关系数值较高,相关系数r为0.294,p-value值为0.008。通过本观察的结论可以发现,学生的签到时间可作为预测学生成绩的因素之一。
观察2选择座位靠近讲台的学生课程成绩较好。
文献[3,13-14]采用统计分析方法分析出前排就坐的学生成绩偏高。本文针对所统计的数据集进行相关性分析。在实验过程中,将教室座位分为前、中、后3个区域。通过计算各区域的平均分和成绩方差,发现前、中、后区域整体座位平均分分别为79.79、78.10、71.85,同时发现各区域座位成绩方差较大,前、中、后区域整体座位方差分别为4.56、5.43、7.87,距离讲台越远的区域方差越大。所在座位的成绩的平均值分布说明座位与成绩存在相关性,但座位成绩方差较大说明简单分区不合理。而且座位选择还受现有可选座位、性格特征等因素的影响。
观察3学生的成绩、签到行为与性格存在一定联系。
本文对所涉及的学生进行了心理测试,同时分析了心理测试结果与成绩及签到时间的关系。表2给出了相关系数高的项目。实验发现心理测试数据大五人格中宜人性及自我效能感中学业自我效能与成绩有较高的相关系数,说明更具宜人性即越友好,对完成学业越自信的学生将更有可能取得越高的成绩。大五人格中严谨性、自我效能感中学业自我效能、MBTI中感觉及判断与签到时间有较高的正相关关系;MBTI中直觉、知觉与签到时间有较高的负相关关系。这说明严谨性较高、对完成学业工作越自信、越偏向感觉与判断的学生更有可能较早到教室完成签到;而越偏向直觉和知觉的学生更有可能晚到。
Table 2 Correlation coefficient of psychological test表2 心理测试相关系数
下面介绍预测模型的构建、座位划分方法、基于同伴影响的预测结果修正等内容。
模型的第一部分是数据准备,如图1中步骤①所示。预测模型所需要的数据包括签到数据、性格测试、教室布置图及课程成绩单。步骤②通过基于密度的聚类方法将教室进行合理的区域划分。步骤③、④是相关性分析及属性选择,分析签到数据、性格测试、教室分区与成绩分布的相关性,选择相关性高的属性作为Lasso分析的输入属性。步骤⑤为预测,同时要进行预测评价,即计算预测误差。然后,步骤⑥、⑦处理同伴关系的影响,再利用步骤③、④、⑤确定同伴关系的影响,给出学习方法,对结果进行修正,如步骤⑧。步骤⑨为模型评价。
Fig.1 Model for course performance prediction图1 课程成绩预测模型
预测课程成绩是一个回归分析问题,输入签到数据、心理测试数据、教室分区数据等特征,属性输出为课程的百分制成绩值。百分制是广泛采用的成绩表示方法,其细粒度的连续型数值表示适用于本文所设计的修正方法,而且百分制易于转化为等级制与绩点制。对于连续型预测属性,通常采用线性回归方法。本文采用与文献[2]相同的预测方法Lasso作为预测模型。
Lasso是一种线性回归方法。该方法同时进行变量选择与正则化处理以提高预测精度。假定输入属性与预测成绩是一种线性关系,那么就可以利用属性的线性组合关系来表示成绩。Lasso算法为式(1)的最优化问题:其中,N表示对象的数量;yi表示对象i的真实值;xi表示在对象i上的q度特征向量;λ是一个负的正则化系数,由交叉验证选择得出,控制β中非零向量的数量;β0为截距;β为权重向量。本文的最优化问题实质上是最小化拟合中的平均平方误差(式(2)),同时尽可能地使模型简单化(如选择最小数量的特性属性来避免过度拟合)。
因此,Lasso算法能选择出更相关的属性,丢弃冗余的属性。最终,Lasso算法模型如式(3)所示:
其中,yi′表示预测值;α为惩罚值,由Lasso算法学习得到。
本文使用平均绝对误差(mean absolute deviation,MAE)、预测分数与真实分数来度量预测结果的精度。MAE度量了预测结果与真实值的相似度,MAE值越小表示预测结果越接近真实值。MAE如式(4)所示:
在获取到教室分布图后,需要对教室的座位进行分区,构造教室平面区域属性。传统教室分区方法是根据座位与讲台的距离远近进行的,难以准确地反映学生选择座位的行为动机。本文提出基于密度的座位划分聚类方法,如算法1所示。
算法1座位划分方法
算法1的输入为学生签到数据中的位置信息、自定义的分区数量N、分区内最小数目MinPts、分区内最大距离d。算法分两部分:第一部分采用基于密度的算法对教室座位进行初步划分,如步骤1~9所示;第二部分根据本研究的特点对由第一部分的分区结果进行相应的调整,如步骤10~14所示。具体过程如下:步骤1中通过将就坐于座位的学生成绩去除Smax和Smin后计算而得的平均分作为座位成绩;初始化簇C,计数器k,队列Q。步骤2~9实现簇的生成,即座位分区的划分,其中步骤3~8将访问对象存入队列中,依次访问队列中对象的相邻座位,将符合条件的位置加入到簇及队列中。步骤10~11将具有包含关系的簇合并。步骤12计算每个簇的平均分后将分区内座位数量小于最小数目MinPts的簇与平均分最接近的簇合并成一个簇。步骤13~14判断当前簇的数量是否大于预设数量N,若大于则将平均分最接近的簇合并成一个簇。
算法1将相同性质的座位归到一个簇中。由于学生座位选择的行为具有随机性,且选择行为在一定程度上受到同伴关系的影响,使座位信息中出现噪声数据。因此,算法1在完成对教室座位进行划分后还需要对特殊的簇进行调整合并。
观察发现学生在进行座位选择时,一些学生更倾向于选择距离同伴相近的位置,尽管有时违背了自身的成就动机。同时,根据对教室座位成绩分布的分析,发现在相同区域中座位成绩的方差较大,检查学生的实际预测结果,发现同伴关系对学生成绩有较大影响。
同伴关系定义为满足选择相邻座位且签到时间相近的对象之间的关系。本文设置同一行座位相近的约束为2个座位,同一列座位相近约束为1个座
式中,S′(o)表示修正后学生o的成绩;S(o)表示由Lasso算法得出的预测成绩;参数ω为修正系数,取值范围为0到1,与课程与教室类型有关,可以通过学习得到,本文中ω学习结果为0.39;m表示学生o的同伴数量;f表示同伴结伴比率;参数Δs为同伴成绩预测差值,当修正高分者时Δs为正值,当修正低分者时Δs为负值。
本文利用同伴间性格各属性的差值(学业自我效能差值、成就动机差值、严谨性差值等)及结伴情况属性(如结伴比率、座位距离、签到时间差等)通过Lasso算法得到Δs。
图2给出了基于同伴关系的预测值修正实例。图2(a)显示学生o1与o2为同伴关系,结伴比率为1,s为13.36,其在签到区域、时间上表现为高度相似,o1与o2的预测成绩分别为69.92和78.21。利用式(5)对预测成绩进行调整,S′(o1)=64.70,同理S′(o2)=83.42,而二者的实际成绩分别为61和86。图2(b)给出了一个对象受多个同伴影响时的情况,o的预测成绩同时受3个同伴o3、o4、o5的影响,因此S′(o)由式(5)计算可得86.72。经修正后在一定程度上抵消了同伴关系对学生个体特性的影响。位,时间约束设置为3分钟。一个学生的同伴关系可以有多个。
本文引用心理学上的趋同原理,即同伴具有行为上的趋同性,但其个体本质上差异较大。应用在本文的研究中,具有同伴关系的学生表现为相近的签到行为,利用相近的签到行为进行预测将产生相近的结果。因此,本文利用同伴信息对预测结果进行调整,基本思想是扩大同伴的预测成绩差值。
本文设计了修正方法,如式(5)所示:
本文利用真实数据集对算法预测模型进行了分析,测试了预测精度。同时实现了一个真实系统,可以实现教室座位划分、同伴关系可视化分析、预测实例展示等功能。
Fig.2 Partnership图2 同伴关系
实验利用学生签到数据创造了座位信息的新属性,表3展示的为座位信息与成绩间有较高相关性的属性。结果显示,座位就坐比率与成绩最为相关(r=0.434,p-value<0.001),其次是座位被重复选择的比率(r=0.377,p-value<0.001)。
Table 3 Correlations between seat and course performance表3 座位与成绩相关系数
学生座位选择行为在一定程度上反映了学生在课堂上的学习兴趣及成就动机,对成绩预测有较大的影响。图3显示了一个教室利用算法1进行分区划分的结果,实验中教室共220个座位,经算法1划分为6个区域。AREA_1以演示区为中心呈扇形分布。AREA_2属于教室较前区域,但距演示区较远,靠近教室两侧过道及窗户。AREA_3、AREA_4同属教室后半区域,AREA_3靠近演示区,AREA_4为距离演示区最远距离的区域。AREA_5为教室中心区域,该区域距演示区的距离及角度较好。AREA_6为教室左右两区的中心,距过道较远。
每个分区在密度特征(成绩)上具有同类性,即同一个区域内座位成绩相似。实验发现与成绩最相关的区域是AREA_5,并非是距演示区最近的区域AREA_1,且第一排座位信息与成绩相关性较低。
Fig.3 Partition result of a classroom图3 教室分区结果
在研究学生的课堂签到行为数据时发现,学生在选择座位时不仅仅是根据自己的喜好选择,还受到同伴的影响。研究通过签到数据中座位信息和签到时间发现了学生间的同伴关系。一些关系由两个学生对象组成,表现为排他性,同伴间表现为亲密性;一些关系由多名学生组成,处于关系网络中心的学生具有较高的友好性。
实验显示,79.49%学生在课堂上有同伴关系,其中50.00%有一个固定伙伴,32.26%有两个同伴,17.74%有3个及3个以上同伴。93.54%同伴关系为同性伙伴。
用本文提出的课程成绩预测方法针对各数据集进行预测实验。测试了两类方法,一类是无同伴关系修正的方法,另一类是有同伴关系修正的方法。测试结果如表4所示,分别给出了MSE值与百分制误差值,结果表明利用签到时间、座位及心理特征进行的预测优于只用一项或其中两项数据的预测。
表4的最后一列为用同伴关系进行修正后的结果,明显优于无同伴关系修正的算法。同时,本科课程中座位选择结果与性格特征相比,座位选择结果更能反映学生在该门课程的学术表现;而研究生课程中个性表现更能反应学生学术表现,座位选择对学术表现无明显影响。在同伴关系修正结果中,本科生受同伴关系影响较大,修正结果表现较好。
Table 4 Prediction accuracy表4 预测精度
针对表4中的第一个数据集,Lasso算法对成绩预测模型的属性选择结果及权重分配如表5所示,算法选择6次签到属性、2次座位属性、4个心理测试属性。
本文将表4中的第一门课的实验结果细化展示,列出了所有选课的学生预测成绩误差,如图4(a)所示,从图中结果观察到大部分预测成绩与真实成绩相符或仅有微小误差。图4(b)展示的是经Lasso算法中属性选择后的实验结果及分配给各属性对应的权重值,其中签到次序属性普遍具有较大的权重,其次是心理特性属性和座位分区信息。
Table 5 Results of feature selection and weights表5 属性选择及权重设置结果
Fig.4 Prediction result of Course 1图4 课程1预测结果
本文实验选取的课程均为理工科的课程,注重知识的积累和逻辑与理性思维能力的培养,因此所设计实现的预测模型适用于具有该类型的课程。对于其他文科与艺术学科,可以观察学生学习相关课程的行为特点,结合学生的心理性格特质,重新设计学习成绩预测模型。
本文设计的成绩预测模型可以推广到具有签到时间、座位选择属性的相关应用场景,如人才招聘、员工素质考察等需要对人员的工作热情、成就动机和性格特质进行量化考核的情况。
本文研究了基于电子签到数据的课程成绩预测方法,设计了基于电子签到数据的课程成绩预测模型,提出了基于成绩分布的教室座位分区划分方法、同伴影响的预测结果修正方法,提高了成绩预测的精度。利用真实数据集对所提出的预测模型进行了充分的实验验证,百分制成绩平均预测误差在10分以内,实验结果验证了本文所提出的课程成绩预测方法具有较高的预测精度。
:
[1]Wang Rui,Hao Peilin,Zhou Xia,et al.SmartGPA:how smartphones can assess and predict academic performance of college students[J].Getmobile Mobile Computing&Communications,2016,19(4):13-17.
[2]Perkins K K,Wieman C E.The surprising impact of seat location on student performance[J].The Physics Teacher,2005,43(1):30-33.
[3]Hemyari C,Zomorodian K,Ahrari I,et al.The mutual impact of personality traits on seating preference and educational achievement[J].European Journal of Psychology of Education,2013,28(3):863-877.
[4]Meeks M D,Knotts T L,James K D,et al.The impact of seating location and seating type on student performance[J].Education Sciences,2013,3(4):375-386.
[5]Credé M,Roch S G,Kieszczynka U M.Class attendance in college:a meta-analytic review of the relationship of class attendance with grades and student characteristics[J].Review of Educational Research,2010,80(2):272-295.
[6]Fausett L V,Elwasif W.Predicting performance from test scores using backpropagation and counterpropagation[C]//Proceedings of the 1994 IEEE International Conference on Neural Networks,Orlando,Jun 28-Jul 2,1994.Piscataway:IEEE,1994:3398-3402.
[7]Martinez D.Predicting student outcomes using discriminant function analysis[J].AcademicAchievement,2001,115(524):22.
[8]Kroenke K,Spitzer R L.The PHQ-9:a new depression diagnostic and severity measure[J].Psychiatric Annals,2002,32(9):509-521.
[9]TamhaneA,Ikbal S,Sengupta B,et al.Predicting student risks through longitudinal analysis[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,New York,Aug 24-27,2014.New York:ACM,2014:1544-1552.
[10]Zafra A,Romero C,Ventura S.Multiple instance learning for classifying students in learning management systems[J].Expert Systems withApplications,2011,38(12):15020-15031.
[11]Romero C,Espejo P G,Zafra A,et al.Web usage mining for predicting final marks of students that use Moodle courses[J].Computer Applications in Engineering Education,2013,21(1):135-146.
[12]Hirmas D R,Slocum T,Halfen A F,et al.Effects of seating location and stereoscopic display on learning outcomes in an introductory physical geography class[J].Journal of Geoscience Education,2014,62(1):126-137.
[13]Pichierri M,Guido G.When the row predicts the grade:differences in marketing students’; performance as a function of seating location[J].Learning&Individual Differences,2016,49:437-441.
[14]Casey P.Personality and motivation are determinants of seating preferences by students in lecture halls[D].Dublin:Dublin Business School,2014.
[15]Schee B A V.Marketing classroom spaces:is it really better at the front?[J].Marketing Education Review,2011,21(3):201-210.
[16]Losonczymarshall M,Marshall P D.Factors in students’; seat selection:an exploratory study[J].Psychological Reports,2013,112(2):651-666.
[17]Sun Huanliang,Fu Shanshan,Liu Junling,et al.Team formation with weak ties in social networks[J].Journal of Frontiers of Computer Science and Technology,2016,10(6):773-785.
[18]John O P,Srivastava S.The big five trait taxonomy:history,measurement,and theoretical perspectives[M]//Pervin A,John O P.Handbook of Personality:Theory and Research,1999:102-138.
[19]Poropat A E.A meta-analysis of the five-factor model of personality and academic performance[J].Psychological Bulletin,2009,135(2):322-338.
[20]Furnham A,Chamorro-Premuzic T,Mcdougall F.Personality,cognitive ability,and beliefs about intelligence as predictors of academic performance[J].Learning&Individual Differences,2003,14(1):47-64.
[21]Gomes A A,Tavares J,de Azevedo M H.Sleep and academic performance in undergraduates:a multi-measure,multipredictor approach[J].Chronobiology International,2011,28(9):786-801.
附中文参考文献:
[17]孙焕良,富珊珊,刘俊岭,等.社会网络中弱关系团队形成问题研究[J].计算机科学与探索,2016,10(6):773-785.