周庆 王卫芳 葛亮 肖逸枫 唐代
摘要:针对大学生存在学业风险、高校管理难度增大的问题,提出了基于一卡通数据与课程分类预测学生是否存在及格风险的方法。首先对计算机学院学生的一卡通数据与课程成绩进行预处理与特征提取,利用皮尔逊相关系数与Apriori算法分析不同学期课程成绩间、早餐次数与成绩间的相关性和关联性。然后结合早餐次数与同类型课程的成绩,运用多种分类器预测学生未来成绩是否及格。结果表明,该方法可预测学生某门课程是否存在不及格风险,便于教辅人员及时干预学业困难学生。
关键词:学业风险;相关性分析;关联分析;课程分类;成绩预测
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)24-0236-04
Abstract: Aiming at the academic risk of College students and the difficulty of Teaching Management in Universities,this paper presented a method based on campus card data and the idea of curriculum classification to predict whether students can pass the course examination. First of all, preprocessing the data of students' campus card data and course performance, and extracting the features, Secondly, using Pearson's correlation coefficient and Apriori algorithm to analyze not only the correlation between the course results of different semesters, but also the relevance between breakfast time and course performance. Then, combining the number of breakfast with the results of the same type of course, a variety of classifiers were used to predict whether the students' future performance was passed. The result shows that this method can predict whether there is a risk of failure in a student's course, and it is convenient for teachers to help students with academic difficulties in time.
Key words: academic risk; correlation analysis; association analysis; curriculum classification; performance prediction
1 引言
大學生在校期间的学业表现是影响其毕业及未来就业的关键因素,为了完善高校学生管理制度,各大高校全面推进“学业预警”制度,最终目的是帮助存在学业风险的同学顺利完成学业[1]。影响学生成绩的因素较多,比如师资水平、性别差异、课程难易程度、不适应大学生活等。目前,已有较多的学者针对学业成绩预测做了相关研究,如武彤等人利用决策树算法分析学生课堂表现与性别的差异,预测学生最终是否通过某门课程[2];王凯成等人利用Microsoft SQL Server提供的数据挖掘功能分析学生历史成绩数据,预测学生的平均学分绩点,帮助老师提前采取措施干预学分绩点不达标的同学[3];张红林等人分析学生早餐习惯与课程成绩的关联规则,发现早餐就餐次数多、时间早的学生成绩明显高于就餐次数少、时间晚的规律[4]。文献[5-7]均基于Apriori或改进的Apriori算法挖掘课程成绩间的相关性,从理论上分析关联规则,没有实际的应用。以上都是针对单一的数据源进行研究,没有有效结合一卡通消费数据与课程之间的关联性对学生具体某门课程进行预测,不能提供针对性的意见。
因此,本文采用有效的数据挖掘算法,分析学生校园一卡通数据、历史课程数据与后期课程之间的相关性,利用Apriori算法挖掘不同课程间隐藏的关联规则。根据课程间的关联规则,并结合其他学者的研究人工将课程分类,结合学生的早餐次数、早餐时间与课程分类的思想,运用多个分类模型预测学生未来课程的成绩是否及格。通过在真实数据集进行实验,表明该方法的可行性,提前发现学生可能不及格的课程,为辅导员发现学业困难学生提供参考依据。
2 数据的预处理
2.1 数据清理
2.1.1 成绩数据
2.1.2 一卡通数据
一卡通刷卡数据记录了全校师生在校的消费记录,包括食堂、超市、洗衣等多种消费类型。经初步的统计,超市、洗衣等方面的消费支出所占比例较少,数据离散,消费不稳定,且该高校位于郊区,学生大部分时间选择在食堂就餐,食堂的消费数据较全面,因此本文仅研究学生在食堂的消费数据。
同一学院同一年级学生之间的课程具有相似性,学生成绩才具有可比性,因此为了研究消费行为与成绩之间的相关性,本文仅抽取某高校计算机学院2015级学生294名学生,2015年9月至2016年6月期间在食堂的消费数据作为研究样本,总共98112条刷卡记录。
2.2 特征提取
针对成绩数据,经过数据清理阶段,标准化学生每门课程的成绩,然后计算学生历史不及格课程数、平均学分绩点和成绩分段比例,其中成绩分段比例是指学生每个分数段的课程所占比例,总共分为五个成绩段,A等:90-100分,B等:80-90分,C等:70-80分,D等:60-70分,E等:小于60分。其中,平均学分绩点的计算公式为:
平均学分绩点=∑(课程学分×成绩绩点)/∑课程学分
对于消费数据,分析学生食堂的就餐时间,规定早餐时间为06:45-09:45。假设学生每天8点前吃早餐,则表明该生因有课或作息规律早起,学生越自律,其成绩优异的可能性就越高,因此将学生早餐的时间段按以下规则进行划分,B0:06:45-07:45,B1:07:45-08:45,B208:45-09:45 ,统计学生每个早餐时间段早餐次数:B0_Count,B1_Count,B2_Count,以及三个时间段的早餐总次数B_Count,分析早餐习惯与成绩之间的相关性。
3 相关性分析与关联分析
3.1 历史成绩间的分析
3.1.1 成绩之间的相关性
因学习方法和个人能力的不同,不同学生的课程成绩存在差异性。例如文献[8]中刘红梅等人分析计算机专业学生的课程成绩,发现各学期及各类型课程成绩之间具有较高相关性。假设学生擅长数学,其数学类的课程如高等数学、概率论成绩就会较高,体现了知识及学习过程的连贯性。
为了验证学生课程成绩间之间的相关性,统计计算机学院2015级294名学生前四学期所有课程的成绩,计算课程成绩间的皮尔逊相关系数,表1列出部分相关性较高的课程。
以汇编语言基础为例,该课程的成绩与大学物理实验、面向对象程序设计及数据结构有较高的相关性,即汇编语言成绩较高,则其他几门课程的得分也较高,反之较低,由此可推断学生课程间的成绩具有相关性。
3.1.2 不及格课程间的关联性
数据挖掘是从大量的应用数据中提取人们事先不知道的、潜在并且有用的信息和知识的过程,其中关联数据挖掘可以从众多的项集中挖掘出具有潜在价值的信息[9]。自从Agrawal等人1993年提出关联规则的思想[10],關联规则已得到普遍的应用,例如文献[11]使用改进的频繁项挖掘算法分析课程成绩,发现课程之间的相关性。
假设学生不及格课程间也存在某种关联性,比如科目A不及格,则科目B不及格的概率较高。为了进一步验证假设是否合理正确,统计计算机学院2015级所有学生前三学期不及格课程,利用Apriori算法得到部分关联规则如表2所示:
由表2可知,如果高等数据不及格,则线性代数、离散数学、大学物理等课程可能也不及格,而表1表明这三门课的课程成绩也具有相关性,因此可推断学生未通过同类型课程的概率具有相似性。这些课程都属于基础类课程,但是前两门课程偏数学类,离散数学属于专业基础课程,后续的研究将结合课程间的相关性与关联规则,人为干涉将课程分类。
3.2 早餐习惯与成绩间的关联性
学生的早餐次数、早餐时间能够反映学生生活的规律性,我们认为生活越规律的同学其自律性越强[12]。为了分析学生生活习惯是否对成绩有影响,采用Apriori算法挖掘潜在的关联规则。首先根据统计分析和人为经验,将早餐次数、平均学分绩点离散化,离散规则如下:
a) 将各个时间段的早餐次数B0_Count,B1_Count,B2_Count,以及早餐总次数B_Count从小到大进行排序,前30%的同学早餐次数标记为少,30-60%的同学标记为中,60以后的同学标记为多。
b) 将学分绩点从高到低进行排序,前15%的同学规范为优秀,15%-30%的同学规范为良好,30%-45%的同学规范为中等,45%-60%的同学规范为及格,60%以后的同学规范为不及格。
利用Apriori算法挖掘离散后各个项集,最终得到支持度与置信度较高的部分关联规则如表3所示:
由表3可知,当早餐次数较多时,成绩等级为中等或优秀,反之早餐次数较少,成绩等级为及格,由此可知学生成绩的好坏与早餐次数存在关联,早餐次数越多的同学,生活越规律,其按时上课或学习的可能性也越大。总之,按时吃早餐对学生的身体健康或学业表现都是有益的,可引导学生形成良好的生活作息习惯。
4 基于一卡通数据与课程分类的成绩预测模型
4.1 课程的分类
因篇幅有限,表1、表2仅列出部分课程间的相关性与关联规则,由表1和表2可知,汇编语言的成绩与大学物理实验、面向对象程序设计、数据结构等课程相关。文献[13]基于频繁模式挖掘发现课程间的关联性,并提出课程分类的思想,因此本文分析计算机学院所有学生的必修课程,结合其他学者的研究、专家知识、课程间的关联规则,人工将计算机专业的必修课分为五个类别,这些类别的课程将用于预测第四学期同类型课程是否及格,如表4所示:
需要特别说明的是,课程的分类是根据课程间的相关性、关联规则以及其他研究者以往的研究与经验划分的,比如表1中汇编语言基础与大学物理是强相关,但两门课程并没有划分为同一类别,因为汇编语言基础侧重于专业编程类课程,而大学物理实验则划分为电子逻辑类。
4.2 成绩预测模型
影响学生成绩的因素较多,比如师资水平、课程难易度、学生学习习惯、学习态度等。本文仅研究学生在校的消费行为、生活作息的规律性、历史关联课程与未来课程的相关性和关联性,预测学生未来的某门课程是否及格。
针对这个问题,本文提出了基于数据挖掘的成绩预测模型,该模型考虑了课程的开课时间顺序的问题,利用学生前三学期同类型课程的成绩和早餐次数预测第四学期的某门课程是否及格。为了实验方便,本文筛选了学生第四学期的概率论与数理统计、脉冲电路、数据结构三门课进行对比实验,因为思想政治类课程比如马克思主义基本原理,所有同学课程成绩都是及格,无研究意义。则已知学生的特征X, 如果学生课程成绩大于60,则[y=1]。其中X包括前三学期不及格课程数、平均学分绩点、成绩分段比例、各个时间段的早餐次数、前三学期同类型课程的成绩。
5 实验与分析
5.1 数据集
数据集包含某高校计算机学院2015级294名学生在校的相关数据,其中校园一卡通的刷卡记录总计113111条,删除无关数据后仅保留在食堂的消费记录有98112条。
实际教学环境中,每门课程不及格人数较少,导致正负样本不均衡,因此选择曲线下面积 (Area Under roc Curve, AUC),真阳率(True Positivie Rate,TPR)、假陽率(False Positive Rate,FPR)作为评估指标[14],AUC 是指ROC曲线下方的面积,值越大分类器的效果越好,而真阳率TPR代表不及格的同学被正确预测出来的比例,假阳率FPR则指实际及格同学而被预测为不及格所占的比例,当然我们希望我TPR越高越好,而FPR越低越好。具体的计算公式为:
重复五次实验对评判指标AUROC、TPR、FPR取平均值,每次实验中采用五折交叉验证的方法,使用多种分类预测模型对比结果,如支持向量机(SVM),朴素贝叶斯(NB),逻辑回归(LR)。
5.2 结果与讨论
三种分类器的预测结果如表5所示。本文提出的预测方法是假设所有学生的学习能力、教学环境等相同,但实际存在的不可控制因素会影响预测结果。由实验结果可知,三种分类器的评判指标AUC值较大,FPR值较小,这表明该方法可以较有效为学生提供课程警示机制,尽管三种分类器的评价指标值相差不大,但SVM的效果最好,因此我们选择SVM为分类器模型。
针对实验结果,分析如下:
a) AUC越大,分类器的效果越好。由表5可知,针对每一门课程,三种分类器计算得到的AUC均大于0.7,且大部分大于0.8,表明实验具有应用意义,可以有效预测学生某门课程是否及格。
b) 每门课程考试中,不及格的人数所占较少,正负样本比例约为1:10,样本不均衡问题限制了真正比例(TPR)值较小。
c) FPR值较小,表明将实际及格的同学预测为不及格的概率较小,误判率较低。
通过分析,数据结构课程的预测结果明显优于其他两门课,因为与数据结构相关联的课程数较多,这也表明通过关联课程预测学生成绩的可行性,有效地将一卡通数据特征与关联课程结合起来,提高预测TPR的值是后续的研究目标。在实际应用中,影响学生成绩的因素较多,且不及格人数较少,正负样本不均衡,本文提出的方法可以有效预测学生未来成绩是否及格,及时反馈学生可能不及格的课程,进行针对性的指导。
6结束语
传统教学环境的不稳定,老师教学方法与学生个人学习能力,以及教材内容滞后问题等都是影响学生成绩的因素,因此本文提出的课程分类的思想仅用于辅助判断学生在同类型课程的学习能力,起参考作用。
本文仅针对学生校园一卡通数据与历史成绩数据进行研究,分析了学生的生活作息习惯、历史成绩与最终成绩间的相关性和关联规则,结合课程关联分类与学生早起次数、生活规律性预测学成绩,能够较为准确的预测学生未来可能不及格的科目,发挥学业预警机制的作用。如何更有效的利用校园一卡通数据、历史成绩数据挖掘影响学生成绩的因素,完善课程分类,提高预测结果是我们下一步的研究目标。
参考文献:
[1]池振国, 崔灏, 孙宁. 浅析实施学业预警机制对高校学风建设的影响[J]. 天津市教科院学报, 2013(3):23-24.
[2]武彤, 王秀坤. 决策树算法在学生成绩预测分析中的应用[J]. 微计算机信息, 2010,26(3):209-211.
[3]王凯成. 基于数据挖掘的大学生学业预警研究[D]. 上海师范大学, 2012:10.
[4]张林红, 刘红梅. 基于一卡通数据分析的学生早餐习惯与成绩关联规则挖掘[J]. 阜阳师范学院学报(自然科学版), 2014,31(4):92-95.
[5]李爱凤, 陈启买. 基于数据挖掘技术的课程相关性模式研究与实现[J]. 现代电子技术, 2007,30(13):121-122.
[6]吴江红. 基于关联规则挖掘的课程相关性研究与应用[J]. 天津科技大学学报, 2009,24(4):73-75.
[7]袁路妍, 李锋. 改进的关联规则Apriori算法在课程成绩分析中的应用[J]. 中国教育信息化, 2017(17):62-65.
[8]刘红梅, 李京. 计算机专业本科生课程成绩的相关性分析[J]. 安庆师范学院学报(自科版), 2015(1):120-123.
[9]Witten, Frank I H. Data Mining[J]. Practical Machine Learning Tools & Techniques with Java Implementations, 2005, 13(4):1-1.
[10]Agrawal R, Swami A. Mining association rules between sets of items in large databases[C]// Acm Sigmod International Conference on Management of Data. ACM, 1993:207-216.
[11]高小鹏,阮 帅,于福洋,等. 基于教学数据的课程关联挖掘研究[J]. 计算机教育, 2018(3):84-88.
[12]徐剑. 基于一卡通数据的消费行为与成绩的关联性研究分析[D]. 南昌大学, 2010.
[13]何楚, 宋健, 卓桐. 基于频繁模式谱聚类的课程关联分类模型和学生成绩预测算法研究[J]. 计算机应用研究, 2015, 32(10):2930-2933.
[14]陶存贵. 不平衡小样本数据的特征提取与分类方法研究[D]. 哈尔滨工业大学, 2012.