孙杰
摘要 针对学生成绩预测过程中预测方法过于复杂、涉及数据集过于庞大的问题,本文提出了基于高斯朴素贝叶斯算法的学生成绩预测。本文采集选修《大学生计算机基础》共计465名本科生的三次平时测验成绩作为样本集,并划分为训练集和测试集,采用交叉验证的策略避免过拟合问题。结果表明,基于高斯朴素贝叶斯算法的预测模型在测试集上预测的精度达到92%,朴素贝叶斯方法可以直接基于平时测验成绩预测学生的最终考试成绩。另外,实验发现,样本集的数据分布越是接近于正态分布,预测精度越高,再剔除60分以下测验成绩之后,预测精度达到96%。
关键词:朴素贝叶斯算法; 成绩预测; 大学生;成绩
中图分类号:TP181 文献标识码:A
文章编号:1009-3044(2021)20-0023-04
Application of Gaussian Naive Bayes Algorithm in College Students' Performance Prediction
SUN Jie
(School of applied technology China Institute of Labor Relations, Beijing 100048, China)
Abstract: In order to solve the problem that the prediction method is too complex and the data set is too large in the process of student performance prediction, this paper proposes a student performance prediction method based on Gaussian naive Bayes algorithm. In this paper, we collect the three test results about 465 samples in “computer foundation of college students”, and divide them into training set and test set. We use cross validation strategy to avoid over fitting problem. The results show that the prediction accuracy of the prediction model based on Gaussian naive Bayes algorithm reaches 92% in the test set, and the naive Bayesian method can directly predict the students final test scores based on the practice at ordinary times. In addition, it is found that the closer the data distribution of the sample set is to the normal distribution, the higher the prediction accuracy is. After eliminating the test scores below 60 points, the prediction accuracy reaches 96%.
Key words: naive bayesian algorithm; performance prediction; college students
近年來,学生成绩预测的研究成为研究者关注的焦点。一般来讲,课程期末考试成绩占课程最终成绩的比重较大,故期末考试成绩的优劣直接影响学生的评优甚至毕业,因此,通过合理的手段提前预测课程的期末成绩,将有助于任课教师实施针对性的教学,对学习困难的学生加以帮助,对学习成绩优异的学生加以提高。
由于在线学习的发展,关于网络学习环境下的学生成绩预测研究也有了新的发展,如在网络课程学习中基于学生学习行为的成绩预测[1],以及综合考虑在线学习者的学习背景、家庭环境,以及学习者的行为特征,基于各类分类算法优劣的比较,进行成绩预测的研究[2-3];第二类是基于独立算法或多算法融合的成绩预测研究,如:基于七门主干课成绩,通过贝叶斯网络的结构进行参数学习,并最终应用于学生成绩的预测[4];“基于模糊聚类和支持向量回归的成绩预测”[5]一文,不仅提出了成绩预测的一种融合算法,而且指出“现有的成绩预测模型往往过度使用不同类型的属性”的问题;刘毓等人[6]首先用相关分析法计算了基础课程成绩与目标课程成绩的相关系数,选取了与目标课程成绩相关度高的基础课程成绩作为输入项,然后引入遗传算法对反向传播(Back Propagation, BP)神经网络的初始权值和阈值进行优化,实现学生目标课程成绩预测;陈曦等人[7]在构建课程知识图谱的基础上,计算各课程在知识层面的相似度,并融入协同过滤学生成绩预测方法;以及基于多元回归和决策树模型的学生成绩预测研究[8],等等。
朴素贝叶斯算法使用简单,在各类研究中效果良好,故而在研究中大量出现。如基于朴素贝叶斯方法的文本分类研究[9],结合朴素贝叶斯算法与Bootstrapping方法的语义标注研究[10],改进朴素贝叶斯算法并应用于入侵检测的研究[11]。另外,在与其他算法结合应用的过程中也表现出了良好的分类效果[12-15]。本课题研究将学生成绩预测的数据收集范围限定在某一门课程之内,减少了数据收集的难度;利用朴素贝叶斯方法,使用经验知识不断修正预测结果,从而保证预测结果更趋紧于客观评价。