机器学习在数学成绩预测中的应用研究

2020-05-14 02:42杜佳恒邱飞岳
教育教学论坛 2020年16期
关键词:支持向量机机器学习决策树

杜佳恒 邱飞岳

摘要:学生的成绩是教师优化教学过程、调整教学决策的重要标准,文章运用了多种机器学习算法对学生的数学成绩进行建模,通过比较模型的准确率、精确率、召回率、F1-Score,最终确定了人工神经网络是最优的模型。通过对数据特征重要性评估,得出了影响学生成绩的主要因素是母亲的工作、父亲的工作、出勤量、挂科数、健康状况、出去玩的频率及周饮酒量的结论。

关键词:机器学习;成绩预测;支持向量机;朴素贝叶斯网络;决策树;神经网络

中图分类号:G642.0     文献标志码:A     文章编号:1674-9324(2020)16-0101-02

一、引言

近年来,随着信息技术的发展,人类正从IT时代走向DT时代,教育相关的数据在内容与数量上有了巨大的增长,越来越多的研究者开始对教育数据进行探索和分析,目的是发现教育的新特点、新规律,以提高教学水平和教育质量。本研究将机器学习算法方面的内容应用到教育领域中,通过对学生数学成绩数据进行预处理、特征选择、模型构建及评估来预测学生的成绩,从而为老师提高学生成绩提供一定的建议。

二、研究方法

本次研究将采用多种机器学习算法对学生的成绩进行预测,包括支持向量机、朴素贝叶斯网络、决策树、人工神经网络。通过对各个模型的对比,最终选择出一个最优的模型,并根据该最优模型为老师的教和学生的学提供一定的指导。

三、实验数据

本次研究中用到的数据集来源UCIMachineLearningRepository,它是一个多变量数据集,由30个特征列和一个目标列构成,包括395条学生数学成绩及一些影响成绩的相关数据,如人口统计学、社会和学校相关的数据等。

四、数据预处理与特征选择

首先对数据进行探索性分析,检查数据集有没有空缺值及异常值;对于目标列,这里按照大于10分设为1,其他为0的方式进行量化,目的是通过训练,找出可以预测分数的模型。由于该数据集包含不同内容和范围的数据,所以如何对其进行归一化就显得特别重要,因为进行了归一化后的数据可以使模型更加有效地进行建模。对于文本数据,我们首先可以将其数字化,而后对其进行独热编码。

其次是特征选择,特征选择主要的特点是选择一个子类的特性,可以作为一个输入数据,并减少不合适的数据,此步骤有助于提高对给定数据集预测的准确性。在本研究中,我们采用随机森林计算特征重要性程度,以检验哪些特征对学生的成绩最重要。图1显示了基于熵的特征重要性。在特征选择过程中,需要选择高等级特征,排除其他特征。

五、成績预测模型构建

基于上述预处理后的数据,采用10折交叉验证的方式,分别采用支持向量机、朴素贝叶斯网络、决策树和神经网络进行了实验。

实验运行的环境是:Windows10家庭版、Python3.7、Inteli7-7500U以及8G内存。预测模型各个指标的性能如表1和表2所示。这里使用的性能评价标准为准确率、精确率、召回率、F1-Score。准确率是用来衡量模型对数据集中样本预测正确的比例;精确率是指被预测为正例的样本中有多少是真正的正例;召回率是用来评判你有没有把样本中所有的真的正例全部找出来,指的是预测为某一类别的真实类别占所有真实类别的比例;F1-Score是指精确率与召回率的调和平均值。

六、总结

本文通过多种算法对学生成绩进行了建模,通过比较模型的准确率、精确率、召回率、F值,确定了人工神经网络为最佳的分类模型,并得出了影响成绩的主要特征。通过实验结果,可以为学校管理者、教师开展精准教学提供一定的参考,由于本次数据集不大,会影响模型的准确率,接下来将会收集更多数据进行建模。

参考文献:

[1]胡祖辉,徐毅.大数据背景下高校教育数据的分析与应用研究[J].现代教育科学,2017,(01):109-114.

[2]徐玮.大数据对高等教育的影响和挑战[J].教育教学论坛,2013,(37):4-5.

[3]ROMERO C,LOPEZ MI.Predictingstudents'final performance from participation in on-line discussion forums[J].Computers & Education,2013,(68):458-472.

Research on the Application of Machine Learning in Mathematics Achievement Prediction

DU Jia-heng,QIU Fei-yue

(Zhejiang University Technology,Hangzhou,Zhejiang 310014,Chian)

Abstract:Students' performance is an important standard for teachers to optimize teaching process and adjust teaching decision-making.In this paper,a variety of machine learning algorithms are used to model students' mathematical performance.By comparing the accuracy,accuracy,recall rate and F1 score of the model,it is finally determined that the artificial neural network is the optimal model.Through the evaluation of the importance of data characteristics,the main factors affecting students' performance are mother's work,father's work,attendance,number of subjects,health status,frequency of going out to play and weekly alcohol consumption.

Key words:machine learning;performance prediction;support vector machine;naive bayesian network;decision tree;neural network

收稿日期:2019-06-10

作者简介:杜佳恒(1994-),男(汉族),浙江杭州人,浙江工业大学教育科学与技术学院,硕士研究生在读,研究方向:教育大数据与学习分析。

通讯作者:邱飞岳。

猜你喜欢
支持向量机机器学习决策树
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用