基于logistic回归的学生成绩预测模型研究

2023-08-10 20:49李果张萌康瑞
中国信息技术教育 2023年15期
关键词:学业成绩因变量线性

李果 张萌 康瑞

摘要:本文提出了一种基于logistic回归的学生成绩预测模型,目的在于预测学生的成绩,寻找出影响学生成绩的关键因素,从而帮助管理者更好地管理学生。作者首先对学生历史数据中的特征进行了可视化分析,以了解数据的分布、相关性等信息;接着将数据集划分为训练集和测试集两部分,以便建立和评估预测模型,并在此基础上建立了一个logistic回归模型来预测学生成绩,同时对预测结果的准确率进行了评分;最后剔除了无关特征再次建模,对预测模型进行再次评估。结果表明,优化后的成绩预测模型的预测准确率有所提升,能够有效地预测學生成绩。

关键词:机器学习;logistic回归分析;成绩预测

中图分类号:TP399  文献标识码:A  论文编号:1674-2117(2023)15-0077-04

引言

随着互联网技术的迅速发展,教育相关数据的收集变得更为方便快捷,对教育大数据的分析、挖掘和应用是教育发展的重要需求和必然趋势。将信息技术应用到教育领域,也为教育教学带来了质的提升。在传统的教育教学过程中,教师通常仅通过学生的课堂表现、作业完成情况及质量、阶段考试成绩等预测学生未来参与考试的成绩情况,缺少具体的数据及相关统计学理论做支撑,导致预测结果具有强烈的主观性,加上学生考试成绩形成的复杂性,使得预测结果和实际情况存在较大的偏差。因此,目前,大量基于机器学习的成绩预测模型相继出现,用以帮助教师实时掌握学生实际学习情况,科学有效地改善了教育效果。

笔者收集了480名学生的基本情况信息和课堂内外表现的量化数据,将数据进行可视化处理,对某些特征属性进行了分析,推测其对学业成绩存在的影响。接着,将该数据集划分为训练集和测试集,对训练集中的样本进行建模,以此得出最佳模型参数。随后,在测试集上运用这些参数,以便评价模型的有效性。最后,剔除相关性不大的特征数据,重新建模预测。实验结果表明,优化后的模型预测准确率提高。利用学习成绩预测模型对学生的学业成绩进行预测,能够使教师及时了解学生的学习状态与学习效果,并根据当前情况制订针对性的教学方案,进行差异教学,满足不同学生的个性化学习需求。

logistic回归模型

线性回归模型用于识别连续型因变量与一个或多个自变量之间的关系。当只有一个自变量和一个因变量时,称为简单线性回归;而随着自变量数目的增加,则被称为多元线性回归。对于每种线性回归,都会力求绘制一条通过一组数据点的最佳拟合线,这通常使用最小二乘法来计算。与线性回归类似,逻辑回归也用于估计因变量与一个或多个自变量之间的关系,只是其作用是对分类变量与连续变量进行预测。分类变量可以为true或false、yes或no、1或0等。

logistic回归分析的核心内容是研究二分类或多分类因变量和一组自变量之间的关系[1],确定自变量对因变量的影响程度,从而预测因变量取值的可能性。在一般线性回归分析中,因变量y为数值型连续变量,若假定自变量个数为1,则其与自变量x之间的线性关系如下:

(1)

在逻辑回归中,是用逻辑函数把线性回归的结果(-∞,∞)映射到(0,1),其中线性回归函数的数学表达式为:

(2)

其中,xi是自变量,y是因变量,y的值域为(-∞,∞),θ0是常数项,θi(i=1,2,…,n)是待求系数,不同的权重θi反映了自变量对因变量不同的贡献程度。线性回归若线性条件不符合,可以对y或者x进行转换,以满足线性回归的要求。因此,统计研究者对待求解系统进行了转换,称之为logit转换。logit函数的值域为(0,1),函数表达式为:

(3)

其中,z=θTx。通过上述变化,将g(z)的输出表示为一个分类问题在给定x的条件下等于0或者1的概率。

实验数据

1.数据来源

笔者使用阿里云天池公开的数据集:学生成绩预测数据集。该数据集是一个多变量数据集,包含了480名学生的基本情况和课内外表现的量化数据。其中,每一个数据样本都有17个特征属性,前16个是自变量,如性别、国籍、出生地等,最后一个为因变量,为学生的学业成绩。需要说明的是,学生最后的实际学业成绩以等级方式展现,L代表分数区间在0~60,M代表分数区间在70~89,H代表分数区间在90~100。模型构建的最终目的是通过这些特征来预测学生的最终学业评测成绩,预测成绩也将以等级方式呈现,即L、M、H三者之一。该数据集480名学生的特征如下表所示。

2.数据预处理

缺失数据会影响分析的准确性和可靠性,可能会导致结果出现偏差。剔除缺失数据可以防止过拟合,过拟合会影响模型泛化能力,使得模型在训练集上表现优异,但在测试集上表现较差,也有助于更快地训练模型。笔者运用Idle Python软件,输入核心语句print(df.isnull().sum())并运行,查看480名学生信息是否存在缺失值,如有缺失,进行异常数据清除。运行结果显示480条数据均无缺失值,表明均为有效数据。

大多数用于分类的机器学习算法都是围绕每个类别的样本数量均相等的假设来设计的,因此,倘若数据集分类不平衡,则模型会偏向于预测频繁出现的类别,而忽略其他类别,从而导致构建的模型的预测结果不准确。例如,如果数据集中特定类别的样本比其他类别的样本多得多,那么模型可能会偏向于预测这个特定类别,从而导致准确率下降。因此,为了确保模型能够准确地预测结果,数据集的分类必须较为平衡,这是数据集构建或采集时需要考虑的一个问题。数据集的可用性可以通过观察数据集中类别的样本数量是否相当来评估,输入关键代码可得到成绩等级分布情况(如图1)。

在480名样本数据中,三个等级(L、M、H)的成绩分布人数均在100人以上,其中分数区间在0~60分的学生人数较多,分数区间在70~89分的学生人数与分数区间在90~100分的学生人数相当,数据集的分类较为平衡,这是保证模型准确地预测结果的前提。

3.数据可视化

可视化的目的是探索数据规律,发现数据之间的关系,如特征与目标变量之间的相关性。笔者将该数据集的480名学生的部分特征(性别、班级、学期、孩子家庭教育负责人、家长对学校的满意度、学生缺勤天数)按学生成绩等级进行划分,了解两者之间的关系,如图2所示。

子图(a)显示,男生中成绩等级处于L的人数多于成绩等级处于H的人数,男生低分人数多;女生中成绩等级处于H的人数多于L等级的人数,女生低分人数少。无论是在中国还是国际上,均存在男性的学习成绩明顯落后于女生的情况。[2]男生的注意力容易分散,经常会在学习的过程中分心,而女生比较容易集中注意力,能够把精力放在学习上。此外,男生也更容易受到外界的干扰,如媒体、网络等,容易分散学习精力,而女生往往更能够集中注意力学习,故而低分少。

子图(d)显示,父亲作为家庭教育负责人的学生成绩等级为L的人数远多于成绩等级为H的人数,即处于低分的学生人数较多;而家庭教育负责人为母亲的学生,L、M、H三等级人数呈阶梯上升趋势,处于高分等级的人数最多。这与父母在家庭教养活动中的不同作用及性别角色差异有很大联系。精神分析理论认为,与父亲相比,孩子更依恋母亲。[3]母亲往往比父亲更能理解孩子的需要,更加灵活地支持他们的学习,从而使孩子更容易取得好成绩。有研究显示,在教养方式上,父亲的情感表达以及耐心方面都弱于母亲,但在创造力、勇气等品质培养方面又普遍强于母亲[4],母亲往往更有耐心地辅导孩子。情感细腻的母亲更关注孩子的身体健康与情绪体验等。[5]由于母亲更多地参与子女的日常生活,她们更了解孩子的行为,更容易发现孩子学习中的问题,从而及时采取措施帮助孩子改善成绩。

而从子图(e)和子图(f)中也可以看出,“家长对学校的满意度”及“学生缺勤天数”均与学生成绩有关联。一般来说,家长对学校的满意度越高,学生的成绩往往也越高。学校给予学生充分的关心和支持,提供良好的学习环境,学生学习的效果就会更好。同样,家长也会感受到学校的关心,从而更加支持孩子的学习,这样就能更有效地帮助孩子取得更高的成绩。而学生缺勤天数对学生成绩也有显著的影响。缺勤天数多,学生便无法得到足够的学习机会,不能充分参与课堂,导致无法全面掌握课程内容,降低学习效率,进而影响考试成绩。

结果与分析

1.模型构建

本文实验环境为Win10 64 bit操作系统,分析和建模的程序基于Python3.7。研究调用Python语言的scikit-learn项目完成,Logistic回归在linear_model.Logistic Regression中实现。其中的关键环节是使用fit()方法训练模型,最后利用训练得到的模型对数据集进行预测,使用predict()输出预测结果。模型训练前需要拆分数据集,将该数据集划分为两部分,其中,80%的数据作为训练集,剩下的20%作为测试集。关键代码如图3所示,运行结果如图4所示,输出测试集中前10名学生的预测成绩,并为该预测模型打分。

由图5可知,测试集中前10名学生的实际学业成绩等级依次是M,M,M,L,M,H,H,M,M,L。模型最终预测的前10名学生的成绩依次是H,M,M,L,H,H,H,H,M,L。除了第1、5、8名学生的预测学业成绩与实际成绩不符外,其他学生预测成绩与实际成绩均相同,且模型预测准确率评分约为0.740。

2.模型优化

由于在数据可视化部分已经可以发现无论在“A”“B”“C”哪个班,其成绩分布都高度趋同,所以猜测“班级”特征与学业成绩关系不大,因此尝试剔除“班级”特征数据后再进行建模。核心代码为X=df.drop([‘Class,SectionID],axis=1),运行结果如图6所示,可以看到相比优化前的模型,预测准确率得到提升。在测试集前10名学生中,仅第1、8名学生的预测学业成绩与实际成绩不同,预测准确率评分上升至0.802。

结论

本研究对可能影响学生成绩的多个因素进行了分析,并基于logistic回归建立了学生未来学业成绩预测模型。该模型能够有效地捕捉学生特征属性与学业成绩之间的复杂关系,进而帮助教师及时调整教学方案,更有针对性地提高学生的学习效率,降低学习失败率。

参考文献:

[1]庄立纯,张正军,张乃今,等.基于非线性Logistic模型的改进UDEED算法[J].计算机工程,2019,45(07):208-211.

[2]李梦竹.初中生学习成绩的影响因素及其性别效应[J].基础教育,2018,15(01):99-108.

[3]McKinney,C.,& Renk,K.Differential parenting between mothers and fathers:implications for late adolescents[J].Journal of Family Issues,2008,29(06):806-827.

[4]Sofie K,Eva C.Parenting Styles:A Closer Look at a Well-Known Concept[J].Journal of Child and Family Studies,2019(28): 168-181.

[5]万荣,李小龙,陈竞蓉.父母教养方式对小学高年级学生学业拖延的影响:一个有调节的中介模型[J].陕西学前师范学院学报,2020,36(07):112-121.

作者简介:李果,女,汉族,硕士研究生,研究方向为教育信息化;张萌,女,汉族,硕士研究生,研究方向为教育信息化;康瑞,女,汉族,硕士研究生,研究方向为教育信息化。

猜你喜欢
学业成绩因变量线性
渐近线性Klein-Gordon-Maxwell系统正解的存在性
基于回归分析模型的学生学业成绩差异研究
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
线性回归方程的求解与应用
适应性回归分析(Ⅳ)
——与非适应性回归分析的比较
二阶线性微分方程的解法
偏最小二乘回归方法
学业成绩与习得性无助:有调节的中介效应
大学生上网情况与学业成绩关系的实证研究
大专护生自我效能感、就业取向与学业成绩的关系研究