王 琪
(中国矿业大学 教务部,江苏 徐州 221116)
基于数据挖掘技术的高校学业预警管理
王 琪
(中国矿业大学 教务部,江苏 徐州 221116)
随着我国高等教育从“精英教育”进入“大众化教育”,学生的学业问题日益突出。基于数据挖掘技术研究,结合高校信息化现状,综合运用遗传算法、BP神经网络设计预警模型,并使用现有教务管理系统的实际数据对学生的未来状态做出有效预测,实现对学生的学业预警管理。
数据挖掘;BP神经网络;遗传算法;学业预警管理
2013年全国各类高等教育在校总规模已达到3 460万人,高等教育毛入学率达到34.5%。在如此规模宏大的高等教育阶段,提高高校人才培养质量显得尤为重要,《国家中长期教育改革和发展规划纲要(2010-2020年)》中明确指出“提高质量是高等教育发展的核心任务”。而要提高人才培养质量,高校的教务部门、学工部门就不能仅根据现有的学生数据状况和主观感官对学生进行管理,而应预测学生在校期间未来可能出现的状态,并采取相应的措施,进行积极引导。纵观国内高校信息化建设的现状,我国几乎所有的高校都建立了自己的校园网和信息系统,尤其是现代教务管理信息系统,几乎每个高校都已积累相当多的数据,但对这些数据各高校基本上都没有进行深入挖掘开发。现阶段,高等学校的教务管理信息系统功能主要集中在数据的收集和初步统计方面,如:输入数据的准确性、及时性,学生成绩的不及格门次、学分统计,算术平均分、学分加权平均分以及班级成绩统计、班级排名、专业排名计算等;也有部分学校采取根据学生成绩的预警管理机制,但只是依据其现有的成绩对学生进行预警管理,如学生不及格门次、成绩平均分等,并没有深层次分析处理学生成绩。
在信息爆炸的时代,数据挖掘的相关研究十分活跃,其在诸多行业中逐渐成为研究热点。数据挖掘技术是为解决“数据丰富、知识贫乏”这一现象,在数据库管理系统基础上发展起来的一门新技术。数据挖掘的实质是一种发现知识的应用技术,是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程,它是一门集统计学、人工智能、模式识别、并行计算、机器学习、知识工程、面向对象方法、信息检索、数据库等技术为一体的一个交叉性的研究领域。数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展;现在数据挖掘的研究重点正逐渐从发现方法转向系统应用,且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。
因此,将数据挖掘技术相关理论及算法用于高校现代教务管理系统中,充分利用高校教务管理系统数据库数据来设计开发学生管理预警模型,既扩充了数据挖掘技术的应用领域、也有效解决了高校学生的预警管理问题。
BP神经网络是一种按误差逆传播算法训练的多层前馈映射网络,是目前广泛应用的神经网络学习算法之一。遗传算法类似于自然进化,通过作用于染色体上的基因寻找好的染色体来求解问题。
基于BP算法的神经网络通过多个具有简单处理功能的神经元的复合作用,使网络具有非线性映射能力,由于BP算法的训练是基于误差梯度下降的权重修改原则,其结果不可避免的存在局部最小问题,结构设计问题以及实时性差问题等,因此将其用于学生未来状态预测中尚存在一定缺陷。遗传算法是根据生物进化思想而启发得出的一种全局优化算法,在本质上是一种不依赖具体问题的直接搜索方法,仅需给出目标函数的描述,从一组随机产生的称为“种群(Population)”的初始解开始,从全局空间出发搜索问题的最优解。由于遗传算法善于全局搜索,且能以较大的概率找到全局最优解,故用它来完成前期搜索能较好地克服BP算法局部极小的缺陷。将GA和BP结合起来,形成GAOBP混合训练算法,以GA优化BP网络。这种方法既避免了BP网络易陷入局部极小问题,同时也达到优化网络目的,更能实现对学生未来状态的较好预测。基于以上分析,本文采用遗传算法和神经网络相结合的方法解决学生未来姿态的预测问题。
本文从高校教务信息系统中抽取部分数据进行学业预警管理研究,现选取专业甲2010级学生相关信息作为挖掘数据库进行数据挖掘。本次学业预警管理系统研究中选择学生入学时成绩情况、大一结束时成绩以及第一学年的学生素质发展综合测评情况等三大部分组成输入量指标,共计29个输入指标,指标构成如表1所示。选择大学4年共计7学期所有成绩的加权平均分作为输出量。
在此次选次的目标数据中,2010级学生并不一定全部报到,同时也不一定全部顺利毕业,因此要清除其中的未报到、试读、结业的学生信息及其相关数据。
表1 输入量指标构成
从输入、输出变量的性质来看,变量一般分为两类:一类是数值变量,一类是语言变量。数值变量的值是数值确定的连续量或离散量,语言变量是用自然语言表示的概念。其“语言值”是用自然语言表示的事物的各种属性,如:颜色、性别及规模等都是语言变量。当选语言变量作为网络的输入或输出变量时,需将其语言值转换为离散的数值量,此次数据挖掘研究所确定的目标数据库中,“优秀”记为“90”,“良好”记为“80”,“中等”记为“70”,“及格”记为“60”,“不及格”记为“0”。
标准化就是所有分量都在0~1或-1~1之间变化,从而使网络训练一开始就给各输入分量以同等重要的地位。本次数据挖掘研究中采用的处理公式是
其中,pn为样本数据;min p为样本数据中的最小值;max p为样本数据中的最大值。编写输入变量标准化函数Standard.m,对指标值以及样本值进行标准化处理,将上述数据标准化处理为[0.2,0.8]之间的标准数据。
本文采取同时优化神经网络结构及初始权值、阈值方法建立模型,其原理是通过遗传算法的嵌套,实现神经网络的初始权值、网络结构的同时优化。遗传算法嵌套,第一层为优化神经网络的结构,对隐层节点的个数进行编码;第二层为优化网络的初始权值,对固定网络结构的初始权值进行编码。每一个第一层个体对应一类固定的网络结构,通过对这一固定结构进行第二层遗传优化可得到该第一层个体所对应的初始权值编码最优个体。以最优个体的适应度值(网络输出误差)作为对应第一层个体的适应度值,并通过遗传操作即可得到网络结构和初始权值的最佳组合。
利用遗传算法优化BP神经网络的结构,关键是对于隐层节点数的确定,本文选择含有1个隐层的三层BP神经网络作为模型的基本结构;同时,为避免节点个数过多导致模型过拟合,确定模型隐层节点数的上限为bounds。优化算法的具体步骤主要包括:①编码和群体的产生;②群体中个体适应度的检测评估;③选择适应度值高的染色体进入下一代;④通过交叉、变异操作产生新的染色体;⑤不断重复步骤②~④直到预定的进化代数,得出最优个体x。经过步骤①-⑤,求解到最优个体x,对于x进行解码将二进制序列转化为十进制即可得出模型隐层节点数,x所对应的适应度值即为该模型当初始权值和阈值为最优的情况下所对应的网络输出误差的倒数,进而可列出模型的最优初始权值及阈值。
经过深层次分析并结合本次研究实际情况,确定隐层节点数的上限为bounds=15,同时经过多次实验确定遗传算法参数Pc=0.45,Pm=0.05,M=25,G=17。在确定隐层节点数、初始权值和阈值时,采用遗传算法相互嵌套的方法同时对网络模型的初始权值进行选择,解决了遗传算法在优化神经网络的应用领域中,仅能单独对网络结构或权值进行优化的问题,将两者合理的结合在一起能够提高建模过程中的客观性和精确性。利用MATLAB软件调用主程序mfunction(编写)得到隐层节点数、始权值及阈值分别为n、W1、W2、B1、B2,具体如下:
最终学生未来状态预测模型是一个有29个输入、1个输出、1个隐层的三层、4个隐层节点的BP神经网络,初始权值及阈值分别为W1、W2、B1、B2,其网络结构如图1所示。
图1 BP神经网络结构
在确定BP网络结构后,要通过输入和输出样本集对网络进行训练,也就是对网络的阈值和权值进行学习和修正,以使网络实现给定的输入输出关系。基于此次研究初始权值比较少,现选取LM算法的trainlm作为学业预警研究的训练函数,其参数选取见图2。
图2 训练函数的参数选取
利用MATLAB语言编写的程序TrainModel(编写),亦可使用MATLAB函数,采用经过执行MATLAB程序fenkai(编写)后生成的标准化输入数据P、TP及相应的标准化输出数据T、TT作为Input Data和Target Data进行模型训练及检测,输入P,T经上机运行可得到BP迭代过程误差曲线神经网络模型输出误差。由运行结果可知,模型仅通过11次迭代就达到了误差目标要求,输出误差平均值仅为7.2e-03,处理为正学成绩平均误差为0.69分,121个训练样本的输出值与期望输出值之间的误差均小于0.03,样本最大误差绝对值为0.028 2,最小误差为1.9696e-005,76%的样本输出误差小于0.01,这说明该模型具有很好的拟合精度。对于模型的泛化性能通过数据检验数据进行检测,如图3所示。
图3 模型的泛化性能检测
将TP、TT作为检验数据Input Data和Target Data输入模型,运行得到神经网络模型检验结果,由结果可知,该模型的误差平均值为0.026 6,全部检测样本误差均小于0.1,最大误差绝对值为0.095 3,最小误差绝对值为2.1230e-005,50%的输出误差小于0.02,83%的输出误差小于0.04,分析可知该神经网络模型具有良好的泛化性能。
由模型训练结果和检测结果不难看出,模型训练的误差相当低,模型检测结果的误差也比较小,在误差允许范围内,可用于对学生进行预警管理。
通过数据挖掘技术和现代教务管理信息系统的有机结合,可实现对学生2~3年后未来状态的预测,高校学生管理工作者完全可利用此模型对在校学生进行有效预警管理。有效预警管理是基于现有多方面数据深层次分析后的结果所做出的预警管理,不仅是依据现有的成绩进行预警。在使用模型预测后,可根据预测结果将预警管理分为红色预警、黄色预警及绿色预警。所谓红色预警是指将来在校学习期间成绩可能会较差的学生、绿色预警是指将来学习成绩可能比较优秀的学生,黄色预警介于二者之间。
针对红色预警学生,可逐一分析其学习困难原因,并安排互帮互学。辅导员或班主任要尽可能和红色预警的每位同学进行逐个谈话,帮助分析原因,以期尽快找到合适的学习方法,提高学习成绩。同时,可以实施“学院-课堂-寝室-家长”四位一体的模式,全方位对其进行帮扶,对于红色预警的学生也可适当的减少其课外活动,增加学习时间,在学习内容方面要也以学习本专业课程为主,不鼓励其过多涉猎非本专业培养计划内课程。此外,对于红色预警的学生,也可以分为两类管理,区别对待。
一类是学而不好。这类学生,学习时间用的不少,就是学习方法不对,不要过多批评;其学习不太好,不是主观不努力造成的,要以合适的方式帮扶,在鼓励的同时进行帮扶,如:学院安排以学习优秀的学生对其进行一对一帮扶,在潜移默化中把好的学习方法传授过去。
另一类是不学而不好。这类学生,自主性较差,要进行批评教育,严格管理。比如,对该类学生进行集中自习管理,非上课时间规定去指定教室上自习,实行点名统计制度,自习次数过少采取一定处理措施等。
针对此类学生,要以鼓励为主,既肯定其现有成绩,也要对其提出更高的要求,比如:你人很聪明,以现在情况来看,未来毕业时,成绩还是可以的,不过以你的学习能力来说,你完全可以取得更好的成绩,这样不管将来你是考研还是工作都会有更多的机遇等。
这类学生的成绩优秀,要注意控制其骄傲、自满情绪,既要表扬、鼓励,同时也要提出更高要求,使其在保持现有成绩并不断提高的同时,注意综合能力的培养。一方面优秀不是优,多方面优秀才是真正优。大学时间非常宝贵,要充分利用,鼓励其在学好本专业的同时进行辅修课程学习,同时对其的计算机水平、英语能力等可高标准要求。另外,以自愿参加的原则组织其对学习落后学习进行互帮互助、参加义务劳动、公益活动、献爱心等。
学业预警管理是根据学生现有的情况,以科学化的手段分析并发掘现实数据背后隐藏的真相,对学生进行有针对性的管理、引导,在减轻高校教师、管理人员工作压力的同时,提高高校学生的培养质量及成才率。
[1]中华人民共和国教育部.2013年全国教育事业发展统计公[EB/OL].(2014-08-23)[2015-05-23].http://www.moe.edu.cn/publicfiles/business/htmlfiles/moe/moe_633/201407/171144.html.
[2]储诚山,张宏伟,郭军.基于遗传算法和BP神经网络的用水量预测[J].中国农村水利水电,2006(4):36-37.
[3]刘奕君,赵摇强,郝文利.基于遗传算法优化BP神经网络的瓦斯浓度预测研究[J].矿业安全与环保,2015(2):56-60.
[4]袁安府,张娜,沈海霞.大学生学业预警评价指标体系的构建与应用研究[J].黑龙江高教研究,2014(3):79-83.
10.3969/j.issn.1673 - 0194.2015.18.177
TP311;G647
A
1673-0194(2015)18-0242-03
2015-07-27