基于支持向量机的大学生学业动态预警研究

2017-09-16 20:00吴暾华王萍刘婷

中国教育信息化·高教职教 2017年9期

吴暾华++王萍++刘婷

摘要：传统的大学生学业预警策略依赖大量人力，效率低且成效不足。为此引入数据挖掘技术自动预测将来学习成绩并及时发出预警信息。首先从现有业务级信息系统中抽取并构造学业状态特征向量；然后运用支持向量机进行统计学习得到非线性预测模型；最后利用模型自动发现学习状态不佳的学生并发出预警。经测试本方法的准确率达84%，可有效提高学业监督效率，并可推广应用于学生党建信息挖掘、学习目标预测等其它个性化管理领域。

关键词：支持向量机；学业预警；数据挖掘；大数据

中图分类号：G642 文献标志码：A 文章编号：1673-8454（2017）17-0065-03

一、引言

大学生相比中小学生具有以下特点：①学习生活更加自由，没有强制晚自习、没有频繁的考试测验、没有父母的督促，各种欲望更加强烈，精力更易分散；②价值观易发生改变，学习主动性、积极性容易动摇，甚至产生“读书无用”、“混学位”的观念，极大降低了学习热情。因此，大学生的学业状态波动较大。有很多高考成绩非常优秀的学生，因过渡沉溺于游戏、谈恋爱、兼职等活动，补考、挂科连连甚至退学。纵观学业下滑的学生，多数在早期没有及时发现、及时劝导，以致积重难返。显然，早期及时发现问题是关键，但这需要辅导员、班主任及任课教师付出极大的努力，工作量巨大。因此，借助新的信息技术（如大数据、数据挖掘技术）成为学业自动监督的关键途径，对于提升学生的学习成绩、提高学校的教学和管理水平都具有深远的意义。[1]

当前，全国高校普遍实施了数字化校园建设。其中，学生管理系统实现了信息管理、信息发布、互动交流、网上办事、在线教学等主要功能。这些功能模块基本都停留在业务操作级，不外乎增、删、改底层数据，计算机只不过是一个复合的操作工具，替代了落后的纸质管理模式，而隐藏在这些底层数据中的知识、规律长期得不到发掘。例如，学生出入图书馆、借阅书刊需要刷卡，那么通过分析学生在图书馆的刷卡数据不难发现其学习的主动性、学习的兴趣点等有用信息，利用这些由底层数据挖掘得到的信息可帮助教师、辅导员或其它管理者更有针对性地为学生服务。[2][3]

目前国内外已开展了许多学业状态预测研究。主要运用关联规则、聚类、决策树、统计学习等方法，分析先前课程成绩对后续课程的影响，预测后续课程的成绩。[4-7]也有研究根据家庭情况、生活习性等外围因素推断是否预警。[8-10]但综合学习和生活特征进行学业预警的研究，目前未见述及。因此，本研究的特色在于综合学生当前的学习生活状态以及过往的学习成绩预测将来一段时间（如期末考试时）的学业表现。

二、基于支持向量机的学业预警方法

Vapnik 提出支持向量机[11][12]（Support Vector Machine， SVM）是有监督的统计学习方法，可构建特征组与类别之间的非线性关联。基于SVM的学业预警方法如下：

第一步，构造学业状态特征向量，如表1所示，由考勤指数、“宅”指数、学习指数、成绩指数以及家境这五个可能影响学业的关键指标构成，并将预测结果划分为“好、中、差”三级，如表2所示，进而根据预测结果给予相应处理。表1给出了各指标的依据、量化方法和数据来源。注意，任何一个指标都无法完全刻画学业状态，只是可能的影响因素。

第二步，从学校的相关业务级信息系统（如教务、学生信息管理系统）抽取基础数据并按照表1和表2的量化方法构造学业状态样本集（由学业状态特征向量和人工标定的状态类别构成）。所构造的样本集分为两组，一组用于训练SVM分类器，另一组用于测试方法的正确率、验证方法的有效性。

第三步，选择RBF型核函数，采用交叉验证选择最优参数——惩罚因子C及核函数参数γ。（具体详见实验部分）然后采用“一对一”方法从训练集统计学习得到3个SVM分类器。

第四步，运用得到的3个SVM分类器对测试样本分别进行测试，并累计各类别的得分，选择得分最高者所对应的类别作为测试样本的预测结果。若预测结果与人工标定的类别一致，表明预测正确，反之错误，如此可知分类器测试的总体正确率。当正确率达到阈值，即可对任意学生的学业状态进行预测；反之重新构造样本集，调整参数再次学习。

在本研究中，考试成绩为五级记分制：原始成绩85-100分记为5点（优秀）；75-85（不含）分记为4点（良好）；65-75（不含）分记为3点（中等）；60-65（不含）分记为2点（及格）；不及格记为0点。平均绩点可反映学生当前成绩状态。

三、实验与分析

1.实验方法及结果

在实验中我们采用的SVM软件包为LIBSVM。LIBSVM 是台湾大学林智仁博士等开发设计的一个操作简单、易于使用、快速有效的通用SVM 软件包，也是目前最流行的SVM软件包之一。[12]

LIBSVM 使用的步骤是：①按照LIBSVM软件包所要求的格式准备样本集（本实验构造了1200个样本，其中200个用于交叉验证，600个用于训练分类器，400个用于测试验证）；②对数据进行简单的缩放（Scale）操作；③选用RBF核函数；④采用交叉验证选择最佳参数：惩罚因子C及核函数参数γ；⑤采用最佳參数C与γ对整个训练集进行训练获取SVM模型；⑥利用获取的模型进行测试分类。

本研究采用交叉验证法来确定惩罚因子C及核函数参数γ。从训练集中划分出一部分样本用于v-fold交叉验证，称为交叉验证集。将交叉验证集平均分成v份，形成v个子集。对于参数C和γ的不同组合重复如下操作：按顺序保留1个子集作为测试集，其他v-1个子集作为训练集并训练其得到SVM分类器，利用该分类器对测试集进行测试并记录准确率，直到所有子集都被测试过，再取这v次测试的平均准确率作为该次交叉验证的准确率。这个过程相当于对C和γ进行遍历，最终选择交叉验证准确率最高时的C和γ。经过交叉验证得：C=4.0，γ=2，准确率为92%，交叉验证的份数v取3，如图1所示。然后运用SVMTrain.exe结合最佳参数对整个训练集进行训练即可获取SVM模型。最后运用SVMPredict.exe和学习得到的SVM模型对测试样本集进行验证。实验结果表明，在400个测试样本中，正确预测了335个，准确率近84%。endprint

2.实验结果分析

本方法的识别率受以下两方面因素的共同制约：推断依据（特征指标）选取的准确性和完整性、多分类向量机固有的问题（“一对一”多分类向量机存在不可分区域，即输入同属于多个类别导致投票值相同的情况），若要进一步提高识别率必须在这两方面做更细致而深入的研究。此外，实际的预测准确率与运用交叉验证得到的平均准确率不同，是因为交叉验证时实际上按“一对多”的方式训练二分类并测试准确率，而在实际训练时我们采用“一对一”方式训练，相当于拿“一对多”时分类器最优的参数去训练“一对一”分类器，存在一定的偏差，性能往往有所下降。

四、小结

针对大学生学业自动预警问题，构建学业状态特征向量并运用支持向量机学习得到学习状态的预测模型，可自动发现学习状态不佳的学生并发出预警。实验结果表明本方法可有效提高学业监督效率，对于提高学生的个性化管理水平具有推动作用；同时，还可推广应用于学生党建信息挖掘、学习目标预测等其它个性化管理领域。

参考文献：

[1]万辉.大数据在高校学生管理工作中的应用[J].高校辅导员学刊，2014（4）：48-51.

[2]金博闻，吴暾华.大数据时代高校学生个性化管理新方法探索[J].当代教育实践与教学研究， 2017（3）：82.

[3]高曉东，周建.高职院校图书馆大数据在学业预警中的应用[J].图书馆学刊， 2015（1）：115-117.

[4]Natek S， Zwilling M. Student data mining solution-knowledge management system related to higher education institutions[J].Expert Systems with Applications，2014，41（14）：6400-6407.

[5]王凯成.基于数据挖掘的大学生学业预警研究[D].上海师范大学，2012.

[6]薛卫京，王海洋，孟建.数据挖掘技术在高校学生管理中的应用[J].中国高等医学教育， 2008（10）：81-82.

[7]马君亮，陈二静，曹婷，林春娜，叶宇晗.学习质量动态跟踪系统的设计与实现[J].现代电子技术，2015（18）：30-32.

[8]宫锋.数据挖掘在高校学生学业预警中的应用[J].电子技术与软件工程，2017（4）：202-203.

[9]金义富，吴涛，张子石，王伟东.大数据环境下学业预警系统设计与分析[J].中国电化教育， 2016（2）：69-73.

[10]Pe？觡a-Ayala A. Educational data mining： A survey and a data mining-based analysis of recent works[J].Expert Systems with Applications，2014，41（4）：1432-1462.

[11]Maldonado S， López J. Robust kernel-based multiclass support vector machines via second-order cone programming[J].Applied Intelligence，2017：1-10.

[12]吴暾华.面向中医面诊诊断信息提取的若干关键技术研究[D].厦门大学，2008.

（编辑：王天鹏）endprint