基于校园一卡通消费数据对高校贫困生分类的应用研究

2016-05-14 00:13张玺呙森林孙宗良
数字技术与应用 2016年8期
关键词:校园一卡通支持向量机数据挖掘

张玺 呙森林 孙宗良

摘要:目前,各大高校都建立了较为全面的贫困大学生资助体系。但是在确定受助人员时存在很大的不确定性,没有具体的贫困指标量化,真正贫困的同学碍于面子,缺乏主动性,非贫困生浑水摸鱼等情况导致贫困生认定工作依旧是高校资助决策的难题。为了寻求一种客观,公平,公正的方法,本文采用支持向量机(Support Vector Machine,SVM)对学生校园一卡通的消费数据进行分析,将学生按贫困与非贫困分类,在高校资助决策工作中给予一定辅助。

关键词:校园一卡通 支持向量机 贫困生分析 数据挖掘

中图分类号:TP181 文献标识码:A 文章编号:1007-9416(2016)08-0100-01

我国在高校贫困生资助体系上已经相对完善,但是其评定工作由人工进行认定,所以在贫困材料的申请上很难甄别真假,外加每年申请贫困助学金的人数较多,没有具体的贫困指标进行量化,导致贫困生确定依旧是各大高校资助决策的一个难题。

随着校园一卡通的使用,其记录的学生个人消费信息值得我们深度挖掘。本文以成都理工大学校园一卡通的消费数据为基础,采用SVM对数据进行分类,在贫困生的资助决策工作中给予工作人员一定辅助。

1 支持向量机

支持向量机(Support Vector Machine,SVM)是一种二类分类模型,是Corinna Cortes和Vapnik等于1995年首先提出的。其主要思想是建立一个分类超平面作为决策曲面,使得正例和反例之间的隔离边缘被最大化。支持向量机的理论基础是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,考虑的是经验风险和置信界之和的最小化。根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中,以求获得最好的推广能力。

2 数据提取

校园一卡通数据记录了学生每天的消费行为,能够客观真实反映学生的贫困情况。根据对高校学生资助工作的调查和了解,本文提出:贫困生使用校园一卡通在校内消费的次数相对较高的假设。在数据提取中,必须满足所有学生每月在校内消费次数大于等于45次。

我们在学校资助中心由人工提取了700名具有代表性的贫困学生名单,并且提取了贫困学生近期半年内的校园一卡通消费记录和户口情况。其迟,我们随机从全校学生中选取了300名非贫困学生,获取了非贫困生近期半年内的校园一卡通消费记录和户口情况。

校园一卡通数据庞大,因此我们整理并提取了学生近期半年内的消费总次数,消费总金额,人均消费金额,每月消费次数,户口情况,性别与是否贫困。在SVM实现时,其输入和输出必须是数值型的,所以我们需要对相关数据进行预处理。户口分为农村户口和城镇户口,在数据输入时,我们用-1表示农村户口,1表示城镇户口。性别分为男、女,我们用-0.5代表女生,0.5代表男生。贫困分类为2类,以0代表非贫困,1代表贫困。

经过预处理,数据里一共包含1000个样本,每个样本含有4个特征值,分别为:消费总次数,消费总金额,户口情况,性别。每个样本的类别标签已给出。数据分类预测时,从1000个样本中随机选取800个样本作为训练集,200个样本作为测试集。

3 模型建立

模型建立首先需要从原始数据里把训练集和测试集提取出来,然后对数据进行一定的预处理,接着用训练集对SVM进行训练,再用得到的模型来预测测试集的分类标签。本案例中的模型是一个4输入,1输出的SVM模型。模型整体流程如图1。

4 实验及结果分析

该实验在matlab下编程进行。在数据预处理时将数据归一化到[0,1]区间,核函数采用RBF进行训练,并交叉验证选择最佳参数c,g。最终在测试SVM分类时,准确率达到77.5%(155/200)。其中SVM的实现采用的是libsvm工具箱(libsvm-mat)。从整个系统的分析来看,本实验提出的方法高效、快捷、可扩展以及直观性强。对高校的贫困生认定工作将有十分积极的贡献。

前期选取了学生近期半年内的校园一卡通每月消费次数和人均消费金额。每月消费次数用于筛选每月消费次数大于等于45次的学生。人均消费金额用于直观的反映学生的实际消费水平。其在后续的决策中也可以给予决策者一定的辅助。

5 结语

本文结合成都理工大学的实际情况,采用SVM进行数据分类。在得出SVM模型后,依据学生近期半年内的消费总次数,消费总金额,户口情况,性别四项指标对学生进行分类是否贫困,从而在贫困生认定工作中给予一定的帮助。

参考文献

[1]费小丹,董新科,张晖.基于校园一卡通消费数据的高校贫困生分析[J].电脑知识与技术,2014(20).

[2]刘文学,刘汝元.基于校园一卡通平台的数据挖掘应用分析[J].信息系统工程,2015(5).

[3]沈吉文.高校贫困生资助体系实施现状的思考[J].扬州大学学报,2008(1).

猜你喜欢
校园一卡通支持向量机数据挖掘
基于并行计算的大数据挖掘在电网中的应用
论提高装备故障预测准确度的方法途径
校园一卡通模式下的校园安全管理
基于支持向量机的金融数据分析研究
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究