基于高校学生消费数据的贫困生评价分析

2017-08-29 15:00谭浩田爱奎郑睿

电脑知识与技术 2017年21期

关键词：贫困生正确率矫正

谭浩，田爱奎，郑睿

(山东理工大学计算机科学与技术学院，山东淄博255091)

基于高校学生消费数据的贫困生评价分析

谭浩，田爱奎，郑睿

(山东理工大学计算机科学与技术学院，山东淄博255091)

校园一卡通系统已经被广泛应用，在日常的使用过程中产生了大量的消费数据。应用数据挖掘技术对校园一卡通的消费数据进行挖掘，基于RIPPER算法建立高校贫困生的分类模型，对高校贫困生认定具有一定得指导作用。同时，对挖掘过程中产生的分类不平衡问题引入了矫正矩阵进行矫正，得到了较好的结果。

数据挖掘；贫困生；分类不平衡；PIPPER

我国高等学校已逐步建立起基本方式有“奖学金、贷学金、勤工助学、困难补助、减免学费”的贫困生资助政策体系[1]。但贫困生资助政策及其实施过程中还存在一些问题：贫困生解困资金太少，不能满足需要；真假贫困生难分辨，部分学生“浑水摸鱼”；贫困生因强烈的自尊心而放弃资助等[2]。

校园一卡通系统是高校“数字化校园”建设的重要组成部分，其中消费是校园一卡通系统很重要的功能[3]。由于校园一卡通的广泛应用，积累了大量的消费信息，本文利用在校学生校园卡消费数据，采用了基于规则的分类算法RIPPER算法对数据进行挖掘同时引入了矫正矩阵对挖掘结果进行校正，得到了比较好的挖掘结果。建立了贫困生分类模型，对贫困生分评定起到一定得指导作用。

挖掘流程如图1所示。

图1 流程图

1 RIPPER算法与矫正矩阵

1.1 RIPPER算法

基于规则学习的分类算法RIPPER算法具有易理解、易优化、高效率等特点[4]。RIPPER算法的主体框架主要分为两部分：生成规则与优化规则[5。

1.1.1 生成规则

将数据集分为增长集与修剪集。

此阶段使用增长集，规则从空规则开始增长，使用贪婪算法在空规则中加入规则，每加入一条规则就将该规则所覆盖的实例从增长集中删去，循环添加规则知道增长集为空，或者增加的规则覆盖率低于阈值(自行设定)。然后进入剪枝阶段。

剪枝阶段使用修剪集，从规则最后一项依次向前删去规则，计算其在修剪集上的正确率。算法选择准确率最高且前件尽可能少的规则，但该规则的准确率至少要比空规则高。

1.1.2 优化规则

此时针对经过剪枝后的规则进行优化。通过生成两条备选规则，再比较三条规则的长度选择较小的留下。

备选规则1：从空规则开始增长，利用增长集和修剪集生成规则并剪枝。剪枝时需要计算的是规则在整个修剪集上的准确率而不是被覆盖的数据中的准确率。

备选规则2：从生成的规则开始增长，选出其中所有被规则覆盖的实例作为增长集，然后使用1.1.1中的方法继续往规则添加前件直到无法继续增长。然后使用修建集进行剪枝，使用的是整个修剪集上的准确率。

1.2 分类不平衡与矫正矩阵

分类不平衡是指训练样本在类间分布不平衡的问题[6]，简单地说就是某些类的样本数量远远小于其他类，当传统的机器学习方法用于解决分类不平衡问题时往往效果不是很好，得到的分类结果有很大的偏向性，比如将小类样本分到了大类中[7]。解决方法主要有：重采样法[8]，数据集划分[9]，分类器集成[10]等方法。

由于贫困生与非贫困生的数量悬殊，本文在分类时也出现了分类不平衡的问题。

为了解决该问题，本文引入了矫正矩阵对数据挖掘结果进行矫正。矫正矩阵如表1所示。

表1 矫正矩阵

显然，我们做了正确分类是不会蒙受任何损失的，但是不同的错误分类却很可能遭受相差巨大的损失。通过提高小类错误分类的代价即C(FP)/C(FN)的值来对分类结果进行较正，使分类向小类倾斜。

2 实验

本文抽取了某校2014级学生2015-2016学年第一学期的消费数据，包括账户ID，学号，消费金额，消费日期，操作人代码等，一共46万条数据。先对数据进行预处理建立数据仓库，让后运用PIPPER算法对数据集进行挖掘，同时，引入矫正矩阵对分类结果进行矫正，最后得到学生的分类。

2.1 数据预处理

得到的数据表不能直接进行挖掘，由于用户信息和消费信息存在不同的表上，先通过学号(OUTID)关联成一张表。对数据进行数据清理，数据集成，数据转换，数据规约等手段对数据进行预处理，这一过程是数据挖掘的主要过程。去除了无用的不相关的属性(如性别，操作人代码等)；删除重复数据；修复异常数据(某些消费为0，我们取平均数进行填充)；最后对数据进行规范化为月消费，并从现有属性中构造了新的属性，从而建立数据仓库进行数据挖掘(表2)。

表2 消费属性表

2.2 矫正矩阵分析

因为贫困生和正常学生的比例接近1：8，在数据挖掘过程中会发生分类不均衡的现象，贫困生会被忽略造成只有一个类别。所以，本文引入了矫正矩阵对分类进行矫正，矫正矩阵的分析结果图2所示。

由于成本设置过小会导致贫困生无法充分识别，设置过大会造成分类正确率下降，经过对比分析本文将分类错误成本设置为4.0。

2.3 建立分类模型

本文采用RIPPER算法建立分类模型，同时采用矫正矩阵对分类进行校正。

得到的分类规则如图3所示：

月平均购水金额大于等于1.155元，且月平均农行卡圈存金额小于等于357.5元，且月平均上机次数大于等于2次，且消费总额小于等于4499.18元为非贫困生；月平均就餐刷卡次数大于等于114次，且月平均餐费小于等于382.19元，且月平均淋浴金额小于等于8.8元是非贫困生；月平均就餐刷卡次数大于等于103次，且月平均餐费小于等于343.9元，且月平均上机次数大于等于2次，且月平均农行卡圈存次数大于等于3次，且月平均农行圈存金额小于等于290.25元为非贫困生；月平均购热水金额大于等于1.32元，且月平均餐费小于等于234.6元为非贫困生；月平均就餐刷卡次数大于等于108次且月平均农行卡圈存金额小于等于450元，且月平均淋浴金额小于等于10.9元，且月均上机次数大于3次，且月平均淋浴刷卡次数大于等于14次为非贫困生，其余为非贫困生。

图2 矫正矩阵对比

图3 分类规则

2.4 实验结果

本文用20%的实验数据进行验证，得到的正确率如下：

图4 分类正确率

模型的总体正确率为75%，贫困生分类正确率为60%。得到规则简单，解释性好对于非业务人员也非常好理解。

3 结论

RIPPER算法具有速度快，分类规则简单，抗噪性好等的特点。PIPPER算法的引入提供了一个新的贫困生分类算法，具有一定得正确性，为高校的贫困生评定提供了辅助决策和验证的方法：首先根据学生提交的材料进行评定，然后根据学生以后的消费数据进行验证，找出那些真正贫困，需要帮助的学生。让助学金真正落到实处，让贫困学生收到帮助。

[1]薛菲.我国高等学校贫困生资助体系研究[D].湖南：湖南大学,2004.

[2]张晓霞.我国高校贫困生问题及解困措施研究[D].上海：上海交通大学,2005.

[3]张菲菲.高校校园卡系统建设相关策略探究[J].电子制作, 2014(1)：155-155.

[4]袁晓航,杜小勇.iRIPPER——一种改进的基于规则学习的文本分类算法[J].山东大学学报理学版,2007,42(11)：66-68.

[5]冀汶莉.基于RIPPER短序列匹配算法在入侵检测中的优化研究[J].兰州工业学院学报,2007,14(1)：1-4.

[6]欧阳源遊.基于混合采样的非平衡数据集分类研究[D].重庆：重庆大学,2014.

[7]刘潇.基于邻域粗糙集和超网络的不平衡数据分类方法研究[D].重庆：重庆邮电大学,2015.

[8]CHEN X W,GERLACH B,CASASENT D.Pruning support vectors for imbalanced dataclassification[C]//IEEE Internation⁃al Joint Conference on Neural Networks,2005.IJCNN'05. Proceedings.IEEE Xplore,2005：1883-1888 vol.3.

[9]YE Z F,LU B L.Learning Imbalanced Data Sets with a Min-Max Modular Support Vector Machine[C]//International Joint Conference on Neural Networks.2007：1673-1678.

[10]陈木生,卢晓勇.三种用于垃圾网页检测的随机欠采样集成分类器[J].计算机应用,2017,7(2)：535-539.

TP391

1009-3044(2017)21-0220-02

2017-06-11