余桢伟 李媛
摘要:随着校园一卡通的应用,学生在校行为数据得以客观记录。为了解决高校学生工作中对于经济困难学生认定存在的主观性强,认定材料烦琐等问题,文章采用数据挖掘方法,采集某高校校园一卡通消费数据,应用神经网络算法构建高校经济困难学生精准认定模型。该方法有助于实现对学生经济困难等级的辅助预测,提高高校学生资助工作的科学化水平。
关键词:数据挖掘;人工神经网络;学生资助
中图分类号:TP18 文献标识码:A 文章编号:2096-4706(2021)07-0006-04
Research on Identification of Students with Financial Difficulties Based on
Neural Network Method
YU Zhenwei,LI Yuan
(Suzhou Institute of Technology,Jiangsu University of Science and Technology,Suzhou 215600,China)
Abstract:With the application of campus all-purpose card,studentsbehavior data in school can be recorded objectively. In order to solve the problem of strong subjectivity and cumbersome identification materials in the work of college students,this paper uses data mining method to collect the consumption data of the campus all-purpose card of a college,and uses neural network algorithm to construct the accurate identification model of college students with financial difficulties. This method is helpful to realize the auxiliary prediction of studentsfinancial difficulty level and improve the scientific level of college studentsfinancial aid work.
Keywords:data mining;artificial neural network;studentsfinancial aid
收稿日期:2021-03-18
課题项目:2019年江苏高校哲学社会科学研究项目(2019SJB905);2021年江苏科技大学苏州理工学院“暖心助困·励志助学”暨学生工作精品项目(ZZKT202104)
0 引言
随着校园一卡通在各个学校流行,学生的日常消费行为被记录,通过对学生行为数据尤其是消费类数据展开挖掘分析,进而客观判断学生经济困难情况,成为当前各个高校学生资助工作的研究热点,许多学者对此展开深入探讨。在高校学生资助工作研究方面,王煜等学者基于某所高校校园一卡通的数据和奖学金发放情况,通过构建Logistic回归模型确定影响获得助学金与否的因素,为其建立数学模型,从而帮助到真正家庭困难的学生[1];柴政等学者在大数据应用的背景下,基于神经网络的数据挖掘方法,分析“一卡通”消费数据来挖掘经济困难学生,提高了经济困难学生评定结果的准确性,但仍然存在着数据特征不够细化的不足[2]。为了真正使资助工作落到实处,构建严格的学生资助评估方案十分必要[3]。
本论文提出的神经网络模型方法通过对学生“一卡通”消费数据进行提取和训练,对模型参数进行优化改进,以最后得出的神经网络模型来预测贫困等级[4],有助于弥补上述方法的不足,挖掘潜在的经济困难学生,保护学生的隐私,同时缓解了学生的忌贫心理,更具有科学性和准确性,有助于做到精准挖掘贫困人群,以更人性化的方式帮助到真正家庭经济困难的学生,防止不贫困学生虚假申报或贫困学生不申请行为的产生。
1 数据准备
本文的消费数据来源于校园一卡通,经济困难学生名单来源于某高校学生资助中心。校园一卡通中可以通过消费数据来反映学生在学校的日常消费情况,并为贫困等级评价提供数据[5]。
1.1 数据采集
以某高校2019年的经济困难学生库为例,采集他们自2019年3月1日至4月31日共两个月的一卡通消费数据,涉及743个学生个体(其中734人在3月和4月均有消费记录),共121 694条消费记录(3月65 366条,4月56 328条)。除此之外,还需要从学生资助中心部门采集2018年到2019年在经济困难学生库中实际发放助学金的经济困难学生名单数据,包含492名经济困难学生,一共匹配到72 684条消费记录(3月39 446条,4月33 238条)。样表如表1所示。
1.2 数据预处理
将数据进行分类汇总,根据消费类型可分为“餐费支出”“购热水支出”“淋浴支出”“商场购物”“用电支出”“用水支出”等,根据每项消费类型把每个学生的消费次数和消费金额表示出来,将这几类消费类型的消费次数、消费金额、消费总次数、消费总金额作为人工神经网络模型输入层的节点,让模型学习其中的规律从而进行预测。变量描述性统计表如表2所示。
从平均值、标准差、极小值和极大值四个方面对这492名经济困难学生两个月的校园一卡通数据进行描述性统计分析,可以看出在餐费、购热水、淋浴、商场购物支出、用水5种消费类型中,餐费支出金额的平均值最大,由此可见学生的日常消费地点以食堂居多,且标准差数值也最大,这说明每个学生食堂消费金额落差很大,这在很大程度上反映出了学生的个体差异。餐费支出作为必须支出,很大程度上能反映出学生是否贫困,如果某个学生一卡通的消费次数过少,那么属于非正常现象,如果将他的消费数据放进模型会对模型产生干扰,对于怎样去界定一个学生消费次数过少的标准,本文经过多次试验得到一个更加利于提高预测准确性的预处理标准,将两个月加起来的总消费次数低于15次和餐费次数低于5次的学生个体数据进行了去除处理,去除后最终减少了22个学生个体。
2 数据分析
2.1 数据导入
本文将三月和四月的消费数据聚集在一起并进行数据预处理后的数据作为训练数据集,将训练集中的一半数据作为测试数据集。图1为基于RapidMiner软件神经网络的程序配置流程图[6]。
2.2 参数设置
输入层由13个属性项组成,输出层有3个神经元,分别代表贫困等级“A”“B”“C”。其中“A”等级代表助学金2 000元,“B”等级代表助学金1 500元,“C”等级代表助学金1 000元。为了计算效率的提高,本文只设置一个隐藏层,对于隐藏层节点数的选取,本文选用了众多公式中相对有效的一种,h=(m+n)1/2+α,其中m为输入层节点数,n为输出层节点数,α∈[1,10],在本文中,m为13,n为3,所以h∈[5,14],经过将本文选取的不同模型进行多次试验后发现h取5、6、7、8时和10、11、12、13、14时预测准确率比h取9时略低,只有h取9时预测准确率最高,训练结果最佳,因而本文隐藏层节点数取9。本文经过尝试发现调试最大运行次数(Training cycles)和精确度(epsilon)也能提高模型精确度,经过多次调试,最终设置最大运行次数为500,精确度为10-5,如果训练误差低于精确度值,则不再优化。参数设置界面如图2所示。
2.3 模型建立
在高校经济困难学生认定预测模型中,重点在于体现认定模型的精度而不是广度,入选的变量一定要能够客观真实地表现学生的贫困情况。包括学生的基本信息(学号)、一卡通消费信息(消费总支出金额、消费总支出次数、餐费支出金额、餐费支出次数,购热水支出金额、购热水支出次数、淋浴支出金额、淋浴支出次数、商场购物金额、商场购物次数、用水支出金额、用水支出次数等)。变量能反映学生的消费水平、贫困等级,在变量的选择上,任何一项重要指标都不应被遗漏,应做到完整、全面、系统地反映学生的实际贫困情况。本文建立的高校经济困难学生认定模型,为了实现数据的可获得性,选择的变量一定要能够被简便获取,为了提高模型的精确性,互斥变量一定要有相同的权重和測度,以实现横向比较,选取的指标要直观反映出学生的消费水平。模型运行配置界面如图3所示[7]。
2.4 模型输出
人工神经网络结构一共有三部分组成,它们分别是输入层、隐藏层、输出层[4]。本文的输入层有13个神经节点,分别代表这两个月的消费总支出金额、消费总支出次数、餐费支出金额、餐费支出次数,购热水支出金额、购热水支出次数、淋浴支出金额、淋浴支出次数、商场购物金额、商场购物次数、用水支出金额、用水支出次数这些消费属性。神经网络通过调整这些节点之间相互连接的关系来进行预测贫困等级,隐藏层负责根据接收输入层数据源并通过计算输出结果给输出层,它是连接输入层和输出层的桥梁,最后的输出层节点代表A、B、C三种贫困等级。人工神经网络结构如图4所示。
通过图5可以清楚地看到餐费消费金额与总消费金额的相关性。对于绝大部分经济困难学生,餐费消费金额占总消费金额比重较大,且明显可以发现餐费消费的线性变化与总消费金额的线性变化相似,因此为了使预测模型得到更好的优化,对餐费数据一定要做好异常值处理。
2.5 模型验证
本文在训练集为三月和四月按学号汇总后的数据集不变的基础上,通过对测试数据集的标准优化来提高预测准确率。
第一次本文以训练集共492条数据(其中A类贫困等级占比为18%,B类贫困等级占比为64.2%,C类贫困等级占比为17.6%),测试集为训练集近1/2的数据,共250条数据,隐藏层节点数为9,最大运行次数为500,精确度为的预测条件得出预测准确率为75.6%的结果。第二次以与第一次训练集、测试集相同,并在此基础上对数据进行预处理得出预测准确率为75.9%的结果。
第三次仍然以与第一次训练集、测试集相同,并在此基础上删除两个月消费总次数小于15次、餐费支出次数小于5次的学生个体数据,得出预测准确率为76.3%的结果。第三次的预测准确率相对具有参考价值且足够优化,可以作为最优模型。将测试数据集放入已经建好的神经网络模型中,将本来标注好的贫困等级跟预测得出的贫困等级进行对比,测试数据共233条,其中有178条数据符合标签数值,预测准确率为76.3%。部分结果如表3所示。
3 结 论
从实验结果来看,本文得出的最终模型还有一定的提高空间,未来若能够从多维的数据,包括学生成绩数据等,对学生进行综合评价,在经济困难学生的贫困等级预测上能够比单一的一卡通消费数据更具有说服力。在移动支付的普及的背景下,目前尚不能采集到使用手机支付的数据,这也会使预测产生偏差,未来在多维数据的补充下,预测的准确率会得到一定的提升。
本文基于神经网络构建的高校经济困难学生认定模型,一定程度上弥补了传统方法主观性较强的局限性。但当前计算机模型预测无法做到百分百准确,而一旦出现错误,会影响到经济困难学生享受学生资助政策。故本人认为当下经济困难学生判定工作最终仍要以人工决定为主要依据,同时辅以信息化技术,运用数据分析方法给高校工作人员提供决策依据,进一步提升高校学生资助工作的科学化水平。
参考文献:
[1] 王煜,刘彤彤,郭磊.基于校园大数据的助学金获取关键因素分析——以某高校一卡通数据为例 [J].中国教育信息化,2018(17):64-66.
[2] 柴政,屈莉莉,彭贵宾.高校贫困生精准资助的神经网络模型 [J].数学的实践与认识,2018,48(16):85-91.
[3] HUANG W,LI F,LIAO X,et al. More money,better performerce?The effects of student loans and need-based grants in Chinas higher education [J].China Economic Review,2018(51):208-227.
[4] 王慧健.基于神经网络方法的时间序列预测方案研究 [D].南京:南京邮电大学,2019.
[5] 金琳.基于数据挖掘的用户行为分析研究 [J].电子商务,2020(4):41-42.
[6] 李冠利.基于RapidMiner数据挖掘技术的NCRE成绩预测分析 [J].南京广播电视大学学报,2018(4):80-82.
[7] 冯晓媛.大数据挖掘技术应用研究 [J].数学技术与应用,2019,37(1):127-128.
作者简介:余桢伟(1992.10—),男,汉族,湖北黄梅人,助教,硕士,研究方向:数据挖掘、管理信息系统;李媛(1998.01—),女,汉族,江苏扬州人,本科,研究方向:信息管理与信息系统。