基于一卡通大数据的家庭经济困难学生消费预警研究

2019-08-23 02:45吴领航王默玉申晓留王璐梁如霞
电子技术与软件工程 2019年14期
关键词:一卡通金额困难

文/吴领航 王默玉 申晓留 王璐 梁如霞

1 引言

近年来,高校相继建立并投入使用了大量信息系统和大数据应用平台。一卡通消费系统是综合了大数据技术、云计算技术、信息安全技术、数据加密技术的平台,不仅可以方便学生和教师掌握自己在学校的消费情况,也可以更好地安排自身的工作和学习。

高校在数字化校园建设的大潮下,学生一卡通系统在实际应用场景中会产生海量数据,这些数据记录了学生的消费情况、圈存情况等,是消费预警的重要依据。本文重点研究一卡通消费数据的月变化值和家庭经济困难学生的困难程度的相关关系。以家庭经济困难学生的月消费金额为研究对象,划分消费区间,从中总结并研究出规律,判断是否存在家庭经济困难学生消费数据异常,进一步挖掘出困难程度变化较大的学生数据。采用数据挖掘技术分析家庭经济困难学生的一卡通消费金额数据,采用聚类算法划分消费金额的不同区间,根据区间使用一元离群点检测算法检测出消费数据异常的学生,进行家庭经济困难学生消费预警,检测所得结果为家庭经济困难学生认定提供辅助参考,进一步提升精准资助。

2 数据与方法

2.1 数据来源

本文选取的数据来源于某高校一卡通消费平台和家庭经济困难学生认定系统平台。高校一卡通消费平台记录了全校学生的总消费金额、有效交易次数、平均消费金额。家庭经济困难认定系统中记录了高校家庭经济困难学生的经济状况数据。在数据分析前先进行数据审计、数据清洗、数据脱敏等数据预处理工作,保证数据的完整性和有效性。一卡通消费平台上的消费数据表结构如表1所示。

2.2 分析方法

2.2.1 Pearson相关系数

相关分析是对变量之间关系密切程度的度量,是对总体中具有联系的标志进行分析。Pearson相关系数,用于度量两个变量之间的相关性。一般采用样本相关系数(r)进行相关性分析。

两个变量间的Pearson相关系数定义为两个变量之间的协方差和标准差的商:

2.2.2 聚类分析

聚类是对大量未知标注的数据集,按照数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。聚类的基本思想对于给定的类别数目k,首先给出初始划分,通过迭代改变样本和簇的隶属度关系,使得每一次改进后的划分方案都较前一次好。

聚类分析常用于对数值型数据进行数据挖掘。运用聚类分析的方法研究学生消费数据可实现以下2个方面的作用:

(1)掌握在校生消费的实际情况。这是开展家庭经济困难学生消费预警工作的重要环节。

(2)划分消费区间。运用数据挖掘技术对学生一卡通消费数据进行数据分析,因此选取总消费金额,有效交易次数,平均消费金额,总消费次数四个指标参数对学生数据进行聚类分析,从而划分出学生消费区间。

2.2.3 k-means算法

k-means算法被称为k-平均或k-均值,是一个经典的聚类算法,它开始输入参数k,然后将n个数据对象划分为k个聚类,使同一聚类中的对象之间的相似度较高,不同聚类中的对象之间的相似度较小。其中“聚类相似度”是利用各聚类中对象的均值所获得的一个“中心对象”的方式计算。当k=2时,k-means算法的步骤可视化如图1所示。

假定输入样本为S=x1,x2,x3……,xm,则算法步骤为:

(1)选择初始的k个类别中心u1u2u3…uk

表1

表2:相关性结果

表3:高校学生消费数据聚类分析结果

表4:正态性检验

(2)对于每个样本xi,将其标记为距离类别中心最近的类别,即:

(3)将每个类别中心更新为隶属该类别的所有样本的均值

(4)重复最后两步,直到类别中心的变化小于某阈值。

3 结果分析

3.1 Pearson相关性分析

通过Pearson相关系数来分别分析高校学生平均每天消费金额、每月消费总金额、有效交易天数、月消费次数之间的相关性。本文选取2000名高校学生某个月的一卡通消费数据。选用spss软件中的Pearson相关系数进行相关性分析,结果如表2所示。

表中指定的显著性水平为0.01,统计检验的概率小于0.01(表中显示为“0.00”),可以看出各个指标间的相关性十分显著,具有较强的相关性。针对4个指标作k-means聚类分析,便于进一步划分消费金额区间。

3.2 k-means聚类应用于消费区间划分

根据Pearson相关性分析得出,学生的平均消费金额、总消费金额、总消费次数、有效交易天数之间具有较强的相关性。因此选取上述4个指标数据进行k-means聚类分析。通过家庭经济困难认定系统平台上获取全校2820名家庭经济困难学生的有效数据。按照聚类数3类、4类、5类进行聚类分析,层间检验均呈显著性差异。表3显示了快速聚类结果中各簇属性和个数,涵盖了各簇包含的示例。

实验结果分析:

分析平均消费额,按三层来划分消费区间,各层的“平均消费金额”为14、21、31。按照四层来划分,各层的“平均消费金额”为14、20、26、35。按照五层来划分,各层的“平均消费金额”为10、17、26、31、38。以上k-means快速聚类的分类结果和高校之前的人工划分消费区间的情况有所不一致,说明了之前的划分消费区间更多是主观的,缺少数据和理论的支持。

以聚类数3分类,各层人数比为843:1313:664,各层人数较多,层内差异较大,不利于家庭经济困难学生的精准资助且消费区间划分不够详细,各层的“平均消费金额”分别为14元、21元、31元,总体覆盖的范围比较小,不能够较为准确的说明学生的消费情况。

图2:正态性检验

图3:平均消费数据分布直方图

分析有效交易天数,在聚类数为4的情况下,第一层内学生的有效交易天数为23天,平均消费金额为14元,可能存在交易天数少而使得消费金额较低的情况,不能够很好的视为家庭经济困难学生的消费行为。而聚类数为5时,学生的有效交易天数为28天,平均每天消费金额10元,这更能说明学生贫困的情况属实。

根据实验的结果可划分学生的消费区间划分为5个。学生日平均消费金额在10元以下,日消费金额在10元-20元之间,日消费金额在21元-26元之间,日消费金额在27元-31元之间,日消费金额在32元-38元之间。

3.3 正态性检验

本文采用spss软件进行正态分布的检验。选取学生的平均消费金额作为正态性检验的依据。正态性检验结果如表4和图2所示,表4以K-S结果为准,sig.=0.2>0.05,图2中的点都围绕着一条直线,两者都显示服从正态分布。

3.4 异常点检测

采用2018-2019学年的部分家庭经济困难学生作为样本数据,在2018年度的认定过程中,2018级学生有622名同学被认定为家庭经济困难学生。从中随机抽取600名同学的平均消费金额,共抽取4次,有4组训练数据。则样本xi的概率函数为求似然函数得到:

根据4组样本数据进行求解,得出均值近似于20.1。由3.2中的正态性检验可知,学生的平均消费金额数据满足正态分布。

扩大样本数据后,针对全校2820名家庭经济困难学生采用基于正态分布的一元离群点监测算法进行异常点的检测。根据分析样本消费数据的标准差为6.08,均值为20.36,与4组样本数据计算得出的均值十分接近。

结合样本数据来进一步分析,低于2元的同学有3人,高于38元的同学有9人。3位消费数据低于2元的同学由于消费数据太低,需要辅导员去深入了解情况。9位高于38元的同学由于本身是已被认定为家庭经济困难学生,但消费水平已经大大超出正常家庭经济困难学生的消费水平,要作为异常点进行分析。相对应的学号可以提交学校资助中心工作人员,对消费异常数据的同学进行更深入的了解和评定。如图3所示。

4 结语

本文从数据挖掘的技术入手,从中选择了k-means算法和一元离群点算法应用于高校学生在校消费的数据挖掘中,利用聚类分析的方法划分出家庭经济困难学生的消费区间,并针对家庭经济困难学生样本采用基于正态分布的一元离群点算法进行消费异常情况的检测。实验表明,采用Pearson相关性分析法能够有效的挖掘学生消费金额与有效交易天数的内在关联,为聚类分析提供理论的依据。利用k-means聚类算法将学生的消费区间划分为5类,同时消费数据分布满足正态分布,更加科学地表明了困难程度与消费情况的关系。一元离群点检测算法检测所得结果便于开展消费预警工作。但基于一卡通大数据的家庭经济困难学生消费预警研究方法还可以进一步的优化和改进,首先,数据来源于一卡通消费平台,该研究方法对于一卡通消费数据依赖性较强,可能存在学生外出实习导致消费数据较低的情况。其次,目前研究的对象是家庭经济困难学生,将来可以将研究对象的范围扩大,实现资助更加精准。再者,本文是基于一卡通消费大数据这一角度进行消费预警的研究,采用数据挖掘的算法,为辅导员开展家庭经济困难学生消费预警工作提供理论支撑,也为实现精准资助提供理论基础,但要进一步实现消费预警的科学性,还需结合高校的家庭经济困难认定系统和模型,完善研究工作。

猜你喜欢
一卡通金额困难
困难中遇见团队
2001年-2020年县级一般公共预算支出资金来源情况表
困难我不怕
选择困难症
基于“一卡通”开发的员工信息识别系统
一卡通为新农合基金加密