大数据背景下高校贫困生类别的判定
——以安徽师范大学为例

2016-12-03 03:34:16齐怀峰
高校辅导员学刊 2016年5期
关键词:贫困生分类大学生

齐怀峰

(安徽师范大学 学生工作处,安徽 芜湖 241000)



大数据背景下高校贫困生类别的判定
——以安徽师范大学为例

齐怀峰

(安徽师范大学 学生工作处,安徽 芜湖 241000)

目前高校贫困生的精准认定是一个公开的难题。本文以某高校连续60天的校园卡消费记录为依据,利用Python语言和K-Means聚类算法,依据15545名大学生个人消费金额,而将他们分5个“最优群体”。从最低消费群体中挖掘应该被认定为贫困生而没有被认定为贫困生的群体,从最高消费群体中挖掘不应该被认定为贫困生而被认定为贫困生的群体。本文以客观的消费记录为标准,利用大数据挖掘技术,为科学资助和精准资助提供了决策支持。关键词: 大学生;贫困生;K-Means;分类;判定

目前高校贫困生的精准认定是一个公开的难题,其认定难点主要在于界定标准的确定和认定成本方面(学校无法走访每一位大学生的家庭情况、贫困生个人情况也无法公示接受师生监督,只能依靠认定者的观察和判定,以致于主观因素影响较大),再加上假贫困生争夺济困资源的行为客观上又加大了认定难度。本文以某高校连续60天校园卡消费记录(2016年2月22日-4月21日,共8616889条消费记录)为依据,采用K-Means聚类算法,将15545名(大一至大三本科生,其中贫困生4189人,占总人数的26.95%)大学生个人消费总金额分5个“最优群体”(群体内消费相似而群体间差异较大)。从最低消费群体中挖掘应该被认定为贫困生而没有被认定为贫困生的群体,从最高消费群体中挖掘不应该被认定为贫困生而被认定为贫困生的群体。本文以客观的消费记录为标准,利用大数据挖掘技术,为科学资助和精准资助提供了决策支持。

一、 数据处理及一般性统计分析

(一) 三餐消费的定义

为保持数据的连贯性,早餐时段定义为:00:00:00 - 09:59:59;午餐时段定义为:10:00:00-15:59:59;晚餐时段定义为:16:00:00-23:59:59。凡是在此三个时间段内发生的消费(含用校园卡购买其它物品,也就是说是广义的三餐消费),均被统计为早中晚三餐的消费金额;每位学生在某一时段可能消费多次,但都合并为某一餐的消费总金额。

(二)单次异常消费数据的处理

不失一般性,结合目前的消费水平,将三餐消费上限定义为:早餐15元、午餐25元、晚餐25元。若某单次消费超过限定额度,则被视为异常消费,并按消费上限记录为此次消费金额(例如:若某一次晚餐消费100元,则按25元的上限记录为此次消费金额)。

(三)缺失消费数据的处理

理论上,三餐消费总次数应该为2798100次(15545人*3次/人*60天),然而并不是每个大学生在60天中,每天都在食堂消费3次,实际上其缺失数据相当多(详见图表2-4)。本文对缺失数据采用两种处理方法:第一种是忽略缺失数据(如果某日某餐未用校园卡消费,则记录为0元);第二种是如果某日某餐未用校园卡消费,则此次消费被统计为该类型消费平均值(早餐:3.89元;午餐:8.18元;晚餐7.26元)。

(四) 消费群体的基本分析

表1 性别餐饮情况统计表

表1显示:男生的三餐金额均超过女生,平均每天消费超过女生3.86元,这与实际情况基本吻合。 表2显示:目前大学生早餐就餐率尚不足50%,这是一个很严重的问题(午餐、晚餐可以选择校外就餐,而早餐一般只在校内就餐或不吃),需要加大此方面的宣传教育,并采取相应措施;中餐和午餐的就餐率也只有70%,这说明因为学校食堂提供的饭菜不合口味,而导致约30%的学生选择外卖或校外就餐,因此食堂饭菜水平应考虑提升;从标准偏差来看,早餐2.39,晚餐也只有5.47,这说明学生在食堂消费金额比较稳定,也就是说食堂提供的饭菜数量和款式比较单一。

表2 整体餐饮情况统计表

表3 非贫困生餐饮情况统计表

表4 贫困生餐饮情况统计表

从表2-表4,可以看出非贫困生和贫困生的消费状况是有差异的,具体比较见表5。

表5 非贫困生和贫困生消费数据比较

表5显示:(1)非贫困生每天消费19.64元,而贫困生每天消费17.81元,非贫困生确实比贫困生在消费上有明显差别;(2)非贫困生在校内就餐频率为61.71%,贫困生在校内就餐频率为67.49%,这说明由于经济条件的限制,贫困生更多选择在便宜的校内就餐;(3)非贫困生的标准偏差是5.47,贫困生的消费偏差是5.05,这说明贫困生的消费种类和价格的变化程度比非贫困生小或者说可选择消费的余地比较小。

二、 基于K-Means聚类算法的群体分组

对15545条消费记录(每人60天的消费记录之和为一条记录)的分类标准是一个需要研究的问题。本文采用无监督学习的K-Means聚类算法,将消费记录分为5组,以便研究最低和最高的消费群体的消费情况。群体分组的标准采用轮廓系数(Silhouette Coefficient,是聚类效果好坏的一种评价方式。它结合内聚度和分离度两种因素,可以用来在相同原始数据的基础上用来评价聚合效果,取值范围是(0,1))进行评价,该值越高则说明分组效果越好,即群体内部数据越接近而群体之间数据差异越大。

在实际的聚类中,当分为3类时,SC最大为0.57,从聚类算法理论上说是最佳分类,但在实际应用中并不是最佳选择。但为了研究两极群体,本文选择5个分类,以便研究两极群体。因为贫困生占总人数的26.95%,因此若消费最少的A类群体人数比例小于26.95%,理论上都应该被认定为贫困生。但实际情况并非如此,详见表6-7。

表6 未补充缺失数据消费统计表(SC=0.54)

表6显示:因此A类(消费最少群体)有1158人应该被认定为贫困生,但聚类结果显示,其中有934人不在贫困生库中;E类(消费最多群体)有332人,但聚类结果显示,其中有67人在贫困生数据库中。

表7 已补充缺失数据消费统计表(SC=0.51)

表7显示:A类(消费最少群体)有613人,但聚类结果显示,其中有309人不在贫困生库中;E类(消费最多群体)有236人,但聚类结果显示,其中有31人在贫困生数据库中。

三、 数据挖掘结果分析

表8显示“未补充缺失数据”方法和“已补充缺失数据”方法中:A类相同人数有241人(交集)、最大可疑人数1002人(并集);E类相同人数有25人(交集)、最大可疑人数73人(并集)。在A类消费群体中,虽然消费金额较低,但并不意味着他的真实消费额就低(学生消费是多元化的,比如外卖、校外就餐等);在E类消费群体中,消费金额是最高的,若没有特殊情况,一般不应再认定为贫困生。

表8 两种缺失数据处理方法的对比分析

在此基础上,还可继续做以下两个方面的工作:一是对可疑的“贫困生”或“非贫困生”依据其60天的消费记录和平时的消费表现进行观察和分析,以便确定是其真正贫困或是其非贫困,实事求是的判定某一名大学生的贫困情况;二是在第一步的基础上,判定采用哪种缺失数据处理方法(或二者结合)更为接近客观事实,以便更有效的应用在实际工作中。

采用对消费记录挖掘的方法,大大缩小了调查范围、维护了贫困生的“忌贫心理”,能有效挖掘出“虽然贫困但不愿意申请”或“不贫困但申请贫困”的群体,节约了大量的人力资源成本。此外,利用大数据技术还可以为贫困生精准分类、“学霸”和“消费习惯”关联等方面提供数据支持。

[1] Mastering Machine Learning with scikit-learn[M].UK:Packt Publishing,2014

[2] Python Data Visualization Cookbook[M].UK:Packt Publishing,2013

[3] 司维.Python基础教程(第二版)[M].北京:人民邮电出版社,2014

[4] 杨知玲.数据挖掘在高校贫困生评价中的应用[J].软件导刊,2016,(6)

[5] 吴文辉.高校经济困难学生识别认定研究[J].办公自动化,2016,(17)

[6] 毕鹤霞.大数据下高校贫困生确认模型构建——基于“模糊综合评判法”与“模糊层次分析法”集成的实证研究[J].高教探索,2016,(8)

(责任编辑:乐程 )

How to Identify the Needy College Students against the Background of Big Data

Qi Huaifeng

(StudentAffairsDepartment,AnhuiNormalUniversity,Wuhu,Anhui, 241000,China)

This article bases itself on the campus card consumption of 15545 students from a certain university for 35 consecutive days. It uses Python language and K-Means clustering algorithm to categorize these students into 5 optimal groups according to the total amount of their personal consumption, picking out the ones from the group that consumed least who should have been identified as needy and the ones from the group that consumed most who should not have been identified as needy. The paper attempts to provide some decision support for financially aiding students in a scientific and precise way.

college student; needy student; K-Means; classification; identification

齐怀峰(1979-),男,安徽师范大学学生工作处讲师。

10.13585/j.cnki.gxfdyxk.2016.05.017

G641

A

1674-5337(2016)05-0074-04

猜你喜欢
贫困生分类大学生
分类算一算
分类讨论求坐标
带父求学的大学生
数据分析中的分类讨论
教你一招:数的分类
大学生之歌
黄河之声(2017年14期)2017-10-11 09:03:59
“贫困生班主任”李金林
中国火炬(2014年9期)2014-07-25 10:23:07
让大学生梦想成真
中国火炬(2013年7期)2013-07-24 14:19:23
十年筹资千万元 资助八千贫困生
中国火炬(2012年5期)2012-07-25 10:44:08
结对"百千万"情暖贫困生
中国火炬(2012年10期)2012-07-25 10:10:40