孙春莲 陈勇智 龚浩
摘 要:基于我国高校教育事业的迅猛发展,高校资助工作愈发受到党和政府高度重视,尽管在教育部的指导下,各地高校都建立起完善的资助体系。但是贫困认定无法量化、后期缺少审查监管机制,给基层辅导员和班主任开展工作带来很大困难,本文将“大数据分析法”引入贫困认定审查工作中,通过分析学生在校期间消费情况来对学生的困难程度进行精准化定位,以期为后续资助工作提供有力依据。
关键词:资助工作;精准认定;大数据分析; 学生工作
中图分类号:F24 文献标识码:A doi:10.19311/j.cnki.16723198.2023.02.046
教育公平是社会公平的基础,对高校而言,贫困是阻断教育公平实现的重要障碍,对于家庭经济困难学生而言,高校资助尤为重要,贫困认定是高校开展资助育人工作的前提。目前,贫困认定工作还存在一些实际困难,严重影响了贫困认定的准确性和工作效率,因此剖析现今高校资助工作存在的弊端并提出合理化措施,进一步完善资助体系,确保资助工作落实到位,切实发挥资助的育人功能,真正实现教育公平迫在眉睫。习近平总书记指出,要推进教育精准脱贫,阻断贫困代际传递,让每一个孩子都对自己有信心、对未来有希望。
1 高校资助工作中存在的问题
为了解资助工作中存在的问题,笔者向学院各专业各年级参与贫困认定的学生发放调查问卷,共回收有效问卷255份,其中,来自农村学生占80%,来自城市学生占20%,参与贫困认定学生占94.51%,89.70%的学生通过了贫困认定。2021年学校贫困认定等级分为特别困难,一般困难和困难,认定结果基本与实际相符,但是通过实际调查及资料分析发现,多数高校对贫困生的认定依然缺少科学性,与我国精准扶贫理念存在差距。目前,高校在贫困认定中存在以下问题。
1.1 国家资助政策认识不足
学院大部分学生来自农村,且存在一定程度上家庭经济困难,主要原因在于父母文化程度相对偏低、无稳定的工作、家庭在学子女多且还需赡养老人等。在被调查的学生中,有4.31%的学生反应对国家资助政策不了解,47.45%的同学反映身边有需要资助的同学没有得到相应的帮助。部分原因可能在于对贫困生概念模糊,不能准确判断是否确实贫困,另一部分原因在于家庭条件相对困难的学生因思想观念落后、情感缺失等原因不愿意将自己的隐私泄露,因而不申请困难补助,从而得不到学校和社会的帮助,使得自己在生活物质上依旧贫困,有的还引发了精神和心理上的“贫困”。而且,在后期摸排中,笔者发现一些家庭经济较好的同学为了申请励志奖学金等补助而瞒报实际家庭情况,扭曲了资助政策的本质。
1.2 精准识别贫困生存在困难
当前,大部分高校困难认定开展流程为:广泛宣传→学生提出书面申请→递交贫困证明材料→班级小组评议认定→班主任审核签字→学院审核公示,上报学校资助中心→学校审核公示→数据录入省资助系统→助学金发放。这一认定标准坚持了“公平、公正、公开以及实事求是和民主评议原则”,但在具体实施过程中还存在评定依据比较单一,评定标准缺乏客观性的问题。一方面表现在测评指标中家庭经济困难程度、家庭成员组成和健康状况、经济收入来源和能力、家庭遭受突发事件和变故这些指标难以一一核实,而且学生的主观性较强。其原因如下:家庭经济状况较为良好的学生能够通过多个途径获知贫困资料的办理方式,以此伪造出与自身经济状况不符的贫困资料;贫困家庭难以获知材料办理方式,导致其无法顺利提供贫困资料,致使需要补助的学生失去贫困补助资格;另一方面有些指标是动态过程,无法在数据库系统中体现出来。问卷调查结果显示:对于家庭经济困难是如何界定这个问题,76%以上同学反映主要根据“学生家庭所在地的证明”“家庭收入的证明材料”或“学生申请书中对自身家庭情况的描述”,而“学生平时生活消费和习惯”这一关键指标被大多数人忽略。
1.3 没有健全的审查监管机制
学校在贫困认定及后期的资助项目中都建立了严格的“双审核,双公示”机制,经班级评议小组评议后,学院进行第一层审核,学校进行第二层审核,但无论学院还是学校审核的都是材料的完整性,一旦材料完整,通过贫困认定即可加入贫困生信息库,获得相应资助。但是对于助学金的科学合理支配缺少一定监督。经调查问卷发现5%左右同学反应获得奖、助学金的同学会请同学吃饭和选购名牌衣物,29.41%的同学给父母买东西,79.22%的同學会拿助学金来补贴家用。
2 “大数据分析法”引入贫困生识别和审查工作中
针对上文对目前高校贫困认定工作中存在的缺陷这一问题的分析可以看出,高校必须积极引入大数据技术,将其与传统认定方式进行融合,以此进一步加强贫困认定工作的精准性,从而为学校资助工作的顺利进行提供保障。
基于以上分析,本文以国内某高校校园一卡通系统运营一个月的校园消费数据为基础,共4341个样本,519368条消费数据,采用大数据分析技术,构建困难生识别模型。该种模型能够根据学生的实际消费情况进行困难程度的测算和认定,所测算的结果可与民主评议方法进行融合,从而帮助高校对困难生进行精准认定,具体模型构建方法如下。
2.1 数据预处理
通过对单个学生每月消费总额进行统计,笔者分析得出学生的单月平均消费金额为247.38元,而在对4341名学生的单月消费记录进行统计分析后发现有少部分学生的消费记录明显高于平均值,其中单月消费记录大于720元的学生有90人。这90个学生的单月平均消费记录为1468元,最大值为10382.9元,可能存在一些极个别学生消费记录高或者其他类似刷单等不正常的消费方式,综合单月消费总金额和单月消费平均值的差异及学生消费分布情况后,笔者对单月消费记录大于600以上的学生,共218人剔除,过滤后剩下4123个学生消费记录。通过分析不同指标在学生消费记录的多样性和学生消费行为的相关程度来测算学生困难程度,本文选取了以下5个指标进行分析(如表1)。
2.2 模型特征选择
通过对选取的不同指标统计后分析发现能直接反映学生消费情况的主要为单月消费总金额、单月消费次数、单次消费平均值及累计消费次数这几个指标。利用python脚本对这些指标在人群中的分布情况进行统计,结果发现这些指标分布和相关性差别较大。本文对收集到的消费数据过滤后,利用R语言的scatterMatrix软件包构建了单月消费总金额、单月消费次数、单次消费平均值及累计消费次数的分布图和变量之间相关散点图来表示变量之间的相互关系(如图1)。单月消费总金额和单月消费次数呈现中间多两边少的近似正态分布,说明单月消费总金额和单月消费次数呈现高度的正相关,这一统计结果证实了过滤筛选后的数据没有失真。单次消费平均值和累计消费次数分布大部分都集中在很小的区间范围,而且单次消费平均值的统计更加集中,这说明学生单次消费金额基本相似,只有极少数样本异常,这一分析再次验证了单月消费总金额的差异大部分是由单月消费次数造成的。另外,从单月消费总金额和单次消费平均值散点图可以得出:除极少数学生外,单月消费总金额和单次消费平均值对大部分学生而言是没有线性相关。
除了上述4个与消费记录直接相关的指标外,消费者经常消费的场所和消费的商品可能也是评价消费行为的一个指标。通过对各消费商品的id统计后发现本文分析的所有消费记录中一共有147个不同的商品id,最大值为排名第一的id为196的商品,占总体消费次数的4.2%。所有消费商品的平均消费次数为3533,最小值为3,前6个消费商品的消费次数占总体消费次数的18.82%,以上分析可以得出学生消费的商品类型呈现聚集性和广泛性两个特点,少数商品消费次数很多,但总体来说商品消费总类及不同商品消费次数差异均很大。这也说明特定商品每月的消费次数可能是区分学生消费行为的一个很好指标。
对消费场所的id进行同样的分析后发现,一共有74个不同的消费场所id(消费场所id对应有具体名字),所有消费场所的平均消费次数为7018次,最大值为137487,最小值为1。消费次数前6的消费场所的累次消费次数占总消费次数的66.13%,说明消费地点也呈现出和消费商品类似的聚集性和多样性共存的特点,但是它呈现出比消费商品更集中的趋势。考虑到进行消费行为分析时,选取的指标如果在人群中出现的次数低,那么该指标对整体模型预测能力的贡献率会降低等原因,本文分别选取了消费商品次数多的前6个商品和消费场地次数多的前6个消费场所及单月消费总金额、单月消费次数、单次消费平均值、累计消费次数共16个指标作为分析学生消费水平的指标。
对过滤后的样本用上文分析出的16个指标进行统计,并计算各个因素之间的相互作用关系,最后形成热点图,并在单元格内标注各因素之间的相关系数。分析结果显示大部分因素之间相关性不高,然而有些因素之间有明显的关联关系。如 “商品196”和“好利来食品店”,相关系数为0.96.说明此商品极有可能为好利来食品店所特有,此外第二食堂也和一些商品呈现出较高的相关性(相关性>0.5,商品63和商品54等),说明学生可能经常在第二食堂消费这些产品。除了正相关关系,某些和某个消费场所次数高度正相关的商品可能和另外消费场所呈现负相关,例如商品63和第二食堂呈现较高的正相关(0.88)而和好利来食品店呈现负相关(-0.19),造成这种趋势的原因可能是由于该商品是某消费地点特有的,进一步比较分析了第二食堂和好利来食品店两个因素后发现他们呈现较强的负相关(-0.26)。
除了消费商品和消费场地之间的相互关系,作者分析发现一些消費直接相关的指标也与消费商品及消费场地相关。如单月消费次数这个指标和商品63及商品7的消费次数呈现高度正相关,所以学生单月消费次数多的可能是这些商品,而不是所有商品,进一步说明学生单月消费次数的高低不是由单一的商品消费次数高造成的,而是多个消费产品的消费次数的增加。总体来说单月消费总金额和单月消费次数呈现高度正相关(0.5)而和单次消费平均值呈现弱相关(0.1),所以学生单月消费总金额的差异主要和消费次数及其关联的消费商品与消费地点相关而和单次消费平均值关系不大。
2.3 构建分析模型
本文数据模型采用聚类算法中的KMeans算法,通过对学生消费行为的一些特征进行统计与标准化处理,将这些特征信息转化为区别学生消费水平的依据。在确定模型前需要对模型K值(即学生消费水平分组数量)进行一个预估和模型效果预测。
本文采用轮廓系数作为模型优劣综合评估的标准(轮廓系数越接近1 ,理论上模型效果越好,但并非绝对)。基于后续选择分析的特征数目和轮廓系数值,最终选定K值为5,即将学生消费水平分为5组,具体分析方法如下。
通过上文学生消费相关的16个指标的聚类分析得知学生消费相关属性之间比较独立,相关性不高,所以本文使用无监督的Kmeans分类算法对学生的消费行为进行分类。由于本文用来构建分类模型的属性在具体数值上差别较大,所以在进行分类模型构建时需首先对这些属性进行标准化处理,即对每个属性找出他们的最大值和最小值,然后把每个数值减去最大值再除以最小值得到新的标准化后的数据,这样所有的数据都处于0到1之间。进行Kmeans聚类时最重要的是找到合适的分类中心点,通常的做法是针对不同数目的分类中心点分别计算轮廓系数,然后通过轮廓系数的变化来决定合适的分类中心数目。轮廓系数越大证明选择该中心点数目时,各个聚类差异越大。本文用R语言的fpc软件包计算轮廓系数聚类中心点从1到8的所有轮廓系数,而且为了消除单次聚类时随机因素的干扰,对每个轮廓系数进行了10次重复,并求其平均值作为最后的轮廓系数。结果显示聚类中心数为2到4时轮廓系数比较大,并且中心点为3和4时,轮廓系数差异不大,中心点数目大于4时轮廓系数显著性降低。结合本文需要分类的样本量较大的情况,本文分别绘制了聚类中心点数为3和4的分类图(如图2),结果发现分类中心点数为3和4时整体差异不大。中心点数为4时多出的那一聚类为中心点为3时中心交界的成分,原来的3个中心聚类整体不变。所以为了更好地对学校的消费行为进行划分,本文选择聚类中心点数为4进行后续Kmeans无监督聚类分析。
2.4 模型结果分析
对Kmeans输出的每个类群的人数进行统计后发现类群2的人数为3732人(如图2右边中心点为4的分类图),占总体的43.49%,人数最少的为类群4占比7.82%(671人),中间类群1和3之和为46.17%。所以整体上看消费水平低的学生和消费水平中等的学生占绝大多数,消费水平高的学生只是非常小的一部分。然而本文对消费金额低的类群2单月消费总金额进行统计后发现很多校园卡单月消费总金额不足100元,可能存在一些同学由其他渠道消费支出的情况,统计数据时过滤掉单月消费总金额低于100元的消费记录样本,最后预测出消费水平低的学生为1828名,占比21.30%。最终分析结果可以得出消费水平高、中和低的三类学生的人数呈现出中间多,两边少的现象,印证了用Kmeans聚类分析模型鉴定学生消费水平具有重要意义。
2.5 模型分析结果验证
将分析结果与困难生信息库中数据进行比对来验证模型的准确性。对于模型预测出的困难生信息库以外的学生,可以通过面对面访谈形式了解其真实情况,最终基于预测模型判别是否为困难生。对于模型预测出的消费水平高的学生与困难生信息库中数据若有重合,需要通过面对面访谈、同班级宿舍同学了解情况等方式确认是否真实贫困,需要资助,并针对性地进行学生诚信、励志、感恩、勤俭教育。
3 结束语
享受良好的教育是每个公民的权利,但是贫困可能导致部分学生不能安心的接受教育,这时资助工作显得尤为重要,而贫困认定作为资助工作的最初环节,对后续所有資助工作起着决定性的作用。因此各高校应对其给予高度重视,并对大数据技术进行正确使用,本文采用大数据分析与构建数学模型相结合技术,建立校园贫困生识别模型,对学生进行智能辨别。在资助育人过程中,打出科技牌,达到精准识别、隐性资助、人性化关怀的目的,走出了一条独特的资助育人暖心路线。基于此,我国高校家庭经济困难学生认定的精准性及资助育人的效果将显著提升。
参考文献
[1]金久仁.新时期我国教育公平之价值立场研究[J].教育评论,2020,(9).
[2]周光来.论新时代高校学生资助工作与思想政治教育工作相结合[J].广东职业技术教育与研究,2021,(01).
[3]李腾,王越,苏倩觎.基于“相对比较法”的地方高校资助工作研究——以太原工业学院为例[J].社会与公益,2021,(11).
[4]董波.大数据背景下高校家庭经济困难学生精准认定研究[J].教育教学论坛,2021,(45).
[5]吴菲.“大数据”视域下高校辅导员资助工作精准化研究[J].湖北开放职业学院学报,2020,33(13).