基于大数据分析的高校贫困生精准资助策略研究

2020-09-02 01:22欧阳铁磊叶玲肖
计算机应用与软件 2020年8期
关键词:特困生贫困生次数

欧阳铁磊 叶玲肖

(浙江工商大学网络信息中心 浙江 杭州 310018)

0 引 言

对高校来说,判定贫困生没有统一的标准。现在一般采取自主申报的方式,有些同学由于自尊心等因素,即使经济困难也不去申报。有些家庭即使不贫困,也能开出贫困证明。现行办法存在一定弊端,主观依据多,客观依据少。

现在高校普遍采用的校园卡,又叫“一卡通”,记录了学生生活学习的各方面情况,其中包括在食堂就餐消费的数据。判断贫困生的关键是选取特征变量以及确定分组点。现有研究的观点包括:通过已经认定的贫困生得到相应的贫困标准线,比较每名学生与贫困标准线的偏离程度[1];采用月消费金额,通过聚类算法分组[2];对常规变量作处理,用消费金额比上平均消费金额作为贫困指数[3]。但上述研究仍存在弊端:(1) 认定的贫困生名单中可能有误差,存在少部分虚假贫困生,不能直接采用这份名单中统计分析出来的数值作定量分析,但是可以统计总体消费特征做定性分析;(2) 选取的判断贫困生的变量,需要算法检验,找出最能区分贫困生的特征变量。

基于这些考量,本文判定贫困生的思路是:统计贫困生认定名单和非贫困生两类学生的消费特征;根据消费特征,研究分析出消费特征变量之间的相关性和内藏的消费观点。通过研究结果,尝试导出更能区分贫困生的派生变量,与其他常规向量一起,通过CHAID算法,检验找到最佳分组变量和最佳分组点。

1 数据处理及特征分析

1.1 数据处理

采样某高校在校学生的校园卡食堂消费原始数据,还有一份相关部门给定的贫困生名单,即通过自主申报方式评出的贫困生,以找出贫困生与非贫困生不同的消费行为特征以及内部隐藏的规律。

首先对数据进行获取和预处理,从数据库查询计算每个学生在校期间的消费情况,诸如月消费总次数、三餐平均消费额等。按照相关部门给的名单,将学生分为贫困生和非贫困生,统计其消费特征。图1和图2分别列出了三餐平均消费金额和就餐次数两个消费变量。

图1 贫困生与非贫困生三餐平均消费金额对比

图2 贫困生与非贫困生月就餐次数对比

可以看出,贫困生区别于非贫困生的两个特点:一是在食堂的平均消费次数高于非贫困生,二是在食堂的平均每餐消费金额低于非贫困生。

1.2 特征分析

深入分析消费次数和消费金额之间的内在关系,发现派生变量x与y之间存在如下线性关系:

y≈3x

(1)

x=(m0-m1)/m1

(2)

y=(n1-n0)/n0

(3)

式中:x表示非贫困生平均消费金额超出贫困生的百分比;y表示贫困生月消费次数超出非贫困生的百分比;ni表示一个月中i类学生消费次数;mi表示i类学生的平均消费金额,i取0或1,0表示非贫困生,1表示贫困生。实验结果如图3所示。

图3 x与y线性关系

式(1)表明非贫困的平均消费金额每超出贫困生1个百分点,贫困生就餐次数就会超出非贫困生3个百分点。早餐是三餐中次数相差最大的,中餐、晚餐次数相差不大。经过对食堂饭菜品种价格等进行调查,发现早餐品种丰盛、价格实惠,中餐和晚餐荤素价格相对比较固定,饮食需求基本为一荤一素。对比学校外同等程度的饭菜,食堂价格要低一些,所以贫困生更倾向在食堂吃饭,尤其是早饭。因此价格对贫困生来说成为决定是否在食堂吃的重要因素。贫困生偏向用更少的钱,满足自己的基本饮食需求。

根据统计和分析结果,推测出贫困生特征的三种情况:

1) 两种消费特征都满足,就餐次数高,平均消费低;

2) 满足其中一种消费特征,就餐次数高,但是饮食需求大,在食堂的平均消费可能会偏高;

3) 满足其中一种消费特征,平均消费低,但是有可能在食堂就餐次数少。

2 基于CHAID算法的群体分组

卡方自动交互诊断器(CHi-squared Automatic Interaction Detector,CHAID)由Kass等在1980年提出,是一种决策树算法。其核心思想是:根据给定的输入变量和输出变量对样本进行最优分割,按照卡方检验的显著性进行多元列联表的自动判断分组。利用卡方自动交互检测法可以快速、有效地挖掘出主要的影响因素,它可以处理非线性和高度相关的数据,能克服传统的参数检验方法在这些方面的限制。在CHAID技术中,可以直观地看到在树的分割变量和相关因子之间的关系。决策树或分类树的展开,始于确定作为根节点的目标变量或因变量。为了找出最优根节点,引入特征变量W=月消费次数/平均每天消费金额,加入常规变量中,作为CHARID算法的输入变量。

2.1 输入变量预处理

根据模型特点,输出变量为分类型,0表示非贫困生,1表示贫困生,输入变量均为数值型,包含W、早餐平均消费金额、中餐平均消费金额、晚餐平均消费金额、早餐月消费次数、中餐月消费次数、晚餐月消费次数、日平均消费金额,月消费总金额等。采用ChiMerge分组法,其特点是:输入变量所具备的对输出变量的解释能力,不会因分箱处理而减弱。举例W变量处理过程如下:

1) 将变量W按变量值升序排序,定义排序后的输入变量取值w1,w2,…,wi,wi+1,…,wn,定义相对应的输出变量取值Y1,Y2,…,Yi,Yi+1,…,Yn。

2) 以相邻两个输入变量中间值Qi为组限,使每个数据均单独落入初始区间中。

3) 得到分组区间与Y值的交叉表,如表1所示。

表1 相邻两区间与Y值的交叉表

4) 计算该交叉表的卡方值。

(4)

式中:r表示行的个数,这里是相邻两组数[Qi,Qi+1]与[Qi+1,Qi+2],所以值为2;C表示列的个数,这里是目标变量是否贫困,分为Y=0和Y=1两类,所以值为2。

5) 将卡方值与临界值进行比较。该模型中选择自由度为1、显著性水平为0.05的卡方临界值3.841。如果卡方值小于临界值,则两组输入区间可以合并为[Qi,Qi+2],若卡方值大于临界值,则不能合并。

ChiMerge方法是一种在输出变量指导下的分组。它注重从分组结果与输出变量的相关性角度实施分组。这样的分组结果减少了输入变量的取值个数,但并不影响对输出变量的分析。

2.2 确定最佳分组变量

对数据完成预处理之后,进行最佳分组变量的选择,计算输入变量与输出变量相关性检验的统计量的概率P值,即卡方值对应的P值,P值越小,说明输入变量与输出变量的关系越紧密,应当作为当前最佳分组变量。当P值相同时,应该选择检验统计量观测值最大的输入变量,也就是卡方最大的输入变量。实验结果显示,变量W的P值为0,χ2=566.171最大,选取该变量为最佳分组变量即根节点,如表2所示。

表2 与输出变量关系最紧密的前5个输入变量

CHAID算法将变量W从低到高分组。贫困生在每组的占比随着W的增加而增加。根据实际需要并结合其他节点的分组情况,适当进行剪枝,给出最终的判定贫困生标准:

1)w>2.194,中餐平均消费≤8.05。这部分贫困生在食堂消费次数高,消费水平微低于非贫困生,说明经过资助,消费水平已经接近正常水平,称为一般贫困生。

2)w≤2.194,1.9<早餐平均消费<3.58,中餐月消费额≤107。这部分贫困生早餐多买一点当作午餐吃,午餐花费相对少,称为消费困难生。

3)w≤2.194,早餐平均消费≤1.9,中餐平均消费额≤7.41。这部分贫困生消费次数少且消费水平低于贫困生的平均水平,称为消费特困生。

2.3 验证结果

在统计结果中有消费记录的学生为15 747名,一日三餐都有消费记录的为10 649名,其中在认定贫困生名单里的有1 703名,其他非贫困生有8 946名。

(1) 验证贫困生名单情况。在贫困生名单里符合一般贫困生特征的有1 053名,符合消费贫困生特征的有320名,符合消费特困生特征有99名。贫困名单中按贫困规则判定的贫穷生占86.4%。调查发现在13.6%的疑似非贫困生中仍然存在少部分的贫困生。实验误差主要受在外实习、点外卖、学校周边小吃店多以及自身食欲、体重等多种因素影响。

(2) 验证非贫困生名单情况。一般贫困生经过学校资助后,消费水平接近于非贫困生,用这种消费特征作为判断贫困生的标准会有误差,这里使用消费困难生和消费特困生的特征来判断贫困生。符合消费困难生特征的有862名,符合消费特困生特征的有314名,占非贫困生名单的13.1%。对判定的疑似贫困生进行调查分析,发现有部分学生家里比较富裕,但生活比较节俭。另外一部分家里确实比较困难,但因为各种因素,没有申报成为贫困生。

3 结 语

本文建模得到的结果,基本符合预期的贫困生消费特征。两种消费特征都满足的占了大多数。少部分贫困生的消费特征是在食堂平均消费低,且次数低。食堂消费次数多、消费额偏高的情况并不显著,表明大家的基本饭量和胃口差不多,对饭菜的要求不一样。

分析贫困生的消费特点,两类学生值得关注:消费困难生和消费特困生。消费困难生经济上比较拮据,为了节省费用,中饭就吃早餐买的一些食物,给予资助可以改善他们的伙食。消费特困生不仅需要经济的帮助,还需要心理的辅导。走访调查发现这类消费特征的学生不在学校食堂就餐的消费金额,要比在食堂就餐还低。他们往往克扣自己的伙食费,没有达到基本的生活饮食需求,对身体、学习都存在不利影响。学校应引导他们改变消费观念或给予更多的经济补助。

本文研究了用贫困生判断规则检验贫困生名单的情况,以及在非贫困生中找疑似贫困生的方法,并阐释了误差产生的原因。这些研究分析数据可以辅助学校进行贫困生资助工作,资助那些真正需要经济帮助的学生。尽管高校贫困生精准资助是个系统和复杂的问题,但随着高校信息化的发展,大量采集多维度高质量的数据,并采用科学的评判方法,就一定能够取得令人满意的结果。

猜你喜欢
特困生贫困生次数
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
最后才吃梨
俄罗斯是全球阅兵次数最多的国家吗?
高校贫困学生的心理健康状况及其对策
144名贫困生的爱心爷爷——余祖堂
“贫困生班主任”李金林
108名特困生有了“代理妈妈”
有心育才是前辈 矢志报国看后生:颜正明与二百五十八个特困生
莫与贫困生“抢饭吃”
大学特困生的心理问题及疏导教育