基于神经网络算法的高校贫困生预测模型研究

2021-04-24 14:23
网络安全技术与应用 2021年4期
关键词:一卡通贫困生神经网络

(江苏科技大学苏州理工学院 江苏 215600)

1 引言

高校在智慧校园与高校大数据平台建设中,沉淀了大量的学生校园行为数据,尤其是在校园一卡通普及后,每天高校都产生数万条学生刷卡行为数据。而贫困生资助工作一直以来是高校学生工作的重点之一,实现资助工作科学化的前提是识别对象精准化。但是高校在传统的贫困生认定工作中,仍然会出现因学生材料可信度考证难度大、伪贫困和学生因心理压力拒绝申请等情况出现,对此给高校贫困生认定工作带来了一定困难。

为了提高贫困生认定的准确率,各高校都在研究使用数据挖掘与大数据技术突破贫困生认定工作的瓶颈,如使用Apriori 关联规则算法、贝叶斯分类算法、K-Means 聚类算法、SVM(支持向量机)等算法模型提高贫困生认定的精准率。本文采用神经网络算法模型实现对贫困生身份的精准预测。神经网络算法有较强的非线性映射能力,适合于求解内部机制复杂的问题,具备自组织自适应、非线性映射、高度并行、高泛化等特点,对基于校园一卡通消费数据的数据挖掘工作有较高的识别预测的能力,可以辅助高校挖掘潜在的贫困生,提高资助工作精准性。

2 基于神经网络算法的预测模型

BP 网络,是一种按误差逆向传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一,用于函数逼近、模型识别分类、数据压缩和时间序列预测等。它是一种有监督的学习算法,具有很强的自适应、自学习、非线性映射能力,能较好地解决数据少、信息贫、不确定性问题,且不受非线性模型的限制。一个典型的BP 网络应该包括三层:输入层、隐含层和输出层。各层之间全连接,同层之间无连接。隐含层可以有很多层,对于一般的神经网络而言,单层的隐含层已经足够了。上图是一个典型的BP 神经网络结构图。

2.1 贫困生的消费特征提取与选择

本次模型数据依托于学生基本信息和学校一卡通系统中的数据进行分析,挖掘学生消费习惯与贫困生之间的关系。高校数据中,虽然有很多看似有用的数据,例如学生填写的家庭经济情况信息,包括家庭人口、工作、收入和其他证明材料(生病证明、受灾证明、贫困证明等),但都存在一定主观性,学校无法准确判断其真实有效性,所以本次采用数据中,基本信息只是用学生最基本信息,如生源地、民族、考生类别等信息。

在一卡通消费数据中,本文选取2018 年9 月到12 月份18 级某学院的学生消费数据,共计22W 条。数据样本中,因学校水费电费采取宿舍内部公摊形式收费,容易使贫困生个人消费数据失准,所以从样本集中删除该类数据,同样删除的有季节性消费的热水、淋浴类型数据。此时一卡通数据共计186822 条。

由于挖掘模型是针对学生个体,所以在数据与处理阶段,将18.6W 条数据,根据学生个人进行统计,统计维度包括学生每月消费次数,每月消费金额,月早午晚餐次数和金额、食堂消费,超市消费,其他类型消费等。

图1 为学生个人数据,由于分析软件对中文不友好,所以将学生的政治面貌、性别、生源等信息,替换为数字标识。

图1 学生数据

2.2 BP 神经网络预测模型构建

本文使用的是BP神经网络模型,是从有贫困生身份字段(is_poor)的训练集中,挖掘学习数据内部规则的算法,然后对测试数据进行测试预测出贫困生身份。本文实验基于具有图形用户界面的互动原型特点的RapidMiner 平台,此平台为开源平台,除了提供图形交互外,还提供支持代码镶嵌,开放接口等功能。

本次模型神经网络建立了三层结构,直观展示了输入输出过程,输入层为学生个人数据的58 个特征,每个特征对应一个神经元,所以输入层节点为58 个。此次挖掘是针对学生是否为贫困生身份进行的,所以输出层神经元个数为2 个。中间层为隐藏层,因为本次挖掘学习使用数据量较大,考虑到效率问题,仅使用了一个隐藏层。根据公式H=(M+N)1/2+α,M 为58,N 为2,α∈[1,10],结合实际训练结果,隐藏层为16 个神经元时结果最好。AdaBoost 的iterations设置为10,training cycles 设置为200,error epsilon 为10E-4。

2.3 预测模型的验证

模型完成训练后,将测试数据导入模型中,记录模型数据层节点输出的值,将预测值predict(is_poor)与测试集对应的实际贫困生身份对比分析。测试结果如表1 所示。本次测试共355 条数据,其中正确预测记录为293 条,正确率为82.54%。本模型采用学校真实数据,对学校学生贫困身份进行识别,并与相关部门提供的学生贫困生数据进行对比。

表1 预测结果

3 结论

本次数据挖掘,采取校园一卡通22W 条数据,和355 条学生个人信息数据,通过数据清晰和预处理,从22W 条数据中提取近百个特征点,通过传统和主成分分析等方法,保留了58 个特征点,将数据引入到神经网络模型中,得到准确率为82.54%的模型,符合对该模型的预期。

将大数据技术和神经网络挖掘方法应用到高校的贫困生认定工作中,旨在甄别贫困生身份,通过分析学生的基本信息和校园一卡通的业务数据,保证模型的客观性。在经过大量数据训练和验证后,本模型可以作为贫困生身份认定的参考依据,辅助学校相关部门,在贫困生认定工作时提供数据和决策支持。

在数据预处理和特征选择时,还可以通过其他尝试,提高模型的准确率。例如根据一卡通数据消费特点,增加或删除特征点;根据不同时间节点,将学生数据分为周末消费和非周末消费;引入学业成绩数据和其他非一卡通数据,提取特征点,加入模型。

猜你喜欢
一卡通贫困生神经网络
神经网络抑制无线通信干扰探究
基于神经网络的中小学生情感分析
基于“一卡通”开发的员工信息识别系统
公共交通一卡通TSM平台研究
基于神经网络的拉矫机控制模型建立
向心加速度学习一卡通
基于支持向量机回归和RBF神经网络的PID整定
一卡通为新农合基金加密
“贫困生班主任”李金林
十年筹资千万元 资助八千贫困生