王新雷 史瑞刚
关键词:贫困生;校园一卡通;贫困认定;贫困识别
1引言
大学生贫困认定是当前社会关注的焦点之一。它不仅是一个简单的贫困生问题[1],更是一个关系到家庭和社会的问题。为了促进教育公平,国家、高校、社会各界共同努力,建立了较为完善的学生资助政策体系,从多方面保证各学生能够顺利入学和完成学业。贫困生的认定一直是大学生资助管理的难题,贫困生的正确认定直接影响大学生资助管理的效果。但是,根据目前对我国高校学生资助管理中贫困生认定情况的调查,所有高校学生资助管理人员都承认贫困生认定的重要性,但同时也表示,在具体认定过程中,很难保证贫困生认定的合理性和正确性。
目前,一些研究人员已经利用学生的三餐消费、学校超市购物、上网消费等日常生活数据来识别和分析贫困学生。陈晓等[2]使用基于加权约束的决策树方法构造了加权约束的决策树来识别贫困生,提高了贫困生的识别效率。刘亮等[3]采用K-Means聚类方法来构造贫困生聚类指数,由此确定贫困大学生的贫困程度。王文娟等[4]使用校园一卡通数据进行描述性统计和非参数检验分析,得到了大学生在校园内的消费行为特征以及不同学生的消费差异,为贫困大学生的认定提供主要依据。赵丙贺[5]采用机器学习中的K-Means算法对校园一卡通的学生消费数据进行聚类分析,根据聚类结果将学生消费等级分为三个层次,并结合学生成绩等数据得到贫困生认定标准。伍智鑫[6]利用聚类方法分析了学生校园一卡通消费特征数据,并对聚类的结果进行分类,实现了贫困生的高效精准认定。
本文通过采集学生三餐消费、学校超市购物、网络消费等日常生活数据,将校园一卡通数据接人大数据平台,结合学校大数据分析平台,对贫困生的家庭情况和消费水平,以及学生的日常行为数据进行相关性分析和研究,建立科学合理的贫困生精准认定模型,精准确定贫困生资助对象,实现对贫困大学生的识别和监控,为差异化精准资助贫困生提供决策基础,进一步提高學生资助部门的大学生资助工作的准确性和实效性。
2高校贫困生认定存在的问题
2.1认定模式单一
目前,高校认定贫困生的流程一般是通过学生提交的本年度贫困证明或相关困难证明(如《低保证》《建档立卡证》)根据贫困程度进行认定。同时,建立班级贫困生鉴定工作组,经过鉴定组成员的民主鉴定,最终建立班级贫困生数据库。
这种认定模式主要是班级评议小组根据材料和学生在校表现进行民主评议,过于依赖学生在校表现来评价学生。在没有实地调查或有效取证的情况下,仅凭这两项工作很难客观了解学生家庭的真实情况。
2.2贫困认定标准不统一
由于不同地区居民收入水平存在较大差异,各地区贫困家庭的认定标准也必然不统一。学生在当地出具的贫困证明只表明该学生家庭在当地贫困,并不表明该学生在学校与其他同学相比贫困。因此,贫困是一个相对的概念,由于缺乏统一的标准,贫困生认定工作在实际操作中存在较大的难度。
2.3贫困证明材料不真实,贫困生身份难以分辨
由于相关部门对发放贫困证明不够严谨,出现不审查家庭情况直接盖章、找关系开证明、求人伪造贫困证明等情况,导致贫困生人数激增。另一方面,一些真正贫困的大学生为了自身的自尊心,会多填写人均家庭年收入,这样一来就会影响贫困生认定模型的正确构建,并且学校也没有能力逐一分辨这些数据的真伪,最终将贫困资助指标下发给“假贫困生”,占了贫困生资助名额,致使真正贫困的大学生未能得到实际资助,给学校的贫困资助工作带来潜在影响。
3基于校园卡平台的贫困生数据仓库建设
3.1贫困生数据仓库建设
基于校园一卡通平台和大数据应用开发平台,收集学生三餐、学校超市购物、网络消费等日常生活数据,使用大数据平台分布式存储系统,完成贫困生大数据的存储,将贫困生数据与学生日常消费行为数据深度整合,建立学校贫困生大数据的数据仓库,如图1所示。
3.2基于人工干预的高效数据降维
在现有线性相关降维方法的基础上,结合校园卡数据特点,引人人工干预方法,有助于直接提取、标记、筛选学生就餐消费信息和网络消费等数据。然后,可以应用机器学习算法,对学生的饮食和网络消费等数据建立一组强有力的关联变量,为贫困生的评定分析做准备。
3.3贫困生数据仓库的更新
由于每年都会有新生人校、毕业生离校,这就使得贫困人员信息处在动态变化中,为了更加精确地评定贫困生,我们需要对贫困生数据样本开展数据治理,主要采用数据统计和大数据分析算法,过滤已经毕业的学生以及不能反映学生真实贫困情况的数据,及时完成贫困生数据仓库的更新,确保贫困生数据的真实性和有效性。
3.4构建贫困生主题域
贫困生主题库建设决定了对贫困生认定业务的支撑,须建立相关主题库对校内学生消费信息进行统一整理与规范,还原校园一卡通学生消费的业务场景,将每个环节拆解后分析,围绕一卡通消费的对象、消费行为、一卡通业务办理展开,针对各类群体、各类消费类型、消费时间等维度,分析消费金额、消费次数、消费时间等,同时可以根据消费行为,分析低消费人群,作为贫困生资格的参考。贫困生主题库的建设须结合校园卡平台和学生实践活动,了解数据产生与发展的状况,充分理解数据内容,并在此前提下遵循以下两大原则进行建立。
第一原则:遵循既定的校级数据标准规范。需要在建立相关主题表单的过程中严格遵循既定的校标数据项标准与规范,确保贫困生数据主题库中数据项的唯一性与规范性。
第二原则:建立校内统一且认可的贫困生数据分类规则与方式。通过与大数据平台对接,整理出贫困生主题域。
4基于校园卡数据的贫困生认定框架构建
随着高校信息化建设的不断完善,各种信息系统积累了大量的学生日常校园生活数据,如学生食堂消费、家庭经济状况、移动账单、一卡通、图书借阅、网上消费等数据。这些数据可以对学生在校行为给出更准确的画像,并结合同学和教师的民主评议结果,将这些数据采集到大数据平台,通过构建贫困生识别模型,实现对高校贫困生的准确认定,其认定过程如图2所示。
4.1贫困生数据库采集
通过贫困生数据仓库收集学生日常生活、学习、消费记录,这些流水记录包括学生身份信息、校园卡号码、使用场所、消费金额等信息。
4.2数据预处理
学生一卡通数据来自不同数据库,信息量大,数据类型多样,导致实验数据不完整、不一致、异常等问题。为了解决低质量数据的问题,需要对原始数据进行转换,本文使用Python语言工具,首先对学生食堂消费、家庭经济状况、移动账单、一卡通、图书借阅、网上消费等数据进行挖掘,深度分析学生食堂消费、家庭经济状况、一卡通、图书借阅、网上消费等学生个人信息。其次,结构化学生校园卡平台数据,完成贫困生历史数据、学生日常消费数据的融合。然后,针对贫困生数据库中数据项有缺失的字段,进行缺失值填充,将贫困生样本数据集中的缺失值评估填充为贫困生数据样本属性均值。最后,完成贫困生样本数据离群数据挖掘,并对离群數据进行标注,完成贫困生大数据预处理工作。
4.3数据降维阶段
通过采集学生的消费数据、上网数据、图书借阅数据、家庭基本情况等数据,发现数据特征异常复杂,但是有一些字段的数据对于结果没有影响,或者影响极小,我们需要根据实际情况,采用主成分分析方法对所采集的数据进行降维,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。
4.4贫困生识别模型构建
将校园一卡通中学生的三餐消费、上网数据、图书借阅等数据采集到大数据平台后,采用机器学习算法中的Logistic方法,使用贫困生的基本消费数据和家庭情况数据构建贫困生认定模型。然后,利用往年的贫困生数据对贫困生识别模型进行训练,得到最佳的模型参数,使得贫困生预测模型的结果更加精确。最后,使用优化后的贫困生识别模型对新贫困生进行识别和分析。由此可见,关于高校贫困生认定模型的建立是一个不断优化的过程,随着时间的推移和贫困生数据库中数据的增加,贫困生识别模型将更加准确和有效。
4.5贫困生认定
将待识别的贫困学生数据导人大数据处理平台,通过Python工具来计算学生近一个月的三餐消费、超市消费金额、上网消费等数据,形成贫困生特征向量。基于这些特征向量,形成贫困生数据集。同时,使用贫困生识别模型对形成的贫困生数据集进行识别,找出真实的贫困生,生成初步的贫困生名单。然后,由负责学生资助工作的老师对模型输出的贫困生和贫困等级进行审核,最终确定贫困生名单。最后,将识别出的贫困生数据输入贫困生数据库,更新贫困大学生数据仓库的数据,为贫困生认定模型的优化提供数据支撑。
5结束语
本文利用校园一卡通采集学生三餐消费、超市购物、上网消费等日常生活数据,建立贫困生数据仓库,提出基于一卡通数据的贫困生认定流程,实现高校贫困生的识别和监控,为实施精准资助提供决策依据,从而建立科学合理的资助管理体系,提高学校贫困生资助工作的准确性。