杨胜志
东北师范大学,吉林 长春 130117
贫困生资助工作关乎教育公平性,贫困生资助工作是一个难题,已经引起了广大教育工作者的关注。资助工作可以缓解家庭经济条件不好同学的经济压力,然而多所高校的学生爆出自己学校在贫困生资助工作中出现不公平的现象,主要问题是出在对贫困生的精准认定上。传统的贫困生认定是学生填写家庭收入情况表,当地民政部门出示贫困证明,学生在学校申请然后学校组织小组民主评议的方式。
与教育发达国家相比,我国贫困生资助工作起步要晚,资助体系还不是很完善。2007年教育部和财政部联合发布了《教育部财政部关于认真做好高等学校家庭经济困难学生认定工作的指导意见》[1]。
在实际贫困生评定过程中,首先需要学生填写贫困生资助表并出示家庭贫困证明,然后由辅导员与班级评议小组对申请人是否符贫困生标准进行评议[3]。但是由于各地区经济发展水平不同,贫困的标准也不一样,而且每个院校之间的评价标准也不一样,导致划分贫困生贫困度时无法形成一个统一的标准。
随着互联网的发展,各高校都建立起了自己的数字化校园系统,学校为每一个学生建立了统一的身份认证,学生的在校消费记录、学习成绩、在校表现都记录在这个统一账号中,通过学校后台就能得到每个学生的数据。当前高校的信息化建设已经进入到以“智慧校园”为主题的新时期。
“智慧校园”的发展与完善,里面所记录的数据是学生在校最真实的生活状态,通过对学生长年累月的消费数据分析,可以客观的得出某个学生的经济条件。学生成绩、图书馆数据和寝室出入数据可以反映学生在校表现情况,对这些数据进行综合分析可以得出贫困生的一些行为特征,为资助工作者提供有力的参考依据。
大数据技术对各行各业来说都是挑战与机遇并存,随着互联技术的不断发展,学生在学校产生了大量的数据,如何从这些海量数据中提取有用的信息为我们所用是当前资助管理工作者应该思考的问题。
以前主要是以学生家庭经济情况来划分学生贫困类别,随着高校信息化建设,管理部门能够获得更多的学生信息,如学生成绩、一卡通消费数据、图书馆数据和寝室门禁数据。每一种数据都代表学生在学校的表现,通过将不同的数据联系起来,我们能够更全面的掌握学生在校表现情况。如将学生成绩和一卡通消费数据进行关联,能够得到学生的消费水平和成绩是否有联系,将学生获得助学金的金额与图书馆数据进行关联,能够得到贫困生是否更珍惜学习的机会,去图书馆看书的时间更多。引入多维度认定体系能定量的判断贫困类别[2],相比较传统以家庭经济条件的认定体系,他是通过对学生在学校产生的数据动态的进行分析,将家庭经济条件、在校消费情况和在校表现多方数据作为认定贫困类别的依据,这样不仅认定的更精确,在认定后期也能通过消费数据和在校表现起到一个监督的作用。
建立动态贫困生档案的好处在于,很多学校对于贫困生的贫困度认定是“一评定终身”,除了极个别特殊情况,大多数贫困生的贫困度在评定完以后几年就再也没有对其贫困类别进行二次评议。然而随着每个人家庭经济条件的改变,每个贫困生的贫困度也随之改变。如家里某个成员突然遭受重大疾病或者家里遭受自然灾害,如果不建立动态贫困生档案库,就不能科学合理的将资助资金用到恰当的地方。通过建立动态贫困生档案库,方便对贫困度改变的贫困生进行调整,对发现的伪贫困生予以取消贫困生资格。
认定方法主要是通过利用大数据技术、数学建模方法和数据挖掘来对学生在校数据进行分析挖掘。传统的贫困生贫困度分类有基于关联规则的一卡通数据挖掘和分类方法的数据挖掘方法。基于大数据的贫困生类别认定过程主要包括对学生数据的处理、提取特征值、数学建模和数据进行挖掘。
3.3.1 学生数据处理
首先将学生数据从学校管理系统后台中提取出来,此时需要对重复的数据进行删除,对缺省的数据进行适当的补充。然后将数据转换成基于大数据平台的KEY-VALUE格式。数字化校园为每个学生建立唯一一个进行身份识别的ID,通过这个ID可以查到学生所有的数据,但不是所有学生的数据都是完整的,比如有的学生很少在学校食堂吃饭,他的一卡通消费数据很低,但是在校外吃饭花销却很大,对于这种特殊情况我们就需要特殊考虑。所以要对学生的数据进行统一格式化处理,这样才能科学有效的反映学生贫苦类别。
3.3.2 提取特征值
基于多维度的认定体系数据来源比传统的一卡通消费数据挖掘更广,如何将学生在校表现的其他数据与贫困生贫困度联系起来,我们对每个数据项进行特征提取,例如从一卡通消费数据中可以提取出每天平均消费、最大消费数和消费类别等,从学生成绩数据中可以提取出学生在学院的成绩排名。提取特征值的好处在于方便用每个特征进行组合,将一卡通每天平均消费与成绩排名两个特征组合与贫困生类别进行关联,得到每个特征在贫困类别认定时起到的作用,每个特征所起的作用肯定不一样,到时候在数据挖掘时可以将不同的特征赋予不同的权重。
3.3.3 构建贫困认定模型
贫困认定模型主要是利用现有的关联规则方法、分类聚类算法等模型,对具体情况进行分析时,有时需要对原有模型进行改进以满足要求。随着大数据、云计算的发展,目前出现了一大批基于分布式计算的算法模型,这些模型在处理复杂数据的时间效率和精确度上都要比原有的传统数据挖掘算法提高很多。模型构建的主要核心点在模型参数的调优,每个模型最主要的基本参数的调节,特征值权重如何设置,都会影响对结果的判断。
3.3.4 基于大数据的贫困生类别数据挖掘
基于学生消费数据、成绩排名数据和在校其他情况数据的分析,获得贫困类别量化评定指标,并且经过标准化处理得到每个学生的贫困类别。按照当前贫困类比分为非贫困生、一般贫困、重点贫困和特别贫困四个类别。
大数据技术能够全面科学的对学生数据进行分析,基于大数据的贫困生类别认定体系需要学校牵头,各学院各部门积极配合,建立统一的大数据信息处理平台,数据来源需要教务部门、资助管理部门、后勤保障部门和财务部门提供,分析认定的“精准识别”结果由各部门共享。通过对学生在校数据全面分析能够全面最准确地反映学生在校情况,为贫困类别认定时提供量化的标准,可以作为资助管理工作者的重要参考依据。