摘要:高校贫困生认定工作一直是高校资助管理工作中一项重要的任务,随着大数据技术的日益成熟,用户画像技术逐渐成为国内外研究热点,能够将用户画像技术应用于贫困生认定工作中,将给整个资助管理工作带来巨大的便利。本文从高校贫困生认定的实际出发,研究高校贫困生用户画像的构建、系统设计和数据处理的关键性技术。
关键词:贫困生认定;数据挖掘;用户画像
一、研究背景与意义
目前高校资助管理主要围绕两大工作:贫困生认定工作和贫困生资助工作,精准认定贫困生是开展学生资助工作的前提,也是判断资助政策是否落实到位的重要标准。中共中央、国务院以及各级地方政府都先后出台了一系列的资助政策,从多方面资助在校贫困大学生。随着资助力度的不断强化、资助金额的不断提高,2019年资助认定流程简化,民政部门取消家庭情况证明,由学生本人提出贫困生认定申请,部分学生在金钱的诱惑下出现虚报家庭经济情况的现象,高校如果没有科学有效的认定方法,将会出现部分“伪贫困生”,他们不仅占用了国家资助资金,影响高校资助工作的开展,更破坏了学校风气,违背了“贫困助学”的初衷。如何认定困难学生,更加有效的落实各项资助政策,合理展开资助工作已成为高校资助管理工作的一大难题。
2017年教育部办公厅发布《教育部办公厅关于进一步加强和规范高校家庭经济困难学生认定工作的通知》,通知指出高校应利用大数据采集、分析,深入、准确了解学生家庭经济状况,及时排除不困难却受助的学生,实现资金合理分配,因此我们需要一个客观的评判标准,辅助判别学生的经济状况。
使用数据挖掘技术从大数据中抽取潜在价值信息,对在校生基本信息、消费数据进行挖掘分析,结合高校贫困生数据库,将数据挖掘技术应用到贫困生认定工作中,生成贫困生用户画像,贫困生认定工作会更科学更准确。
二、用户画像技术国内外研究现状
“用户画像”理论是由Cooper交互设计公司创始人Alan Cooper提出,是一个抽象标签化的用户模型,基于数据挖掘技术。用户画像最核心的技术是为研究对象贴上合适的“标签”,这些“标签”是通过数据挖掘技术采集分析数据,对数据进行高度概括后产生。
早在2005年,国外的很多专家就开始通过调研不同对象的国家、文化背景、风俗习惯、语言习惯等,将用户画像跟产品设计、软件系统设计结合。目前很多企业将用户画像应用在企业营销和管理当中,技术已经非常成熟。腾讯公司利用QQ、微信等社交平台收集社交信息,同时收集用户的身份信息、兴趣偏好、位置信息等。腾讯的数据结构越来越丰富,数据类型也越来越广泛。
随着企业用户画像技术的成熟,一些高校也逐渐开始进行学生画像研究,利用用户画像技术把握学生动态、精准定位,有效挖掘、分析教学管理过程中的大数据,给每位同学进行用户画像,形成自动预警机制,为校园管理开启一扇新的大门。目前大部分高校用户画像系统分析维度比较少,各维度的数据缺乏协同性、数据源广度也不够,仅仅从教学资源、思想政治、图书管理等方面进行分析,没有将其他维度(课程预警、贫困生信息等)有机结合构建多维度的用户画像。
三、用户画像的构建
用户画像是真实用户的虚拟代表,是建立在真实属性数据之上的用户模型。贫困生画像构建技术是根据学生在校期间的行为数据,构建学生的基础信息、消费能力、学习成绩等标签集合。
构建用户画像需遵循以下两个原则:
(1)必须从工作任务出发,解决实际问题,比如根据不同的指标确定如何更好的完成学生消费能力评估;
(2)设计用户画像标签时,明确用户特征、属性和习惯偏好以便更好的完成数据汇总。
用户画像的构建分析主要通过以下四个步骤:
(1)需求评估分析:通过需求分析,对用户画像的价值,预期效果和意义进行分析评估和预测。
(2)维度分解:根据需求分析结合实际工作需求,确定用户画像的维度,从学生基本信息入手,以个人信息、家庭成员基本情况、在校消费能力情况、学习情况等属性为基础,确定数据画像维度。
(3)确定关键技术、完成数据清理:目前有很多数据清理工具,如Python中的 Sklearn和Pandas模块。通常用替换常量、填充均值、预测回归等方法处理重复值、异常值和缺失值。
(4)应用流程:完成以上三步后,最后生成用户画像,应用在实际工作中。
四、系统功能设计
系统功能设计通过分析学生的基本属性、统计属性、分析属性,确定用户画像的维度。基本属性显示学生学号、姓名、性别、学院、专业、班级、入学年份、民族、生源地、联系电话、父母亲情况等标签。统计属性显示学生的学业成绩、校园卡消费、使用手机品牌、持有计算机品牌配置、网上购物数据等。分析属性比对高校贫困生数据库,根据基本属性和统计属性显示贫困生的预测结果。
根据预测结果,将学生进行分类:特别贫困、比较贫困、不贫困。使用数据挖掘技术中的决策树分类算法完成,该算法提供一定数量的样本,这些样本的属性和类别要完整,经过对比产生分类器,利用决策树算法,根据学生往年数据,对今年贫困生进行预测,挖掘学生真实的经济情况,准确评估、动态管理。
决策樹算法首先完成数据清洗、转换和泛化等预处理工作,再生成贫困生决策树,并对决策树进行剪枝处理,形成最终决策树,对贫困生的贫困程度进行预测。
五、数据获取与预处理
选取北海艺术设计学院近几年1300名递交贫困生申请的学生信息,完成数据分析和处理。综合考虑影响贫困生家庭的主要原因,选择了如下标签:
(1)父母情况:是否健在、是否健康、是否离异;
(2)人均收入:家庭人均年收入状况;
(3)户口的类型:城市或者农村;
(4)家庭总人口数:学生直系亲属数量;
(5)证明材料:是否有建档立卡、低保、残疾证明等;
(6)成績状况:该生各科成绩情况、不及格课程的数量;
(7)校园卡消费:校园卡每年的消费情况;
(8)其他情况:手机、电脑使用情况。
预处理部分采用离散化处理和数据泛化处理。离散化处理将数据区间范围化,比如将家庭人均年收入分成4个区间:0-1500、1500-3000、3000-5000和5000以上。数据泛化把数据从复杂概念转换成逻辑判断,比如将父母情况字段的三个取值、泛化成3个字段,健在、健康、离异分别取“是”或“否”。
六、总结
为了充分发挥高校在全国脱贫攻坚中的作用,在资助管理工作执行过程中,特别是贫困生认定工作中要充分利用大数据技术带来的便利。用户画像在贫困生认定中具有巨大的发展潜力。本文从用户画像的国内外研究现状出发、分析了用户画像的构建、系统结构分析、数据收集和预处理等关键性技术。
通过用户画像完成贫困生认定,建立贫困生数据库,资助部门既掌握贫困生基本信息,又能对数据进行有效分析,使高校资助管理工作更加公平、准确。
参考文献:
[1] 刘玉霞.大数据背景下高校精准资助路径探析[J].未来与发展,2016.09
[2] 孙梦;高峰.大数据时代精准识别高校贫困生研究[J].北京劳动保障职业学院学报,2017.06
[3] 伍智鑫.基于一卡通数据挖掘的高校贫困生精准扶贫应用研究[J].湖南科技学院学报,2019-04
[4] 杨长春;徐筱;宦娟;田迎春;经德林.基于随机森林的学生画像特征选择方法[J].计算机工程与设计,2019.10
作者简介:
吕雅婷(1984.4),性别 女,籍贯(河南省漯河市),单位(北海艺术设计学院),学历(硕士)职称(讲师)
基金项目:
本论文是2019年度广西高校中青年教师科研基础能力提示项目“高校学生资助管理系统开发与研究——以北海艺术设计学院为例”阶段性成果,项目编号:2019KY0953
(作者单位:北海艺术设计学院)