胡旭昊,韩成浩
(吉林建筑大学电气与计算机学院 吉林 长春 130022)
随着大数据时代的降临,物联网、云计算等新型信息技术得到广泛应用,高校学生的信息化、智慧化也得到了空前发展。高校通过日益完善的教务系统、图书管理系统、一卡通管理系统等数据共享平台,以数据挖掘为重要的技术支撑,获取并处理成绩、图书借阅、一卡通(包括就餐、打水、购物等)等多源融合的学生行为数据[1]。大量学生行为数据的积累为高校对学生行为分析提供了数据基础,但数据的有效分析利用缺乏经验,数据孤岛、数据资源利用不到位等问题依然存在,不能挖掘出信息真正的价值。
因此,针对在校学生存在的学业困难、消费异常及上网作息不规律等问题,在校园大数据平台的基础上,提出学生行为分析及预警总体方案,研究了集数据抽取、清洗、转换、归约和分析一体的运行系统方案,并阐述了运用行为分析、预警等相关算法及关键技术,对学生行为数据的全面挖掘和深入分析,对学生的行为动态提前掌握,并对重点学生的行为发展做出预判。
在大数据技术高速发展的大环境中,高校智慧化、信息化基本普及,伴随研究分析的深入,部分学生偏科挂科、作息紊乱、消费异常等问题也逐渐暴露。随着高校信息化的日益完善,产生了大量如就餐、图书借阅、学科成绩、消费等多源数据。如何运用这些数据解决数据孤岛、正确引导规范学生在校行为,对学生行为实现精准、高效分析及趋势预测、异常预警是研究的重点。
针对以上问题,首先以一卡通、钉钉、图书管理及教务系统产生的就餐、消费、上网、期末成绩等数据为原始数据源,通过数据预处理形成标准库。其次,结合机器学习(machine learning,ML)和深度学习(deep learning,DL),将标准库的数据做聚合建模分析,形成主题库;为保障数据计算的高效性,结合算法分布式执行系统,实现数据计算节点并发运行,对学生行为进行综合分析[2]。然后,基于主题库数据,利用关联分析和聚类分析等大数据分析技术,通过学业、消费、上网等行为数据进行学业预警、消费预警、上网预警等;为保证预警模型的准确性、降低单一时间点的偶然因素,加入了消错决策和离群偏离度的方法进行异常行为检测。最后通过应用层,利用Power BI将分析结果通过图表的形式分模块进行呈现。基于大数据的学生行为分析与预警平台总体架构,如图1所示。
平台以校园管理系统中积累产生的学生行为数据作为数据源,对采集的数据进行抽取、清洗、加工和整理,确保最终数据的安全性、高质量和高可用性,具体处理步骤如下。
(1)数据清洗
清洗采集数据,包括噪声、重复、异常数据;识别、填补、删除缺失数据和孤立点;对敏感数据进行脱敏处理[3]。
(2)数据集成
针对采集的多个数据源的文本或表格数据利用分布式文件系统(hadoop distributed file system,HDFS)进行集成存储[4]。
在此基础上,依据数据仓库及大数据相关规范,合理制定并完成异构数据的关联,建立标准的学生行为特征数据库,并对其学业、消费规律及生活习惯3个维度进行分析。
鉴于在校学生出现的学业、上网、三餐等问题,利用ML和DL等技术,分析并预警学生异常行为,同时告知学生管理者,加强对此类学生的关注和正确引导,有针对性地开展学生教育工作,降低学生异常情况发生的概率。
学生异常行为,包括学业异常、消费异常、上网异常等,分析模型建立如下。
(1)学业异常:通过对学生的期末成绩、出勤率、上网等数据的分析,对存在学业困难或出勤率低导致挂科的学生提供挂科预警,提前引导。
(2)消费异常:根据学生一卡通消费记录、就餐次数及时间,对消费异常、就餐不规律等情况进行消费预警[5]。
(3)上网异常:通过统计学生登录校园网总时长、登录时间段,挖掘上网异常的数据,对上网沉迷、作息紊乱的学生予以网络预警[6]。
由于学生个体差异性,各人的习惯指标体现在众多行为指数上,形成独特的数据分布形态。基于学生行为特征数据,进行群体关系关联,在个人数据可查的同时对不同程度关系个体加以区分,通过刻画学生的时空特征,分析离群点,可有效发现异于常规习惯的行为,快速提出应对措施。如:离散程度越高,标注颜色越红,该群体越特殊,应加以重视。
针对学生三餐不规律的情况,采用基于正态分布的异常发现算法,该算法分别计算均值、方差并把分布在α倍标准差外的样本定义为异常点。算法具体计算步骤如下:
步骤1 计算各学生日均膳食消费金额及近2个月的三餐平均消费金额均值(mean_x);
步骤2 确定标准差(std_x);
步骤3 确定正常区间:由于方差未知,假设数据呈t分布,则上下限为mean_x-α*std_x,mean_x+α*std_x。其中,α是t分布下自由度所对应的t值。
步骤4 采集某学生当前消费金额,若不在正常区间,则识别为消费金额异常。
步骤5 重复上述步骤,分别计算每个学生的消费金额是否异常,累计1周的情况,得到一个综合指标值,根据指标值对三餐健康程度由轻到重警报分为蓝色、黄色、橙色和红色4个阶段。综合指标值介于0~0.25为蓝色预警,介于0.25~0.50为黄色预警,介于0.50~0.75为橙色预警,介于0.75~1为红色预警。
为保障学生的学业水平,对在校生学业成绩进行统计分析并计算挂科风险,对挂科风险高的学生发出预警。选择了基于历史成绩预测的线性回归算法[7],其算法流程如图2所示。
其中,变量选择模块中的特征向量按其对目标的回归平方和贡献率大小逐个引入,已被引入的特征在引入新特征后若失去重要性,则必须从回归方程中排除,以确保只包含影响引入新特征之前的回归方程变量,而不显著的变量则被剔除[8]。具体特征选择步骤如下:
步骤1 确定显著检验置信水平,引入水平为F_in,剔除水平为F_out;
步骤2 样本量记为n,已选特征数记为l;
步骤3 训练集X=[x1,x2,x3,…,xj-1,xj],其中xj为目标;
步骤4 计算特征相关矩阵
步骤5 计算贡献值
步骤8 返回步骤5,直到特征不再改变,停止上述计算。
完成数据清洗及特征变量的选择后,进行回归模型的训练,从线性相关的数据集合里面找出一条线(超平面),使得所有点距离线的距离之和最小。通过训练的模型结果为一条回归方程,当预测点的参数置信区间下限低于60分,则存在挂科风险,需要引起重视。
采集某高校2021年在校生“一卡通”记录及各部门管理系统中的数据作为数据源,结合基于正态分布的异常发现算法及线性回归算法,对学生各行为综合指标值进行计算分析,总结学生行为规律并对异常行为进行预警。学业行为统计如图3所示,图中在校生各科平均成绩均在70~80分,但部分学科如高等数学A、大学外语3等存在挂科人数较多的情况,分析其原因可能是由于大班授课,学生较多,老师不能及时掌握每个学生学习进度及知识接收程度,部分学生不够自律,不能及时向老师反馈问题,学习较懈怠。经此统计分析,这些科目老师应及时调整教学方案,加强与学生的沟通,重点关注中后游学生的学习状态,提前进行学业挂科预警。
图3 2021年学生学习成绩分析图
基于部分在校学生自制力差、三餐及作息不规律等问题,从上网健康度、三餐规律2个维度对在校生生活习惯进行分析。统计情况如图4所示,图中半数以上的学生缺乏上网规划、沉迷网络,上网时间集中在00:00~02:00,严重影响睡眠和第二天上课状态,且不规律的作息对学生三餐也产生了一定影响。大部分学生均存在三餐较不规律或规律一般的情况,究其原因,有以下2点:
①部分学生上网习惯较差,晚上不睡早上不起,外加没有早课的约束,早餐直接省略;
②学生自律性较差,没有课的日子蜗居宿舍,就餐时间有所改变,部分学生选择吃“上午饭”和“下午饭”。
通过对某高校2021年在校学生学业、上网、消费、三餐4个维度的行为分析,并计算各行为的综合指标值,得出预警结果见表1。可见,三餐、挂科、上网红色预警、橙色预警(行为异常程度较为严重)的学生人数较多,分别占总预警人数的85%、64%、98%,针对该部分学生,教师及学生管理人员要及时干预引导,积极采取措施,避免不良行为的发生。
表1 某高校2021年学生行为预警结果
在智慧校园及大数据的环境下,针对在校学生存在的偏科挂科、作息紊乱、消费异常等问题,提出了学生行为分析及预警总体方案,研究了集数据抽取、清洗、转换、归约和分析一体的运行系统方案,结合基于正态分布的异常发现算法及线性回归算法,对学生行为进行分类及特征分析,并通过分析学业、消费、上网、三餐等产生的异常行为进行识别预警,最终通过Power BI实现分析结果的连接和可视化展示。该平台系统实现了学生行为特性和共性的进一步挖掘,为高校教学和管理提供了参考和信息支持,对学生行为做到了防患于未然,对有针对性地指导学生健康发展具有非常重要的意义。