连惠群 唐明杰
(福建警察学院 福建省福州市 350007)
物联网、云计算、大数据分析和机器学习技术的发展,影响社会生活的各个方面,也推动了智慧校园的发展。智慧校园应该具备挖掘和分析学生行为的能力。学生的日常行为可以反映学生的思想动态。由于我公安院校的特殊性,学生们是半军事化管理,存在一些特殊的数据(出入校园登记、纪检登记、内务检查登记等),这些数据可以侧面反映学生们的行为习惯、思想状态等。本文基于我院学生管理数据,有出入校园数据、操行分数据、智育分数据、测评分数据等等,对这些数据进行处理和分析,建立思想动态模型和预警机制,以期帮助我院各学生大队更好的管理和帮助学生,并为我校学生思想政治教育工作服务,这对于我公安院校有着特别的重要意义。本文通过四个方面展开研究。一是对出入校园数据进行分析,根据我院实际情况,建立一个异常的判断模型,确定判断依据,设定临界值。基于这个模型,通过K 最近邻(KNN)分类算法,对出入校园数据实现自动分类,发现异常点。二是在有关数据处理的基础上,利用智育分的等级作为标签,运用spark 决策树多元分类算法对学生的行为趋势进行数据挖掘,预测智育分;三是对学生的个性签名进行情感分析,得出学生的情绪状态;四是根据以上结果,设计学生思想动态监测模型,以期更好地帮助学生,服务学生。
早期的学生行为分析是来自问卷统计或者案例收集,这样的分析方式,即消耗大量的时间,又消耗许多的人力资源。而近年来人们越来越多的利用大数据的数据挖掘的分析方式,使得部分的教育质量有所提升,但是仍有许多学校没有加入这个行列,因为不同的学校的学生所产生的行为数据不同,需要针对各学校的特点进行分析。学生行为分析方面近几年在国内外有大量的研究:电子科技大学的何鑫[1],提出了随机森林的权重自拟合算法、基于Map Reduce的决策树参数自拟合算法和基于Map Reduce 的FP-Growth 算法,最终得到特征重要性、各特征值与行为标签的频繁二项集以及与标签有关的高置信度的频繁多项集;李中原[2]采用信息获取、数据清洗和信息聚类等网络舆情分析技术对高校学生网络舆情监测流程、监测方法和监测内容等予以研究。王姝骄[3]通过以开发的WiCloud系统获取北邮校园内学生的行为数据,并从三方面展开研究:学生行为模式聚类、学习风气分析、学习成绩预测等。肖逸枫[4]利用学生前三学期在校的相关行为记录,结合多种机器学习方法,建立模型预测学生第四学期结束之后是否存在留级的风险。Hirotaka Itoh[5]通过数据分析等相关性研究,利用大量的成绩预测学生出勤率和成绩数据的相关趋势,从而创建贝叶斯网络来预测学生未来的成绩和GPA 数据。S.Shankar[6]使用K-means 聚类算法,根据哈佛大学在线注册的学生的成绩、国籍等影响因素进行成绩分析。在思想动态方面,李昱,何文华[7]以广东女子职业技术学院为例,提出了基于大数据的大学生思想动态研判思路、研究以数字化校园为基础,通过信息化管理过程中产生的海量数据,对学生的思想动态进行综合分析,为教育引导提供有效依据;成方、高大林[8]等研究人员基于员工思想动态预警的机制和方法,采取了定量和定性相结合的分析手段进行探索。再经过分类分层处理,形成了“员工思想预警关键信息指标体系”。本文主要根据我院实际数据特点及我院学生管理工作实际,建立出入校园异常判断模型和智育分预测算法,在此基础上,设计学生思想动态监测模型。
图1:出入校园数据样例
图2:德育分数据样例
图3:智育分数据样例
图4:抽取有关项的数据片段
图5:整合后待处理的数据片段
由于我院学生出入的时间规则是周一到周五,集合时间是P1、N2、N4,周六集合时间是W1、W2,周日集合时间是W1、N4,学院规定,集合的时间学生必须到场,公务或病假等原因需要请假。
给出一个异常处理模型:异常的两个判断依据:其中一点是正常出入校园的时间是Fn1≤F ≤Fn2、Fn3≤F ≤Fn4(非周末,中午时间和傍晚时间)和Fw1≤F ≤Fw2(周六),Fw1≤F ≤Fn4(周日),在这时间段之外(且未请假的)的即是非正常,另一点是,一般情况下,学生每个月请假次数在某个范围浮动。判定函数如下:
图6:决策树多元分类算法运行及结果
图7:情感分析后的结果
正 常:F(Fn1≤F ≤Fn2;Fn3≤F ≤Fn4)非周末,且F(Fw1≤F ≤Fw2)周末,且T ≤max
黄色预警:F(Fn1≤F ≤Fn2;Fn3≤F ≤Fn4)非周末,F(Fw1≤F ≤Fw2)周末,T ≤max,这四个条件违反一次按一次计,一个月违反1-2 次;
橙色预警:F(Fn1≤F ≤Fn2;Fn3≤F ≤Fn4)非周末,F(Fw1≤F ≤Fw2)周末,T ≤max,这四个条件违反一次按一次计,一个月违反3-4 次;
红色预警:F(Fn1≤F ≤Fn2;Fn3≤F ≤Fn4)非周末,F(Fw1≤F ≤Fw2)周末,T≤max,这四个条件违反一次按一次计,一个月违反4次以上。
如图1 是出入校园数据样例。
模型建成后,使用KNN 算法对数据进行分类。KNN 算法,也称K 最近邻算法,是一种分类算法,是基于距离的离群点检测的方法。首先构建一个已经分类的数据集,然后计算一个新样本与数据集中所有数据的距离,新样本的值靠近哪个分类就属于哪个类别,最后输出结果。根据以上的模型,对该同学11月测试的结果,是2次,黄色预警。
成绩虽然并不是唯一的评价标准,但是以我们管理学生的经验,成绩却能侧面反映学生的整体状况。如果成绩浮动不大,则学生的状态一般趋于平稳。反之,如果一位学生成绩突然下降,则可能学生状态不佳,可能发生了什么事情,或许遇到了什么困难。但是一般学生们在学期末才会考试,半年后才发现学生的状态欠佳就比较晚了。我院是公安院校,平时会记录学生的德育分,比如记录出勤、内务、奖励、测评等情况。我们的思路是针对纪检登记、内务检查登记、奖励登记、测评登记等数据,对这些数据进行碰撞和挖掘,对学生的行为进行分析,对学生的成绩进行预测。这样每时每刻对学生们的状态进行监测,实时预测学生们的成绩,如果发现某学生的预测成绩出现异常(与原来相比差别比较大),则会预警,大队管理老师则会重点关注该学生的思想动态,通过谈心谈话等方式疏解,这样以期帮助我院各学生大队更好的管理和帮助学生,并为我院学生思想政治教育工作服务。
表1:学生思想动态监测模型框架
德育分和智育分数据样例如图2 和图3所示。我们抽取大部分同学都有的项目如测评分(上学期的测评分,因为本学期的测评分在期末才会进行测评,测评分指的是区队内其他同学对自己评价的平均分)、减分、区队干部、无违纪、内务未扣、大队通报表扬等项目(如图4所示),预测项(标签)是智育成绩(分为优秀4,良好3,及格2,不及格1)四项。最后的整合数据如图5所示,最后一项是标签label(即成绩等级)。
我们构建了spark 环境进行预测,使用决策树多元分类,程序运行及结果如图6所示。
此分析主要利用贝叶斯分类模型算法,对个性签名进行分类。本次分析利用已经封装好的库--snownlp,直接对个性签名进行分析。最终得到分析结果,如图7。
结合以上研究结果,设计学生思想动态监测模型框架(表1)。
此框架设计学生思想动态监测模型,包括贡献状况、违纪情况、情绪状态、人际交往、请销假、预测成绩等指标,其中指标的数据以一个月为周期。
此模型框架以校园内已经建立的软硬件系统为基础,先对大学生在日常生活和学习中各种行为,如出入校园次数、加分细目等,研究确定各类活动正常状态下的阈值标准。通过研究与分析,我们设定若6 个指标中有3 个指标达到预警值,或者每个指标的状态有发生变化,比如违纪情况突然增多、请销假数据有变化、情绪状态突变、成绩预测突变等,这些都需要大队老师对预警信息进行综合研判后,对学生进行针对性的正向引导。
本文基于学生出入校园数据、学生操行分数据、智育分数据、微信个性签名信息等数据,首先对出入校园数据进行分析,根据我院实际情况,建立一个异常的判断模型,确定判断依据,设定临界值。基于这个模型,通过K 最近邻(KNN)分类算法,对出入校园数据实现自动分类,发现异常点。接着在有关数据处理的基础上,利用智育分的等级作为标签,运用spark 决策树多元分类算法对学生的行为趋势进行数据挖掘,预测智育分;然后对学生的个性签名进行情感分析,得出学生的情绪状态;最后,根据以上结果,设计学生思想动态监测模型,以期更好地帮助学生,服务学生。本次研究的整个模型仍存在不足之处,如需要提取更多有效特征来描述行为并添加新的数据,如:校园一卡通的学生消费记录、游泳池的使用记录,体测数据,图书馆使用记录等。另外数据量不够多,成绩预测的结果准确率还不够高,接下来将调整参数和使用更多的数据进行计算。