余小高+余小鹏
摘 要:当前,部分高校学生学习生活没有规律,对学习和身体健康非常不利,为了帮助这些学生健康发展,完成学业,有必要研究高校大学生作息规律判断方法。本文在研究国内外文献和实际调研的基础上,提出了大学生作息规律判断方法的关键问题解决方案,并给出了该方法的工作流程。将该方法应用到实际数据分析中,结果证明了研究的方法具有可行性和高精度高效率。
关键词:问题学生;作息规律;方法
中图分类号:TP393 文献标志码:A 文章编号:1673-8454(2017)15-0001-04
随着智慧校园建设的推进,校园“一卡通”系统已经成为学生在校内的“身份证”,应用到食堂就餐、开水领用、实验室上机、图书馆门禁及图书借阅、校医院看病、宿舍门禁、校园网账户管理、校园超市及校内各处零售机等。教务系统也已趋于成熟,涵盖了学生在校期间各时间的成绩、课程表等信息。这些系统已经积累了大量的数据。
由于大学生上课的教室不是固定的,不同专业班级的学生有时在一个课堂上,根据经验,存在个别学生找人替代上课和考试的现象,有时教师点名时,有学生冒充没到的学生签到,任课教师无法精确到每个学生是否到了教室,导致难以发现长期不在学校或不正常上课的学生,这些学生属于高风险学生。同时,有些学生即使在学校,也按时上课,但是生活没有规律,晚上不睡觉,或睡觉少,白天上课无精打采,思想開小差,或干脆上课睡觉。还有些学生吃饭没规律,以吃零食替代吃饭或干脆整体不吃饭等等,笔者曾经发现个别学生周末通宵打游戏,从周五晚上到周六晚上不间断地玩游戏,不睡觉不吃饭,身体虚弱,精神恍惚。为了发现这些学生,帮助这些学生完成学业,本文根据校园“一卡通”系统数据、教务系统数据等,探讨了高校学生作息规律判断方法,力图发现学生的生活、学习规律,判断学生是否在规定的时间就餐就寝,是否按时上课,是否长期不在学校等等。通过这些分析,可以帮助教师和教育工作者了解学生的实际情况,预测风险学生,帮助学生完成学业。
一、国内外研究现状
当前研究和开发校园“一卡通”系统和教务系统的文献很多,但大部分是对这些系统的开发、管理等进行论述,或对数据的处理过程进行阐述。文献[1]对高校一卡通消费数据进行了分析,没有将一卡通数据应用到学生作息规律判断方面。文献[2]利用OLAP技术对一卡通数据的分析进行了总体论述,没有介绍具体的分析方法。文献[3]利用一卡通数据对学生消费、热水消费和商户营业状况进行了分析,没有涉及到学生作息规律判断的方法研究。文献[4]介绍了校园卡信息管理系统数据挖掘模型,没有给出具体的分析方法。文献[5]利用教育数据对学生成绩进行了总体上的预测,没有涉及到具体的学生。文献[6]阐述了教育数据分析模型,没有给出具体的数据处理方法。文献[7]提出了高校学生学业几条支持路径,但没有给出具体的实施方法。文献[8]提出了一个高校教育大数据平台及一般的应用,没有涉及到具体的应用方法。
通过以上分析,还没有文献对校园“一卡通”系统等产生的数据对学生作息规律判断的方法进行研究,因此本文的研究具有理论价值和实际的应用价值,为后续风险学生的预测研究打下基础。
二、关键问题解决方案
1.数据处理时间单位的确定
高校各系统产生的数据有实时数据,也积累了大量的历史数据。大学生作息规律的判断所需数据,是以某一时间段的数据为基础的,比如一个星期、一个月、甚至一个学期等等。因此,对数据的实时性要求不高。若对学生学习、生活实施监测,那么就需要实时数据。为了减轻数据的处理能力,本文以一个整天(24小时)的数据为处理时间单位,进行数据处理,并将得出的问题学生的数据导入到问题学生数据库中,通过每天的数据处理,可以得出一个时间段(比如,一个星期或一个月等)学生的作息规律判断,对于有问题的学生,采取帮扶。
2.特征数据的确定
当前,“一卡通”系统、教务系统等包含了学生的基本信息,比如学号、卡号、姓名、院系,刷卡数据除了包括学生的基本信息外,还有刷卡时间、刷卡地点、刷卡事项、刷卡机号、消费金额等。这些基本数据可以识别具体的学生刷卡情况,因此将这些数据项作为学生作息规律判断的特征数据。学号是学生在校内唯一的识别码,根据学号可以识别学生专业年级及班级等。卡号有可能有变化,比如换卡,那么卡号也许会有改动。刷卡地点记录了食堂、零售点、图书馆等具体的地点。刷卡事项记录了每一次刷卡的用途。因此,特征数据项为{学号,刷卡时间,刷卡地点,刷卡事项},这样可以减少数据处理量,提高效率。
3.作息规律判断的方法
下面介绍几种主要的作息规律判断的方法:
(1)上课缺勤或迟到、早退学生的识别方法
学校要求教师上课时清点学生,但在实际操作中,由于学生人数较多,教室不固定,同时上课期间有学生进去现象,因此,教师上课清点人数的方法并不精确。若几个班合班上课,几十或一百多人,人工点名很浪费时间,上课效果会大打折扣。基于这些问题,可采用如下方法辅助找出缺勤或迟到早退的学生:① 在上课时间段,有刷卡记录;②全天没有刷卡记录。根据这些数据,再加以实际的确认,就可以发现问题学生。
(2)不在学校的学生识别方法
对某一个时间段的数据跟踪,可发现没有刷卡记录的学生,这些学生可确定为疑似长期不在学校的学生,再进行确认,就可以精确找出这些学生。
(3)不在宿舍的学生识别方法
有个别学生在校外或校内租房,或住在亲友家,但是有的学生没有把这些住宿信息告诉老师或管理人员,存在潜在的风险。根据宿舍门禁刷卡记录,就可以找出这些学生。
(4)就寝没规律的学生识别方法
有些学生就寝没有规律,晚上不睡,早上不起床等现象,可以根据这些学生宿舍门禁刷卡时间段和利用个人账户在校园上网时间段与正常作息时间对比,找出这些学生。
(5)饮食没规律的学生识别方法
有些学生吃饭没有规律,一日三餐或者不按规定时间吃饭,或几餐不吃,或呆在宿舍点外卖,或在零售点买零食吃,等等。可以通过学生刷卡消费的时间段与正常饮食时间对比,找出这些学生。
(6)找出生病的学生识别方法
有些学生身体健康存在问题,为了关心这些学生,可以通过学生“一卡通”在校医院的看病记录发现这些学生。
4.数据处理的效率
全校学生的“一卡通”数据量大,涉及面广。为了提高处理效率,采用分布式存储,并行处理。由于学生“一卡通”数据中,有学生学号等信息,可以根据院系专业班级分类,分别存储,并行出来,比如以院系为单位存储和处理,将处理的结果再进行整合,就可以得出全校学生的数据。
数据处理过程中,涉及到学生基本信息库、课程表、标准作息库。标准作息库是根据青年大学生的科学作息规律、学校的规章制度等建立的。这三类数据相对是静止的,完全可以根据院系分布式存储。在流程设计上,疑似问题学生数据库起着过渡作用,由于学生刷卡时,不一定是用自己的卡,只有对疑似问题学生进行确认后,才能将这些学生的数据导入到问题学生数据库。疑似问题学生数据库和问题学生数据库是动态的,也要根据院系等划分分布式存储,并行处理,提高效率。
5.少量样本法
对于全校学生,大多数学生的作息是根据学校的规定正常而有规律的,只要少数学生的作息规律存在问题,为了减少数据的存储量,提高处理效率,把那些作息规律有问题的学生找出来,存放到问题学生数据库中,那么剩下的学生作息就是正常而有规律的,不需要将这些学生的刷卡数据重新建库。
三、工作流程
1.问题学生判断流程
依据“一卡通”等系统抽取的数据,构建问题学生数据库的流程如图1所示,具体如下。
步骤1:根据特征数据集,抽取一卡通系统的数据。
步骤2:根据抽取的一卡通系统数据,分出全天没有用卡的学生和用卡的学生;将全天没有用卡的学生信息导入疑似问题学生数据库中,因为这些学生有可能不在学校里,可查出长期不在学校的学生。
步骤3:剩余数据与食堂就餐数据比较,若全天没有用餐记录,再与零售点数据比较,若零售点也没有用卡记录,或在零售点用卡的时间不是正常的用餐时间,则将这些学生的信息导入到疑似问题学生数据库,因为这些学生吃饭没规律,或在校外就餐。
步骤4:剩余数据与课程表和宿舍门禁数据对比,若是非规定时间用卡或全天没有用卡刷门禁,则将这些学生的信息导入到疑似问题学生数据库,因为这些学生要么呆在宿舍很少出去,以至于缺课,要么全天没有回宿舍。
步骤5:剩余数据与校园网账户数据比较,若在非正常时间段上网,则将这些学生的信息导入到疑似问题学生数据库,因为这些学生要么上课时间在上网,要么就寝时间在上网。
步骤6:剩余数据与其他有关系统数据比较,比如图书馆门禁及借书数据等,若刷卡时间与上课时间冲突,表明该学生缺课,将这些学生的信息导入到疑似问题学生数据库。
步骤7:将疑似问题学生数据库的信息进行确认,形成问题学生数据库。确认的原因主要有:①个别学生有可能不使用本人的卡就餐、超市购物、门禁等,存在相互借卡现象。②在门禁系统中,存在一人刷卡,多人进出的现象。③部分刷卡设备时间不同步,造成时间不准确。④部分学生不用校园网账户上网,通过手机4G等上网,难以了解这些学生上网情况。⑤一卡通中,有部分临时卡,这些临时卡有可能是外来人员临时使用的,有可能是学生使用非本人的信息申请的。
2.学生作息规律判断流程
根据构建的问题学生数据库,与学校规定的作息要求等对比,得出某一时间段学生的作息规律(比如一个星期,一个月,一个学期等),其流程如图2所示,具体如下。
步骤1:将全校学生名单与问题学生数据库中学生对比,把不在问题学生数据库中的学生导出到正常作息、生活有规律的学生库中。
步骤2:将问题学生的作息数据与正常作息标准库中数据进行相似度计算[9]。
步骤3:根据相似度计算结果,对问题学生进行分类,主要有:①吃饭没规律,没有按时就餐;②休息没规律,没有按时就寝;③不按时上课,部分时间在学校,部分时间不在学校的学生;④在学校,但长期不上课的学生;⑤长期不在学校的学生;⑥身体不健康的学生,即到医院看病的学生;⑦其它情况。
四、应用
根据本校院系的设置,在实验室中用15台计算机代表15个院系,对这些数据分院系存放。在已有的研究基础上(已完成教育大数据集成研究),根据学生特征数据项,抽取本校一卡通系统一个月的3G数据量,有120多万条记录,建立学生作息数据库,该库含有疑似问题学生数据和问题学生数据两个表,并以院系界限分配到15台计算机中存储。
设学生特征数据项为:Char_data={学号,上课情况,用卡时间,金额,地点,事项}。设学生作息数据库名称为Student_schedule,该库中疑似问题学生数据表名称为Schedule1,问题学生数据表名称为Schedule2。创建数据库如下。
问题学生数据表名Schedule2的创建方法与Schedule1一样。下面演示计算机处理过程,由于涉及到學生个人的信息,故将学生的真实学号隐去,改为6位数字编号。
1.计算该时间段第一天的数据,得出如表1所示的疑似问题学生数据
表1中显示了学号为100000的学生在2016年12月1日的刷卡情况。根据课表,该学生上午有4节课,但是在上课期间有三次刷卡记录,第一次是出宿舍门,第二次是超市购物,第三次是食堂就餐,由此初步推断该学生上午没有上课。根据该学生上网账户记录,该学生从当天下午14:05分钟开始上网,一直到第二天早上3:52才下网,由此初步推断该学生晚饭没出来吃,上网时间过长。学号为100001的学生当天没有刷卡记录,根据课表,该学生当天没有课,由此初步推断该学生不在学校。
2.根据表1的数据进行确认,将非本人刷卡的数据去掉,得出如表2所示的问题学生数据
在表1基础上,经过实际确认,学号为100000的学生当天在上课,作息规律正常。原来是该学生的中学同学过来留宿,睡在学号为100001的学生床上,借用了学号为100000的校园卡刷卡。因此,经过实际确认,在问题学生数据表中,没有学号为100000的学生信息,只有学号为100001的学生信息。
3.将该时间段每天的数据处理结果汇总,并与学校规定的学生作息规范进行相似度计算[9],得出作息规律存在问题的学生(注:为保护学生的隐私,将具体信息隐去)
经过一个月的数据分析,学号为100001学生每天的刷卡信息时有时无,有时上课期间不在学校。因此,该学生的作息规律判断为没有遵守学校的作息要求,不按时上课,有时不在校内住宿。
五、结束语
信息技术在教育领域的广泛应该,教育数据呈爆炸式增长,校园“一卡通”数据、教务系统数据等与日俱增。为了更好地关心高校学生健康成长,完成学业,有必要研究高校学生作息规律判断的方法,给有问题的学生以帮扶。在教育大数据环境下,结合已有的研究成果,本文提出了高校学生作息规律判断的关键问题解决方案、工作流程,并用实际的数据进行了验证,表明本文研究的方法具有可行性,处理数据的速度快,精确度高。未来研究中,将利用该成果,完成对风险学生的预测,更好地为教育教学服务。
参考文献:
[1]廖华江,黄宁.高校一卡通消费数据OLAP多维分析系统与应用[J].赣南师范学院学报,2015(3):11-14.
[2]刘宝旨,彭才洪,宋国建等.校园一卡通应用系统多维数据模型设计[J].济宁医学院学报,2011,34(4):279-281
[3]张佳.数据挖掘技术在校园一卡通系统中的应用研究[D].苏州:苏州大学学位论文,2013.
[4]張丽丽.数据挖掘技术在校园卡信息管理系统中的应用研究[J].中国管理信息化,2013,16(4):79-80.
[5]刘翠翠.协同过滤算法在教育数据挖掘中学生成绩预测的研究[D].昆明:昆明理工大学学位论文,2016.
[6]胡祖辉,徐毅.大数据背景下高校教育数据的分析与应用研究[J].现代教育科学,2017(1):109-114.
[7]张欣泉.大数据背景下高校学生学业支持路径探析[J].山东高等教育,2016(7):61-66.
[8]郑庆华.高校教育大数据的分析挖掘与利用[J].中国教育信息化,2016(13):28-31.
[9]余小高.大数据环境中微课程个性化学习的研究[J].中国教育信息化,2015(13):126-128.
(编辑:王晓明)