摘要 校园一卡通系统正被广泛应用于各大高校并产生海量时空数据,利用数据挖掘技术可以从中挖掘出隐藏的大学生在校行为模式。文章首先利用映射时空数据得到学生共现数据;然后采用超几何分布与多重假设检验的方法挖掘大学生社交关系;最后基于交友数量和亲密度得到三种行为模式,发现封闭型行为模式更易形成脆弱的交往关系。根据大学生在校行为模式,学校可以准确掌握学生动态,为其提供更加人性化的管理和精准化的服务。
关键词 时空数据;超几何分布;行为模式
中图分类号:G645文献标识码:ADOI:10.16400/j.cnki.kjdk.2023.18.044
随着高校信息化和数字化建设向纵深发展,校园一卡通(CampusSmartCard,CSC)系统迅速得到普及。CSC系统中存储了海量的学生时空数据,利用数据挖掘技术对这些数据进行深度挖掘,可以得到一些学生的隐性行为信息。利用这些信息反哺于教育,对于高校的教育与管理均具有十分重要的现实意义[1]。
数据挖掘技术源于国外,基于用户行为数据展开的研究起步较早。加拿大湖首大学的学生行为分析系统利用历史数据分析学生行为。国内也有许多学者利用CSC数据进行针对学生群体的研究。姜楠等利用数据挖掘技术分析学生消费及学习行为[2]。邓帅等统计食堂消费高峰并建立可视化系统,根据分析结果改善食堂运营方式[3]。徐晶晶等利用Aproiri算法将CSC数据和成绩做关联分析,研究影响学生成绩的因素[4]。田雨等通过门禁、签到和消费等记录,对长时间不在校的学生进行预警[5]。由此可见,国内利用CSC数据展开的研究已在贫困资助、消费行为和异常行为分析、与成绩的关联性等方面取得较多成效,但鲜有基于CSC数据进行学生在校行为模式挖掘及分析的相关研究。
1数据采集与预处理
数据集源于国内本科院校的CSC系统。系统由无线射频识别标签系统、校园卡以及数据库三部分组成。当学生在校园内的活动场所刷卡时,后台数据库实现学生校园活动所产生时空数据的有效存储。以这种方式,学生的校园活动被CSC系统记录下来。本研究所用时空数据包括学生在食堂、超市、充值中心以及校医院等公共场所发生的刷卡行为。
CSC系统中的数据存在少量内容缺失和格式不规范的记录。为了提高分析结果的准确度,在对这些数据进行分析之前,需要对原始数据进行清洗和标准化处理。对于极少量格式不规范的数据采用人工方式补齐,对于内容缺失数据采用热卡填充法处理[6]。经过处理得到如表1所示的636,304条有效数据。
2映射时空数据
①共现的定义。美国社会学家戈夫曼认为,相遇是公共场合人们之间持续性地相互看见对方,这种时空上的相遇被称为共现。由于学生群体具有独特性,关于共现做如下定义,在未特别声明情况下,文中的共现均由定义1解释。
定义1(共现):两名学生在时空上的“前后脚”(相同时间出现在相同地点)行为,被认定是一次共现。
一般情况下,一个学生更倾向与好友结伴而行。因此,本文选择学号、刷卡时间、刷卡地点等属性组成的时空数据来挖掘学生的社交关系。
③映射时空数据得到共现数据。对636,304条时空数据进行遍历得到204,407个含时地点。然后对刷卡行为二部图在学生集合上进行映射得到学生共现数据。为了最大程度避免偶然性,过滤共现次数为1的情况,最终得到266,120条共现数据。
3挖掘在校行为模式
通过对比两个网络,利用复杂网络的连通子图[8]指标分析发现,学生在校社交关系网络更稀疏,其中的微型连通子图586个,6≤C≤10的小型连通子图65个,11≤C≤25的中型连通子图16个,C>25的大型连通子图4个。这说明学生群体更倾向于形成5以内的微型社交圈,也有极少数成员多于25人的大型社交圈[9]。
4行为模式分析
行为模式是人们有动机的日常活动以及有规律的行为系列,是行为内容和方式的定型化。从行为心理学角度讲,人际关系的好坏需要交往行为来体现。具有良好人际关系的双方,能够相互表现出积极、有意义的行为,如友好等。
根据社交关系数量对在校社交关系网络进行聚类。从社会行为学角度将其分为开放型、謹慎型和封闭型三种行为模式。如图3所示,仅有3.74%的学生属于开放型交友模式,18.86%的学生交友较谨慎,绝大部分学生处于较封闭的状态。这种情况被解释为,测试对象为大一新生,学生仍处于适应新环境的阶段。也反映出当今大学生将更多的时间花在独处,交友意愿有减弱甚至出现交友障碍的风险。
5总结
本文利用数据挖掘技术对校园时空数据进行研究,挖掘出隐藏的有价值信息。首先将数据预处理并映射得出共现数据;然后采用超几何分布与多重假设检验方法挖掘大学生社交关系;最后基于交友数量和亲密度得到三种交往行为模式。根据交往行为模式分析结果,给予当前高校教育在人性化管理和精准化服务方面一定的指导建议。
基金项目:江西省教育科学“十三五”规划2020年度课题(20YB206)。
参考文献
[1]郭鹏.基于校园一卡通数据的学生消费行为与成绩的关联性研究[D].咸阳:西北农林科技大学,2019.
[2]姜楠,许维胜.基于校园一卡通数据的学生消费及学习行为分析[J].微型电脑应用,2015,31(2):35-38.
[3]邓帅,屠添翼,纪寿安.基于大数据分析的高校食堂运营管理探索[J].大众标准化,2021(15):198-200.
[4]徐晶晶.基于校园卡数据的学生行为分析研究[D].新乡:河南师范大学,2018.
[5]田雨露.基于校园一卡通系统的决策支持和数据分析研究[D].北京:北京化工大学,2018.
[6]杨帆,庞新生.处理缺失数据的分数插补法研究[J].统计与决策, 2017(14):15-18.
[7]刘涛.基于校园一卡通数据的大学生社交关系挖掘和演化规律研究[D].武汉:华中师范大学, 2019: 1-46.
[8]Li M X,Palchykov V,Jiang Z Q,et al.Statistically validated mobile communication networks: Evolution of motifs in European and Chinese data[J].New Journal of Physics,2014,16(8):1037-1092.
[9]董潇潇,胡延,陈彦萍.基于校园数据的大学生行为画像研究与分析[J].计算机与数字工程,2018,46(6):1200-1204,1262.