叶茂,朱清溢,汪雯雯
(四川信息职业技术学院,四川广元,628040)
学生行为大数据分析,以及基于学生行为分析的学生画像、群体画像方法及实践,是近年来的热点领域。国内很多高校都探索了如何应用大数据、人工智能技术来对分析学生行为,包括学业行为、消费行为、学生画像等[1-3]。而这些研究的目的,都是将大数据、人工智能技术应用与学校的教学管理、学生工作、疫情防控工作、学生心理健康关怀。学生社交网络分析[4],可以研究学生在大学这个小社会中的群体行为,从而在统计学上,得到不同群体学生的差异,以及在不同群体中发现行为异常或者社交异常的学生,提供帮助和心理关怀。国外学者也研究了学生社交网络分析,以及对高校教学工作的影响[5-6]。
周涛[7]认为,在教育领域应用大数据技术,有三大趋势:一是通过量化工具挖掘学生行为习惯和规律,用真实数字来支持教学工作;二是将学生工作中的后置性应急补救措施,转变为前置性预警管理;三是建立在线的动态学生大数据系统,不再单纯依靠静态分析,而是实现自适应的动态分析。
本文研究主要基于我校9989名同学刷身份证进出校门的记录数据,以及学校信息中心提供的学生基础信息,分析学生社交网络情况,构造学情知识图谱,并已实际应用于学校部分班级的管理。
大学生在校期间主要是学习,而离开学校的主要目的是社交、娱乐、购物等;所以,学生进出校门的数据,具有社交属性。相对于使用食堂消费刷卡的先后记录[4],本文所使用的进出校门记录,除了可以挖掘学生的社交情况,还可以挖掘出学生校外娱乐的时间。
进出校门数据采集的时间段从2020年9月22日到2021年7月7日,共计289天。共统计了9989名学生的出行数据1418157条,平均每天有4000多名学生进出校门。为保护学生隐私,本文在进行数据挖掘前,已去除了所有身份证、学号、姓名、手机号等个人隐私信息,完成数据脱敏。
表1 离校、返校时间记录
学生进出校门时间主要在每天6点到23点,其他时间会关闭校门。每天进出校门时间计17个小时,1020分钟。每分钟进出校门有:4115.2 / 1020 = 4.034人次。说明一个同学A进出校门时,一分钟内有4.034 - 1 = 3.034名同行者
可得到不认识的同学A和同学B,随机同行一次的概率为:3.034/9989 = 0.0003038。
同学A和同学B,随机同行两次概率为:0.00030382×10−8=9.23;随机同行三次概率约为2.38×10-11,比中彩票概率还低。所以同学A和同学B同行大于等于3次,完全可以说明A和B是有意识同行。为了搜索和同学A交往较密切的朋友,我们只选取和同学A同行至少5次的同行人进行统计,置信度非常高。
通过这种方法,我们可以构建全校学生社交网络图G =(V, E)。该图为一个有向图,V是顶点集合,每个顶点是一名学生。E是有向边集合,每条边表示两个同学同行进出校门至少5次,边的权重(weight)是同行次数。
基于学生进出校门数据,成功生成了9989个顶点(学生),56040条有向边的社交网络,并导入到neo4j图数据库中。为了使社交网络更直观,根据学生性别,特别添加了girl和boy两个标签,红色标签代表女生,蓝色标签代表男生(图1)。为分析大学生和异性交往的情况,我们也提取了朋友数、好朋友数(同行超过20次的朋友)、异性好友数等量化指标,用于分析每个同学的社交情况。
图1 学生社交网络图(学生姓名已脱敏)
社交网络是动态变化的,出入校门频率会变化,朋友关系会变化,每学年也有新同学入学,所以需要每月增量更新社交网络。
另外,基于这个算法,也很容易计算一段时间范围的社交网络。算法第3步统计同行人时,只需要根据时间范围来筛选进出校门记录,就能够得到一定时间范围内的社交网络情况。
将社交网络信息,结合学生静态、动态信息,构建学生实体和关系,输入到学情知识图谱中,用于院系和班级的日常学生管理工作。
完成构建社交网络图后,可以针对不同群体(班级、专业、年级、籍贯)等,筛选获得子图,再对子图进行社交网络的集中度,关联度进行统计分析。常用社交网络分析算法包括Page Rank算法、Centrality中心性算法等。
中心性是图论以及网络分析中的一个常用概念,用以表达图(网络)中一个顶点在整个网络中所在中心的程度,也称之为中心度。根据测定中心性方法的不同,可分为度中心性(Degree centrality)、接近中心性(或紧密中心性,Closeness centrality),中介中心性(Betweenness centrality)等。我们分析了度中心性、中介中心性、紧密中心性三项指标,用于度量一个顶点(学生)与其他顶点(学生)的社交距离和紧密程度。
另外一个重要度量是People Rank。Google发 明 的Page Rank算法改变了互联网,在社交网络领域,People Rank指标同样可以用于分析一个个体在其社交圈子里的重要程度。PageRank算法原理是通过在图中随机游走,获取每个顶点的重要性指标。
本 文 通 过iGraph来 完 成PageRank,以及图中心性指标的计算。iGraph是C语言实现的图论算法,性能非常优秀。完成1万个顶点,5.6万条边的中心度及People Rank指数的计算,只需要不到3秒。完全可以支持实时社交网络分析。
我们完成学生画像的目的,是分析每名学生的特点,给学生打上不同的标签,从而帮助学校、班主任、家长对学生实行因材施教,或者实现更有针对性的帮助和心理关怀。
学生画像的数据来源主要包括静态数据和动态数据两类。其中学生基本信息属于静态数据。而学生社交数据、学生学业数据,属于动态数据。学生信息还包括是否班干部,参加社团情况等,这些信息对于完整的学生画像也非常有价值。基于学生画像数据,我们可以建立学生的个人大数据档案。这部分档案集成到学校教务系统中,只有教务处、二级学院教务人员、班级导师和辅导员能访问,另外学校也会不定期推送学生个人大数据给学生家长或学生本人。
本文设计了学生成绩指数、社交指数、孤独指数等三个指数,用于完成学生在校行为的画像,生成算法步骤如下。
3.for A in学生集合S(class):
(2)成绩标签:根据“成绩指数”在班级排名,“成绩很棒”:前10%;“成绩较差”:后10%;“成绩一般”:其他;
(3)社交标签:根据“社交指数”在班级排名,“社交达人”:前10%;“社交困难”:后5%;“社交一般”:其他;
(4)孤独标签:根据根据“孤独指数”在班级排名,“较为孤独”:前5%;“正常”;
算法中孤独指数和社交指数的相关性较强。但是孤独指数为了更好分析出同学是否孤独,加大了离校次数和离校时间两个指标的权重。
学生画像示例如图2,左边的标签是学生基本静态信息。而右边三个标签分别是学生的学业成绩、社交能力、孤独指数情况。
图2 学生画像示例
三个动态标签是具有时间属性的,每学期期末考试成绩公布后,更新学生的成绩标签;每月更新一次社交和孤独标签。通过动态检测学生的社交和成绩信息,可以尽早分析出学生的行为异常变化,从而给老师、家长给出预警和建议[8-9]。
完成学生画像后,更重要的是如何应用学生画像数据。我们构建学生画像的目的是分析学生的特点,快速筛选出需要帮助和关心的同学,并给出关怀建议。
关怀建议根据“成绩”、“社交”、“孤独”三个标签给出。这三个标签是动态的,所以需要从时间维度来观察标签的变化。系统将正面、负面变化的学生情况推送给导师、辅导员后,老师可以根据学生情况,给予学生关怀和帮助,并尽可能找到学生社交、成绩变化的原因,添加到学生个人大数据档案中[10]。
从2021年1月到2021年7月,我们将算法应用于学校软件学院大数据19-1(48名同学)和AI20-1(37名同学)两个班级的教学管理。
图3中,左图是两个班级中打上“孤独”、“社交困难”、“成绩较差”负面标签的学生人数,老师可以重点关注。右图是从2021年2月到2021年7月,按月生成的关怀集合C+和C-的人数。可以看出,每个月都能给老师一些有价值的建议。
图3 两个班级的社交标签情况,以及触发学生关怀建议的次数
学生的行为具有群体性,且不同专业、班级的学生,也有其普遍特点。例如会计、旅游管理等文科专业学生女生比例更高,而且学生平均成绩较好。而软件技术、数控技术等专业,男生比例高,且学生平时专业作业较多,社交时间或社交能力稍弱。
以班级画像为例,我们首先根据全班同学的学业成绩数据以及社交数据,建立班级标签。而班级的横向对比维度可以在全校所有班级范围内评比,也可在同专业内对比。和学生画像的算法类似,首先需要计算班级的成绩指数、社交指数,也就是计算全班所有同学成绩指数、社交指数的算数平均值。再和全校所有班级指数进行横向对比,打上班级“成绩标签”和“社交标签”。对于识别到“成绩较差”、“社交一般”的班级,可以给二级学院、教务处发出预警。另外从动态角度,如果在短期内,出现班级成绩或社交的负面变化,也需要及时预警,并给出整改措施。
应用群体画像可以算法给专业、班级打上标签;不过由于数量较少,所以对于专业、二级学院的群体画像,建议使用绝对值进行分析,由校领导、教务处、学校质量处、二级学院共同讨论得出结论。
本文从学生社交网络分析入手,结合学生基础信息,应用图数据库、大数据技术,提出了完整的动态学生画像、群体画像生成算法。并提出如何应用画像与异常行为分析,给出有针对性的学生心理关怀建议;以及针对班级甚至专业的教学、学工管理改进建议。
另外,通过分析学生出行情况,得到动态的学生行为数据,还可以有效支持疫情防控工作[11]。
学生行为大数据是智慧校园整体解决方案的重要一环,其中还有非常多工作可以做。例如,基于学生食堂消费数据、学生上网时长、宿舍用水用电量等信息,可以完成更立体化的学生行为分析,得到学生经济状况、身体健康状况,给予学生更多的关心。还可以根据课堂学生表情分析,得到学生上课的专心程度,并根据全班同学的课堂专心程度,可以反推出课程(老师)的授课水平、课堂技巧等。