基于大数据分析的高校学生行为模型的研究

2021-04-01 05:43张晓颖荣竹青
长春大学学报 2021年2期
关键词:画像次数聚类

张晓颖,荣竹青,曲 亮

(长春大学 理学院,长春 130022)

作为一种新发展起来的技术,大数据技术在各个行业的应用为我们带来了极大的方便。大数据时代背景下教育领域面临全新的挑战,不仅要求教育工作者能够快速管理好学生的信息,而且还要能从中挖掘出有意义的结论。应用数据分析技术对高校学生行为进行数据分析,用大数据挖掘和分析思想与方法科学地优化学生管理,并通过数据可视化的方法把大数据分析结果呈现出来,为学生校园生活提供更加清晰、详尽的数据服务,为学校的领导、老师、学生提供更加直观的决策及管理依据,是当今高校教育教学管理所面临的重要问题之一。

目前学术界对学生行为的分析和研究方式不尽相同。2012年,黄荣怀等提出智慧校园的五个基本特征和定义,认为智慧校园是数字校园的高端形态,是数字校园发展的理想追求[1]。2014年,胡钦太等在分析了数字校园向智慧校园转型必要性的基础上,引入智慧校园的内涵与特征,详细阐述了当前信息化新技术与智慧校园的技术承载与应用融合的思想[2]。2013年,贺玉珍等以运城学院在校大学生为例,对其消费情况进行了抽样调查,并利用K-means算法对调查结果进行了聚类和分析[3]。2016年,张继燕等以甘肃农业大学在校大学生为研究对象,针对其消费行为应用统计调查分析的方法进行了高校学生消费行为的特征分析用户画像[4]。2017年,刘涵从大数据的角度观察与分析大学生的行为,以大学生在学习环境、生活环境中获得数据为对象,应用价值分析方法研究了大学生信息行为的影响因素[5]。2018年,董潇潇等以高校校园数据为基础,对大学生行为进行行为画像,应用机器学习中相关分析等技术完成用户行为分析[6]。

本文在前人对学生行为分析研究的基础上,主要研究大数据技术在教育领域中的应用,结合心理学理论对学生在校的日常行为进行解释和分类。主要针对长春大学近10年的校园基础数据进行多维度的数据分析。通过设计学生行为描述指标体系,采用机器学习的相关方法,建立合理的数学模型,分析学生在校的各种行为及其内在联系。

文章的结构如下:(1)通过构建数据仓库,整合教务系统、后勤管理系统、图书馆门禁系统等校园数据完成数据的收集及清洗。(2)应用相关分析方法研究学生行为关联分析模型,以学生图书馆借还书行为与成绩的关联为例探索学生行为的关联特征。(3)应用聚类分析方法完成学生的行为分类及用户行为画像。

1 长春大学学生行为数据分析

实验中用到的原始数据来自于长春大学教务处系统、附近超市消费记录以及学生的调查问卷。分析了长春大学各个学院2013—2018年6年的在校学生数据(图1),数据类型包括:教学系统数据、学生系统数据、图书馆汇文系统数据、就业系统数据、一卡通数据、各类实践活动数据、社交数据以及奖助学金数据。不同学院之间的学生成绩计算方式可能不同,即使是一个学院不同课程之间成绩也会有很大区别。为了消除这种客观差异,我们将收集到处理后的数据进行归一化处理。

图1 学生行为分析模型

将收集到的学生基础数据,进行结构化分析,多次清洗检查出错误的数据,对于错误数据先考虑进行更正,如果不能修正数据,那么考虑去除错误数据。

我们首先应用相关性分析方法研究学生学习状态数据。以长春大学近几年6个学院的学生图书馆刷卡次数与刷卡时间数据对比学生当期学习成绩(专业排名)数据进行数据的相关性分析(图2、图3)。

图2 图书馆刷卡次数和学生成绩的相关性分析

图3 图书馆刷卡次数和学生成绩的相关性分析

从图2、图3可以看到,图书馆刷卡的次数和学生成绩的相关程度比较高,曲线都比较紧密且具有较强的线性相关特征。

而图书馆刷卡的时刻和学生成绩的相关程度比较弱,曲线的波动都比较明显。

其次,我们以高等学校学生的消费数据为研究对象,利用快速聚类算法对学生消费数据进行聚类分析,并结合学生行为数据进行整体学生行为画像。

令P={p1,p2,···,pm}表示画像的中心区域,其中,pi表示第i个数据的行为画像指标,Ci={pi1,pi2,···,pim}表示分类中的第j个数据。当聚类分析结束的时候,各个分类需要满足下面3个条件:

∀Cm,ifCr⊆P,Cm≠Cr,thenCm∩Cr= Ⅱ

Min∀Pi∈Cm,∀Cm⊆P(sim(Pi,Pj))>Max∀Pi∈Cm,∀Cm⊆P(sim(Pi,Pj))Ⅲ

其中聚类的目标函数为:

其中k是参数。为保证聚类分析结果的可靠性,首先对数据进行标准化处理。

标准化处理的转换公式为:

上式中的U和V分别是转换之后和转换之前的数值,Vmax、Vmin分别代表转换值的最大值以及最小值。

图4 快速聚类流程图

我们根据学生的消费水平,学习状态数据将消费行为聚类的类别定为3类,学生行为(学习状况及消费特征)定为4类。研究在此分类下学生的行为特点。

聚类结果如图5、图6、图7所示:

图5 聚类(分组1)特征曲线

图6 聚类(分组2)特征曲线

图7 聚类(分组3)特征曲线

图4中蓝色曲线为消费时间特征曲线,绿色曲线为消费频率(次数)特征曲线,红色曲线为消费金额特征曲线。从图5、图6、图7可以得出以下结论:

聚类群体1:消费主要集中在前90天内,消费次数在25次以内,消费金额在3 000元以内,属于高消费的学生分群。

聚类群体2:消费主要分布在前30天内,消费次数在15次以内,消费金额在1 500元以内,属于一般消费水平的学生分群。

聚类群体3:消费主要分布在前30天内,消费次数在26次以内,消费金额在2 000元以内,属于中等消费金额的学生分群。

聚类1中的多数学生的借书册数和还书册数都比较多,大多数学生的学习成绩为优秀,但是这类学生的消费金额少,可能有生活问题,应该及时对该类学生给予生活上的帮助和支持。

聚类2和聚类3学生人数比较多,他们在成绩、消费金额以及图书借阅册数上均属于中等水平,但由于聚类2学生借书还书比较多,成绩会相对好一些,此两类学生需要加以指导和提高。

表1 学生行为特征聚类

聚类4中的学生在消费水平上比较高,但借书次数很少,成绩相对比较差,对于该类学生应提醒其理性消费,而且需要增加对待学习的自主性和积极性,将目标放在提高学习成绩上。

利用SPSS数学软件将学生信息数据进行表格化处理,得到学生行为画像表格。

表2 行为画像表格

2 结语

本文通过分析建立高校学生行为的数学模型,对学生后续可能发生的行为进行评估和预测,同时为学生个人发展提出可行性建议,也为学校制定奖助学金、管理办法等决策提供了理论依据。

猜你喜欢
画像次数聚类
一种傅里叶域海量数据高速谱聚类方法
威猛的画像
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
一种改进K-means聚类的近邻传播最大最小距离算法
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
最后才吃梨
画像
俄罗斯是全球阅兵次数最多的国家吗?
画像
基于Spark平台的K-means聚类算法改进及并行化实现