基于智慧校园的学生行为特征的大数据分析与研究

2022-05-30 10:48李志远姚明菊魏强
电脑知识与技术 2022年22期

李志远 姚明菊 魏强

摘要:越来越多的高校开始使用大数据分析解决日常教学、管理中遇到的实际问题,通过对校园卡消费、上网、考试成绩等数据进行分析,从而改进学校的教學、管理等方面的问题。当代的学生生长于信息化时代,热衷于使用计算机等设备来解决生活和学习中碰到的问题,对信息化的接受度较高,智慧校园的相关教学设施也使用较多。对当代学生在校园生活中的行为特征数据进行研究更有利于智慧校园的更进一步建设。

关键词:智慧校园;行为特征;多元线性回归

中图分类号:TP311      文献标识码:A

文章编号:1009-3044(2022)22-0016-02

1 引言

2018年国家正式发布了《智慧校园总体框架》标准,致力于构建校园工作、学习和生活一体化的智慧校园正在全国多个高校逐步成型,从课堂到生活的教育理念已经被广为接受。高校智慧校园的建设模式大致相同,都是以教育为中心展开的,建设模式的不同也都有自己的优点和缺点。智慧校园是在互联网飞快发展基础上建立的,通过大数据时代运营,以提高高校校园的教育质量,方便高校的信息管理,便捷师生的生活,运用大数据技术建设智慧校园具备划时代的意义[1-2]。

笔者所在的吉利学院作为新迁入四川的高校,其智慧校园环境在川内来看也是建设比较优秀的。相比传统的仅仅以最后成绩评定的程序设计类课程评价方法,如果能够结合智慧校园环境下不同方向的学生的学习行为特征(上课、上网、门禁、课后习题提交等) 多维大数据进行全方位分析,就能及时地衡量出各个行为画像对成绩的最终影响作用,为学院课程的教学管理和教学质量的评价监督提供决策依据,同时也可对智慧校园的迭代建设提供数据支撑。在对吉利学院的学生评价完成后,依据其评价的质量指标,可为其他智慧校园教学管理和校园建设做相关参考评价。

2 数据样本采集

采集的数据以吉利学院在校大一和大二学生不同专业的学生行为数据为样本,采集的多维数据样本源由以下几部分组成:

1) 场景数据。样本所在的宿舍位置以及宿舍相关学生的年龄、地域、毕业院校等数据。吉利学院的宿舍分配方法采取学生自愿选宿舍和人为指派组成,并没有充分考虑学生的兴趣、性格、生活习惯等方面,引入场景数据可对场景环境对学生的成绩影响进行充分考量。

2) 门禁数据。样本进出宿舍、自习室、图书馆、教室的门禁时间,门禁数据可以有效衡量出样本最终成绩和门禁的数据相关性。

3) 出勤数据。样本在课程学习的出勤率,包含其具体的出勤时间等。

4) 上网数据。在不涉及个人隐私的情况,对样本的上网时间段进行精准采集,列出主要学习网站,从而分析样本对于相关网络学习平台的学习情况。

5) 专业主要课程的学习数据。采集样本专业主要课程的学习情况主数据,主要包括上课的问答情况,作业完成情况等智能教育平台导出来的多维数据。

3 数据存储和多元分析

对样本的行为特征进行采集后,需要对数据进行存储和处理分析,因数据量较大,宜采用Hadoop+Spark平台进行数据的有效存储。

Hadoop的MapReduce非常适合对大规模数据集合进行批处理操作,只是其存在着延迟过高,无法进行快速计算。Spark借鉴了Hadoop的MapReduce技术,其适合分布式并行计算,然其并不适用于数据量巨大的情况。因此采用两者结合的方法可同时兼顾大规模数据集处理和快速实时运算的要求。

进行数据分析时,可以利用Python和SPSS等数据分析工具对数据进行提取和筛选,在筛选时根据分析的主目的进行数据的清洗、汇总。对庞大的后台数据筛选后,利用多元回归分析法,确定要评价的学生学习效果呈显著正相关的指标,同时对指标数据进行权值量化,量化后的数据可对学生的作息时间规律性、努力程度、学习技能等多维度进行分析,最终可以有效地对学生的教学管理和教学质量进行评价[3]。

采取的总体研究框架如图1所示,评价方法的整体迭代关系如图2所示。

4 多元线性回归分析

学生行为特征数据由多个维度组成,多个维度抽取其关键因子构成了多因素的组合模型,采取多元的线性回归分析是一种比较好的评价预测方法。多元线性回归是多种评价方法中最为基本的,较容易实现且效果较好的方法。学生的最终的行为受多种因素所影响,因此可以采取多元线性回归分析法分析学生的平时的行为数据与结果表现的关系,筛选出最优的特征数据去预估学生学习行为,并建立预测模型[4]。模型公式为:

[Y=a0+a1x1+a2x2+a3x3+…+anxn]    (1)

在公式(1) 中,Y为结果变量;x1到xn为各个变量因子;ai为各个变量因子所对应的回归系数。

根据上述公式,综合分析后,选择相应的大一、大二的在校不同专业学生的特征数据作为变量因子参与计算,选择的特征数据量如表1所示。

4.1 Python实现多元线性回归

Python是一种模块化的开源语言,其包罗万象的模块可以帮助用户用最简单的代码实现复杂的算法,本文采取Numpy模块进行数据集的矩阵预算,采用Pandas内置的read_csv()函数实现对于数据集的读取。采用sklearn模块对数据集进行训练和相应的模型导入。其实现的核心代码如下:

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

from sklearn import linear_model

df=pd.DataFrame(“students.csv”)

model=linear_model.LinearRegression()

model.flit(df)

x_=df.iloc[:,[1,2,3]]

y_model.predict(x_)

plt.scatter(x_,y_)

plt.show()

利用上述的核心代码对学生的样本数据集进行线性回归预测,结果如表2所示:

4.2 学生行为预测和误差分析

利用上述表2得到的多元线性回归预测模型对样本学生的行为数据和其最终的成绩分布进行预测,并使用Python的Matplotlib进行绘图,得到如图3所示的实际学生成绩值和预测值的对比图。从图3可以知道,当数据样本分布较为合理,且具有一定规模的时候,采用线性回归分析法,可以一定量地预测出学生样本最终成绩和其行为数据的关系。

5 结束语

在当前大数据普遍应用的环境下,对智慧校园内的学生行为特征大数据进行分析非常迫切和重要[5],依照本文提出的数据采集维度和数据分析的方法,可有效探索解决学生行为数据对课程学习的影响因素,从而为进一步的教学管理及教学评价打下良好的理论和实践基础。

参考文献:

[1] 赵磊磊,张黎,代蕊华.智慧校园的智能升级:基于人工智能的智慧校园[J].现代教育技术,2020,30(11):26-32.

[2] 杨萍,姚宇翔.智慧校园建设研究综述[J].现代教育技术,2019,29(1):18-24.

[3] 丁辉.Python基础与大数据应用[M].北京:人民邮电出版社,2020.

[4] 岳刘杰,齐庆杰.基于多元回归分析的瓦斯浓度预测[J].陕西煤炭,2022,41(1):1-4,9.

[5] 石川,丁杰,徐艺.新冠疫情常态化下的大学生校园环境行为特征调查研究[J].安徽建筑,2021,28(3):30-32.

【通联编辑:谢媛媛】