基于高校学生行为数据的成绩预警聚类分析

2023-06-25 11:15邓钧元梅轶骅

现代信息科技 2023年6期

邓钧元梅轶骅

摘要：随着校园信息化建设的不断深入，校园内各应用系统逐渐增多，运用数据挖掘技术可以从海量的数据中提取潜在有用的信息用于分析高校学生的日常行为与成绩方面的相关性。对一卡通系统、图书馆管理系统、教务系统等多维数据进行采集，基于密度聚类算法，在初始聚类中心选择的基础上结合了距离的度量，重新定义核心点、孤立点、边界点等概念，构建一个改进的密度聚类算法进行数据挖掘分析，达到对学生学习成绩的预警，避免出现挂科、留级等严重的学业问题。

关键词：数据挖掘技术；密度聚类算法；多维数据；成绩预警

中图分类号：TP391 文献标识码：A 文章编号：2096-4706（2023）06-0035-04

Clustering Analysis of Achievement Early Warning Based on Behavior Data of College Students

DENG Junyuan， MEI Yihua

（Guilin Medical University， Guilin 541199， China）

Abstract： With the continuous deepening of campus information construction， the application systems in the campus are gradually increasing. The data mining technology can be used to extract potential and useful information from massive data to analyze the correlation of college students' daily behavior and achievement. This paper collects the data from one card system， library management system， educational system and other multidimensional data， based on the density clustering algorithm， combines the measurement of distance on the basis of the initial clustering center selection， redefines the concepts of core point， isolated point， boundary point and so on， and builds a improved density clustering algorithm for data mining analysis， so as to achieve early warning of students' academic achievement and avoid serious academic problems such as fail and retardation.

Keywords： data mining technology; density clustering algorithm; multidimensional data; achievement early warning

0 引言

學习成绩是评估一个学生综合素质的重要指标，也是学校教学质量改进的重要依据。目前传统的教学管理模式并没有对学生成绩进行相关的成绩预警分析，无法准确的关注到学生成绩动态。通过研究分析学生多维数据并利用数据挖掘技术，构造聚类分析模式，对学生成绩进行聚类分析，可以很好的寻找出影响高校学生学习成绩的主要原因。

1 应用概况

随着高校信息化不断发展，学校设有双数据中心互为容灾，通过专用光纤通道实现高效地数据传输。同时随着近些年智慧校园的不断升级，各业务系统累积的数据越来越多，某高校已部署了成熟的数据交换中心平台，现已与各个部门业务系统实现了数据对接工作，可抽取各业务系统数据进行挖掘分析，同时基于多节点超融合计算资源池，大大提高了数据挖掘分析的效率，如图1所示。

2 算法选择

本文主要使用聚类算法进行研究分析，该算法主要将样本分成若干个簇类，使得簇内之间的样本相似度较高，不同簇之间的样本相似度较低，从而提取出有价值的信息。聚类算法有基于划分、基于层次、基于密度、基于网格的类型。在初始聚类中心选择问题上，传统的基于密度的聚类算法可以过滤一定的离群点，当簇中对象的密度高于一定阈值时则可以划分一类。如果初始聚类中心是又系统随机选择的话，就样会出现以下两个问题：一是会有概率选择到孤立点，孤立点作为初始聚类中心，就会直接影响聚类结果质量；二是每次随机选取就会导致聚类的效率和结果不同，非常影响聚类效果的稳定性。考虑到传统基于密度的聚类算法对孤立点噪声数据非常敏感，本文在初始聚类中心选择上结合了密度与距离的度量，下面将介绍改进的基于密度的聚类相关概念：

（1）密度参数θ。假设数据集中随机选取某一个点作为参考对象，该点的密度就是以该点为中心，以ε大小作半径画圆，该半径内的所有点数（包括该点本身）称为该参考对象的密度，其中半径内包含的点数越多则说明密度越大，反之则密度越小。

（2）ε邻域。数据对象的邻域是由距离度量函数所决定的，假设Sε （i）表示点i的ε半径内的点集合，即：

Sε （i）={ j| j∈D，D （i， j）≤ε}

其中D （i， j）表示i对象和j对象间的距离，使用的是欧几里得距离：

（3）MinPts。在ε邻域内，规定判断核心点、边界点、孤立点的最小邻接点数。

（4）核心对象。这些点是在密度的簇内部的，它的判断是由领域值ε和MinPts最小邻接域点数决定的，如果一个对象的在ε邻域内且包含数量大于MinPts的邻接域点数，则称为核心对象，其示意图如图2所示。

传统基于密度的方法判断孤立点对象，往往是只重视孤立点周围的稀疏性，而忽视了与聚类中心的位置；如果基于距离来判断孤立点对象，却只关注了孤立点对象与聚类中心的位置，只要该点与聚类中心的距离大于其余数据点到聚类中心的平均距离就判定为孤立点，却忽视了孤立点对象周围的稀疏性。这两种研究方法往往会将孤立点对象和边界点对象搞混淆，所以将密度和距离的概念相结合用于判断边界点对象和孤立点对象，进而选出合适的初始聚类中心。改进后的孤立点和边界点的定义如下：

（1）改进的孤立点。在实际应用中该点的密度参数最小，且与聚类中心的距离大于其余点到聚类中心距离的均值，则该对象称为孤立点。

（2）改进的边界点。在密度概念的基础上，该对象所包含的点数小于邻接域点数值MinPts，且仍然包含于半径内，但是该对象与聚类中心的距离小于其余点到聚类中心距离的均值。改进后的边界点对象的特征是，与聚类中心近，但是密度值小。

为了验证改进后的基于密度聚类算法，本文基于UCI的数据集的实验验证，UCI是一个给研究者们提供用于机器学习的数据库，本节将采用UCI数据库中的iris（鸢尾花）对改进的算法进行实验，此数据集是一个很常用的数据集，iris（鸢尾花）有三个亚属性，分别是山鸢尾（Iris-setosa）、变色鸢尾（Iris-versicolor）和弗吉尼亚鸢尾（Iris-virginica），每类有50个数据值，其中每个数据值有4个特征变量，分别为花萼长度、花萼宽度、花瓣长度、花瓣宽度，按照这4个不同的特征变量，将数据集进行分类。通过实验分析，如图3、图4所示。

通过对比原算法可以很清晰地看出中心点周围密度高，且聚类效果紧凑。改进后密度聚类算法提高了聚类的准确率，避免了在实验测试中给研究者们带来不便，特别是帮研究者们解决了随机初始中心导致不同聚类结果的问题。

3 学生多维数据与成绩相关性预警分析

3.1 数据采集

本研究数据主要从某大学一卡通系统、图书馆系统、教务系统，从中抽取一个年级的学生数据。校园一卡通系统抽取学生姓名、学号、院系专业、消费记录、消费时间等字段；图书馆系统抽取入馆时间、离馆时间、被借阅图书等字段；教务系统抽取学生成绩点字段。

3.2 数据清洗

由于采集的数据源为多个业务系统且数据量较大，存在一些“空数据”和“异常数据”，需要消除这些原始数据中的噪声从而提高数据挖掘的质量。针对“空数据”一般采用均值和临近值插补的方式进行修复，但这种情况适用于非时间序列的数据。但在图书馆系统中需要分析出入馆时间，属于时间序列数据类型，则需要采用数理插值法进行处理，主要采用拉格朗日插值法，建立合适的插值函数f （x），空值就由对应点求出近似函数值。

3.3 数据集成

此过程需要将三个系统抽出来的数据进行有效集成。本研究抽取的一卡通系统、图书馆系统、教务系统中的数据格式、属性、类型都不一样，因此通过全连接等方式要将这些数据导入到同一个数据库中，将数据编码统一改成GBK模式。

3.4 数据变换

通过将集成后的数据进行数据转换，可以统一数据格式和数据属性，使得数据挖掘分析的数据更加规范。由于数值间的单位和大小差距很明显，不进行数据变换的话可能会影响到数据分析的结果，本节将使用“0-1标准化”进行数據变换，去除数据单位不同的限制。

3.5 基于密度聚类算法的学生数据与成绩预警分析

在通过数据预处理以后，将采用改进的密度聚类算法进行数据挖掘分析，通过运行密度聚类算法后，计算出不同K值情况下的轮廓系数，轮廓系数是聚类效果好坏的一种评价方式。该值区间是[-1，1]，越趋近于1代表内聚度和分离度都相对较优，整体轮廓系数如表1所示。

根据整体轮廓系数可知，当K值等于5时其聚类效果最好，其聚类分析出的plot图如图5所示，不同人群之间的行为特点如表2所示。

群体0。消费水平和消费频次正常，说明在校园内生活较为健康和规律，能长时间够坚持到图书馆自习以及查询资料，借阅书量也较多，可以看该类学生勤奋努力，自控能力较强，几乎没有出现挂科的情况，此类学生成绩能得到“优”，占总体样本的10.11%。

群体1。消费水平较高且频次较多，可能其家庭条件较好，属于学校中的高消费类别群体，但到图书馆自习次数较少，借阅书量也不多，此类学生成绩能得到“优”，占总样本数的3.66%。此类学校可能喜欢在教室或者宿舍进行学习学习，但此类学生学习和生活也较为自律，属于比较特殊的群体，需要学生管理工作人员关注其消费习惯问题，避免落入高消费和享乐主义的陷阱。

群体2。消费水平中等消费频次较高，消费规律非常正常，到图书馆自习较多、借阅图书量一般，此类学生成绩能得到“良”，成绩属于中上水平，占总样本数的19.91%。此类学生与群体0的行为轨迹较为相似，如若能提高学习效率，学习成绩也许能达到“优”等。

群体3。消费水平和频次稳定，处于中等水平，出入图书馆自习频次与借阅图书次数较高，此类学生成绩能得到“中”，占总样本数的60.66%。此类群体学生占比是样本中最多，各方面表现属于“随大流”，成绩较为平庸，学习和生活上不够积极主动，缺失个人目标感同时学习方法可能不够正确。学生管理工作者可以针对此类学生进行个性化管理，发掘每个人身上的特点和兴趣爱好，激发其学习的积极性，改善其学习方法。

聚类4。该群体每月花销额较低，消费频率也较低，没有去图书馆自习学习的习惯，可以看出学习生活不规律，可能有不吃早餐、经常赖床、逃课、沉迷网络及其他不自律的生活习惯，此类学生成绩能得到“差”，占总样本数的5.66%。需要相关人员重点关注其生活规律，提高其自控能力，同时也需要关注该类学生家庭经济和心理健康情况，是否学习和生活上遇到困难，及早干预，使其尽快进入学习状态，避免出现挂科留级等情况出现。

4 结论

学生学习和生活习惯越健康和规律，则成绩越好，同时消费习惯也与成绩成正比。反之，如果行为习惯和消费习惯不规律，出现了饮食不规律、逃课、沉迷网络的情况出现，则成绩大概率会较差。在研究中还发现部分学生学习习惯和消费习惯也较好，但学习成绩还不是很理想，学生管理人员可多关注其学习方法是否正确，循循善诱，提高其学习效率。通过基于密度的聚类算法对学生多维数据进行挖掘分析，得到了影响学生成绩的相关因素，可以看出学生在校的相关行为习惯与成绩息息相关，此次研究为学生管理工作提供了一个很好的客观依据，在将来的研究中还可以采集更多的学生数据进行分析，完善学生的行为画像。

参考文献：

[1] 高盛轩.基于Apriori算法的高校学生日常行为与成绩的关联性研究 [D].沈阳：沈阳师范大学，2022.

[2] 刘金忆.数据挖掘技术在高校学生成绩分析中的应用 [J].信息记录材料，2021，22（7）：165-167

[3] 刘爱萍.基于数据挖掘技术的高校学生成绩预测模型構建 [J].长春工程学院学报：自然科学版，2020，21（2）：98-101.

[4] 苏锦.数据关联分析与挖掘技术在学生信息中的应用研究 [D].南宁：广西大学，2019.

[5] 陈佳明，骆力明，宋洁.大学基础课课程成绩加权投票预测模型研究 [J].现代电子技术，2020，43（1）：93-98.

[6] 郭鹏.基于校园一卡通数据的学生消费行为与成绩的关联性研究 [D].杨凌：西北农林科技大学，2019.

作者简介：邓钧元（1995.08—），男，苗族，广西桂林人，网络工程师，本科，研究方向：数据库工程；梅轶骅（1978.07—），男，汉族，广西桂林人，助理工程师，本科，研究方向：网络工程、信息安全。

收稿日期：2022-10-31