K-Means聚类算法在高职软件类专业学生成绩分析中的应用研究

2020-02-26 06:23
科教导刊·电子版 2020年35期
关键词:中心点类别科目

(山东外事职业大学信息与控制工程学院 山东·威海 264504)

0 引言

随着互联网和人工智能时代的到来,各行各业都加强了对新一代信息技术的重视。AI技术也广泛应用于教学研究上。通过相关研究发现,考试成绩对学生在某个时间段内的学习状况具有一定的参考价值。有效利用数据挖掘算法对学生成绩数据进行数据分析,从而为教师教学和学生学习提供科学建议和辅助决策支持,具有一定的应用价值。

数据挖掘算法已经开始在教学中得到应用,本文采用聚类算法产生的分组可以为软件编程类课程项目驱动教学中的项目分组提供参考依据。

1 聚类算法介绍

数据挖掘一般是指从大量数据中寻找隐藏在背后的信息的过程,是深层大数据分析方法。包括分类、聚类、关联规则等系列经典算法。

K-Means算法,是经典的聚类算法。1967年,James Mac-Queen在他的论文《用于多变量观测分类和分析的一些方法》中首次提出“K-means”这一术语。

K-Means算法的基本流程如下:

输入:假设样本集为D,簇的数目为k,设置迭代次数最大为N;

输出:使平方误差最小的簇划分。

算法步骤:

(1)为每个类别选择一个初始聚类中心点;

(2)将样本集D中每个样本按照其与各中心点的最小距离来分配其所属的簇;

(3)将划分后的每个聚类类别的均值来更新中心点;

(4)重复步骤(2)(3),直到各个簇中心点不再发生变化;

(5)输出最终的聚类中心和k个类别划分。

2 学生成绩数据预处理

2.1 数据选择

本文以山东外事职业大学软件与信息服务专业18级学生某学期期末各科成绩数据为样本,科目包括大学英语、综合人文素质、体育以及多门专业课等。部分学生成绩数据如表1。

2.2 数据清洗

数据清洗指消除异常数据、填充缺失值等。这里将成绩数据中出现“舞弊”字样的成绩修改为0,方便聚类计算。部分学生因特殊原因未能按时参加考试的,统计成绩时录入缓考,为了方便聚类统计分析,将出现缓考的数据行删除。

2.3 数据转换

聚类分析划分簇的时候是基于样本点和中心点的距离来衡量的,所以表格中的姓名、学号等非数值列数据都删除,只保留各科成绩字段。为了产生更好的聚类效果,应该让各科成绩之间尽量独立,这里将综合人文素质、毛泽东思想概论等公共基础课可以合并为“公共基础课”,该列的值为所有公共课的平均分。

本文采用了数据挖掘开源工具Weka进行聚类分析,所以需要将数据提前转为csv格式。

3 聚类分析和结果分析

3.1 算法执行

Weka提供了Simple K-Means算法,设置算法运行时一些参数。设置最大迭代次数为500。划分类别个数K的选择一般按照经验选定范围,分数档次一般是2~6比较合理。为了得到最好的聚类效果,分别为每个 K的取值计算平方误差squared errors,从而选择合适的K值。关于K取值与平方误差对应关系如表2所示。

表1:部分学生各科成绩源数据

图1:Java程序设计聚类效果

图2:操作系统聚类效果

表2:各聚类及样本数量

表3:各科聚类结果的平均值

表4:各聚类及样本数量

从表2可以看出当K=5时,各聚类内部离中心点的均方差最小,所以k取值为5。

3.2 挖掘结果分析

我们运行Weka的聚类分析算法,开始对训练样本进行聚类,最终执行结果经过整理如表3所示。

各聚类数量分布结果如表4所示。

为了在基于项目驱动的教学模式下更好的进行项目分组,可以参照以上聚类结果作为决策依据。比如教师可以从每个类别中抽一个学生组合成一个小组,这种分组策略符合“组内异质,组间同质”的原则,容易让学生在协同学习中形成互补。

3.3 各科目重要性分析

以下对单个科目的聚类效果进行分析,发现Java语言程序设计这门课的聚类效果最好,类内数据点分布紧凑,类别之间区分明显,由此说明这门课对学生类别划分比较重要。这门课聚类效果如图1所示。

在后续制定人才培养方案时应该适当增加对这两门课的师资和课时。相反,部分科目聚类效果上看较为分散,且不同类之间区分不明显,比如操作系统如图2所示。

上述反映了操作系统这门课对形成聚类划分的重要性不高,应找到导致这种分布的原因。比如从考试试题难度、教师教学方式等方面进行调查分析。

4 结语

本文基于某高职院校软件与信息服务专业的学生期末考试成绩,采用K-Means聚类分析算法,对样本数据进行聚类划分,分析了每一个类别的特点和成绩分布,为教师进行分组教学和个性化辅导提供决策支持。同时,本文对每一个科目的聚类效果进行比对分析,找出重要程度较高的科目,为教学管理提供参考,可以依据重要程度调整师资和课时。从学生自身而言,也可以通过聚类分析结果清楚自己的定位,了解自己的优势学科和弱势学科,针对性的调整学习时间,将精力更多投入到影响总体成绩的科目上,提高学习效果和成绩。

猜你喜欢
中心点类别科目
2024年拟在河北招生的普通高校招生专业选考科目要求发布
Scratch 3.9更新了什么?
如何设置造型中心点?
让讨厌的科目“牛”起来
汉字艺术结构解析(二)中心点处笔画应紧奏
服务类别
论类别股东会
中医类别全科医师培养模式的探讨
汉语或成俄罗斯高考科目
聚合酶链式反应快速鉴别5种常见肉类别