段桂芹 邹臣嵩
摘 要: 针对课程之间难度差异大而带来的学生成绩评价“一刀切”的问题,提出了一种基于K-medoids算法的学生成绩评价方法。首先,使用Z-Score对样本集进行标准化,然后,采用K-medoids算法对学生的多门课程成绩进行聚类,最后,使用内部评价指标Sil对多组聚类结果进行评价,得出最优聚类数和最优聚类划分。通过对某高校学生成绩的分析结果表明,该方法能够有效地对学生成绩进行聚类,有助于教学领域向个性化、信息化的方向发展。
关键词: 成绩评价; 聚类分析; K-medoids; 聚类评价
中图分类号: TP301.6 文献标志碼: A
A Study on Student Performance Evaluation Based on Fast K-medoids Algorithm
DUAN Guiqin1, ZOU Chensong2
(1. Department of Computer Science; 2. Department of Electrical Engineering, Guangdong Songshan
Polytechnic College, Shaoguan 512126)
Abstract: According to the problem of "one-size-fits-all" student performance evaluation caused by the difficulty difference between courses, a K-medoids algorithm based on student performance evaluation is proposed. Firstly, Z-score is used to standardize the sample set; secondly, K-medoids algorithm is used to cluster students' scores of multiple courses. Finally, the results of multi-group clustering are evaluated by using the internal evaluation index Sil, and the optimal clustering number and optimal clustering are obtained. The result of the analysis of the students' achievement in a university shows that this method can effectively cluster the students' achievement, which is helpful for the development of individualized and information-based teaching field.
Key words: Performance evaluation; Cluster analysis; K-medoids; Clustering evaluation
0 引言
许多高校衡量学生成绩的常用方法是将排序后的总分或平均分作为评价学生综合素质的依据。由于这种评价方式没有考虑课程的难易程度,多门课程的总分或平均分受试卷难度影响较大,如果仅用平均分或总分对学生进行评价,其结果显得过于片面,无法客观真实地反映学生的学习情况[1]。一种改进的方法是根据专家经验给每门课程赋予一定的权值,通过计算加权总分的大小进行评价,但这种评价方法并不能体现学生能力倾向的差异性,当教师需要对学生进行分组教学并制定与学情相适应的个性化指导时,这种评价方法同样也很难科学地对学生进行合理分组。鉴于此,本文提出采用K-medoids算法对学生成绩进行聚类,将具有高相似度的学生聚为一类,通过分析比较各类学生间的特点,为学生的成绩评价、个性化发展以及教师的差异化教学提供理论依据。
1 聚类算法
聚类分析简称聚类(clustering),是一个把数据集划分成子集的过程,每一个子集是一个簇,聚类的目的是使得簇中的样本彼此相似,而与其他簇中的样本不相似。聚类分析不需要事先知道样本的类别,甚至不用知道类别个数,因此是一种无监督的学习算法,常用于数据探索,如群组发现和离群点检测。聚类分析算法主要包括划分法、网格法、密度法、层次法以及基于模型的方法[2-4]。作为一种基于划分的聚类算法,K-means算法(亦称K-中心点算法)采用对样本各维度求平均值的方式来获得簇中心,但当样本中存在个别离群点时,聚类中心会受到异常维度的干扰,使得均值中心和实际中心位置偏差过大,从而导致类簇发生“畸变”。
1.1 K-medoids算法
为解决K-means算法对噪音数据的敏感问题,K-medoids[5-7]算法每一次迭代都从样本中选取新的中心点,而选取的标准就是新的中心是否能令类簇更加紧凑。由于K-medoids算法(亦称K-均值算法)使用绝对误差标准选择簇中心,因此对于离群点的划分不会出现较大偏差,该算法描述如下:
(1) 随机选取一组样本作为聚类中心,使得每个中心对应一个簇;
(2) 计算每个样本到各聚类中心的距离,将样本归属至距离最近的簇中;
(3) 选取簇内样本距离和最小的数据对象为新中心点;
(4) 重复步骤(2),计算并比较最近两次聚类误差平方和,若相同,则算法终止;否则,继续执行步骤(3)。
参考文献
[1] 王平.基于AP聚类分析的学生成绩评价研究[J].微型电脑应用,2015,31(8):57-58.
[2] 邹臣嵩,杨宇.基于最大距离积与最小距离和协同K聚类算法[J].计算机应用与软件,2018,35(5):297-301.
[3] 段桂芹.基于均值与最大距离乘积的初始聚类中心优化K-means算法[J].计算机与数字工程,2015,43(3):379-382.
[4] 何庆,易娜,汪新勇,等.基于高斯混合模型的最大期望聚类算法研究[J].微型电脑应用,2018,34(5):50-52.
[5] Donghua Yu, Guojun Liu, Maozu Guo, et al. An improved K-medoids algorithm based on step increasing and optimizing medoids[J]. Expert Systems with Applications, 2018, 92(2):464-473.
[6] 王永,萬潇逸,陶娅芝,等.基于K-medoids项目聚类的协同过滤推荐算法[J].重庆邮电大学学报(自然科学版),2017,29(4):521-526.
[7] 高瑜. 隐私保护模型下k-medoids聚类算法研究[D].西安:陕西师范大学,2017.
[8] ROUSSEEUW P J. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis[J].Journal of computational and applied mathematics,1987,20(20):53-65.
(收稿日期: 2018.11.25)
基金项目:韶关市科技计划项目(2017CX/K055);广东松山职业技术学院重点科技项目(2018KJZD001)
作者简介:段桂芹(1979-),女,公主岭人,讲师,硕士,研究方向:数据挖掘。
邹臣嵩(1980-),男,白山人,讲师,硕士,研究方向:数据挖掘,网络安全。文章编号:1007-757X(2020)02-0064-03