付 裕
模糊聚类分析在高校分层次教学中的探索
付 裕
本文以一个班级学生学习成绩为数据样本,使用R语言进行模糊聚类的分析,进而对学生分层次教学管理提出一定的理论建议。
模糊聚类 R语言 分层次教学
随着高等教育转变成大众教育,单独招生的规模在各个高职高专院校都有所扩大,高职高专学校在校学生的数量也不断增长,伴随着的是学生的质量千差万别。学校为了提高对学生教学管理的质量,做到因材施教,倡导分层次教学的管理模式。传统的聚类方法属于一种硬性划分即对象不是属于这一类就是属于另外的类。这种划分在研究聚类的很多文献中都提到他的局限性。本文在参考了众多文献的基础上,试图使用模糊聚类分析的软划分方法以学生成绩为依据对学生进行分层次[1]。为后续的学校的分层次教学管理提供理论支撑。
本文选自供电班2016-2017学年第一学期的期末考试成绩为所分析的数据集,其源自于学校教务处,数据具有真实性、可靠性。该数据集共有37个样本,每个样本具有四个属性,其值分别为高等数学、英语、电工测量、电子技术四门课程的考试成绩。部分数据如表1所示。具有4个属性的37个样本形成了一个37行4列的矩阵。可以使用R的read.table()函数载入数据集,使用Matrix()函数将其转化成可以进行模糊聚类处理的矩阵。
表1 供电班部分学生期末考试数据
加载fclust包之后,使用R中的FKM()函数对该数据集进行模糊聚类。FKM函数执行的是模糊C均值[1]算法。该算法是通过最小化目标函数来实现样本的划分。FKM函数有8个参数,对前三个参数进行必要的设置,第一个参数X为样本数据集,选择的是供电班期末考试成绩;第二个参数K为聚类的数目,选择聚为3类,第三个参数M为加权指数,对聚类效果有很大的影响,在许多文献中对该参数都有所研究,其最佳的选取范围在[1.5-2.5]之间。
FKM函数输出为一个数据框,包含有类的成员及其数量、相关隶属度矩阵、迭代次数、计算时间等相关聚类结果。
选取不同的M值,对类中成员的数量起着决定性的作用。本文在下文中会选取3个不同的加权指数值对学生四门课的期末考试成绩进行聚类分析比较。通过对聚类结果的比较,探索出一个比较适合于分层次教学管理的加权指数。
(一)M=2
选取加权指数M的值为2,聚类数目K的值为3。类的成员及数量如表2所示,部分成员保留两位数的隶属度及最有可能被划分的类如表3所示。
表2 类的成员及数量
2 12 3 13
表3 部分成员隶属度及最大隶属类
通过分析表2,发现类1有12个成员,类2有12个成员,类3有13个成员,基本实现了类之间成员平均分配。分析表3发现,成员属性值接近的基本上聚在一类,并且根据隶属度给出了将成员划分在哪一类中理论建议。通过分析所有成员的隶属度及最有可能被划分的类并结合成员的属性值进一步发现,类1中成员的成绩普遍较高,类2中成员的成绩普遍较低,类3中成员的成绩处于类1与类2之间。如果将该班级分成3个小班进行层次教学,则建议类1中的成员为1个班,在授课时可以适当加深一些理论教学。类2中的成员为1个班,因为其理论课成绩普遍较低,则在授课时适当偏重实践教学内容,减少理论教学内容。类3中的成员为1个班,该班的理论成绩表现得一般,授课时则按正常教学内容进行。
(二)M=1.5
选取加权指数M的值为1.5,聚类数目K的值同样为3。通过聚类分析结果发现,类1的成员数为12,类2的成员数为17,类3的成员数为8。类之间的成员数没有平均分布,如果按此结果进行分层次教学,则会出现班级人数相差大,教学资源分配不均等的情况。通过把成员隶属度矩阵、最有可能被划分到的类与原始数据相结合分析后发现,在加权指数M=1.5的情况下,一些被认为应该划分到类3中的成员被划分到了类2中。其给出的理论指导具有误导性。
(三)M=2.0
选取加权指数M的值为2.5,聚类数目K的值仍然为3。其类中的成员数仍然相差比较大,类3的成员个数达到15个比类2要多5个。并且同样造成了本应该划分到类2中的成员被建议划分到类3中,其理论指导同样具有误导性。
本文通过R语言的FCM函数对一个班级37个成员的期末考试成绩进行模糊聚类分析。展现了模糊聚类技术为分层次教学提供理论依据的可行性。并通过选取不同的加权指数对聚类结果进行了比较分析。初步得出了加权指数M=2时具有重要的理论指导价值。
[1]James C,Bezdek,Robert Ehrlich,etal.FCM:The Fuzzy C-means Cluster Algorithm[J].Computers & Geosciences,1984(10):191~203.
(作者单位:陕西国防工业职业技术学院)