张铁军 贾银江 赵峻颖
(东北农业大学,黑龙江哈尔滨 150030)
本文采用混合聚类算法对学生进行分类分班,从而为分层次教学的实施提供保证和支持。
聚类是一种常见的数据分析工具,它的基本思想是根据对象间的相似程度进行类别的聚合。当前的聚类算法大多用于处理单种属性的数据,如数值型属性数据的处理,或者符号型属性数据的处理。传统的基于欧氏距离划分的算法难以满足此类混合属性数据集聚类的要求。
由于在分层次教学分组过程中,采用的数据不仅是考试成绩等数值型数据,还包括学生掌握计算机技能水平的差异等分类型属性数据,所以选用K-prototypes混合聚类分析的方法。该法提出利用分类属性简单匹配相异度,将分类属性转化为数值属性间基于距离的计算问题,从而解决混合属性数据集聚类的问题。
K-prototypes算法定义了一个代价函数。对于含有m个属性(mr个数值属性,mc个分类属性,且m=mr+mc)的n个数据对象,代价函数定义为:
其中υ(di,Ci)是数据对象di到最近的聚类中心Ci的距离。υ(di,Ci)定义如下:
对混合属性数据集聚类的过程就是求解代价函数ξ最小化的过程。
教学分组的数据收集是大学一年级学生在第一学期期末,在教务网站输入自己的学号进行期末考试成绩查询时,以二值按钮的方式让学生对自己的计算机技能做真实评估。评估结果直接存储到数据库中作为教学分组的分类属性数据,同时学生的《计算机基础一》第一学期的考试成绩也对应着学号转存到同一数据库表中作为教学分组的数值型数据。
学生的计算机技能由于经过一学期的基础学习,对计算机各个方面的知识都有了一定的了解,本评估表主要注重学生的兴趣取向,并综合学生的计算机技能水平。
表1 计算机技能评估表
对于每个学生的自我评估表,当某一学生掌握了某种技能时,将该技能对应的属性值定为1,否则设为0,共有6种属性,即生成6位的二进制编码。如表2所示,是根据本校2010级大学计算机基础课程预处理后得到的数据。
表2 2010级教学分组数据表
根据K-prototypes算法,用VC++6.0编程实现,实现步骤如下:
1)初始化聚类数目k和聚类中心C,即从数据集中随机选取k个初始聚类原型;
2)按照定义的代价函数最小化公式,将数据集中的各个对象划分到离它最近的聚类原型所代表的类中;
3)对于每个聚类,根据距离公式重新计算新的聚类原型;
4)计算每个数据对象对于新的数据原型的差异度,如果离一个数据对象最近的聚类原型不是当前数据对象所属聚类原型,则重新分配这两个聚类的对象;
5)重复 Step 3和Step 4,直到各个聚类中不再有数据对象发生变化时,算法结束。
对2010级大一学生进行聚类分组,设定权重=0.5,确定分为11类。在按类分班时,打乱原来的自然班,但在同类中还是以相同学科相同专业优先分班。通过对聚类结果进行分析比较,对于考试成绩比较高,计算机技能掌握比较多的分组,他们对计算机知识有较大的学习兴趣,并且有扎实的计算机基础,这部分学生的培养可以在教学过程中针对他们所选择的技能对教学内容进行扩充,以程序设计、数据处理、网络应用为主,培养既懂专业又掌握计算机专业知识的复合型人才。对于考试成绩较高,但掌握计算机技能较少的分组,主要采用启发式教学方法,拓宽学生的视野,侧重于提高与学生自己专业相关的计算机知识的学习兴趣,为以后的工作科研做知识储备。对于分组中学习成绩中等及偏下的同学以加强基础知识与动手实验能力为主,运用多种教学手段提高学生的学习兴趣,循序渐进地使学生能够牢固掌握所学知识。
将K-prototypes聚类引入到分层次教学分组之中,把学生计算机技能的差异作为分类属性,同时把计算基础考试成绩作为数值属性,进行混合聚类分组,这样既考虑到学生的学习能力,又兼顾了学生的学习兴趣和取向,达到因材施教的教学要求。运用VC6.0++开发出基于混合聚类的教学分组计算机程序,该程序可以嵌入到教学管理系统当中,从而方便对学生的教学教务进行统一管理。
[1] 孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,16(1):48-61.
[2] Barbara D,Chen P.Using Self-similarity to Cluster Large Datasets[J].Data Mining and Knowledge Discovery,2003,7(2):123-152.