基于AP聚类分析的学生成绩评价研究

2015-07-26 02:29王平
微型电脑应用 2015年8期
关键词:聚类中心算法

王平

基于AP聚类分析的学生成绩评价研究

王平

高校数据中心中存储了大量的学生成绩数据,开展深入的数据挖掘分析对于提高教学质量具有重要意义,因此,提出了一种基于仿射传播(AP)聚类的学生成绩评价方法。首先,对数据进行预处理,然后,利用仿射传播聚类技术对数据进行自动聚类分析,获得学生成绩的聚类中心和分布情况,以此为基础给出学生成绩的合理评价。通过对某专业第一学期学生成绩的分析结果表明,其方法能够更为合理的评价学生的成绩分布情况,有助于教学质量的提高和改善。

仿射传播;聚类分析;综合评价;学生成绩分析

0 引言

近年来,随着高校信息化建设的深入开展,高校数据中心中存储了越来越多的教学数据。然而,目前的信息化建设往往侧重于教学数据的收集、报表和存储,忽视对这些数据的自动深入挖掘分析。实际上,这些教学数据是教学过程信息的真实记录,反映了教学过程的实时状态,对其开展深入的数据挖掘分析具有重要意义。

学生成绩是评估教学质量和评价学生学习效果的重要依据。传统的优良等级划分制可以简便直接的划定学生成绩的分布区域,但是,无法体现不同课程之间的成绩评定差异。如何科学、合理的评价学生的成绩,为后续的学生管理和教学改进提供基础信息,是值得深入研究和思考的问题。

针对上述问题,本文提出一种基于仿射传播(AP)聚类分析的学生成绩综合分析方法。该方法通过数据预处理技术消除不同课程成绩之间的尺度差异,然后对所有学生数据进行聚类分析,获取学生成绩的聚类中心和分布情况,解读学生成绩内在的蕴含信息,进而给出学生成绩分布的合理评价。

1 目前学生成绩评价技术现状分析

目前对学生成绩的评价方式大都是依据卷面分数进行的,根据不同的分数段来划分优、良等级[1-2],例如,将划分标准统一定为成绩90分以上为优秀,80-90分为良好等。这种评价方式的优点是操作简单,易于处理,对各分数段的情况一目了然,缺点是由于划分标准统一,当所有学生成绩都偏高或都偏低的时候,再简单的以90分或80分划分优秀或良好,则有失偏颇。例如,某次考试中所有学生的成绩都低于90分,则应将划分标准进行调整,可将80分以上定为优秀。同时,上述评价方式不利于不同班级不同任课教师间的横向比较,例如,同一门课程有不同教师任教,其中某位教师要求严格、评分标准高,则可能会导致学生成绩整体偏低。如果仍然以上述简单的处理方式进行评价,不但不能合理有效的评价学生的学习情况,也不能客观公正的评价教师的教学效果。

鉴于此,近些年一些研究人员开始开展基于聚类分析的学生成绩综合评价研究。聚类分析[3]是将研究对象根据其自身属性,按照某种规律分到不同的类或者簇的统计分析技术,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的差异性。如果聚类分析的研究对象是学生成绩,那么聚类分析中的每个簇就是一个成绩群,处于每个簇中心的数据就是该成绩群的中心成绩,而这些中心成绩就可以作为学生成绩等级划分的参考标准之一。因此,基于聚类分析的学生成绩划分不再是统一标准的绝对划分,而是根据中心成绩修改标准的相对划分,评价结果会更加合理,符合实际。

目前的分析方法主要有K-means聚类分析方法、模糊C均值聚类方法等。这些算法对于离散和噪声数据比较敏感,聚类之前必须预先设定初始聚类中心和聚类数目,参数选择的好坏直接影响到聚类结果的优劣。

2 仿射传播聚类算法

仿射传播(Affinity Propagation,AP)聚类算法[4]是2007年由Frey等人在SCIENCE上提出的一种新的聚类算法。与传统的聚类算法不同,AP聚类算法无需提前指定聚类中心初值和数目,而是通过算法优化自行寻找类别中心。

该聚类算法的原理[5-8]是根据数据点之间的相似度进行聚类,其相似度的测度指标一般采用欧氏距离,相似度值越大说明点与点的距离越近。令数据集 ,n为数据点的个数, ( )为一个数据点。AP聚类算法以 n个数据点之间的相似度矩阵 为基础进行聚类,则相似度的计算公式如公式(1):

AP算法中传递两种类型的消息:吸引度r(i,k)表示从点i发送到候选聚类中心k的数值消息,反映k点作为i点的聚类中心的适合程度;归属度a(i,k)则从候选聚类中心k发送到i的数值消息,反映i点选择k作为其聚类中心的适合程度。吸引度r(i,k)与归属度a(i,k)越强,则k点作为聚类中心的可能性就越大,并且i点隶属于以k点为聚类中心的聚类的可能性也越大。AP算法通过迭代过程不断更新每一个点的吸引度和归属度值,直到产生m个高质量的聚类中心,同时,迭代次数超过最大值或者聚类中心连续多少次迭代不发生改变,此时将其余的数据点分配到相应的聚类中,这m个聚类中心即是聚类结果。吸引度r(i,k)与归属度a(i,k)如公式如(1)~(2):

在消息传递过程中有两个重要参数,其中一个是参考度p(k),它是以S矩阵的对角线上的数值s(k,k)作为k点能否成为聚类中心的评判标准,该值越大,这个点成为聚类中心的可能性也就越大,聚类的数量也会受到参考度p(k)的影响。如果取相似度的均值作为p(k)的值,得到聚类数量是中等的。如果取相似度的最小值,就会得到类数较少的聚类。如果认为每个数据点都有可能作为聚类中心,那么p就应该取相同的值。

由公式(2)-(4)可以看出,当 较大使得 较大时, 也较大,从而类代表k作为最终聚类中心的可能性较大。因此,增大或减小 可以增加或减少AP输出的聚类数目。

消息传递过程中的另一个重要参数是阻尼因子 ,它在迭代过程中针对r与a的更新,改进收敛性。每次迭代,吸引度 和归属度 要与上一次的 和 进行加权更新。如公式如(5)、(5):

3 应用分析

3.1 数据采集

从学校信息化建设的共享数据库中抽取我校2011级某专业4个班级121位学生在大学第一学期的课程成绩数据进行分析,如表1所示:

表1 某专业大一学生的第一学期成绩

3.2 数据的预处理

在一般的成绩统计评价中,人们习惯使用原始卷面分数来评价学生的课程成绩。然而,原始卷面成绩具有绝对性,即不同课程相同成绩可能代表了不同的学生能力,所以原始成绩无法真实反映某学生个体在学生群体中的差异性。如两门课程A、B平均分分别为70、80,如果某学生两门课程的成绩均为75分,显而易见,该学生在A课程的评价等级应该高于B课程,这是从原始卷面成绩上反应不出来的。这个问题是由不同课程的考评尺度不一致而决定的,所以在对学生成绩进行评价时有必要进行一定的预处理。

本文采用的数据预处理如公式(8):

公式(8)中, 、 分别为某学生的原始成绩、标准化成绩, 、 为原始成绩的样本均值和样本标准差。

3.3 AP聚类结果

将AP聚类算法应用于学生成绩的评价分析中,具体工作过程如下:先计算n个点之间的相似度,将该值放在S矩阵中,再合理选取p值,并设置一个最大迭代次数(文中设默认值为1000),迭代过程开始后,计算每一次的r值和a值,根据 与 之和来判断是否为聚类中心(文中指定当 时认为是一个聚类中心)。

以体育课和高等数学课的成绩为例,使用AP聚类算法后,结果分别如表1和表2所示:

表1 体育AP聚类结果

表2 高等数学AP聚类结果

3.4 对比结果讨论

对体育课和高等数学课的成绩进行等级分类,结果如表3和表4所示:

表3 体育等级分类结果

表4 高等数学等级分类结果

从表3可以看出,体育课的成绩普遍偏高,所有人的成绩都在70分以上。从表4可以看出,高等数学课的成绩分布相对宽泛,70分以下有40人。因此,同样的分数对于高等数学和体育课具有不同的评价意义。如某同学体育课为80分,高等数学也为80分。按照传统的等级划分法,该同学的两门课均为B类,这明显是不合理的,因为100多人的体育课成绩高于80分,只有50人的高数课成绩高于80分。单纯的以分数绝对值衡量某同学的学习过程和结果显然是不合理的。

按照AP聚类结果,体育课成绩80分只能划到D类中,高等数学课成绩80分却可以划到B类中,这个结果明显更为合理。因此,经过AP聚类算法处理后,能够更加准确合理的描述成绩的分布情况。

利用AP聚类分析不但可以对单门课程的成绩进行合理评价,还可以对多门课程成绩进行关联分析。以高等数学和英语为例,将这两门课联合在一起进行聚类分析。我们可以发现聚类结果也有5种情形,如表5所示:

表5 综合考虑两门课程的AP聚类结果

A类学生数学和外语成绩均比较理想,占总人数的19.01%;B类学生数学较好,但是外语略差,占总人数25.62%;C类学生数学较差,外语较好,占总人数21.49%;D类学生数学稍好,但是外语非常不好,占总人数15.7%;E类学生数学外语都比较差,占总人数 18.18%。在后续的学生管理中,教学辅导员和指导教师应该更加关注D类和E类的学习情况。

4 总结

本文基于AP聚类算法对学生成绩进行评价,通过分析得出此方法可有效消除不同课程成绩之间的尺度差异,获得的评价结果更为客观、合理。与传统的聚类算法不同,AP聚类算法无需提前指定聚类中心初值和数目,而是通过算法优化自行寻找类别中心,它能在很短的时间内发现带有更低误差的聚类结果。在学生原始卷面成绩一样或者差别较小的情况下,也可以根据成绩分布情况合理的进行评价,解决了不同任课教师标准不一带来的评价不公的问题。

[1] 樊同科,孙姜燕.基于数据挖掘的高校学生学习成绩分析应用研究[J].计算机与现代化,2013,(3):82-84.

[2] 于宁.聚类分析方法在学生信息管理系统中的应用[D].青岛:中国海洋大学,2010:45-51.

[3] 张秀梅,王涛.模糊聚类分析方法在学生成绩评价中的应用[J].渤海大学学报(自然科版),2007,28(2):169-172.

[4] FreyBJ,DueckD.Clustering by passing messages between data points[J].Science,2007,315(5814):972-976.

[5] 李雅芹,杨慧中.基于仿射传播聚类和高斯过程的多模型建模方法[J].计算机与应用化学,2010,27(1):51-54.

[6] 赵健,唐洁,谢瑜.仿射传播算法在图像聚类应用中的实现与分析[J].计算机应用研究,2012,29(10):3980-3982.

[7] 王羡慧,覃征,张选平,高洪江.采用仿射传播的聚类集成算法[J].西安交通大学学报,2011,45(8):1-6.

[8] 王开军,张军英,李丹,张新娜,郭涛.自适应仿射传播聚类[J].自动化学报,2007,33(12):1242-1246.

TP311 文献标志码:A

1007-757X(2015)08-0057-02

王 平(1979-),女,山东威海人,中国石油大学(华东),网络及教育技术中心,工程师,硕士,研究方向:网络信息化,数据挖掘,青岛,266580

猜你喜欢
聚类中心算法
剪掉和中心无关的
在打造“两个中心”中彰显统战担当作为
基于MapReduce的改进Eclat算法
基于K-means聚类的车-地无线通信场强研究
Travellng thg World Full—time for Rree
进位加法的两种算法
别让托养中心成“死亡中心”
基于高斯混合聚类的阵列干涉SAR三维成像
一种改进的整周模糊度去相关算法
基于Spark平台的K-means聚类算法改进及并行化实现