葛佶莛
摘 要:学生成绩评价对教学管理具有监督性和指导性的重要意义,然而基于绝对分数来评价分析的传统方法存在一定的缺陷,不能充分反映学生成绩中蕴涵的信息,使学生成绩评价对教学管理的影响受限。针对这一问题,本文采用k-means聚类算法研究学生成绩,并通过实证分析,验证了隐藏在成绩数据中的内在信息对评价学生成绩的重要性,从而为教学管理提供了有利的依据。
关键词:学生成绩评价;教学管理;聚类算法;k-means
中图分类号:G434 文献标志码:A 文章编号:1673-8454(2014)13-0075-04
一、引言
在学校教育中,考试与教学不可分割,考试成绩扮演着检验学生学习情况和状态的重要角色。因此,成绩评价对于检测和监控教育质量、引导教师的教学行为,督促学生积极努力地学习是非常有必要的。现在,学校里拥有各种系统和各类数据库,积累了大量的学生成绩数据,但是由于工作人员缺乏相关挖掘知识和技术,只能通过Excel工具的简单统计获得少量信息,隐藏在这些大量数据中的信息不能得到应用。因此,如何利用学生前期的考试成绩数据进行统计分析对提高学生的知识水平有着至关重要的意义。面对这一挑战,数据挖掘技术应运而生,并逐渐显示出了强大的生命力,[1]作为数据挖掘的重要算法,k-means算法是一种硬聚类方法,即在n维的欧几里得空间把n个样本数据分成k类。[2]由于k-means聚类算法对噪声和孤立点敏感以及对处理大数据集非常有效的特点,[3]本文将k-means算法应用于成绩分析,从而全面地分析学生考试结果。
本文所引用的文献一阐述了成绩管理的作用、现状以及现有成绩管理的不足,并说明了决策树算法及粗糙集理论在成绩管理中的作用;文献二介绍了k-means聚类算法,并在此基础上提出了一种改进的遗传k-means聚类算法;文献三在分析k-means聚类算法优缺点的基础上进行改进,并通过实验比较了改进算法与原算法的优劣;文献四介绍了典型的数据预处理技术,实现了一种基于日志请求的参考文件的启发式会话识别算法。
论文利用k-means聚类算法对学生的成绩进行评价、统计和分析,从而确定学生的学业成绩在一个群体中所处的相对位置,为提高学生的成绩做准备,为教学工作提供反馈信息,并采取针对性的补救措施,从而进一步提高学校的教学质量。
二、基于聚类算法的成绩评价方案
1.总体设计方案
本论文将按图1所示,设计总体方案。同时论文将选用所在学院的成绩数据库,成绩数据库中包括了学生所有课程的考试成绩。
第一步,数据采集,为了保证数据的完整性和准确性,首先必须做好原始数据的选择和整理工作,本文选取学院某个年级的学生在某一学期的课程成绩。
第二步,数据预处理,数据预处理是一个逐步深入、由表及里的过程,经过数据审查、数据清理、数据转换和数据验证四大步骤对数据进行预处理,解决数据冲突和数据不一致等问题,最终形成一份学生成绩表。[4]
第三步,执行聚类算法在确定挖掘任务后,通过编写k-means聚类算法在matlab程序代码,实现k-means在学生成绩分析上的处理。
第四步,聚类结果评价,对聚类结果所发现的信息进行解释和评价。采用k-means聚类算法后,在学生成绩评价中,每一个类就是一个成绩群,不同的类相应地对各个成绩群进行了划分,也相应地给出了不同成绩群的中心成绩,这些中心成绩就是学生成绩划分参考标准之一。
第五步,提出针对策略,将挖掘出来的信息提供给教学决策者,调整教学策略,进一步指导教学工作,提高学生成绩。
2.基于k-means的算法设计原理
图2给出了K-means算法研究学生成绩的流程,在整个设计流程中,存在两个关键问题,分别是成绩的表示和成绩的距离计算,对于第一个问题,论文将每个学生各科目的考试成绩看做q维向量,记作xi=(x1i,x2i,…,xqi),(i=1,2,…,n),其中xki表示学生编号为i的第k门科目的成绩,成绩采用百分制,并根据不同的科目赋予不同的权重。对于第二个问题,论文采用欧式加权距离来定义学生成绩之间的距离,将聚类组数设为P,cj(j=1,2,…,p)为聚类中心,则成绩到聚类中心的距离可以用公式表示为:
xi-cj=■,(1≤j≤p)(1)
其中,q为粒子的属性组成的维数,?諼k为各属性的权值;
对所有学生的各科成绩进行分组聚类的K-means聚类算法的具体步骤如下:
Step1:设学生成绩集为Q=(x1,x2,…xn-1,xn),其中xi=(x1i,x2i,…,xqi);
Step2:随机选取每个类里的一个粒子作为初始聚类中心c1,c2,…,cP;
Step3:根据公式(2)将学生成绩集Q中的对象xi(i=1,2,…,n)依次按欧式平均距离分配给距离最近的中心cj(j=1,2,…,p)。
xi-cj=min(■),(1≤j≤p)(2)
其中,q为粒子的属性组成的维数,?諼k为各属性的权值;
Step4:按公式(3)计算P个聚类新的中心cj(j=1,2,…,P)。
cj=■■xi,j=1,2,…,P(3)
其中,Nj为第j个聚类Sj中所包含的粒子个数;
Step5:如果各个聚类中心cj(j=1,2,…,p)不再变化,否则结束,否则返回Step3。
3.基于成绩评价的学生管理策略
在论文设计方案中,将学生(其中不包含不及格需要补考的学生)分为四类,分别是优秀、良好、中等、偏差,并从自我发展和教学管理两方面向不同类别的学生提出了建议性策略。(见表1)endprint
三、实证分析
1.实例描述与成绩评价过程
第一步:数据采集
通过学院提供的数据库,选取某个年级的学生在某一学期的课程成绩。学生该学期均有8门功课,分别是信息资源管理、概率论、会计学、口语、工程力学、毛概、体育、数学实验,依次对应的加权是0.2、0.2、0.2、0.1、0.1、0.1、0.05、0.05,学生成绩均为百分制,随机选择200名学生的成绩形成一张原始成绩单。
第二步:数据预处理
论文将200名学生原始成绩单集成为一张成绩单。通过数据处理,使表中的每一个数据都是唯一和没有疑义的,同时对空白数据进行填补或者删除。首先考虑到数据库中存在“0分”异常数据会对k-means算法造成很大的影响,因此本论文不将其考虑在研究范围内。同时,通过Excel工具将成绩小于60分的选出,所对应的该学生成绩也不采取k-means算法进行处理,因为成绩一旦低于60分,该学生要进行补考,相应分数也会做更改处理。本论文数据采集的200名学生中一共有10人出现挂科情况,接下来会对剩下的190名学生的考试成绩做k-means算法处理。
第三步:k-means算法对学生成绩进行分析处理
确定聚类个数k值,聚类个数要接近于所用的聚类变量的个数,本次实验选取k=4。通过数据初始中心分析,随机选择几个学生的学习成绩作为初始聚类中心,通过matlab算法实现。
实验结果可视化:(见图3-图7)
2.实证结果分析
(1)由图3可知,第二类学生成绩为优秀,第一类学生成绩为良好,第三类学生成绩为中等,第四类学生成绩为偏差。通过计算,优秀和良好的人数占总人数的47%,中等和偏差的人数占总人数的48%,其余为存在挂科学生的比例,说明本文随机选取的这个专业整体的学习状态有待进步,相关教职人员和教师应该采取必要的措施提高学生学习的积极性。同时,通过分析研究还可以发现,每一科学生成绩随中心的变化都会影响整体成绩的分布情况,特别是像会计学、概率论、信息资源管理等加权比较重的科目。
(2)如图4、5、6、7所示,距离第二个聚类中心更近的21名学生聚成一类;距离第三个聚类中心更近的52名学生聚成一类;距离第四个聚类中心更近的44名学生聚成一类;距离第一个聚类中心更近的73名学生聚成一类。从中可以看出相近的成绩都被划分到了同一类,从而弥补了传统划分方法“在学生成绩差别不大的情况下,经过划分后结果可能相差很大”的缺陷。
(3)聚类分析技术的应用不仅可以使190名学生清楚自己相对于整体成绩的位置,还可以体现某类学生某些学科的不足,从而提醒教学人员针对性地采取相应的措施,实验结果可以为教学人员制定出有针对性的解决办法提供依据,从而提高学生后期的学习成绩。
四、结论
本文研究k-means聚类算法在学生成绩评价分析中的应用。通过对数据的预处理,采用k-means算法,利用matlab工具对数据进行处理分析,弥补了传统统计方法的缺陷。并针对不同类型的学生,给出了学生自我发展策略和教学管理策略,从而为后期提高学生成绩和教学质量做准备。
参考文献:
[1]谭庆.基于k-means聚类算法的试卷成绩分析研究[J].河南大学学报(自然科学版),2009,39(4): 412-415.
[2]刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111.
[3]周爱武,于亚飞. k-means聚类算法的研究[J].计算机技术与发展,2011,21(2):61-65.
[4]张丽伟,李礼.Web 挖掘中数据预处理技术研究[J].电脑知识与技术,2010,6(15): 4324-4325.
(编辑:王天鹏)endprint
三、实证分析
1.实例描述与成绩评价过程
第一步:数据采集
通过学院提供的数据库,选取某个年级的学生在某一学期的课程成绩。学生该学期均有8门功课,分别是信息资源管理、概率论、会计学、口语、工程力学、毛概、体育、数学实验,依次对应的加权是0.2、0.2、0.2、0.1、0.1、0.1、0.05、0.05,学生成绩均为百分制,随机选择200名学生的成绩形成一张原始成绩单。
第二步:数据预处理
论文将200名学生原始成绩单集成为一张成绩单。通过数据处理,使表中的每一个数据都是唯一和没有疑义的,同时对空白数据进行填补或者删除。首先考虑到数据库中存在“0分”异常数据会对k-means算法造成很大的影响,因此本论文不将其考虑在研究范围内。同时,通过Excel工具将成绩小于60分的选出,所对应的该学生成绩也不采取k-means算法进行处理,因为成绩一旦低于60分,该学生要进行补考,相应分数也会做更改处理。本论文数据采集的200名学生中一共有10人出现挂科情况,接下来会对剩下的190名学生的考试成绩做k-means算法处理。
第三步:k-means算法对学生成绩进行分析处理
确定聚类个数k值,聚类个数要接近于所用的聚类变量的个数,本次实验选取k=4。通过数据初始中心分析,随机选择几个学生的学习成绩作为初始聚类中心,通过matlab算法实现。
实验结果可视化:(见图3-图7)
2.实证结果分析
(1)由图3可知,第二类学生成绩为优秀,第一类学生成绩为良好,第三类学生成绩为中等,第四类学生成绩为偏差。通过计算,优秀和良好的人数占总人数的47%,中等和偏差的人数占总人数的48%,其余为存在挂科学生的比例,说明本文随机选取的这个专业整体的学习状态有待进步,相关教职人员和教师应该采取必要的措施提高学生学习的积极性。同时,通过分析研究还可以发现,每一科学生成绩随中心的变化都会影响整体成绩的分布情况,特别是像会计学、概率论、信息资源管理等加权比较重的科目。
(2)如图4、5、6、7所示,距离第二个聚类中心更近的21名学生聚成一类;距离第三个聚类中心更近的52名学生聚成一类;距离第四个聚类中心更近的44名学生聚成一类;距离第一个聚类中心更近的73名学生聚成一类。从中可以看出相近的成绩都被划分到了同一类,从而弥补了传统划分方法“在学生成绩差别不大的情况下,经过划分后结果可能相差很大”的缺陷。
(3)聚类分析技术的应用不仅可以使190名学生清楚自己相对于整体成绩的位置,还可以体现某类学生某些学科的不足,从而提醒教学人员针对性地采取相应的措施,实验结果可以为教学人员制定出有针对性的解决办法提供依据,从而提高学生后期的学习成绩。
四、结论
本文研究k-means聚类算法在学生成绩评价分析中的应用。通过对数据的预处理,采用k-means算法,利用matlab工具对数据进行处理分析,弥补了传统统计方法的缺陷。并针对不同类型的学生,给出了学生自我发展策略和教学管理策略,从而为后期提高学生成绩和教学质量做准备。
参考文献:
[1]谭庆.基于k-means聚类算法的试卷成绩分析研究[J].河南大学学报(自然科学版),2009,39(4): 412-415.
[2]刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111.
[3]周爱武,于亚飞. k-means聚类算法的研究[J].计算机技术与发展,2011,21(2):61-65.
[4]张丽伟,李礼.Web 挖掘中数据预处理技术研究[J].电脑知识与技术,2010,6(15): 4324-4325.
(编辑:王天鹏)endprint
三、实证分析
1.实例描述与成绩评价过程
第一步:数据采集
通过学院提供的数据库,选取某个年级的学生在某一学期的课程成绩。学生该学期均有8门功课,分别是信息资源管理、概率论、会计学、口语、工程力学、毛概、体育、数学实验,依次对应的加权是0.2、0.2、0.2、0.1、0.1、0.1、0.05、0.05,学生成绩均为百分制,随机选择200名学生的成绩形成一张原始成绩单。
第二步:数据预处理
论文将200名学生原始成绩单集成为一张成绩单。通过数据处理,使表中的每一个数据都是唯一和没有疑义的,同时对空白数据进行填补或者删除。首先考虑到数据库中存在“0分”异常数据会对k-means算法造成很大的影响,因此本论文不将其考虑在研究范围内。同时,通过Excel工具将成绩小于60分的选出,所对应的该学生成绩也不采取k-means算法进行处理,因为成绩一旦低于60分,该学生要进行补考,相应分数也会做更改处理。本论文数据采集的200名学生中一共有10人出现挂科情况,接下来会对剩下的190名学生的考试成绩做k-means算法处理。
第三步:k-means算法对学生成绩进行分析处理
确定聚类个数k值,聚类个数要接近于所用的聚类变量的个数,本次实验选取k=4。通过数据初始中心分析,随机选择几个学生的学习成绩作为初始聚类中心,通过matlab算法实现。
实验结果可视化:(见图3-图7)
2.实证结果分析
(1)由图3可知,第二类学生成绩为优秀,第一类学生成绩为良好,第三类学生成绩为中等,第四类学生成绩为偏差。通过计算,优秀和良好的人数占总人数的47%,中等和偏差的人数占总人数的48%,其余为存在挂科学生的比例,说明本文随机选取的这个专业整体的学习状态有待进步,相关教职人员和教师应该采取必要的措施提高学生学习的积极性。同时,通过分析研究还可以发现,每一科学生成绩随中心的变化都会影响整体成绩的分布情况,特别是像会计学、概率论、信息资源管理等加权比较重的科目。
(2)如图4、5、6、7所示,距离第二个聚类中心更近的21名学生聚成一类;距离第三个聚类中心更近的52名学生聚成一类;距离第四个聚类中心更近的44名学生聚成一类;距离第一个聚类中心更近的73名学生聚成一类。从中可以看出相近的成绩都被划分到了同一类,从而弥补了传统划分方法“在学生成绩差别不大的情况下,经过划分后结果可能相差很大”的缺陷。
(3)聚类分析技术的应用不仅可以使190名学生清楚自己相对于整体成绩的位置,还可以体现某类学生某些学科的不足,从而提醒教学人员针对性地采取相应的措施,实验结果可以为教学人员制定出有针对性的解决办法提供依据,从而提高学生后期的学习成绩。
四、结论
本文研究k-means聚类算法在学生成绩评价分析中的应用。通过对数据的预处理,采用k-means算法,利用matlab工具对数据进行处理分析,弥补了传统统计方法的缺陷。并针对不同类型的学生,给出了学生自我发展策略和教学管理策略,从而为后期提高学生成绩和教学质量做准备。
参考文献:
[1]谭庆.基于k-means聚类算法的试卷成绩分析研究[J].河南大学学报(自然科学版),2009,39(4): 412-415.
[2]刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111.
[3]周爱武,于亚飞. k-means聚类算法的研究[J].计算机技术与发展,2011,21(2):61-65.
[4]张丽伟,李礼.Web 挖掘中数据预处理技术研究[J].电脑知识与技术,2010,6(15): 4324-4325.
(编辑:王天鹏)endprint