基于SPSS的统计专业学生能力倾向聚类分析

2013-05-14 08:41陈宇潘莹莹王娴祖冠群孙晓松艾玉波
卷宗 2013年11期
关键词:聚类程度个体

陈宇 潘莹莹 王娴 祖冠群 孙晓松 艾玉波

摘 要:文中利用SPSS软件对统计专业学生的成绩进行聚类分析,将学生分为四类,分析了每类学生的能力倾向,并进行了相应的就业指导。

关键字:SPSS;聚类分析;能力倾向;就业指导

注:本文为江苏省2013年大学生实践创新项目论文。

1 聚类分析原理

聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部个体特征具有相似性,不同类个体特征的差异性较大。

聚类分析中,个体之间的“亲疏程度”是极为重要的,它将直接影响最终的聚类结果。对“亲疏程度”的测度一般有两个角度:第一,个体间的相似程度;第二,个体间的差异程度。衡量个体间的相似程度通常可采用简单相关系数或等级相关系数等。个体间的差异程度通常通过某种距离来测度。

定义个体间距离的方法也有很多,比如:欧氏距离、平方欧氏距离、切比雪夫距离、Block距离、明考斯基距离等。

常见的聚类分析方法有层次聚类和K-Means聚类。

2 数据来源

本文选取了08级统计班31名学生的24门主干课程,分别为:思想道德修养与法律基础、大学生体育、统计学原理、微积分、政治经济学、心理健康教育、线性代数、大学英语、应用统计学、国民经济统计学、线性规划、普通话口语、统计预测与决策、统计信息管理、管理信息系统、调查数据分析、统计实务、概率论与数理统计、运筹学、抽样技术、企业经济统计学、财务管理、SPSS在统计中的应用、消费者行为学。

将这24门课程的成绩输入SPSS19.0软件对其进行聚类分析。

3 实证检验

本文采用层次聚类方法进行聚类分析,那么,在衡量数据间的亲疏程度时涉及两个方面的问题,一是度量个体间的亲疏程度,本文采用平方欧氏距离;二是度量个体与小类之间、小类和小类之间的亲疏程度,这方面的度量也是通过距离来测度的,并且,这里的距离是在个体间距离的基础上定义的,常见的距离有最近邻居距离、最远邻居距离、组间平均链锁、组内平均链锁、重心距离和离差平方和法。本文的类间距离采用平均组间链锁距离。

并且,因为数据不存在数量级上的差异,因此无须进行标准化处理。

3.1 聚类分析树形图

聚类分析的树形图如图1所示。

从树形图可以看出:全班31名同学可以分成四类,周利静、朱潇潇、夏玉涛这三位同学为一类,郭勇一人为一类,夏正娟、杨欢为一类,剩余25位同学为一类。

3.2 各类别能力倾向分析

图1 生成的聚类分析树形图

通过比较各类别的成绩,解释各类别的学生能力倾向特点。

各类别的成绩分布如表1所示。(考虑到页面的限制,表1的课程只列举了其中的一部分。)

从表1的成绩,可以得到如下的分析结果:

第一类:有周利静、朱潇潇、夏玉涛三位同学。这三名学生各科成绩都普遍不错,有多门功课成绩都是名列前茅,总平均成绩也是全班的前三名。她们是各科普遍优秀的典型代表,因此可以定义她们为“优秀型学生”。

第二类:有陈佩佩等25位同学,是最大的一个类别。从成绩看,他们的各科成绩比较平均。基本上没有特别好的也没有特别差的,都维持在中游的水平,因此可以定义他们为“良好型学生”。

第三类:只有郭勇一位同学。他的成绩没有高分但也没有不及格的,但是纵向比较可以看出,比如他的《大学英语》课程,考了68分,但是排在班级倒数第二,再比如说,《统计信息管理》课程,考了63分,全班倒数第一。因此,虽然他的总平均分也能达到75分,但他跟第二类的同学们显然还是有差距的。因此,可以定义他为“合格型学生”。

第四类:有夏正娟和杨欢两位同学。这两位同学都存在着课程不及格现象,夏正娟的《应用统计学》和《国民经济统计学》两门课程不及格,杨欢《应用统计学》和《统计实务》不及格,且不及格成绩很低。他们都属于统计学方面的应用实务方面掌握得很差。因此可以定义她们为“不及格学生”。

3.3 相应就业指导

对于“优秀型学生”,不论是理论、实践还是技能操作,她们都能够胜任。应该努力培养她们成为统计工作岗位的骨干力量。

对于“良好型学生”,他们具备良好的统计知识和技能,只是学得不太精,这部分同学应该根据自身爱好,发挥各自所长,培养成为统计工作岗位的技术能手。

对于“合格型学生”,他的统计专业素养不是很好,但他的统计软件动手操作能力不错,建议在统计工作岗位中成长为数据分析软件能手。但要想走得远,必须还要进一步地重温统计专业基础知识。

对于“不合格学生”,她们的统计应用型课程存在不及格,且其他课程成绩一般,因此建议她们可以改选其他方面工作,不要拘泥在统计工作岗位上。

参考文献

[1]薛薇.基于SPSS的数据分析[M].北京:中国人民大学出版社,2006.

[2]周蕾.聚类分析在学生成绩分析中的应用[J].农业网络信息,2010(5).

[3]林治.聚类分析在学生成绩管理中的应用探析[J].福建电脑,2009(12).

[4]王亮红,宋代清,徐娜.聚类分析在学生成绩分析中的应用[J].东北电力大学学报,2009(4).

[5]刘璐,杨景明,赵会仁,李丹丹,田玉民.主成分聚类分析在学生成绩综合评价中的应用[J].辽宁工业大学学报(自然科学版),2012(3).

[6]罗家国,罗浩,仲佳嘉.基于SPSS的学生能力倾向聚类分析研究[J].高等工程教育研究,2012(6).

猜你喜欢
聚类程度个体
精致和严谨程度让人惊叹 Sonus Faber(意大利势霸)PALLADIO(帕拉迪奥)PW-562/PC-562
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
个体反思机制的缺失与救赎
一种层次初始的聚类个数自适应的聚类方法研究
断裂对油气富集程度的控制作用
自适应确定K-means算法的聚类数:以遥感图像聚类为例
幸福的程度