陆冷飞
摘 要:大数据时代,高校越来越重视从海量的学生成绩数据中分析挖掘出有用的信息,为高校的人才培养模式改革、教学改革、管理决策等提供有力的数据支撑。本文从高校学生成绩分析的现状出发,基于大数据挖掘理念,将多元统计方法引入高校成绩分析,介绍了相关分析、因子分析、聚类分析等方法在高校成绩分析中的应用,建立了高校多维成绩分析模型,并以中国药科大学2014级药物化学专业的成绩分析为例详细阐述了该模型的应用。
关键词:多元统计;数据挖掘;成绩分析;分析模型
中图分类号:G424.7 文献标志码:A 文章编号:1673-8454(2017)09-0062-04
高校学生成绩一直是直接评价学生学业水平的重要指标,也是间接评价高校教师教学效果及高校教学管理水平的指标之一。目前各高校常用的成绩分析主要集中于课程成绩总分、平均分、及格率、优秀率、方差、成绩分布曲线(柱状)图等简单的一些分析与统计,对学生的评价一般采取各科成绩加权平均后再排名,这些统计与排名能从一定程度上反映课程的教学情况及学生学习效果,但是学科的多样性、题目的难易程度、题目分值高低、教学方式、学生自身等因素对学生取得的成绩存在不同程度的影响,因此传统的成绩分析是比较片面和笼统的,不能全面反映学生各学科学习的优劣,以及学生学习的效果。本文基于大数据挖掘的理念,在成绩分析中引入多元统计分析的常用方法,构建了较为全面的高校成绩分析通用模型,基于该模型和大数据挖掘方法的应用使成绩分析比传统方法更全面、更具有指导意义。
一、成绩分析的常用方法
因学生成绩数据量巨大,要从海量的成绩数据中挖掘出隐藏、有用的信息,需采用基于大数据挖掘的数据分析方法,才能有效全面地反映学生的学习情况。常用的可应用于成绩分析的方法主要有相关性分析、因子分析、聚类分析等多元统计分析方法。
1.相关性分析
相关性分析,百度百科中的解释是研究样本对象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间相关关系的一种统计方法。根据相关分析的定义、特点以及学生成绩影响因素的多样性,可以利用相关分析方法进行学生成绩与各影响因素之间相关性的分析,揭示各因素对学生成绩的影响规律,根据发现的规律,通过对影响因素的正向干预,提高学生学习效果,促进学生学业的发展。
2.因子分析
因子分析是根据相关性大小把变量分组,使同组内的变量之间相关性较高,但不同组变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一变量。[1]由此可知,分析得出的公共因子跟原始因子是关系紧密的,公共因子能反映绝大部分原始信息,通過提取公共因子,从而简化对事物的认识与分析。在成绩分析中,比如一个学生某学科的成绩非常好,则其他成绩也非常好,这些课程之间就存在一种隐藏的共性因子关系。各专业培养方案设置是否合理,培养了学生哪些方面的能力,采用因子分析方法就能方便地得出结论,从而使对学生的评价更加合理、简单、清晰易懂。
3.聚类分析
聚类分析是一种探索性的分析方法。它是将一批样本或变量按照它们在性质上的亲疏程度加以分类,实质是按照距离远近将数据分为若干个类别, 以使类别内数据的差异尽可能小、类别间的差异尽可能大。[2]比如可以采用聚类分析方法对学生成绩进行聚类分析,根据结果反映每位学生在各方面的能力发展状况——是否有偏科、是否有某些方面特长等,便于学校开展针对性的学生学业支持与辅导工作,帮助学生弥补不足,平衡各学科的学习。
二、高校多维成绩分析模型
高校成绩分析涉及的对象、因素纷繁复杂。学生成绩一方面反映学生的学习行为及其知识掌握程度,另一方面反映专业课程设置及教师在课程教学过程中的知识传授能力和教学质量。因此,为理清影响学生成绩各因素之间的关系,明确高校成绩分析的方向,笔者建立了如图1所示的多维成绩分析模型,学生成绩分析工作可以从三个维度来进行,即以成绩本身为中心的分析、以学生为中心的分析、以课程为中心的分析。
1.以成绩为中心的分析
以成绩为中心的分析是指对成绩自身的统计规律性分析,主要是频数和直方图分析,包括峰度、偏度、最高分、最低分、平均分、标准差、方差、优良中差的频数、区分度等分析。从对某课程成绩频数和直方图的一些分析,可以得出该课程学生成绩的大致分布、试卷难易程度、区分度等信息,使教学单位对该门课程的教学有一个基本了解,为以后教学、考核评价的调整等提供决策依据。以成绩为中心的分析是目前各高校最基本、最常规的成绩分析模型,各高校一般明确规定教研室或任课教师在期末考试成绩录入之后,就要对课程成绩进行频数和直方图的分析,结合试卷分析,最后得出结论并书面存档。
2.以课程为中心的成绩分析
课堂教学的四大要素是学生、教师、教学内容、教学媒体。课堂教学中课堂的组织形式、教师的教学、教学媒体的选择等都是为课程内容服务的,即它们提供给学生学习的一切有利内容和条件。因此课堂教学中除学生之外的三大要素均可以归纳为课程这一要素,以课程为中心的成绩分析是指从课程各要素出发,采用大数据分析方法进行成绩分析,包括分析课程知识点的难易程度不同、任课教师不同、上课对象不同、教学内容呈现的媒介不同、教师教学方法和教学模式不同、考试难度不同、评价方式不同(总结性评价还是过程性评价)等对学生课程成绩或知识掌握程度的影响。
以课程为中心的成绩分析模型能够真实反映课程教学内容设置、教师教学方法、教学模式等因素对学生学习效果产生的影响,因此能够为学校的专业培养方案设置以及课程内容改革、教学方法改革、师资配置等提供良好的决策参考。
3.以学生为中心的成绩分析
以学生为中心的成绩分析是指从学生角度出发,分析学生个人特性、学习习惯等方面的特征和行为与课程成绩之间的关系,以及学生个体各方面能力的发展情况。比如分析学生的个性、上网行为、图书借阅行为等对课程成绩的影响;学生的民族、地域、生源地分布与课程成绩之间的关系、学生的学习过程努力程度、考勤等对课程成绩的影响;分析学生所有课程成绩之间的关系,找出公共能力因子,分析得出学生各项能力的发展,并根据其聚类结果对学生进行分类,评估每位学生各项能力(德智体)如研究能力、实践能力、身体素质等的发展情况,分析专业培养方案设置的合理性,确定对学习困难生的帮扶辅导计划等。
上述模型中三个维度的成绩分析基本涵盖了学生成绩分析的各方面因素,它们各自侧重点不同,可以单独进行,也可以联合进行。在实际的成绩分析中,想要通过成绩挖掘出教与学各方面较为全面的隐性知识,通常需要涉及多个维度的成绩分析,它们相互联系、相互影响。
三、以學生为中心的成绩分析应用
以中国药科大学2014级药物化学专业34门必修课成绩为例进行成绩分析,使用SPSS 22.0统计软件,利用因子分析、聚类分析的统计方法对成绩数据进行挖掘,旨在分析出有利于教学管理和学生评价的有效信息。
1.数据准备
以2014级药物化学专业大一至大三共计6个学期的必修课成绩及加权平均分为样本,删除几名留级学生之后,共87名学生,35门必修课。课程包括程序设计语言、大学英语(一)、大学英语(二)、大学英语(三)、大学英语(四)、分析化学(上)、分析化学(下)、分析化学实验(上)、分析化学实验(下)、高等数学(一)、高等数学(二)、计算机应用基础、马克思主义基本原理概论、毛泽东思想和中国特色社会主义理论体系概论、生物化学与分子生物学、生物化学与分子生物学实验、数理统计、思想道德修养与法律基础、体育(一)、体育(二)、体育(三)、体育(四)、无机化学、无机化学实验、物理化学(上)、物理化学(下)、物理化学实验、物理学(一)、物理学(二)、物理学实验、有机化学(一)、有机化学(二)、有机化学实验(一)、有机化学实验(二)、中国近现代史纲要。成绩为缺考的科目以0分计。
2.因子分析
用SPSS22.0打开学生成绩表,进入“分析-降维-因子分析”菜单,在打开的界面中分别设置相关参数。相关性矩阵选择“KMO和Bartlett的球形度检验”,因子分析抽取方法采用“主成分”分析方法,提取特征值大于1的因子旋转方法选择“最大方差法”并输出旋转解和载荷图,最后将因子得分保存为变量,确定后得到以下输出及分析结果。
(1)因子分析的可行性分析。如表1所示,KMO的结果为0.858,接近1,说明成绩变量间存在较强的相关性;Bartlett球形检验结果P值为0,小于0.01,因此该样本适合做因子分析。
(2)采用主成分分析法进行抽取和最大方差法旋转后得到的总方差解释矩阵结果如表2所示,共提取了8个特征值大于1的因子,累计方差贡献率72.165%,说明35门必修课共抽取了8个公共因子,这8个因子能解释原始变量72.165%的信息。
(3)根据旋转后的成分矩阵(略)中各门必修课在各因子上载荷值的大小,可以分析得出各因子所代表的学生习得的潜在能力,即教学培养学生各方面的能力。物理学(一)、物理学(二)、数理统计、高等数学(一)、高等数学(二)、有机化学(一)、有机化学(二)、分析化学(上)、分析化学(下)、无机化学、物理化学(上)、物理化学(下)、生物化学与分子生物学等课程在第一个因子上载荷值较高,反映的是学生在物理、数学等学科基础之上向专业基础能力发展的课程,可以将第一个因子命名为专业基础能力因子;大学英语(一)、大学英语(二)、大学英语(三)、大学英语(四)在第二个因子上载荷值较高,可以命名为英语能力因子;物理学实验、有机化学实验(—)、有机化学实验(二)、分析化学实验(上)、分析化学实验(下)、生物化学与分子生物学实验、无机化学实验、物理化学实验等实验类课程在第三和第四个因子上载荷值较高,同样的实验课分布在2个因子上,可能是因为实验的性质、内容或考核评价的方式差异导致的,可以将第三、四个因子合并命名为专业实践操作能力因子;马克思主义基本原理概论、毛泽东思想和中国特色社会主义理论体系概论、中国近现代史纲要课程在第五个因子上载荷值较高,可以命名为人文社科素养因子;体育(二)、体育(四)在第六个因子,体育(一)、体育(三)在第七个因子上载荷值较高,可以合并命名为身体素质能力因子;第八个因子只有思想道德修养与法律基础载荷值较高,可以命名为学生的思想修养与法律能力因子。至此我们可以得出中国药科大学2014级药物化学专业前3年的培养方案,从6个方面培养学生的能力,可以看出该专业的前3年培养方案较为全面地培养了学生德智体各方面的能力,能让学生得到均衡发展。
在以上分析的基础上,可以根据表2旋转载荷平方和里的方差贡献率以及综合因子得分公式计算得出每位学生的综合因子得分,根据得分进行综合排名,可以与传统的加权平均分排名进行对比,从中可发现传统排名无法反映出来的一些问题,因篇幅所限,此过程不再赘述。
3.聚类分析
在上述因子分析过程中,得到了8个反应学生成绩信息的公共因子,利用保存的8个公共因子得分系数进行聚类分析,将学生进行快速聚类,可根据最终分类进一步对学生的学业发展提供针对性的指导。
在SPSS 22.0软件中,选择“分析-分类-K平均值聚类”,进入操作界面,选择因子分析过程中保存的8个公共因子,最大迭代次数输入20,统计选项选择初始聚类中心和ANOVA表,保存每位学生的聚类及距离为变量。分别以K=2、3、4、5进行快速聚类分析,根据各输出结果中ANOVA表中的F值和显著性检验值对比分析,当K=3时,各类别之间的差异性最显著,因此将此样本分为3类比较合适。当K=3时,最终聚类中心如表3所示,每个类别中的个案数量如表4所示。
从表3、表4可以分析得出,第一类学生共45人,这类学生除人文社科素养能力、身体素养能力较弱之外,其他各方面的能力发展较为均衡,基本上不存在太多偏科现象,各学科均衡发展,属于稳定发展型人才,应该继续保持,建议适当加强人文社科素养、身体素养方面的培养。第二类学生共32人,这类学生与第一类学生恰好相反,人文社科素养与身体素养能力较强,但专业基础能力、实践操作能力等一般,需加强专业学科、英语能力等方面的学习。第三类学生人数较少,共10人,这类学生存在较明显的偏科现象,除专业基础能力的学科较好之外,其他各项能力方面的课程成绩一般,尤其英语能力、实践操作能力、身体素养能力等较差,需加强这方面课程的学习,建议校学生学业指导中心重点关注这类学生,提供必要的学业指导和支持,以促进他们能够均衡发展。
四、结束语
信息化时代,通过建立多维成绩分析模型,采用大数据挖掘方法,对学生成绩进行全面的多元统计分析,可以避免传统成绩分析存在的问题。多维成绩分析模型在高校中的应用,能使学校及时掌握学生的学习状态及能力发展水平,发现和解决教师教学和学生学习中潜在的问题,为教师开展课程内容、教学模式改革,考核评价方式改革,管理部门的教学管理、人才培养方案改革,学风建设,学业支持与辅导等工作提供数据支撑,从而提高高校教学质量和人才培养质量。
参考文献:
[1]李新蕊.主成分分析、因子分析、聚类分析的比较与应用[J].山东教育学院学报,2007(6):24.
[2]田宏,于晓秋.因子分析与聚类分析在学生成绩综合评价中的应用[J].牡丹江师范学院学报(自然科学版),2009(3):9.
(编辑:王天鹏)