张文宇++王秀秀++任露++马月
摘要:随着的多媒体教学的应用和发展,为了有效利用高校教育信息化系统中保存的大量信息,进而对教学情况进行科学合理地评估,本文提出了改进的主成分聚类分析法并构建了基于此方法的学生成绩综合评价模型。首先对原始数据集进行了变换处理,再对评价指标进行预处理,进而结合系统聚类法对综合主成分结果进行系统聚类,最后对某高校学生成绩综合评价进行了改进的模型验证。仿真结果正确可靠,表明了此方法在教育信息化中应用的有效性,最终为教育教学管理者提供了决策支持。
关键词:教育信息化;综合评价;改进主成分分析法;SPSS仿真
中图分类号:TP391.41
文献标识码:A
DOI: 10.3969/j.issn.1003-6970.2015.07.003
0 引言
教育信息化是教学改革的技术支持和强大动力,它对教育质量的提高也有着不可忽视的意义。教育信息化系统能够有效管理教育信息化过程中积累的大量信息,本文根据系统信息的采集与分类,客观地评价学生成绩的实际情况,从而更好地方便教育管理者掌握教学动态过程。
目前,数据挖掘技术中使用范围最广、频率最高的要数主成分分析法、关联规则和聚类法。与此相对应,应用于国内外的教育科研分析中的数据挖掘方法主要也是以上几种。但由于在学生成绩评价过程中指标繁多,以及指标之间存在一定程度的重叠性和干扰性,加大了评价的难度;但这些方法容易受到评价者主观因素的影响;运用单一的主成分分析法在评价样本繁多、指标复杂的问题时会造成评价结果的不合理性。因此,笔者提出采用改进的主成分聚类分析法构建综合评价模型,进行学生成绩综合评价,该模型能够客观地反映样本的实际情况,克服主观因素的影响,为教育管理者提供可靠的指导依据。
1 主成分分析的基本思想
主成分分析是指将多个变量转化为少数几个变量的过程,其中转换之后的这几个变量包含了原变量的信息,且彼此之间互相独立,通过转换之后的变量能够线性地表示原始变量。它能将原本多维的变量空间转换为较低维的综合指标问题,并将反映最大信息量的综合指标列为第一主成分,其次为第二、第三主成分。主成分的个数一般按照需要体现的原始信息的百分比来确定,得到的主成分之间是相互独立的。
传统的主成分分析法步骤如下:
设有n个样本,每个样本均有p个描述指标X1,X2,……,XP,原始数据矩阵为:X=(Xij)n*p
Stepl:标准化处理。由于选取的指标存在量纲和数量级上的差异,为了使综合评价的结果客观合理,在进行主成分分析前,需要进行无量纲化处理。一般采用均值化法进行标准化处理。
Step2:主成分分析标准化处理后的指标,得到相关系数矩阵:R=(rij)PxP。
Step3:解特征方程: ,并求特征值 和特征向量
Step4:计算各主要成分的方差贡献率ak和累计方差贡献率a(k)。其中,ak表示第k个主成分提取原始p个指标的信息量,a(k)表示前k个主成分保留的原始变量指标的信息量。
Step5:确定主成分的个数:一般取用累计贡献率达到85%以上的特征值所对应的第一、第二、…、第m个主成分。
Step6:计算前m个主成分的得分。其中,
2 改进的主成分聚类分析方法
采用主成分分析方法进行数据挖掘时,获得的原始数据集可能存在非线性关系,或者样本之间的数量级不统一,为了保证原始数据集的完整性以及分析结果的可靠性,改进的主成分聚类分析法首先对原始数据集进行了变换处理,在此基础上通过标准化、均值化或极值化统一量纲或数量级。
2.1 对非线性数据的线性化处理
主成分分析法的原理是利用降维思想将多个指标转换为几个综合指标。传统的方法采用的是线性变换,但是在实际问题研究时,如果样本指标变量间的相关性不高,主成分的降维效果也不明显,为了保证原始数据的完整性以及综合评价模型的可靠性,需要对变量可能存在非线性关系的原始数据样本进行变换处理,本文采用对数中心变换法进行源数据的处理。该方法可理解为对源数据的“几何平均合成”后的对数表示0。
2.2 评价指标的预处理
利用主成分分析方法来做综合评价的原理是通过样本数据的协方差或是相关系数矩阵来分析源数据的主成分,进而据此尽可能多的反映原变量的信息。然而无论是协方差还是相关系数矩阵都很容易受到指标数量级以及量纲的影响,所以如何选择合适的方法来预处理原始信息就显得尤为重要,但这同时就削弱了源数据中各样本的差异性,针对以上这个问题本文首先从评价指标的预处理方面来改进主成分分析方法。
对原始数据矩阵进行的无量纲化处理后的数据矩阵可以表示为 和 分别为指标矩阵对应的方差, 为指标所对应的相关系数,其中相关系数的计算公式为:
原始指标之间的相互关系依赖于原指标的相关系数,而在本文中,经过数据的极值化变换、均值化变换以及标准化变换,使得原指标相关系数未发生改变,因而原始指标之间的相互关系也因此未发生变化。因此采取以下方法来选取主成分原始指标的处理方法。
令A为选取主成分原始指标处理方法的函数,其中a1、a2、a3分别表示数据标准化值、数据均值化值、数据极值化值,则
(1)数据的标准化处理
令 ,得到标准化处理后的相关系数矩阵为:
(2)数据的均值化的处理:
令 ,于是得到均值化处理后的相关系数为:
通过均值化处理各指标间的相关系数不会发生改变,因此选取均值化方法处理源数据可以在保证数据无量纲的同时原始数据的变异程度不会发生变化,可以更生动地反映数据样本的实际情况。
通过均值化处理,数量级和量纲对指标的影响不仅得到了消除,同时还使得样本的所有信息得到了保留。
令 ,则可得出相关系数矩阵:
2.3 综合评价聚类分析
本论文构建综合评价模型时采用改进的主成分聚类分析法,首先利用主成分分析法降低原始指标的维度,得出相互独立的主成分,再对其结果进行聚类分析,通过这两种方法的结合可以有效避免单一方法评价的不合理性。
系统聚类法是一种多元统计方法,它将变量或者样品按照其性质上的相似关系进行分类从而分析评价变量。它的优点是可以得到良好的分类结果在不了解分类对象的分类结构的情况下,且这些划分出来的子集中的点都高度的内在相似。然而其主要的缺陷是无法对各类之间的优劣程度进行评价。而主成分分析法却可以较轻松地综合评价多指标体系在仅有少量数据的前提下,但其缺点是仅使用q个主成分对系统进行全面评价并不客观,在实践中无法避免其片面性,因而评价结果与事实或多或少会出现差距。基于两者的特点,在对系统进行综合评价时可以将这两种方法结合起来使用。
本文中,首先采用“对数中心变换法”的主成分分析法来对原始数据信息进行分析,然后利用聚类方法来分析若干个主成分,再对样品在每个聚类类别进行分类排序并参照q个主成分的排序结果的改进的主成分聚类分析方法对系统进行综合评价。
本文采用离差平方和法对选定的新数据进行聚类分析。离差平方和法是在分类正确的情况下,不同类样本之间的离差平方和S较大,而同类样本之间的离差平法和则较小。基本的步骤是首先视n个样本为一类,然后逐次缩小类的数量。类的个数每缩小一次,S的值就应该增大,然后再逐次合并使S增加最小的两类,以此类推直至所有样本被归类完毕。然后计算每类变量的所有均值,接着计算每个样本的类均值距离平方,最后再求得所有样本的距离之和。
假定n个样本被分为k类,分别为G1,G2.,.,Gk,nt表示类Gt中样本的个数,xit表示Gt中的第i个样本的变量指标值向量,xt表示Gt的重心,则Gt中样本的离差平均和公式和全部类内离差平方和公式分别如下所示:
在实践应用中,因为其分类效果较好,离差平方和方法的应用较为普遍。
3 基于改进的主成分聚类分析方法的基本步骤
基于改进的主成分聚类分析法的基本步骤如下:
Stepl:采用对数中心变换法变换处理原始数据集。
Step2:根据具体实例,选取三种评价指标的预处理方法的一种统一原始数据集,进行标准化、均值化或极值化处理。
Step3:根据标准化后的数据,建立关于P个指标的相关系数矩阵R。
Step4:求得相关系数矩阵R的特征值和特征向量。
Step5:分别计算每个主成分的方差贡献率ak,并据此求得累积方差贡献率a(k)。
Step6:确定主成分的个数。
理论上来说是要求以较少的主成分实现最大程度的表示原始指标变量的信息量.其实质是在k和ak之间进行权衡:一是,要求k尽可能地小;二是,要求ak尽可能的大。
Step7:求各主成分函数的表达式
主成分函数表达式为:
其中初始因子载荷矩阵每列的系数除以它们相应的特征根后开平方后得到 表示标准化后的数据,i=l,2,…,k。
Step8:计算综合主成分值
通常在进行综合时选取加权算术平均法,以各个主成分的方差贡献率ak为权重,以此求出各个样本的主成分综合评价得分,具体公式为:F=a1F1+a2F2+…+akFk
Step9:主成分指标聚类
对于选定的新数据阵(F1,F2,¨,Fi),对上述主成分分析的结果采用聚类分析法进行处理。再结合综合成分得分,以此确定样品在各类中的排序,最后得到综合评价结果。
通过以上基本步骤,得到综合评价结果,最终为原始数据集样本对象的综合比较和排序分析提供了模型和方法依据。
4 学生成绩综合评价模型实例仿真
4.1 模型建立
(1)数据收集
学生成绩综合评价模块所采用的原始数据是某高校12级电商专业所有毕业生的大学成绩,包含的数据信息有学号、课程名称、学分、成绩等,其中包含了72个学生的22门课程信息。
(2)数据预处理
剔除不相关数据样本。原始数据集中的学分、平时成绩、课程性质、绩点、学院班级对学生特征分析模块的分析研究没有任何意义,所以去除。
(3)类似数据项合并
在原始数据集中存在类似数据项,例如,大学英语I和大学英语II、高等数学CI和高等数学CII、体育I和体育II,对于这些类似数据项通过平均值二合一(四舍五人取整),对军事理论、中国近现代史纲要、思想道德修养与法律基础以及合并之后的形式与政策,同样采用平均值的方法进行合并,通过类似项合并后,得到15门课程。
(4)数据数值化
在原始数据集中,计算机操作和认识实习的成绩是通过优秀、良好、中等、及格来表示的,在数据预处理过程中,将其转化为百分制,分别为90、80、70、60。采用SPSS进行主成分分析,构建学生教育评价模型,具体实例仿真过程及结果分析如下所述。
4.2 实例仿真
(1)指标选取
该模块主要是利用某高校电商12级学生的成绩,对所有学生进行综合评价分析,所以采用的指标是电商的所有课程。
(2)对于原始数据集指标变换及评价指标的预处理,本文采用均值化方法。
(3)求经过标准化后的原始数据集的相关矩阵,及其相关矩阵的特征根。
(4)确定主成分的个数
如图1所示是由第2步求得到的方差贡献率和其相关系数矩阵的特征根,由于前5个主成分贡献率为72.825%,能够很好地反映总体指标,同时考虑图2中的变量不出现损失,因此提取的主成分个数为5。
图2所示的是初始因子载荷矩阵,可知,在第一个因子上所有课程都具有相对较高的载荷,大学英语、网页设计基础、体育、认识实习、电子商务概论、计算机操作以及思想理论在第二个因子上有较高的载荷,第三至第五的因子载荷与此类似,正数说明载荷较高,能更好的反映所对应的指标课程。
(5)确定主成分函数的表达式
主成分系数向量是由图2中的每列的系数与其特征根之商开根后得到。计算主成分函数的表达式如下,
(6)计算综合主成分值
由上述矩阵计算,得到的5个主成分函数,分别反映了不同的课程指标信息,最后得出综合主成分公式:F=0.0.46Fl+0.0 8F2+0.068F3 +0.063 F4+0.05 7F5
通过改进的主成分聚类分析方法可以求出电商12级学生的主成分综合值。同时对这些学生按照他们的综合主成分值进行排序,部分结果如表1所示,可知,学号为4、5、62的同学综合主成分得分较高,说明这三名学生的综合成绩评价较高,同时可以看出影响每个学生综合评价的5个主成分值。
分析不同的主成分,挖掘学生综合评价的具体影响因素,并针对具体问题提出解决方法。
(7)对综合主成分值进行系统聚类并进行评价与分析
利用SPSS软件对主成分得分进行进一步的聚类分析,同时参考各类中每个同学的综合主成分均值以此对类进行排序。参照类中每个学生成绩的综合主成分得分,确定每个同学在各类中的排名,最终得到综合的评价结果。系统聚类图如图3所示,
求得这五类中样本的平均得分并排序:第一类{4、5、62、64};第二类{61、27、7、12};第三类{21、65、70、1、13、28};第四类{24、38、50、34、47、18、51};第五类{63、29、59、55}。
由分析结果可以发现,学号为4、5、62、64的同学综合得分较高,被聚成一类,对比原始成绩可以发现,这些同学的原始得分均较高,为班级表现比较突出的同学,与实际情况相符;学号为61、27、7、12的同学表现次之,与实际情况相符;与传统的主成分分析相比,改进的主成分聚类分析方法能够在很大程度上克服主观因素的影响,同时在对原始信息的处理中采用了变换和均值化处理方法,使挖掘的结果更加准确,在此基础上运用聚类分析方法,将成绩相似的同学聚为一类,为准确评估学生的整体水平和有针对性的寻求解决方案提供更可靠的依据。
5 结束语
本文在传统主成分分析法的基础上改进了数据的预处理及最后的综合评价过程,并建立了基于改进的主成分聚类分析方法的学生成绩综合评价模型,最后以某高校学生信息为挖掘目标,以规范化的方式对相关信息进行了统一处理,且应用SPSS软件进行了实例仿真,将原有课程的15个指标综合成了5个指标的评价体系,更好的反映了学生的综合成绩,克服了传统方法的不足,为教学研究管理以及学生的综合评价提供了依据,并且说明了在教育信息化中应用数据挖掘技术的有效性,教育信息化的发展逐渐需要数据挖掘技术作为支撑,此方法的应用对于后续研究教育信息化以及相关实践教学具有指导性意义。