教育评价指标体系的可靠性和有效性研究

2013-03-28 08:39潘杰宁

教育探索 2013年3期

摘要：科学、客观、可行的评价指标体系，是得到科学、客观、公正的评估结论的基础。基于元评价的视角对评估指标体系的可靠性和有效性进行分析，若评估指标所反映的内容不在同一目标上，说明有部分评估指标偏离了评估目标，即评价目标与评估指标的一致性较差，导致评估指标体系的稳定性较差。在对指标体系有效性分析的基础上，若某些末级指标处于相同的结构状态中，则可认为这些指标是整个指标体系中最为合理的指标；若某两个指标被纳入同层结构，但归为不同的二级指标，表明这两项指标具有分散的特征。

关键词：元评价；教育评价指标体系；可靠性；有效性

中图分类号：G40-058 文献标志码：A 文章编号：1002-0845（2013）03-0072-02

一、元评价理论

“元（meta）”来自希腊文，也是英语和德语的单词，其原意为“在……之后”，引申为“对……的反思”，表示一种更高的逻辑形式。这一概念自1969年提出至今，其所包含的内容越来越丰富，由最早的对一项评估、评估系统或评估工具的评价，发展到对评估自身、评估结果、评估技术、评估反馈等方面的评价。目前，“元评价”受到了国内外学者的广泛关注。

元评价就是对评价本身的评价，是提高教育评价质量、促进教育评价健康发展的重要手段。元评价的主要目的是检验评价中可能出现的各种偏差，运用统计的方法估计产生的偏差对评估结论的影响，因而评价中的各种问题都应该是元评价考虑的对象。候光文教授认为，教育评价的元评价是评价的重要组成部分，它与一般的评价活动在方法的运用上有许多共同之处。

对于一项评估活动而言，指标体系的构建是教育评价的前提和依据。构建科学、客观、可行的评估指标体系，是得到科学、客观、公正的评估结论的基础，是评估功能得以有效发挥的前提。本文基于元评价的理论视角，运用数据统计软件SPSS10.0对指标体系的有效性和可靠性进行分析，以期探索一种有效的元评价分析方法。

二、对评价指标体系的可靠性和有效性的分析

笔者以某区专业评估为例，以其使用的指标体系为研究对象，对指标体系的可靠性和有效性进行统计分析。

1.指标体系的可靠性分析

从理论的角度来看，评估结果的客观性依赖于指标体系的可靠性。指标体系的可靠性，即指标体系的可靠程度，应理解为指标体系本身应具备的稳定性，表现为指标体系内部各级指标的一致性。如果指标体系具有较好的可靠性，则指标体系的科学性较高，评估结果的信度系数较好。

本文采用分半法对评估指标体系的可靠性进行分析。一般情况下采用奇偶分半、难度分半、内容分半等方法进行分半。在实际应用中，指标体系的末级指标一般是依据一个评估目标分解而成的，具有较高的独立性，采用奇偶分半可使两半的指标体系在难度上基本相等，本文采纳奇偶分半法对末级指标进行分半。

运用SPSS10.0数据统计软件，定义二十七项末级指标分别为ZB1、ZB2、ZB3……ZB27，分别录入各个专业对应的自评得分。在“分析”选项中选中“一致性分析”一项，并将“一致性分析”对话框中的方法选择定义为“分半系数”，得到的分析结果如下：

Correlation between forms （相关系数）= 0.2460

Unequal-length Spearman-Brown （不等长距离分半系数）=0.3950

其中“不等长距离分半系数”是指在本次分析中，“一半指标”与“二半指标” 的数量不同，“一半指标”有十四项末级指标，“二半指标”有十三项末级指标。本研究采用不等长距离分半系数，即专业评估指标体系的可靠性系数为0.3950。

2.指标体系的有效性分析

从教育统计与测量的角度来看，有效性是指一次测量的有效程度。如果一次测量能测出指标体系的特性，则认为这个测验或量表是有效的。

评估指标的有效性可以理解为评估指标能够在多大程度上描述评估对象的特质。在教育评估中，如果确立的指标不能反映或不能完全反映评估对象的特性，那么该指标体系就不具备有较高的有效性。

本文采用结构效度分析法分析指标体系的有效性，即首先是计算各指标协方差矩阵的特征值和特征向量，并构造各指标的加权组合，再从各个加权组合中寻找“统计结构”，最后考察“统计结构”和原结构是否一致，如果一致，则认为有效度较高，即有效性良好。

采用SPSS10.0数据统计软件进行数据分析，定义二十七项末级指标分别为ZB1到ZB27，用于记录二十七项末级指标的得分，分析结果显示数据有误。经过对二十七项末级指标原始数据的核查，发现第十二项末级指标（ZB12）的数据全部为4，从数据统计分析的角度看，此数据不具有区别度，对需要提取的公因子的贡献率为0，为此在进行因素分析前，需剔除末级指标ZB12。

剔除末级指标ZB12后，对剩余的二十六项末级指标的因素分析结果为：二十六项末级指标可以由11个因子进行解释。这11个因子的特征值都大于1，方差贡献率（%）分别为13.580、10.789、9.039、7.411、7.035、6.146、5.463、5.068、4.277、3.944和3.874，累计方差解释率为76.624%，能够解释原始变量方差的76.624%以上。从理论上看，有关二十六项末级指标的因素分析是科学有效的，其提取的公因子的解释率达到76.624%。因此，应在剔除第十二个指标后寻找指标的统计结构。运用SPSS10.0数据统计软件，运用主成分分析法分析11个公因子（G1-G11）的初始载荷矩阵，可以得出二十六项指标在每个公共因子上的权值。在初始载荷矩阵中，有的变量在公共因子上的载荷分配不太理想，出现了同一个一级指标的载荷值过高或过低的情况，难以决定公因子的意义。为此需要用斜交旋转的方法进行转轴，解决载荷分配不理想的问题。运用SPSS10.0数据统计软件，在旋转方法选项中选择斜交旋转方法，并选择剔除绝对值小于0.1的斜因子载荷值的选项。在结构矩阵中，可以根据各指标在斜因子轴上投影值的大小来决定因子的意义，或以此作为因子命名的依据。

可对二十六项指标进行第一次归属分析，以完成对末级指标的归类。对于有三级甚至四级结构的评估指标体系，为了准确判断该评估指标体系的有效性，应在上述分析的基础上进行第二次因素分析，以寻找更高一级的内在结构。

三、结果与讨论

1.指标体系可靠性分析的结果与讨论

通过以上分析结果可知，专业评估所采用的指标体系的可靠性系数为0.3950，分析结果说明本次评估所采用的指标体系的可靠程度并不高。

指标的设计应遵循一项重要的原则，即指标同层次间相互独立的原则。由于教育现象的复杂性，导致在设计指标的过程中要做到同层次所有指标间完全相互独立是十分困难的。在这种情况下，指标体系只要达到了低度相关，则可认为指标间的独立性较好。在对本例专业评估指标体系可靠性的分析中，“一半指标”与“二半指标”之间的相关系数为0.2460，说明指标间的独立性较好。表明在末级指标这一层次上，指标之间存在因果关系的可能性较小，每一个指标各自代表一个独立的内容，它们之间重叠的部分不多，包含与被包含的关系不明显，也没有出现高度相关的情况，符合指标同层次间相互独立的原则。然而，指标体系的独立性较好并不代表指标的内容设计具有合理性，这仅是确定评估指标应遵循的原则之一。

从分析结果来看，本例专业评估指标体系的可靠性系数仅为0.3950，说明指标体系的可靠程度不高，二十七项评估指标体系所反映的内容不在同一目标上。评估指标是对评估目标的具体化，是由评价目标分解而成的，其集合应该是对评估目标的可靠性的反映，这样才能形成一个相对稳定的指标体系，才能判断出被评估对象的真实价值。而评估指标所反映的内容不在同一目标上，说明指标较分散，有部分评估指标偏离评估目标，评估目标与评估指标的一致性较差，从而导致评估指标体系的稳定性较差。此外，评估主体不同，也是导致评估指标体系可靠性较低的原因之一。

2.指标体系有效性分析的结果与讨论

在对指标体系有效性进行分析的基础上，与原指标体系结构进行对比，得出如下结论：

其一，第一次分析中，有7项末级指标在原指标体系中同属一个二级指标，说明这几项指标无论是在原指标体系中，还是在因素分析的指标内部结构中，都处于相同的结构状态，因而这7项末级指标是整个指标体系中最为合理的指标。

其二，在第一次因素分析中，公因子G6的解释指标一（ZB1）和解释指标六（ZB6）同属于原指标体系的一级指标中。说明这两项指标具有共同的数据特征，可被纳入同层结构中，但归为不同的二级指标，表明这两项指标在同层结构中仍表现出分散的特征。

其三，分析发现，除上述几项指标能在原指标体系中找到相应的结构外，其余的公因子无法被还原到原指标体系的结构中，但在因素分析中却被归为一类。说明这几项指标有共同的数据特征，但在原指标体系中归为不同的一级指标，表明这几项指标的设计较为分散，因而这样的设计是不合理的。

其四，从微观层面来看，属于同一个一级指标的各个末级指标的设计是较为合理的。公因子E1的末级解释指标跨越了原指标体系中的四项一级指标，公因子E2的末级解释指标跨越了原指标体系中的三项一级指标，公因子E3的末级解释指标跨越了原指标体系中的四项一级指标，公因子E4的末级解释指标跨越了原指标体系中的三项一级指标，说明原指标体系的结构中存在的问题较大。

最后，在第二次因素分析中，指标分散的特征再次凸显。在公因子E1的解释指标中，指标九（ZB9）单独属于一个一级指标；在公因子E2的解释指标中，指标十三（ZB13）和指标十六（ZB16）分别属于不同的一级指标；在公因子E3的解释指标中，指标十（ZB10）和指标十五（ZB15）也分别属于不同的一级指标；在公因子E4的解释指标中，指标十一（ZB11）单独属于一个一级指标。说明本例专业评估采用的指标体系的分散特征较为明显，在进行指标修正时需要对指标的结构进行调整。

参考文献：

[1]候光文. 试论教育评价元评价[J]. 教育理论与实践，1998（4）： 24-27.

[2]贺祖斌. 高等教育评价的元评价及其量化分析模型[J]. 教育科学，2001（3）：57-59.

[3]程书肖. 教育评价方法技术[M]. 北京：北京师范大学出版社， 2004：159-160.

[4]余剑英，何旭宏. 数据统计分析与SPSS应用[M]. 北京：人民邮电出版社，2003：294-310.

[5]贺祖斌. 高等教育评价的元评价及其量化分析模型[J]. 教育科学，2001（3）：56-58.

[6]刘康宁. 教育评估指标相关性的问题研究[J]. 评价与管理， 2005，12（4）：29-31.

[7]谭杰锋. 评估指标体系中相关性分析[J]. 统计与决策，2005 （11）：145-146.

〔责任编辑：张华〕

收稿日期：2012-12-30

基金项目：广西新世纪高等教育教学改革项目（2011JGA234）

作者简介：潘杰宁（1980-）女，南宁人，讲师，硕士，从事高等教育管理与评估研究。