标准参照测验相关理论和评价指标的综述

2017-03-30 09:22刘潇

科教导刊·电子版 2017年6期

关键词：评价指标

刘潇

摘要本文从国内近年来对于标准参照测验的一系列探索出发，对国内学者对于标准参照测验的相关理论和评价指标做的研究和陈述主要包括标准参照测验的评价指标如信效度，测验长度以及分数体系做了一个综合述评。

关键词标准参照测验评价指标分数体系

中图分类号：O212 文献标识码：A

1标准参照测验的定义与作用

1.1标准参照测验的定义

匹斯堡大学的Glaser首次提出标准参照测验，将测验分成标准参照测验和常模参照测验。后来许多学者将内容参照、领域参照等解释为标准参照。

标准参照测验又称准则参照测验。是一种精心编制的，在一定的行为领域上按照具体标准水平对测验结果作出直接解释的测验。是一种与以经典测验理论为基础的与常模参照测验相对的测验类型。

1.2标准参照测验的作用

了解个体在所规定的测量内容上的行为水平，其出发点是个体本身的绝对水平，而不是个体间的差异。

2标准参照测验与常模参照测验的不同

常模参照测验的分数反应了一个人在所属群体中的相对位置，常模代表了某一群体的真正水平，而标准参照测验的分数标志一个人能力或知识的绝对水平，不与其他人的分数比较，标准是希望达到的目标，对个体作出是否达标或达到什么程度的判断，有很大的人为性。

3标准参照测验的评价指标

3.1标准参照测验的信度估计

标准参照测验的信度估计方法很多，如克龙巴赫系数或CTT中的其它信度指标。标准参照测验一定程度上有别于常模参照测验，许多的学者对其信度估计做了很多的阐述和研究。

香港中文大学的杨志明教授用概化理论中的可靠性指数和（）公式，分别针对交叉设计和嵌套设计，就标准参照性测验的整体信度和等级分数线决策信度的估计问题进行了探讨。用数据演示的方法比较了交叉设计与嵌套设计在估计标准参照性测验整体信度方面的差异，展示了等级决策分数线决策信度的估计方法。

安徽师大的赵必华教授在《标准参照测验信度的估计方法及其验证》中列举了四种标准参照测验信度的估计方法，分别是斯旺明内森方法；惠恩方法；萨伯考维克方法；玛希尔方法。

3.2标准参照测验的效度估计

对标准参照测验的效度估计主要是内容效度的估计，主要从以下两方面入手：一是测题的正确性即指测题正确地反映测量目标所欲测量的知识、技能的程度。检验主要包括：测题的技术质量和测题与测量目标之间的一致性程度；二是测题的代表性，即要求组成标准参照测验的测题必须对测验领域总体有一定的代表性，从而使测验具有较高的内容效度。为了保证测题的代表性，标准参照测验编制中往往需要制订双向细目表；同时人们也提出了利用“重复实验”方法。

3.3标准参照测验的长度

在标准参照测验中，测验长度的决策不仅要结合特定的测验分界分数，而且要以降低错误肯定和错误拒绝的误差概率为原则。因此，标准参照测验长度的确定不是以常模参照测验中的斯皮尔曼布朗信度估计理论为基础，而是采用米尔曼的二项式概率模型法、威尔克森的不肯定区域法以及项目反应理论下的信息函数值法。

这些研究方法进行长度决策时的基本宗旨是：在符合测量误差标准要求的前提下，寻求最符合经济原则的测验长度和合格分数的优化组合方式，将测验对被试掌握程度的错误分类降低到最低限度。

针对标准参照测验长度的研究方法使用范围最广、理论基础最成熟是米尔曼的二项式概率模型、威尔克斯的不肯定区域模型和项目反应理论的拟合估计法。每种方法都有各自的适用条件，在具体情境中可以根据情况进行方法选择。

4标准参照测验的分数体系

标准参照测验分数的报告和解释还存在误区，许多考试仍沿用经典测验理论中的常模参照方法来对其分数报告和解释。目前国内有学者从国内外的重大考试入手，通过探讨分数体系的共同点以找到适合于标准参照测验的分数体系，为以后的一些标准参照测验的分数体系提供参考。

国内外有许多重大教育考试在使用标准参照测验，每套测验都会有一个相对成熟的分数体系。国内常见的标准参照测验有大学英语四六级考试，汉语水平考试HSK等；国外的比如美国研究生入学考试GRE，美国大学水平考试CLEP等等。

尽管上述一些国内外重大考试采用的分数体系比较完善。但目前使用的一些标准参照测验的分数体系仍存在大量的问题。首先分数的报告和解释过分依赖于标准样本的分布；其次不同的等值方法和等值设计将造成了不同的等值误差，且差异较大。但是样本容量限制等现实情况使得许多测验不得不采用一些误差较大的等值方案；再次，样本选择代表性受到了一定的限制，另外由各专家评定的标准试卷同样无法避免其主观性；最后，尽管采用了专家评定方法和样本分布共同来确定分界线，但是具体的分数线的确定因人的能力是连续变量而仍具有一定的主观性。

5小结

随着教育水平的不断提高，标准参照测验在教育考试以及其他考试方面的重要性也逐渐凸显，关于测验的编制和评估，以及分数解释等的完善也越来越重要，以往沿用常模参照测验的方式进行的信度估计，分数解释等工作已經显示出许多的局限性，对于新的理论方法的探索是迫切而十分有必要的，大量有待解决的问题需要人们在以后的工作中进行进一步的探索，希望以后有更多更好的办法来解决这些问题，而为日后一些标准参照测验分数体系的设计提供切合实际的参考。

参考文献

[1] 甘良梅，余嘉元.标准参照测验分数体系的探讨研究.心理学探新，2006（3）：79-83.

[2] 赵必华.标准参照测验信度的估计方法及其验证.宁波大学学报（理工版），2002（3）：99-102.

[3] 杨志朋.标准参照测验及其等级线信度的概化理论分析.心理学探新，2003（3）：52-56.

[4] 柴省三.标准参照测验长度研究方法探析.教育测量与评价，2013（2）：9-15.