刘庆思
(教育部考试中心,北京 100084)
效度(validity)是指所积累的证据和理论对考试用于特定目的后所产出分数的解释提供支持的程度,是考试评价中的一项重要指标;效度验证(validation)则是收集相关证据为特定分数解释提供科学依据的过程[1]。效度无疑是教育测量的核心内容,而效度验证则是人们在考试研究的具体实践中需要经常面对的问题。国际教育与心理测量界广泛采用的《教育与心理测量标准》(Standards for Educational and Psychological Testing)(以下简称《标准》)和教育测量界的经典著作《教育测量》(Educa⁃tional Measurement),历来非常重视效度研究,分别呈现了效度验证所需的类似于检查清单的标准条目和效度验证的基本模式,效度研究的最新成果都是通过这两部著作的不同版本发布的。
效度验证虽然意义重大,但尚未得到考试研究人员应有的重视。从已有的效度研究成果可以看出,研究人员无论是对效度研究重要性的理解,还是对效度验证对象的认识,以及对效度验证应采用的模式等,都存在一些问题,甚至存在理解错误之处。本文将在厘清这些问题的基础上,就效度验证的方式方法提出建议。
由效度的定义可知,效度验证有两个作用,一是为考试的分数解释和使用提供支持,二是审核特定分数解释和使用的合理性和恰当性。因此,效度无疑是评价考试质量的一项重要标准。没有效度,其他都谈不到[2]。
最新版的《标准》(2014版)将效度列为该书的第一章,在介绍了效度的定义后明确指出,效度是开发、运作和评估考试时应该考虑的一项最为基本的内容[1]。Oller早在1979年就指出,没有效度的考试不能称为考试[3]。最新版的《教育测量》(2006版)同样将效度验证列为该书的第一章,而且该著作各个版本都极为重视对效度研究最佳成果的推介。
效度研究的重要性亦体现在其悠久的发展史中。教育测量学初步形成于20世纪初,兴起于20世纪20年代[4]。效度研究在教育测量学兴起时期即应运而生,且随着教育测量学的发展和教育考试的需要,日益丰富研究内容、完善研究框架,研究的科学性和系统性逐步提高,最终形成了当今关注考试各环节证据收集、具有严谨论证框架、采用多种分析方法的验证模式。
效度验证的对象是考试分数的解释和使用,而非考试本身。这已经是国际心理和教育测量界的共识。就这一观点,Messick早在1989年出版的《教育测量》中就进行了清楚的说明,《标准》(1999版)也进行了类似的界定。然而,诚如Frisbie所言,在测量工作几乎各个方面奠基性的概念中,效度似乎是被误解最多、误用最广的一个[5]。或许正因如此,2014版《标准》在重申1999版《标准》中所阐述的“效度评价的是对分数基于特定使用后的解释,而不是考试本身”之后,明确申明:使用不合格的短语“考试效度”是错误的[1]。
在为澄清效度验证对象而探讨“有效的考试还是有效的分数”时,Frisbie提出了两个值得思考的问题:一个“好考试”使用后是否会给我们提供“糟糕的”信息(分数)?由一个“好考试”产出的信息(分数)是否会被以“糟糕的”方式使用?[5]他以一个6年级学生的单词拼写测试为例,生动地说明了“好考试”有可能被错误地使用。这个考试无论从考试内容设计,还是从题型设计来看,都是一个好的考试,然而,如果考试实施中监考教师自行缩短了考试时间、考生抄袭别人答案或者某个(些)考生涂错了答题卡的代号,“好考试”可能给出“糟糕的”信息(分数)。此外,如果任课教师已针对该考试的内容进行过针对性训练,那就不可能根据该考试成绩准确推断学生的单词拼写能力。这都充分说明,并不存在作为测量工具的考试效度,仅仅存在考试分数解释和使用的效度[2]。
在效度研究的发展过程中,有一段时间曾采用“考试效度”这一概念,这要追溯到20世纪50年代前效标关联效度主宰效度验证的时期。当时,根据效标模型,所需测量的特质已经确定,设计考试的目的是反映出该特质,而由考试与效标的相关情况即可轻而易举地得到效度证据。然而,引进构念效度后,情况发生了变化,该模型要求对特定构念的解释进行详细说明,效度验证的对象自然就变成了以构念为名的分数解释。这一变化带来的结果是,1955年至1989年期间,效度研究关注的重点逐步从对考试的效度验证转移到对考试分数特定解释的处理和效度验证[6]22。1989年出版的《教育测量》在心理和教育测量界正式明确了效度验证的对象,即考试分数的解释和使用。
如前所述,教育测量理论中效度研究的历史已近百年。在此期间,随着教育和心理测量理论的整体发展、研究人员认识的加深和考试评价的实际需要,效度验证的模式经历了几次更新,涵盖内容日益丰富,整体性日益增强,逻辑性日益提高。目前的验证模式已涵盖考试的各个环节和与考试相关的各项内容,涉及参与考试的各类人群。大致来讲,效度验证模式的发展可以分为4个历史时期:效标效度发展时期、分类效度发展时期、效度证据整合时期和基于论证的效度验证时期。
20世纪20年代至50年代,效标效度可称为效度的金字标准[6]18。Kelly于1927年即提出:“效度问题指一项测试是否测量了它所要测量的东西。”[3]Bingham于1937年给出了效度的操作定义:“一项测试的成绩与采用其他客观方法测量的结果之间的相关系数就是测试的效度。”[3]1951年出版的《教育测量》(第1版)将效度定义为“实际考试分数与‘真’标准分数之间的相关”,效度研究的任务是验证具体考试能够估量出效标的程度[6]18。效标效度分为共时效度和预测效度两类,共时效度以同时存在的某个表现作为效标,一般用于验证比效标花费更少、更易操作和安全性较低的考试;预测效度则是以将来某个时间的表现作为效标。当理据充分的效标存在时,效标模型非常有效。然而,效标效度的缺陷也非常明显,理据充分、完全符合的效标难以得到;此外,研究人员几乎不可能对所选定的效标进行效度验证。
20世纪50年代起,教育测量研究人员为效度研究陆续引进了内容效度和构念效度,效度研究进入了分类效度发展时期。内容效度假设从某一领域选取样本对考生的表现进行检测,因此要验证的内容是样本(考试)对本领域知识、能力的代表性程度,比如,高考英语学科的考查内容应该代表高中生所掌握的语言知识和所发展的语言能力,然而,考试内容只能是从所有知识和能力中的抽样,因此,样本代表性至关重要。内容效度可以在一定程度上对效标效度中效标的合理性提供支持。构念效度理念的引进主要源于对坚韧性、愤怒度等人格测量的需要,其假设是存在一套经过完好界定的理论,而由该理论可以得出实证性的预测。比如,假设英语能力是由语言知识、文化知识、语言技能等组成的,那么接下来需据此设计出能够反映各能力组成部分(构念)的试题。如果基于理论的各个假设都得到了证实,那么该理论和以该理论为名的分数解释就得到了支持[7]。1974年出版的《标准》总结了当时效度研究的状况,列出了4类效度:预测效度、共时效度、内容效度和构念效度,对分类效度的体系提供了有力支持[6]20。然而,这一体系也存在着一些与生俱来的问题:内容效度主观性较强且与考试分数无关,难以用于验证有关分数解释的结论[6]19;构念效度存在逻辑基础薄弱和循环论证的问题[2];该体系零散、不完整的效度验证方法难以对效度提供有力的支持。
20世纪70年代末期,在意识到分类效度体系的缺陷后,部分教育测量研究人员开始尝试构建一个统一的效度模型。1985年出版的《标准》虽然仍承认不同种类的证据与不同的解释相关,但首次提出了整体效度的概念[6]21。在1989年出版的《教育测量》中,Messick将当时存在的各个效度验证模型整合成一个以构念效度为基础的总体框架,将效度定义为“在整合性评估中得出的实证证据与理论原理,对依据考试分数或者其他测试模式所作出推断和行动的充分性、适宜性提供支持的程度”,且设计出分层效度框架形象地说明其以构念效度为核心的效度整体观[3]。1999年出版的《标准》接受了效度整体观,同时提出了支持效度的5个方面的证据:基于内容的证据、基于反应过程的证据、基于内部结构的证据、基于与其他变量之间关系的证据和基于测量结果的证据[6]23。Messick的效度验证模型虽然在理论层面严密、考究,但高度抽象,在效度验证的程序,诸如效度验证的操作顺序、验证过程的检测等方面,能够为操作者提供的指导极为有限[8]179。
1988年,Cronbach提出了效度论证的概念,建议通过对所有证据进行连贯的分析以对预期的分数解释和使用进行整体评价。1999年出版的《标准》明确指出,效度验证就是对分数解释与使用的论证[6]22。在多年研究的基础上,Kane在《教育测量》(2006版)中系统阐述了其基于论证的效度验证模式,之后又在Bachman、Chapell等人研究成果的基础上进行了改进。该模式采用两类论证:解释性论证(interpretive argument)和效度论证(validity argu⁃ment)。解释性论证详细说明特定考试结果的解释和用途,然后呈现出起点为从考生在考试中的表现推论出对分数的解释、终点为基于分数作出决定这一过程中的推论(inference)和假设(assumption),为之后的效度论证搭建起验证框架[9]。推论主要由评分推论、概化推论、外推推论、基于理论的推论和决策推论构成,形成一个完整的链式结构。Kane为解释性论证引进了Toulmin论证模式,每个推论都要经过Toulmin论证模式的检验,前一个推论中的“主张”即被作为后一个推论中的“资料”,该论证模式将效度证据紧密联系起来,使得推论环环相扣。效度论证则是通过一系列的实证性研究检验解释性论证中各个推论和假设的可靠性及充分性,Xi等人对效度验证的方法进行了系统的总结[8]。
登录国外知名考试机构的网站和“中国知网”,笔者以“validity”“validation”或“效度”为关键词对近10年来的研究成果进行搜索,了解到国外考试机构就其具体考试项目进行效度验证的基本情况和国内就考试项目进行效度验证的大致状况。PEAR⁃SON教育集团、美国的ETS和ACT、英国的剑桥评价、荷兰的CITO等,都围绕自己的主要考试项目进行了效度验证,完成了数篇效度验证报告。中国知网上以“效度验证”为主题的有11篇博士论文、近300篇硕士论文和若干篇期刊论文。对这些资料进行认真分析后可以清楚地看到,效度验证中存在两大问题。
由前述已知,教育测量界视效度为考试设计和运作中最基本的考虑内容,同时也将其视为考试的根本。然而,或许是考试机构尚未意识到效度验证的重要性,或许是考试研究人员无力或无兴趣开展此类研究,致使效度验证工作备受忽略,其结果是:其一,大量考试项目从未或很少进行效度验证。国外各知名考试机构虽然都发表了一些效度验证报告,但研究工作主要是围绕其主要考试项目进行,如ETS的效度验证集中在TOEFL,剑桥评价的效度验证也是集中在其若干英语作为外语的考试项目上。国内的效度验证也同样集中于有限的考试项目,主要为若干考试项目中的外语学科、大学英语四六级考试、大学专业英语四八级考试,以及汉语水平考试和公务员考试,只有个别研究对高考中的物理和化学学科进行过一些效度验证工作。大规模、高利害考试的项目未见有任何效度验证结果发布。其二,即使就某些考试项目进行了效度验证,验证的系统性和整体性也差强人意。无论是国外各知名考试机构,还是国内研究人员,可能受人力物力投入和所掌握资料的限制,除个别项目外,基本都是将效度验证的主体对象确定为某类试题,且只是进行内容效度、构念效度或者效标效度的研究,效度验证的系统性和整体性远未达到《标准》的要求。
效度验证模式的发展经历了4个历史时期,验证模式所涵盖内容日益增加,系统性和整体性程度日益提高。与此同时,效度验证的核心概念由“效标”变为“证据”,继而发展为“理由”;验证的对象由考试变为考试分数的解释和使用。研究发现,目前效度验证的具体实践明显没有跟上效度验证模式发展的步伐,主要表现在以下3个方面:第一,考试宣传中的高效度往往缺乏具体信息的支持。搜索国内有关考试的介绍或年度考试总结报告,经常可以看到诸如“具有较高的信度和效度”“信度、效度较高”等表述,信度尚有数据可查,而效度则找不到任何理据的支持,这充分说明考试工作人员对效度“证据”“理由”的必要性缺乏足够的认识,对考试规范性和科学性的认识尚有待提高。第二,误用效度概念的情况比较普遍。Frisbie列出了6个选自法律文件、考试机构向不同人群所发布资料中对效度的误解情况,主要问题是把效度研究对象错误地当成了考试[5]。这种情况无论是在国外,还是在国内都大量存在,但相对而言,国内对效度概念的误用更为严重,所搜索到的绝大部分期刊论文和硕士论文、博士论文都错误地将效度验证对象定义成了某项考试或考试的某类试题,鲜见研究者对考试的分数解释和使用进行效度验证,这说明很多考试研究人员的效度观仍然停留在20世纪90年代前的水平,远远没有跟上效度验证模式的发展。另有若干论文似乎将“效度”当成了“效果”的代名词,虽然在采用效度这一词汇,但所谈论内容与效度的基本概念相去甚远。第三,分类效度仍是主流效度验证方式。无论是国外还是国内的效度验证报告或论文,大部分采用的验证模式仍是20世纪60年代盛行的操作简便、成本较低的分类模式。与国外考试机构所主持验证不同的是,国内研究性论文的专注点集中在操作更为简便、主观性较强的内容效度,其次才是结构效度和效标效度,基于整体效度观和论证的效度验证极为少见,即使有也只是简单尝试。
效度验证是考试研究中一项极为重要的工作,对评价考试质量、推进考试改革意义重大,考试机构应该以各种形式积极推动。第一,主持相关研究活动。论证基础上的效度验证模式讲求系统性和整体性,需要根据总体的解释性论证框架,从考试各环节以不同的技术手段收集所需数据,开展大量实证性研究,推动效度论证的进行。这些工作需要大量人力物力的投入,同时还需要考试各环节提供信息支持,如非考试机构主持实在难以开展。第二,与独立的考试评价机构或其他研究团队合作开展效度验证工作。考试机构可以以协议的形式向合作伙伴派发研究任务,为其提供验证所需的各类资料和信息,同时要求其承诺保证验证的客观性和公正性。第三,适当开放数据,为独立的研究人员进行效度验证提供便利。以招标的形式列出研究任务,邀请研究人员参与研究,并适当提供研究经费和所需数据,是国际上通用的一种合作研究方式,一是有利于团结社会各界考试研究人员,二是有利于宣传考试项目,扩大考试影响力。考试机构可以尝试将效度验证任务细化分解后,向社会招标。
作为国际教育测量界的经典著作,《教育测量》各个版本都总结了当时最新且较为成熟的教育测量学研究成果,Cronbach、Messick和Kane具有跨时代意义的效度研究成果都是通过该著作的推介而成为国际测量界公认的主流效度验证模式,认真学习、努力吸收该著作中所推介的效度验证模式至关重要。《标准》则是国际教育和心理测量界共同遵守的测量标准,对测量的理论基础和具体实践进行了很多约束性的界定,各项标准在国际教育和心理测量领域常常被当作检查考试质量的清单。《标准》中关于效度验证的理念与《教育测量》保持一致,但其所提供的标准能够作为研究人员进行效度验证和其他人员审核验证过程和结果共同遵循的指导性标准,能够对效度验证工作发挥很好的规范和指导作用。因此,可以将这两部著作作为效度验证的法规性文件。
如前所述,按照基于论证效度验证模式的要求构建起解释性论证框架后,需采用各种方法进行效度论证以对解释性论证每段推论的可靠性进行检验,而解释性论证中的任何一段推论几乎都需要综合运用统计学、质性研究的方法。仅从评分推论即可看出所需采用研究方法的综合性:首先,要对考试实施的后效进行研究,主要检查考生的表现是否受到了与构念非相关因素(考试实施条件、考试模式等)的影响;其次,要对评分指导进行综合性审核,需要利用质性研究方法了解评分员对评分指导的理解,利用多层面Rasch模型检测评分标准等;再次,需利用方差分析、多层面Rasch模型检查评分员自身和评分员间的系统性误差,同时还需采用质性研究方法了解评分员的评分倾向和决策过程等[8]183-184。由此可知,效度验证研究团队中既应包括从事教育测量和所验证考试学科研究的专业人士,还应该有熟悉考试操作实施和熟练掌握统计分析工具和质性研究方法的研究人员。如此,方可以称为一个人员结构合理、基本能够进行效度验证的研究团队。
[1]AERA,APA,NCME.Standards for Educational and Psychological Testing[M].Washington,DC:AERA,2014.
[2]谢小庆.效度:从分数的合理解释到可接受解释[J].中国考试,2013(7):3-8.
[3]韩宝成.语言测试效度及其验证模式的嬗变[J].外语教学与研究,2013(5):411-425.
[4]张敏强.20世纪教育测量学发展的回顾与现状评析[J].教育研究,1999(11):32-37.
[5]FRISBIE D A.Measurement 101:Some Fundamentals Revisited[J].Educational Measurement:Issues and Practice,2005(3):21-28.
[6]KANE M.Validation[M]//BRENNAN R.Educational Measurement.Westport,CT:Greenwood Publishing,2006.
[7]CRONBACH L J,MEEHL P E.Construct Validity in Psychological Tests[J].Psychological Bulletin,1955(52):281-302.
[8]XI X.Methods of test validation[M]//SHOHAMY E,HORNBERGER N H.Encyclopedia of Language and Education(Volume 7:Lan⁃guage Testing and Assessment).New York:Springer,2008.
[9]KANE M.The Argument-Based Approach to Validation[J].School Psychological Review,2013,42(4):448-457.