杨志明 张玉玲 夏胜俊
保障考试质量是确保考试工作科学、公正、公平的必要条件。倘若考试内容、结构不够全面合理,或考试题目存在瑕疵甚至错误[1-2],或测量的可靠性和有效性较差[3-4],或分数的表达方式不科学、转换方法的前提条件不满足[5-7]等,都会严重损害考试的质量。低质量的考试或者会给出错误的学业诊断信息,误导教师的教和学生的学;或者会给中考和高考等人才选拔工作提供错误的考生水平信息,影响人才选拔的质量。那么,怎样才能确保考试质量呢?笔者认为,必须狠抓考试质量的评价工作,让各种问题尽可能地通过一系列措施事先得到解决。下文从科举考试的经验教训、考试工作的行业标准、考试的理论和技术要求等方面,讨论考试质量标准的构建思路和考试质量评价的考察维度。
俗话说,没有规矩不成方圆。要想保障考试质量,首先需要对考试的设计研发、组卷施测、阅卷评分、分数报告等环节,设定一系列科学、有效的合理准则。有了符合中国国情的考试行业标准,考试质量评价工作才能有章可循。考试行业标准的设定应该参考哪些理论和实践经验呢?笔者以为,应当适当吸取我国科举制度的经验和教训,参考国际考试行业协会标准,满足现代心理与教育测量理论的要求,并及时总结当今中外考试实践中的经验教训。
我国科举考试历经1300 余年,在考试设计、内容选择、预防作弊等方面形成了一整套措施,其中的许多经验值得肯定,但曾经的教训仍然需要警惕。比如,科举考试曾经使用过墨义、帖经、经义等考试形式。其中,墨义是围绕经义及注释给出的简单问答题,在一张卷子中,这类题目往往多达30 甚至50 道。帖经类似现代试卷的填空与默写,考官从经书中选取一页,摘其中一行印在试卷上,考生需要根据这一行文字填写出与之相联系的上下文。经义指的是针对经书中的某句话或某个段落作文,阐述其意义或“义理”,其最大弊端是考生唯朝廷指定的“圣贤书”是从,没有自己的思想。事实上,自宋朝开始,经义就取代了帖经、墨义,而明清干脆专考经义,并限定考试范围为四书五经、文章必须是八股文等,这就把读书人引入了“死读书,读死书”的死胡同,最终导致科举考试的终结。这些教训说明考试的内容和形式需要事先约定,但凡事不可走向极端,不能通过只考四书五经、只写八股文等方式禁锢人们的思想自由,而应当与时俱进。
值得一提的是,科举考试中处理考试作弊的一些经验值得借鉴。科举作弊手段主要有贿买考官、夹带经文、请人代考等。对于普通人来讲,夹带经文的做法比较多,最常见的方法是将经文藏在衣服鞋袜里面,或索性密写在衣物、身体或其他随身物品上,包括文具、食品、蜡烛等。而历朝历代对作弊者的惩处都十分严厉,惩处的办法主要有枷号、斥革、刑责等。在当今的一些高利害考试中,考试作弊的问题也很难杜绝,而且作弊的手段花样翻新,利用高科技手段作弊的案例时有发生,国家也将对考试作弊的处罚上升到了“入刑”的高度。[8]显然,关于考试的作弊问题,在设定考试质量标准时需要特别加以关注。
目前,对全球考试行业影响最大的标准是由全美教育研究协会(AERA)、全美心理学会(APA)和全美教育测量学会(NCME)这3 家学术团体于2014 年联合修订的《教育与心理测验标准》(Standards for Educational and Psychological Testing)(以下简称“《测验标准》”)。[9]这套标准分别从理论基础、实践操作和应用领域3 个方面,对考试各个环节的目的、任务、条件、内容及质量要求等做出了详细的规定。其中,在理论基础部分,《测验标准》分别对效度(validity)、信度(reliability)和公平性(fairness)的相关背景与质量标准做出了具体规定;在实践操作部分,《测验标准》具体讨论了测验的设计与研发、考试管理、阅卷评分、分数报告与解释等方面的要求;在应用领域部分,《测验标准》具体讨论了心理测量与评价、职场人才选拔考试与资格认证、教育测量与评价,以及测试在项目评估、政策研究和问责机制中的应用等方面的行业标准。
关于测量信度,《测验标准》设定了8 条准则,分别是:(1)考试流程可重复性的界定;(2)测量信度或精度的评估要求;(3)信度或概化系数的参数估计;(4)影响信度或精度的因素解析;(5)测量标准误(standard errors of measurement,SEM)的估计;(6)决策一致性(decision consistency)的估计;(7)样本均值的测量信度或精度估计;(8)测量信度或精度的证据存档要求。
关于测量效度,《测验标准》首先就效度证据的来源和效度证据的整合做了背景说明,然后设定了3 大类型共25 条准则:(1)确立所期待的考试用途和分数解释,包括7 条准则;(2)效度验证中有关抽样和设定的若干事项,包括3 条准则;(3)说明效度证据的形式,包括15 条准则,内容涉及与考试内容有关的效度、与认知过程有关的效度、与测验的内部结构有关的效度、与认知结构相关的概念上的效度、与其他标准的关联效度、与考试的后续影响有关的效度等。
关于考试的公平性,《测验标准》首先讨论了公平性的一般问题,包括考试实施过程方面的公平性、消除测量偏见方面的公平性、潜在结构或构念可测性方面的公平性,以及考试用途和个体分数解读方面的公平性,然后细致讨论了分数解释和效度方面的公平性风险,包括考试内容、测验结构、作答方式、学习机会等方面可能造成的公平性损害。所有与考试目的无关的因素所造成的分数变化都可能带来公平性问题。比如,因为考场安排、灯光、时长、阅读等方面的条件不足就可能造成考试不公等。
当前,最有影响的考试理论主要有经典测验理论(classical testing theory,CTT)、题目反应理论(item response theory,IRT)和概化理论(generalizability theory,GT)。
CTT假定任何一个考生的观察分数(X)都可以表达为其真实分数或真分数(T)与测量的随机误差(E)之和,即X=T+E。根据CTT,考试工作的主要任务就是尽量减少测量的随机误差E,使得考生的观测分数与其真分数尽可能地接近。估计并减少测量的随机误差的任务在CTT 中被归纳为测量的信度研究。信度通常被定义为一个总体的代表性考生群体的真分数变异数(S2T)在观测分数变异数(S2X)中的比例(rXX=S2T/S2X)。当然,考试过程中难免会出现系统偏差,比如,监考老师提前几分钟收卷就会系统降低所有考生的分数。故此,CTT 通常把一个总体的代表性考生群体的真分数变异数进一步分解为有效变异数(SV2)和系统误差变异数(S2I)之和,并把有效变异数在观测分数变异数(S2X)中所占的比例(rXX=S2V/S2X)作为考试效度的定义。根据CTT,任何一次考试都必须报告其测量信度和效度。信度太低说明测量的随机误差很大,考试的可靠性会大打折扣。效度证据不足说明考试分数中包含了较大的随机误差和系统误差。效度证据不足的考试分数根本不能作为招生录取和学业诊断等方面的依据。
GT 是在弥补CTT 缺陷的背景下提出的,其核心思想是把各种测量误差来源作为统计模型中的相应参数,然后通过变异数分析方法同时估计各种误差来源对考生群体分数变异的影响程度。也就是说,GT 不仅可以识别出可能存在的多个误差源(如评分者、时间、设置),还能让研究人员通过方差成分估计同时评估这些误差来源。GT共包含两部分内容:概化研究(generalizability study,G-study),用于估计当前测量设计中个体和试验的方差来源;决策研究(decision study,D-study),用于检查不同数量试验的识别性能分数的可推广性。GT 主要用于标准化程度不高的考试分析。
与CTT和GT不同,IRT假定考生答对题目的概率(p)与其自身水平(θ)和题目参数(如区分度a和难度b等)的关系可以用Logistic曲线来拟合,并构造出每道题目的特征曲线(item characteristic curve,ICC)。考试工作就是利用ICC 去准确估计所有考生的真实水平。依据模型曲线与数据的拟合特点,IRT 提出了许多模型,其中著名的有适合处理0/1 计分的客观题的三参数Logistic 模型(3PL)、双参数Logistic 模型(2PL),以及单参数Logistic 模型(1PL)或Rasch 模型。对于非0/1 计分模式的题目(如主观题),IRT提出了广义分步计分模型(generalized partial credit model,GPCM)等。IRT是实施计算机化自适应测验(computerized adaptive testing,CAT)或多阶段计算机化自适应测验(computerized multistage testing,MST)的理论基础。
在CTT、GT 和IRT 等测量理论的基础上,考试工作还涉及心理测量中的常模研发(norming)技术、教育考试中的标准设定(standard setting)及测验等值(test equating)技术,这些技术的主要任务是确保考试分数的表达(scaling)科学合理,以及不同批次考试的成绩可以表达在一个共同的度量系统(量表)之上。为了保障考试的科学性、可靠性、有效性和公平性,一个良好的考试项目往往需要有一个高水平的考试题库做支撑。建设考试题库需要对考试的内容或结构做出事先界定,给每道考试题目打上知识维度、能力维度或素养维度的标签(编码),同时估计题目参数并实现参数等值或链接(linking)。
以美国高考的量表“漂移”问题为例,由于美国高考长期使用标准设定(或常模)与测验等值相结合的分数转换技术,即每次把新测验分数按照1941 年设定的高考标准分的基准进行转换,导致随着年限增长,实际分值出现了严重偏差。比如,到1990 年,若仍然使用1941 年的常模SAT-V,则会发现SAT-V 上的量表分均值为420分,而实际的SAT-M 上的量表分均值为470 分。即SAT-V 上的均值420 分相当于SAT-M 上的均值470 分,彼此之间被时间“漂移”了整整50分。此外,SAT-V 上的10%百分位280 分对应着SAT-M 上的10%百分位310 分(“漂移”30 分),SAT-V 上的90%百分位570 分对应着SAT-M 的90%百分位650 分(“漂移”80 分)。
我国的许多大型高利害考试目前都是一次性考试,因此考试行业中的大多数人没有测验等值方面的实战经验,当然也就没人发现量表的“漂移”问题。不过,在高考标准分制度遇到“3+X”高考方案时出现的标准分不合理问题,以及在新一轮高考改革初期试行“英语高考一年多考”的分数不等值问题,都曾经导致重大麻烦。因此,在制定我国的考试质量标准时,美国曾经发生的高考量表“漂移”问题,以及我国考试实践中出现过的因选考群体代表性不强、能力水平不符合正态分布所导致的标准分和等级分被质疑等问题,都值得特别警惕。
根据前文所讨论的设置考试质量标准的思路,结合中国大多数考试所特有的题量偏少、大分题目较多、主观题分量重且其评价标准不容易掌握等特点,可以考虑从测验设计与研发、考试命题与组卷、考试实施与结果表达、标准设定与测验等值、考试管理和质量检测等方面实施考试质量评价工作,力争杜绝考务差错、控制测量误差。为完成这些任务,针对以下内容设计一系列质量检测表(checklist)的做法值得考虑。这些质量检测表主要包括事实认定检测表(mechanical checklist)、测量学水平检测表(psychometric checklist)、特定群体作答表现的监控表、标准化工作流程指南(standard procedure)等。
在测验设计与研发阶段,考试目的一旦被确定,就需要设计好考试蓝图(test blueprint)。考试蓝图乃是对考试内容的一种事先约定,通常包括一项考试对所要求考查的知识和能力素养等方面的操作性界定,其表现形式一般为双向细目表,表格的横向内容一般为知识维度,纵向内容一般为能力或素养维度。对于一项考试来说,考试蓝图就好比高楼大厦的建设施工设计图,只有设计方案科学合理,才能保证建设的质量。一般来说,考试蓝图的质量取决于命题团队对相关知识、能力和素养的把握水平。只要考试蓝图有效覆盖了计划要考查的重要知识、能力和素养内容,相应的能力和素养要求又符合考试科目本身的特点,并且概念清晰、内涵准确、操作性强,就可认为该考试蓝图达到了合格水准。
考试题目的科学、公平、恰当主要体现在以下方面:在设计考试题目时,要做到表述清晰、没有歧义且信息量充分,参考答案及评价标准明确;能有效体现考试的目标与内容,不能超出考试蓝图所要求的考查范围;不能有违反伦理道德规范的内容,不得违背国家的政策法规等;素材内容和表达形式等对所有考生都是公平的,对特定群体没有歧视;试题表现形式和作答方式符合考生的认知水平;题目的技术参数估计值要达到CTT或GT 或IRT 等理论的要求,如题目区分度和测评信度要尽可能高,题目区分度的估计值不得为负数,题目的属性代码 、题型代码、难度代码、能力等级等信息要齐全等。
试卷完整且符合考试蓝图的要求主要包括以下3 个方面。首先,试题对应的考查要点分布应达到考试蓝图的要求,试卷考查的重点、次重点、非重点应分布均衡;试题应具有相对独立性和代表性,无重叠或相互提示现象。其次,试卷中的题型选择与考试内容的特性应当相适应且有一定的深度,各种题型、题量的分值以及分数比例与所测内容相契合;题量设计应适当,要满足考试蓝图的要求,测量信度要达到CTT 和IRT 的要求。最后,题目的表现形式必须符合各类题型的规范要求,不应使考生产生误解;试题编排顺序可依据考查内容按照由简到繁、由易到难的原则进行编排,要符合考生的心理特征,能够引发应考者最佳的期望行为反应。
测量指标应达到现代测量理论和技术的要求主要包括测量信度达标、效度证据充分、参数估计正确、常模质量良好、等值误差较小、考试结果公平等。每次考试之后都需要报告测量信度的估计值;需要提供多种效度证据;需要考核分数表达的正确性,如题目参数和考生能力参数估计的方法是否正确、估计结果是否符合现代测量理论的技术要求、考评过程是否规范、考评标准是否统一等;需要关注结果报告,确保考试分数公平公正。教育与心理测验要特别考察常模的质量,包括常模样本的代表性,常模分数的分布及与理论研究成果的吻合度,常模曲线是否平滑、有没有逆向突变,常模的天花板(地板)是否足够高(低)等。对于教育考试而言,需要特别关注测验等值的误差大小,避免发生长期等值所带来的量表“漂移”等问题。此外,良好的考试结果应只与所要考查的知识、能力、素养或实践经验等因素有关,不会出现歧视特定群体的问题,题目的DIF估计值也没有超过临界标准,等等。
根据国际考试行业的成功经验,利用Shewhart质量控制图[10]可以及时发现任何考生群体的异常表现,这对于防止考试作弊,或及时发现考试题目中可能存在的问题具有十分重要的意义。Shewhart 质量监控图的基本原理是,某些特定考生群体(如某中学或某特定考点)在某项常规考试(如每年的高考)中的表现水平基本是稳定的,或是服从某种概率分布的,在积累多年的历史数据之后,只要计算这个群体在历年考试中的平均得分和标准差,就可以获得一幅稳定的趋势走向图。于是,在获得最新考试数据而且考试分数尚未公布之际,只要把每个重点关注的群体的得分均值导入相应的系统,就可以发现这个群体在本次考试中的表现是否正常。若某个特定群体在新测验中的表现异常优秀,则这个群体可能存在较大范围的舞弊行为。若某个特定群体在新测验中的表现异常糟糕,则阅卷评分或试卷统分等环节可能存在着重大失误。
考试管理和质量检测流程的系统规范主要体现为以下4 个方面。一是试卷管理的标准化。试卷的制作、存储、转运、使用、回收和保密具有明确、严格的管理流程和标准,相关人员上岗前应接受安全保密培训教育,对其任职资格、保密程序有明确的规范。二是阅卷评分的标准化。阅卷评分人员需要经过专业培训,操作技能考核中的评分者应为相应行业的专家或工匠或管理者。阅卷评分时评分人员应严格参考评分标准,在评分过程中应进行必要的监控和记录,评分误差的控制措施必须完备、精细、保密,如评分者信度最好大于0.80,不得低于0.70 等。三是考场环境的标准化。考点应符合消防、交通、建筑、卫生、用电、地质、安全生产、安全防范等方面的规定,考场设置应相对集中,其采光、通风、软硬件配置以及安全保密等都必须达标。四是保密工作的标准化。测验设计与研发的所有环节应严格执行保密规定,如命题团队应在具有一定保密环境的办公场所命制试题。此外,考试管理部门在试卷编辑、校对、抽取、保管、使用和评阅等过程中应做好安全保密工作,确保考评涉密信息在保密期限内无外泄。
总体来说,设定考试质量标准时应吸取古今中外考试实践方面的经验和教训,参考国际考试行业的通行标准,满足现代测量理论和技术的要求等。教育考试管理部门应设立符合我国国情的考试行业标准,从考试蓝图设计、试题编写、组卷施测、阅卷评分、分数报告、考试管理等方面着力,设置质量评价检测表或评价指南等,做好考试质量评价工作。