杨志明 魏 勇
高考志愿填报工作直接关系到高校的招生质量、考生的发展方向及其未来的成就,因此它一直受到全社会的高度关注。在确保公正、公平的前提下,为了增加考生的选择机会,目前大多数省(区、市)在高考录取过程中采用了平行志愿投档模式,其特点是“分数优先、遵循志愿”,以降低“高分落榜”的风险。然而,凡事有利有弊。比如,“分数优先”的投档规则就常常被指责为“唯分数论”,因为在这种规则下高校招生部门基本上没有选择学生的话语权。此外,高考分数年度之间的不等值问题也给广大考生和家长增加了志愿填报工作的难度和复杂度,更给教育教学中的增值评价工作带来了不少困难,因为不同年份的试卷无法做到难度完全相等,所以相同的高考总分一般具有不同的含义。[1][2][3][4][5]于是,有研究者建议使用高考等位分数,帮助考生对招生高校在本省不同年份之间的录取投档分数情况进行比较。但是,很多人对等位分数的测量学特性并不十分了解,也不知道它与等值分数(equated score)的区别,还有人对采用等位分数开展高考志愿填报工作存在疑问。因此,很有必要从现代教育测量学的角度,厘清等位分数的概念,规范它的计算方法和使用条件,为考生和家长以及相关机构的高考志愿填报工作提供科学的依据和实操办法。
在教育测量与评价领域,考试分数主要表现为3 种形式:一是原始分数;二是量表分数(scale score,SS),或标准分数(standard score),或T 分数,或标准九(stanine)等;三是等级分数,如百分位等级(percentile rank,PR)分数等。[4]
原始分数特指试卷中所有题目的卷面得分之和。其优点是简单、直观,而且大众对它习以为常。但原始分数具有“分数度量单位不等距”和“分数参照点会漂移而且没有确定含义”等缺陷。[3]比如,张三的高考语文成绩“从30分增长到40分”与李四的高考语文成绩“从140 分增长到150 分”的意义是极不相同的,因为前者的目标很容易实现,而后者的目标几乎无法实现,即不同分数段的分数增量的含义并不相同。另外,当试卷特别容易或高水平考生比例特别高时,绝大多数人会得高分,表现为极端的负偏态分布(见图1);当试卷特别难或高水平考生比例特别低时,绝大多数人会得低分,表现为极端的正偏态分布(见图2)。这两种情况下的零分并不是同一个意思,直接用这种分数的变化量实施增值评价是不科学的。
图1 试卷特别容易或高水平考生比例特别高时的负偏态分数分布
图2 试卷特别难或高水平考生比例特别低时的正偏态分数分布
简单地说,原始分数在度量单位和参照零点方面存在重大缺陷。
为了克服原始分数的缺点,国际考试行业设计了多种量表分数。比如,以应考总体分数的均值为参照点、以标准差为单位的标准分数就是一种常用的量表分数。把这种标准分数做一定的线性转换则可以得到大众所喜欢的任何形式的导出分数(derived score)。比如,美国高考SAT 学科考试的导出分数公式如(1)[6]所示。
其中,X为SAT 某个学科考试的原始分数,X是其平均值,S是其标准差,SS是相应科目的量表分数或标准分数。
值得说明的是,使用公式(1)所得的量表分数的均值是500 分,标准差为100 分,每个考生得分介于200 分到800 分之间。量表分数的最大优点是克服了原始分数所固有的分数单位不等距和分数参照点没有确切含义的问题。但使用这种方法的前提条件是考生的原始得分分布基本为正态分布。当原始分数的分布为图1 和图2 所示的极端偏态分布时,不能使用公式(1)估算考生的量表分数。
在不需要对考试结果做出严格区分,或在量表分数的使用前提条件不满足的情况下,考试行业一般推荐使用等级分数。其中最常用的方法是把原始得分由低到高均匀分成1~99 等级的赋分方法(百分位等级)。也有考试项目使用了“把原始得分由高到低按照某个人为设定的应考者比例赋予等级分数”的方法。比如,某省“3+1+2”高考方案中选考科目的等级赋分规则为:应考群体中原始分由高到低的17%,33%,33%,15%和2%的人被分别赋予A,B,C,D,E这5个等级。[7]每个等级再根据插值法转换成30~100分的分值。具体转换关系如表1 所示。
表1 某省“3+1+2”高考方案中选考科目的等级赋分规则
值得指出的是,按照固定比例对选考人群的原始分数进行等级赋分的前提条件仍然是全体考生的原始分数分布接近正态分布。否则,若选考群体的原始分数分布为极端负偏态分布(如图1所示),则会严重低估中上水平考生的成绩;若选考群体的原始分数分布为极端正偏态分布(如图2 所示),则会严重高估中下水平考生的成绩。解决这类问题的国际经验是对考试分数做标准设定处理或实施测验等值。[8]若这些国际经验使用的前提条件不足,则可以通过“确定赋分规则的考生群体必须为全省代表性群体而不是选考群体”[9]等办法有效解决。
各地目前使用的等位分数是指若干相邻年份全省高考总分排名相同的分数。参照测验等值的做法,可以选定某一年度的高考总分度量系统作为高考量表(scale),随后年份的高考总分均通过这种“排名相当分数等价”的方式,把高考总分转换到这个参照量表之上,得到新一年度的高考等位分数。其具体算法如下。
等位分数的计算方法与等百分位等值(equipercentile equating)的思路一致。[10][11][12]考虑到高考总分满分为750 分,因此需要把等百分位等值方法拓展为“等千分位等值”。也就是说,不能把全省的考生群体按照高考总分均匀地区分为1~99 个得分类别,而是要把全省考生群体按照高考总分均匀区分为1~999 个得分类别,以确保等位分数的计算精度(由于总共只有750 个得分点,所以把量表变成999 个得分点后会出现分数空隙)。其具体计算步骤如下。
步骤1:验证等值的前提条件。检验新一年的高考总分X与基准年度高考总分Y是否基本满足测验等值的前提条件。[5]
步骤2:计算所有可能的得分等级。分别计算X和Y每个可能得分的千分等级(P)累积千分等级(CP)。
步骤3:计算X分数的等级中值。根据X总分上的Px和CPx,计算每个原始分数所对应的累积千分等级的组中值MP,如公式(2)所示。
步骤4:寻找Y测验MP范围。根据MP值,寻找y1和y2,使其对应的CPy1<MP,并且CPy2>MP。其中,y1与y2之间没有任何实际得分。
步骤5:插值计算等值分Eq(X),如公式(3)所示。
至此,新一年的高考总分(X)便转换到基准年度高考总分(Y)的分数度量系统之上,获得了等位分数。
为了说明等位分数的具体算法,现举例说明如下,详见表2。
根据表2,我们可以比较容易地通过比对具有相同千分位等级的方法,找到每个年度之间高考总分的对应关系。比如,在2015 年,高考总分399 分所对应的千分位等级是356.3;在2016年,与千分位等级356.3 最接近的千分位等级是356.8,其所对应的高考总分是392 分;在2017年,与千分位等级356.3 最接近的千分位等级是355.9,其所对应的高考总分是372 分。于是,2016 年的392 分和2017 年的372 分都可转换为2015 年高考总分量表上的399 分。依此类推,我们可以把2016 年和2017 年的所有高考总分都转换在2015 年高考总分的度量系统之上,从而获得基于2015 年高考总分度量系统的2016 年和2017 年高考等位分数。也就是说,若把2015 年的高考分数作为基准,则需要把2016 年的392分转换为399 分,把2017 年的372 分转换为399分,其余类推。
由于等位分数的计算和解读思路与等百分位等值分数的计算和解读思路基本一致,因此,测验等值的根本要求同样适用于等位分数。
首先,需要假定不同年度之间的考生总体没有发生实质性变化。在实施等百分位等值时,通常需要用到等组设计,因此,两个年度之间的考生总体需要假定是同质的。
其次,需要假定不同科目组合的高考总分没有本质差异。根据测验等值的要求,考生选考任何一种科目组合的分数必须是等价的,无论高考中的选考科目组合如何,必须假定它们之间是没有本质差异的。事实上,这个条件基本上无法满足,强行使用等位分数在本质上忽略了这种差异。
最后,换算后的等位分数不得变动考生在全省的排位顺序。使用等位分数,仅仅是方便比较高考分数年度之间的变化情况,方便考生的志愿填报工作,而不能改变考试成绩在全省的排位。
首先,等位分数并不真正具有等值分数的特性。在教育测量学领域,等值分数一般需要满足下述条件:(1)新测验与标杆试卷(或基准试卷)必须测量相同的内容或结构;(2)新测验与标杆试卷必须具有相同或非常接近的测量信度;(3)新测验与标杆试卷之间的分数具有对称关系;(4)考生选考任何一次测验所得量表分数必须是等价公平的;(5)等值关系在同一个总体上是不变的;(6)等值样本的能力分布与考生总体的能力分布非常接近;(7)等值设计中的锚测验必须与标杆试卷完全一致。[5]十分遗憾的是,目前的高考总分构成并不唯一。部分省、市实施的“3+1+2”高考模式可以有12 种科目组合方式,早期试点的“3+3”高考模式可以有20 种(上海市、山东省等采用6 选3 模式)或35 种(浙江省采用7选3 模式)科目组合方式,因此,目前流行的这种等位分数在本质上无法满足“测评内容或结构相同”的前提条件,不同选考科目组合的总分无法达到“等价”的条件,只能算是一种“准等值分数”,并不具备等值分数的全部特性。
其次,等位分数的计算方法有待规范。民间流行的等位分数是根据考生原始成绩在全省的排名次序计算的,其表现形式与原始分十分接近,但存在着分数范围不确定、分数含义不清晰等问题。比如,等百分位等值的分数一般被设定为1~99,量表分数的均值通常为500,标准差为100,范围为200~800 分,而等位分数目前没有一个统一的设计。等位分数的得分范围该如何设定,可能需要有一个全面的考虑。
再次,等位分数的表达形式需要兼顾大众习惯。由于目前的“3+1+2”高考方案的高考总分是750 分,等位分数的设计范围只能接近或略大于这个范围。一般来说,大众乐意见到“高考总分被调高”的结果,而不能接受“高考总分被调低”的赋分方法。
最后,等位分数的计算需要尽可能利用更多信息。目前,等位分数的计算只能依靠各省(区、市)公布的全体考生的“一分一段表”,无法得知每个学科的考试信度和效度等信息。因此,高考志愿填报服务机构所计算的等位分数很可能存在较大偏差。假若这个工作由各省(区、市)教育考试机构,或者委托某个独立第三方考评机构来完成,则可以得到具有中国特色的接近等值分数的等位分数。
高考志愿填报工作的重要性毋庸置疑,考生想用好考试分数进入理想的高校或专业,就需要了解目前正在实行的“分数优先、遵循志愿”的平行志愿模式。[13]无论是“大文/大理”的传统高考模式,还是“3+3”或“3+1+2”的新高考模式,普通批次的高考志愿投档规则主要是平行志愿投档模式,即某个录取批次的考生可填报若干个平行设置的志愿。平行志愿投档时,所有符合报考类别招生资格的考生按“分数优先、遵循志愿”的原则进行投档录取,只是平行志愿填报的“单位”不同,如陕西省、江西省等是以“院校”为单位;上海市、湖南省等是以“院校专业组”为单位;浙江省、山东省等是以“专业”为单位。[14]
平行志愿投档规则的主要特征是:(1)某一录取批次考生可以填报若干个平行设置的志愿“单位”(如湖南高考普通类最多可以填报45个院校专业组志愿,山东高考最多可以填报96个专业志愿);(2)投档过程全凭高考总分由高到低顺序投档(如遇到总分相同时,依据各省制定的同分排序规则执行,比如,总分相同时先比较语文,语文也相同时再比较数学等,各省排序规则略有不同);(3)按照考生排列顺序,依次浏览不同考生的志愿,只有排序在前的考生电子档案完成志愿院校的投档后,才会启动后一位考生的志愿检索和投档程序。
平行志愿投档规则的具体步骤[15]如下。第一步,从总分排名最前面的学生开始检索,首先考虑其第一志愿,如果第一志愿“单位”(学校、院校专业组或专业)还剩有录取名额,则将其投档第一志愿“单位”;否则考虑投档其第二志愿“单位”……以此类推,直到将该生电子档案投档到其中某一志愿“单位”为止,否则落榜。……第N 步:分数排名第N 的学生,首先考虑其第一志愿,如果第一志愿“单位”还有剩余录取名额,则将其投档第一志愿“单位”;否则考虑其第二志愿“单位”……以此类推,直到将该生电子档案投送到其中某志愿“单位”为止,否则落榜。当所有学生的志愿都被依次检索并完成投档时,本次平行志愿投档工作结束。
显然,这种“分数优先、遵循志愿”的录取模式与传统的“志愿优先、梯度投档”的录取模式有较大区别。例如,假设有考生A(高考总分658 分)的第一、第二志愿分别为高校BD 和FD,考生B(高考总分660 分)的第一、第二志愿分别为高校QH 和BD,并假定BD 和QH 的投档线分别是657 分和661 分。这时,若使用传统的“志愿优先、梯度投档”规则,在第一轮投档过程中,考生A 会被投档给BD,而考生B 没有资格被投档给QH。第一轮录取过后,若BD 已经完成了招生计划,考生B 的第二志愿(BD)会自动作废,从而出现“低分(658 分)被录取、高分(660 分)却落榜”的争议结果。若采用平行志愿投档规则,则BD,QH,FD 等高校志愿是平行的,分数较低者只能等分数较高者被其众多平行志愿中的某所高校录取之后才有机会被投档。也就是说,根据“分数优先”原则,考生B会被首先推送给BD;待全省所有659 分及以上分数的考生都被BD 挑选过后,若BD 还有招生指标,考生A 仍有上BD 的机会;否则,考生A就无缘BD,这时,他只能去参与FD 等其他平行志愿院校的竞争。
由于平行志愿投档规则具有“分数优先”的特点,因此准确分析每所大学历年录取分数线的等位分数就很有意义。比如,假设某高校RD 在2015 年的高考录取线为399 分,由表2 可知其2016 年的等位分数为392 分,2017 年的等位分数为372 分(三者所对应的全省千分位等级都是356.3 左右)。因此,在2017 年填报高考志愿时,只要考生的高考总分在372 分以上,则自己有很大的可能被RD 这所高校录取。若直接比较原始分数总分,则会误以为总分要在399 分以上才有机会被RD 录取,造成“高分低录”的遗憾。
表3 是两所高校的投档案例。由表3 可知:若只看高考总分,则看不出太大规律;若考察高考总分的全省排位,则可以得到较多有益信息,但梳理起来十分复杂;假若比较千分位等级,则规律明显。例如,假若2022 年的一名物理类考生的全省千分位等级在977 左右(即全省最优的23‰以内),则他有较大机会被ZN 大学录取;若其千分位等级在966 左右(全省最优的34‰以内),则他有较大机会被HN 大学录取。特别有意思的现象是,这两所大学均以理工学科见长,人文社会科学并不突出,但他们所招收的历史类考生水平一般在千分位等级994 左右(即全省历史类考生中最优的6‰以内)。因此,“文科天才是否值得去报考理工科水平很高而人文社会学科水平并不拔尖的高校”的问题值得深思。
表3 两所高校在某省最近3 年的高考录取分数线及其全省排位和千分位等级
若大众不习惯千分位等级,则可选定某个年份的分数度量系统为高考总分的基准系统,再通过等千分位等值的方法把新一年的高考总分转换为基准量表上的分数,从而直接使用等位分数填报志愿或开展增值评价工作。当然,对于北京大学和清华大学等少数高校而言,等位分数的用处不大,因为他们通常只关注全省排位在前30 位或前50 位或前80 位以内的考生。
特别值得说明的是,为了避免“唯分数论”,现行的平行志愿投档规则最好能结合高考新方案,构建出基于总分和专业等多种指标的等位分数,实行“多指标多阶段”录取模式。[16]“多指标多阶段”录取模式指的是“设置栏杆、逐级淘汰、优中选优”的录取模式,其主要特点是在招生录取的初级阶段设置若干门槛淘汰不合格者或不匹配者,在后期继续使用目前的平行志愿规则实现优中选优的目的。其具体操作步骤是:(1)根据招生政策,设定各高校各专业对学生基础知识、思维能力以及德智体美劳等方面的多种指标;(2)把录取过程分为2~4 个阶段,在1~3 阶段重点设置不同的门槛,淘汰具有某种短板或不符合专业要求的不合格者;(3)在最终阶段,使用与相关专业最密切的重要指标,再按照“分数优先、遵循志愿”的平行志愿规则优中选优。其中,前期各阶段各指标的功能旨在淘汰不合格者,最终阶段各指标的功能旨在优中选优。
总之,等位分数是一种接近等值分数的“准等值分数”,它在指导高考志愿填报方面具有较大实用价值。各省(区、市)教育考试机构若能在现有的分数报告系统中,添加一个基于某个特定年份的等千分位的等位分数或多种“单位”等位分数,并使用“多指标多阶段”的改进版平行志愿规则,则会大大提升考试机构的服务水平和质量,增加高校在规则范围内的招生话语权,减轻“唯分数论”的弊端。