文/李葱葱(人力资源和社会保障部,北京 100011)
内容提要:随着国家公务员考试社会关注度和影响力与日俱增,公共科目笔试申论阅卷方法的科学性研究也越来越受到重视。从2004 年起,申论网络阅卷技术在实践中不断发展、完善、广泛使用。多年实践证明,可以通过加强“标准卷”的检测力度,提升阅卷员评阅的准确性;探索调整双评误差阈值,严控“保守分”;充分发挥专家组长的正确引领和指导作用等方式,进一步完善申论阅卷的质量控制技术,控制和减少评阅过程中的误差概率。
随着国家公务员考试不断发展,规模日渐扩大,社会关注度和影响力与日俱增,对考试管理的科学化与规范化越来越成为考试工作者面临且亟待解决的一项重要任务。进入21 世纪后,随着信息技术、网络技术突飞猛进,发展迅猛,针对公共科目笔试申论阅卷方法的科学性研究也越来越受到重视。伴随研究工作的不断深入,网络化阅卷技术方法开始引入申论阅卷。从2004 年开始,国考申论用网络化阅卷代替了人工评阅,其后,网络阅卷技术在实践中不断发展、完善,逐渐形成较为成熟的主观题阅卷技术方法,并逐步在全国31 个省区市公务员考试申论阅卷中推广使用。
以申论为代表的主观题网络化阅卷的基本工作流程是:信息录入设备(光电阅读器、图像扫描仪)读取考生纸质答题卡上的答题信息,并录入计算机系统,经技术处理后,考生答题信息由扫描系统转入评分系统,评分系统随机派发考生答卷给不同的阅卷员,阅卷员在电脑(评卷客户端)前操作键盘进行评阅。
成绩计算一般采取双评出成绩,即每份答卷都要被随机分发给两个不同的阅卷员分别评阅,即进行1 评和2 评。若1 评和2 评的分数差值在误差允许范围内,则取两者平均数作为该答卷分数;若1 评和2 评分数差值超过误差允许值,则系统交由第三名阅卷员评阅,即进入3 评。若3 评与1 评或2 评的分数差值在误差允许范围,则取这两个分数值的平均数作为该答卷分数;若1 评、2 评和3评两两之间的分数差值均超过误差允许值,试卷进入4 评,评分系统交由专家组长进行终裁。需要强调的是,若1 评和2 评两者分数差距过大,为慎重起见,有些评分系统设计成跳过3 评环节,直接将答卷转入4 评,交由专家组长进行终裁。从上述工作流程和成绩计算方法可以看出,网络化阅卷环境下,所有考生的成绩(分数)至少要经过2 名以上阅卷员的评阅才能确定,这种双评乃至多评的评阅理念和方法,也就是多人次评阅的误差控制方法,构成申论网络化阅卷质量控制的核心技术,也是迄今主观题对评分误差进行控制相对有效的一种重要手段。
针对某年度申论试卷的统计分析表明,在该年度申论试卷的各个题目上,只有1 评和2 评的试卷份数占到了试卷总数的90%以上,换句话说,双评出成绩的试卷占据了绝大多数。统计还表明,1 评分数和2 评分数的平均分、标准差和差异系数三项统计指标均高度一致,可见1 评分数和2 评分数具有相似的集中趋势和离散程度。针对各个题目间差异系数和离散程度的统计比较,也都从不同的侧面表明加入3 评环节降低了分数的偏差、提高了分数的可靠性。总之,统计结果证明,由于采用了多人次评阅以矫正误差的方法,申论网络化阅卷的整体趋势表现为宽严适当,评分者之间以及评分者内部的一致性较高,只有少数试卷的评判可能存在过宽或过严的情况,该年度申论网上阅卷质量总体上是令人满意的。
实践证明,通过多人次评阅以矫正误差,是主观题阅卷质量控制非常有效的一种方法,特别是对于类似申论这种大规模主观题阅卷,更是迄今解决主观题评分误差相对有效的一种技术手段。由于该方法只有通过网络化阅卷才能做到评阅全覆盖,从控制和减少评分误差、提高主观题评阅科学性这个角度,这一评阅理念及其方法无疑具有重大的现实意义。此外,在登分环节,评分系统自动登录并合成申论各题的分数及试卷总分,由于评分系统自动实现登分与核分,彻底解决了人工操作误差率高、工作量大等弊端,极大的提高了主观题阅卷的工作效率。
需要指出,以申论为代表的主观题网络化阅卷是一个系统工程,不仅仅是双评乃至多评的误差控制技术,整个阅卷流程与工作环节都贯穿着控制评分误差、确保评阅质量的核心思想,这一核心思想在阅卷工作中的具体表现,就是阅卷流程实施严格的质量控制以及采取一系列公平性的措施,有效确保了申论阅卷的公平和公正。
心理测量学理论认为,考试评价的基本目标是要测量考生在某一方面的知识或能力,而要做出尽可能准确的评价,必须对测量误差进行有效的控制。一般根据误差来源的不同,区分测量误差为随机误差和系统误差两种类型。随机误差是与测量目的无关的偶然因素引起的变化无规律的误差,它使得多次的测量结果不一致,测量的准确性、一致性较差;系统误差则是与测量目的无关的因素引起的恒定的有规律的误差,由于它稳定的存在于每一次测量中,具有重复性和规律性,常常导致测量的准确性较差。
通常来说,客观题考试因答案唯一且采用机器阅卷,一般误差小,测量信度较高;主观题考试由于答案不唯一,加之评分者根据主观性较强的评分标准赋分,因此误差相对较大,测量精度较低,特别是因考试测量工具本身或者测验实施过程中某些规律性错误所造成的系统误差,往往会对考试测量结果造成一定的影响。因此,针对形成系统误差的根源或症结,区分不同的情况,可以采取有针对性的措施,努力控制、减少甚至消除考试测量的系统误差。
针对申论评分误差的控制,当前的网络评分系统已经比较有效的控制了来自不同方面的随机误差和系统误差,但是在阅卷质量控制技术方面,也还存在一些需要改进和完善之处。比如作为网评系统核心技术手段之一的双评模式,根据统计,通过1、2 评决定成绩的试卷份数占到了试卷总量的90%以上,也就是说,绝大多数考生的成绩是由双评所决定的。然而双评的具体给分情况如何?双评所给出的分数是否都是准确无误?
一项针对申论评分误差概率的研究显示,申论阅卷的双评模式也存在少量的误差概率。所谓误差概率,该项研究给出如下解释:“假定某考生的真实能力以分数表示为X,两名评分员给该考生的分数分别是X1和X2。——如果X1和X2差值的绝对值在规定的范围之内,那么计算机阅卷系统认为该分数是可以接受的。但是实际上,两名评分员给考生的分数有可能同时偏高或偏低。此时,虽然考生是以两名评分员给出分数的平均数作为最终得分,但是这个最终得分却距离其真实能力X 比较远,这样就可能造成评分的误差。我们将这种误差的可能性定义为误差概率。”根据上述解释,笔者认为误差概率的基本含义,就是指评分员两两给分同时偏高或偏低的试卷占试卷总量的比例,也就是试卷总量中双评误差(以下简称“双误”)试卷所占的比例。
该项研究的基本思路是从模拟真分数推导主观题网络评分的误差概率。其主要方法是随机抽取90 名阅卷员,对50 名考生答卷给出分数。首先,把90 名评分员对某位考生某题的90 个分数的平均值作为该考生在该题目上的真实能力(即真分数X)。其次,将该考生该题得到的90 个分数两两组合,90 个分数任意两两组合的对数为4005 对,计算多少对分数组合超出了规定的分数阈值,对剩下的在规定的分数阈值范围内的分数组合,计算其分数均值并与前述考生的真分数X进行对比。将平均值上下一个标准差之内的分数作为可以接受的、在误差范围之内的分数,将平均值上下一个标准差之外的分数作为不可接受的、有评分误差的分数,将落在真分数前后一个标准差之外的分数占全部分数的比例作为不可接受的误差概率,从而得到某位考生在某题上的误差概率。将该题多名考生误差概率进行汇总并计算平均值,就得到了某个题目评分的平均误差概率。
通过对申论各题评分误差概率的计算,该项研究得出以下结论:在目前申论的阅卷人数、时间和质量监控条件下,绝大多数考生的得分在考试设计的可接受的误差范围内,只有少数考生的最终得分在自己的真实能力一个标准差的范围之外,这个标准差是3.6~5.9 分之间。
从理论和实践两方面来看,各类考试主观题的评分误差都很难完全避免。题目过难或过易、评分标准的培训不到位、评分流程和评分监控的管理过程存在疏漏等都有可能产生评分误差。因此,梳理其中可能存在的某些因素或现象,有助于我们采取有针对性的解决办法和措施。
表1 实验中使用的申论评分数据
以笔者的研究与观察,除了个别阅卷员对标答的理解与执行出现偏差外,评分过程中部分阅卷员打“保守分”是形成并加剧“双误”的一个重要原因。所谓打“保守分”,主要是指一些阅卷员打分集中在某一固定的分数区间。比如某题满分10 分,误差阈值2 分,平均分为3 分,如果较多的1 评、2 评给分都集中在3-4 分,由于不超过误差阈值,双评成绩有效,取1 评、2 评两者平均数作为考生成绩,分数分布就会在3 分或4 分附近集中,形成分数在较低分数区间的聚集(统计学意义上分数分布的正偏态)。对于这部分阅卷员的打分行为,我们通常称之为打“保守分”,因为其中显然有一些给分并没有反映出考生在该题上的真实水平,两名评分员给出的分数很可能同时偏低,造成“双误”,类似情况在中考、高考等知识型考试主观题评阅(如作文)中也有不同程度的体现。
从测验分数的解释和应用角度来看,与人的多数心理特性呈正态分布相一致,考试分数的正态分布即两头小、中间大,高分与低分段较少、中等分数段居多,原本是一种正常的、合理的分数分布的规律和特点。但是,阅卷过程中由于一些阅卷员打“保守分”,分数在某一特定的区间不断聚集,致使整体的分数分布由原本较为平缓的正态分布发生偏移,逐渐形成在某一特定分数上的集中趋势,而且随着阅卷过程的持续,打“保守分”的现象逐渐增加,在某一特定分数上的分数聚集越来越多,分数分布的集中度不断增加,进而造成较为严重的分数分布的趋中化。
申论分数分布的趋中特点可以从试题试卷统计分析中得到验证。针对阅卷员的打分倾向,某年申论阅卷统计分析报告给出了粗略的估计:每个人独立打高分的比例很低,约在0.5%左右,依此粗略估计,如果认为两个人打分是完全独立的,则被两个人同时打高分的比例仅为0.03%左右。虽然双评同时给高分的比例极低,但是一评给高分、另一评给低分的比例还是会比0.03%这个比例要高一些,这样,试卷便进入到3 评乃至4 评。对于进入到3 评、4 评的试卷的给分总体趋势和倾向,该报告通过进一步分析发现:除在第1题上“宽宽试卷”(3 评和4 评评分者给分比前两评中的高分还高,即采取相对宽容的评分策略)和“严严试卷”(3 评和4 评评分者给分比前两评中的低分还低,即采取相对严格的评分策略)基本持平外,在其他6 个题目上,“严严试卷”在3 评4 评试卷中所占的比例都明显高于“宽宽试卷”。这说明第三个人或者组长在大多数情况下倾向于采用比较严格的评分策略(详见表2 和表3)。
表2 摇宽严试卷汇总表(一)
统计结果显示,3 评和4 评给分一般会受到较低分数的影响,因此考生成绩最终还是会落在较低的分数上,整体的分数最终还是会被拉低、并集中在某一分值较低的狭窄区间(如平均分附近),也就是说,申论各题均不同程度的呈现出分数分布的集中趋势和低分特征。从实际评阅过程来看,一些阅卷员打“保守分”无疑在很大程度上形成并加剧了分数分布的集中趋势,它最直接的后果表现为降低了申论考试的区分度,影响了申论对考生基本能力的区分程度和鉴别效果。
从技术角度分析,双评误差阈值的设定以及阅卷质量监控强调阅卷员间评分的一致性,某种程度上也加剧了阅卷员为规避双评误差而选择打“保守分”的倾向。由于阅卷员把通过系统的一致性检验作为首选,为达此目的,某些阅卷员选择打“保守分”,趋向同宽同严,目的都是规避双评误差风险以通过一致性检验,而且这种非正常的评分现象,有时会掩盖在评分一致性的表象之下。
比如某些阅卷员的评分被采用数多,采用率高,这种情况一方面有可能反映其评分的可信度较高,但另一方面,如果该阅卷员在打“保守分”,并与别的也打“保守分”的阅卷员给分形成匹配,假设分数匹配多集中在误差阈值内,评分系统就会显示出该阅卷员的高采用率。换句话说,系统显示某些阅卷员有效试卷的高采用率,其背后很可能隐含着某种危险,实际存在的评分误差有可能获得一种“合法性”的掩盖,一旦出现这种情况,对主观题评分误差的监控就会出现盲区和死角。
再比如三评率作为衡量评分者一致性的重要指标,也需要一分为二,客观看待。所谓三评率,通常指超出误差阈值进入三评的试卷占全部在阅试卷的比率。从一般的意义上说,三评率较低,说明超出误差阈值进入三评的试卷量较少,阅卷员整体标准把握的一致性较好,分数的可信度较高,但这只是问题的一个方面;另一方面,较低的三评率很有可能掩盖了分数分布的趋中化,即分数的分布在某一区间高度集中,呈严重的正偏态或负偏态,这种情况提示很可能存在打“保守分”的现象。
具体来说,如果评分数都集中在某一区间(如平均分附近),且都在误差阈值范围内,试卷不可能进入三评,此时表面上看误差卷很少,三评率很低,但在全距严重缩小、分数分布高度集中的情况下,实际上存在着阅卷员打“保守分”的现象,由于这种现象通过三评率指标较难发现,从三评率角度监控评阅质量出现盲区,因此,切不可仅以三评率指标的高低来轻易判断、评估阅卷员的阅卷质量状况。
表3 摇宽严试卷汇总表(二)
针对申论阅卷双评模式存在的误差概率,可以尝试从技术和管理等不同角度探讨改进和完善的策略方法。笔者多年参与申论阅卷的管理工作,认为主要应从以下三个方面采取有针对性的解决办法,进一步完善申论阅卷的质量控制技术,力争控制和减少评阅过程中的双评误差概率。
如何更加精准地评估、检验阅卷员标答执行的准确性,有效纠正和控制阅卷员打“保守分”,这是解决双评误差概率的症结所在。笔者认为,根据网络阅卷的工作流程,对准确性的检验比较可行且有效的监控手段,就是加大“标准卷”的检测力度。
所谓“标准卷”(又叫“标杆卷”),通常指专家组长(核心专家)在标答制订和正评阶段从考生答卷中抽取的、具有一致的评价并共同确认分数的试卷。考虑到检测的目的和效果,“标准卷”一般要求尽可能覆盖到好中差各个不同的分数段,并且要包含一些具有代表性的、可能引发争议的答卷,这些“标准卷”直接导入评分系统,在评阅过程中按一定比例随机发放给阅卷员进行评阅。
评阅过程中发放“标准卷”的主要目的,是在设定“标准卷”分数为整体参照标准、即设定其分数正确可信的前提下,检验阅卷员给分与“标准卷”分数的差异情况,通过观察其分数差异,了解、评价阅卷员个体评分的准确性,这一方法构成申论阅卷一项重要的质量控制技术手段。
表4 摇第1-4题各个类型标准卷上的均值情况一览表
标准卷检测在阅卷质量管理中的重要作用,可以从试卷统计分析中得到确认。表4 为某年申论试卷各题各个类型标准卷上的均值情况一览表。根据统计结果,第1、2、3 题评分者打分与标准卷分数的分差并不大,两者差值的平均值基本在误差允许范围内。第4 题考虑到是写作题,满分为40 分,1 评2 评之间的误差阈值设定为7 分或8 分,评分者与标准卷两者分数差值的均值最大为7.71(不到8 分),基本等同于双评误差阈值,说明评分者打分与标准卷的分差仍在可控范围之内,这就从标准卷检测角度证明,正评阶段阅卷员整体对标准的把握还是相对比较准确和稳定。
由此可见,“标准卷”作为一个标杆,一个参照物,可以很好地检验阅卷员个体评分的准确性。针对评分系统发现的打分与标准卷分差较大的阅卷员,专家组长会重点予以关注,采取相应方法和措施进行指导,及时纠正其可能存在的评分偏差。从这个角度来看,增加“标准卷”的发放数量、发放频率、发放时间等,及时加强对相关数据的研究分析,可以非常直观、准确地了解阅卷员标准把握的准确性程度。更为重要的是,通过“标准卷”检测,可以非常及时地发现阅卷员评阅过程中一些带有系统性、倾向性的问题,诸如对答题要点的错误理解、对评分标准和赋分细则的不当把握等,发现这些带有规律性的问题,采取各种技术手段(重评、限速等)和管理方法(复核试卷、单独指导等),及时进行干预,可以有效控制阅卷员打“保守分”,减少评阅过程中的双评误差比例。总之,树立问题导向,加强“标准卷”的检测,发挥其重要的监控指导作用,在现有的网络技术条件下,不失为控制和减少双评误差概率的一种有效的质量控制技术手段。
依笔者多年实际评阅工作的经验和体会,尝试从技术角度采取措施,控制和减少阅卷员打“保守分,减轻申论分数分布的趋中特点,这是减少双评误差概率的另一项重要的质量控制技术手段。
当分数全距缩小后,是否仍采用现行的双评误差阈值,有必要进行深入的量化分析与研究。现行的主观题双评误差阈值设定一般掌握在题目分值的五分之一(写作题略宽),这一标准设定源自于高考主观题评分,其理论依据建立在对主观题评分误差的统计测算结果,即主观题评分误差的均值大约是题目分数的五分之一,这一均值大体上构成主观题评分误差的临界点,超出这个临界点,主观题的评分误差变得不可控,分数的可靠性会受到影响。根据上述测算结果,各类考试(教育考试、人事考试等)主观题评分的误差阈值一般设定在题目分数的五分之一,比如20 分的题目,五分之一的双评误差阈值就是4 分,双评误差超过4 分,试卷需要进入三评或交由专家组长复核。
笔者认为,通过计算题目全距缩小的程度以及具体的分数分布状况(方差、标准差、峰度等),可以适当调整双评误差阈值大小。假设20 分的试题,双评误差阈值由目前的五分之一扩大为四分之一,也就是由4 分扩大到5 分,理论上存在这样一种可能性:由于误差控制标准相对宽松,两两分数的匹配空间会适当增加,当分数全距拉开后,标准差也会相应增加,分数分布将趋向平缓,各个分数段的得分有可能变得均衡(当然这与题目的分值大小会有一定关系)。更重要的是,误差阈值相对宽松后,阅卷员为规避双评误差而采取打“保守分”策略,以增加评分匹配性或采用率的欲望有可能降低或减弱,评分趋中现象有望得到缓解、改善,分数的分布将会趋向合理,题目对考生的区分鉴别能力将会得到加强,从这个意义上说,限制阅卷员打“保守分”,减轻评分趋中现象,有助于控制和减少评阅过程中的双评误差概率。
需要指出的是,双评误差阈值扩大,分数分布的具体结果究竟如何,尚需接受一定范围的实践检验,并根据考生样本容量和题目评阅的相关数据进行测算,绝不是一个简单拍脑袋就可以回答的问题。但是,探讨从技术角度改进评阅方法,控制阅卷员打“保守分”,从根本上解决评阅过程中的双评误差现象,这是申论阅卷乃至所有主观题评阅都需要关注的重点和难点,这方面尚需考试工作者深入进行理论研究与实践探索,以期进一步提高主观题评阅的科学性。
实际评阅过程中除了少数阅卷员打“保守分”外,个别阅卷员对标答的理解与执行出现偏差,也是形成并加剧评分误差的一个重要原因。以笔者的观察和判断,出现上述偏差主要在于某些外源性因素的影响。从整体工作流程来看,由于申论标答制订阶段严格的质量控制程序和质量控制标准,基于标答自身因素所引起的误差并不显著,某些外源性因素的影响可能更加重要。
引起误差的外源性因素,主要是指阅卷员培训、试评以及正评阶段造成误差的各种疏漏和失误。比如培训过程中,针对少数阅卷员提出的不同意见,专家组长(核心专家)未能进行有说服力的回应、说明和解释,致使其针对标答内容的错误理解或不同观点不但未能化解,反而进一步得到默认和强化;培训、试评和正评过程中,由于不同专家组长之间意见观点不统一、同一专家组长对标答的解释前后不一致、专家组长对标答的解释说明含混不清等多方面因素,造成阅卷员对标答的理解不一致,从而产生执行上的偏差;此外,面对人数众多的阅卷员群体,专家组长的质量管理很难做到全覆盖无死角,这就造成少数阅卷员评分过程中的失误有可能被忽略或遗漏,当上述个别的、偶发的误差因素经叠加、累积,形成扩散,就有可能在阅卷员间形成对标答一定范围的误解和误用。鉴于此,加强对专家组长的遴选和使用,强化专家组长对阅卷员的正确引领和指导显得至关重要。
申论阅卷过程中一个非常重要的质量控制手段,就是专家组长借助网络评分系统适时、动态地进行评阅质量监控,以确保阅卷员整体的评阅工作质量和效率。需要指出的是,评分系统的使用在质量控制方面呈现更加及时性、动态性和多样性,然而该系统只是一个平台,它只是提示了阅卷员存在评阅误差的各种可能性,具体到对监控指标的分析理解以及对监控结果的实际运用,还是需要结合人工进行判断取舍。因此专家组长及时跟踪、分析评分系统的监控数据,对阅卷员个体进行有针对性地指导与帮助,成为申论阅卷正评阶段质量控制的一项重要内容。
在这个过程中,专家组长既要树立全面、审慎的观点。注意综合多个指标,从多个角度,全面、客观评估阅卷员的工作质量,切忌以偏概全,仅凭系统中某一项统计指标或某一个统计数据轻易做出判断和结论。同时还必须重视进行试卷复核。通过及时跟踪分析系统监控指标和统计数据,发现、锁定问题阅卷员,运用试卷复核方法,对异常情况进行确认,找出具体原因,进行有针对性的指导和帮助。试卷复核可以抽查阅卷员某一分数段、某一时间段直至全部所阅试卷,它是专家组长发现问题的最有效手段,也是阅卷质量管理最重要、最常用的一种方法。需要强调的是,针对某一批次的异常分数试卷,或评分存在问题的某一批次试卷,评分系统一般都设有试卷回收功能,可以做到必要时回收并取消该批次直至全部所阅试卷的分数,试卷重新进入评分系统进行重评。评分系统这一纠错功能的设计,为确保申论阅卷质量提供了有力的技术保障。
针对进一步强化专家组长在阅卷质量管理中的引领指导作用,需要重点关注并解决以下问题:首先,要重视专家组长的遴选。务必确保承担阅卷质量管理重任的专家组长具有较高的业务能力和勇于担当的责任意识,对于某些能力欠缺、责任心不强的专家组长要坚决淘汰。管理部门要通过建立必要的专家竞争机制,形成良性循环,努力打造一支高水平的阅卷核心专家队伍;其次,要根据专家组长各自不同的特点和能力,优化各题组人员搭配组合。配置各题组人选要统筹兼顾,充分考虑不同专家在年龄、性格、能力、经验等方面的相互匹配与互补,使之尽可能团结协作,互相补台,形成合力;第三,要充分重视专家组长与阅卷员间必要的沟通与交流。针对阅卷员提出的有关标答内容和评分标准的质疑,专家组长必须及时回应解释,通过充分的、有理有据的分析说明(必要时可结合具体试卷的点评),务必说服阅卷员改变错误认识或不当观点,尽可能统一评分标准尺度。专家组长切忌对阅卷员的质疑或不同意见视若无睹,不予回应,从而加剧其对抗情绪和逆反心理,影响评分执行的准确性和稳定性。
总之,充分发挥核心专家的正确指导和引领作用,主要目的是力求纠正阅卷员对标答的错误认识和理解,尽可能减少和控制主观题评阅过程中的双评误差试卷。