主观题网上阅卷员队伍建设与误差控制研究

2012-11-08 08:05刘建华郜国民刘华民

中国考试 2012年9期

刘建华马睿郜国民刘华民

网上阅卷作为国家推进考试工作标准化改革的重要环节，在我国普通高考、成人高考、公务员考试、英语四六级考试等各类重要考试中已被广泛使用。网上阅卷是利用高速图像扫描与识别技术、网络技术、大型分布式数据库及大容量智能化的网络存储等先进的电子技术和计算机技术进行辅助评卷。在阅卷过程中，阅卷员直接面对由系统随机分发的考生的答题信息图像，并通过输入设备给出考生的得分，由系统自动统计汇总，大大提高了阅卷效率，也极大的提高了阅卷的保密性。

网上阅卷消除了传统阅卷过程中的非阅卷误差，方便了阅卷管理，提供了阅卷质量监控的新手段，对于评分误差的控制具有重要的现实意义。纵览网上阅卷的全过程，在阅卷工作开始之前，做好阅卷员的遴选和培训，将误差控制的关口前移，是控制评分误差的重点；在阅卷过程中，做好阅卷员的管理和阅卷质量监控，是控制评分误差的关键；在阅卷结束后，建立阅卷员评价体系、模型，并基于阅卷员的原始表现，建立阅卷员信息库，是控制评分误差的支撑。

1 主观题网上阅卷员的遴选和培训

1.1 阅卷员的遴选

阅卷员的遴选是提高主观题阅卷质量的基础环节，同时也是最核心的环节，遴选出一批责任心强、业务水平高的阅卷员，并保持科学、合理的结构和比例，事关整个阅卷工作的成败。在具体实践中，管理科学中的履历分析技术、胜任特征模型理论等人才选拔理论，是做好阅卷员遴选工作的有效工具。

1.1.1 胜任特征模型理论在网上阅卷员遴选中的应用

胜任特征模型也称为资质模型、素质模型，是组织行为学和人力资源管理理论研究的前沿课题之一，其基本原理是辨别优秀员工与一般员工在知识、技能、社会角色、自我认知、特质、动机等方面的差异。在网上阅卷员遴选工作中，可根据胜任特征理论，以阅卷过程中积累下来的原始数据为基础，总结分析在阅卷工作中表现优异的阅卷员的共性特点，结合网上阅卷工作的特点，构建网上阅卷员胜任特征指标体系，并通过理论研究、问卷调查等方法，对胜任特征指标进行赋值，建立网上阅卷员胜任特征模型。通过胜任特征模型的考核，让综合表现较为突出，适合网上阅卷工作的教师脱颖而出，并将其吸纳到网上阅卷员队伍中来。

1.1.2 履历分析在网上阅卷员选拔中的应用

履历分析是通过对评价者的个人背景、工作与生活经历进行分析，来判断其对未来岗位适应性的一种人才评估方法。通过履历分析，可以对考察对象的各种素质尤其是外在型特征有一个全面的了解，为进一步选拔提供重要依据。在具体应用中，可通过专家访谈法和调查问卷法筛选、确定履历分析的项目并确定其权重，在此基础上设计加权履历表。网上阅卷员履历登记表应主要包括如下四个方面的内容：一是基本信息，包括姓名、性别、出生年月、民族、学历、学位、专业、职称、婚姻状况等；二是知识和工作能力，包括受教育情况、职业经历、接受培训情况等；三是家庭和社会关系，包括家庭成员和主要社会关系的基本情况；四是品德素养，包括过去的工作表现、奖惩情况等。在网上阅卷员的履历评估中，适用于履历评估三大评估公式中的混合公式，即（其中P为录取概率，A为个人基本情况得分，B为个人知识与工作能力得分，C为个人家庭与社会关系得分，D为品德素养得分。P、A、B、C、D的值域为0～100），其基本思想是可以容忍阅卷员工作能力、工作水平等方面的小缺陷，但对品德素养等实行一票否决。

1.2 阅卷员的培训

扎实、有效的岗前培训是确保阅卷工作平稳顺利进行的根本保证，应从源头抓起，切实做好四项培训：（1）上岗培训。主要包括思想政治教育、保密条例教育、工作责任感、荣誉感教育、阅卷纪律教育、业务知识培训等。（2）试评培训。主要包括：评分细则的讨论、制定、阅卷系统的操作、试评卷和测试卷的评阅等。（3）质量控制培训。主要包括试卷复评、抽查、退回、修改、问题卷处理等。（4）心理压力和情绪调节培训。主要包括放松训练、腹式呼吸训练、肌肉放松训练、渐进式放松训练等。

2 主观题网上阅卷员的管理及阅卷质量监控

2.1 阅卷员的管理

阅卷期间，阅卷员的思想状态、身体状态、精神状态、心理状态的好坏直接影响着阅卷质量。为确保阅卷员能够以最佳状态投入到评卷工作中，在阅卷员管理方面可从如下方面开展工作。

一是要完善阅卷组织机构。可根据工作需要，在评卷工作领导小组下设综合协调组、学科评卷组、评卷质检组、技术服务组、后勤保障组、纪检监察组、安全保卫组等机构，明确各工作组职能，确保评卷工作有序进行。二是要强化激励机制。从物质、精神等多种方面，激发评卷教师的工作积极性，提高整体评卷效率。这里可引入斯金纳的强化理论，综合使用积极强化（如物质奖励、精神奖励、差异激励等）和消极强化（如诫勉谈话、退出机制、差异薪酬等），激发起阅卷员的工作热情，营造积极、向上、和谐的阅卷环境。三是要引入心理干预。长时间高强度的阅卷工作，极易使阅卷员产生心理上和生理上的疲劳。在疲劳的状态下，阅卷员很难保持注意力的稳定，进而会对阅卷质量造成重大影响，因此必须采用有效手段，调节阅卷员的状态。（1）优化进度管理，控制阅卷节奏和进度。（2）进行心理辅导，帮助阅卷员克服骄躁心理、松懈心理、畏惧心理、同情心理、定势心理等不良阅卷倾向。（3）尊重人体生物节律，合理安排工作时间。

2.2 阅卷质量监控

相对于传统的阅卷形式，网上阅卷的最大优点是可以进行实时的质量监控。试卷评阅工作正式开始后，可以通过随机抽样、分段抽样、自动抽样、等距抽样等方法对阅卷员的评卷质量进行抽查，对阅卷员的评分分布、平均分、标准差、有效度、评分一致性等数据进行分析，对阅卷员的评阅质量进行评估，进而确定需要重点抽查的对象，发现可能存在的阅卷误差。

2.2.1 通过一致性检验发现误差

一致性检验包括阅卷员自身的一致性检验和阅卷员之间的一致性检验。阅卷员自身的一致性检验主要是通过随机抽取某一阅卷员已评试卷的一定比例，返回给该阅卷员重新评阅，比较两次评分结果是否存在较大误差。其目的是检验阅卷员在不同时段是否能够保持评分的一致性和稳定性。阅卷员之间的一致性检验，主要是通过比较阅卷员之间的，以及阅卷员和阅卷组之间的评分分布、平均分、标准差等数据，检验和评价阅卷的阅卷质量。在具体阅卷工作中，主要通过监控阅卷员之间的一致性检验，控制评分误差。

一是通过评分分布发现误差。评分分布（比率）是对评过的一批试卷中某题得分所作的频数分布（这一批分数可以是全体评卷员的评分，也可以是一组评卷员或一位评卷员的评分），即该题每个分数段的试卷份数所占已评试卷总数的比例，比如题组全体阅卷员一共评出了100份试卷，而其中得1分的试卷有10份，那么1分段的比例就是0.1。阅卷过程中，由于每个阅卷教师评阅的试卷是由计算机随机分发的，因此在评出一定数量的试卷以后，每个教师阅卷的评分分布理论上应该与总的评分分布一致，两者之间越接近说明阅卷的质量越好。

如果某位阅卷员的个人评分分布与总评分分布相差较大，就很可能是把握评分标准不好，出现了评分误差。再进一步分析，如果是低分段比例过高或高分段比例过高，不太可能是其评阅的试卷都做得很差或很好，而可能是评分过严或过宽，偏离了评分标准，出现误评（参见图1、图2）。如果是中间分数段的比例过高，那可能是给了“保险分”，即粗略看出解答既非全对也非全错，就不再仔细判断，而是随心所欲的给一个中间分，这时误评的可能性就更高了，而且高分误差（≥2分的误差）的可能性很大（参见图3）。

图1

图2

图3

根据评分分布，可以计算出每位阅卷员的评分偏离值，其计算公式为：将第j位阅卷员的评分偏离值记为Pj，Pj=第j位阅卷员的i分段比率-总体的i分段比率。

在阅卷过程中可以对每一道题目，设置一个评分偏离值上限。此上限可随着阅卷进程适当调整。当某位阅卷员的评分偏离值大于评分偏离值上限时，计算机自动发出警示信息，提示质检复查人员对该阅卷员进行抽查。

不过单纯考查阅卷员的总体评分分布（比率）也有可能出现误差，比如，评分忽高忽低时，其总体评分分布（比率）就可能是正常的。因此不能只看总体评分分布（比率），还应对阅卷员的分时段评分分布（比率）进行对比，例如以每300份试卷为一个分段节点，对阅卷员每个分段节点的评分分布（比率）进行考查，进而得出更加客观准确的阅卷员评价。

阅卷过程中，通过评卷系统的查询和过滤功能，可以非常方便的查看每位阅卷员的评分分布进而发现需要重点复查的对象，图4、图5、图6分别为某年高考数学科目阅卷过程中，低分段过高、高分段过高和有评分趋中性的实证分析。

图4 低分段过高

图5 高分段过高

图6 中间分数段过高

二是通过评分均值发现误差。因为每个阅卷员每天评阅的试卷是随机分发的，每个阅卷员每天的评分均值理论上应该和总体评分均值是一致的，且每个阅卷员每天的评分均值理论上是比较一致的，或者说上下浮动的振幅较小。具体实证分析见图7、图8。

图7为某年高考数学某题，小组、全体和每一阅卷员在某一时段的每日评分均值曲线。

图7

通过对比各阅卷员的每日评分均值曲线和全体的每日评分均值曲线，可以准确定位需要重点复查的阅卷员。

图8为某年高考数学某题小组、全体和某阅卷员的每日评分均值曲线。

图8

通过分析该阅卷员的每日评分均值曲线可以发现，该阅卷员评卷前期的每日评分均值均低于平均水平，后期则基本一致，这表明该阅卷在阅卷前期对评分标准把握的不够好，评分过严，打分偏低。

2.2.2 通过综合质量检验发现误差

其主要方法是通过分析评卷质量列表的相关数据，锁定重点复查对象，发现潜在的的误差。

表1比较直观的显示了某年高考数学某题，在某时间段内每位阅卷员的完成量、被抽查量、被抽查率、被退回量、被退回率、被修改量、被修改率、通过量和通过率。

表2则显示了该时间段内该阅卷组的总完成量、总被抽查量、总退回量、总被修改量、总通过量以及平均完成量、平均被抽查量、平均被抽查率、平均退回量、平均被修改量、平均被修改率、平均通过量和平均通过率。

表1

通过对比分析上述数据，阅卷组的平均被修改率为1.25%，而阅卷员pc0301009的被修改率高达13.17%、阅卷员pc0301010的被修改率为2.38%，远远高于平均水平，在复查时间有限，无法实现百分之百复查的情况下，需重点复查以上2位阅卷员。

需要注意的是，不论是评分分布曲线、平均分曲线，还是每日评分均值曲线、评卷质量列表，以及标准差曲线、每日评分标准差曲线，都只能从一定程度上反映出阅卷员的阅卷质量。只有综合考核以上几组数据才能比较全面客观的得出阅卷员总体评价。进而发现需要重点抽查的阅卷员，也可相应的为阅卷员信息库建设、专家型阅卷员的选拔提供可靠依据。