● 谷向东 李 铮
■责编 韩树杰 Tel:010-68345891 E-mail:hrdhsj@126.com
1.同一考场内考官评分者信度。过去有关面试评分信度的研究集中于对结构化面试的研究,目前使用较多的半结构化面试则增加了自由追问的互动环节,评分难度加大;无领导小组讨论对考官的评分技能要求更高,评分难度更大。因此,开展对半结构化面试和无领导小组讨论的相关研究很有必要,本文拟对考官评分做考场内一致性分析,从而为提高考场内评分一致性提供建议。
2.不同类考官间的评分相关性分析。在面试中,评价者因年龄、性别、主观评分标准、知识素养与经验、教育背景等的不同,会对评分内部一致性产生影响。国外研究发现在面试与无领导小组讨论测评中,不同评价者对评价结果差异较大。本研究将探索在半结构化面试和无领导小组讨论中各类考官的评分相关性情况,探索不同类考官的评分差异。
3.各类考官在不同测评要素上出现极端分情况的比较分析。由于考官的背景不同,他们对于不同测评要素的理解不同,特别是对于考生面试行为的解读有一定的差异,影响评分的信度,因此,本研究拟对各类考官在不同要素上出现极端评分的情况进行统计分析,分析各类考官的评分特点,从而为考官的选择和培训提供建议。
4.半结构化面试考生入场顺序与考生成绩关系的统计分析。胡黎(2008)发现中间偏后进入考场的考生的结构化面试成绩比前面进入考场的考生高4.5分,随着面试时间延长,考官的各要素评分有所偏高。对此,本研究对半结构化面试中的考生入场顺序与考生成绩排名进行分析,研究入场顺序会对考生成绩产生怎样的影响,从而为提高考官评分技能提供建议。
研究对象为参加2010-2011年北京市副局级领导干部竞争性选拔的面试考官,根据考官来源,将考官分为四类:用人单位考官、上级考官、同级考官、专家考官。
本研究中半结构化面试总计共有23个考场,每个考场有9名考官,共207名考官,但5名因故未到场,因此最后有202名考官计入统计;无领导小组讨论先后总计共有15个考场,每个考场有5-9名考官,共有130名考官。
但是,拉克斯的细胞生长趋势却让整个研究室大呼意外,因为他们惊奇地发现,从拉克斯身体里取出的癌细胞具有不可思议的复制速度,无论给海拉细胞多大的空间,它都能迅速填满,它看起来能永无止境地生长下去。
本次研究采用统计软件SPSS对面试结果进行了数据整理、录入和分析。
本研究采用非参数检验中K Related Samples对各个考场内的评分一致性进行了检验,具体结果如下:
1.半结构化面试
在23个考场中,有18个考场的内部的评分者信度系数显著高于0.4,说明整体上半结构化面试考场内考官的评分达到了较好的一致性,不同考官对评分标准的把握较为一致。虽然不同考场的考官结构有所区别,但他们对测评要素和考生表现做出较为一致的解读和判断。仍有个别考场内考官评分一致性不太理想,这说明应当严格把关考官的选择和配置,规范考官评分,培训考官能力,从而提高每个考场的面试的信度。
2.无领导小组讨论
在15个考场中,有7个考场的内部的评分者信度系数显著高于0.4,有多个考场内考官评分一致性不太理想。这主要是因为无领导小组讨论测评的评分难度大,专业化要求高,考官需要更加深入的培训和足够的实践经验,而目前半天的培训难以使考官熟练地掌握此技能。另外,无领导小组讨论中考生人数多,行为表现丰富,需要观察的信息量较大,而不同的考官对这些行为表现会有不同的理解和解读,因此考官评分一致性不够高。
将四类考官之间的评分作相关分析,以考察不同类型考官之间的评分一致性。具体结果如下:
1.半结构化面试
表1显示,在半结构化面试中,除了专家考官与上级考官、同级考官之间评分的相关性不显著,其他类型考官之间的评分呈显著的相关性(0.255—0.495),这说明不同考官类别之间的评分者信度达到中等水平。具体来说,与用人单位考官评分相关性由强到弱的考官类型依次是上级考官、同级考官、专家考官。专家考官与其他考官的相关性较弱或不相关,这可能有以下原因:一方面,专家考官大部分是具有专业背景的高校教师,他们属于“圈子外”人士,受其他考官群体的约束力较小,评分独立性强;另一方面,专家考官对目标岗位职位最不熟悉,专业、经验、背景与其他考官不同,与来自党政部门的其他考官评价视角不同,也可能导致他们的评分与其他类型的考官相关性较弱。
2.无领导小组讨论
表2显示,用人单位考官、上级考官与同级考官之间在评分上呈现弱相关,专家考官与其他考官评分之间均无显著相关。这可能有两方面原因:一方面,无领导小组讨论对考官的评分技术要求较高,考官需要在一定时间内对小组中6名考生进行3-4个测评要素的评分,考官对测评知识和技能的掌握成为挑战考官的重要因素;另一方面,进一步的细化统计分析与访谈发现,专家考官与党政机关领导对人评价的内隐标准有所不同,前者相对更加关注个体的影响力和感染力、思想的开放性、思维逻辑水平的高低等,而后者则相对更加关注考生品德水平是否低调稳重、政策理论水平、解决问题客观性和现实性等。所以加强考官的评分技能训练,统一标准还是十分必要的。
由于本研究未实现对四类考官评分的预测效度进行统计,因此,究竟哪类考官更能有效选出优秀人才,有待进一步研究。
表1 半结构化面试各类考官评分相关分析
表2 无领导小组讨论各类考官评分相关分析
为了研究不同考官类型间评分差异,我们采用极端分比例的统计方法,所谓极端分是指将考官标准分的绝对值大于2的考官评分。某考官的评分为极端分,说明该考官打分与考官群体的评分相比处于边缘状态,偏高或者偏低。
具体统计方法为:将每类考官评分极端分在考场中的出现次数作为分子,每类考官的评分次数作为分母,从而计算出不同类型考官评分出现极端分的比例,公式如下:
每类考官出现极端分的比例=极端分在考场中出现次数/(该类考官总人数*6)
上述公式的统计方法基于以下考虑:每类考官的人数不一样,采用出现率的方法可避免出现人数多的考官类型出现极端分概率高的情况。数据分析结果如下:
1.半结构化面试
表3显示,在半结构化面试中,上级考官、专家考官在总分的极端分出现率都较高,上级考官在宏观思维能力、统筹思维能力、分析解决问题能力的评分中极端分的出现率较高,专家考官在统筹思维能力、分析解决问题能力、客观认知能力、语言表达能力要素、的评分中极端分的出现率较高,这可能是上级考官、专家考官的观察视角与众不同,而且在自己评价与多数人不一致时,能独立作出自己的评价决策,同时对自己评分结果是否合理更少顾虑,所以分数偏离整个考官群体大。
2.无领导小组讨论
表4显示,在无领导小组讨论中,上级考官、专家考官所评总分的极端分的出现率较高,并在逻辑思维能力、沟通影响能力、合作共事能力的要素评分中极端分的出现率较高,此外,其他类型的考官主要在逻辑思维能力出现较高比例的极端分。分析各类考官的心理状态应该可以推论:用人单位考官和同级考官在评分时较为谨慎,上级考官和专家考官评分独立性强,对评分尺度的把握更自由,更敢于拉开考生之间的分数差距。
进一步的统计分析表明,打出极端分的考官其评分的离散程度也更高,因而对于候选人的排名结果影响更大。由于上级考官和专家考官在评分时极端值的出现率高,而且离散程度也更高,因此这两类考官对考生排名的影响更大,这点在选择、培训考官的时候应该引起注意。
为了研究考生的入场顺序对于评分结果是否有影响,我们对不同入场顺序的考生的名次进行统计分析。表5显示,中间两位入场的考生的在面试中得第1名的人数比其他考生多;最后一位入场的考生,在面试中得第1和第6的人数均为0,但得第2、3、4名的人数最多。采用SPSS进行数据分析后发现,第3位进入考场的考生成绩差异检验显著(χ2=11.5,p<0.05),他们更容易获得更好的名次。这可能是抽到前两名入场的考生会产生更大的心理压力,影响了考场发挥,考官也因为一开始不熟悉岗位要求等,更容易给出“中庸”的分数。因此,本研究证明人们通常所公认的第一位入场的考生处于不利位置的想法是有根据,但由于样本数的限制,这一问题仍需进一步证实和探讨。
表3 半结构化面试不同考官类型在各个要素上评分统计(单位:%)
表4 无领导小组讨论不同考官类型在各个要素上评分统计(单位:%)
对副局级领导干部竞争性选拔的半结构化面试和无领导小组讨论的考官评分数据分析结果表明,按照测量学的标准,考官评分的信度系数还不够理想,有一定的提升空间,为此,本研究提出以下建议与措施:
1.加强对考官的培训。一是开展评分者参考框架的培训(frame-of-reference training),使不同的考官对测评的维度和打分的水平保持一致的认识和理解,使得每位考官的评分保持在一个统一的尺度和标准上,从而达到考官评分的标准化,实现评分的结构化、规范化;二是提高主考官测评能力,包括提高主考官控制半结构化面试进程的能力、合理发问和追问的能力;三是提高考官的观察判断能力。在面试中尤其在无领导小组讨论中,能正确地把握目标岗位的各个能力要素的具体操作化行为定义,对考生的动作、语言、情绪状态等所反映的有关能力要素进行迅速、科学的判断、归类,并进行量化评分;四是鼓励督促考官尽量对考生的行为表现中的关键点进行记录,使得最后评分更有参照依据和更加准确,这点在小组讨论中尤其重要,小组讨论的信息量很大,按照人类的记忆规律,在最后评分阶段考官能够有效回忆的内容并不多了,因此,考官能否在观察的同时记录下考生的表现,实现对关键行为的记录,对评分的信效度有比较大的影响。
表5 不同入场顺序与考生半结构化成绩排名(单位:人数)
2.考官在正式面试前最好进行“预评分练习”。鉴于在半结构化面试中考官的评分可能受到考生入场顺序的影响,建议在第一位考生入场接受测试前,创造条件进行一场模拟面试练习,可以让工作人员扮演 “第一位被试”接受测试,考官进行评分演练与讨论,也可以让考官们对照“录像中的被试”进行评分演练与讨论。总之,让考官尽快熟悉测试的题目和评分过程,建立评分的参照标准,这样,在正式评分时就可以很好进入状态。
3.极端分不计入成绩。本研究表明,考官评分的信度和效度仍有进一步提升的空间,鉴于极端分对测试结果的影响较大,因而在对考生面试成绩进行计算时,建议去掉考官评分最高分与最低分,从而在一定程度上大大提高面试信度。现在计算机技术日益普及,建议开发一些简单的专门统计软件,实现采用标准分进行分数的统计,可以非常有效地降低不同考官评分尺度不一致的不良影响。
4.挑选合适的考官,优化考官结构。目前在竞争性选拔面试中任考官的基本是 “临时考官”,多为领导干部,部分考官虽从事人事工作,但并不掌握现代测评所需的知识、技能与经验,因此,在这种情况下应多挑选具有以下特点的领导与专家做考官:熟悉竞争性选拔的目标岗位、对这项工作高度重视与负责、有一定测评专业水准。当然,加强考官队伍的专业化建设才是最根本的远期解决途径。
5.谨慎引入新的测评方式。测评对于考官的知识和技能要求是很高的,一些新的测评方式对于非专门从事测评的人来说尤为困难,因此,在竞争性选拔时,应当谨慎采用新的测评方式,以确保信效度水平。在引入新的测评方式前,务必加强考官的培训工作,保证考官的评分能力达到一定水准再使用。
1.谷向东:《中西方人才测评考官评分模式的对比分析》,载《中国人力资源开发》,2011年第8期。
2.胡月星,赵郝锐:《公开选拔副厅级党政领导干部结构化面试评估报告》,载《中国浦东干部学院学报》,2009年第4期。
3.胡黎:《公务员结构化面试测评信效度实证研究》,重庆大学硕士论文,2008年。
4.Schmidt, F. L., & Zimmerman, R. D. A counterintuitive hypothesis about employment interview validity and some supporting evidence.Journal of Applied Psychology,2004,89:553-561.