面试考官评价的有效性探讨

2015-03-22 00:31邢占军

东岳论丛 2015年3期

关键词：考官应聘者效度

邓帅，邢占军

(山东大学政治学与公共管理学院，山东济南 250100)

面试考官评价的有效性探讨

邓帅，邢占军

(山东大学政治学与公共管理学院，山东济南 250100)

考官是面试中的灵魂，对整个面试的成败起着决定性的作用，考官评价有效性是指考官评价质量的高低，是对考官工作质量的评价。考官评价有效性存在着个体间差异，根据信息加工理论将影响考官评价有效性的因素归纳个人背景因素、认知因素、情感因素以及面试情景因素。联系我国公务员考录面试考官的实际情况，在以后的研究中将重点构建考官评价有效性影响因素模型；探索影响因素与评价有效性间的作用机制；考察考官经验与评价有效性间的作用机制；提高面试形式与评价有效性间的融合度；提升考官配置的科学性以提高评价有效性等方面。

面试考官；评价有效性；影响因素；研究展望

面试考官评价有效性研究始于20世纪80年代，着眼于从考官角度研究如何提高面试质量。最早指出考官间存在着面试技能的差异，他同时指出考官的面试技能不同对面试中出现的信息的利用和权重赋予也不同，从而降低了面试信度和效度①Schmitt. N.,”Social and situational determinants of interview: Implication for the employment interview”, Personnel Psychology, 1976, 29:791-801.。考官评价有效性的研究为考官培训和管理提供了科学合理的依据。在过去的将近40年的时间里，国内外学者不仅证明了考官评价有效性存在个体差异，而且对造成差异的各种因素进行了验证。

一、面试考官评价有效性及其个体差异

(一)面试考官评价的有效性：概念辨析

在面试中，对考官的工作进行评价是保证面试质量的重要手段。就目前的研究来看，对考官工作进行考核的主要标准就是有效性，但是目前对考官评价有效性还没有一个确切的定义，更多的是从测量方面对有效性进行规定。借鉴人力资源管理的理论认为，考官评价的有效性是指考官评价质量的高低，即考官对某一考生的评价是否与其工作表现成正比。具体而言，面试中考官对考生的评价很高，经录取之后考生的工作表现很好，对工作的胜任程度很高，即该考官的评价有效性很高的，相反，如果考生的工作表现很差，基本不能胜任工作，即表示该考官的评价有效性相对而言不高。当然这里存在着一个隐性前提，那就是考官之所以能够对考官进行准确评价在于考官对招聘职位的充分了解。

当前研究中对考官评价有效性的表述可以分为两种形式，一种用“Effectiveness”来表述，一种用“Validity”来表述，其中 “Effectiveness”侧重有效性，主张对考官的工作及录用人员的工作表现进行评价，例如Gottschalk(1990)用(1)决策准确性；(2)推荐人员与岗位的匹配性；(3)录用人员一年的营业额来衡量考官的评价有效性。Graves与Karren(1992)将考官有效性的测评维度设定为(1)对满足工作特质的理解；(2)对工作环境的理解；(3)对考生优势和劣势的评价程度；(4)考生技能与工作需要的匹配；(5)总体有效性。而“Validity”则是效度，主张对录取人员的工作绩效进行评价，校标的选择一般是录用人员的培训成绩、工作业绩以及晋升与否，例如Zedeck(1983)等在其研究中以考官评价与考生的培训成绩之间的相关性来测量考官评价有效性，Van Iddekinge(2000)等研究者在考生培训成绩的基础之上增加了晋升可能性来考察考官的预测效度。

由此可以看出，这两种表述存在着以下区别和联系：

1.就测量方法来说，“Effectiveness”采取的是一种综合式的测量方法，不仅直接考察考官的工作而且还以考生的工作表现来间接反映考官的评价是否有效，而“Validity”则只是间接的用考生的工作表现来反映考官的评价工作。

2.就测量实施条件来说，“Effectiveness”的测量需要引入对考官的现场评价，需要对考官进行同步评价，测量方法上更加复杂和困难，适用于实验研究，而“Validity”的测量更加直观，更加简便，适用于现场研究。

3.两者的联系在于“Effectiveness”中直接对考官的面试评价工作进行评价是“Validity”测量的一个中间阶段，可以这样理解，如果考官对招聘职位没用充分理解，那么其必然不能录取到能够胜任该岗位的人员，那么“Validity”必然不高。

(二)面试考官评价有效性的个体差异

Schmitt指出考官间存在技能差异之后，众多研究者随之采用不同的方法证明了考官评价有效性存在个体间差异。Zedeck(1983)等在其研究中利用Brunswik透镜模型，逐个分析个体考官的信息加工过程，结果发现，考官在面试信息利用和总体评价上存在个体差异，考官在总体评价和维度评价上的方差分析出现显著的差异。随后Dougherty(1986)等的研究发现不同考官不仅在评价平均分上存在差异，而且他们评价结果的效度也不同。该研究采用预测效度设计，结果表明三位面试考官中，一位考官比另两位考官提供了更加准确的评分，并且这位考官的评分与十个工作绩效指标中的九个有显著相关关系；而将三位考官的评分进行整合后，评价结果只与十个工作绩效指标中四个有显著相关。与以往研究不同的是Pulakos(1996)等采用同时效度设计和元分析方法，研究面试考官之间的效度差异。他们的研究结果表明，考官面试效度之间的差异可以归于取样差误，因此认为考官的面试效度实际上没有差异。但是同时Pulakos等也指出这个结果可能与他们在研究中使用结构化面试并对考官进行了详细的培训有关，从而使考官的评价趋于一致。

此后十年间一直没有研究者对Pulakos等人的研究结果进行更加深入的验证和研究。直到1996年Van Iddekinge等在Pulakos等人的研究基础上，不是采用同时效度设计，而是对校标关联效度在考官和小组间的不同进行了研究。在研究中，他们增加了工作绩效的评价标准，从而证明了校标关联效度在考官间存在差异。与Pulakos等人研究的不同在于，Van Iddekinge(2000)等的研究结果表明这种差异并没有完全归因于取样误差，而是其他一些原因。

上述研究从微观角度入手，分析个体考官信息加工过程，验证了考官在面试过程中的确存在着个体间差异，Pulakos等人的研究中虽然最后将考官间的个体差异归因于抽样误差，即他认为考官间在有效性上是不存在差异的，但是在他的研究中考官是经过深入细致培训的，而这正是提高面试效度的重要措施。因此可以这样理解，考官间的个体差异可以通过培训的形式来加以消除。

二、面试考官评价有效性的影响因素

国内外不少研究者就影响考官评价有效性的影响因素进行了深入而广泛的研究，归结起来主要包括以下四个方面：个人背景、认知、情感以及面试情景。

(一)个人背景因素

1.人口统计学变量

人口统计学变量对考官评价有效性的影响一般包括两个方面，一方面人口统计学变量直接对考官的评价有效性产生影响，例如Landy(2008)认为类似于种族，性别这样的族群特征能够对面试分数产生很大影响；Berger(2009)的研究证明考官的种族因素会对应试者评价产生影响；另一方面，人口统计学变量通过考官与应聘者之间的相似或相异产生作用，根据人口统计学相似理论，研究者研究发现考官与应聘者之间的人口统计学相似能够影响考官对应聘者的评价，考官对与自身特征相似性程度高的应聘者的评价高于相似性程度低的应聘者(Tsui Egan & O’Reilly 1992)，Goldberg(2005)研究表明性别相似对男性和女性的影响是不同的，性别不相似在对男性和女性的影响也是不同的。。

2. 经验

经验是个人在长期的生活和工作中各种知识和技能的积累，不同的生活和工作经历造就了个人不同的经验积累。Van Iddekinge(2006)等研究证明考官的工作经验与评价有效性之间是正相关关系，Obrien(2009)检测了考官经验对评价有效性的影响。而关于经验对考官评价有效性产生影响的作用机制一般认为是通过认知结构中的图式来发生作用的。Lord与Foti(1986)认为个人的认知结构，例如图式，会随着经验的增加而逐渐变的丰富、复杂和组织化,而Lord和Maher(1990)认为拥有这种丰富的认知结构的个体能够降低信息加工过程，并指导他们对问题进行分类从而迅速做出解决决策。

(二)认知因素

认知是指完成思考和判断的过程，它受到认知主体和认知情景的影响，从而使得个体在认知方面存在着差异。

1.认知风格和认知复杂性

Messick(1984)将认知风格定义为关于感知、记忆以及解决问题的特有模型，它反映出个体间在信息加工方法的不同。大部分研究者将认知风格分为两类，一类是分析型(analytic)，另一类是直觉型(intuitive)，分析型个体会在推理以及细节信息的基础上做出判断，而直觉型个体更愿意从全局出发依靠自己的感觉来判断。Cardy和Kehoe(1984)认为，分析型考官从多个维度来评价应聘者相对于直觉型考官只是简单的做整体评价来说具有更高的准确性。

随后Werner(1957)，认为认知复杂性代表了高度发展的人际建构体系，由关注他人的持久的心理、动机，以及倾向性的品质等整合元素组成，认知复杂性反映个体“建构”客观世界的能力。Graves 和 Karren(1992)在考官的自我报告中发现不同考官在用于评价应聘者的信息线索的立体程度是不同的，只有用于自评和评价应聘者的构建线索一致的考官才是最有效的考官。Gottschalk(1990)在自己的研究中运用认知复杂性测量量表对考官的认知复杂性进行了科学测量并证明考官的认知复杂性越高，评价有效性也就越高。

2. 理想原型

理想原型是考官对招录人员的心理预期，或者说是考官对招聘人员要求的整体模型，包括资质和行为两个方面，Macan 和Dipboye(1988)研究证明考官对招聘人员的理想原型不同将导致他们在面试过程中使用不同的评价标准，而这将直接导致评价有效性的差异，并且Motowidlo(1980)的研究结果表明使用那些与工作非相关的评价标准或者不包括那些与工作相关的评价标准的原型将导致信息加工过程存在偏差并最终降低考官的评价效度。

除了评价标准的不同graves和karren(1992)还发现考官对评价标准赋予的权重也存在差异，有效考官之间的评价策略比较一致，都比较注重两个评价维度的考察，而这两个维度与他们自我报告的权重是一致，并且有效评委更加注意和了解自己的评价过程。国内已有研究表明公务员考录面试中考官在权重策略上存在差异，有效考官在岗位相关面试维度上赋予的权重较大，在其他不相关面试维度上的权重较小，权重策略影响了考官的评分和录取的预测效度(陈学军，林志红2009)。

3. 归因原则

在面试中，面对应聘者对自己行为的描述以及对自己成败的原因寻找，考官能否正确的对其行为进行归因将直接关系到其评价结果。Tucker和Rowe(1979)认为在面试中，考官试图对应聘者的过去行为进行归因，最终的录用结果与对过去结果的归因密切相关。Struthers(1995)等研究认为在面试中应聘者将工作失败的原因归因于外界因素而不是个人内部因素更能够赢得考官的认可。Herriot(1981)的研究认为，能否将应聘者行为进行正确归因与考官的经验密切相关，。Reid(1986)从人口统计学变量角度研究了归因作为性别歧视的调节变量在面试中的作用。

(三)个人情感因素

按照归因理论的解释，个体的动机和情感将影响其行为，那么在面试中，考官的动机和情绪就将影响其评价行为并最终影响其评价有效性。

1. 动机。动机是行为的内在驱动力，动机的类型与行为的目的相关，动机的水平与行为的结果质量相关。在面试中，考官的行为动机可以被分解为很多种，评价准确性与对待面试的态度就是其中两种，Dipboye(1992)研究认为追求准确评价的考官将会是更有效的，考官对面试过程的态度与其评价有效性是相关的(Van iddekinge，2006)。Forret(1996)等在构建考官的评价因素模型时更是认为个人评价由个人动机和编码信息的能力所决定，他们认为动机对考官的评价行为具有决定性的作用*Forret, M. L., Turban, D. B., “Impolication of the elaroration likelihood model for interviewer decision Processes”, Journal of Business and Psychology, 1996, 10: 415-428.。

2. 情绪。情绪是个体具有的喜怒哀乐等心理体验，虽然现在还没有证据来证明情绪在考官间存在不同，因为这在实际操作中具有很大的困难性，不仅是因为真实性的问题，还存在情绪的短暂性问题。但是Baron(1981)通过实验的方式，人为对考官设置与应聘者无关的情绪氛围，结果显示情绪会影响考官对应聘者的评价。他认为情绪主要通过三个途径来影响评价结果，首先是考官对中性社会行为的感知，其次是对记忆的影响，最后对信息整合策略的运用。

(四)面试情景因素

存在理论及研究认为缺少责任性、任务清晰性以及做出正确决策的压力是降低考官评价有效性的主要情景问题，面试情景虽然是考官自身的外部因素，但是由于考官对其理解的不同，从而也能导致评价效果的不同。Dipbye(1992)指出，面试目的、错误决策的代价、对决策的责任性、任务清晰性以及迅速作出决定的压力等影响了考官的决策过程和评价有效性,他认为这些因素将直接导致考官在评价过程中对与工作相关信息的搜集和整合，最后影响评价的结果。

Graves和Karren(1992)认为缺少责任、任务清晰性、以及迅速做出决策的压力将会降低考官的有效性。

Forret与Turban(1998)建立了面试决策过程的相似模型，从而验证了责任、信息获取与整合以及决策效度之间的关系，考官的高责任导致面试效度的提高，而缺少责任的考官则正好相反。

三、我国公务员面试中考官评价有效性的研究展望

对考官评价有效性的研究在国外已经发展的较为成熟，而我国对该领域的研究还基本处在空白阶段，这就为我们将来的研究提供了相当大的研究空间。作为当前关注度极高的考试，我国公务员考试广泛采用了结构化面试的形式，具有很强的典型性，同时公务员考录是当前我国公共部门人力资源管理的重要部分，也是整个社会高度关注的的热点问题，由于地位和作用特殊，公共部门人员考录的方式方法很容易在全国范围内形成表率，易于以后的推广。

我国的公务员面试不同于西方的面试形式，首先就在于我国的公共部门与私人部门在人员招聘方面存在严重不同，而西方的公私部门在这方面没有极其明显的差别，主要体现在：(1)我国考官的培训力度不够，没有定期和专业的培训，以致考官对评价技术和评价方法没有熟练的掌握，而西方具备严格的培训制度，考官都需经过科学系统的培训；(2)我国公务员考录面试中的考官大多来自公务员系统，极少数为人力资源管理方面的专业人士，而考官回避制度使得考官均来自非本单位，对面试岗位缺少必要的了解，而西方考官基本上采取招聘职位的直接领导作为考官的方式；(3)我国文化背景所造成的个人认知方式在内容上更加重视考察个性、品德，方法上更多依靠其经验、悟性和直觉，而西方考官更多的重视考察能力、潜能等方面，方法上也更多地依赖理性和方法*谷向东：《中西方人才测评考官评分模式的对比分析》，《中国人力资源开发》，2011年第8期。。中西方面试实践中存在的这些差异，为我国考官评价有效性的研究提供了很多有价值的研究方向，以下问题都有待进一步探讨与研究。

(一)面试考官评价有效性因素模型的建构

从目前的研究来看，研究者们对考官评价有效性影响因素的研究往往是在某一特定背景下单独研究某一项因素，而缺少整体的研究，这使得研究结果之间很难建立起彼此之间的联系，也缺乏合理的借鉴作用和推广性，因此在同一研究背景下尽可能的寻找所有可能的影响因素，从而建立完善的评价有效性因素模型将是十分必要的。特别是在我国特定的文化背景之下，考官评价有效性的因素模型必然具有与西方背景下不同的特点，这方面的探讨便显得尤为必要。从实践角度看，完整因素模型的建立将对我国的公务员考录中面试考官培训提供科学合理的依据。

(二)影响考官评价有效性的中介变量探讨

现已发现的考官评价有效性影响因素基本上都证明是直接与评价有效性间发生作用的，然而根据事物之间的普遍联系的观点，在同一背景下各因素之间可能会不同程度存在着某种联系，例如，已有研究表明考官经验和理想原型是两项项非常重要的影响因素，两者对考官评价有效性具有直接影响作用，其中理想原型是考官对招聘职位的长期分析认识的结果，那么在考官对招聘职位相当了解的情况下理想原型是直接发生作用的，而在我国公务员面试中考官对招聘职位缺乏相当了解的情况下其只能调动自己对公务员的整体认识来勾勒理想原型，从而对评价有效性产生作用，因此理想原型是否只是考官经验与评价有效性之间的中介变量值得我们研究。对这类中介变量的考察，有助于我们进一步理清影响考官评价有效性的各种因素之间的作用机制。

(三)考官经验与考官评价有效性

我国公务员考录面试中考官基本上来自公务员系统中各个单位人事部门的工作人员，他们具有不同程度的人事工作经验，以往的研究也基本证明考官经验的丰富会带来评价有效性的提高。可以这样认为，之所以选择人事部门的工作人员来做考官就是因为他们具有人事选拔方面的经验，但是不可忽视的是以往研究的研究背景本身就已经设定了完善的工作分析、考官严格培训以及考官来自本单位等条件，而在现实的公务员面试中，这些条件基本上都得不到满足。同时，有研究认为，结构化面试形式能够使考官的经验变成负面影响因素，因为考官的某项固有的技能限制了其评价准确性*Maurer, S. D., “A practitioner-based analysis of interviewer job expertise and scale format as contextual factors in situational interviews”, Personnel Psychology, 2002, 55: 307-327.。这是否意味着考官经验与评价有效性间是否还存在着不确定的关系？除此之外，考官经验如何通过更好的方式得以利用等，也都是值得关注的研究重点。

(四)面试形式与考官评价有效性

目前研究者对因面试形式不同而导致的考官评价有效差异研究还比较少见，但是理论上来讲面试形式不同考生的表现不同，考官获得的信息量也会不同，这将直接影响考官的信息加工过程。当前我国公务员面试中主要采用结构化面试与无领导小组讨论两种面试形式，后者的最大优点就在于为考官提供了更多观察和评判应聘者的机会，也就是说考官评价的信息输入量增加了，这势必会增加考官的评价有效性，而且陈学军和林志红研究认为，考官的权重策略因面试形式的不同而不同，无领导小组中考官的权重策略更加符合评分规则的需要*陈学军，林志红：《面试考官的权重策略对评分和录用的影响》，《应用心理学》，2009年第4期。，这是否意味着不同的面试形式会影响考官的评价有效性？哪种面试形式下考官的评价有效性更高？这些无疑都需要研究者加以关注。

(五)考官配置与考官评价有效性

在我国公务员面试采取小组面试形式时，每个面试小组由7名考官组成，组成方式由抽签的形式决定，每位考生的成绩由7位考官的打分综合决定，研究表明面试小组间存在着面试效度的差异*Van Iddekinge, C. H., Sager, C. E., Burnfield, J. L., Heffner, T. S., “The variability of criterion‐related validity estimates among interviewers and interview panels”, International Journal of Selection and Assessment, 2006, 14: 193-205.，并且有效考官的评价有效性由于受到小组面试形式的影响而得不到有效发挥*Zedeck, S., Tziner, A., Middlestadt, S. E., “Interviewer validity and reliability: An individual analysis approach”, Personnel Psychology, 1983, 36: 355-370.。断层理论认为，多重人口统计特征的组合对群体过程和群体效能将产生显著影响，群体断层的强度会随着成员特征的不同组合而发生改变, 当越来越多的人口统计特征以相同的方式排列在一起时，亚群体内部会变得越来越同质，这时群体断层的强度也越来越大*Lau, D. C., Murnighan, J. K., “Interactions within groups and subgroups: The effects of demographic faulylines”, Academy of Management Journal, 2005, 48: 645-659．。那么在考官评价有效性与众多因素相关的情况下，哪些因素的组合能够有助于考官评价有效性的发挥，即如何实现考官最优配置问题，应该得到进一步研究。

邓帅(1983-)，女，山东大学政治学与公共管理学院博士生；邢占军(1968-)，男，山东大学政治学与公共管理学院教授，博士生导师，山东大学人文社科研究院副院长。

C93

1003-8353(2015)03-0021-04