面试预测效度和构想效度研究述评

2009-04-29 20:47:15田效勋车宏生

心理科学进展 2009年4期

关键词：面试

田效勋　车宏生

摘要面试是人才选中最常用的测量工具。大量研究证实，面试的预测效度比较理想，但不同类型面试的预测效度存在差异。虽然能够证实面试的预测效度较好，但对面试的测量构想却知之甚少。研究面试的构想效度，对于提高面试的递增效度有着重要的实践价值。相对人格成分而言，以往研究对面试能够测量到认知成分形成了更加一致地认识。

关键词面试；预测效度；构想效度；递增效度

分类号B841.7

1面试的预测效度

1.1面试的预测效度逐渐得到认可

面试是应用最广泛的人才甄选方法(Moscoso，2000)，少有组织不经过面试就进行录用决定。Casio等人(2005／2006)认为，作为一项人事甄选技术，面试主要有两大功能：第一，可以弥补其他甄选技术所存在的信息缺陷；第二，可以用于评价只有通过面对面互动才能测量到的个人特征(例如外表、语音、仪表及人际交往能力)。面试作为一项重要的人才甄选方法，很自然地，研究者对其效度十分关心，特别是对其预测效度更加关注。20世纪80年代是面试预测效度研究的一个分界点。大半个20世纪的研究都认为面试预测效度不高，尤其是非结构化面试的预测效度更不理想。如Hunter等人(1984)以上级评价为效标的元分析(N=2,694)表明，面试的效度仅为0.14。

直到20世纪80年代末90年代初，研究者才发现，只要对面试进行适当地改进，其预测效度还是较为理想的。如Campion和Pursell等人(1988)发现，高度结构化面试的效度达到了0.50。Wright等人(1989)的研究表明，结构化面试对工作绩效的校正后的平均预测效度可达0.39(N=833)。Jelf(1999)在对1989年到1999年的面试研究进行综述后发现，估计的面试真实效度达到了0.38。在一定条件下，面试的效度不在心理能力测验(mentalability test)之下。

和成本更高的评价中心相比，行为描述面试(Behavior Description Interview，BDI)的预测效度已经相当高，前者是0.62，后者是0.53(Harel，2003)。面试对工作绩效的预测能力要优于认知能力和责任心测验(Cortina，2000)以及经验(Day；2002)。

既然面试效度可以达到较高水平，应该在面试预测效度的研究上投入更多精力。但是，就国内研究而言，限于种种原因，关于这方面的研究却非常少。

1.2不同类型面试的预测效度差异较大

面试类型不同，预测效度也会有不同。在实际应用中，面试的类型很多。划分标准不同，面试类型也不同。主要的划分标准有三个：面试题目、结构化程度和实施形式。

关于面试题目对效度的影响，主要集中在两类面试题目的研究上，即行为描述面试(BehaviorDescription Interview，简称BDI)和情景面试(Situational Interview，简称SI)。Pulakos等人(1995)的研究发现，对高级职位而言，基于过去经验的面试(即行为描述面试)的预测效度高于情景面试。Huffcutt和Weekley等人(2001)的研究也证实了上述假设。Taylor和Small(2002)运用元分析技术比较了上述两种面试类型的相对有效性。他们的研究结果表明，SI的校正效度是0.45，BDI的校正效度是0.56，BDI的效标关联效度要高于SI。但是，他们的研究没有证实：在选拔高复杂性职位人员时，SI的预测效度会低于低复杂职位的选拔。以面试题目为划分标准，除了BDI和SI之外，面试还有其他类型。如在Mcdaniel等人(1994)年的研究对比了三种面试类型的效度差异，它们是情景面试、岗位相关面试和心理面试。该研究发现，以工作绩效为效标，情景面试效度(0.50)较岗位相关面试(0.39)要高，岗位相关面试效度较心理面试(0.29)要高。以培训绩效为效标，岗位相关面试的效度(0.36)较心理面试(0.40)略低。

结构化程度会影响面试的效度，这一点得到了多数研究的一致证实。有研究(Wiesner和Cronshaw，1988)早就发现，结构化面试的平均效度系数是非结构化面试的两倍。Mcdaniel等人(1994)的研究也证明，不管面试内容是什么，当以工作绩效为效标时，结构化面试的平均效度(p=0.44，Ⅳ=12，847)要高于非结构化面试(p=0.33，N=9.330)。Campion等人(1997)的元分析也表明，结构化面试的修正效度在0.35～0.62之间，而非结构化面试的修正效度在0.14～0.33之间。

不同的面试实施形式也会对预测效度产生影响。面试的实施形式也是多种多样的，研究集中在个体面试和集体面试两种类型上。Mcdaniel等人(1994)的研究证实，在预测工作绩效方面，个体面试较集体面试的效度要高。除此之外，Schmidt等人(1999)对一种新的实施形式的面试预测效度进行了元分析研究。该类面试用实证方法设计题目和计分方法，并通过电话进行面试，再请专门的计分专家对电话面试录音资料进行评价。研究表明，该类面试以上级总体绩效评定为效标的平均效度为0.40。这说明，不同实施形式的面试均有可能达到较高的效度水平，这就拓展了面试预测效度的边界，即：不只一种类型的面试可达到较高的效度水平，其他类型的面试效度也可能达到较高水平。其原因在于，有些类型面试的测量构想本身有较高的效度，如责任心、一般心理能力等。

影响面试效度的诸因素之间存在交互作用。Medaniel等人(1994)的元分析提出，影响面试效度的因素有三个方面：面试的内容、面试的实施方式和效标的性质(工作绩效、培训绩效和在岗时间；研究评定和真实评定)，以上三个因素之间存在着交互作用。

综上所述可以看出，不能笼统地说面试的预测效度如何，而是要具体化到特定的面试类型，还要具体到使用的效标是何种类型。此处的面试类型，既指结构化程度不同，也指面试题目的不同，还指实施方式的不同。

1.3提高面试预测效度的方法

以往研究证实，可以从三个方面来提高面试的预测效度。一是提高面试的结构化程度，二是选择胜任的评价者并对其进行有效的培训，三是对应聘者进行恰当的培训。

Casio等人(2005／2006)认为，提高面试效度的最好方法是提高结构化程度。结构化是一个程度问题，可以从两个方面对其考察：一，面试题目标准化的程度；二，对面试反应进行评价或计分的标准化程度(Huffcutt，1998)。尽管大量研究证实了结构化面试的心理测量学指标优于非结构化面试，但是，在人事选拔实践中，结构化面试仍然不占主导地位(Ryan，1999)。Lievens等人(2004)的实

证研究表明，如下因素导致评价者不积极地应用结构化面试：一，设计题目和计分方法比较花费时间；二，评价者需要与应聘者进行个人化和非正式的接触(而结构化面试不允许这样做)；第三，准备结构化面试太耗费精力。看来，面试研究者还需要多做一些普及工作，以促进结构化面试的应用。评价者如果参加面试研讨班，会增加采用结构化面试的可能性。Lievens等人的这项研究还有一个很有意思的发现，即：职业人格为“常规型(Conventional)”的评价者更倾向于采用结构化面试。

评价者的责任心也是影响面试效度的重要因素。Brtek等人(2002)的研究表明，评价者遵守面试程序的责任心(procedure accountability)能够提高效度。另外，评价者培训也会提高其预测效度。Huffcutt等人(1999)对涉及18158个应聘者的120个面试研究进行了元分析，研究发现，不管面试是否结构化，评价者培训都可以提高预测效度，因而都应该进行评价者培训。

对应聘者进行恰当地培训，也会提高面试的预测效度。如Maurer等人(2008)的研究表明，如果让应聘者学会正确地传递核心的、和面试相关的内容，则比不培训应聘者时的预测效度高。

看来，除了使用结构化面试之外，选择受过专业训练、负责任的评价者，以及对应聘者进行恰当地培训等，对提高面试效度至关重要。

2面试的构想效度

2.1面试的构想效度并不理想

虽然在人才甄选实践中广泛使用面试，也能够证实其预测效度较高，但面试究竟能够测量到什么构想，目前还没有得到一致的、有力的研究证实。如Pulakos等人(1995)的研究表明，尽管面试设计了诸多测量维度，但实际上测量到的是单维构想。Arthur等人(2000)提出了评价中心的效度悖论(validity paradox)问题，即：虽然能够证实评价中心有较高的预测效度，但却很难证明其构想效度。Van Iddekinge等人(2004)研究了两个用来选拔客户服务管理人员(N=427)的BDI的构想效度。该研究对面试评价的多质多法分析发现，区分效度要大于汇聚效度。验证性因素发现，面试评价与评价者、应聘者因素的关联大于和面试设计测量构想因素的关联。基于此，该研究指出，和评价中心类似，结构化面试虽然有内容和效标关联效度，但缺乏构想效度，也存在效度悖论。

关于面试构想效度的研究有着重要的意义。HuffeuR等人(1996)指出，面试构想效度研究像预测效度研究过去十年一样会成为下一个热点，理解面试所涉及的构想具有潜在的重要性。面试和其他甄选工具测量的构想存在重叠，构想越是相似，面试越是重复测量那些本可由成本更低的纸笔测验就能测量的构想，这样就失去了使用面试的价值。对于面试构想的研究，可以改进面试的设计，找到对特定岗位而言，面试测量哪个构想更有效，从而提高面试的递增效度。另外，VanIddekinge等人(2004)还指出，如果结构化面试没有构想效度，就不应以面试过程中的表现来进行以胜任力为基础的发展性反馈。也就是说，如果面试不能测量所设计的构想，则基于面试评定提供发展性反馈和职业规划是不准确的。当然，研究和提高面试的构想效度，最终也会提高面试的预测效度水平。

2.2面试构想效度研究的基本思路

有关面试构想效度的研究较少，其中一个原因是：面试是以岗位为中心的，面试测量和特定岗位要求相关的特征，而岗位要求是千差万别的，因而面试构想的数量和种类是不一样的。岗位要求包含知识、技能、能力及其他特征(即KSAs)，而这些要求之间存在复杂的交叉。Roth等人(2005)认为，有两个方面的原因使得面试构想效度研究非常复杂。首先，面试严重依赖评价者的信息加工过程。其次，通常情况下，结构化面试的设计过程也会加重分离面试构想的困难，举例说，面试所使用的复杂情景往往测量多个构想。

因此，要想研究面试的构想效度，和研究面试的预测效度一样，也要首先明确哪种具体的面试类型，并在下结论时也要基于该种面试类型，而不是泛泛而谈。如有研究表明，结构化面试和非结构化面试所测量到的认知成分是有差别的，前者和认知能力的相关低于后者(Huffcua，1996)。Huffcutt和Conway等人(2001)的研究发现，低结构化面试和高结构化面试所测量的构想是不一样的。低结构化面试常关注类似“一般智力”、“教育和培训”、“经验”、“兴趣”，而高结构化面试常关注“工作知识和技能”、“组织匹配”、“人际和社会技能”、“应用心理技能(问题解决、决策)”等和工作绩效高相关的构想。之所以出现这个结果，与结构化面试经常会进行严格的工作分析有关。Klehe等人(2006)以入学的79个MBA学生为样本，研究了BDI和sI对绩效的不同预测作用。该研究表明，BDI和sI虽都能预测通常绩效(typical performance)，但sI还能预测最佳绩效(maximum performance)。这说明，BDI和sI所测量的构想是不一样的。BDI主要测量的是动机因素，而不是能力因素，sI能测量一个人的动机，同时，sI能解释通常绩效和最优绩效中由于能力因素所产生的变异。对既需要通常绩效又需要最优绩效的岗位来说，如消防员、救护车司机，往往是在压力和紧急情景中工作，选择sI作为甄选工具似乎更好。Salgado等人(2002)对人事甄选面试的元分析研究将面试分为传统面试(conventional interview)和行为面试(behavioralinterview，包括BDI和SI两种形式)两类。这项研究表明，传统面试和行为面试是不同类型的面试，前者主要测量一般心理能力、工作经验、大五人格维度和社会技能；而后者主要测量工作知识、工作经验、情景判断和社会技能。

Huffcutt和Conway等人(2001)认为研究面试构想效度有四个基本步骤：首先，对面试可能的测量构想进行分类，为识别和划分面试构想提供框架；第二，识别面试试图测量的构想，并收集这些构想出现频次方面的信息；然后，探讨在何种程度上对构想的评价反映了预定特征；最后，研究这些评定的一般属性，如效度、递增效度、对弱势群体的影响等。Huffcutt和Conway等人(2001)将面试设计测量构想分为七大类：心理能力(mental capability)、知识和技能(knowledge and skills)、基本人格倾向(basic personality tendencies)、应用社会技能(apphed social skills)、兴趣和偏好(interest and vreferences)、组织匹配(organizational fit)、身体属

性(physm attributes)。该研究对47个招聘面试研究进行了元分析，从中选出了338个面试构想。统计结果表明，面试所设计测量的构想最多的是基本人格倾向(35％)，其次是应用社会技能(28％)，再次是心理能力(16％)、知识和技能(10％)。面试最不常测量的是兴趣和偏好(4％)、身体属性(4％)和组织匹配(3％)。

尽管对面试构想的揭示不甚理想，但也有了一定的进展。关于面试构想效度的研究，多集中在面试对认知成分和人格成分的测量上，下面就这两方面的研究情况进行简要总结。

2.3面试测量认知成分的研究

多数研究结果表明，面试评定和应聘者的认知能力存在显著相关。有研究早就提出，结构化面试就是口头心理能力测验(oral mental abiliw test)(Campion，1988)。HulTcutt等人(1996)通过对49个面试、总计12 037个样本的元分析，对此假设进行了验证。其研究发现，认知能力和甄选面试分数修正后的平均相关为0.40。该研究认为，面试评价之所以反映认知能力成分，至少有四个原因：一，面试评价往往受少数几个主导因素的影响，如是否足够聪明以便于迅速掌握岗位所需要的东西，即认知能力：二，认知能力强的人更善于呈现自己，即更容易学会印象管理行为；三，面试问题中会引发包含有认知能力的回答，如技术(业务)方面的问题：四，个人背景信息会间接反映认知能力，越是聪明的人，越有可能获得更多更好的教育，更高的社会和经济地位，以及更好的工作。

关于面试和认知能力的关系，存在诸多调节变量。一是结构化程度，Huffcutt等人(1996)的研究表明，面试的结构化程度越高，其中包含的认知成分越少；二是面试内容，如BDI较SI评定中的认知成分少；三是岗位复杂程度，低复杂程度的岗位，面试中反映的认知成分越高；四，评价者是否事先得知认知能力测验分数，如事先告知面试能力测验分数会提高面试评价中的能力成分，尤其是在非结构化的面试中，而在结构化面试中，没有发现这种效应。

高复杂程度的岗位，面试中包含的认知成分反而较低，这个研究结论和常理似乎是矛盾的。其实，这可能是一个非常重要的发现。越是复杂的岗位，候选人之间在认知能力方面的差别越小，而人际技能可能是决定未来绩效的因素。

Salgado等人(2002)也对面试和认知测验分数之间的相关进行了元分析，该分析较Huffcutt等人(1996)的研究用了更多的研究数据。该研究发现，SI和BDI与认知测验的相关修正后为0.28，而传统面试和认知测验分数之间的相关为0.41。这个结果和Huffcutt等人(1996)的研究结论是基本一致的。

最近的研究发现，面试和认知能力之间的相关比以前的研究结果要小，如Berry等人(2007)的一项元分析结果为0.27。该研究采用了较近期的数据，并排除了那些评价者有可能接触到应聘者认知测验分数的数据，最终，选取了免受区间限制(Range Restriction，简称RR)混淆效应的40项研究(N=11，317)。如果用这样的系数来计算认知测验和面试对工作绩效预测的多重相关系数，则能够达到0.66的水平，比Schmidt和Hunter(1998)报告的其他任何组合都要高。如面试有高预测效度，尤其是结构化面试，并且，面试和认知测验相关低的话，对很多雇主来说，面试或许是对认知测验的一个有用的补充(Berry等，2007)。

尽管多数研究表明，面试评定和认知能力得分相关较高，但面试(结构化面试)对认知能力测验仍有递增效度(Cortina，2000)，这说明面试和认知能力测验的构想还是不一样的。尽管结构化面试评定中的认知成分少，但结构化面试比非结构化面试预测效度高。看来，结构化面试能够测量到除认知能力之外的有预测效度的其他构想。如，Bosshardt(1992)年开发的BDI和认知能力测验相关为0，但其效度却达0.36(未校正)。随着研究的深入，人们发现，面试和认知测验分数的相关并不是那么高。面试类型直接影响面试评价中的认知成分大小，随着人们对面试构想效度的认识逐步深入，就可以根据实践需要，设计包含认知成分高低不同的面试。在人员甄选实践中，如果已经使用了认知能力测验，就可以减少面试中的认知能力成分，以提高面试的递增效度。如果仅仅使用面试一种甄选测量程序，则应加大面试中的认知成分，目的是提高甄选测量的预测效度(Huffcutt，1996)。也就是说，我们可以根据需要，设计和认知能力相关高的面试，也可以设计和认知能力相关低的面试。

2.4面试测量人格成分的研究

和研究面试评定中的认知成分类似，研究面试评定中的人格成分，同样有助于理解面试到底测量了什么构想，了解面试是否能够预测工作绩效之外的其他效标(如离职率)，有助于理解面试对工作绩效预测的递增效度。

虽然面试用来测量的维度中，人格相关的维度最多(Huffcutt，Conway等，2001)，但是，关于面试分数和这些维度测量之间关系的研究很少。总的来说，实验室研究表明，面试是能测量人格的(Roth等，2005)。Cotina等人(2000)的研究发现，责任心和结构化面试评价之间校正后的相关为0.258(N=966)。但是，有关实际聘用面试中人格成分的研究相对较少，而且研究结果也不一致。Pulakos等人(1996)的研究发现，责任心和面试总分的相关为0.12(N=456)。HuffcuR和Conway等人(2001)考察了人格和BDI表现的关系。他们用现任的管理者做被试(N=93)，研究发现，在大五维度中，只有外倾性和面试表现相关(0.30)。Roth等人(2005)的元分析研究也发现，面试和责任心、外倾性、宜人性、开放性、情绪稳定性的相关(未校正)分别仅为0.12(N=1，506)、0.08(N=744)、0.01(N=668)、0.03(N=668)、0.01(N=668)。该研究所使用的人格因素测量均属自陈式的。但是，其他研究，如Conway等人(1999)年的研究未发现大五人格和情景面试、行为面试评定之间的显著关系。

面试类型可能是面试人格成分的调节变量，如非结构化面试中的人格成分多。另外，Roth等人(2005)设想，用来招聘高层管理者和行政人员时，面试中的人格成分会更多。

面试和人格因素相关很小，这表明面试很可能对人格测量有递增效度。当然，组织也可以设计能够测量人格的面试。为此，在工作分析时，可以专门捕捉人格因素，然后设计专门的题目来测量这些因素。但是，这种研究还非常少。或许，这种面试中的人格成分会多一些。VanIddekinge等人(2005)

的模拟面试设计测量宜人性、责任感和情绪稳定性三个方面，结果发现，专门设计的人格面试(personality interview)的构想效度是存在的。

3未来面试效度研究重点和趋势

就面试预测效度而言，未来的研究会更加深入和细化，会针对具体的面试类型及具体的效标。不同类型面试预测的效标可能存在不同，因而需要采用多重效标(multiple criterion)的观点，包括工作绩效、离职率、晋升等效标。就工作绩效来说，也存在多个方面，未来研究需要深入探讨不同类型面试对工作绩效的不同侧面的预测作用。如Klelie等人(2006)研究了BDI和sI对通常绩效和最优绩效的不同预测作用。研究者还可以比较以上两类面试对任务绩效和周边绩效的不同预测作用。参照Klehe等人的研究结果，有理由假设：BDI和sI都能够预测周边绩效，但sI更能预测任务绩效。当然，这种假设还需要大量实证研究的支持。人事甄选研究的另一个趋势是强调效标的动态性，即研究预测源对跨时间绩效的预测作用(Sacker et al，2008)。由此，我们可以假设，情景面试预测适应岗位时的绩效，而行为面试预测更加长期的绩效。

在面试应用中，也存在多种面试内容的组合，如BDI和SI的结合。Taylor和O'Driscoll(1995／2006)指出，如果大多数求职者对于某项特定的胜任特征没有多少相关的过去经验，也许BDI和SI结合的方法比较适用。虽然在应用中经常见到，但目前还没有看到有关这种类型组合效度的研究报告。如果两者预测的效标不同，有理由提出如下假设：BDI和SI的组合能够提高面试的总体预测效度。相信有关研究会出现，并很可能会有新的发现。

应聘者的作假行为(faking behavior)是影响面试效度的重要因素。以往研究在这方面有了一些积极的成果。如Levashina和Campion(2007)的研究指出，人是很难察觉作假行为的，相比情景面试而言，行为描述面试的抗作假行为能力更强。同时，该研究还发现，面试中的追问更容易激发应聘者的作假行为。对作假行为的研究有助于提高面试的效度，我们期待着这方面有更多的研究成果出现。

关于面试构想效度的研究，需要更多有关具体岗位的研究，以识别出哪些构想是通用的，哪些是适用于特定岗位类别的(Huffcutt。Conway,et al，2001)。另外，对不同类型面试的测量构想的研究应细化。根据实践经验，可以提出如下假设：行为面试可能更适合测量某些维度，如人际类，而不适合测量另一些维度，如认知类。

就面试评定中的认知成分研究来说，已经形成比较一致的认识。但是，仍然需要进一步的实证支持，尤其是特定类型面试评定中的认知成分研究还不够丰富。就面试评定中的人格成分研究来说，未来的研究仍然需要深入探讨。目前，对面试评定中的人格因素的实证研究多以大五人格维度为人格框架，且还不够丰富，只有为数不多的研究。在研究面试和人格因素的关系时，研究者可以考虑使用以工作情景进行测量的人格量表，其题目的心理测量学特征和一般题目不同。即便这种特定情景中的人格并不能提高预测绩效的效度，但可能和面试评定的相关更高一些(Hunthausen，2003)。

以往的面试构想效度研究多集中在面试评定中的认知成分和人格成分上，未来的研究还应研究面试所测量到的除认知能力、人格因素之外的具体变量(Roth，2005)，如视觉线索(visual cues)和社会技能。多数面试中存在大量人际互动，应聘者的社会技能可能严重影响一般印象因素，哪怕面试并非专门来测量社会技能。Ulrich和Trumbo(1965)早就提出，面试可能用于测量人际关系(interpersonalrelations)和职业动机(career motivation)。VanIddekinge等人(2004)指出，有研究认为，面试可能测量了自我效能感(self-efficacy)、内隐知识(tacitknowledge)和人一组织匹配(person-organization fit)。这些结论还都需要实证研究的进一步支持。

另外，未来研究应探讨提高面试构想效度的因素，如面试评价维度数目、评价维度独立性、评价者背景(如心理学家和管理者)、行为列表的使用、跨题目评价维度等(van Iddekinge et a1—2004)。和研究面试构想的基础研究相比，更需要研究的是面试评价的过程及这种过程对评价构想的影响(Roth et al，2005)。面试评价是非常复杂的信息加工过程，只有将这个过程揭示清楚，才能真正理解面试所测量的构想是什么，从而有针对性地对面试设计过程进行改进，实现实践者的特定目标，最终提高面试的预测效度。