情境判断测验的研究和应用进展

2014-02-04 12:53

中国人力资源开发 2014年7期

●

■责编/张新新 Tel: 010-88383907 E-mail: hrdxin@126.com

情境判断测验（Situational judgment tests，SJTs）是一种测量方法，给作答者呈现工作中可能会遇到的情境，每个情境包括多个行为选项，作答者对这些行为选项进行评价。情境判断测验（以下简称“测验”)通常是纸笔形式，也可以口头、录像或电脑形式呈现（Clevenger et al., 2001；Weekley &Ployhart, 2005）。

测验的使用可追溯到20世纪20年代。第一个广泛使用的测验是华盛顿社会智力测验，其中一个分测验为社会情境判断。近20年来，测验的应用和研究显著增加，目前测验主要用作高利害情境的选拔方法。例如，美国和加拿大的政府、军队、警察和私有机构使用测验筛选候选人（Catano etal., 2007）。欧洲人事选拔办公室将测验用于许多职位的选拔中。如人际情境判断测验在英国用于给实习医生颁发合格证书（Patterson et al.，2005），在比利时用于选拔医学生（Lievens& Sackett, 2007）。

国内研究者对情境判断测验也高度关注。漆书青和戴海琦（2003）、唐素萍（2004）、王沛和董俊花(2005)对测验的性质、功能、开发程序和效度等问题进行了研究。陈红斌（2005）构建了人寿保险代理人销售能力情境判断测验，李远（2007）开发的测评多维度能力的情境判断测验用于领导胜任力研究，徐守森等人（2008）编制的情境判断测验测评北京奥运志愿者8个方面胜任特征，吴小玲（2011）编制了企业中层管理者一般管理素质情境判断测验，钟志杰（2012）开发了测量公务员内隐知识的情境判断测验，原宁（2012）开发了党政领导干部诚信情境判断测验。总的来说，国内有关情境判断测验的研究处于起步阶段，学者比较关注测验的形式和开发程序，信度和效度研究比较缺乏。实践方面，如在北京市公开选拔领导干部和广州市公开招考企业高层经营者测评中都使用了情境判断测验。

本文从情境判断测验的理论基础、编制、信度和效度等方面对现有研究进行系统全面的梳理，总结测验的优势和不足，指导人事选拔和评价实践，并提出未来研究的建议。

一、情境判断测验的理论基础

近年来，学者们开始重视对测验理论基础和本质的研究。主要代表为20世纪90 年代Motowidlo等人提出的行为一致性原理和内隐特质理论。他们基于关键事件分析和专家判断编制了一套用于选拔电信行业初级经理的情境判断测验, 结果显示,作答者的得分与其上级评定的相关为0.28-0.37（p<0.01）, 即测验在一定程度上预测个体的工作表现。为了解释这一结果，Motowidlo 等人提出，测验题目基于实际工作情境中的行为反应，要求作答者根据惯有行为模式进行评价或选择, 遵循行为一致性原理，即过去的行为是未来行为的最好预测。Motowidlo等人将测验称为低仿真模拟，因为测验模拟工作情境。

测验结果除了可以在一定程度上预测工作绩效, 还与认知能力测验和人格测验存在较高的相关（Chan, 2006；Ployhart & Weekley, 2006）。Motowidlo等人（2006）提出的内隐特质理论（implicit trait policy），在一定程度上解释了测验结果和人格测验有较高相关的原因。该理论认为，个体在人格特质上的差别影响对显示这一人格特质的行为有效性的判断。例如，宜人性高的个体较宜人性低的个体在评价行为有效性时，会赋予宜人性更高的权重，即他们会给高宜人性的行为更高的评价，而给低宜人性的行为更低的评价。

虽然行为一致性原理和内隐特质理论解释了情境判断测验为什么能预测工作行为，但目前，关于测验与绩效的准确机制很大程度上仍是推测。未来需要对测验的理论基础和本质进行深入的探讨与研究。

二、情境判断测验的编制过程

Motowidlo 等人(1990)提出，测验的编制包括以下三个阶段。第一，进行工作分析。从主题专家（如在职官员、管理者或客户）那里搜集工作情境的关键事件，或者不给主题专家提供关键事件的具体指导，或者指导主题专家写下从工作分析中获得的与胜任特征有关的事件。搜集关键事件后，将关键事件归类，选择有代表性的情境，把事件编辑成类似长度和格式的题干。题干有四个特征：题干的仿真度不同，录像呈现情境比书面描述有更高的仿真度；题干长度不同；题干复杂性不同；题干的可理解性不同。第二步，另一组主题专家或无经验的员工提供对每个情境的一个或多个反应。主题专家能够鉴别最好的反应，提供普遍反应；无经验的员工提供广泛的反应。搜集反应选项后，编辑行为选项。测验的最普遍形式是多项反应，每个情境可有3至12个甚至更多的反应选项。最后，开发计分键。McDaniel等人（2001）提出，与认知能力测验不同，情境判断测验题目的反应选项都是合理的，是哪个答案“最好”的问题，而不是哪个答案“正确”问题。确定计分键的方式要包括专家计分、实证计分、理论计分和因子计分等（Bergman et al., 2006）。专家计分时，专家（或优秀员工）对反应的有效性作出判断，或者确定最好和最差的选项。确定为“最好的”选项计分为正确，确定为“最差的”选项计分为不正确。实证计分时，对样本进行施测，将高绩效个体选择的反应选项计分为正确，低绩效个体选择的选项计分为不正确。理论计分时，反映理论的选项计分为正确，与理论矛盾的选项为不正确，与理论无关的选项计分为0。理论计分可能更易于作假（Hough & Paullin, 1994），理论可能有缺陷或不正确。因子计分在题目没有确定构想时使用，也用于筛选题目（Hough&Paullin,1994）。一些测验使用多种计分方式，如专家和实证综合计分。

目前，哪种计分方式更好并没有一致结论，相关研究也很少。未来需要对不同的计分方式进行研究，并将研究结果用于指导测验开发和人事测评实践。

三、情境判断测验的指导语和赋分方法

情境判断测验的反应指导语主要有四种（李远，2007；王沛、董俊花，2005）：第一种要求作答者从多种反应选项中选择最有效的反应，称为知识型指导语，变式是要求作答者选择最有效和最无效的反应。第二种要求作答者选择最可能采取的反应，称为行为型指导语，变式是要求选出最可能采取的和最不可能采取的反应。上述两种方式都属于迫选式。第三种方式是要求作答者评价每个反应选项对解决情境中问题的有效性。一般采用5点或7点利克特量表，请作答者按照从1（非常无效）到5或7（非常有效）的量表评价每个反应的有效程度。第四种方式在Steinberg等（1995）对“内隐知识”研究中使用较多，要求作答者对反应选项按照有效性或先后顺序进行排序。

根据指导语类型，赋分标准与方法相应有如下几类：第一，选出最有效选项（最可能选项），选对（与专家选项相同）为“1分”，选错为“0分”；第二，选出最有效（最可能）选项与最无效（最不可能）选项，选对一项为“1分”，选对两项得“2分”，均选错得“0分”；或者将最有效（最可能）项选为最无效（最不可能）项得“-1分”，反之也得“-1分”；或者令作答者选出最有效和最无效项，但求取的是专家在这两项上设定值前项减后项的差；第三，使用利克特量表时，事先由专家将每一反应在“最有效至最无效（最可能至最不可能）”等级量表上评出值，再计算作答者评出值与专家设定值的离差，离差小者为优；或者不求离差而求相关系数值，这时，要求反应选项的个数应多；或者只考察最有效(最可能)项上的离差；第四，使用排序式时，按专家排序的标准给每个反应选项赋予一定的分值，然后把作答者的选择按此标准进行数量化。

不同的测验指导语和赋分方法各有优势和不足，可能会对测验的效度产生影响，但目前还缺乏相关效度的比较研究，测验开发者可以根据实际测评需要进行适当的选择，未来研究需要对此进行深入的探讨。

四、情境判断测验的信度和效度

（一）信度

1.内部一致性信度

情境判断测验的大多数信度研究考查内部一致性信度。McDaniel等人（2001）的元分析总结了这些研究，内部一致性信度系数在0.43-0.94，更长的测验有更高的内部一致性。Ployhart和Ehrhart（2003）发现反应指导语类型影响内部一致性。要求作答者“评定每个反应的效度”产生最高的内部一致性（0.73），选择两个反应（最好和最差）的指导语有稍低的内部一致性（0.60），而仅选择一个反应（如最有效的反应是什么？）有最低的内部一致性（0.24）。Catano等人（2012）综述了1990－2011年39个研究的内部一致性资料。这些研究中测验的题目数从3至60，指导语包括所有类型。对研究中的56个信度系数进行元分析，平均校正r是0.46，这表明测验的内部一致性较低。影响信度系数的因素包括题目数和指导语等。需要注意的是，测验内部一致性在0.8以下，而大多数专家认为在高利害情境中可接受的信度值应在0.8以上。McDaniel等人（2007），Whetzel和McDaniel （2009）and Lievens等人（2008）认为大多数测验是异质的，内部一致性仅是单维度测验的合适信度测量，低估了情境判断测验的信度，再测信度或平行信度是更合理的信度估计。

2.再测信度和平行信度

再测信度要求作答者一段时间后在同一测验上再次测试，只有几个研究探讨了测验的再测信度。Ployhart等人(2004)报告再测信度为0.84。Bruce和Learner（1958）及Richardson等人（1981）发现再测信度为0.77-0.89。Lievens等人（2005a）报告一周后，录像形式的测验再测信度为0.66，两次测试的内部一致性分别为0.3和0.4。Catano等人（2012）的纵向研究中，研究1学生样本用“应该做”指导语，2周后测验的再测信度为0.82，内部一致性分别为0.46和0.52，测验与认知能力（0.3）和宜人性（0.24）相关显著。研究2中，在职人力资源工作人员使用“最可能/最不可能做”指导语，3个月后再测信度为0.66，两次测试的内部一致性分别为0.43和0.61。这表明，两个不同的人群，两种不同类型的指导语，不同的再测时间间隔，再测信度比内部一致性信度更高。

平行信度要求使用不同的题目测量同样的构想，开发程序复杂，用时较长，而且数据搜集困难，因此平行信度的研究很少。Clause等人（1998）开发测验的平行形式，再测信度为0.7-0.77，四个版本测验内部一致性0.58-0.6。Chan和Schmitt（2002）估计平行信度为0.76。

总之，内部一致性不是情境判断测验的合适信度测量，再测信度是更合理的信度估计，在未来的测验研究和开发中应使用再测信度作为信度指标。

（二）效度

1.标准关联效度

选拔实践中一个重要问题是选拔工具能否预测工作绩效，研究表明情境判断测验是工作绩效的较好预测源。Wagner 和Sternberg(1991)开发了管理者内隐知识测验，测验分数和各种绩效标准中等相关。在McDaniel等人(1997)的元分析研究中，发现测验能预测工作绩效，效度为0.56，与Hunter and Schmidt（1998）发现的认知能力测验效度0.51接近。McDaniel等人 (2001)对95个研究的标准关联效度进行了元分析，发现测验和工作绩效的相关是0.34。以工作分析为基础开发的测验比没有工作分析的测验有更高的效度（0.38和0.29）。一些研究表明测验作为入学测验的一部分，也是教育环境中的有效预测源（Lievens et al., 2005a, b;Oswald et al., 2004）。McDaniel等人（2007) 对118个研究的元分析表明，测验总的效度系数是0.26。这些效度结论几乎全部以同时效度研究为基础，使用在职者而不是求职者作为被试。

Christian等人（2010）的元分析研究表明，大多数测验测量领导（占37.50%），接下来是人际技能（占12.50%）、个性倾向（占9.56%）、团队工作技能（占4.41%）、工作知识和技能（占2.94%）。测量团队工作技能的测验平均效度为0.38，领导技能测验的平均效度为0.28，人际技能测验的平均效度为0.25，评价尽责性的测验平均效度为0.24，工作知识和技能测验的平均效度为0.19。总之，大多数测验测量领导和人际技能，测量团队工作技能和领导的测验相对有较高的工作绩效效度。

2.递增效度

除了每个预测源的效度外，考察测验在其它预测源之上的预测效度，理论和实践上也很重要。McDaniel等人（2007）对测验的递增效度进行了元分析，发现测验提供认知能力之上的递增效度为3%-5%，个性之上的递增效度大约在6%和7%之间，认知能力和个性之上的递增效度在1%至2%之间。

3.构想和内容效度

研究表明，测验与多种构想有关。Wagner和Sternberg（1985）提出测验测量认知能力之外的东西，称“内隐知识”或“实践智力”。McDaniel等人（2001）的元分析中，测验与认知能力的相关为0.46。录像测验比纸笔测验与认知能力的相关更低（Weekley and Jones,1997），基于工作分析的测验比没有工作分析的测验与认知能力有更高的相关（0.50和0.38）。其它研究者提出测验测量工作知识、工作经验或人际变量（McDaniel and Nguyen, 2001; Weekley and Jones, 1999）。McDaniel等人（2007）的元分析表明，知识型指导语测验比行为型指导语测验与认知能力测验的相关更高（0.35和0.19）；行为型指导语测验比知识型指导语测验与宜人性（0.37和0.19），尽责性（0.34和0.24）和情绪稳定性（0.35和0.12）的相关更高。这些研究表明，知识型指导语测验是最高表现测量，行为型指导语测验是典型表现测量。

因素分析表明，情境判断测验包含多个难以解释的因素（Schmitt and Chan, 2006）。这是因为测验是评价工作相关知识、技能和能力的测量方法（McDaniel and Whetzel, 2005; Weekley and Jones, 1999）。测验题目涉及广泛的情境，对题目的反应是能力、经验和个性共同作用的结果。Smith和McDaniel（1998）发现测验的最大相关是年龄和工作经验，测量通过生活和工作经验获得的工作知识和技能。测验与个性中的尽责性（r=0.32）、情绪稳定性（r=0.22）和认知能力（r=0.22）相关，表明测验评价与工作相关的多种构想。一些研究者强调内容效度证据作为建立测验效度的一种方法（McDaniel & Nguyen,2001; Schmitt & Chan,2006; Stemler & Sternberg,2006），大多数测验情境来自于关键事件，这提高了它们的工作相关性和工作内容覆盖面。

总之，测验能预测工作绩效，具有较好的标准关联效度和递增效度，尤其适合测量团队工作技能、领导和人际技能等。但大多数测验具有特定的背景，因此需要开发适用于特定工作和文化的测验工具。另外，开发者可以通过改变反应指导语来改变测验的构想，测量认知能力时，可以使用知识型指导语；测量个性时，可以使用行为型指导语，但要注意行为型指导语测验易于作假。需要注意的是，情景判断测验所测内容还存在争议，因而对测验结果的解释要谨慎，不能盲目下结论。

五、影响情境判断测验效度的因素

1.测验形式

Richman-Hirsch等人（2000）研究表明，多媒体形式的测验比计算机化和纸笔形式的测验有更大的表面效度，作答者感知更积极。Lievens等人（2006a）研究表明，录像形式的测验变为纸笔形式显著降低测验的标准关联效度，纸笔形式测验与认知能力有更高的相关。录像和多媒体形式的测验有更高的仿真度，呈现的信息也更丰富更详细，这导致更高的标准关联效度。Kanning等人（2006）研究发现，情境和反应都以录像形式呈现的交互式情境判断测验，获得作答者的最好评价。但录像形式的测验开发成本更高，开发难度也更大，需要编制剧本、聘请演员、拍摄、编辑录像等程序。而且录像形式的测验使用成本也更高，需要准备电脑等相关设备。

2.练习和训练

当一种选拔方法流行时，相关人员会参与商业测验训练计划，掌握提高测验分数的策略，进而提高选上的可能性。那么，测验成绩能通过训练提高吗？只有个别研究探讨过这一问题。Cullen等人（2006）研究了大学入学测试中作为选拔工具的情境判断测验的可训练性。结果表明，一些测验对训练敏感。Lievens等人（2012）研究表明，在高利害选拔中，训练可提高测验分数，训练效应大约0.5个标准差。这表明，训练影响情境判断测验的效度，未来研究需要确定这一提高是表面提高还是真正提高。类似的问题是，当相关人员再次测验时分数能否提高。Lievens等人（2005b）研究表明，测验的再测效应并不比传统的认知能力测验大。

3.作假

考虑到测验是低仿真模拟，使用自我报告形式，有必要探讨测验可作假的程度。Hooper等人（2006）总结已有的情境判断测验研究，发现被要求尽可能诚实回答的作答者和被要求作假的作答者平均分数有差异，差异在0.08-0.89个标准差之间，作假效应比个性测验小得多。他们提出了几个可能使测验更易作假的中介变量：第一，测验题目有更大的认知负荷时，不易作假。第二，越明晰的题目更易于作假。第三，反应指导语类型是关键因素，因为它影响测验的认知负荷和反应失真量（Nguyen et al.,2005b; Ployhart and Ehrhart, 2003），行为型指导语测验比知识型指导语测验更易作假。最后，研究设计类型，实验室研究考查作答者在测验中是否能作假（即作假的能力），与作答者在实际选拔中是否作假（即作假动机）并不是同样的问题。

4.反应指导语类型

反应指导语可能影响测验的标准关联效度。一些研究者（McDaniel etal., 2007）提出，知识型指导语更有效，因为测验测量工作知识，后者是工作绩效的好的预测源。其它研究者（Ployhart & Ehrhart, 2003）提出，行为型指导语测验可能更有效，因为预期的行为预测未来的行为。Reynolds等人（2000）发现不易作假的测验有更高的效度。Nguyen等人（2005）发现，行为型测验比知识型测验更易作假，作假效应大小在0.15和0.34之间，知识型测验分数与认知能力的相关（0.56）比行为型测验（0.38）更大。McDaniel等人（2007）进行了一个元分析，发现两种不同的指导语类型并不显著影响测验的标准关联效度。这一结果的一个可能原因是作答者忽略了行为型测验的反应指导语，报告他们的知识；另一个可能的原因是工作绩效的一些方面能够由认知能力或个性预测。知识型测验测量如何行动的知识，诚实者和作假者都真实回答。在行为型测验中，诚实者报告行为倾向，作假者报告他们的知识。如果所有的作答者诚实回答，那么行为型测验将比知识型测验产生更高的效度，因为前者评价的行为倾向比后者评价的知识能更好预测未来的行为。然而，当作答者作假时，两种指导语测验都测量知识，效度相同。Lievens等人（2009）进行了高利害选拔情境中的大样本研究（医学院入学选拔），与低利害情境中研究相反，两种指导语测验上的平均分数没有显著差异；与以前研究一致，知识型测验与认知能力的相关比行为型测验更高。两种指导语条件下，测验的标准关联效度没有差异。

总之，虽然情境判断测验与个性测验相比不易作假，但在一定程度上仍可作假。在人事选拔实践中，建议使用知识型指导语，因为知识型测验更不易作假。未来研究需要进一步探讨影响测验效度的因素，尤其是练习和训练的影响，并将研究结果用于指导人事测评实践，提高选拔效度。

六、实践应用与探索

在北京市竞争性选拔领导干部和后备干部素质测评中，多次使用《领导能力测验》。该测验属于纸笔情境判断测验，由北京双高人才发展中心与北师大心理学院合作开发。开发过程包括：关键事件访谈、情境设置、行为反应收集、测验试测、效度检验、常模构建。采用关键事件访谈法进行工作分析，对北京市30多名机关、企事业单位的中高层领导干部进行访谈。对他们描述的“关键事件”进行筛选、编辑和修订，设计测验的情境部分。进行开放式问卷调查，收集这些情境下的各种行为反应，进行编辑和整理，保留4个反应作为题目选项。测验题目以四选一的选择题形式呈现，作答者在四个选项中选择最恰当的选项。采用2-1-1-0计分方法，10名相关专家对题目选项进行评价，最好的选项计2分，最差的选项计0分，其余选项计1分。

题目例子：你是某集团总裁，最近突然接到一位副总和产品总监的辞职报告，并且听说他们有意加盟另一家规模和薪酬水平相近的公司。你认为他们跳槽最可能的原因是：1.为了寻求个人利益最大化，他们的选择是可以理解的；2.他们同时跳槽，是为了表示对公司的不满，是缺乏忠诚度的表现；3.自己忽略了和他们的沟通，没能提供充分发挥他们能力的平台；4.公司忽略了为他们提供专业培训机会，影响了他们的职业发展

对100多人的样本进行试测，包括领导干部、企业管理人员、部分在读大学生。通过项目分析，保留64题，包括人脉建立、执行力、团队管理和战略管理4个维度，每个维度包含2-6个要素。题目的区分度均大于0.15，在高、中、低三个难度水平都有分布。其中3个维度的α系数在0.51以上，达到了能力情境测验的要求。比较学生组和领导组在测验上的平均得分，考察测验的同时效度，结果表明学生组和领导组在人脉建立和战略管理上的得分存在显著差异，学生组得分低于领导组；学生组在执行力和团队管理上的得分也低于领导组。根据近2000名领导人才的测试数据，构建测验的常模。将各要素得分转化为标准分，根据得分高低分成高、中、低3个评价等级，开发了相应的评语解释体系。在此基础上，开发了《领导能力测验系统软件》，可以自动进行数据处理，提供个人测试评价报告。

七、未来研究方向和建议

虽然情境判断测验在人事选拔和教育领域中已成为有效的预测工具，但对测验的了解还刚开始。本文在综述已有文献和研究基础上，提出未来研究和实践建议如下：

第一，需要对测验的理论基础和本质进一步研究。早期的情境判断测验研究关注测验的预测效度，追求的往往是测验对个体未来工作行为的预测效果，造成情境判断测验的理论研究相对滞后。虽然行为一致性原理和内隐特质理论对测验为什么能预测工作行为提出了解释，但目前，关于测验与工作绩效的准确机制相当大程度上仍然是推测，测验的本质还不甚明确，需要未来研究进一步探讨。

第二，探讨用新的刺激和反应形式呈现测验并进行研究。动画是呈现刺激的新形式，虽然动画并不能呈现录像形式的大量信息，但更容易通过网络使用。新反应形式是给作答者呈现录像形式的情境，让他们表演反应，同时用相机或摄像头录下来。未来研究应该比较新形式和传统形式测验的效度。

第三，要想使测验在国际选拔实践中取得进展，应探讨测验的跨文化适用性（Lievens, 2006）。即，在一种文化中开发的测验能否移植并用于另一种文化，作为有效的预测源？Such和Schmidt（2004）探讨同一测验在不同国家的效度，结果表明测验在英国和澳大利亚是有效的，在墨西哥并没有预测性。未来可对相关问题进行进一步研究。

第四，未来研究迫切需要进一步探讨测验的效度。首先，已有研究主要以同时效度为基础，结论多大程度上能推广到选拔样本不甚明确。求职者在高利害情境下完成测验，比在职者更可能作假。其次，应探讨测验与其它选拔方法组合的效度。例如，研究测验在其它低仿真模拟如情境面试或行为面试之上的递增效度，在其它高仿真模拟如评价中心基础上测验的用途。最后，进一步研究不同的测验特征对效度的影响。已有研究已经确定刺激仿真度（纸笔和录像形式）和反应指导语类型（知识型和行为型）是决定测验认知负荷的关键因素。未来需要进一步研究，其它测验特征对效度的影响，如题目具体性水平、题目长度及测验内容等。

最后，需要研究各种赋分方法的效果。例如，使用利克特量表赋分时，绝大多数测验使用原始分数，而Legree等人（2005）提出，分数需要进行个体内标准化，以消除使用利克特量表时的评价标准个体差异。一种赋分策略比其它策略产生的分数能更好预测绩效吗？未来研究需要对此进行比较和探讨，并将研究结果用于指导人事选拔实践，完善测验工具，提高选拔效度。

总之，未来研究应从各方面提高情境判断测验作为人事选拔和评价工具的信度和效度，选拔效度的提高必将推动测验工具在人事选拔和评价中的应用，并最终服务于我国的人力资源开发和管理。

1.漆书青、戴海琦：《情景判断测验的性质、功能与开发编制》，载《心理学探新》，2003年第4期，第42-46页。

2.唐素萍：《情景判断测验的开发程序、构思效度及研究趋势》，载《心理科学进展》，2004年第1期，第119-125页。

3.王沛、董俊花：《人力资源管理中情景判断测验的开发与应用》，载《宁波大学学报（教育科学版）》，2005年第5期，第17-21页。

4.李远：《企业领导胜任力情景判断测验的效度研究》，浙江大学硕士学位论文，2007年。

5.徐守森、车宏生、祖彬、林绚晖：《北京奥运志愿者的胜任特征模型——情境判断测验的应用》，载《首都体育学院学报》，2008年第6期，第35-38页。

6.仲志杰：《我国公务员内隐知识情景判断测验的开发及信效度研究》，重庆大学硕士学位论文，2012年。

7.Bergman, M.E., Drasgow, F., Donovan, M.A., Henning, J.B., & Juraska,S.Scoring situational judgment tests: Once you get the data, your troubles begin.International Journal of Selection and Assessment, 2006, 14:223－235.

8.Catano, V.M.Brochu, A.,& Lamerson, C.D.Assessing the Reliability of Situational Judgment Tests Used in High-Stakes Situations.International Journal of Selection and Assessment, 2012, 20:333－346.

9.Chan, D.Interactive effects of situational judgment effectiveness and proactive personality on work perceptions and work outcomes.Journal of Applied Psychology, 2006, 91(2): 475-481.

10.Christian, M.S., Edwards, B.D., & Bradley, J.C.Situational judgment tests:constructs assessed and a meta-analysis of their criterion-related validities.Personnel Psychology, 2010,63:83-117.

11.Lievens,F.& Sackett, P.R..Video-based versus written situational judgment tests: A comparison in terms of predictive validity.Journal of Applied Psychology,2006,91(5):1181-1188.

12.Lievens, F., & Sackett, P.R..Situational Judgment Tests in High-Stakes Settings: Issues and Strategies With Generating Alternate Forms.Journal of Applied Psychology, 2007,92(4): 1043-1055.

13.Lievens, F., Peeters, H., & Schollaert, E..Situational judgment test: a review of recent research.Personnel Review, 2008,37:426-441.

14.Lievens, F., Sackett,P.R..The Effects of Response Instructions on Situational Judgment Test Performance and Validity in a High-Stakes Context.Journal of Applied Psychology, 2009,94(4):1095–1101.

15.Lievens, F.,Buyse,T., Sackett P.R.and Connelly B.S..The Effects of Coaching on Situational JudgmentTests in High-stakes Selection.International Journal of Selection and Assessment, 2012,20(3):272-282.

16.McDaniel, M.A., Morgeson, F.P., Finnegan, E.B., Campion, M.A., &Braverman, E.P..Use of Situational judgment tests to Predict job performance: A clarification of the literature.Journal of Applied Psychology, 2001,86:730-740.

17.McDaniel, M.A., & Nguyen, N.T..Situatsional judgment tests: A review of practice and constructs assessed.International Journal of Selection and Assessment,2001,9:103-113.

18.McDaniel, M.A., Hartman, N.S., Whetzel, D.L., & Grubb, W.L..Situational judgment tests, response instructions, and validity: A meta-analysis.Personnel Psychology, 2007,60: 63–91.

19.Motowidlo, S.J., Dunnette , M.D., & Carter, G.W..An alternative selection procedure: The low-fidelity simulation.Journal of Applied Psychology, 1990,75: 640–647.

20.Motowidlo, S.J., Hooper, A.C., & Jackson, H.L..Implicit policies about relations between personality traits and behavioral effectiveness in situational judgment items.Journal of Applied Psychology, 2006,91(4): 749-761.

21.Nguyen, N.T., Biderman, M.D., & McDaniel, M.A..Effects of response instructions on faking a situational judgment test.International Journal of Selection and Assessment, 2005,13: 250-260.

22.Ployhart, R.E., & Ehrhart, M.G..Be careful what you ask for: effects of response instructions on the construct validity and reliability of situational judgment tests.International Journal of Selection and Assessment, 2003,11:1-16.

23.Smith, K.C., & McDaniel, M.A..Criterion and construct validity evidence for a situational judgment measure.In 13th annual conference of the Society for Industrial and Organizational Psychology, Dallas, TX.1998,8.

24.Stemler, S.E., & Sternberg, R.J..Using situational judgment tests to measure practical intelligence.Situational judgment tests: Theory, measurement, and application, 2006:107-131.

25.Whetzel, D.L., & McDaniel, M.A..Situational judgment tests: An overview of current research.Human Resource Management Review, 2009,19: 188–202.