基于CTT、SEM、GT方法的无领导小组讨论信效度研究*

2014-06-27 05:52:08严娟,袁军

湖州师范学院学报 2014年2期

关键词：小组讨论效度信度

严娟,袁军

(江西师范大学心理学院,江西南昌 330022）

基于CTT、SEM、GT方法的无领导小组讨论信效度研究*

严娟,袁军

(江西师范大学心理学院,江西南昌 330022）

如今企业的竞争已成为人才的竞争,企业对于人员的选拔越来越严格.无领导小组讨论作为一种现代的测评技术,也愈受企业组织的重视.但是,与此同时很多企业对无领导小组讨论的信效度仍持质疑态度.与以往的研究有所不同,通过使用经典测量理论、结构方程模型和概化理论分析某企业员工晋升选拔中无领导小组讨论的评分.研究发现,无领导小组讨论的评分者一致性系数较高;结构信度与结构效度较好;此外,概化理论分析获得的概化系数与可靠性指数都较高,且无领导小组讨论的评分者以4个为最佳.研究表明,无领导小组讨论在注意操作规范的前提下具有较好的信度与效度.

无领导小组讨论;经典测量理论;结构方程模型;概化理论;信度;效度

0 引言

随着经济的快速发展,国家综合国力的提升,近年来,企业间的竞争实质上已成为人才的竞争.对于企业而言,建设一支高素质的人才队伍是企业发展的首要条件.为了选拔出优秀的人才,我国企业已经开始从传统的测评模式转向现代测评模式,采用现代人才测评方法.无领导小组讨论(Leaderless Group Discussion,简称LGD）作为现代人才测评方法即评价中心的主要组成部分,已在国内外的人才测评中广泛使用,且占有重要的地位.尤其是在国内,无领导小组讨论已成为国家公务员和其他企事业单位的考试测评之一.

无领导小组讨论通常是6～8人一组,成员相互不认识,他们是临时组成的一个任务小组,而且没有指定的任务负责人.考官给定任务,让他们进行自由讨论,最终给出小组决策结果.考官对所有候选人在讨论过程中的表现进行观察并做详细的记录.无领导小组讨论主要考察候选人的口头表达能力、组织协调能力、团队合作、灵活性等方面的能力与特点.无领导小组讨论为候选人提供一个真实互动的环境,暴露出候选人习以为常的行为表现.无领导小组讨论可以有效地预测测评对象在实际情境中或将来具体工作中的真实表现,为测评对象提供平等的竞争平台.在无领导小组讨论中,每个人的地位都是平等的,而且测评对象间存在着直接的竞争,有利于激发测评对象的真实能力和才华.此外,还有利于减少测评对象的伪装行为,评分者也可以更客观和准确的对测评对象进行评价.

对于无领导小组讨论的应用最有争议的是其在实践中的可靠性和有效性问题.国内外的研究表明,评分者一致性是评价无领导小组讨论信度的最佳指标.在对评分者一致性的研究上,大部分是基于经典理论(Classical Test Theory,CTT理论）,但也有极少部分是基于概化理论(Generalizability Theory,GT理论）和项目反应理论(Item Response Theory,IRT理论）的研究.

在经典理论的研究上,R Gatewood等人(1990）对无领导小组讨论的评分一致性进行研究.结果表明,组内的评分者一致性系数在0.69～0.99之间,组间的评分者一致性系数在0.35～0.62之间,重测信度在0.35～0.62之间[1].Bass(1954）在无领导小组讨论研究中,指出评分者的内部一致性系数集中在0.61～0.84之间[2].在国内的苏永华、关培兰等人(1999）有关无领导小组讨论研究中,发现评分者信度在0.42～0.71之间[3].吴志明、张厚粲等人(2001）的研究发现,无领导小组的重测信度为0.77,而培训组的评分一致性系数是0.63,非培训组的评分者一致性系数为0.40[4].在基于概化理论和项目反应理论的研究上,有关无领导小组讨论的研究很少.康春花等人(2010）应用一元交叉设计和多元交叉设计,对某公司某次人事测评中无领导小组讨论结果的评价者一致性信度进行评估,评分者信度都达到了可以接受的水平[5].姚若松等人(2013）将多侧面rasch模型应用到无领导小组讨论中,发现培训组的评委宽严度比未培训组评委宽严度集中,表明了培训的有效性,也说明培训组的评委内部一致性更高[6].

由于无领导小组讨论本身的优势,在企业组织员工的选拔与晋升中的使用率日益提高.但当前企业在使用无领导小组讨论上只是对实施过程、注意事项等理论进行描述,缺乏对无领导小组讨论深入的统计分析以支持无领导小组讨论的信效度,使得很多企业对无领导小组讨论的信效度表示质疑;同时,很多关于无领导小组讨论的研究是基于对大学生的研究,大学生与企业员工在心理与职业素质上是存在差别的,这必将导致其获得的结论具有先天的局限性;最后,在当前的方法研究上,更多的是使用经典测量理论的分析,方法单一,缺乏综合不同方法来分析无领导小组讨论的研究.

鉴于此,本文以某企业的员工为研究对象,通过测评专家使用无领导小组讨论的方法,从这批员工中选拔出优秀的人员,给予职位晋升.对此次无领导小组讨论收集的数据经过经典测量理论分析,并结合结构方程模型(Structural Equation Modeling,SEM）和概化理论综合分析来说明无领导小组讨论的信效度.

1 研究方法

1.1 无领导小组讨论测评维度的确定与题本开发

根据胜任力模型建构的要求,进行岗位分析,并对该岗位的优秀员工与普通员工进行访谈,以及对企业发展战略进行分析,得到有关的素质指标.最后通过素质指标编码确定评价指标(由于条件有限,不在此做具体说明）,分别是团队建设、执行能力、沟通协调和系统思考.通过进行岗位分析、企业发展和企业文化等编制题本.

1.2 研究对象

以某企业的45名员工为研究对象,其中男员工27人,女员工18人.

1.3 研究过程

本研究的评分者是3位有经验的测评专家,所有员工随机分成6组,其中3组每组8人,另3组每组7人.本研究严格按照无领导小组讨论的实施环节进行.在进行测评前对评分者进行培训,统一评分标准,并要求评分者在统一的评分表上做测评记录和对每个评分者的每个测评维度进行评分.在无领导小组讨论开始前,评分者宣读指导语,使测评对象都明白测评过程,并给予测评对象5分钟的时间阅读材料.无领导小组讨论分为三个过程,即个人陈述、小组讨论和小组总结汇报.

1.4 数据处理

使用Excel整理所有数据资料,并使用SPSS18.0、Lisrel8.5、mGENOVA软件(Brennan,R.L.,2001）[7]进行数据处理.

2 研究结果与分析

2.1 CTT下评分者内部一致性系数

孙晓敏、张厚粲等人(2005）的研究表明,评分者内部一致性系数可以作为评价无领导小组讨论测评信度的重要指标,并指出采用连续赋分且存在3个及以上评分者时,可通过Cronbachα系数评估其评分一致性[8].表1为评分者内部一致性的结果.

从表1可以看出,在此次无领导小组讨论中,评分者在总分和各个测评指标上评分结果的α系数在0.950～0.985之间,大于0.90,都达到了理想的水平.而从Friedman’s Chi-Square的分析结果看,评分者在总分及所有测评指标上的评分都没有显著差异(sig值都大于0.05）.因此,评分者的内部一致性较高,此次无领导小组讨论测评信度较高.

表1 评分者内部一致性Table 1 The Internal Consistency of Raters

2.2 SEM下评分效度与信度检验

图1 评分结果的结构方程模型Fig 1 The Evaluation Results of Structural Equation M odeling

本研究通过采用结构方程模型,对评分结果的结构效度和结构信度进行检验.从图1中可知,此次无领导小组讨论测量系统的标准化测量路径系数都大于0.70,表示测量系统结构较好.依据姚若松等人(2013）文中结构信度的计算公式计算此次无领导小组讨论评分的结构信度[9],结果如下：

结果表明,无领导小组讨论的评分结构信度达到要求.

本次无领导小组讨论评分结果的验证性因素分析如表2所示,各项指标都达到了最佳拟合标准(p= 0.21＞0.05,x2/df=1.545＜2,CFI=0.99＞0.95）,RMSEA=0.11虽然稍大于0.08,但是从多个指标总体而言,模型拟合还是良好的.说明评分者的结构效度还是较好的.

表2 模型拟合度指数Table 2 Fitting Indexes of SEM__

2.3 GT下评分者的一致性

本文对无领导小组讨论的分析采用的是随机双面交叉设计,测量目标为被试水平(记为p）、测量侧面为胜任力指标(记为i）和评分者侧面(记为r）,xpir为被试p在胜任力指标i上由第r个评分者评定的分数,其G研究模型如下：

据此模型,基于G研究结果,可以得到D研究中的各个变异分量,有了这些分量,GT认为就可以据此获得相对决策的概化系数与绝对决策的可靠性指数,并且由于D研究的可重复性,可以重新确立概括全域重复以上步骤进行信度估计.

由表3可知,在无领导小组讨论的G研究结果中,被试的变异分量估计值远远要大于其他变异分量的值,说明被试效应是非常显著的,同时胜任力指标的变异与胜任力指标和评分者交互效应都非常小.

表3 无领导小组讨论的G研究变异来源与方差分量估计Table 3 Estimated G Study Variance and Covariance Components of LGD

在无领导小组讨论的D研究中(见表4）,概化系数与可靠性指数为0.935与0.915,都达到了较好的水平,说明无论是进行相对还是绝对决策,测量误差都比较小,测量信度较高,即评分者一致性较高.同时,在表4中还考察了评分者容量与各种指标的关系,随着评分者人数的增加,绝对方差与相对方差都逐渐减小,从可靠性指数与概化系数的增量来看,评分者达到4个时,概化系数增量只有0.008,可靠性指数为0.01,继续增加评分者,概化系数与可靠性指数的增加微乎其微,同时,概化系数与可靠性指数都达到了0.947与0.932.总体而言,基于GT研究发现,本次无领导小组讨论的评分一致性较高,且无领导小组讨论的评分者以4个为最佳.

表4 D研究结果Table 4 The Result of Decision Study

3 总结与讨论

在测量中,信度与效度都是很重要的考察指标.信度主要是指测量结果的可靠性或一致性.效度指的是测量结果的效度,是指测量结果的准确性程度.而无领导小组讨论是让测评对象就给定的问题进行有限时间的讨论,评分者根据测评对象在讨论过程中的表现进行评价.因此,无领导小组讨论的结果主要是多个评分者针对测评对象的各种能力与素质进行主观评定,这种判断的主观性往往造成不同评分者的评分很不一致,而这种不一致性必然影响无领导小组方法测量结果的信度与效度.

在对评分者信度的评价中,经典理论使用Cronbachα系数估计评分者信度,并且是国内使用最广泛的信度指标.但该方法假设所有评分之间的方差和相关都是相等的,而这种假设在现实中是很难满足的,那么采用该方法来分析无领导小组讨论的评分者信度必然存在一定的偏差.

在经典理论之后,结构方程分析与概化理论分析方法迅速地发展起来,与经典理论的传统分析方法相比,突显其独特的优势.在结构方程模型中,可以计算出评估总量表和分量表的建构信度,同时通过模型拟合情况评价模型的结构效度.但结构方程模型分析的样本容量一般要大于100,否则容易造成相关矩阵不稳定,结果的信度偏低.对于概化理论分析技术,它能够有效控制实施条件的误差,提高信度,最终获得不同情境下测量的概化系数与可靠性指数,同时可以通过概化理论分析,在节省人力物力的前提下,概化系数与可靠性指数适当时,评分者数量达到最佳.但概化理论仍然是建立在随机抽样的理论基础之上的.

纵观3种分析方法,各有优势.那么,无领导小组讨论在注意操作规范的前提下,不同方法计算的无领导小组的信度与效度是否存在差异,获得的结论是否一致呢?本研究通过以企业员工为无领导小组讨论的参与者,选择3个评分者对参与讨论的企业员工的4个胜任力指标进行评分.对评分结果分别采用经典测量理论、结构方程模型和概化理论进行分析,发现在经典测量理论研究中总信度达到0.985,各测评指标在0.95～0.96之间;在结构方程模型上,结构信度达到0.964,且拟合系数达到基本要求,结构效度较好;概化理论分析发现,本次无领导小组讨论的概化系数与可靠性指数分为0.935与0.915,且评分者4个时为最佳.

无领导小组讨论在注意操作规范的前提下,不同方法计算的无领导小组信度与效度的结果都较好,获得的结论是一致的且具有较好的信度与效度.综合而言,无领导小组讨论具有较好的信度与效度.本文可以为后续关于无领导小组讨论的研究提供一定的借鉴意义.

[1]Gatewood R,Thornton G C,Hennessey H W.Reliability of exercise ratings in the leaderless group discussion[J].Journal of Occupational Psychology,1990,63(4）：331-342.

[2]Bass B M.Leaderless group discussion[J].Psychological Bulletin,1954,51(5）：465-492.

[3]关培兰,苏永华.“无领导小组讨论法”在人员招聘中的应用研究[J].武汉大学学报,1999(2）：3235.

[4]吴志明,张厚粲.评价中心的构想效度和结构模型[J].心理学报,2001,33(4）：372-378.

[5]康春花,姜宇,辛涛.概化理论在人事测评中的评分者一致性研究[J].心理科学,2010,33(6）：1 456-1 460.

[6]姚若松,赵葆楠,刘泽,等.无领导小组讨论的多侧面Rasch模型应用[J].心理学报,2013,45(9）：1 039-1 049.

[7]Brennan R L.Generalizability theory[M].New York：Springer Verlag,2001.

[8]孙晓敏,张厚粲.表现性评价中评分者信度估计方法的比较研究——从相关法、百分比法到概化理论[J].心理科学, 2005,28(3）：646-649.

[9]姚若松,赵宝楠.无领导小组讨论的评分者效应分析[J].广州大学学报,2013(2）：6065.

On the Reliability and Validity of Leaderless Group Discussion Based on CTT,SEM and GT

YAN Juan,YUAN Jun
(School of Psychology,Jiangxi Normal University,Nanchang 330022,China）

The competition among enterprises has become a talent competition now.The personnel selection is stricter and stricter in enterprises.As a measurement of the modern technology,Leaderless Group Discussion(LGD）is taken more attention by enterprises now.However,many enterprises held with the distrust attitude to the reliability and validity of LGD at the same time.Different from previous studies,this paper analyses the score of LGD,using the Classical Test Theory(CTT）,Structural Equation Modeling(SEM）and Generalizability Theory(GT）in a promotion of one enterprise,and find that the consistency coefficient of LGD is higher;the structural reliability and construct validity of the rater of the LGD is relatively good.Furthermore, the result of the analysis of GT indicts that the generalizability coefficients and reliability index are higher,and the number of rater of the LGD will be the best with four.This paper shows that the LGDin note operating under the premise of specification is achieved with good reliability and validity.

Leaderless Group Discussion;Classical Test Theory;Structural Equation Modeling; Generalizability Theory;reliability;validity

C961

1009-1734(2014）02-0086-05

2014-01-05

严娟,在读硕士研究生,研究方向：心理测量与人员测评.E-mail：yj506799981@163.com