体育科学量表编制中几个主要问题探究
——一种方法优化的思考

2014-07-18 12:09戴俭慧金亚虹
体育科学 2014年3期
关键词:题项效度信度

戴俭慧,金亚虹

体育科学量表编制中几个主要问题探究
——一种方法优化的思考

戴俭慧1,金亚虹2

体育科学量表编制是科学测量领域的重要分支之一,追求的目标在于其权威性、可靠性和有效性,其测量理论主要涉及经典测量理论(Classical Test Theory,简称CTT)、概化理论(Generalizability Theory,简称GT)、项目反应理论(Item Response Theory,简称IRT)及层面理论(Facet Theory,简称FT)。基于对不同测量理论的认识,重点围绕量表编制中的维度与题项、项目分析及信效度3个问题展开介绍,阐释以随机化为理论基础的经典测量理论的优势和弊端,也给出以潜在特质为基础的项目反应理论及非计量化层面理论的应用方法和主要作用。作者突出介绍了它们在体育科学量表编制中的方法组合优化问题,列举了相应的研究案例,并认为,这种方法上的组合优化不失为一种可取的或值得尝试的思路,也理应成为体育科学量表编制逐步走向规范、精确和深入的重要标志之一。

量表;方法优化;项目反应理论;心理测量

:Sports science scale is an important branch of scientific measurement field,the pursuit of the goal lies in its authority,reliability and validity.The measurement theory mainly relates to the classical test theory (referred to as CTT),generalizability theory (referred to as GT),item response theory (referred to as IRT) and facet theory (referred to as FT).Based on the understanding of different measurement theory,the author introduced the dimensions and items,the item analysis,reliability and validity in scale development,explained the advantages and disadvantages of the classical test theory as the theoretical basis of the randomization,also gave main analysis method of the item response theory based on latent trait and function of facet theory based on non quantitative level.Among them,the author specifically focused on how to achieve the best optimization in sports science scale,lists the corresponding cases,and pointed out that,the method of combinatorial optimization was a desirable or worthwhile ideas,also should become one of the important sign of sports science scale gradually moving towards standardized and accurate.

1 引言

心理测量主要存在三大理论流派,即经典测量理论(Classical Test Theory,简称CTT)、概化理论(Generalizability Theory,简称GT)和项目反应理论(Item Response Theory,简称IRT),测量理论的发展又出现了层面理论(Facet Theory,简称FT)。体育科学量表编制是心理测量领域的一个细小分支,其编制方法的主要特征还停留在经典测量理论的基础之上,即以随机抽样为基础。随着项目反应理论(以潜在特质和数学统计模型为基础)和层面理论(以物理空间呈现概念空间,最重要模型为WASSA1)的发展,经典测量理论的局限性也越来越凸显。体育科学量表编制是体育科学研究中值得关注的领域之一,也是近些年来体育科学研究领域的重要分支,其编制方法的合理性和规范性不仅影响到量表的信效度,即有效的测量问题,更会影响到体育学科学术水平的发展。农纳利(Nunnally)在很早以前就已经指出,缺乏合理统计方法的运用将会阻碍测量科学的进步[38]。在现代科学测量不断深入发展的今天,无论是国外[25,,31,33,37,39,41]还是国内[4,13,17-19],越来越多的学科不仅仅依赖于来自经典测量理论的统计方法,而是更加注重对一些传统测量方法的修补和完善,并与一些较新的方法进行组合运用,以提升研究的规范性和科学性。如同质性研究方法在传统定性研究方法基础上的发展一样,方法的规范化和组合优化已成为科学测量的一种新取向。其中,不少研究指出[18,25,27,30,44-48],项目反应理论以及运用到社会科学和心理学的层面理论已表现出越来越广泛的应用。例如,Thelma 等人运用项目反应理论分析了关节炎患者运动行为的自我效能感[46],Glenda 等人运用项目反应理论研发了护理专业学生的自我效能感量表[23]以及Maslovaty运用层面理论对教育心理的研究[36,37]等等。同时,这在国内的一些母学科中也逐步有所运用,尤其是在心理学和教育学中量表的编制领域。杨建原等人运用项目反应理论及层面理论对友谊质量量表进行了修订[13],赵守盈等人运用多层面模型编制了教学效能感量表[18]等。

然而,这些方法在体育科学量表编制中的应用显得还有些滞后。面对许多新的理论或方法,虽然不能一味吸收,但至少在方法上的组合优化应成为一种新的值得尝试的路径。因此,体育科学工作者绝不能因为某些方法的复杂而退缩,只要它们确有优势之处,就应该加以研究和引用。目前,从国外体育科学量表的研究来看,大部分运用了前面提出的项目反应理论或层面理论,而这些理论或方法在我国体育科学量表的编制中还尚显不足或缺乏规范性使用。

因此,本研究针对以我国体育科学量表编制中经常运用到的方法为线索,对量表编制中方法运用的更优组合进行探讨。相关研究指出[16,46],目前体育科学研究中,量表编制中的固定模式或方法存在一些弊端,而作为测量领域三大理论(经典测量理论、概化理论、项目反应理论)之一的项目反应理论,可以对其缺陷进行很好的弥补和辅助。例如,项目反应理论可以用信息量来代表信度,它既可以检验整体量表的信度,也可以对每个题项的信度进行检验(罗照盛,2012[7];杨建原,2011[13]);另外,传统量表编制中通常用被试的通过率来估计题项难度参数,用题总相关来评价区分度参数(这里的题总相关指的就是题项分数与测验总分的相关,测验总分也称之为效标分数,通常被作为区分度的一种分析方法[5,14]),这样比较容易导致失去内在的统一性,而项目反应理论则把这两个参数(难度参数和区分度参数)定义在了同一个能力量尺上,从而使之具有相同的单位基础,来保证它们协调统一的解释特性。当然,体育科学量表编制中还存在一些其它缺陷,如观察分数权重线性的累加以及依赖被试样本等等。尽管项目反应理论不能说是对其全部进行了弥补,但说对其部分进行了弥补还是不为过的。之所以提出相互结合的理论基础还在于,首先:在联系被试反应与潜在特质的过程中,经典测量理论和项目反应理论均是建立在数据模型的基础之上;其次:经典测量理论以真分数为理论基础,项目反应理论以潜在特质为理论基础,采用不同的度量方式来表示同一心理特征,使建立的测量更具有对应的关联[26];最后:经典测量理论可以从宏观的层面把总体与题项结合,并运用通过率以及鉴别指数来体现其外在特性,而项目反应理论从微观层面把题项与潜在特质联系起来,并通过难度以及区分度等来体现内在特征,这样,内、外结合使其具有更高的信效度。同时,项目反应理论打破了人们一直以来所认为的观点(即为了保证更优的信度,测验长度越长越好的观点),并证明了精简的测验同样可以具有良好的信度。因此,本研究主张使用项目反应理论与经典测量理论的优化组合来筛选出更优的题项以及构建更高的量表信度。

通常,为了使量表具有更优的内容效度以及构想效度,也可配合使用层面理论中的部分方法。层面理论(FT)作为一种研究策略,将其范式化分析与内部数据分析结合起来,其中,范式化分析针对的是理论构建(运用映射语句),而内部数据分析则主要针对的是实证研究,主要是运用最小空间分析技术(Smallest Space Analysis,简称SSA)[17,29]。在许多学科的研究中,过分强调复杂的定量分析而忽视了所研究内容的概念理论框架,这种做法是欠妥的。层面理论可以在一定程度上权衡这一问题,它强调了理论构建与概念结构的合理性,把理论构建和实证研究相结合,并运用最小空间分析技术来探索和验证理论结构,从而很好地克服了将统计置于理论之上的错误[1]。并且,层面理论的范式化分析与数据处理技术比量表编制中所使用的因素分析具有多种优越性:首先,在量表的编制过程中,运用层面理论的映射语句可以帮助科研人员穷尽和区分相关概念和变量,从而使建立的量表结构更加科学以及具有更优的内容效度;其次,针对样本的要求,因素分析高于层面理论分析,这就可能给研究人员在研究中带来很大的限制因素和不确定因素;最后,层面理论不需要变量呈多元正态分布,这是因为,在因素分析中运用的是积矩相关系数,而在层面理论数据处理技术中,则是把原始数据转换成区分各变量接近程度的“距离”[17]。在许多研究中,不管其变量是否是正态分布或者线性分布,便泛泛采用了因素分析方法,这是不可取的,这在竞技体育领域诸多特殊现象分析时显得尤为重要。当然,在确保被试总体属于正态分布以及所选样本能够充分代表研究总体的情况下,其经典测量理论的分析技术(例如因素分析)的结果还是很稳定的,但不应该崇尚它的简单,而应该在方法上向更深一层地迈进。

由此看来。不同测量理论或方法的优化组合是提高体育科学量表编制的一种新取向。因为,只有有效地组合与运用方法才能得出更加真实、精确的结果。基于此,本研究将对体育科学量表编制中存在的主要问题进行探究和述评,并就其如何与项目反应理论、层面理论来优化组合进行理论梳理,以供探讨和商榷。

2 问题1:量表的维度与题项

2.1 初始与最终数量分析

量表的维度和题项是量表编制过程中涉及到的重要步骤。虽然不同的研究者对初始和最终确定的数量持不同观点,但不少研究者认为(Devellis,1991),一般情况下初始题项数最好应该是最终题项数的3~4倍,但是如果研究的是某个领域的特定内容,或者是基于以往的研究来编制的题项,理论上不需要过多的题项就可以使得出的最终量表具有较好的内部一致性,初始题项数是最终题项数的1.5倍即可[20];对于量表维度的确立,通常采用经典测量理论的因子分析等方法确立得到,没有相对固定的维度数量标准,仅根据自身研究需要而定。

为了使人们对体育科学研究领域量表编制中的题项数和维度数有更为直观的认识,有必要对我国近几年体育类量表编制中的题项数和维度数进行统计。本研究以2008—2012年间的13家体育类核心期刊为调查来源(《体育科学》、《北京体育大学学报》、《中国体育科技》、《上海体育学院学报》、《体育学刊》、《体育文化导刊》、《体育与科学》、《天津体育学院学报》、《武汉体育学院学报》、《西安体育学院学报》、《成都体育学院学报》、《广州体育学院学报》和《山东体育学院学报》),共收集了体育类量表研制性论文116篇。随后,对这116篇论文进行了再次筛选(主要是剔除修订性量表研究和没有交代初始题项数或维度数的研究论文以及直接翻译性量表),最终删除不符合要求的文章61篇,从而确定55篇量表编制的文章作为分析对象。在对量表进行分析的同时,若量表具有多级维度,仅计算至二级维度数。表1显示了2008—2012年间13家体育类核心期刊发表的量表编制性论文对初测与最终题项数和维度数的统计。

表 1 体育科学量表编制中初始与最终维度和题项数统计一览表

通常而言,初始维度数与最终维度数之间不会有很大差别,而初始题项数与最终题项数则会有较大差距。因此,表1仅展示了初始维度和最终维度的平均值,以便对体育科学量表维度的制定有大体的了解。针对初始题项数和最终题项数,则不仅进行了平均值的统计,而且还进行了初始题项数与最终题项数的比值计算。从表1中对初始题项数与最终题项数的比值来看,《体育科学》的比值为1.82,而其他核心期刊平均为1.60。总体来看,我国体育科研中量表编制的初始题项数是最终题项数的1.71倍,考虑到本研究排除了量表修订的文献,因此,推测导致这个原因只有以下几种可能,第1种可能是体育科学量表编制中的题项数的确需要进一步减少,以达到更加精简量表的目的;第2种可能是在量表编制过程中,题目的编制内容不够全面,使其漏编了部分题项,这样可能使部分优良的题项也漏编了;第3种可能是体育科学研究中的量表编制大多数是针对特定内容的研究;最后一种则是一些研究者可能根本就不知道初始量表的题项数与最终量表的题目数之间的关系。但无论哪种可能,体育科学量表的编制在题项和维度的确立上需要有更加严谨的程序和方法来进行筛选和确立。

2.2 初始维度与题项的建立

初始维度与题项的建立往往涉及到编制量表内容的合理性与否,因为,在随后的工作中将主要考察所选维度和题项的验证性,这就要求在初始维度和题项的建立方面尽量做到科学合理。从目前体育科研量表的初始维度和题项建立来看(表2),在维度确立方面,大部分量表编制运用了理论分析法、相关量表的引用、访谈法以及问卷调查法和专家评价法,并通过相关分析、因素分析、描述统计等分析资料的方法进一步确立初始维度。从总体来看,我国体育科研量表编制中维度的初始确立首选的方法为理论分析法和访谈法;其次为问卷调查法、相关量表引用以及专家评价法。在题项编制方面,运用方法最多的则为相关量表引用,其次可为问卷调查法以及访谈法等。

表 2 体育科学量表初始维度制定和题项编制中常用方法一览表

综上所述,理论分析法、访谈法以及相关量表引用法在这一阶段运用的比较频繁,它们有着自身的优势,但也不能忽视它们在运用过程中的缺点。理论分析方法带有很强的主观色彩,缺乏必要的科学研究范式;访谈法在研究过程中可能会有一些意想不到的发现,但具有样本小,主、被试之间存在一定的相互影响,缺乏规范化结构以及调查对象可能对调查问题具有很强的隐蔽性等弊端,因此常与其他方法结合使用。尽管相关量表引用带有一定的科学范式含义,但是,被引用量表在编制过程中也可能运用了比较主观的编制题项的方法,而且,很难保证被引用量表是否具有权威性以及符合自己的研究问题。这些方面的不足恰恰是当前层面理论的优势,层面理论中通过映射语句,会使在维度的选择以及题项的编制过程中偏向一种具有规范化的范式结构,从而权衡以往应用方法中过于主观的部分缺陷。

2.3 方法的优化组合

目前,许多体育科学量表在编制过程中运用的是评价内容效度的方式,例如,专家访谈法或专家评价法,且对效度的控制重点放在了量表的编制之后。实际上,编制题项也是量表编制过程中最重要和直观的一个步骤。因为,题项的质量从一开始就牵制着后期的种种努力行为[3]。例如,在统计的资料中有一篇关于“大学生体育锻炼效果自评量表的研制”的文献[2],有个题项为“我亲身感受到体育锻炼能有效地控制体重和体型”。这句话似乎在编制过程中就有些缺陷,由于体重和体型不能同等看待,而只能说是这两个概念有交集。受试者在回答这一问题的时候很可能产生模棱两可的感觉。因为,他有时候感觉控制住了自己的体重,但没有控制住自己的体型,比如:体重下降了,但是腿变粗了,这让他怎样回答这个问题。因此,此题项谈何效度?再就是,前面已经了解到体育科学量表编制中初测的题项是最终题项的1.71倍,而导致这个结果的其中一种可能是在编制题项之初就已经漏编了一些题项,而这些漏编的题项可能是包含具有很好信效度的题项。因此,为了在建立之初就要有比较好的内容效度,就需要引入层面理论中的核心技术概念,即映射语句。由格特曼提出的映射语句来做研究设计可以把研究者的视野避免过度集中于无数的题项上,而是集中在一个数目有限的概念层面[22,42,43],且它可以将被试层面、内容层面以及反应范围层面有机地连接起来,从而系统地阐述题项的内容(图1)。

映射语句中包括两种成分,其主要的成分就是图中所有的层面成分(另一成分为连接这些层面的词语),这一成分具有严格和规范的特点。图1显示,层面包括:P层面(目标人群层面)、C层面(内容层面)以及R层面(反应范围层面),这些层面共同来界定研究的范畴,其中,P层面和C层面构成了研究范围[19]。P层面即为所研究的目标人群(被试);C层面即为所研究内容的一系列核心的概念,当然也可以设定其为观察变量,其内容层面又包含各种子层面[19],对这些子层面的设计便是映射语句的关键。图中的反应范围层面通常也可以被记为R层面,反应可以从完全符合到完全不符合或非常同意到非常不同意等等(主要对应于Likert 量表)。在实际应用中,映射语句一般用来定义比较复杂理论框架的构建,可以通过查阅工具书以及大量文献经常涉及到与研究内容相关联的方面,并对其归纳总结,从而设计出简单的映射语句。在编制过程中从每个层面仅选择一个元素来进行组合,然后,采用覆盖题目或采样题目的编写方法来编写题项。当然,为了完善映射语句,可以通过元素扩展和层面扩展来进行充实,具体的映射语句运用方法本文不做赘述,具体运用可以参阅相关书籍和文献。

图 1 层面理论中映射语句的一般表达式示意图

为了更加清楚地表述这一过程,本研究给出了一个成就动机编写的例子。在以往对成就动机的诸多研究当中,涉及比较多的相关概念主要有:不确定性、估计风险、困难、问题解决、责任以及需要的满足。根据前面的表述,这6个概念可以归结为映射语句的内容层面(C层面),而为了使映射语句框架更加符合研究内容实际,则需要对内容层面进行分解(内容层面可包括多个子层面)。根据概念范畴可以将其分为时间子层面主要包括任务完成之前(不确定性和评估风险)、任务完成之中(困难和解决问题)以及任务完成之后(责任和满足需要);面对的类型子层面主要包括:挑战性问题(不确定性、困难以及责任)和问题的解决(评估风险、解决问题以及满足需要);行为特征子层面主要包括:喜欢、满意以及承担责任。根据以上的表述,绘制成就动机题项的映射语句(图2),可以得出2×3×3=18种组合,每一种组合采用覆盖题目或采样题目的编写方法可以编写出不同的题项,从而可以展开进一步的题项研究。

总之,层面、元素和映射语句是层面理论的3个要素,其主要核心要素为映射语句,是一种把理论建构和实证研究结合起来的方法,并且可以合理地将概括化的理论概念转变成更合适的实证观察概念。通过映射语句这种偏于科学范式的方法来对研究内容进行整理与分析,可以帮助科研人员穷尽和区分相关概念和变量,从而弥补过去比较主观的编写方法的不足,最终编制出结构更加科学以及具有更优内容效度的量表。

图 2 成就动机题项的映射语句示意图

3 问题2:项目分析

3.1 项目分析方法

部分论文对于项目分析的方法展示或是比较模糊或是划分不规范,如在《大学生体育课学习满意度测查量表编制》[10]中的鉴别指数和区分度被划分成了两个范畴。鉴别指数是用临界比率(或称为极端分组法)来计算的,通常与相关系数法一起被归为区分度的计算方法当中[11,12]。从目前体育科学量表编制中的项目分析方法来看,主要有相关分析、鉴别指数、标准差、探索性因素分析、验证性因素分析及难度-平均得分率等方法。其中,相关分析法可包括题总相关、题他相关以及题项与所属维度的相关,而且,对区分度进行分析的相关系数法也均归入相关分析法之内。其他方法运用相对较少,如频数统计、逐步回归分析以及克隆巴赫系数α分析等。

不同方法的运用自然会对量表的信效度有很大影响,尽管相关分析法在量表编制中运用得比较频繁,例如,题总相关、题他相关以及题项与所属维度相关等。最值得注意的是探索性因素分析法,它是在单纯一种方法运用中使用次数最多的,运用此方法既可以来确定维度,又可以根据因子载荷删减题项等。而鉴别指数法则是对题目的区分度进行分析,从而删除那些区分度小的题目。整体而言,对于一个量表的研制这3种方法是必不可少的。需要强调的是,既然是量表的研制,就应该既要指明区分度,又要指明难度,才能使量表比较完整和规范。然而,在我国体育科学量表编制中对难度的分析甚少,尽管有对其分析的文献,也只是对量表整体通过率进行宽泛地概括,而没有对其更深入地界定。

3.2 方法的优化组合

前面在维度与题项的编制中已经了解到,体育科学量表编制中的初测题项数是最终题项数的1.71倍,这与其他学科通常的研究表述有所差距,即需要继续删减题项来简化量表。虽然这个标准仅是一种参考,并不代表体育科学研究中量表题项存在的主要问题,但至少题项的不断简练和准确是一种追求,值得对不同的方法进行尝试和组合使用,如前面提到的层面理论。值得思考的是,通过层面理论的最小空间分析技术(SSA)来删减题项虽然具有一定的结构优势,但是,最小空间分析技术无法精确地完成对跨区域题项的筛选,这就可能导致某些题项的确应该在某一区域而产生误删的可能。所以,实际运用当中,笔者主张把最小空间分析安排在结构效度验证的阶段,与结构方程模型一起组成更优的组合来使其理论结构更加合理。项目反应理论是从微观层面把题项与潜在特质联系起来,并通过难度、区分度以及信息量等指标来体现内在特征。这样,优化组合可以使编制的量表具有更高的信效度。因此,在这里引入了来自经典测量理论又优于经典测量理论的项目反应理论相关内容来优化题项删减和验证的过程,如通过Lord提出的三参数模型公式[34]:

来绘制项目反应特征曲线(图3)。式中,Pij(θj)表示能力为θ的人在项目上正确作答的概率,θj表示被试的能力或潜在特质,bi表示项目i的难度参数,e表示自然对数之底=2.71828,ai表示项目i的区分度参数,ci表示项目i的伪机遇参数,习惯称猜测参数[8]。

图 3 项目反应理论三参数项目特征曲线示意图

从图3中可以看出,如果同一个题项,对于不同受试来说,其项目反应理论的叠加会是如图的项目反应理论曲线,而经典测量理论则高低叠加相抵,出现适中,这就损失了很多信息,表现出了经典测量理论依赖于样本的特性。在这里,主要讨论的是运用项目反应理论的难度、区分度以及信息量并结合前面运用的方法来对题项进行更优的删减。因此,这里主要探讨图中项目反应理论的有关参数。由于在三参数模型的情况下,其区分度、难度以及猜测参数均可以被包括,所以,主要讨论三参数模型的参数以及删题标准,而双参数模型是在三参数模型的猜测参数等于零的情况下的特例,单参数则是在猜测参数和区分度参数均为零的情况下的特例。图中b为横坐标能力尺度上的一个点,此点决定了项目特征曲线在坐标轴的位置,称为项目的位置参数,但是大多数情况下称它为难度参数。特征曲线在b点处的斜率为a,此点代表了项目的区分度,其值越高,则区分能力越大。c点则代表了猜测参数,它的理论值在0.0~1.0之间,如果过高则不被接受。很多研究针对难度、区分度以及猜测参数定义的删题标准不是很一致,但是这可能与研究的样本有一定关系。有的研究[32]提出,a≤0.2,或a≥3;b≤-3或b≥4;c≥0.35则需要将其删除。有的提出[6]a≤0.3,或a≥4;b≤-2.59或b≥2.59;c≥0.4,这需要根据具体情况而定。另外,信息量可以用于评价一个量表的信度,即用信息量来代表信度的概念,并把信息量定义到每个题项及其被试上,可以为检验结果是否可信提供更优的信度。一般情况下,信息量高于25时,说明此量表质量良好;在16~25的情况下,表明量表有待改进;如果低于16,则说明此量表较差[7,18],整个计算过程需要在专门软件上来完成(如Parscale,Multilog,Bilog等软件)。需要提醒的是,在项目反应理论中的难度指标不影响题项最大信息量的取值,仅会影响其位置,而区分度以及猜测参数对其均具有很大影响。区分度参数越高,则题项所提供的信息量也将变大;而猜测参数越大,则信息量参数就会越小。

4 问题3:信效度分析

4.1 信效度的选择

测验的信度是指测验的可靠程度,而效度则是指一个测验在测量某项指标时所具有的准确程度[14]。通常,在体育科学量表编制中使用的信度主要有内部一致性系数、重测信度及评分者信度等;效度主要有内容效度、结构效度及效标关联效度等[15]。同时,结构效度包括收敛效度和判别效度,效标效度又称为实证效度,它包括预测效度和同时效度。在信度方面,有些体育科学量表的编制中既用了克隆巴赫α系数的方法也用了折半法,但是仅用α系数即可,它优于折半法。由于折半法是对测试题项对等分开,这本身就降低了信度,而克隆巴赫系数法克服了折半法的部分缺点。另外,体育科学量表编制中,量表的同质性信度和结构效度使用率是非常高的,可能是因为这两种方法被认可的程度较高。但是从理论上来说,内容效度和效标效度,在有条件的情况下均应该进行验证。很早以前,美国心理学会就已经把效度分为了3大类:内容效度、结构效度以及关联效度。因此,这3种不同的效度对于一个量表来说均具有参考价值。

除了前面分析的信度以外,较多的是验证了重测信度,但是效标效度和内容效度的验证还有所欠缺。在今后的研究中结合层面理论的映射语句运用,可以在一定程度上保证内容效度的提高,而效标效度可以采用相关分析、区分度分析以及命中率分析来检验[14]。但是,建议应该更加重视的是结构效度,因为,无论是内容效度还是效标关联效度在与结构效度相比的情况下均不会处于同一地位,结构效度是作为一个广泛的概念在一定程度上包括了其他效度[9]。因此,本研究主张将结构方程模型方法结合层面理论的最小空间分析(SSA)技术来优化量表编制中的结构效度。

4.2 方法的优化组合

层面理论中数据处理的关键技术为多维尺度分析(MultiDimensional Scaling, 简称MDS),而MDS的一个重要模型是最小空间分析(SSA)[24,28],它既可以在研究内容概念结构还不是很确定的情况下进行探索性SSA;也可以在理论结构初步确立之后,进行验证性SSA。通过采用验证性SSA来进行结构性验证,可以为在理论上某题项更适合哪一维度提供统计上的数据支持,从而可以对此题项所属维度进行重新界定,并运用结构方程模型来最后对运用验证性SSA之前的模型与之后改变的模型进行拟合度比较,从而得出最优的结构模型。

SSA主要是先计算变量或题项之间的相关,然后在一个多维空间用点来表示每个题项或变量,其结果是空间中的距离关系代表了题项之间的相似系数关系[13]。最重要的是,SSA的图形结构中可以直观地展示某个区域是否特定地代表了某一个维度的元素,如果代表了共同的层面,则说明这一设计是合理的[21]。SSA还可以通过区域的形状以及同一层面元素的关系来验证层面所扮演的角色,为理论结构的假设提供依据,例如极化角色、模块角色等等[25]。为了更加直观起见,笔者绘制了图4,图中的1、2、3、4等点为假设的各个题项,且假设层面A包括3个元素分别为a、b和c;而层面B包括d、e和f;层面C包括g、h和j。

图 4 SSA的圆柱形结构及其分解示意图

由图4可以发现,层面A中包含的3个元素是一个轴线层面,对应着图右边分解后的轴线角色;层面B包含的元素将空间分为3个扇形的区域,对应着图右边分解的极化角色;层面C将空间分为3个圆环区域,对应着图右边分解的模块角色。其极化层面与模块层面共同可以构成图右边的雷达图结构,越靠近中心的区域,元素相关以及题项相关越紧密,并且具有单向相关顺序;而轴线层面也具有这种特点,如果在这个基础上再加入此轴线层面,即加入了一个纵向维度,则成为图左边的圆柱形空间结构图[35,36]。当然,SSA所得的结果不必是三维空间图,可以是上面分解后图形中的任何一种,并且图形不会如此的规则[37]。

图4中各层面看似分散,实际各层面元素都是连续的,并且题项之间的差异越小,区域的分离越不明显。在不同的层面中,预测效度通常为雷达图中心的元素优于远离中心的元素。例如,图4中f中的题项在g元素中的得分来预测d中的题项在g元素中的得分,往往优于f中的题项在j元素中的得分来预测d中的题项在j元素中的得分。但这里更加关注的是,在进行SSA分析之后,找出哪些是处于跨区域的题项,从而结合理论,探讨是否对这些题项进行重新划分或者将其剔除,这样就在一定程度上权衡了验证性因素分析数据至上的弊端。因此,量表编制中结构效度的验证程序应该是首先进行结构方程模型分析,然后进行SSA,再对规整后的数据进行结构方程模型分析,最后比较前后拟合指数,结合理论分析得出更优的理论结构以及结构效度。

由于图4结构理解起来相对比较抽象,因此,本研究在以往研究的基础上给出一个案例,2012年在《心理科学》发表的一篇《基于多层面模型的教学效能感量表》的研究[18],该研究对收回的问卷(162份)数据进行了SSA分析,并对跨区域题项进行了剔除,最后对剩余题项进行了重新命名与验证。在本研究所指的SSA分析侧重的便是验证,即:如果在验证性SSA分析中出现跨区域题项,则应该结合实际理论考虑这些跨区域题项是否应该进行重新划分,这样便在一定程度上权衡了验证性因素分析数据至上的弊端。另外,根据层面理论原理,测量的维度验证既可以通过同心圆来划分,也可以通过轴线来划分(图5)。

图 5 SSA分析中两个层面的最小空间轴线结构图[18]

赵守盈(2012)的研究指出[18],两个同心圆包括了知识传授、课堂组织管理和品德行为教育(研究中将其称为任务层面);而根据4条轴线可以将教学效能感量表分为素质能力、学生反馈、积极体验和情绪唤醒(研究中将其称为认识来源层面),它们处于同等重要的位置(因为是平行的关系[18])。事实上,图5便是图4中模块角色与极化角色的叠加,从而构成了图4中的雷达图结构。由此可见,采用层面理论的SSA技术可以更加直观的根据题项的距离进行理论框架的验证。

在这样的分析过程中,拟合指标是不可缺少的参考指标,最小空间分析进行数据的转换过程中,很多情况下是无法完全对应的,而只能说是在一定程度上的满足。例如,图5中异化系数为0.15356,在可接受的范围之内;区域指数为1.000,说明图形的区分度非常好,无跨区域现象。通常,这一分析过程可通过相应软件来计算完成(如Hubag6.0),并需要多次迭代计算。因此,无论SSA是在反映概念结构以及成功的构建理论,还是在验证其准确性中,均需要拟合指数来进行判定。在SSA中,经常采用的拟合指标为异化系数,它表示与完美拟合之间的差异,反映了原始输入数据通过SSA之后得出多维空间中输出数据的不一致程度[40]。一般情况下应该小于0.15,但有时在不超过0.20时也可以接受,这需要根据具体研究的内容以及情况而定[21]。通常情况下,有两种方式可以减小异化系数的数值,分别为增加维度数和删除极端数据。这里,区域指数表示了某一维度对空间图的区分程度,取值在0~1之间,其数值越大,说明区分程度越好。

因此,未来体育科研量表的编制需要将计量化和非计量化的手段结合使用是一个有价值的思路,通过优势互补达到编制量表的科学与规范。当然,这种结合应该以计量化手段为主体,这是遵从科学研究范式的基本前提,然而,添加非计量化的考察方法可能会得出更加理想化的结果。

5 讨论

5.1 量表初建以及方法的优化

目前,我国体育科学量表编制中维度的初次确定运用比较多的方法为理论分析法和访谈法;题项编制过程中运用比较多的方法为相关量表引用法、因子分析法以及访谈法等。经过对2008—2012期间我国体育类核心期刊(13家)发表的量表编制文献的研究显示,我国体育类量表编制中初始题项数是最终题项数的1.71倍(当然,这仅是一种均值反映)。这与Devellis[20](1991)对量表编制中的观点(初测是最终的3~4倍)有一定的出入,当然,这可能与其专业特色有一定的关系,因为,毕竟体育研究是一个特殊的领域。但是,不可否认的是,体育科学量表编制在研究方法上还存在单一性和机械性,对题项的筛减几乎完全遵从固有的统计模式,缺少对多元方法的综合运用或组合运用,而一些较为新颖的理论和方法可能会有更大的益处(如层面理论的映射语句),这便对来自经典测量理论的方法提出了极大挑战,找到更加合适的方法与之进行优化组合可能会达到意想不到的结果。

层面理论之所以表现出较大优势,就在于首先从宏观来分析,在运用中主要是通过查阅大量工具书以及文献,或者运用一些体育科研中常用的方法(访谈法、问卷调查等)来对所研究的内容进行归纳与演绎,设计出映射语句框架。从微观来分析,在宏观的映射语句框架下,从每个层面仅选择一个元素来进行组合,再采用覆盖题目或采样题目的编写方法来编写具有更好内容效度的题项,这就使得量表的编制更加科学与规范。同时,为了完善映射语句,也可以对其通过元素扩展和层面扩展来进行充实。当然,对于更加具体的知识运用则需要读者进行相关书籍的阅读。5.2 量表项目分析及方法的优化

总体来看,我国体育类量表编制中项目分析方法运用较多的为相关分析法(如高低分组)、探索性因素分析法和鉴别指数法。但需要注意的是,探索性因素分析在体育量表编制中往往为单纯的一种方法,而相关分析法则包括了许多的相关,例如:题总相关、题他相关以及其他各种相关。从而可以看出探索性因素分析的重要性,因为,它既可以来确定维度,也可以根据因子载荷来删减题项等等。当然,对于一个量表的编制,这3种方法是均不可少的,但对量表的难度分析却有待改进。因此,笔者认为,在结合经典测量理论的基础上,引入项目反应理论的相关内容来进行题项的删减尤为重要,至少可成为一种新的尝试或取向。本研究针对Lord提出的三参数公式绘制了项目反应理论三参数的项目特征曲线(双参数和单参数均可以由三参数得到),并对其进行了解释说明。虽然,不同的研究内容或样本不同,可能导致考察的指标或参考的评判标准不一,但经过项目反应理论分析来进行删减,不仅可以对量表的整体进行分析,而且还可以对每个题项进行考察,从而得出更优的题项。

5.3 信效度分析以及方法的优化

研究中发现,对于我国体育科研中整体量表编制信度的检验,基本所有的论文均对同质性信度进行了检验,还有部分对其重测信度进行了检验。方法运用最多的则是克隆巴赫α系数,这与调查中基本都对其同质性信度进行了检验是一致的。当然,克隆巴赫α系数克服了折半法的缺点,而且克隆巴赫α系数是目前比较认可的信度评价指标。但是,思考一个量表或者分量表仅给出一个α系数信度指标可能会有不妥之处。因为,这样可能存在有的题目因为信度很高而把部分信度很低的题目掩盖了。考虑到这层原因,本研究提出了运用项目反应理论中的信息量来代表信度的概念,并可以把信息量定义到每个题项以及被试上,从而结合前面经典测量理论的分析方法来制定出量表更好的信度(参照标准前文已述)。更重要的是,它可以与经典测量理论中能够体现外在特性的方法进行优化组合,从而构成内外结合的范式,使量表可以具有更高的信效度。

对于我国体育科学量表编制的效度的检验,则基本都对结构效度进行了检验,内容效度和效标效度使用不一,这可能与它们的评价目的不一有关。但内容效度和效标效度,若有条件均应该进行验证,因为,内容效度、结构效度以及关联效度(效标效度)对量表均具有参考价值。但是若在没有很好的条件下,就应该更加注重结构效度的验证,这是因为,若把它与内容效度和效标效度来进行相比,它们是不会处于同一地位的,结构效度作为一种广泛的概念在一定程度上包括了其他的效度[9]。因此,本研究提出了更加优化的方法组合来改善和验证量表的结构效度。具体的做法应该是:对编制的量表运用结构方程模型来检验,然后运用验证性SSA来进行验证,并结合理论来探讨哪些题项需重新界定,再结合结构方程模型来最后对验证性SSA之前的模型与之后改变的模型拟合度比较,从而确立最佳选择。当然,不同的量表编制对SSA模型以及指标的评判标准会不一致,至于最终如何选择,还需研究者自己来决定。

6 结语

体育科学量表编制是体育科学研究中的一个重要分支,其科学性、规范性和精确性不仅影响到各种测量的准确,更是彰显着一种学科的发展水平,是每一位体育工作者对体育科学学科规范的一种追求。虽然,在这个道路上,大家可能缺乏统一的研究范式或结构,但对研究方法的不断创新和追求应该达成一种共识。研究中方法的使用也可能还存在这样或那样的误区,但它不能成为我们对方法追求的绊脚石。

体育科学量表编制在经历了经典测量理论之后,势必对概化理论和项目反应理论有所应用上的突破,经典测量理论有着非常好的量化优势,但对样本的追求过高,其完全的统计学意义也不一定符合特定领域的研究,尤其是体育这一特殊领域。而项目反应理论在一定程度上对此进行了弥补,并且指向了测验分数的解释阶段,侧重于测验的精确度,从而使题项具有更优的信度;层面理论则指向项目的编写阶段,侧重于测验的效度,从而使其具有更优的内容效度和结构效度。可想而知:将这些理论结合起来优化运用必将使体育量表的编制进一步深入发展。因此,对新方法或理论的不断追求应成为我们每一位科研工作者的传统,让我们的体育学科更加规范、有序发展。

[1]边玉芳.警惕心理学研究中的统计误用[J].心理科学进展,2002,10(4):447-452.

[2]陈善平,潘秀刚,张平,等.大学生体育锻炼效果自评量表(EEI)的编制和信效度检验[J].北京体育大学学报,2008,31(10):1404-1406.[3]金瑜.心理测量[M].上海:华东师范大学出版社,2001:209-216.[4][美]罗伯特·F·德威利斯.量表编制:理论与应用[M].魏勇刚,龙长权,宋武译.重庆:重庆大学出版社,2004.

[5]刘电芝.教育与心理研究方法[M].重庆:西南师范大学出版社,2001.

[6]刘全,刘汀.基于项目反应理论的社情民意调查问卷设计[J].统计与决策,2012,(10):29-32.[7]罗照盛.项目反应理论基础[M].北京:北京师范大学出版社,2012.[8]漆书青,戴海琦.项目反应理论及其应用研究[M].南昌:江西高校出版社,1992.

[9]漆书青.现代教育与心理测量学原理[M].北京:高等教育出版社,2002:262-275.

[10]史青.大学生体育课学习满意度测查量表编制[J].体育学刊,2010,17(7):56-60.

[11]陶西平,张秀媛,李吉会.教育评价辞典[M].北京:北京师范大学出版社,1998.

[12]吴明隆.SPSS统计应用实务[M].北京:中国铁道出版社,2001.

[13]杨建原,臧运洪,赵守盈.应用项目反应理论对友谊质量量表修定——以结构方程、层面理论多种技术支持修定量表的质量[J].心理学进展,2011,(1):97-105.

[14]张力为.体育科学研究方法[M].北京:高等教育出版社,2002.[15]张力为.研究方法在制约我们的追求吗?——阅读《体育科学》2003年社会科学论文的联想[J].体育科学,2005,25(4):74-80.[16]赵必华,顾海根.心理量表编制中的若干问题及题解[J].心理科学,2010,33(6):1467-1469.

[17]赵守盈,江新会.行为科学研究设计与理论构建的一种重要策略——层面理论述评[J].贵州师范大学学报,2006,24(2):113-118.

[18]赵守盈,杨建原,臧运红.基于多层面模型的教学效能感量表[J].心理科学,2012,35(6):1484-1490.

[19]赵守盈,王艳,SAMUEL SHYE.层面理论的核心技术概念——映射语句[J].贵州师范大学学报,2010,28(3):41-45.

[20]DEVELLIS R F,BLALOCK S J,HOLT K D,etal.Arthritis patients’reactions to unavoidable social comparisons[J].Person Social Psycho Bulletin,1991,17(4):392-399.

[21]DONALD I,COOPER R.A facet approach to extending the normative component of the theory of reasoned action[J].Bri J Soc Psycho,2001,40(4):599-621.

[22]GUTTMAN L.Introduction to facet design and analysis[A].Proceedings of the Fifteenth International Congress of Psychology[C].Acta Psycho ,1959.

[23]GLENDA S,STUMP,JENEFER H,etal.The nursing student self-efficacy scale[J].Nurs Res,2012,61(3):149-158.

[24]GUTTMAN R,GREENBAUM C W.Facet theory:its development and current status [J].Eur Psycho,1998,3(1):13-36.

[25]HACKETT P,FOXALL G.Consumers’evaluation of an international airport:a facet theoretical approach[J].Int Rev Retail Distribut Consum Res,1997,7(4):339-349.

[26]HAMBLETON R K,JONES R W.Comparison of Classical Test Theory and Item Response Theory and Their Application to Test Development[J].Edu Measure Issue Practice,1993,12(3):38-47.

[27]HIDEYUKI T.Scale development for measuring junior high and high school students’ enjoyment,benefit,and psychological barrier for exercise by item response theory[J].Int J Sport Health Sci,2005,(3):129-141.

[28]HILDEBRANDT L.A facet theoretical approach for testing measurement and structural theories:an application of confirmatory MDS[J].Advances Consum Res,1986,13(1):523-528.

[29]HORNIK J.The facet design approach to the construction of multivariate marketing models[J].Eur J Market,2001,8(2):146-157.

[30]HOYT A L,RHODES R E,HAUSENBLAS H A,etal.Intergrating five-factor model facet-level traits with the theory of planned behavior and exercise[J].Psycho Sport Exe,2009,10(5):565-572.

[31]JAMES F F,ESWAR K,MATTHIAS R,etal.Improved responsiveness and reduced sample size requirements of PROMIS physical function scales with item response theory[J].Arth Res Therapy,2011,13(5):147-155.

[32]JOSHUA S A,ALEXANDER B,FRANK C W,et.al.An Analysis of Cross Racial Identity Scale Scores Using Classical Test Theory and Rasch Item Response Models[J].Measure Evaluat Counsel Develop,2012,46(2):136-153.

[33]KERN M L,FRIDMAN H S.Do conscientious individuals live longer:A quantitative review [J].Health Psycho,2008,27(5):505-512.

[34]LORD F M.Applications of item response theory to practical testing problems[M].Hillsdale,NJ:Lawrence Erlbaum Associates,1980.

[35]MANABE K.Applying facet theory to studies of Japanese society:verification of laws of human behavior[J].Soc Summary,2003,95(10):37-44.

[36]MASLOVATY N.Teachers’ perceptions structured thorough facet theory:smallest space analysis versus factor analysis[J].Edu Psycho Measure,2001,61(1):71-84.

[37]MASLOVATY N.The Placement of moral contents:priorities and structure of the belief system of teacher and high school students[J].Edu Res Evaluat,2003,9(1):109-134.

[38]NUNNALLY J C.Psychometric Theory(2nd Ed)[M].New York :McGraw-Hill,1978.

[39]RAPSON G.Item response theory analyses of adolescent self-ratings of the ADHD symptoms in the Disruptive Behavior Rating Scale[J].Personal Individual Differ,2012,53(8):963-968.

[40]REBHUN U.Jewish identity in America:Structural analysis of attitudes and behaviors[J].Rev Religious Res,2004,46(1):43-63.

[41]ROD,WARD R,etal.The search for meaning in nursing:could facet theory be a way forward [J].J Advance Nurs,1993,18(4):549-557.

[42]ROSE W,RUFINA W,CARMEN G,etal.Culturally Sensitive Depression Assessment for Chinese American Immigrants:Development of a Comprehensive Measure and a Screening Scale Using an Item Response Approach[J].Asian Am J Psycho,2012,3(4):230-253.

[43]SHYE S,ELIZUR D.Introduction to facet theory:Content design and intrinsic data analysis in behavioral research[M].Thousand Oaks CA:Sage,1994.

[44]SHYE S.On the search for laws in the behavioral sciences.Theory Construction and Data Analysis in the Behavioral Sciences[M].San Francisco:Jossey-Bass,1978.

[45]SYMONS D D,GRAHAM G M,YANG S,etal.Youth exercise intention and past exercise behavior:examining the moderating influences of sex and meeting exercise recommendations[J].Res Q Exe Sport,2006,77(1):91-99.

[46]THELMA J,MIELENZ MICHAEL CEDWARDS LEIGH,etal.Item-Response-Theory Analysis of two scales for self-efficacy for exercise behavior in people with arthritis[J].J Aging Physical Activity,2011,19(3):239-248.

[47]VAN D,LINDEN W J.Handboo of Modern Item Response Theory[M].New York:Springer,1996.

[48]VIRGINIA G,BORJA S,LUIS Y,etal.Depressive dimensions and item response analysis of the Hamilton Depression Rating Scale-17 in eating disorders[J].Compreh Psychiatry,2012,53(4):396-402.

DiscussiononSeveralMainProblemsinSportsScienceScaleConstruction——AThinkingonMethodsOptimization

DAI Jian-hui1,JIN Ya-hong2

scale;methodsoptimization;itemresponsetheory;facettheory

1000-677X(2014)03-0088-10

2013-11-14;

:2014-01-23

教育部人文社会科学研究规划基金资助项目 (13YJA890004)。

戴俭慧(1967-),女,安徽宣城人,副教授,博士,硕士研究生导师,主要研究方向为体育科研方法学、社会体育学和体育社会学,Tel:(0512)67162281,E-mail: sddjh@suda.edu.cn;金亚虹(1976-),女,上海人,教授,博士,硕士研究生导师,主要研究方向为体育科研方法学、运动与认知,Tel:(022)23012331,E-mail:yahongking@hotmail.com。

1.苏州大学 体育学院,江苏 苏州 215021;2.天津体育学院 健康与运动科学系,天津 300381 1.Soochow University,Suzhou 215021,China;2.Tianjin Institute of Sport,Tianjin 300381,China.

G804.8

:A

猜你喜欢
题项效度信度
平衡损失函数下具有两水平共同效应的信度模型
基于中国情境的创业拼凑测量研究
净保费在平衡损失函数下的回归信度估计∗
问卷是否可信
——基于体育核心期刊论文(2010—2018年)的系统分析
Beep test评估11~15岁少年游泳运动员有氧能力的效度研究
谈高效课堂下效度的提升策略
巧用模型法提高科学课堂教学的效度
运动员心智游移:诱因、内容及结果评估量表的研制
基于服务绩效感知的商业健身俱乐部服务质量测量工具的开发
CTT、IRT、FT:体育科学量表编制中的应用
——以《特质流畅量表》为研究例证