刘可 张美芬 张利峰 卜秀青
(中山大学护理学院,广东 广州 510089)
·教 与 学·
护理研究中如何检验测量工具的信度
刘可 张美芬 张利峰 卜秀青
(中山大学护理学院,广东 广州 510089)
本文作者从测量的基本理论出发,探讨了护理研究中通过稳定性、等同性和内部一致性来进行测量工具的信度的检验方法;同时介绍了信度的评价方法;以及如何应用及提高测量工具信度的方法。通过对测量工具信度的深入理解来提高护理研究中测量的质量。
护理研究; 测量工具; 信度
Nursing research; Measuing tool; Reliability
在护理研究的过程中,对研究变量进行测量是非常关键和重要的一个步骤。而测量工具的质量好坏直接影响测量结果的准确性以及研究结论的科学性和推广性。一个信度良好的测量工具是得到可信的测量结果的必要条件。笔者从测量的基本理论出发,介绍了测量工具的信度检验以及如何提高测量工具的信度。
1.1 经典测量理论 在传统的测量理论中,测量所得到的观察值(observed score) =真实值(true score) + 测量误差(error variance),测量误差包括随机误差(chance /random error)和系统误差(systematic error)。随机误差难以控制,如受试者的状态、测量的环境、工具的使用及操作过程等,系统误差是由于受试者的特性对测量结果所造成的偏倚,如社会期望性、回应偏倚、教育程度等。由于误差的存在,真实值不可能直接获得,必须通过测量观察值来估计。观察值是通过测量工具得到的某个特定时间特定环境下某个受试者的变量特性的反映。因此每次测量得到的观察值都不同,要想最接近真实值,可以通过无数次测量值取得平均数。
在经典理论中,信度就是真实值变异与观察值变异的比值,信度的估计方法就是考虑了环境因素等所导致的随机误差,以及由此带来的误差变异对变量真实值的变异的贡献程度。在经典理论指导下的信度估计,通常是采用相关分析的方法[1]。
1.2 概化理论 概化理论是对经典理论的扩展,它认为测量是否准确取决于在不同的测量条件和测量目的的情况下,测量值是否能准确反映真实值。测量的不同条件(facet)可以影响测量的结果,测量者希望在这些不同的特定条件下得到的测量值都能够接近真实值。概化理论中,全域分数(universe score)即真实值,概化系数(generalizability coefficient) 类似于传统的信度系数,是全域内预期的分数变异和样本分数变异的比率。概化理论强调测试的条件和测试的目的,不仅关注测试工具本身好坏,还强调工具用在什么目的或什么条件下的好或坏?例如,在需要不同的评定者的情况下,选择多少个评定者或哪些评定者时概化系数最大(即测量信度最高)?概化理论通过方差分析的方法,检测不同特定条件对测量过程的影响,即测量情境对误差的影响,从而估计误差的来源,保证测量的等同性[1]。
目前,护理领域常用的信度计算方法主要是基于经典理论和概化理论,IRT理论以及认知判断理论还未涉及。
信度(reliability),是指用某种测量手段所得资料的精确程度。不同的计算方法可以导致不同的对信度的概念化和操作性定义。我们可以从以下三个方面来检验测量工具的信度。
2.1 稳定性(stability) 是指重复测量所得结果的一致程度,反映了同一样本,同一工具,在测量环境一致的情况下,测量工具对外界因素的敏感程度。
基于经典测量理论,如果我们希望得到一个可信的测量结果,那么这个结果首先应该是稳定的,也就是说,在不同的测量情境下,测量值应该是相似的。 但是,得到一个稳定的测量值受很多因素的影响。例如,概念本身的真实变化、现象的系统性的波动、测量方法或受试者的变化(如疲劳)、以及工具的稳定性都可以影响重测的值,这些也都反映了真实值的变化和测量的误差所导致的测量值的不稳定。因此,通过重复测量,可以反映测量工具的稳定性。重测信度(test-retest reliability)反映的就是不同情境下测量工具的稳定性,可以通过两次测量的相关性来计算。
2.2 等同性 (equivalence) 是指不同观察者,或者两个相似的工具同时应用时测量的一致性。
在不同的测量条件下,我们需要考虑测量的等同性,也就是概化理论所提出的测量的概化性。重测信度是在不同时间使用同一工具测量,如果我们把不同版本的工具在同一时间测量,就可以用复本系数 (alternate forms reliability)来反映测量的等同性。如果研究需要在测量中使用复本,就需要评价复本信度,即评价是否不同版本的工具测量的是同一概念。如果要同时考虑稳定性与等同性,我们可以在不同时间交换测量不同版本。有时,测量过程中为了避免受试者的应试技巧“test-wiseness”,而使用平行条目或平行工具(parallel or alternate form)。 平行条目必须是基于相同概念或亚概念的相同类型的条目,但用词不同。但通常情况下,编制真正平行的两个版本是非常困难的。
如果是通过直接观察行为来测量,那就需要计算不同观察者评分之间的等同性,即评定者间信度。可计算两个人对一组受试者分别计分,或多个人同时对多个受试者评分,即组内系数(intraclass coefficient),或和谐系数(coefficient of concordance)。如果评分的等级多,可以用相关系数来计算评定者间信度;如果评定者多于2人,但评分等级少(定性资料)时可以用一致性百分比(agreement)或者Kappa系数来计算;组内相关系数ICC(intraclass correlation coefficient)适用于定量资料的一致性评价。有时,等同性的测量可反映什么人来使用某种工具更适合。如压疮危险因素评估,通过检测不同观察者之间的等同性,可以发现该工具由注册护士使用比助理护士使用更适合。
2.3 内部一致性 (internal consistency) 指测量工具各条目的同质性或内在相关性。即是否所有的部分都是测同一变量,反映了量表形成阶段选择条目时的误差。
基于经典理论基础上设计的量表通常用不同的条目来测量某个现象(变量)。由于不能直接观察条目与变量的关系,但可以通过条目之间的关系来反映。如果条目与变量相关,那么条目之间必定也是高度相关的。因为条目之间密切相关,意味着它们有一个共同的原因,即这些条目都测量的是同一变量。如果条目之间是密切相关的,那么这个量表的内部就是一致的。因此,单维度的量表或多维度量表的各个维度的所有条目之间都应该是高度相关的。内部一致性反映了条目的同质性,但不能反映不同的施测条件和施测时间的影响。内部一致性可以通过折半系数 Spearman-Brown prophecy formula、Cronbach’s alpha、Kuder-Richardson formula 20、21 ( KR 20、KR-21)来计算。
如果我们把同一测量工具拆分成两个部分,把这两个部分看成是“复本”,就可以得到折半信度(split-half reliability)。可以将量表的条目进行前后拆分,但这样可能量表前、中、后的条目的不同可能会造成选择性偏倚;或者将奇数部分的条目和偶数部分的条目拆分成两个部分;还可以根据某一种特征或某几种特征来平衡:如使用第一人称语句的条目、长短句平衡等进行平衡拆分;也可以将所有条目进行随机拆分,但如果量表的条目数少,或条目来源于几个不同的维度时,随机得到的两个部分并不一定具有可比性。在这种情况下要保证拆分的两个部分中的条目来源于所有的维度。因此,拆分的方法取决于当时的实际情况,关键在于拆分出基本相等的两个部分来进行比较。可使用Spearman-Brown 公式进行计算。
Cronbach’s alpha是目前最普遍、最常用的方法,是把所有分半方法得到的信度系数的平均值,来作为整个工具的信度。KR-20 、KR-21是 alpha 的特殊类型,适用于两分类的资料。KR-21假设所有条目的难度相等,估计的信度更加保守,更容易计算。
由于内部一致性要求工具内部条目反映的是同一概念,反映的是工具的独一性一维性,条目之间必须相关或相互补充。因此,如果测量的概念包括了亚概念,就必须报告各维度的信度值。这也是在某些情况下,维度信度值高于总量表信度值的原因。
以上介绍了不同的信度特征及计算方法,在实际的运用过程中,每开展一个新的研究,我们都需要对测量工具的信度进行检测,无论是已广泛使用过的旧工具还是修订过的旧工具,或者是根据新的研究设计的新工具。因为,新的研究针对的是,不同的研究环境下新的研究总体,也就是说,测量工具的信度不是针对工具本身,而是针对特定环境下特定样本的研究工具。根据研究的实际情况,我们可以选择不同的方法来检测测量工具的信度。如果测量的变量本身具备稳定的特性,我们可以选择稳定性来反映工具的信度,例如身高、个性、能力等概念的测量。而生理状态、情绪等本身容易发生改变的概念就不适合运用重测信度的方法。而且,重测信度需要进行两次测量,操作起来不太方便。因此,可以选择内部一致性的检测。用内部一致性检测只需要进行一次测量,比较经济、容易操作,也更适用于心理社会学概念的测量。如果研究中涉及不同版本工具的使用或者不同的测量者来进行测量,那就需要进行等同性的检测。总之,要根据研究的实际情况来选择适合的方法。如果是新设计的工具,还要考虑运用各种适合的方法从不同角度来检测工具的信度特征。单条目量表只能用重测的方法检验,所以尽量不要单独使用单条目的测量工具,除非是配合其他工具同时使用。
在相同的样本量下,信度高的工具可以增加统计效能(statistical power),也就是说,可以更好地区分两组测量对象的不同。信度高的测量,就如同大的样本量,可以减少统计分析的误差。因此,我们在研究的设计阶段就要知道如何评价和选择信度高的测量工具。
目前,信度相关系数 (reliability efficient coefficient alpha) 广泛使用。通常,Alpha在0~1之间,如果出现负值,表明有错,可以检查是否有反向计分的条目或删除某些与其他条目或维度呈负相关的条目。太低的信度说明条目之间的一致性或者测量的稳定性、等同性不高。一般情况下,信度Alpha要高于0.7。DeVellis(2003)认为,信度<0.6,为不可接受,信度0.6~0.65为不理想,信度0.65~0.7为基本可以接受,信度0.7~0.8为较理想,信度0.8 ~0.9则很好[1]。也有学者指出,已使用过的工具要求信度达到0.8,新工具0.7或0.6即可。也可以考虑测量的目的,是进行两组的比较,还是严格的选拔,从而设定不同的标准[2]。Kappa系数及ICC值可参阅统计文献[3]。
但是,信度值也不是越高越好。过高的信度值表示测量的一致性或者重复性非常高,也就是说,测量的区分程度不高,不能区分不同的对象或者不同时间下的测量变异。因此,信度高于0.9,可以考虑通过删减条目来缩短量表[1]。
从经典的测量理论我们知道,信度alpha代表着真实值变异与观察值变异的比值,而每个条目的变异值由变量的某一部分的真实值和误差值构成。因此,信度决定于量表各个条目的变异度,量表的信度受条目的变异程度以及条目的数目的影响。那么,所有和单一条目有关的问题:例如偏中心的均值、低的变异、条目间的负相关、条目之间或者条目与总分的相关性低,都会降低信度,同时条目数也会影响信度[1]。当测量的得分,条目的得分,评分的等级,被评估的变量的变异较大时,测量的变异就大,信度也较高。还可以通过以下方法来提高工具的信度。
4.1 增加条目 增加条目是常用的提高信度的方法。增加测量长度,以增加测量得分的变异,可以提高信度。但所增加的条目必须与原来条目一致,测量的是同样的内容。但如果原本信度已经较高 ,通过增加条目而增加信度的程度就较小。
4.2 删减条目 可以考虑去除对内部一致性贡献小的条目。可以通过统计软件查看去除某个条目后对信度的影响。如果对信度仅有最小的负性影响或最强的正性影响,该条目是最先要去掉的。还可以看条目与总分的相关性,相关性最低的条目也可以去除。可以去掉低于平均条目间相关性的条目而保留与平均条目间相关性相等、高于或仅仅是稍低的条目,这些方法都有助于增加信度。
通常,较短的量表减少了对测试者的负担,但长的量表信度值较高,因此要权衡二者,不能为了简洁而牺牲信度,必须通过测量得到足够的有信息的值。
4.3 增加测试样本的异质性 样本的异质性越大,个体差异的范围越大,得分的变异也越大,信度就越高。因此,在进行信度检测时,要尽量选择具有不同特征的样本,例如具有不同的人口学特征或者有可能在测量变量上有不同的样本。
以上介绍了关于测量工具信度的基本检验方法以及如何评价并提高工具的信度,一些具体的计算公式或方法请参阅相关统计文献。
[1] DeVellis RF. Scale development: Theory and applications[M].2nded.London:SAGE publications,2003:8-20.
[2] Polit DF & Hungler BP. Nursing Research: Principles and methods(6th edition) [M]. Philadelphia: Lippoincott,2004,407-436.
[3] 方积乾. 生物医学研究的统计方法[M].北京:高等教育出版社,2007:238-255.
刘可(1972-),女,辽宁,博士,副教授,教研室主任,研究方向:护理教育,儿科护理,社区护理
R471
A
1002-6975(2015)13-1201-03
2015-01-30)