取代还是共存

2022-04-29 19:30:26高清辉

中国心理学前沿 2022年8期

高清辉

摘要|在众多信度指标中，克隆巴赫α （Cronbachs α ）系数最为常用，但α 系数在使用中常常忽视重要的“基本τ 等价”假设，导致α 系数并非真正的信度;并且存在着误用与滥用、阈值不确定等问题，受到很多批评，被长期广泛应用是因其易于计算、易于理解等特性。麦克唐纳ω 克服了α 系数的上述缺点，信度估计上明显优于α 系数，但麦克唐纳ω 也存在计算要求较高等缺点，尚无法取代克隆巴赫α 。两个信度指标ω 与α 将长期共存，在研究报告中应同时提供ω 与α 的数值，互相补充。

关键词|信度估计;克隆巴赫α ;麦克唐纳ω

This article is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License. https：//creativecommons.org/licenses/by-nc/4.0/

1 引言

在心理学和一些实证行为科学研究中，经常要关注一些无法直接测量的量或结构，例如某种能力、心理压力等。多项目测量量表是研究这些量或结构的常用方法：设置若干个能表达隐性目标量的项目，考察对象的反应，运用某种方式进行数字的聚合（常见如加总或平均），以生成每个被测量对象的测量值。在此类测试中，测量结果的稳定程度即信度是一个非常重要的指标。在众多信度指标中，克隆巴赫α （Cronbachs α ）系数最为常用。自从克隆巴赫在 1951 年提出α 系数[1]之后，α 系数得到了广泛的应用，且被引用的次数极高，按谷歌学术搜索的统计，到 2021 年其被引用次数已超过54000 次。虽然α 系数得到如此多的引用，但对其的批评也很多，有的甚至很尖锐。孟庆茂和刘红云指出“用α 系数对测验进行评价的确存在一些问题”[2]。西茨玛（Sijtsma）认为“想必没有其他统计数据受到如此多的误解和混淆”[3]。彼得斯（Peters）建议放弃使用α 系数，因为“Cronbachs α 值的

用处十分有限”[4]。许多学者提议用麦克唐纳的ω [5]取代α ，认为研究人员应该从α 转向ω ，但因种种原因目前仍是α 占主导地位。在 2021 年，前述克隆巴赫这篇开创性的论文[1]发表 70 周年之际，心理测量学界的权威刊物“Psychometrika”以“克隆巴赫α 的再审视”为专题发表了 5 篇专栏论文，表明了心理测量学界对该问题的关切。正如温忠麟所言，α 是“晃而不倒的信度标杆”[6]，“晃”是因为其自身的局限性而受到多方批评，“不倒”是它在新条件下仍有存在的价值。那么，作为信度指标， α 系数具体有哪些缺点？α 系数既然有那么多的局限性，为何还会被广泛应用呢？能否用ω 取代α ？我们将对这些问题作探讨。

条件（3）实际意义为“任意两个项目的真分数只相差一个常数”即 Ti=Tj+Cij（ i ≠ j），其中 Cij 是与第 i 第 j 项目有关但与被试无关的常数。这就是所谓的“基本 tau 等价”（essentially τ equivalent）。只有在“基本τ 等价”的假设满足时α 才是真正的信度。要求任意两个项目的真分数都相等的“τ 等价”实在是要求过高，即使加上了“基本”，允许相差一个常数，也是过于严苛的假设。若违反了“基本τ 等价”，α 可能高估或低估了信度，对于项目数较少的测试，偏差程度可能很大。格林（Green）与杨（Yang）的模拟发现，违反基本τ 等价，甚至可能使α 低估真实信度达 0.2 之多[8]，将动摇测试者对此测试可靠性的看法。

α 的误用

α 也有相当多的误用，误用最多的是关于α 与同质性和内部一致性的关系，内部一致性（Internal Consistency）是指项目之间的关系，各项目得分之间有较高的相关性，则说其内部一致性高。高内部一致性是测量测试项目样本同质性或一维性的必要条件，但不是充分条件。将同质性和内部一致性看作同一概念，并将α 看作是同质性或内部一致性的度量，这是典型的误用。达文波特（Davenport）证明了式（4）。

α =kr/[1+（k-1）r] （4）

其中，r 是所有项目成对相关系数的平均值，可作为内部一致性的度量[9]。从式（4）可以看出，在固定 r>0 的条件下，只要增加项目数 k 就可使α 无限接近 1。可见α 是不能作为内部一致性度量的。

阈值问题

将α 看作测试的信度时，就面临如何确定阈值问题：α 多大才可以认为测试是可以接受的？科蒂纳（Cortina）认为α 大于等于 70% 是可接受的[10]。该阈值源于努纳利（Nunnally）的建议[11]，并在很多论文中得到认可和应用，然而该建议只是从一般的信度考虑，而非归因于α 本身的性质。努纳利的书在 1967 年版时指出信度在 0.5 或 0.6 就足以进行探索性研究，但在 1978 年版时增加到 0.7，人们选择引用哪一个版本，往往取决于他们的α 高于还是低于 0.7。文图拉·莱昂（Ventura-León）指出，判断描述一个测试的质量仅靠一个α 的值是不够，认为“世界不应当围着‘α ≥ 0.70转”[12]。实际上在某些情况下，α 水平较低的测试可能非常有用。α 的阈值在不同情况下应有不同，需要进行的区分越精细，信度就必须越高。

删除项目问题

如果测试的α 值不够高，达不到测试人所希望的值（例如 0.7），研究人员常常会删除原测试中某些项目来提高α 值，这样做并非无懈可击，删除项目间相关性较低的项目可能会导致α 值的夸大，会产生样本的α 水平比总体的α 水平更高的“α 膨胀”现象。雷科夫（Raykov）认为即使项目数量减少α 似乎也在增加，但实际上量表的真实信度可能反而降低[13]。

α 系数被广泛引用的原因

α 系数有如此多被质疑之处，但α 系数仍被大量引用，有以下几个原因。

一是论文发表的需要。多项目测量量表是心理学和许多社会科学学科经常使用的重要方法，可以说有多项目测量量表的地方就有测量信度的要求。许多期刊和组织规定，发表关于多项目测量量表的论文必须报告信度数据。科蒂纳回顾了从 1966 年到 1990 年社会科学文献引用α 系数的情况，“在278 种不同期刊上被引用”，列举出引用的领域有“教育、工业、社会、临床、儿童、社区和异常心理学、实验心理学、社会学、统计学、医学、咨询、护理、经济学、政治学、犯罪学、老年学、广播学、人

类学和会计学等”[10]。

二是教学上有关统计学的训练较少而导致α 的误用。在心理学教育系统中，数学和统计学训练不是重点，这就导致只应用α 而不顾α 的应用条件，以至于误用。针对α 系数的严厉批评文章大部分只能在心理测量学的期刊（如“Psychometrika”等）上或在以方法论家和统计学家为目标读者的期刊上找到。如前述关于“基本τ 等价”的问题，虽然在理论上是一个非常重要的假设，但只在测量理论圈受到关注，在实际测量中社会科学家们很少注意这个问题，形成“你讲你的新思想，我用我的老方法”的尴尬局面。

三是α 的计算较为便捷，配套软件较多。如 SAS、SPSS 等软件可以帮助研究者们不必深究统计概念、编写计算机程序，只要轻点鼠标就可以轻松得到所需要的参数，便于应用。

3 α 的挑战者ω

挑战α 地位的新指标

70 年来虽然有许多学者指出α 的诸多缺点，但要用新的指标来取代α 系数却很不容易。例如：陈希镇的β 系数[14]，谢小庆的γ 系数[15]，丁树良和周新莲的ξ 系数[16]等所提出的新系数都只是改进了α 的部分功能，无法得到普及，当然也无法挑战α 了。

本特勒（Bentler）和伍德沃德（Woodward）提出了信度最大下限glb（Greatest Lower Bound），可以证明， α ≤λ 2 ≤ g1b ≤ρ（X），因此作为信度的下界，glb 比α 要好[17]。雷弗尔（Revelle）和津巴格（Zinbarg）则建议用麦克唐纳的ω [18]。

麦克唐纳的ω

1970 年，麦克唐纳（McDonald）在论及因子分析的论文的附录中给出了系数θ [19]，后来在其

1999 年的论文中，他将θ 改称为ω [5]，中文文献称为组合信度或合成信度，大多数文献将其称为麦克唐纳的欧米伽 McDonalds ω ，ω 的含义如下：

考虑单因子模型，设 Ti=μ i+λ iT i=1，…，k; （5）其中μi 是常数，满足∑ μi=0（本节中，∑表示 i 从1到 k 取和，下同），λ i 是因子负荷，满足

∑ λi=1，τ 是唯一隐变量，于是可将 Xi 分解为式（6）。

上式中，分子是所有项目的非标准因子载荷和的平方，分母是它再加上项目剩余方差之和，是信度的表达式。麦克唐纳（1999）指出，在假定一维的情况下，若所有λi 都相等，则（7）式中的ω 就是Cronbach 的α [5]。这就是说，α 是ω 的特例。注意到ω 没有假定“基本τ 等价”，而当“基本τ 等价”被满足时，所有λ i 都相等，ω 就成为α 。这就说明ω 在信度估计中是优于α 的选项。满足“基本τ 等价”的模型，ω 的性能至少能和α 一样好，而在违反“基本τ 等价”时ω 优于α 。

因为ω 明显优于α ，近年来不仅得到理论工作者的大力推荐，随着方便的计算方法的出现，也得到了实证工作者的青睐。例如古伯（Goodboy）和马丁（Martin）希望“通信学者应该提供信度本身的计算，即系数ω ”以取代“学科对α 作为信度估计的惯常依赖”[20]。泰勒（Taylor）提出了过度依赖于克隆巴赫α 的担忧，鼓励研究人员更多地使用ω 系数[21]。目前邓恩（Dunn）等人所希望的“研究人员应该从α 转向ω[22]”的现象开始出现，越来越多的人已接受了ω ，只报告α 的数据可能是“过时研究”，低于标准，因此提供ω 系数势在必行。

3.3 ω 计算障碍的扫除

ω 的计算必须使用验证性因子分析（CFA），计算复杂，没有专用的软件包可计算，在推广普及上不及α 。为改变这种状态，许多学者在ω 计算软件方面做了不少工作。例如，温忠麟和叶宝娟给出了单位测验计算ω 的 LISREL 程序[23];古伯和马丁提供了如何利用 MPLUS 软件在可用数据集上计算ω 的方法[20];麦克尼什给出了用 R 软件包求得ω 的方法[24]等，这些工具大大方便了ω 的计算。

4 取代还是共存——α 和ω 的将来

争论还在继续

α 理论上受到严厉的批评，又被证明只是ω 的特例，计算容易的优势正在消失，在应用领域“用ω 取代α ”的呼声渐高，α 被ω 取代看来只是时间的问题，然而实际上并非如此。在前述以“克隆巴赫α 的再审视”为专题发表在 2021 年的“Psychometrika”刊物上的 5 篇专栏论文中，西茨玛的态度转变引起了人们的关注。西茨玛是 Tilburg 大学社会科学学院统计学教授，2009 年西茨玛对“克隆巴赫 α 非常有限的有用性”[3]的评论在跨学科信度研究人员中产生了巨大影响，截至 2021 年 3 月，该文是Psychometrika 上发表的被引用次数最多的文章，文中他严厉批评α ，“α 不是内部一致性的衡量标准，它也不是单位程度的度量”。建议用其他指标来替换α 。12 年后，他却为α 的缺点做了诸多辩护，认为“使用 CTT 还是 FA 因子分析取决于偏好;两者在科学上是一致的……系数α 提供了一个下限，当测试通过近似测量一维或系数时，该下限很有用”[24]。西茨玛态度的变化，说明在学术界关于是否用ω 取代α 还存在不同的意见。

“挺α 派”的一个重要理由是：ω 与α 实际相差不大。这个问题其实麦克唐纳已经觉察到了，他指出，α 值远低于ω 的实际例子“很难找到”[5]。在海斯（Hayes）和考茨（Coutts）的研究中，计算了 17 个量表的α 和ω 值（用 CFA 估计），当四舍五入到两位小数时有 11 个量表的α 和ω 没有差别，而其余 6 个的差异不过 0.01 而已[26]。经实验研究表明，α 和ω 似乎不太可能有意义的差异。彼得森（Peterson）和金（Kim）用元分析（Meta-analysis）方法研究了这个问题，从 24 种期刊 327 篇文章中获得了共 2524 对的α 和ω 值，得出结论：在相同研究条件下，在估计信度上，ω 比α 明确得更好，但一般说来，差异很小[27]，α 严重低估了真实信度的说法难以让人信服。

α 与ω 将长期共存

虽然α 有许多缺点，但ω 的计算要求更高，当样本数和总体信度较低时，ω 可能显示出更多的估计失败，估计信度预期信度之间可能有更大距离，因此ω 并不能完全取代α 。此外，α 还提供了所有条件下的一致低估，确保α 提供内部一致性的下限估计，而ω 在同一方向上没有始终如一的误差（即时高时低）。Cho 指出，几乎没有经验证据表明ω 信度比α 更准确[28]。过去 70 年发展起来与α 、ω 相关的研究显示，α 、ω 与信度之间的关系相当复杂，无论如何，不应简单化地抛弃α 或不愿前进固守α ，而是应该对测量质量的评价通过多种渠道采用多种方法互相参照，体现为α 与ω 的共存。未来实际应用的论文应同时将α 和ω 的数据给出，使它们提供的信息互相补充，以示信度达到要求。ω 与α 将长期共存，互相补充。

参考文献

[1]Cronbach L J.Coe?cient alpha and the internal structure of tests[J].Psychometrika，1951，16（3）.

[2]孟庆茂，刘红云.α系数在使用中存在的问题[J].心理学探新，2002，22（3）.

[3]Sijtsma K.On the use，the misuse，and the very limited usefulness of Cronbachs alpha[J].Psychometrika， 2009，74（1）.

[4]Peters G.The alpha and the omega of scale reliability and validity：Why and how to abandon Cronbachs alpha and the route towards more comprehensive assessment of scale quality[J].European Health Psychologist， 2014，16（2）.

[5]McDonald R P.Test theory：A unified treatment[M].Mahwah，NJ：Lawrence Erlbaum，1999.

[6]温忠麟.α系数：晃而不倒的信度标杆[N].中国社会科学报，2011-10-13（12）.

[7]TenBerge J M F，Socan G.The greatest lower bound to the reliability of a test and the hypothesis of unidimensionality[J].Psychometrika，2004，69（4）.

[8]Green S B，Yang Y.Commentary on coefficient alpha：A cautionary tale[J].Psychometrika，2009，74（1）.

[9]Davenport E C，Davison M L，Liou P Y，et al.Reliability，Dimensionality，and Internal Consistency as Defined by Cronbach：Distinct Albeit Related Concepts[J].Educational Measurement：Issues and Practice， 2015，34（4）.

[10]Cortina J M.What is coefficient alpha？ An examination of theory and applications[J].Journal of Applied Psychology，1993，78（1）.

[11]Nunnally J C.Psychometric theory[M].New York，NY：McGraw-Hill，1978.

[12]Ventura-León J，Pea-Calero B N.The world should not revolve around Cronbachs alpha≥70[J]. Adicciones，2020，33（4）.

[13]Raykov T.Reliability if deleted，not “alpha if deleted”：Evaluation of scale reliability following component deletion[J].British Journal of Mathematical and Statistical Psychology，2007，60（2）.

[14]陈希镇.如何正确使用信度估计公式[J].心理学报，1991（1）.

[15]谢小庆.信度估计得γ 系数[J].心理学报，1998，30（2）.

[16]丁树良，周新莲.一种新的信度估计[J].江西师范大学学报（自然科学版），2002，26（3）： 222-224.

[17]Bentler P M，Woodward J A.Inequalities among lower bounds to reliability：With applications to test construction and factor analysis[J].Psychometrika，1980，45（2）.

[18]Revelle W，Zinbarg R E.Coefficients alpha，beta，omega，and the glb：Comments on Sijtsma[J]. Psychometrika，2009，74（1）.

[19]McDonald R P.The theoretical foundations of principal factor analysis，canonical factor analysis，and alpha factor analysis[J].British Journal of Mathematical and Statistical Psychology，1970，23（1）.

[20]Goodboy A K，Martin M M.Omega over alpha for reliability estimation of unidimensional communication measures[J].Annals of the International Communication Association，2020，44（4）.

[21]Taylor J M.Coefficient Omega[J].Journal of Nursing Education，2021，60（8）.

[22]Dunn T J，Baguley T，Brunsden V.From alpha to omega：A practical solution to the pervasive problem of internal consistency estimation[J].British Journal of Psychology，2014，105（3）.

[23]温忠麟，叶宝娟.测验信度估计：从α 系数到内部一致性信度[J].心理学报，2011，43（7）.

[24]McNeish D.Thanks coefficient alpha，well take it from here[J].Psychological Methods，2018，23（3）.

[25]Sijtsma K，Pfadt J M.Rejoinder：The Future of Reliability[J].Psychometrika，2021，86（4）.

[26]Hayes A F，Coutts J J.Use Omega Rather than Cronbachs Alpha for Estimating Reliability，But……[J]. Communication Methods and Measures，2020，14（1）.

[27]Peterson R A，Kim Y.On the relationship between coefficient alpha and composite reliability[J].The Journal of applied psychology，2013，98（1）.

[28]Cho E.Neither Cronbachs alpha nor McDonalds omega：A commentary on Sijtsma and Pfadt[J]. Psychometrika，2021，86（4）.

Replace or Coexist

—Cronbachs Alpha and McDonalds Omega

Gao Qinghui

Xiamen University， Xiamen

Abstract： Coefficient Cronbachs α is the most widely used for estimating reliability. Researchers have used the index extensively in the papers that need to report its reliability， but many scholars have also questioned it. The α coefficient is used as reliability and must satisfy the “essential tau-equivalence” assumption. This assumption is too strict and difficult to meet， and its violation may lead to α overestimating or underestimating the reliability. Using Cronbachs α to estimate internal consistency is inappropriate. The acceptable lower bound to the reliability of a test is often set empirically， and there is no precise standard. Researchers increase the α value by deleting items， which may also lead to a decrease in the actual reliability of the scale. Although these problems exist， α has been widely used in related research for a long time. This is due to the following reasons： many research fields involve reporting reliability coefficients， researchers have not been taught how to use α correctly for a long time; in addition， standard statistical software has the function of calculating α， which is convenient for calculation; the editors also have requirements for reporting α in the paper. McDonald pointed out that α is a particular case of MacDonalds ω， and ω becomes α when the “essential tau-equivalence” is satisfied. ω is better than α when the “essential tau-equivalence” cannot be satisfied in reliability estimation. However， the calculation of ω must use confirmatory factor analysis （CFA）， which is challenging to implement in the pre-computer era. Researchers have gradually started to use ω instead of α in their research， and more and more people have accepted ω. However， whether MacDonalds ω should be used instead of Cronbachs α， there is still a heated debate in the academic community. Opinions on ω mainly focus on the fact that the actual values of ω and α are not significantly different in the calculation. That ω may show more estimation failures when the sample size and overall reliability are small. It is unreasonable to abandon α or be unwilling to move forward and stick to α. In future research， use McDonalds omega and Cronbachs alpha for reliability estimation to coexist for a long time and complement each other.

Key words： Reliability estimation; Cronbachs α; MacDonalds ω