一阶一致性系数AC1对二分类结局一致性的测评*

2015-01-27 12:28:51公为洁温兴煊何贤英张晋昕
中国卫生统计 2015年5期
关键词:随机性评价者悖论

公为洁 温兴煊 何贤英 张晋昕

中山大学公共卫生学院医学统计与流行病学系(510080)

一阶一致性系数AC1对二分类结局一致性的测评*

公为洁 温兴煊 何贤英 张晋昕△

中山大学公共卫生学院医学统计与流行病学系(510080)

目的 探讨一阶一致性系数和Kappa系数用于测评二分类结局一致性的应用效果。方法 从Kappa系数的两个悖论出发,揭示其应用局限,对比考察一阶一致性系数AC1对同样问题处理结果的合理性。结果Kappa系数受研究对象阳性率变化及结果边际概率的影响,不能广泛适用,而一阶一致性系数适用性较好。结论 一阶一致性系数能够克服Kappa系数的局限性,是评价二分类结局一致性的可靠指标。

一致性评价 诊断试验Kappa系数 一阶一致性系数

在医学试验研究中,经常需要评价两种不同方法得到的分类结局的一致性,如两种诊断方法或两位医师对同一组病人的诊断、同一病理学家对一组病理切片的前后两次评价等。其结局可分为无序和有序两种情况。Kappa系数被普遍用于评价无序分类结局一致性。然而,其实际应用受到样本阳性率及结局分布是否平衡和对称的影响,应用中有诸多局限。本文将通过实例数据的分析,讨论Kappa系数的局限,并对比考察一阶一致性系数(the first-order agreement coefficient,AC1)的应用效果。

Kappa系数的局限性

Kappa系数是由Cohen于1960年提出的一种校正机遇因素影响后衡量检测方法一致性的指标[1]。本文中所指的Kappa系数均为Cohen提出的Kappa系数(Cohen’s Kappa)。以表1中A、B两个评价者将N个对象评定为“+”、“-”两种结果的配对四格表为例,Kappa值的具体计算方法为:

(1)

其中,P0=(a+d)/N,表示对实际观察到两种方法诊断结果一致程度的概率估计,Pe=(R1C1+R2C2)/N2,表示由于偶然因素使诊断结果一致的概率估计。Kappa值介于-1和+1之间,是目前医学研究中评价一致性系数的最常用指标。然而,Kappa系数在实际应用中存在许多局限性。

Feinstein和Cicchetti[2]于1990年首先揭示了Kappa系数的两个悖论。悖论一:即使观察一致率Po较高,若阳性一致率a/N和阴性一致率d/N相差较大,则在Kappa值的计算上就会相互抵消,使算得的Kappa值偏低,而最终导致真实的一致程度被低估。以如下实例加以说明,两位病理学家评价相同的100张病理切片,都认为有99张阳性和1张阴性,其中有98张阳性结果判断一致,其余2张判断不同,即有98.0%的诊断结果是相同的。然而,此时Kappa系数仅为-0.010,未体现实际情况。悖论二:边缘合计值不对称不平衡的Kappa值比对称不平衡的更高。以表1数据为例,不平衡指a和d不相等,不对称指b和c不相等。即当a和d不相等时,若b与c的合计值固定(两种方法判断不一致的例数总数不变)时,b和c相差越大,Kappa值越大[3]。例如,表2和表3中数据分别表示甲、乙两种仪器与传统仪器对100件产品合格率的测量结果,其中,产品合格为“+”,不合格为“-”[4]。不难看出两种仪器与传统仪器诊断一致的个数是相同的,即其与传统仪器的一致性程度相近,但可得到Kappa值在表2中为0.167,低于在表3中的0.238。

AC1系数

假设在某研究中,A、B两评价者将一组样本评定为“+”和“-”两个结局事件。此时会出现两种情况,当其不确定某个体属于哪个结局事件时即作出随机性判断,当其确定时即作出确定性判断。假设评价者A有θA的概率会作出随机性判断,且正确率为50%,而其余的都是确定性判断,正确率为100%。如果该研究的随机性判断部分是可知的,则两评价者将N个受试对象评定为“+”和“-”的两分类结局,评价结果记录表可由表1的四格表整理为区分随机性判断和确定性判断的表4。

设(i,j)∈(+,-),(X,Y)∈(R,C),则NijXY表示评价者A以X判断(随机性或确定性判断)得到i结局(“+”或“-”)且评价者B以Y判断(随机性或确定性判断)得到j结局(“+”或“-”)的个体数目。以表4中的N-+RC为例,表示被评价者A随机地判断为阴性且被评价者B确定地判断为阳性的个体数目。

根据表4,观察一致性概率为:

(2)

期望一致性概率为:

(3)

其中,事件G表示A与B判定结果一致,R表示任一评价者(A、B或A与B)作出随机性评价。P(G/R)表示A与B评定结果一致且任一评价者作出随机性评价的概率,P(R)表示任一评价者作出随机性评价的概率。A与B的评定结果共有“+/+”、“+/-”、“-/+”和“-/-”四种情况,因此出现评价结果一致(“+/+”和“-/-”两种情况)的概率为P(G/R)=2/4=0.5。

定义随机变量X+为二分类变量,当有一个评价者将个体评定为“+”时即为1,否则为0,则可用随机概率的标准方法来估计P(R),设π+为任一评价者将任一个体评定为结局“+”的概率,则:

(4)

其中,V(X+)是随机变量X+的方差,Vmax是X+可能取得的最大值。此时有

(5)

用样本数据估计π+可得:

(6)

综上可估计出AC1的计算公式:

(7)

此外,AC1的方差、假设检验和在多个评估者多分类结局中的计算方法,可参考Gwet的相关文献[6]。目前,在Windows操作系统的MS Excel 2007和2010环境下,已有名为AgreeStat 2011.1的工作表可通过输入整理好的列联表输出及其标准误和95%CI[7],该工具还可计算Kappa等多个一致性系数;利用SAS宏程序AC1AC2.mac也可以较为方便地得到及其方差和假设检验结果[8];利用SAS宏程序INTER RATER.mac可以同时计算Kappa和AC1[9]。

当结局指标为有序多分类变量时,Gwet提出了一种二阶一致性系数(the second-order agreement coefficient,AC2)可替代加权Kappa系数[5],其原理是考虑结局分类的序次关系,根据有序的分类变量定义权重,其应用也需进一步探讨和推广。

AC1与Kappa系数的比较

现从Kappa系数最常见的两个悖论角度出发,探讨AC1是否具有比Kappa系数更广泛的适用性。在悖论一的例子中,如上文所述,计算可得Kappa值为-0.010,与实际一致情况不符,而计算可得AC1值为0.980,与实际一致情况相吻合。如果此时按照Kappa来评价一致性,显然会得到两个病理学家诊断完全不一致的错误结论。在悖论二的例子中,Kappa的数值受b和c差值的影响有所波动,结论为甲、乙两种仪器与传统仪器的诊断一致性有所不同。而AC1在表2和表3中均可计算得0.231,结论为两种仪器与传统仪器的诊断一致性相同,与实际一致情况吻合。可以看出,AC1系数不存在Kappa的两个悖论,其数值稳定,受实验对象在结果中分布的影响较小。

此外,有研究利用多个评价者判断人格障碍的多个指标的一致性,对Kappa和AC1进行了比较,得到AC1的标准差均小于Kappa,提示AC1是评价诊断试验结局一致性的更为稳定的指标[10]。

讨 论

随着医疗诊断技术的进步,新的诊断手段层出不穷。目前,分类结局的一致性评价方法有Kappa系数、Scott提出的π系数[11]、Holley提出的G指数[12]等指标,都存在一些局限性。其中以Kappa应用最为广泛。而Kappa受到研究对象阳性率及结局分布边缘合计的影响,其应用具有多个悖论,采用广义估计方程等多种校正方法并不能完全解决这些悖论,且会增加实际分析的难度。此外,还有学者总结了多达14种Kappa应用悖论,指出只有在少数特定情况下才能使用Kappa系数[13]。更有学者提出因其取值具有误导性,应谨慎使用乃至停止使用[14]。

AC1适用于评价两种或多种诊断方法的二分类或无序多分类结局的一致性评价,其应用受结局分布情况影响较小,是较为稳定的评价指标,与Kappa的区别在于Pe的计算不同。统计学家也很关注AC1与其他一致性评价指标的适用性对比[10],在实际资料分析方面有待推广。Gwet在文章中指出,当结果阳性率较高时,根据不同样本含量估计的AC1相较于Kappa系数、Scott的π系数和Holley的G指数,其相对偏倚和方差估计值都更小,提示对于不同的样本含量AC1仍具有稳定性[6]。顺带指出,AC1要求提供机遇一致性的估算,所以在医学研究领域的推广尚需统计学、流行病学专家的引导与协助。

何种情况下应采用Kappa系数或AC1,以及AC1在实际应用中是否存在其他局限性,目前尚不可知。这些问题需须用Monte Carlo法等统计学方法进行数据的模拟验证,我们正在开展相关研究,结果将另文给出。

[1]Cohen J.A coefficient of agreement for nominal scales.Educational and Psychological Measurement,1960,20(1):37-46.

[2]Cicchetti DV,Feinstein AR.High agreement but low kappa II.Resolving the paradoxes.J Clin Epidemiol,1990,43:551-558.

[3]田苗,王鹏新,严泰来,等.Kappa系数的修正在干旱预测精度及一致性评价中的应用.农业工程学报,2012,28(24):1-7.

[4]王军.Kappa系数在一致性评价中的应用研究.四川:四川大学,2006.

[5]Gwet KL.Handbook of inter-rater reliability.Gaithersburg,MD:STATAXIS Publishing Company,2001.

[6]Gwet KL.Computing inter-rater reliability and its variance in the presence of high agreement.British Journal of Mathematical and Statistical Psychology,2008,61(1):29-48.

[7]Gwet K.Calculating Intraclass Correlation with AgreeStat 2011.1.Available from URL:http://agreestat.com/agreestat.

[8]Blood E,Spratt KF.Disagreement on agreement:Two alternative agreement coefficients.SAS Global Forum,2007:16-19.

[9]Gwet K.Computing inter-rater reliability with the SAS system.Stat Methods Inter-rater Reliability Assess,2002,3:1-16.

[10]Wongpakaran N,Wongpakaran T,Wedding D,et al.A comparison of Cohen’s Kappa and Gwet’s AC1 when calculating inter-rater reliability coefficients:a study conducted with personality disorder samples.Bmc Medical Research Methods ology,2013,13(1):61-68.

[11]Scott WA.Reliability of content analysis:The case of nominal scale coding.Public Opinion Quarterly,1955,19:321-325.

[12]Holley JW,Guilford JP.A note on the G index of agreement.Educational and Psychological Measurement,1964,24(4):749-753.

[13]Zhao X.When to use Cohen’s k,if ever?The annual meeting of the International Communication Association.Boston,MA,US,2010.

[14]Robert GP,Millones M.Death to Kappa:birth of quantity disagreement and allocation disagreement for accuracy assessment.International Journal of Remote Sensing,2011,32(15):4407-4429.

(责任编辑:邓 妍)

Consistency Evaluation of Binary Outcomes by the First-order Agreement Coefficient

Gong Weijie,Wen Xingxuan,He Xianying,et al.

(School of Public Health,Sun Yat-sen University(510080),Guangzhou)

Objective To explore the application effect of first-order agreement coefficient andKappacoefficient when evaluating the consistency of binary outcomes.Methods The limitation ofKappawas uncovered based on its common paradoxes,and the reasonability of first-order agreement coefficient for evaluating the same questions was inspected contrastively.Results Effected by the variation of the positive rate and marginal probability of study objects,Kappashould not be widely used for consistency assessment,while the first-order agreement coefficient is more applicable.Conclusion The first-order agreement coefficient is a reliable index to evaluate the consistency of binary outcomes without the limitation ofKappa.

Consistency assessment;Diagnostic test;Kappa coefficient;First-order agreement coefficient

中山大学本科教学改革研究课题(中大教务2012-173-39)

△通信作者:张晋昕,E-mail:zhjinx@mail.sysu.edu.cn

猜你喜欢
随机性评价者悖论
视神经炎的悖论
保健医苑(2022年1期)2022-08-30 08:39:44
海岛悖论
考虑评价信息满意度的群体信息集结方法研究
运筹与管理(2019年6期)2019-07-10 03:36:32
“帽子悖论”
当代陕西(2019年9期)2019-05-20 09:47:10
基于评价信息满意度的群体信息集结方法
统计与决策(2019年2期)2019-03-05 06:00:58
浅析电网规划中的模糊可靠性评估方法
学习者为评价者的国际汉语教材评价标准预试研究
考虑负荷与分布式电源随机性的配电网无功优化
适用于随机性电源即插即用的模块化储能电池柜设计
美妆悖论
健康女性(2014年10期)2015-05-12 03:30:07