临床测量中定量数据Bland-Altman一致性评价

2022-01-28 07:46:58付美子林炳清

广西师范大学学报（自然科学版） 2022年1期

付美子, 林炳清

(深圳大学数学与统计学院，广东深圳518060)

在临床医学，特别是医疗器械的研究中，经常会涉及评价2种不同方法测量结果一致性的问题。一般情况下，其中一种方法是已经得到业界认可、应用较广泛的；另一种方法通常是新的，或对人体无害，或便于应用，或更具有经济性。通过对2种方法测量结果的一致性进行评价，以此来检验2种方法之间能否相互替代。在定量数据比较研究中，选择并正确使用恰当的统计分析方法是非常有必要的。许多研究将2种测量方法结果之间的相关系数(r)作为一致性评价指标，这是不科学的。事实上，早在1986年Bland和Altman[1]就指出使用相关系数评价一致性可能会导致不合理的结论，这是因为：相关系数r衡量2个变量之间相关关系的程度，散点图位于任何一条直线附近，都说明2个变量之间存在高度相关性；而只有所有的点都落在等分线y=x上才能说明二者具有一致性。高度相关并不代表具有一致性，缺乏一致性的数据也可以产生高度的相关性。

Altman和Bland在论文中给出一组数据加以论证，该组数据是同时使用赖特氏峰值流量计和微型赖特氏峰值流量计2种仪器随机对17个人进行测量的结果[1]。图1(a)为2种赖特氏峰值流量计测量结果的散点图，可以看出这2种方法得到的测量结果都在等分线y=x附近，且相关系数高达0.94。然而图1(b)显示二者的差值分布存在一定离散程度，这2种测量方法的测量结果之间可能并不具备高度一致性。定量数据一致性评价的方法还有配对t检验、回归分析、决定系数和组内相关系数等，但已有若干文献通过模拟分析证实这些方法难以得到严谨的一致性评价结果，甚至对患者的医疗决策带来严重后果[2-5]。而Bland-Altman方法因其具备理解简单、分析直观、结果可靠等特点，在临床医学研究中得到广泛应用[6-7]。本文着重介绍目前临床测量中用于评价定量数据2种测量结果一致性的Bland-Altman方法。

图1 2种赖特氏峰值流量计测量结果关系

1 Bland-Altman一致性评价方法

1.1 方法简介

Altman和Bland于1983年提出了一种用于比较2种定量数据测量结果一致性的方法(简称Bland-Altman)，并在实践中不断对其进行修正和完善[8-11]。它的主要思想是根据不同方法测量结果的差值分布，运用描述统计和推断统计方法来评价2种方法间的一致性。其中，描述统计包括统计量的计算和图形展示，统计量的计算包括2种方法测量结果差值的均值和95%的波动范围，这个范围就是著名的95%一致限(limits of agreement，LoA)；图形展示部分以2种方法测量结果的均值为横轴(x轴)，2种方法测量结果的差值为纵轴(y轴)绘制散点图，并在图中用横线标注出差值均值、95% LoA。推断统计包括参数估计、差值均值及95% LoA两个限值的置信区间估计。最后把95% LoA值的置信区间与临床中可接受的一致性界值进行比较，作出2种测量方法间是否具有一致性的判断。

值得注意的是，最早提出的Bland-Altman方法在应用中对数据要求较严苛，需要满足以下3个条件：一是差值随机性，表现为图中散点分布与x轴平行；二是同方差，表现为差值分散在同宽的离散带内；三是差值呈正态分布[12]。

1.2 应用问题分析

无论是国内还是国外，Bland-Altman方法的应用存在严重的不规范问题，错误使用的现象屡见不鲜[13-18]。主要存在以下2个问题：① 没有考虑Bland-Altman方法对数据的3个要求，即使用者常常忽略差值随机性、同方差以及正态性检验；② 一致性分析时，只使用95% LoA，没有考虑95% LoA的置信区间，造成结果不可靠。此外，Bland-Altman的应用很多集中在单次测量，较少考虑重复测量。本文以上述应用中的问题为出发点，对Bland-Altman方法一致性分析流程做详细全面梳理，分别讨论单次测量和重复测量情况下的一致性分析流程。对于单次测量，给出数据类型的判定方法，并概述标准数据与非标准数据的一致性评价步骤；对于重复测量，分别讨论样本真值变化和样本真值不变2种情况下的一致性评价方法，详细分析95% LoA及其置信区间的构造过程。最后提供Bland-Altman一致性评价流程。

2 单次测量设计的一致性评价

2.1 数据类型的判定

由于Bland-Altman方法对数据有要求，故首先需要判断试验数据是否符合相关要求。下面是判断差值随机性、同方差、正态性的具体方法，对于每个条件各列举出2种判定方法，在实际操作中把2种判定方法相结合，以保证判断的准确性。如果试验所用数据满足这3个条件，在本文中称为“标准数据”；否则，称试验数据为“非标准数据”。以下均假设2种方法测量结果用X和Y表示，2种方法测量结果的差值用D=X-Y表示，2种方法测量结果的均值用A=(X+Y)/2表示。

2.1.1 差值随机性判定方法

2.1.2 同方差判定方法

2.1.3 正态性判定方法

一是根据差值D的直方图进行判断，如果呈正态分布，说明数据具有正态性；若左偏或者右偏，说明差值不满足正态分布的假设。二是进行正态性检验，比如Shapiro-Wilk检验、D′Agostino-Pearson检验和Kolmogorov-Smirnov检验，这3种检验方法的零假设都为数据差值呈正态分布，在显著性水平α=0.05的条件下，若p<0.05，那么就有充分的理由拒绝零假设，认为数据差值不具有正态性。

2.2 标准数据的一致性评价

2.2.1 统计量的计算

2.2.2置信区间估计

1)差值均值的95%置信区间。

2)95%LoA的置信区间。

(1)

而且，可以得到[10]

(2)

2.2.3 Bland-Altman图形

2.3 非标准数据的一致性评价

2.3.1 数据变换法

对于非标准数据，差值或呈现某种趋势，或表现为异方差[19]。在这种情况下，可首先对数据进行变换处理：对数变换、比值变换和百分比变换[10,20]。引用Bland[10]的数据作为示例，采用Nadler和Hurley这2种方法测量人体内血浆的体积。记Nadler方法的测量结果为X，Hurley方法的测量结果为Y，下面介绍3种处理非标准数据的方法(见表1)。

表1 非标准数据的处理方法

1)对数变换。以2种方法测量结果的均值的对数为横轴，测量结果对数变换后的差值为纵轴。

2)比值变换。以2种方法测量结果的均值为横轴，2种方法测量结果的比值为纵轴。

3)百分比变换。以2种方法测量结果的均值为横轴，测量结果差值占均值百分比为纵轴。

图2为2种方法测量结果X和Y均值与差值的原始数据散点图。从图2中可以看出，测量结果的差值随着均值的增大而增大，回归方程中的回归系数p值为9.99×10-9，具有统计学意义，且散点图也没有在等宽的离散带内，可判断该数据为“非标准数据”。图3～5分别是对数据进行对数变换、比值变换、百分比变换之后的散点图，这3个图形散点分布大致相同，且差值具有随机性。在这3种情况下，分别建立回归方程，它们的回归系数的p值分别为0.84、0.68和0.69，均不具有统计学意义。结果表明，对于非标准数据，可首先考虑对数据进行对数变换、比值变换或百分比变换，以得到标准数据。对数变换后得到的结果再取反对数，就和比值变换得到的结果有相同的解释意义，均可解释为一种方法测量结果占另一种方法测量结果的比例。

图2 2种方法测量结果的差值与均值的散点图

图3 2种方法测量结果对数变换后差值与均值的散点图

2.3.2 回归方法

2.4 单次测量设计的一致性评价实例

2.4.1 标准数据的一致性评价实例

表2为使用A、B 2种方法的测量结果，现用Bland-Altman法对二者进行一致性评价。以下所有分析均在统计软件R 4.0.3 (https：∥R-project.org)中实现。

图4 2种方法测量结果的比值与均值散点图

图5 2种方法测量结果的差值占比与均值散点图

表2 数据1

2.4.1.1 数据类型的判定

1)差值随机性判定。

从图6可以看出，2种方法测量结果差值的散点分布与x轴平行，且拟合的回归方程中回归系数的p值为0.52，不具有统计学意义。2种判定方法得到的结果保持一致，说明差值的平均趋势在测量范围内保持不变。

图6 方法A与方法B测量结果的均值与差值的散点图

2)同方差判定。

3)正态性判定。

如图7所示，可以看出差值大致服从正态分布，且Shapiro-Wilk正态性检验的p=0.36，比0.05大，2种判定方法均表示方法A与方法B测量结果差值具有正态性。

图7 方法A与方法B测量结果差值的密度直方图

综合对数据类型的判定，可知这2种方法测量结果满足差值随机性、同方差和正态性3个条件。故判定该组数据为“标准数据”，可直接用经典Bland-Altman进行一致性评价。

2.4.1.2 Bland-Altman分析

图8 数据1中2种方法测量结果的Bland-Altman图形

最后，把95%LoA上限置信区间的最大值和95%LoA下限置信区间的最小值与临床中可接受的一致性界值进行比较。假设临床中可接受限值为±30，那么结果表明数据1中方法A与方法B的测量结果具有一致性。

2.4.2 非标准数据的一致性评价实例

表3为方法a与方法b的测量结果，记为数据2，现要判断这2种测量方法是否具有一致性。

表3 数据2

2.4.2.1 数据类型的判定

1)差值随机性判定。

图9 方法a与方法b测量结果的均值与差值的散点图

2)同方差判定。

方法a与方法b测量结果差值残差的绝对值R与均值A的回归系数的p值为0.37，不具有统计学意义，且图9中差值分散于拟合直线同宽的离散带中，也说明了数据满足同方差条件。

3)正态性判定。

从图10中可以看出差值D大致服从正态分布，且Shapiro-Wilk正态性检验的p=0.55，大于0.05，2种判定方法均表示方法a与方法b测量结果差值具有正态性。

图10 方法a与方法b测量结果差值的密度直方图

由以上对数据类型的判定，可知这2种方法测量结果之间的差值虽然具有同方差和正态性，但是差值具有某种趋势。判定该组数据为“非标准数据”，需要对其进行一定处理，再进行一致性评价。

2.4.2.2 Bland-Altman分析

图11 数据2中2种方法测量结果的Bland-Altman图形

3 重复测量设计的一致性评价

在医学研究中，为了比较2种测量方法的一致性，有时会对同一个体进行重复测量。本章讨论重复测量设计下2种方法测量结果的一致性评价流程，分为样本真值变化和样本真值不变2种情况[21-25]。比如，在临床试验中，需要观察高血压患者治疗0、2、4、6、8周血压的动态变化，这种情况就属于样本真值变化；如果同时且连续测量血压值，那么这种情况可以假设样本真值不变。本章中，X和Y分别表示方法A和方法B的测量结果，n表示观测对象的个数，Xij、Yij分别表示方法A、方法B第i个对象的第j次观察结果，mXi、mYi分别表示方法A和方法B的第i个对象重复观察的次数，若mXi=mYi，把二者均记作mi。

3.1 样本真值变化的重复测量设计

3.1.1 统计量的计算

在单因素方差分析中，总误差等于系统误差与随机误差之和，即

(3)

(4)

综合式(3)和式(4)，有

② 计算观测对象内部的随机误差，N表示所有的观测结果个数，

3)95%一致限LoA。95%LoA的上下限分别为：

3.1.2 置信区间估计

3.2 样本真值不变的重复测量设计

3.2.1 统计量的计算

② 计算观测对象内部的随机误差，NX和NY分别表示2种方法观测结果个数：

③ 计算观测对象之间的系统误差

故得到

3)95%一致限LoA。95%LoA的上下限分别为：

3.2.2 置信区间估计

3.3 重复测量设计的一致性评价实例

表4为数据3，一共有7个观测对象，每个观测对象的观察次数为3～6次，采用2种方法测量。

表4 数据3

95%LoA上下限的置信区间估计：

4 Bland-Altman一致性评价流程

综合文献[26]及上面的分析，Bland-Altman一致性评价流程见图12。

图12 Bland-Altman一致性评价流程

流程梳理如下：

1)判断单次测量设计还是重复测量设计。

2)单次测量设计。

①检查数据是否标准：差值随机性、同方差、正态性。

(i)若数据标准，可直接使用Bland-Altman分析法；

(ii)若数据非标准，差值存在某种趋势、异方差或者非正态性，可采用对数变换、比值变换、百分比变换、回归等方法对测量结果进行处理，再使用Bland-Altman分析法。

②Bland-Altman分析。

(i)计算统计量。分别计算2次测量结果的差值，2次测量结果的均值，差值的均值、标准差和95% LoA。

(ii)参数估计。估计差值均值及95% LoA 2个限值的置信区间。

(iii)图形展示。画出2次测量结果的差值和其均值的散点图，并在图中标注差值均值、95% LoA及95%LoA的置信区间。

(iv)一致性判断。将95% LoA上限置信区间的上限和95%LoA下限置信区间的下限与预先确定的临床可接受范围进行比较，以此来判断2种测量方法的一致性。

3)重复测量设计。

①样本真值变化。计算统计量、参数估计、一致性判断。

②样本真值不变。计算统计量、参数估计、一致性判断。

5 结语

本文先简要介绍Bland-Altman的评价方法，基于其应用广泛性以及使用时容易出现的不规范性，对该方法的使用作出全面梳理。关于定量方法比较研究，Bland-Altman一致性评价的使用过程中要关注以下几方面问题：①单次测量设计中数据是否满足差值随机性、同方差和正态性这3个要求；②若试验数据为“非标准数据”，如何对数据进行处理；③一致性判定的方法，应使用95% LoA的95%置信区间与临床医学研究中的一致界值进行比较，得出评价结果；④在重复测量设计中，要考虑样本真值变化和样本真值不变2种情况，分别构造置信区间。最后梳理Bland-Altman一致性评价流程，使得Bland-Altman方法的使用更加规范，避免使用错误。