诊断性试验准确性的评估

2018-10-18 01:30FangyuLIHuaHE

上海精神医学 2018年3期

Fangyu LI, Hua HE*

1．背景

根据全球疾病负担研究的估计，精神性疾病的全球发病率很高，仅次于心血管疾病[1]。在精神性疾病中，抑郁症目前是导致全球残疾负担的主要原因。在中国，抑郁症是残疾调整生命年（DALYs）的四个主要原因之一[2]。2012年中国所有成年人的抑郁症总患病率为37.68%，重度抑郁症患病率为4.08%，2013年至2015年，中国的疾病负担估计增加了10%[3-4]。对于抑郁症的诊断，DSMIV的结构化临床访谈（SCID）被普遍认为是临床实践和研究的金标准，并将继续被广泛使用[5-8]。然而，SCID的使用受到一系列诸如成本和精神科医生严重短缺等因素的限制。因为SCID不能用作自动提供精神病诊断的绝对可靠的清单，它必须由训练有素的精神科医生[9]执行，最终导致高费用和部分患者难以承受的精神卫生保健。中国精神科医生的短缺也限制了患者获得精神卫生专职人员治疗的机会。此外，对一些患者（例如老年患者）进行检查可能很困难且耗时。由于SCID的限制，一些易于操作的筛查工具，如汉密尔顿抑郁量表（HAM-D）、贝克抑郁量表（BDI），甚至更简单的筛查工具，如患者健康问卷（PHQ-2，PHQ-9），被设计并用于对患者进行抑郁症诊断[10]。例如，最常用的工具HAM-D量表是一种提供抑郁症指征的多项问卷，它也是一份评估抑郁症康复的指南[11]。同样，贝克抑郁量表（BDI）的21个问题的多选式自我报告条目也被广泛用于衡量抑郁症的严重程度。然而，在筛选工具可以应用于患者之前，评估这些筛查工具相对于金标准SCID的准确性至关重要[12]。如果筛查工具可以正确地将患病受试者分类为患病，将非患病的受试者分类为未患病，则可以提倡将该筛查工具用于医疗实践。否则，其实际使用应谨慎。在本文中，我们将讨论如何评估诊断性试验的准确性。

2．诊断性试验的准确性

当诊断性试验结果为二分类变量时，例如是和否，阳性与阴性，灵敏度和特异度被广泛用于评估诊断性试验的准确性。灵敏度是患病受试者中检验为阳性的概率，即检验正确地将患病受试者分类为患病的概率，而特异度是非患病受试者中检验呈阴性的概率，即检验可以正确地将未患病的受试者归类为无病的可能性[13]。例如，灵敏度90%的检验能正确地将90%的患病受试者分类为患者，但将10%的患病受试者错误分类为非患病受试者。类似地，特异度90%的检验可以正确地将90%的非患病受试者分类为非患病，但将10%的非患病受试者错误地分类为患者。灵敏度和特异度范围从0到1，其中1表示该检验可以正确地将所有患病受试者分类为患者并且所有未患病的受试者分类为非患病者。为了评估检验的准确性，必须综合考虑灵敏度和特异度。显然，良好的诊断性试验需要高灵敏度和高特异度。具有100%灵敏度和特异度的检验可以正确地对所有患病和非患病受试者进行分类，因此是完美的检验。

然而，在实践中，指标为连续性变量的诊断性试验是非常常见的。在这种情况下，使用受试者工作特征曲线（ROC）评估该检验区分疾病的准确性。通过对连续性检验分数进行二分，可以在每个截点处计算灵敏度和特异度。通过连接连续性检验的所有可能截点处所有（1-特异度，灵敏度）对来构建ROC曲线。ROC曲线是一种在一系列截点上以图形方式显示真阳性与假阳性的方式[14]，并提供该检验如何准确区分疾病状态的图片信息。不同的截点会得到不同的灵敏度和特异度。对于给定的检验，在灵敏度和特异度之间存在折衷。例如，如果较高的检验分数表明患病的可能性较大，则较低的临界值将产生较高的灵敏度但特异度较低，在这种情况下，该检验可以正确地将大多数患病受试者分类为患者，但也有很高的几率将非患病者归类为患者，对于高临界值，反之亦然。ROC曲线为我们提供了检验如何区分患病和非患病的全貌，其中靠近左上角的部分能够更好地区分。对角线表示没有区分能力。

ROC曲线是描述检验在每个截点区分患病状态能力的极好的方法，但在实践中，使用单个指标来总结该检验的整体性能也是非常重要的。ROC曲线下面积（AUC）是评估整体能力的指标。 AUC测量该检验正确分类患有和不患有疾病的能力。ROC曲线越接近左上角，曲线下面积越大，而值为1时表示完美区分。

接下来，我们将通过一项实际研究使用R来说明如何估计一项试验的准确性。

3．举例说明：老年服务客户抑郁症筛查

3.1 研究样本

签订知情同意书后，377名讲英语并接受初步家庭评估的老年受试者参与了试验。

3.2 测量指标

SCID：SCID[15]作为确定当前重度抑郁发作（MDE）存在与否的金标准。在该研究中，SCID被用于研究样本中的所有受试者。

PHQ-9/PHQ-2：患者健康问卷（PHQ-9）是患者健康问卷的九项抑郁量表，给予初级保健机构中的患者以筛查抑郁症的存在和严重程度。每个问题的项目得分范围从0到3，PHQ-9的总得分范围从0到27。PHQ-2仅包括PHQ-9的前两项，因此具有总得分范围为0到6。尽管PHQ-9和PHQ-2总分可以被认为是连续性的，但通常使用10和3两个截点来分别对PHQ-9和PHQ-2诊断抑郁症。对于PHQ-9，分数低于10的受试者将被诊断为抑郁症阴性，其他被诊断为阳性。同样，对于PHQ-2，只有分数低于3的人才会被视为非抑郁症。我们将通过将它们分别视为二分类和连续性检验来评估PHQ-9/PHQ-2在判断SCID抑郁和非抑郁方面的准确程度。

3.3 二分类检验的灵敏度和特异度计算：

我们首先分析二分类PHQ-9的准确性，其截点为总分10分。在这种情况下，PHQ-9 < 10的受试者具有阴性检验结果，而PHQ-9 ≥ 10的受试者具有阳性检验结果。因此，PHQ-9阳性/阴性和SCID抑郁/非抑郁可以使用下面的R代码的2 x 2表进行汇总。

temp <- roc

temp$PHQ_9_SCORE <- ifelse(temp$PHQ_9_SCORE> 9,1,0)

crosstab<-table(temp$PHQ_9_SCORE, temp$SCID)

数据总结在下表3中：

表3．金标准

灵敏度和特异度计算如下

灵敏度=阳性检验结果数量/患病受试者数量

= 82/100

= 0.82

特异度=阴性检验结果数量/非患病受试者数量

= 242/277

= 0.87

当使用10为截点时，该检验对于PHQ-9> = 10受试者定义为阳性，对于PHQ-9 <10的受试者定义为阴性，并且灵敏度估计为82%，即82%真正患有抑郁症的受试者可以成功归类为抑郁症，特异度估计为87%，即87%的非抑郁症患者被正确归类为非抑郁。

当PHQ-2使用3为截点时，即PHQ-2 < 3定义为阴性，PHQ-2 ≥ 3定义为阳性，结果总结在表4中：

表4．金标准

灵敏度和特异度估计为

灵敏度=阳性检验结果数量/患病受试者数量

= 82/100

= 0.82

特异度=阴性检验结果数量/非患病受试者数量

= 216/277

= 0.78

当检验阳性/阴性的截点定义为3时，80%的抑郁受试者可被正确分类为抑郁症，78%的非抑郁症受试者被正确分类为非抑郁症。

不同的截点，其灵敏度和特异度将不同。例如，如果使用4为截点，PHQ-2的灵敏度和特异度分别为57%和90%。对于PHQ-9，截点为11时的灵敏度和特异度为0.74和0.91。表1列出了PHQ-9和PHQ-2的一系列截点下的灵敏度和特异度。

从表1中可以明显看出，灵敏度和特异度之间存在权衡。较低的截点可以得到较高的灵敏度和较低的特异度，这意味着更多抑郁症的受试者可被正确分类为抑郁，但也有更多非抑郁的受试者被错误分类为抑郁症。由于灵敏度和特异度之间的权衡，通常在临床实践中使用最佳截点。通常灵敏度和特异度的总和最大化的截点被确定为最佳截点。对于PHQ-2，最佳截点为3.0，因为相应的灵敏度（80%）和特异度（78%）达到最大值。PHQ-9的最佳截点为10，因为灵敏度为82%，特异度为87%，其总和达到最大值。

表1．不同截点下的灵敏度和特异度

3.4 受试者工作特征曲线(ROC)的构建

在连续性诊断性试验的每个截点，灵敏度和特异度显示患病受试者和非患病受试者分类的准确程度。由于不同的截点产生不同的灵敏度和特异度，因此使用ROC曲线描述该检验区分患病和非患病的能力。而ROC曲线是连续性检验的每个可能的截点的灵敏度与（1-特异度）的关系图。对于每个截点，可以根据检验分数是大于还是小于阈值来定义阳性和阴性检验结果，然后可以基于二分类阳性/阴性检验结果和真实疾病状态的2X2表来估计特异度和灵敏度。通过连接所有截点处灵敏度（y轴）与（1-特异度）（x轴）来构建ROC曲线。PHQ_9和PHQ_2的ROC曲线如图1所示，下面分别提供了构建PHQ_2和PHQ_9的ROC曲线的R代码：

图1．PHQ-2和PHQ-9的ROC曲线

3.5 ROC曲线下的面积（AUC）的测量及其解释

尽管ROC曲线可以描述检验在每个截点区分患病与非患病的能力，但它无法提供一个总体指标来总结该检验的整体性能。ROC曲线下面积（AUC）是连续性检验诊断辨别能力的总体指标，它能衡量受试者被正确分类为患病和非患病的能力。AUC范围为0.5到1。AUC值为0.5对应于ROC曲线的对角线，表示不提供用于分类的信息，而值为1表示该检验可以正确地将所有患病的受试者分类为患者，并且所有未患病的受试者分类为未患病，这是一个完美检验。表2总结了诊断性试验准确性分类的粗略指南。AUC在0.90和1.00之间的检验具有极好的辨别能力，AUC从0.80到0.90，0.70到0.80，0.60到0.70和0.50到0.60分别表示区分能力良好、一般、较差和极差。下面提供了用于获得PHQ-2和PHQ-9的AUC的R代码。我们还可以通过检验两个试验之间的AUC是否存在显著性差异来检验两个诊断性试验是否具有相同的辨别能力。

roc.test(roc1,roc2,paired=TRUE)

DeLong’s test for two correlated ROC curves

data: roc1 and roc2

Z = 2.6064, p-value = 0.00915

alternative hypothesis: true difference in AUC is not equal to 0

sample estimates:

AUC of roc1 AUC of roc2

0.9062635 0.8690794

在这种情况下，PHQ-9的AUC为0.9063，PHQ-2的AUC为0.8691。PHQ-9在将受试者分类为抑郁和非抑郁时达到了极好的准确度，而PHQ-2的准确度相对较低，但仍然相当不错。检验PHQ-9和PHQ-2之间AUC差异的p值为0.00915，这表明PHQ-9和PHQ-2区分抑郁症与非抑郁症受试者的能力不同，并且PHQ-9诊断抑郁和非抑郁的受试者更准确。

表2．根据AUC对诊断性检验准确性分类指南

4．讨论

DSM-IV（SCID）的结构化临床访谈一直被认为是临床上诊断抑郁症的金标准。然而，由于许多原因，SCID的实施不适用，需要替代性的诊断性试验/筛选工具。在将诊断性试验/筛查工具应用于目标人群之前，评估诊断性试验/筛查工具的准确性至关重要。

在实践中，除灵敏度和特异度外，还广泛使用阳性预测值（PPV）和阴性预测值（NPV）。PPV是检验结果阳性的受试者也患病的可能性，NPV是检验结果为阴性的受试者也是非患者的概率。给定该疾病的患病率，PPV和NPV可以通过灵敏度和特异度来确定，反之亦然。

在临床实践中，金标准检验可能是侵入性的、价格昂贵并且风险较高（例如血管造影、活体组织检查和手术），患者和医生可能不愿意接受这样的金标准检验。如果不对每个人进行金标准检验，则灵敏度和特异度的估计可能会有偏差，因为仅使用有金标准检验的受试者来估计灵敏度和特异度。这种偏倚称为证实偏倚。目前已设计出一些方法来校正这种证实偏倚[19,20]。

资金来源

本研究没有获得任何外部资助。

利益冲突

作者报告没有与本文相关的利益冲突。