无金标准诊断情况下评价诊断试验准确性的统计学方法

2021-05-11 01:45:36冯丽芬

现代医院 2021年4期

冯丽芬

在传统的诊断试验研究中，诊断试验准确性评价指标（如灵敏度、特异度等）的计算需要建立在与金标准诊断结果（gold standard，能够真实反映受试者疾病状态的诊断方法）比较的基础上（如图1）。但是，在医学研究中经常存在无金标准（例如精神心理相关疾病诊断评价）、金标准不完善或部分受试者金标准结果难以获得（例如肿瘤穿刺活检）等情况［1］，给诊断试验准确性评价指标的计算带来一定挑战。在这种情况下，研究者有时会采用参考标准（reference standard）作为对照进行诊断试验准确性评价，如果参考标准不能准确反映受试者的真实疾病状态，就会造成诊断试验评价指标的有偏估计［2］。近年来，方法学研究者构建了多种无金标准或金标准诊断不完善情况下评价诊断试验准确性的统计学方法。本文详细阐述了无金标准情况下评价诊断试验准确性的方法，供临床研究者设计/开展诊断试验时参考。

1 缺失数据填补或偏倚校正

传统的诊断试验研究需要对所有受试者采用金标准/参考标准确定其真实疾病状态。临床实践中，由于受试者依从性、伦理考虑、金标准不易获得等原因，会出现部分受试者未有金标准/参考标准的诊断结果，真实疾病状态不清楚。如果直接从样本中剔除这部分受试者，势必造成诊断试验准确性评价指标的有偏估计，即证实偏倚（verification bias）［3］。针对此种情况，研究者可考虑采用缺失数据填补方法或偏倚校正方法。缺失数据填补需要明确数据缺失机制，例如完全随机缺失、随机缺失、非随机缺失等。常用的填补方法有单值填补、多重填补方法［4］。缺失数据填补方法的选择依赖于数据缺失机制。偏倚校正的方法比较多，例如logistics回归、倾向性评分校正、期望最大化回归校正等。

此外，在无金标准情况下采用参考标准评价诊断试验准确性，如果已知参考标准的灵敏度（Senr）和特异度（Sper），在诊断试验与参考标准条件独立的假设下，可以通过下式校正诊断试验的灵敏度（Sent）和特异度（Spet）［5，6］：

其中，N为样本量，a、b、c、d对应图1中四格表的四个格子。

2 差异化验证及分析

差异化验证（Differential verification）是指对部分无金标准诊断结果的受试者采用其他可用的参考标准对受试者的疾病状态进行确证［7］。差异化分析（Discrepant analysis）是指对诊断试验与参考标准结果不一致的部分或全部受试者，采用另一种诊断方法来确证受试者的疾病状态，并更新诊断试验的四格表［5］。目前，多数学者认为差异化分析方法会导致评价指标的有偏估计，不推荐使用。此外，有学者提出改进的差异化验证策略，分别从诊断试验和参考标准结果一致和不一致的受试者中各抽取一部分受试者，采用另一种诊断方法进行验证。当然，还需要更多的研究来探讨这些改进的方法可否降低或消除潜在的估计偏倚。

图1 传统的诊断试验研究设计及准确性评价指标计算

3 潜在类别/剖面分析

图2 潜在类别分析示意图（u1，u2，…，ur为外显变量；C为潜在类别变量）

潜在类别/剖面分析（Latent class/profile analysis）在社会学、心理学、预防医学等领域广泛使用。潜在类别分析的基本假设是［8］：外显变量（即可直接观测变量）各种反应的概率分布可以由少数互斥的潜在类别来解释，每种潜在类别对各外显变量的反应选择都有特定的倾向性（如图2）。与潜在类别分析非常相似的是潜在剖面分析，区别在于潜在类别分析处理分类观测变量，潜在剖面分析处理连续观测变量。潜在类别分析的数学模型［9］：在n例受试者中测量了M个指标变量（u1、u2、…、uM，即外显变量），若存在一个 K分类（k=1、2、…、r）的潜在类别变量C，不仅可以解释M个指标变量的关系，而且在潜在类别变量C的每个类别中能够维持M个指标变量的局部独立性，即可进行潜在类别分析。其中，umi表示第i个受试者在第m个指标变量上的取值，πk表示当测量指标局部独立时，潜在类别变量C在第k个类别的概率，即从样本中随机选取的观察对象属于潜在类别k的概率。由于潜在类别变量的K个类别是相互独立的，所以潜在变量各类别的概率总和为1，即∑πk=1。基于条件独立模型，M个指标变量与潜在类别变量的联合分布可表示为：

对于二分类指标变量，指标变量与潜在类别变量可通过logit连接，则指标变量在第k个类别上的条件概率（conditional item probability）可表示为：

其中，类别概率πk可表示为：

潜在类别分析中的另一个关键参数是指标变量的条件概率参数τmk，描述了指标变量与潜在类别变量之间的关系，类似因子分析中的因子负荷。在进行潜在类别分析时，一般先从单类别开始，逐渐增加类别数，并通过赤池信息量准则（Akaike information criterion，AIC）、贝叶斯信息准则（Bayesian information criterion，BIC）、样本量校正的BIC（Sample-size adjusted BIC）、重抽样似然比检验（Bootstrapped likelihood ratio test，BRLT）、类别概率等指标确定最优类别数。如果样本量较大，还可以考虑将总样本随机分为两个子样本进行交叉验证。

潜在类别/剖面分析在无金标准诊断试验中广泛应用［1］。在无金标准诊断试验中，假定受试者的疾病状态是无法直接观测的潜在变量，通过联合同一受试者的多个可直接观测指标构建潜在分类模型，可以利用构建的潜在类别变量作为参考标准，计算诊断试验的准确性评价指标，如灵敏度、特异度等。例如，在采用量表诊断网络成瘾［10］、心理相关疾病［11-12］时，由于无金标准参照，常无法确定量表的最佳诊断界值。在这种情况下，研究者可将量表条目作为外显变量，构建潜在类别模型，然后以得分最高的潜类别作为病例，其余类别作为对照，形成参考标准，进而通过ROC曲线确定量表的最佳诊断界值，并计算灵敏度和特异度等评价指标。在临床上，外显变量的内容可以拓展到其他类型的诊断指标。例如，在衣原体感染的诊断中，利用免疫分析、细胞培养和PCR的结果，通过潜在类别/剖面分析，建立参考标准，进而评价诊断试验的准确性。此外，也可让n位医生对同一个受试者进行诊断，各位医生的诊断结果形成n个外显变量Yn，通过潜在类别分析综合多位医生的诊断结果，形成参考标准。随着潜在类别模型中诊断指标的不断扩展，这种基于潜在类别模型参数的研究思路在诊断试验准确性评价方面有很大的应用前景。

目前，已有多种统计软件包可以拟合潜在类别/剖面模型，其中比较常用的软件包有 Mplus［8］、Latent Gold［13］、R软件中的 MplusAutomation［14］与 poLCA［15］、Stata软件中的 GLLAMM［16］以及 SAS软件中的 PROC LCA［17］。

4 Bayesian评价方法

Bayesian评价方法的原理是：利用目标诊断人群中的患病率及参考标准的灵敏度和特异度的先验信息，通过似然函数对参数的先验分布进行调整，对需要评估的诊断试验的灵敏度和特异度进行估计［18］。

例如，采用两种方法进行检测，其中一种方法为某种疾病的非金标准传统检测方法，即参考标准T1；另一种为待评估的诊断试验方法T2。T1和T2同时对N名受试者进行诊断检测，表1和表2呈现了诊断试验与参考标准的数据形式。假设两种诊断方法在真实疾病状态为患病或未患病时，检测结果相关系数为r1和r2，当r1=r2=0时，称为条件独立模型，否则称为条件相关模型。通过构造似然函数［19］：

上述模型中Sen2、Spe2表示待评价诊断试验的灵敏度和特异度，为无先验信息的待估计参数；π为所研究疾病在人群中的患病率；Sen1、Spe1为参考标准的灵敏度与特异度；π、Sen1、Spe1可根据文献报道或经验给出其估计值。然后将上述先验信息转化为Beta分布形式的先验分布，最后将各参数的先验分布与上述似然函数结合，通过Gibbs抽样迭代算法获得Sen2、Spe2后验分布和相应的参数估计。上述计算过程，研究者可通过Win-Bugs软件完成。

表1 诊断试验与参考标准对照的四个表

表2 诊断试验与参考标准对照的数据结构及符号表示

5 无金标准情况下诊断试验准确性评价方法流程图

我们在 Umemneku Chikere CM等［20］和 Reitsma BJ等［21］研究者的基础上，更新绘制了如图3所示流程图，描述了无金标准的不同情况下评价诊断试验准确性的方法。

图3 无金标准情况下评价诊断试验准确性评价方法流程图

诊断试验是临床研究中的重要内容。在无金标准或金标准诊断不完善的情况下，本文介绍的统计学方法各有其适用的场景，由于受试者的真实疾病状态未知，研究者需要谨慎选择统计方法，有效降低诊断试验准确性评价指标的估计偏倚。在实际应用中，研究者可考虑同时采用多种方法估计诊断试验的灵敏度和特异度等指标，通过敏感性分析，提高诊断试验评价的精度和可靠性。另外，在研究设计阶段需要考虑诊断试验的样本量，避免样本量过小，检验功效不足。此外，研究者在设计诊断试验及报告研究结果时，可以参考诊断试验结果报告准则 START（the Standard for Reporting Diagnostic Accuracy statement）［22］，START准则从题目、摘要、背景、方法、结果、讨论及其他信息等共30条全面说明了报告诊断试验结果的标准。