刘雪晴 周晓华,2,3△
【提 要】 目的 本文旨在探讨自由响应ROC(free-response ROC,FROC)方法和变异FROC(alternative FROC,AFROC)方法相对传统ROC方法的优势与局限性,并提出生成平均AFROC曲线的非参数方法。方法 通过FROC曲线和AFROC曲线的定义,从理论角度阐述两种方法的联系与优缺点。阐述在MRMC研究中生成平均AFROC曲线的方法,并证明平均AFROC曲线下的面积与平均AFROC-AUC相等。在实际数据中应用以上方法并对结果进行比较。结果 与FROC曲线不同,不同的诊断试验产生的AFROC曲线具有相同的长度,因此能够进行多个曲线间的比较。平均AFROC曲线能够反映不同诊断试验的准确度大小,且与回归模型得到的结果一致。结论 FROC研究更适合涉及多病变检测和定位任务的诊断试验。改进后的AFROC曲线能解决原始FROC曲线不利于比较的问题。基于非参数方法得到的平均AFROC曲线能直观地反映出诊断准确度,可在进行诊断试验评价时辅助其他结果共同报告。
在传统的受试者操作特征(receiver operating characteristic,ROC)方法中,阅片者为每个病例赋分,并判断其是否患病,而无需定位病变的位置[1]。对于涉及多病变的检测和定位的影像诊断试验的临床评价,使用ROC方法可能产生位置偏差,即患者被诊断为有病,但是病变的定位错误,导致灵敏度被高估[2]。已有研究提出了ROC的扩展方法,称为定位ROC(location-specific ROC)方法,包括LROC(localization ROC)法[3]、ROI(region-of-interest)法[4]和自由响应ROC(free-response ROC,FROC)法[5-6]。其中FROC研究更具灵活性,它把病变作为基本的诊断单位,并允许阅片者自由标记出所有的可疑区域。AFROC方法是对FROC分析的改进,它通过对正常病例中的所有假阳性标记得分取最大值,使得生成的曲线控制在单位区域中,有利于多个诊断试验的比较。
本文将具体介绍FROC方法和AFROC方法,并在真实多读者多病例(multi-reader multi case,MRMC)FROC实例研究中说明和比较两种方法。在进行诊断准确度研究时,研究者往往会在报告平均AFROC-AUC时,同时展示AFROC曲线。相比多个单独的AFROC曲线,平均AFROC曲线显然更加直观,且能够综合多个阅片者的信息。因此,本文提出生成平均AFROC曲线的非参数方法,在实际数据中应用并与回归模型的结果进行比较。
1.FROC方法
在FROC研究中,阅片者自由标记出所有可疑的区域并赋分。研究者根据“金标准”提供的信息将标记分类为真阳性(TP)或假阳性(FP)。假阳性标记可能同时出现在患病或正常病例中,而真阳性标记仅存在于患病病例中。
FROC数据是以病变(或假阳性标记)为单位收集的。假设研究包括K个病例,其中患病病例为k1个,正常病例为k0个。FROC数据的格式[7]可以记为
(1)
FROC分析方法存在两个主要问题。第一,从横坐标的定义不难看出,其长度可能趋于无穷,使得FROC曲线下面积难以定义[8]。第二,由于不同诊断试验的FROC曲线长度不同,诊断试验间难以进行直观的比较。目前已经有多种改进方法用于解决这些问题,其中最常用的就是AFROC方法。
2.AFROC方法
变异FROC(alternative FROC,AFROC)分析对原始FROC方法做出改进[6],通过在正常病例中对所有假阳性标记的得分取最大值,得到以病例为分析单位的假阳性率,进而将AFROC曲线限制在单位区域内,使得多个诊断试验之间的比较具有可行性。
首先我们将FROC数据转换为在AFROC分析中所应用的数据格式。我们定义
AFROC曲线中纵坐标的定义仍与FROC曲线中相同,即以病变为分析单位的TPR,它的非参数估计可以表示为
(2)
其中ξ为该研究所选定的阈值。经过取最大值的变换后,AFROC曲线的横坐标与传统的ROC曲线相似,它的非参数估计可以表示为
(3)
(4)
AFROC分析很好地解决了FROC曲线长度不一甚至可能趋于无穷的问题。但目前对于AFROC曲线的研究仍然十分有限,比如目前仍没有较好地能够生成AFROC曲线的参数模型,已有的模型面临着参数可识别性的问题或是存在较强的独立性假设。尽管非参数估计会系统性地低估AFROC-AUC,但由于不需要过多的假设而在研究中被普遍使用,其方差的估计往往需要借助重抽样的方法[9]。
3.多读者多病例FROC研究
在完全交叉的多读者多病例(multi-reader multi-case,MRMC)研究中,全部病例接受所有诊断试验的检测,然后每个阅片者对所有的病例影像进行解释和赋分。这种设计的好处在于可以有效地增加统计效能,减少研究所需的样本量[1]。然而,完全交叉的MRMC设计产生了互相关的数据结构:同一阅片者、同一病例或同一诊断试验产生的检测结果分别是相关的。当数据是以病变为单位收集的(FROC数据),则产生的数据结构更加复杂,因为同一病例/影像上不同可疑区域的得分也存在一定的相关性。目前存在多种统计方法用于MRMC研究分析[10-11],然而这些方法都是基于MRMC ROC研究提出和发展的。本文首先介绍了一种使用回归模型分析MRMC FROC数据的方法[12],该方法不仅能够在估计参数时考虑数据间复杂的相关性,还能调整影响准确度的其他协变量。此外,本文提出了一种生成平均AFROC曲线的非参数方法,用于提供多个诊断试验间的直观比较。
(1)统计方法
我们提出了一种利用边际回归模型分析MRMC FROC数据的方法[12],该方法对相关性结构进行了全面分析,并借用了用于“稀疏相关”的估计方法,得到了回归参数的相合性和渐近正态估计。这种基于回归模型的方法是对AFROC-AUC建立回归模型。当诊断试验结果为连续变量时,模型可以表示为
(5)
(2)平均AFROC曲线
现有的对于MRMC FROC研究的讨论往往是关于如何得到平均诊断准确度指标的估计和如何进行假设检验以判断诊断试验的优劣。然而,AFROC曲线本身也能提供直观的准确度信息并进行多个诊断试验间的比较。本文提出利用一种非参数的方法得到平均AFROC曲线,而且该曲线下面积恰好等于平均AFROC-AUC。该方法是对平均ROC曲线的一个扩展[13]。
曲线下面积与平均AFROC-AUC相等的平均AFROC曲线并不是唯一的。例如,可以在不同的FPR取值下对TPR取平均,也可以在不同的TPR下对FPR取平均。更一般地,我们可以按照如下方式得到平均AFROC曲线。
首先,我们将坐标系中的(FPR(ξ),TPR(ξ),逆时针旋转θ度,从而得到
我们进一步通过实例研究阐释和讨论上述方法。本文所用数据来自乳腺断层摄影(breast tomosynthesis,BT)和数字乳腺X线摄影(digital mammography,DM)两个设备的准确度比较研究。该研究包括5名阅片者,185名病例(其中包括89名患病病例)。在研究中,每个阅片者独立地使用BT和DM两个设备下分别对CT影像进行标记和赋分。研究的金标准由专家小组确定。根据是否接近金标准提供的病变位置,专家后期将标记分为真阳性和假阳性。实例研究的数据结构如公式(1)所示。
本文的分析全部使用R软件。我们首先绘制了5个阅片者单独的FROC曲线和AFROC曲线,如图1和图2所示。可以看出,5个阅片者的FROC曲线长度不同,特别是有使用BT和使用DM时的FROC曲线长度不一致,从而难以进行两个诊断试验之间的直观比较。AFROC曲线的横轴在(0,1)范围内,对于同一阅片者,在横坐标相同时,BT比DM的AFROC曲线高。
图1 经验FROC曲线
图2 经验AFROC曲线
应用回归模型的方法对MRMC数据进行分析,所得结果如表1所示。BT与DM的AFROC-AUC的差异为0.144(95%置信区间:[0.074,0.215]),从而可以得出BT比DM的准确度高。
表1 BT与DM准确度比较研究的结果
图3 平均AFROC曲线
本文探讨了FROC方法和AFROC方法。相比传统的ROC方法,这两种方法将病变的位置信息纳入分析,更适合涉及多病变检测和定位的影像诊断试验的准确度研究。此外,我们简单介绍了一种新的回归模型方法,并着重介绍了如何生成平均AFROC曲线。目前关于平均AFROC曲线的讨论较少,我们的研究弥补了这一空白。实例分析很好地说明了平均AFROC曲线能够提供较多的信息和直观的比较,能够辅助以AFROC-AUC为准确度指标得到的结论。
FROC方法和AFROC方法仍然处在发展阶段,与ROC方法相比,仍有很多不完善的地方。第一,目前对于曲线下面积的计算主要基于非参数方法,而参数模型的研究相对较少。第二,同一病例中多个标记诊断结果存在着相关性,如何在FROC分析中很好地处理相关性问题也值得进一步研究。
总之,FROC研究收集的数据包含更多的信息,通常认为在分析中考虑这些信息能够提高统计效能。在影像诊断试验的准确度研究中,应当更多地使用考虑病变位置的方法。