孙果梅
上海市医疗器械化妆品审评核查中心,上海市,200020
临床评价资料是体外诊断试剂注册申报资料的重要部分,是判断产品是否满足使用要求、确定适用范围的重要依据。体外诊断试剂的临床评价主要有以下几种途径:一是列入免于进行临床试验的体外诊断试剂目录的产品,可通过与境内已上市同类产品进行比较研究试验证明等效性,或通过与参考方法进行比较研究试验考察符合性/一致性[1];二是开展临床试验考察产品的临床性能是否满足使用要求或预期用途,确认产品的风险/受益比是否可接受,并确定产品的适用人群及适应症[2-3]。通过以上途径获得的临床数据,经过适当的统计学处理才能获得支持临床评价结论的证据。参考《免于进行临床试验的体外诊断试剂临床评价资料基本要求(试行)》中“数据收集和处理”和《体外诊断试剂临床试验指导原则(征求意见稿)》中“临床试验的统计学分析”部分的内容,对体外诊断试剂定性产品、半定量产品和定量产品的临床评价中常用统计学方法进行概述。
(1)定性产品的临床评价检测结果通常以2×2表格的形式呈现,并计算灵敏度(阳性符合率)、特异度(阴性符合率)、准确度(总符合率)、约登指数、似然比、预测值等指标及其95%可信区间。
灵敏度和特异度是反映检测试剂诊断准确性的两个最基本的统计指标,同时提高检测试剂两个指标值较为困难,在实际应用中,当漏诊(假阴性)带来的危害性高时,要求检测试剂有较高的灵敏度;当误诊(假阳性)带来的危害性高时,要求检测试剂有较高的特异度。约登指数=(灵敏度+特异度)-1,适用于检测结果假阳性和假阴性具有同等意义危害性的情况。
似然比包括阳性似然比和阴性似然比,阳性似然比=灵敏度/(1-特异度),其值越大诊断价值越高;阴性似然比=(1-灵敏度)/特异度,其值越小诊断价值越高。似然比综合了灵敏度和特异度的信息,并且可用于结果为有序资料和定量资料的检测试剂临床评价,提供更多的诊断信息。预测值包括阳性预测值和阴性预测值,阳性预测值是指考核试剂结果为阳性者之中对比试剂结果阳性的概率,阴性预测值是指考核试剂结果为阴性者之中对比试剂结果阴性的概率[4]。
(2)半定量产品的临床评价检测结果通常以R×C表格的形式呈现,数据类型多为单项有序资料(等级资料),可计算各等级的符合率、似然比、预测值等指标,也可计算Kendall秩相关系数或使用ROC曲线下面积分析方法。
(3)通过假设检验对两种检测系统开展一致性评价,可采用Kappa一致性检验。Kappa一致性检验的原理是评估两个检测系统结果一致性是否由于偶然因素导致,即观察一致率与机遇一致率是否有显著性差异。Kappa一致性检验的结果表现为Kappa统计量,反映了两个检测系统结果一致性的高低程度。Kappa>0.75表明一致性程度好;Kappa<0.4表明一致性程度较差[5]。Kappa检验分为简单Kappa检验和加权Kappa检验,前者适用于定性产品的临床评价,后者适用于半定量产品的临床评价。加权Kappa检验可分为线性加权法和平方加权法。线性加权法每两个等级之间的差异相等,权重是等级距离的倍数;平方加权法的权重是线性加权法权重的平方,放大了等级距离大的判定不一致程度。加权方法的选择应考虑研究设计和不同等级之间差异的具体意义。
(4)定性产品临床评价的实例:以大便隐血检测试剂盒(胶体金法)为例,应用考核试剂和对比试剂分别检测120例临床样本,结果分析如表1所示。
表1 大便隐血检测结果Tab.1 Test results of fecal occult blood (FOB)
根据表1 数据,可计算:灵敏度=43/(43+7)×100%=8 6.0 0%;特异度=6 5/(5+65)×100%=92.86%;准确度=(43+65)/(43+5+7+65)×100%=90.00%;Kappa一致性检验结果:Kappa值=0.793,P<0.001,考核试剂与对比试剂检测结果一致性程度好。
主要评价指标一般涉及相关系数、回归方程、ROC曲线下面积等。主要分析步骤包括:
以考核试剂测定值作Y轴、对应的对比试剂测定值作X轴绘制散点图,目测线性趋势、测定值覆盖线性范围的情况以及离群值情况等。
根据美国临床和实验室标准协会(NCCLS)文件EP9-A2《用患者标本进行方法比对及偏倚评估;批准指南-第二版》中离群值的判定方法,计算两种方法测定结果的绝对差值(|Yi-Xi|)及其平均值,以及相对差值(|Yi-Xi|/Xi)及其平均值,并计算检测限及相对检测限。绝对差值大于检测限,且相对差值大于相对检测限的样本,则判断为离群值。如果出现一个以上的离群值,但并未超出医学上有临床意义的界限,可保留离群值开展分析;如果离群值的个数不超过2.5%,可删除离群值后进行分析;若超出2.5%,则应开展原因分析,必要时增加样本量以满足试验要求。
相关分析:评价两种检测系统结果的相关程度。常用的有Pearson相关系数和Spearman秩相关系数,前者要求两种检测系统结果应为正态分布,后者对数据分布无要求。相关系数r越接近1,说明两种检测系统结果相关性越强。相关分析也用来判断样本取值是否有足够的分布范围,根据EP9-A2文件,如果r≥0.975(或r2≥0.95),可认为样本取值范围合适。
Bland-Altman法:计算一致性限度,应在临床认可的界值之内。通常选用差值法,两种检测系统的差值d服从正态分布,95%一致性限度为d±1.96Sd,以两种检测系统结果均值为横轴,差值为纵轴绘制Bland-Altman差异分析图观察d值是否落在一致性限度范围内。该方法清晰直观且需结合临床意义进行综合判定,优势明显;但对数据分布和测量误差有一定要求,两种检测系统结果差值应为正态分布、方差齐同、平均趋势在测量范围内保持不变[4]。
回归分析:应根据数据分布特点等因素选择使用的回归方法,如Deming回归、Passing-Bablok回归和最小二乘(LS)回归估计等。最小二乘回归估计和Deming回归对数据的分布、等方差性等有较为严格的要求,最小二乘回归要求自变量X为固定变量,因变量Y为随机变量,回归仅考虑Y的残差最小;Deming回归要求自变量X和因变量Y均为随机变量,回归须同时考虑X的残差最小和Y的残差最小,更适用于体外诊断试剂两检测系统的一致性评价[6]。Passing-Bablok回归对数据分布和测量误差无特殊要求,计算方法是针对散点图中的任意两点计算斜率,取所有斜率的中位数作为回归方程的斜率[7]。研究表明当分析不确定性随测量浓度的增加而增加时,Passing-Bablok回归的结果比Deming回归更准确[8]。为评估考核试剂和对比试剂的等效性,回归分析的截距应接近0,斜率应接近1,两种检测系统结果一致性较好。
ROC分析:受试者工作特征曲线(ROC)是以假阳性率(1-特异度)为横轴、以真阳性率(灵敏度)为纵轴、依照连续变化的诊断阈值绘制的曲线,ROC曲线下面积(AUC)反映考核检测试剂的诊断价值,或同时比较两种试剂的诊断价值。ROC曲线一般位于机会对角线的上方,AUC的取值范围为0.5~1。根据AUC的取值可大致将考核试剂的诊断价值分为较低(0.5<A≤0.7)、中等(0.7<A≤0.8)、较高(0.8<A≤0.9)和很高(A>0.9)[4],但仍应进一步以推荐的阳性判断值进行灵敏度、特异度等指标(及其95%可信区间)的评价。比较两种试剂的诊断价值不能仅考虑AUC的大小,特别是在两条ROC曲线出现相交的情况时,应充分考虑适用人群的特征、检测结果(特别是假阳性和假阴性)的临床意义等。
医学决定水平处预期偏倚的95%置信区间与允许误差的限值相比较,以判定两检测系统是否等效,考核试剂的预期偏倚是否可接受。每个实验室应建立自己的限值标准,限值的选择一般为较公认的允许误差要求,如CLIA’88中指标要求的1/2、临床检验中心室间质量评价标准的1/2等,或参考相关文献和专家共识的标准。根据EP9-A2文件,允许误差落在置信区间内,说明预期偏倚小于允许误差,两个系统得出的结果相当,偏倚可以被接受;允许误差小于预期偏倚95%置信区间的下限,说明有>97.5%的概率预期偏倚大于允许误差,两个系统得出的结果不相当,偏倚不能被接受;允许误差大于置信区间的上限,说明有>97.5%的概率预期偏倚小于允许误差,两个系统得出的结果相当,偏倚可以被接受。
以降钙素原检测试剂盒(化学发光法)为例,应用考核试剂和对比试剂分别检测120例临床样本,结果分析如下。
散点图与离群值分析:图1为降钙素原检测结果散点图,目测结果呈线性分布,分布范围覆盖了考核试剂的线性范围,取值包括正常值和异常值。离群值分析中,绝对差值大于检测限的样本为13例,相对差值大于相对检测限的样本为2例,无样本的绝对差值和相对差值均超限,因此本研究无离群值。
图1 降钙素原检测结果散点图Fig.1 Scatter plot of procalcitonin test results
主要评价指标分析:相关系数r=0.993>0.975,P<0.001,95%置信区间为(0.990,0.995),考核试剂和对比试剂的检测结果相关度高,可认为样本取值范围合适。回归分析选择Deming回归,结果如图2所示。回归方程为y=0.006+1.012x,斜率的95%置信区间为(0.962,1.061),截距的95%置信区间为(-0.223,0.234),考核试剂和对比试剂的检测结果一致性较好。Bland-Altman一致性分析结果,如图3所示。考核试剂和对比试剂的检测结果一致性较好,但有10%(12/120)的点落在95%一致性界限之外,需做进一步分析。
图2 降钙素原检测结果回归分析图Fig.2 Regression analysis chart of procalcitonin test results
图3 Bland-Altman一致性分析结果Fig.3 Bland-Altman consistency analysis results
医学决定水平预期偏倚:降钙素原的医学决定水平Xc为0.5 ng/mL,2019年临床检验中心室间质量评价标准的可接受范围为靶值±30%,因此允许误差设定为靶值的15%,医学决定水平处的允许误差为0.075 ng/mL。考核试剂在医学决定水平附近共95例样本,预期偏倚估计值为0.041,95%置信区间为(-0.006,0.088),允许误差落在置信区间内,偏倚可以被接受。
体外诊断试剂的临床评价资料是考察产品临床性能、评估产品预期用途的重要依据。在严格设计研究方案、完整收集临床数据的前提下,选择适当的临床评价指标和统计方法开展数据分析才能获得支持临床评价结论的证据。对体外诊断试剂定性产品、半定量产品和定量产品的临床评价中常用统计学方法进行概述,相关统计方法在体外诊断试剂产品的分析性能评估、阳性判断值或参考区间确定时也有应用。主要介绍了常用统计方法的使用条件、临床意义、基本原理和评价标准等,供体外诊断试剂审评人员在审核注册申报资料时参考。