诊断试验设计要点和规范

2024-10-10 00:00:00丁聿宁王瑞平
上海医药 2024年15期

摘 要 疾病诊断是临床治疗和干预的基础和前提,因此诊断试验是临床研究的一个重要内容。正确了解诊断试验的设计要点、评价原则和注意事项不仅可以加强对诊断试验内涵的认识,同时也可以避免将其错误应用。此外,应用临床流行病学方法对诊断试验进行评价研究,有助于正确认识诊断试验的价值,科学解读诊断试验的结果,从而提高临床医师的诊断水平。本文从诊断试验的概念入手,讲解诊断试验的设计要点和规范,评价的基本原则,真实性、可靠性和临床应用价值的评价指标,提高诊断试验效果的方法等内容,以期为研究者们应用诊断试验提供参考。

关键词 诊断试验 金标准 真实性 可靠性 联合试验

中图分类号:R-331 文献标志码:C 文章编号:1006-1533(2024)15-0023-05

引用本文 丁聿宁, 王瑞平. 诊断试验设计要点和规范[J]. 上海医药, 2024, 45(15): 23-27; 86.

基金项目:上海市卫生健康委员会卫生行业临床研究专项(202240371);上海申康医院发展中心第二轮促进市级医院临床技能与临床创新三年行动计划——研究型医师创新转化能力培训项目(SHDC2022CRS053);上海市皮肤病医院引进人才科研基金项目(2021KYQD01);上海人才发展基金资助项目(2021SHRCFZ01);上海申康医院发展中心促进市级医院临床技能与临床创新三年行动计划(2023—2025年)CRU协同数据质量提升项目(SHDC2024CRX032);上海市皮肤病医院IIT基金项目(LCIIT-2023-14)

Diagnostic test design elements and specifications

DING Yuning, WANG Ruiping

(Clinical Research & Innovation Center, Shanghai Skin Disease Hospital, Shanghai 200443, China)

ABSTRACT Disease diagnosis is the basis and premise of clinical treatment and intervention, so diagnostic tests are an important part of clinical research. Correct understanding of the design points, evaluation principles and precautions of diagnostic tests can not only strengthen the knowledge of the connotation of diagnostic tests, but also avoid their wrong application. In addition, the application of clinical epidemiological methods to evaluate diagnostic tests helps to correctly recognize the value of diagnostic tests, scientifically interpret the results of diagnostic tests, and thus improve the diagnostic level of clinicians. This article starts with the concept of diagnostic tests, explains the design points and specifications of diagnostic tests, the basic principles of evaluation, the evaluation indexes of authenticity, reliability and clinical application value, and the methods to improve the effect of diagnostic tests, so as to provide reference for researchers to apply their diagnostic tests.

KEY WORDS diagnostic test; gold standard; authenticity; reliability; joint testing

诊断试验(diagnostic test, DT)是临床研究的一个重要组成部分,正确了解DT的设计要点、评价原则和注意事项不仅能够加强对DT的内涵认识,同时也可以避免错误应用。应用临床流行病学方法对DT进行真实性、可靠性和临床应用基质等方面的评价研究,有助于正确认识DT价值,科学解读DT结果,从而提高临床医师的临床诊疗能力和水平。本文从DT概念入手,解读DT的设计要点和规范,DT的评价基本原则,DT的真实性、可靠性和临床应用价值的评价指标,提高DT效果的方法等内容,以期为研究者们应用DT开展临床研究奠定基础。

1 DT概念

DT是临床研究的一种重要类型。诊断的本质是将患者与非患者区别开来,那些用于区分患者与非患者的试验方法或检测检查方法都可以统称为“诊断试验”。DT是一个广泛的概念,包括病史、体格检查所获得的所有临床测量资料;生化检查、病原微生物检查等实验室检查指标;超声诊断、磁共振和放射性核素等影像学检查资料;皮肤超声、皮肤计算机断层扫描(computed tomography, CT)即等器械检查结果等。临床医师对疾病进行诊断时,可以利用DT,对人群的疾病或健康状况做出确切判断[1]。

临床上,DT可以有定性和定量等多种数据类型,DT中的多分类数据通常是有序变分类的定性变量。无论诊断数据为何种数据类型,临床应用时原则上均应该先要简化数据形式,大多数临床应用中的数据类别为有序变量数据,如肿瘤分化程度的分级。有时需要将这些复杂的数据类别转化为简单的两分类数据(正常/异常、有/无、疾病/健康),如高血压的诊断,通常简单地将收缩压≥140 mmHg和(或)舒张压≥90 mmHg者诊断为高血压,进而将对象区分为“高血压患者”和“非高血压患者”。

如前所述,DT的目的主要是用于疾病诊断,诊断对指导治疗有决定性意义。疾病的临床诊断过程并不总是完美,在获得最后的诊断之前,医生利用各个DT所提供的信息不断修正其诊断。所以DT的评价对临床工作的指导有着非常重要的意义。然而,目前对DT的研究和评价相对落后。因此,准确理解DT的评价方法有助于正确认识DT的实用性及其价值,避免凭经验选择的盲目性和片面性。

2 DT的设计要点

如同其他类型的临床研究,规范的DT同样需要有前期的设计和规划。在DT的设计过程中,需要研究者们明确DT的目的、DT的金标准选择、研究对象的定义,样本量估算,制定DT的真实性评价、可靠性评价和临床应用价值评价标准等内容。

2.1 明确研究目的

开展DT研究前,项目团队应根据拟评价的诊断试剂/设备/技术的特点,制定清晰明确的研究目标,说明DT的主要目的和核心评价指标体系等内容,为制定详细的研究流程奠定基础。

2.2 研究对象

DT临床研究中,研究对象应能代表试验检查对象的目标人群,即基于该DT开发的诊断方法在今后临床应用时应具有普遍适用性和鉴别疾病的能力。一个成熟的DT建立,通常需要经过3个研究阶段。①建立试验研究初期,正常人可作为对照组;典型患者为病例组。②试验研究中期,研究对象应选择早期和病情较轻的患者,包括那些可能会干扰DT结果的有合并症患者。例如,在评价皮肤CT诊断基底细胞癌时,研究对象应包括癌前病变患者,以及合并日光性角化病患者。无病组应包括其他皮肤病患者。③试验研究后期,最好选取多中心、较大样本的患者。这组研究对象代表目标临床患者人群,包括该病的各种临床类型,如不同病情严重程度(轻、中、重),不同病程阶段(早、中、晚),不同症状和体征(典型和不典型),有和无并发症者,还有那些确实无该病,但易与该病相混淆的其他疾病,以使试验的结果具有代表性。这样的DT评价结果真实性最高,具有较大的科学意义和临床实用价值。

2.3 样本量

临床研究中,样本量是在保证研究结论具有一定可靠性的前提下所确定的最小样本数,其意义是降低研究中的抽样误差。样本量过小,诊断指标就可能不稳定,影响对DT结果的评价。DT临床研究中,样本量通常根据被评价DT的灵敏度(sensitivity, Se)和特异度(specificity, Sp)分别计算研究所需的患者人数和对照人数,最后合起来得到样本含量。DT中,样本大小与显著性水平α值、允许误差δ、试验Se、Sp有关。样本量计算是,α值越大,所需样本量越小,通常取α=0.05或0.01;允许误差δ越小,样本量越大,通常δ取0.05或0.10。

例如,拟开展一项DT,评价新型宫颈癌诊断试剂盒对女性宫颈癌的临床早期诊断价值,前期的预实验结果提示,该诊断试剂对早期宫颈癌诊断的Se=75%,Sp=60%,试估算本次DT所需要的样本量。

2.4 DT“金标准”

金标准是指公认的疾病诊断标准,又称为标准诊断、参考标准等。金标准是指目前医学界公认的诊断某种疾病最准确的、可靠的方法。常用的金标准有:病理学诊断、尸体解剖、手术发现、影像学检查,也可采用公认的综合临床诊断标准。

须注意的是,待评价的DT如果不与“金标准”对比,就无法证明待评价DT的准确性;若金标准选择不妥,就会造成对研究对象“患病组”“无病组”划分上的错误,从而影响对DT的正确评价。实际工作中,研究者应根据临床具体情况选择合适的标准诊断方法,如常应用病理学检查作为肿瘤诊断的金标准。须说明的是,金标准具有相对性,任何一个金标准只是特定时期下医学发展的产物,它相对稳定,但不具有永恒性,研究者需根据研究目标选择当前最权威的诊断结果作为“金标准”。

3 DT的真实性评价

真实性是指DT的结果与实际情况的符合程度。研究诊断性试验真实性,最基本的方法是将待评价的试验与诊断该病的金标准进行盲法比较,以评价其对疾病诊断的真实性。一般而言,真实性是反映DT实际测量结果与真值之间的符合程度,是DT研究与评价的最主要内容。DT的结果与金标准进行比较应实施独立的盲法评价,所谓“独立”指所有研究对象要同时进行DT和金标准方法的测定;所谓“盲法”指DT和金标准方法结果的判断或解释相互独立。评价DT真实性的指标包括Se、Sp、假阳性率(false positive rate, FPR)、假阴性率(false negative rate, FNR)、总符合率(agreement rate, AR)、约登指数(Youden’s index, YI)和阳性似然比(positive likelihood ratio, PLR)等。

3.1 真实性评价指标计算

根据DT结果和金标准诊断结果可以建立一个四格表。如表1所示,将DT结果和金标准结果比较会得出四种情况:“金标准”为患者,DT也为患者,这种情况的患者数为“A”;“金标准”为患者,DT为非患者,这种情况的患者数为“C”;“金标准”为非患者,DT为患者,这种情况的患者数为“B”;“金标准”为非患者,DT也为非患者,这种情况的患者数为“D”。通过这个四格表就可以计算DT常用的真实性评价指标。

Se又称为真阳性率,是指实际患病且被DT判定为“患者”的百分比,反映被评价DT发现患者的能力,Se值越大,说明发现患者的能力越强。其计算公式为Se=A/(A+C)×100%。

FNR又称为漏诊率,是实际患病但DT判定为“非患者”的百分比。FNR与Se互补,也是反映DT发现患者的能力,FNR越小越好。其计算公式为FNR=C/(A+C)×100%。

Sp又称为真阴性率,是实际未患病者被DT同样判定为“非患者”的百分比,反映DT鉴别非患者的能力,该值越大越好。其计算公式为Sp=D/(B+D)×100%。

FPR又称为误诊率,是实际未患病者被DT判定为“患者”的百分比。FPR与Sp互补,同样反映DT鉴别非患者的能力,该值越小越好。其计算公式为FPR=B/(B+D)×100%。

AR又称为一致率,表示DT中真阳性患者数和真阴性非患者数之和占全体受检人员的百分比。反映正确判定“患者”和“非患者”的综合能力。总符合率越高,真实性越好。其计算公式为AR=(A+D)/(A+B+C+D)×100%。

YI又称为正确诊断指数,是一项综合性指标,其计算公式为YI=Se+Sp-1,YI在0~1之间波动,用于判定DT正确判定患病和无病的能力。

3.2 DT界值

临床上,开展DT的根本目的是帮助医生正确判定被检查人群患病还是无病,所以DT结果的正常和异常要有明确的界定,这个分界值就称为界值(cut-off point),也称为参考值。临床实践中,患病者与无病者的DT结果往往会出现重叠,这就需要一个判定标准,人为地将其分为“阳性”和“阴性”。

通常情况下,DT可分为以下几类:①主观指标:根据被诊断者的主诉确定,如疼痛、失眠等,包括一些诊断量表。②客观指标:用仪器客观测定的指标,如体温、血压、生化检查结果、CT影像等。③半客观指标:根据诊断者的主观感知来判断的指标,如肿块的质地等。

对于连续变量测量值,DT的界值需要注意其一致性。如高血压的诊断通常采用世界卫生组织规定的高血压诊断标准,即收缩压≥140 mmHg和(或)舒张压≥90 mmHg。若在不同地区或不同时期采用的标准不一致,则诊断结果也会不同。临床上,医生希望DT的Se和Sp都很高,即患病者均阳性,无病者均阴性的理想结果,这时患病者与无病者的测定值完全没有重叠,但这种情景实际上并不常见。由于DT本身存在的缺陷以及疾病的复杂性,大多数时候患病者的结果和无病者的结果相互重叠不能完全区分开(图1)。

临床实践中,DT出现图1所展示的情景更常见,这时需要确定一个划分阳性和阴性的界值。不同的界值选择会影响DT的Se和Sp等指标(图2)。在实际选择DT界值标准时,一般要遵循以下原则:

1)高Se水平DT标准:对于那些预后差、漏诊后果严重、目前临床上有有效的治疗手段、尤其是早期治疗可获得较好治疗效果的疾病,则应该将DT的阳性标准定在高Se的水平,尽可能诊断出所有的患者。如图2(A)所示,将判定界值向“左”移动,这时DT的Se升高,而Sp降低、假阳性增多,导致需要进一步确诊的可疑病例增多,从而增加检查成本。

2)高Sp水平DT标准:临床治疗效果不理想的疾病,确诊和治疗费用比较昂贵的疾病,疾病预后不严重且现有治疗方法不理想,或将非患者误诊为患者时后果严重时,应将诊断阳性标准定在高Sp水平,尽量排除非患者,见图2(B)。

3)较高水平Se和Sp的DT标准:当假阳性和假阴性的重要性相等时,一般可以将DT界值标准定在患者与非患者分布的分界线处。

临床实践中,对于连续变量的DT需要选择一个区分正常和异常的诊断界值,通常可以采用“正态分布法”“百分位数法”“受试者工作特征(receiver operating characteristic, ROC)曲线法”和“临床经验判定法”等方式确定。

4 DT的可靠性评价

可靠性(reliability)也称为可重复性或信度,是指DT在完全相同的条件下,进行重复试验获得结果的稳定性。因为在研究过程中,数据测量和采集过程会存在系统误差和随机误差,导致测量值的不稳定。DT可靠性评价的设计与真实性评价不一样,可靠性评价主要是评价测量变异的大小。

定量变量:通过用变异系数和标准差表示结果的可靠性。其中变异系数=标准差/均数×100%,变异系数越小,标准差越小,可靠性越好。

定性变量:通过用观察符合率和卡帕(Kappa)值表示。观察符合率是指两名观察者对同一事物的观察或同一名观察者对同一事物的两次观察结果的一致性百分率。Kappa值是判断不同观察者间校正机遇一致率后观察的一致率情况,其含义为实际符合率与最大可能符合率之比。如表2所示,两名皮肤病理医生对200名疑似皮肤肿瘤患者的皮肤病理切片判读的结果,可以通过计算观察符合率和Kappa值来评价DT的可靠性。

观察符合率=(A+D)/N×100%=(40+ 135)/200×100%=87.5%

观察符合率P0=(A+D)/N=87.5%

机遇符合率Pc=(R1C1/N+R2C2/N)/N×100%=(55×50/200+150×145/200)/200×100%=61.25%

Kappa=(P0-Pc)/(1-Pc)=(87.5%-61.25%)/(1-61.25%)=0.69

kappa值充分考虑了机遇因素对结果一致性的影响,其取值介于[-1, 1],当kappa值为0.75~1.00时表示“符合很好”,取值为0.40~0.74时表示“符合一般”,取值为0.01~0.39时表示“缺乏符合”。

5 DT临床应用价值评价

DT的开发起源于临床,其最终必定要回归临床应用。因此,对于DT的临床应用价值评价必不可少。DT临床应用价值主要为临床收益的内容,主要包括预测值的估计、新确诊病例和卫生经济学评价,以及提升DT效率的方法。

预测值(predictive value, PV)是反映应用DT的检查结果来评估受试者患病或不患病的可能性大小指标。根据DT结果的阳性和阴性,预测值也分为阳性预测值和阴性预测值。

阳性预测值(positive predictive value, PPV)是指DT结果为阳性者中真正患者所占的百分比。对于一项DT来说,PPV越大,说明DT阳性后受试者患病的概率越大。以表2为例,DT的PPV计算公式为A/(A+B)×100%。

阴性预测值(negative predictive value, NPV)是指DT结果为阴性者中真正为非患者所占的百分比。对于一项DT来说,NPV越大,说明DT阴性后受试者为无病者的概率越大。以表2为例,DT的NPV计算公式为D/(C+D)×100%。

当患病率固定不变时,DT的Se越高,FNR将会越低,阴性预测值越高,当Se为100%时,阴性预测值也为100%;相反,DT的Sp越高,FPR越低,阳性预测值越高。

当DT的Se和Sp确定后,阳性预测值和患病率成正比,阴性预测值和患病率成反比。一般来说,人群中患病率越高,所诊断的患者数就越多,阳性预测值就越高,而阴性预测值就越低。

因此,为提高DT的效率,常规可以采取“选择患病率高的人群开展DT”和“采用联合试验”的方案。联合DT是将2种及以上DT结合起来对结果进行综合判读,包括“串联”和“并联”两组形式。其中“串联”类似于物理学电路图中的“串联”,即当2种DT均提示阳性时才能确定为“病例”,因此提高了判定受试者为阳性的标准,DT的Se降低,而Sp升高。“并联”同样类似于物理学电路图中的“并联”,即2种DT中只要有一个提示阳性便可以确定为“病例”,因此降低了判定受试者为阳性的标准,DT的Se提高,而Sp降低。

参考文献

[1] 詹思延. 临床流行病[M]. 2版. 北京: 人民卫生出版社, 2011.