开展实验室诊断试验研究值得注意的几个问题

2013-02-19 03:48胡志德邓安梅
检验医学 2013年6期
关键词:论文标准疾病

胡志德,邓安梅

(1.济南军区总医院实验诊断科,山东济南250031;2.第二军医大学长海医院实验诊断科,上海200433)

快速、准确地对疾病做出诊断或排除,是对患者实施科学、规范化治疗的基础。因具有客观和无创或微创等优点,实验室检查一直在疾病的诊断中占有十分重要的地位。开展实验室相关的诊断性试验的临床研究,目的在于分析某一个(组)实验室标志物或者实验室检查手段对某种特定疾病的诊断价值,为临床医师运用该实验室检查对目标疾病进行诊断提供科学的依据。

目前,国内检验医学专业学术杂志上刊登的论文中,有很大一部分属于诊断性试验的研究论文。这些研究论文中有部分是直接评价单个实验室手段对目标疾病的诊断价值,有的则是比较多种实验室手段诊断效能的差异,以及评价联合多种手段对疾病的诊断价值。我们注意到,与国外主流的检验医学专业学术杂志上刊登的诊断性试验报告论文相比,刊登在国内杂志上的论文或多或少都存在一些不足,主要表现为试验设计存在缺陷,论文撰写不够规范。在此,我们结合诊断性试验报告规范(standards for reporting of diagnostic accuracy,STARD)[1-3]和诊断性试验质量评分(quality assessment of diagnostic accuracy studies,QUADAS)工具[4-5],拟就如何开展一个高质量的诊断性试验,以及如何撰写规范的诊断性试验研究论文谈一些自己的看法。

一、QUADAS标准和STARD报告规范概述

在循证医学时代,临床医师十分强调运用目前已有的最佳“证据”来作为临床决策的依据。所谓“证据”,主要是源自于已有的临床研究的结论。在临床研究实践中,针对同一个临床问题往往会开展多个不同的临床试验,得出的结论也不尽相同。循证医学的任务之一就是开展系统评价(systematic review,SR),以科学的统计学方法整合多个临床研究的结论,为临床决策的制定提供最佳的证据。同时,SR还可以发现源自于不同临床研究的结论之间存在差异的原因,为后续开展类似的研究提供参考。在进行SR的过程中,对已有的临床研究进行质量评价是一个十分重要的环节。高质量的临床研究结论更加可靠,因而在SR中占有更高的权重。在此背景下,QUADAS标准应运而生。QUADAS标准一共包含了14项条目,供系统评价员从14项试验设计的细节去评估诊断性试验的研究质量。对于QUADAS标准中的每项条目,专家都在说明中给出了详细的评分原则:若研究符合该标准中提及的设计要点,可以得1分,否则,得-1分;若根据论文的内容无法判断,就记为0分。QUADAS得分总和越高,表明该诊断性试验的研究质量越高,结论的说服力也越强。

START报告规范是STARD小组(一个以统计学家和实验室医学家为主的研究小组)制订一份旨在规范诊断性试验研究论文撰写的清单。这份清单共包含了25条记录,详细列举了诊断性试验论文的每个部分应当阐述的内容,其目的旨在帮助读者分析研究可能存在的偏倚(内部有效性)和结论的适用范围(外部有效性)。STARD报告规范至2003年制订以来,迅速得到了学术期刊编辑部和临床研究学者的认可。比如,Clinical Biochemistry在其稿约中就明确规定:凡是向该杂志递交诊断性研究的论文,都必须严格按照STARD报告规范内容进行撰写。

关于QUADAS标准和STARD报告规范的所有条目,在相应的中英文文献中均有介绍[1,3-5],限于篇幅所限,在此不一一赘述。

二、从QUADAS标准和STARD报告规范谈开展诊断性研究值得注意的几个问题

1.数据收集的时序性问题

从数据收集的时序上讲,诊断性试验可以分为前瞻性研究和回顾性研究。二者的区别在于:前瞻性研究是先有试验计划,然后根据试验计划开展诊断性试验(同时对患者进行“金标准”和“待评价测试”的检查);而回顾性研究并无预先设计好的试验计划,仅仅是研究人员回顾性地收集了一些病例进行研究。前瞻性研究在实施过程中能够控制病例募集,结果解释过程中潜在的混杂因素,因此,通常具有较高的论证强度;而回顾性研究无法控制各种混杂因素,因此,论证强度较弱。目前国际上开展的高质量的诊断性试验研究几乎都是前瞻性的研究。

在STARD报告规范的第六条中,就明确规定了研究人员在在撰写诊断性试验论文时,需要在“材料与方法”部分说明开展的研究属于前瞻性还是回顾性的研究。然而,遗憾的是,国内的部分诊断性试验研究论文,在“材料与方法”一栏中并未对研究的性质进行说明,而只是简单交待了研究受试对象的样本量,疾病诊断状况和一些基本的临床特征。这种不规范的报告方式往往让读者无法判断研究质量的高低以及论证力度的强弱,同时也削弱了研究成果在本领域的穿透力。此外,开展SR的一项重要任务就是分析各个研究结论之间的差异是否与试验设计特点有关,为同行继续开展此方面的研究提供参考。如果在研究论文中不阐述研究的时序问题,往往不利于系统评价员分析各个研究之间异质性的来源,也就削弱了研究在本领域的影响力。

2.研究对象的选择

疾病的诊断首先是基于简单的、易于获取的临床资料(比如病史、体征、人口学特征)然而,有部分疾病在症状和体征上极其相似,依靠上述资料往往无法对患者是否患有目标疾病做出明确判断。比如,对于以呼吸困难为主诉的就诊患者,仅仅依靠症状和体征往往无法确定造成呼吸困难的病因是否为心力衰竭,因为部分哮喘、肺炎、主动脉夹层和心肌梗死患者也可能出现呼吸困难的症状。此时,临床医师就需要借助现有的物理检查,影像学检查或者实验室检查手段(比如检测BNP),对患者是否患有心力衰竭做出明确的诊断。由此可见,诊断性试验的研究对象应该是一组症状和体征相似,需要借助实验室检测手段、影像学手段等以明确诊断的人群。国内的部分诊断性试验研究,将健康个体设置为对照组。这样的设计并不足以体现实验室指标对疾病的鉴别诊断能力,引入诊断性试验往往会导致错误的结论。QUADAS标准的第一条就对诊断性试验研究对象的疾病谱做出了明确的阐述,其中规定:若诊断性试验以健康个体作为对照,就视为不合格,此条标准的QUADAS得分为-1分。

此外,值得注意的是,与干预性研究不同,诊断性试验的试验组(疾病组)和对照组(非疾病组)是自然形成的,所以比例方面没有要求(即无需遵循病例对照研究和干预性研究中的“均衡原则”),关键是研究对象要有临床代表性和完整性,能反映临床工作中需要借助待评价手段才能确诊断的人群的特征。比如2012年报导的BE FAST研究,是一项评价血清神经胶质细丝酸性蛋白(glial fibrillary acidic protein,GFAP)对出血性脑血管疾病与缺血性脑血管疾病诊断价值的研究,纳入研究的对象是205例具有脑血管疾病症状,且症状发生时间在4.5 h以内的患者,其中,他们募集的出血性脑血管疾病患者仅为39例,而非出血性脑血管疾病患者却高达166例[6]。

3.受检对象的纳入、排除与募集方式

研究对象的纳入/排除标准的设定是开展诊断性试验研究的重要环节,因为这在某种程度上决定了研究结论的适用范围。纳入标准通常应该包括研究对象的主诉、病史和体征等;排除标准一般则应为因特殊原因,无需新的诊断手段就可以确诊或者排除的疾病。比如Potocki评价了MR-proANP和NT-proBNP对呼吸困难患者发生心力衰竭的诊断价值[7]。该研究的纳入标准就设定为:以呼吸困难为主诉而到急诊科就诊的患者;排除标准为:年龄<18岁;透析患者和创伤患者。这一纳入标准和排除标准较好地反映了临床怀疑为心力衰竭患者的特征,具有较好的临床代表性。QUADAS标准的第二条就要求研究者在开展诊断性试验研究时,应该有明确的病例选择标准;否则,研究在该条记录上的得分为0分或-1分,会导致QUADAS整体得分偏低,影响研究的总体质量。此外,在撰写研究论文时,还应该遵守STARD报告规范的第十五和十八条规定,详细列举最终进入本次研究的受试对象的临床特征,便于读者分析研究结论的适用范围。

研究对象的募集方式也是设计诊断性试验研究时需要充分考虑的一个方面,不正确的病例募集方式会导致最终募集到的研究对象缺乏临床代表性,影响研究结论的可靠性。正确的病例募集方式应该是在不违反医学伦理学的前提下,采用随机募集和连续募集的方式募集一段时间内来医院就诊的,符合纳入标准,不符合排除标准的人群。只有这样,才能保证研究对象具有临床代表性完整性,这也是为何“诊断性研究无需遵循‘均衡原则’”的原因所在。STARD报告规范的第四和第五条就要求研究人员在其研究论文中必须陈述病例的募集方式。

国内的部分诊断性研究,可能是由于在开展研究前并未制定确切的诊断和排除标准、病例募集方式,因此,在论文报告中并未陈述相应的内容,只是简单在材料与方法中说明了研究对象的样本量,最终的诊断结果以及一些基本的人口学特征,让读者无法根据研究内容分析研究结论的适用范围以及结论的可靠性。

4.金标准的确定

临床诊断性试验的评价首先要确立“金标准”,即最终可以确诊疾病的标准。比如,肿瘤诊断的金标准是病理检查,败血症的诊断金标准是血培养,冠心病的诊断金标准是冠脉造影等。需要强调的一点是,尽管金标准是作为疾病诊断的最终手段,但是这并不排斥新的手段在疾病诊断中的作用和地位。因为金标准虽然是疾病确诊的最终标准,但是其本身也具有无法克服的缺陷,比如:病理检查是有创的检查,且检查结果与病理医师的经验有关;血培养耗时费力,可能延误患者的治疗;冠脉造影对医疗设备要求较高,且具有一定的副作用(造影剂可能导致急性肾脏损伤)。正因如此,我们才需要去探索新的诊断手段,以弥补金标准的缺陷,丰富疾病的诊断手段。在开展诊断性研究的过程中,所设立的金标准必须是公认的的疾病诊断标准,而且,必须在报告论文中进行详细的陈述。这在STARD报告规范的第七条和QUADAS标准的第三和第九条是有明确规定。此外,在开展诊断性试验的过程中,金标准的作用不仅仅限于诊断疾病,而还应该包含排除疾病。即所有的受检对象,不论目标疾病的最终诊断是否成立,都必须接受金标准检查。在QUADAS标准的第五和第六条中,就要求研究者在开展诊断性研究的过程中,必须让所有的受试对象都应该接受金标准检查。

需要注意的是,开展诊断性研究时,金标准和待评价试验应该相互独立,即疾病的诊断和待评价试验的实施应该相互设盲:临床医师在诊断疾病时并不知晓待评价试验的检测结果,开展待评价试验也应该是在不知晓患者最终诊断结果的基础上进行,以避免潜在的诊断偏倚。这在QUADAS标准的第七,第十和第十一条中有明确的规定。STARD报告规范的第十一条也要求作者在撰写报告论文时需要阐述是否在研究过程中实施了盲法。同时我们也可以看出:与回顾性研究相比,前瞻性研究的研究质量之所以较高,主要是因为在前瞻性的研究中,研究者可以实施盲法,可以在制订金标准时回避待评价试验。

国内的诊断性研究报告论文,虽然大多能够正确选择疾病诊断的金标准,但是部分论文并未陈述是否所有的受试对象都接受了金标准测试,也未陈述金标准的实施与待评价试验是否相互设盲,是一种十分不严谨的行为。

5.诊断界点设定的问题

对于定性检查结果,无需设立诊断界值,即可直接通过四格表反映待评价试验的诊断敏感性和特异性。而对于定量检测的结果,一般采用受试者工作特征(ROC)曲线分析法去评价试验的总体诊断效率。ROC曲线以“1-特异性”为横坐标,以敏感性为纵坐标,曲线越靠近左上角,其曲线下面积(AUC)越大,表明待评价试验的总体诊断效率越高。当然,在进行待评价试验总体效率比较的过程中,还需要借助统计学方法。目前,关于ROC曲线下面积的比较,在统计学上还存在一定的争议,目前多采用Delong等[8]提出的方法进行比较,该方法可以在Sigmaplot软件中实现。值得注意的是,以ROC曲线的曲线下面积来衡量一个待评价试验的总体诊断效率具有一定的局限性,因为当曲线下面积较大时,即使是发生微小的变化,也会导致对诊断性能产生较大影响[9-10]。在此基础上,有学者提出使用logistic回归模型对待评价试验的诊断效率进行评价,通过待评价试验的优势比的比较来反映待评价试验的诊断性能,不失为一种较好比较待评价试验诊断性能的方法[11]。此外,也有学者提出,在特定诊断界点(比如敏感性或特异性为0.95),采用卡方检验比较多个待评价试验在诊断敏感性或特异性上的差异,可能更具有专业意义[12]。这一思想也很快得到了学界的认可,最近开展的一些高质量的研究也采用了该方法对数据进行分析[13]。值得强调的是,这些统计学方法只适合于初步比较待评价试验的诊断性能,最终确定诊断待评价试验是否对疾病的诊断有益,引入该诊断手段以后是否有助于提高患者总体预后,还要以设计良好的随机对照试验(RCT)予以证实[14-15]。

ROC曲线的走势比较清晰地反映了待评价试验诊断敏感性和特异性之间的关系,为寻找最佳诊断界点提供了参考。一般而言,对于可以定量的待评价试验,通过改变诊断界点的方式提高诊断敏感性就会牺牲诊断特异性,反之亦然。如何确定待评价待评价试验的最佳诊断界点视专业需求而定。对于某些对敏感性要求较高的疾病,比如急性心肌梗死,在制定诊断界值时,可以适度牺牲特异性以换取诊断敏感性的提高;对于某些对诊断特异性较高的疾病(比如恶性肿瘤),在制定诊断界值时,则需要适当提高诊断特异性。如果疾病的诊断对敏感性和特异性具有同等需求,通常情况下可以将约登指数(YI)最大时的诊断界值作为推荐诊断界值,因为该界值较好地平衡了诊断敏感性与特异性,可以达到最高的诊断准确性。

在多数情况下,多个诊断手段之间并不矛盾,因此,读者关心的往往不是诊断手段之间孰优孰劣的问题,而是能否相互弥补?联合使用是否有助于提高诊断准确性?以往对于联合诊断效率的评价往往采用系列诊断试验和平行诊断试验,这2种方法都存在固有的缺陷:前者以牺牲诊断敏感性换取诊断特异性;后者以牺牲诊断特异性换取诊断敏感性,而且这2种方法也无法从统计学上回答“联合检测是否有助于提高诊断准确性”这一核心问题。在诊断性试验研究中,为评价一个新的诊断手段(比如一个标志物)是否能为疾病的诊断提供新的,临床常规资料所不能提供的信息,主要有3种方法[16-17]:(1)C-statistic 采用logistic回归整合已有的有助于疾病诊断的临床信息(不包含待评价试验),构建一个回归方程,得到一个新指标(命名为A);采用同样的思路构在上述方程中加入一个参数,即待评价试验,构建另一个回归方程,生成另一个新指标(命名为B)。然后以ROC分析法对A和B的诊断性能进行评价,通过比较其曲线下面积的方式分析B是否优于A;若B优于A,则证明待评价试验可以提供常规临床指标所不能提供的诊断信息,在临床实践中引入该指标有助于提高诊断准确性;(2)净重分层改良(net reclassification improvement,NRI)

该法前期的统计学处理与C-statistic相同,不同之处在于在绘制了两条ROC曲线后,并不是直接比较曲线下面积的大小,而是预先设定一个最佳诊断界点,绘制重分层表格,以Z检验分析引入新的诊断手段以后,实验组和对照组划分的总体准确性是否增加;(3)综合区分改良(integrated discrimination improvement,IDI) 该法前期的统计学处理与C-statistic相同,不同之处在于对于每一个特定的患者,都可以通过两个logistic回归方程,生成两个指标A和B,然后直接采用Z检验比较所有患者A和B之间是否有差异。

国内的部分诊断性试验研究,以参考范围的上限作为诊断界值,是一种不科学的行为。参考范围在一定程度上只是反映了该试验在表面健康的个体中的分布状况,并没有充分考虑其在有疾病的患者中的分布状况,因此,不宜作为诊断界点。同时,大部分诊断性试验研究论文并未通过科学的统计学方法,回答“新的诊断手段是否可以弥补已有的诊断手段的不足?多个诊断手段联合使用是否更有助于提高总体诊断准确性?”这些疾病诊疗过程中临床医师最关心的问题。

三、结语

在循证医学思想已经深入临床医学各个角落的今天,重视“证据”的质量与论证强度已经成为了广大临床医师的共识。开展高质量的诊断性试验研究,撰写规范的诊断性研究论文,对于循证医学的发展无疑积极的促进作用。只有在开展诊断性试验时遵循科学的设计原则,在撰写报告论文时遵守规范化的论文报告方式,研究的成果才能引起更多同行的关注,才能在将来制订或者更新疾病诊断指南时占有一席之地,真正实现科研成果向临床实践的转化。

[1]Bossuyt PM,Reitsma JB,Bruns DE,et al.The STARD statement for reporting studies of diagnostic accuracy:explanation and elaboration[J].Clin Chem,2003,49(1):7-18.

[2]王 波,詹思延.如何撰写高质量的流行病学研究论文第三讲诊断试验准确性研究的报告规范——STARD介绍[J].中华流行病学杂志,2006,27(10):909-912.

[3]Bossuyt PM,Reitsma JB,Bruns DE,et al.迈向完整、准确的诊断准确性研究报告:STARD计划[J]. 中国循证医学杂志,2006,6(7):523-528.

[4]Whiting P,Rutjes AW,Reitsma JB,et al.The development of QUADAS:a tool for the quality assessment of studies of diagnostic accuracy included in systematic reviews[J].BMC Med Res Methodol,2003,3:25.

[5]Whiting PF,Weswood ME,Rutjes AWS,et al.QUADAS评价:一种用于诊断性研究的质量评价工具(修订版)[J].中国循证医学杂志,2007,7(7):531-536.

[6]Foerch C,Niessner M,Back T,et al.Diagnostic accuracy of plasma glial fibrillary acidic protein for differentiating intracerebral hemorrhage and cerebral ischemia in patients with symptoms of acute stroke[J].Clin Chem,2012,58(1):237-245.

[7]Potocki M,Breidthardt T,Reichlin T,et al.Comparison of midregional pro-atrial natriuretic peptide with N-terminal pro-B-type natriuretic peptide in the diagnosis of heart failure[J].J Intern Med,2010,267(1):119-129.

[8]DeLong ER,DeLong DM,Clarke-Pearson DL.Comparing the areas under two or more correlated receiveroperating characteristic curves:a nonparametric approach[J].Biometrics,1988,44(3):837-845.

[9]Cook NR.Statistical evaluation of prognostic versus diagnostic models:beyond the ROC curve[J].Clin Chem,2008,54(1):17-23.

[10]Cook NR.Use and misuse of the receiver operating characteristic curve in risk prediction[J].Circulation,2007,115(7):928-935.

[11]Romero C,te Velde L,Ponsen H,et al.C-statistics versus logistic regression for assessing the performance of qualitative diagnostic tests[J].Clin Chem Lab Med,2012,50(1):73-76.

[12]Levinson SS.Letter to the editor reply:statistical methods for assessment of added usefulness of new biomarkers[J].Clin Chem Lab Med,2011,49(7):1241-1242.

[13]Zhao Z,Zhao Q,Warrick J,et al.Circulating microRNA miR-323-3p as a biomarker of ectopic pregnancy[J].Clin Chem,2012,58(5):896-905.

[14]Sackett DL,Haynes RB.The architecture of diagnostic research[J].BMJ,2002,324(7336):539-541.

[15]Levinson SS.Clinical validation of biomarkers for predicting risk[J].Adv Clin Chem,2009,48:1-25.

[16]Pencina MJ,D'Agostino RB,Vasan RS.Statistical methods for assessment of added usefulness of new biomarkers[J].Clin Chem Lab Med,2010,48(12):1703-1711.

[17]Pencina MJ,D'Agostino RB Sr,D'Agostino RB Jr,et al.Evaluating the added predictive ability of a new marker:from area under the ROC curve to reclassification and beyond[J].Stat Med,2008,27(2):157-172.

猜你喜欢
论文标准疾病
2022 年3 月实施的工程建设标准
进击的疾病
尿碘与甲状腺疾病的相关性
易与猪大肠杆菌病混淆的腹泻类疾病鉴别诊断
夏季养生之疾病篇
忠诚的标准
美还是丑?
一家之言:新标准将解决快递业“成长中的烦恼”
下期论文摘要预登
下期论文摘要预登