■张振伟 平智广 徐 巍 韩 锟 吕相征 刘 冰
1)中华医学会杂志社《中华预防医学杂志》编辑部,北京市西城区宣武门东河沿街69号 100052 2)医学期刊知识挖掘与服务重点实验室,北京市西城区宣武门东河沿街69号 100052 3)郑州大学公共卫生学院,河南省郑州市科学大道100号 450001 4)中华医学会杂志社《中华医学杂志》编辑部,北京市西城区宣武门东河沿街69号 100052 5)中华医学会杂志社,北京市西城区宣武门东河沿街69号 100052
随着医学科学技术的不断进步,为满足临床诊断及筛查的需要,新的诊断筛查方法层出不穷,原有的方法也在不断完善,期刊中涉及诊断筛查试验的论文数量也日益增多。临床诊断筛查研究是医学研究的重要组成部分之一,是病因探索、治疗和预后评价的前提,其科学性直接关系到医学研究和临床诊疗的效率及质量。科学准确的诊断筛查研究报告不仅能够规范试验的开展和实施,同时能够为医生临床决策提供重要依据[1]。然而,目前国内外医学期刊中诊断筛查类研究的论文质量不容乐观[2-4],不恰当、不准确、不完整的研究报告不仅容易使得评价结果有所偏倚,甚至会误导临床医生做出错误的诊疗决策。因此,把好诊断筛查类论文的质量关,做好论文的科学性和技术性加工,是医学科技期刊编辑的重要责任。
一般来说,诊断筛查试验研究主要包括科研设计、指标的观察或检测、统计分析及结果报告等部分,其诊断价值最重要的是与“金标准”方法进行同步比较。在多年的编辑审稿工作中发现,大量涉及诊断筛查试验的研究论文,包括部分已发表的论文,在写作思路、结果铺陈、方法运用等方面存在各种各样的漏洞,通过医学期刊编辑的专业指导还有较大的提升空间。既往文献报道中,李强等[5]对诊断性试验的评价原则和常见错误进行了简要梳理,但并未对结果报告部分的审查进行深入分析。少量针对国内诊断性研究论文质量问题的探讨和研究多集中于具体问题和错误[6-7],且大多数研究从研究者的角度进行分析,从医学期刊编辑角度对诊断筛查试验进行系统评价的研究相对较少。因此,本研究从医学科技期刊编辑的视角出发,通过文献的学习和审读,系统分析诊断筛查试验类论文的常见问题,着重梳理出论文的研究设计和结果报告部分的审查要点,以期与医学编辑同仁共同探讨此类论文发表的准入标准,同时为编辑工作实践提出具有可操作性的解决方案。
作为中华系列杂志论文设计与统计分析审读组的成员,笔者以2021年度中医学会系列杂志质量审读工作为契机,由1名医学背景的期刊编辑及1名流行病与卫生统计学博士对诊断筛查类论文进行审读与问题分析,同时结合编辑工作经验,梳理出此类论文编辑审查的要点和重点。
研究设计是诊断筛查试验研究的重要组成部分之一,主要包括确定“金标准”,选择研究对象、计算样本量,进行同步盲法比较等环节。研究设计的质量与诊断筛查试验的准确性和可靠性密切相关,有缺陷的研究设计可能会高估诊断筛查试验的准确性,从而导致不成熟的诊断筛查试验过早应用于临床,对医生的诊疗决策产生误导[5]。
“金标准”是指当前医学界公认的诊断某疾病最准确可靠的方法。由于“金标准”对受试者诊断的准确度是正确评价新诊断筛查试验的基础,如果“金标准”选择不恰当,会导致研究者错分研究对象,从而使得整个试验的评价失去意义,因此“金标准”的选择是诊断筛查试验的核心要务。
作为医学期刊编辑,经常在来稿中发现论文作者有时候会选用容易开展,但准确性不高的诊断方法作为“金标准”,从而导致所得结论的准确性较低。因此,在处理稿件时,编辑应提醒作者要根据试验的具体情况正确选择“金标准”,比如病理检查、手术所见、特殊的影像学检查等;同时建议作者在论文中清晰明确地表达出所选择的“金标准”方法,可采用如下表达方式:本研究采用阴道镜检查直接观察宫颈表面的病变,镜下定点活检,病理检查为最后诊断,以评价阴道镜检查对宫颈上皮内瘤变的诊断价值[8]。
一般来说,诊断筛查试验的研究对象分为2组:一组是被“金标准”确诊的病例组,另一组是“金标准”证实无该病的人群,即对照组。如果研究目的是评价诊断试验的价值,对照组应选择与所研究疾病易混淆的其他疾病患者;如果要评价筛查试验的价值,那么对照组要选择健康人群。需要注意的是,病例组中应包括所研究疾病的不同临床类型,包括不同严重程度、病程或并发症伴随情况的研究病例,同时要选择合适来源的病例组和对照组,以保证研究对象的代表性。在处理稿件时,经常遇到的情况是将已知某病患者作为病例组,然后再选择健康人或其他疾病患者作为对照组,并未考虑研究对象的临床类型和来源,甚至有作者会只选用“金标准”确诊的患者作为研究对象而无对照组。上述这些方法都是不恰当的,无法保证研究对象的代表性,从而也无法评价诊断筛查试验的真实价值。
样本量的合理估算对包括诊断筛查试验在内的所有临床研究都至关重要,只有基于有代表性的研究对象和合适的样本量才能有效开展研究,并能够通过样本信息推断总体特征[9]。样本量过小,就无法充分体现总体的变异规律,研究结果不准确;样本量过大,容易造成资源的浪费[10]。样本量的估算并无统一的计算公式或方法供参考,一般需要考虑研究目的、试验设计、研究指标、效应量、统计特征等因素。在较多的诊断筛查试验研究论文中,随意确定样本量和不明确阐述样本量估算过程的情况比较常见。编辑在审查稿件时,应提醒作者注意核实样本量与研究目的是否匹配,且尽可能清晰地展示出样本量的计算过程。需要注意的是,诊断筛查试验的样本量是既经过“金标准”诊断,又经过新方法检测的有效样本量。
在诊断筛查试验中,如果研究者事先知晓“金标准”的诊断结果,将会对研究者判断试验结果产生很大的影响,会使被评价试验和“金标准”结果更加趋于一致,并影响评价指标的真实性。另外,研究对象接受试验顺序不同,也会影响对试验指标的评价。因此,在试验中应保证同步盲法比较,尽可能让所有受试者同时接受新方法和“金标准”诊断。编辑在审查稿件时,在需要做出主观评价的诊断筛查试验中,要重点审查盲法的实施情况,指导作者合理描述盲法实施过程,常见的表述如下:所有的影像结果均由2名放射科医生独立完成,之后进行合议得到最终的诊断结果;放射医生对于患者的病史、是否具有目标症状、金标准的结果等信息完全不知晓[11]。
诊断筛查试验的评价指标主要包括真实性、可靠性和收益指标,虽然每个指标都有明确的定义和适用条件,但在使用评价指标时仍存在一些问题,如指标名称前后不一致、指标堆砌、使用不恰当等。灵敏度和特异度是诊断筛查试验最基本的2个指标,当待评价方法和“金标准”确定后,灵敏度和特异度就固定下来,不再随其他变量而改变,且这2个指标一般成反比关系。另外,准确度、预测值和符合率等指标也较为常见。作为一名医学期刊编辑,虽无法做到对每一个具体专业领域的概念都精通,但对一些重要的概念和定义应熟练掌握,以提高对稿件的学术审查能力。
预测值采用诊断筛查试验的阳性和阴性结果来估计罹患某疾病的可能性,反映了诊断筛查试验应用于临床后获得的收益大小。预测值的算法分为直接法和间接法:(1)直接法。当研究样本的疾病患病率与目标人群的患病率一致时(比如在社区开展的筛查研究),ηp=[a/(a+b)]×100%,其中ηp为阳性预测值,a为真阳性数,b为假阳性数;ηn=[d/(d+c)]×100%,其中ηn为阴性预测值,c为假阴性数,d为真阴性数,见表1。(2)间接法。当研究样本的疾病患病率与目标人群的患病率不一致时,无法直接计算预测值,需要根据患病率来估计预测值,ηp=α×δ/[α×δ+(1-δ)(1-β)],ηn=β×(1-δ)/[β×(1-δ)+(1-α)×δ][9,12],可见采用间接法计算的预测值与灵敏度(α)、特异度(β)和疾病患病率(δ)均有关联。
表1 某诊断筛查试验准确度和预测值的计算结果整理
目前采用预测值指标的诊断筛查试验类论文不在少数,但预测值计算不准确的情况也经常出现。如某论文[8]评价采用探索阴道镜对宫颈上皮内瘤样病变的诊断价值,选取的研究对象为来医院就诊检查的妇女,并计算了阴道镜检查的灵敏度、特异度以及阳性和阴性预测值,分别为96.06%、73.03%、59.09%和97.86%。该论文中来医院就诊女性的宫颈上皮内瘤变病例和非病例组的构成比与社区女性宫颈上皮内瘤变患病与未患病比例并不一致,应采用间接法计算预测值,结合既往文献[13-14],假设我国妇女宫颈上皮内瘤变的患病率为5.0%,则可通过公式计算得出阳、阴性预测值分别为15.79%和99.72%。可见,由间接法计算得出的阳性预测值与原文献差异较大(15.79% vs. 59.09%),原文献的预测值有较大的误导作用。编辑在处理稿件时,应注意审查预测值的使用情况,提醒作者正确使用该指标,尤其是基于医院涉及病例的大多数临床研究,可能并不适合用直接法计算预测值。
准确度和符合率是较容易混淆的2个指标,准确度指的是试验的全部真阳性者和真阴性受试者占受试对象总和的比例,即(a+d)/(a+b+c+d),反映了诊断筛查试验结果与“金标准”结果的符合程度,属于真实性评价指标(表1)。符合率是指2个诊断筛查试验结果一致的受试者占受试对象总和的比例,即(e+h)/(e+f+g+h)(表2),可用于比较2位医生诊断同一组患者或同一医生对同一组患者诊断2次的结果,属于试验可重复性的评价指标。准确度和符合率的计算公式类似,主要区别在于前者为新试验与“金标准”的比较,后者为不同试验或同一试验不同测定次数之间的一致性比较。
表2 某诊断筛查试验符合率的计算结果整理
编辑在核查稿件时,要注意区分2个指标的含义,只要与“金标准”比较,则为准确度;若是评价不同诊断筛查试验方法的一致性或同一试验不同试验次数的一致性,应为符合率。有论文[8]在文中表述“阴道镜诊断CIN 676例,与病理诊断CIN相符合者共390例,诊断的符合率为57.69%”,此处既然与病理诊断“金标准”比较,改为准确度可能更加合适,同时此处对于准确度计算是不准确的,并未将真阴性受试者纳入计算。
灵敏度指标又称为敏感度/性,有学者[15]认为这2个称谓的含义有所不同,但笔者认为在诊断筛查类论文中两者的概念完全一致,2个名词均可使用。在编辑工作中,对于特异度/性、约登指数/正确指数、准确度/率等有多个名称的指标,建议在同一篇稿件中指标名称保持一致。
在大多数诊断筛查试验研究中,所采用的诊断指标多为连续性指标,对于这种连续变量需要制定一个临界值,以区分指标阳性和阴性2类定性结果。临界值的选择直接影响灵敏度和特异度等评价指标的计算,因此其含义和确定依据要在文中交待清楚。临界值的确定方法常见有正态分布法、百分位数法和 ROC(受试者工作特征)曲线法等,在制定临界值时还要结合诊断筛查试验的目的来权衡误诊和漏诊的利弊。
诊断筛查研究中,关于临界值的常见错误主要包括:在样本含量较小或数据呈非正态分布时,采用正态分布法确定临界值;未交待临界值的确定依据;使用ROC曲线的一些错误问题等[16]。编辑在审查稿件时,建议着重考虑以下2点:(1)临界值的含义和确定依据是否准确。作者根据试验本身的样本量和数据资料分布情况,是否采用了合适的计算方法以确定临界值,并对确定方法和临界值进行了明确阐述。(2)ROC曲线方法的使用是否准确。在数据满足要求的前提下,应保证ROC曲线图中数据点数量,尽量避免采用较少的数据点绘制ROC曲线。ROC曲线横、纵坐标轴的最大范围均为1,建议所绘制的ROC曲线图形为具有四条边框的正方形图,且保留(0,0)和(1,1)2个点的连接线,以方便解释ROC曲线下面积(Area Under Curve,AUC)的意义,如图1所示。
图1 ROC曲线示例
在呈现灵敏度、特异度等评价指标结果时,如果同时报告计算指标值所用的原始数据,不仅使得论文的结果更加完整,而且读者可根据原始结果核实指标值,以减少计算错误的发生。原始数据可以采用四格表整理(表1),也可直接在指标后标注,如灵敏度为96.06%(390/406)。
诊断筛查试验研究多为样本研究,所得的评价指标结果均为样本统计量,由于存在抽样误差,需要对研究结果进行区间估计或假设检验。在编辑工作中,很少有论文报告评价指标的精确度,既往已经发表的论文中,也只有大约一半的论文提到了结果的精确度[17]。大多数论文对AUC一般都给出了95%CI(置信区间),而很少给出灵敏度、特异度等指标,这可能与统计软件的默认输出结果有关。SPSS、SAS、R等常用统计软件可直接给出AUC的95%CI估计结果,但部分软件无法给出灵敏度和特异度等指标的区间估计值。为保证结果完整准确,编辑在审查时,应提醒作者在报告指标点估计值时,同时给出指标值的区间估计值。
在诊断筛查类来稿中,经常遇到比较2个试验的灵敏度、特异度等指标的情况,大部分稿件都直接比较指标的点估计值。在“血清胃泌素释放肽前体联合神经烯醇化酶诊断较血清胃泌素释放肽前体单独诊断进一步提高灵敏度(91.5%比86.1%)”[18]的表述中,就把2个诊断筛查试验的灵敏度点估计值直接进行了比较。由于诊断筛查试验所得出的评价指标值均有抽样误差,直接比较点估计值所得到的结论未必正确,需要进一步对指标值进行统计学分析,从而得出更加严谨的结果。可采用率的检验(比如U检验)方法比较2个试验的灵敏度和特异度等指标的差异;也有学者[19]建议将资料整理为四格表后,采用配对χ2检验比较灵敏度、特异度等指标的差异。编辑在核查时,应重点审核论文是否采用了相应统计方法来比较不同诊断筛查试验各指标的差异。需要注意的是,当涉及3个及以上的诊断/筛检试验的指标比较时,若总体有统计学意义,如果继续分析试验的指标优劣,就需要进行两两比较。编辑在审查时,需要核实论文是否采用了正确的统计学方法,比如:比较2个AUC的差异,可采用U检验进行比较;当比较3个及以上AUC差异时,可采用Delong检验、Hanley & McNeil检验等方法;两两比较可采用Bonferroni等方法对检验水准进行校正。
医学论文的编辑加工是一项繁杂、细致和辛苦的工作,而且医学稿件的学术含量很高,不但要求编辑具有较好的文字功底,还要具备一定的医学专业知识,并掌握科学的加工整理方法[20]。编辑加工整理对于帮助作者提高论文的质量非常重要。与审稿工作一样,编辑的工作态度不同,其加工效果也大不一样。因此,医学期刊编辑在做好审稿工作的同时,也应重视稿件的编辑加工与整理工作,尤其要重视论文的科学性加工,保证论文的学术质量。对于诊断筛查试验的研究实施和论文撰写,国际上有研究标准可供研究者参考,如STARD清单[1]、CONSORT申明[21]等。然而,通过编辑审稿和文献审读发现,国内诊断筛查试验研究的执行质量并不乐观。因此,医学期刊编辑应主动学习,提高自身的医学素养,增加包括诊断筛查试验研究在内的相关临床研究知识,加强各项相关国际指南的学习,掌握常用的统计学分析方法,从而提高对诊断筛查类研究论文的把控质量。
一篇设计完善、报告规范的诊断筛查试验类研究论文,对于临床医生的科研工作和临床决策具有极其重要的参考价值和指导意义。诊断筛查试验类论文除了包括临床专业知识外,还涉及盲法比较、统计分析等环节,对于方法学知识的要求较高。因此,加强对该类论文的编辑审查也至关重要。通过文献学习和审读,笔者结合编辑实践经验,从研究设计、评价指标、结果报告等方面,系统梳理出相应的审核要点,同时提出了审核建议和应对策略,以期能够对编辑同行在诊断筛查类稿件的质量把关方面有所助益。本研究的重点在审核要点的总体分析,因此对具体问题或错误的解析较少涉及。在未来研究中,将进一步扩大审读范围,对国内外重点医学期刊的诊断筛查类论文进行研究,对论文中可能出现的问题进行详细分析和比较,找出国内外差距并提供应对策略,从而进一步提高诊断筛查类论文的学术质量。