王亚辉 徐虹 李大金
医学研究报告规范是指导各类医学研究、临床实践报告规范使用的文件,有助于客观、完整、科学地报告研究方法和结果,保证报告的透明性。[1—2]医学研究报告规范种类较多,如指南(guideline)、建议(recommendation)、标准(standard)等,主要的文件形式包括清单、流程图和文字说明。医学研究报告规范对作者、编辑、审稿人均具有重要作用:对作者,在研究实施前对照医学研究报告规范进行设计,有助于提升研究的科学性,如选择适当的研究方法、方案和偏倚评估、统计方法等;对编辑和审稿人,则提供了医学论文审读的参照标准,是评价报告透明性、完整性的重要参考。
医学期刊具有特殊的天然使命,承担着为各类临床实践和卫生政策提供证据的责任。[3]遵守医学研究报告规范是提升临床研究报告质量的关键,也是循证医学方法学体系中的关键环节。从医学研究报告规范产生、完善和应用的历史沿革来看,医学期刊编辑在其中扮演了重要角色。国际上,医学研究报告规范最早发布于1979 年,即《生物医学期刊投稿的统一要求》(Uniform Requirements for Manuscripts Submitted to Biomedical Journals),在2013 年更改名称为《ICMJE 推荐规范》(Recommendations for the Conduct,Reporting,Editing and Publication of Scholarly Work in Medical Journals),[4]制定该医学研究报告规范的团队后发展为国际医学期刊编辑委员会(International Committee of Medical Journal Editors,英文简称ICMJE)。目前对于大多数国际医学期刊而言,已普遍认可并遵守《ICMJE 推荐规范》。然而,随着医学研究的持续发展,不同的研究目的、问题(如治疗和发病机制、病因和预后、诊断等)需采用不同类型的研究设计,普适性的《ICMJE推荐规范》仅提供了最低标准,不能满足特定研究设计的要求。因此,2008 年“提高医学研究质量和透明度”(Enhancing the Quality and Transparency of Health Research,英文简称EQUATOR)协作网启动,[5]陆续发布针对不同研究类型的医学研究报告规范,供研究者使用。
医学研究报告规范在我国的引入、应用离不开医学期刊的宣传推动。例如,应用最广泛的随机对照试验报告规范(Consolidated Standards of Reporting Trials, 英文简称CONSORT)最早即由《中国循证医学》[6]、《中华男科学》[7]在国内首次刊登介绍,随后《中国实用内科杂志》[8]等医学期刊陆续刊登文章对CONSORT 进行解读。[9]29
与此同时,我国医学期刊行业多年来对医学研究报告规范的整体知晓率未得到有效提高。[10]358在建设世界一流科技期刊的时代背景下,更新观念、了解并掌握国际上关于医学研究报告规范的最新进展具有重要意义。
2019 年以来,中国科学技术协会指导所辖各学会面向各学科领域国内外科技期刊,陆续发布了各领域高质量科技期刊分级目录,旨在引导更多优秀论文发表在我国高质量科技期刊,增强我国科技期刊竞争力。首批临床医学领域高质量科技期刊分级目录于2019年9 月发布,涉及心血管病学、内分泌病学、儿科学及医学影像学四个方向。其中,医学影像学科技期刊分级目录选定国内外专业期刊共计47 种,北美放射学会会刊Radiology等12 种期刊归为T1 级,是接近或具备学科领域国际顶级水平的期刊。
2020 年,Radiology:Artificial Intelligence(Radiology子刊)以社论形式刊登了《人工智能医学影像研究报告检查清单:作者与审稿人指南》(Checklist for Artificial Intelligence in Medical Imaging:A Guide for Authors and Reviewers,英文简称CLAIM),[11]对此类论文的规范化报告提出了详尽具体的建议。2023 年3 月,CLAIM 由EQUATOR 协作网发布,成为受到国际公认的、具备行业权威性的人工智能医学影像研究报告规范。国际上已有实证研究显示,期刊论文的社会影响力指标与作者对CLAIM 的依从性呈正相关,且相对于预印本论文,同行评议论文具有更高的报告完整性。[12]
医学影像作为重要的临床诊断和研究数据,占所有临床数据的80%以上。人工智能技术在图像处理、病变分类、轮廓描记等方面,具有快速、准确的特点,已应用于心血管[13]、呼吸系统、神经系统疾病及肿瘤[14—15]等的辅助诊断。随着人工智能技术迅速发展及其在医学影像诊断效率上的出色表现,人工智能医学影像已成为医学研究中发展最快的热点方向之一。[16—17]国内外人工智能医学影像研究论文的发表数量迅速增长。[18]以权威期刊Radiology为例,2019 年创办了人工智能方向子刊Radiology:Artificial Intelligence。在我国,人工智能医学影像临床研究已经进入“弯道超车”阶段,各高水平医学影像中心积累了大量数据,在世界范围内的学术贡献比例持续提高。然而,与此态势形成反差的是,长期以来我国医学期刊刊载的临床研究论文整体上存在报告质量、方法学质量不高等问题,包括作者对医学研究报告规范的依从性较差,[19]论文的研究设计、数据分析方法和汇报完整性等亟待提高等。[20—22]
不完整、不清晰、不透明的报告会降低医学研究论文的可重复性和整体质量,并严重影响其二次研究和转化。上述现象虽然由多种因素造成,但一定程度上暴露出我国医学期刊编辑在认知和专业素养上的缺失。[10]361尽管人工智能医学影像研究是当前发展最迅速的方向之一,但目前我国医学期刊编辑对相关论文的关注,多集中在图片鉴别、插图加工等编辑校对层面,尚无针对其报告规范的调查与研究。
本文对标国际权威临床影像期刊,跟踪医学研究报告规范在人工智能及医学影像领域的最新进展,首次引入和介绍人工智能医学影像诊断准确性研究报告规范,并对合理应用提出相关建议,为国内医学期刊编辑部和审稿人提高审读质量提供有价值的借鉴和参考,以期促进我国医学研究论文报告质量的提升,助力世界一流科技期刊建设。
CLAIM 自2020 年面世后,得到了权威医学影像专业团体、期刊,如欧洲放射学会及其会刊等的支持和推荐。CLAIM 主要的文本内容包含检查清单和条目说明,整体以《诊断准确性研究报告规范》(Standards for Reporting Diagnostic Accuracy, 英 文 简称STARD)2015 版为基础,[23]共包含42 项条目,主要适用于诊断准确性类型研究,也适用于疾病的筛查、治疗决策、预后、疗效评估等研究内容。具体的应用包括图形分类、图像重建、文本分析和工作流程优化等。
CLAIM 检查清单的内容如表1 所示。42项条目按科学论文的结构进行分组,摘要、引言、讨论和其他信息这四部分的条目与STARD 2015 版对应的条目基本一致。在方法部分,保留“研究设计”子主题,更新“分析”子主题并具体化为“数据”“真值”“数据分区”“模型”“训练”和“评估”子主题。在结果部分,更新“研究对象”“试验结果”为“数据”“模型性能”子主题。
表1 人工智能医学影像诊断准确性研究报告检查清单
CLAIM 在医学期刊的应用正在起步。针对中国科学技术协会高质量期刊目录中的47种医学影像学期刊在临床研究报告方面的期刊政策的调研显示,国内13 种中文刊中,尚未有期刊在其“投稿须知”及官网对人工智能医学影像方面稿件需遵守的报告指南进行说明。部分期刊提出了普适性的要求,如《磁共振成像》在“投稿须知”的“出版伦理要求”相关内容中提出:“本刊要求所有作者依照生物医学研究报告标准撰写论文。随机对照试验可参照CONSORT 声明,系统评价参照PRISMA,观察性研究的Meta 分析参照MOOSE,观察性研究参照STROBE,诊断试验参照STARD 声明,定性研究参照RATS,经济学评估参照CHEERS。”在国际期刊方面,除Radiology最早在其领域子刊登相关要求外,迅速跟进的还有欧洲放射学会期刊European Radiology,其稿约在“材料与方法”相关内容中明确指出“此部分内容应提供足够详细的信息,以便他人重复实验。强烈建议遵循适用的报告指南(请参考EQUATOR 协作网或CLAIM 指南)”。其他英文医学期刊则在期刊政策的临床研究报告规范方面,概括性地提出要求遵守ICMJE 和EQUATOR 协作网发布的医学研究报告规范。这些现象与CLAIM发布时间短及期刊自身导向有一定关系。尽管调研的期刊样本数量有限,但从一个侧面反映出CLAIM 的广泛应用尚需要时间以及行业内循序渐进的推动。
与国内期刊界的反应形成对照的是,我国已有学者对CLAIM 的使用效果进行研究,并在一项最新的综述中指出,在深度学习影像组学研究论文的设计和报告指南方面,CLAIM 较优于现有的影像组学质量评分(radiomics quality score, 英文简称RQS)工具和《临床预测模型报告规范》(Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis,英文简称TRIPOD),并在论文数据的去标识化和失效分析方面表现出额外的优势。[24]随着深度学习等人工智能技术应用的增多,CLAIM将显示更好的适用性。
为促进CLAIM 的应用和推广,本文提出以下几项建议,供医学期刊编辑参考,以指导作者合理使用CLAIM。
“投稿须知”越来越多地受到医学期刊编辑部的重视,已有研究者不断呼吁推进我国医学期刊“投稿须知”的规范化,并在“投稿须知”中明确医学研究报告规范的相关要求。[9]32,[25]除了“投稿须知”这一途径,编辑部可结合期刊设置的栏目,采取简报、消息、动态以及举办讲座等形式对CLAIM 进行系统介绍,还可利用新媒体手段加大该方面信息的传播力度,推动作者、审稿人对人工智能医学影像研究论文报告清单知晓率的提升。
同时,在实际工作中,由于目前国内对CLAIM 了解尚少,编辑须引导作者在遵照期刊总体要求的基础上参考清单的主要条目,以最大程度对稿件内容进行完整说明,避免教条式的照搬。
编辑在指导作者使用CLAIM 时应注意提醒作者避免使用模糊的描述。真值标记或注释提供了影像中不同结构或特征的确切位置、性质信息,作为算法或模型的参考标准,应予以明确、详细地说明。例如,在《基于深度学习的口腔鳞状细胞癌CT 增强图像中颈部转移淋巴结自动检测模型的建立及临床应用研究》一文中,作者在资料与方法部分详细报告了“转移淋巴结标注”相关内容,包括CT 图像的层厚、图像分辨率,淋巴结勾画方法和标注过程实施等,这样的表述就比较清晰。[26]
在CLAIM 清单中,涉及模型描述的具体要求为第22 至24 项。稿件中易出现的主要问题包括模型结构叙述不清晰或不完整、缺乏对模型参数初始化的描述等。另外,目前此类医学影像研究论文中,较多的是直接利用已有模型或修改后加以应用,此时编辑应留意作者是否引用了相关文献,或对修改情况详细说明。若无,须请作者添加。这也是医学研究报告规范中“论文材料/方法部分”的通用要求,目的是保证论文结果的可重复性和透明度。
编辑和审稿人在应用CLAIM 审理稿件过程中,应注意适用的研究设计类型,以及研究对象纳入/排除标准、样本量估算、盲法判定、可靠性分析等共性问题。
需要特别指出的是,尽管CLAIM 适用于多种人工智能医学影像研究设计类型,但它仅提供了一种框架,并非所有条目都适用于每一篇稿件。编辑可将其视作稿件审读和指导作者规范、完整地撰写稿件的一种“最佳”实践,但仍需结合期刊的具体要求和稿件内容等来进行合理使用。例如,CLAIM 中将“减小变异和/或解决偏差的方法”置于方法部分,而在实际稿件处理时,一般也可在讨论部分进行具体探讨。换言之,论文不需要逐条照搬清单中的条目,可以将若干条目合并报告。但是,对于涉及医学期刊出版伦理的有关项目则需严格遵守。例如,涉及人、实验动物研究的稿件,编辑部应注意形式审查和相关信息的适当披露,如伦理审批、受试者的知情同意、临床试验注册、研究方案储存等情况。此外,对利益冲突、经费资助、数据可用性的声明也是出版伦理和研究透明性涉及的重要方面,编辑和审稿人在审理稿件时应予以重视。
CLAIM 的应用不仅能使编辑和审稿人直观地评估论文是否要素齐全恰当,使作者更加直观清晰地了解如何对研究成果进行报告,还能使读者全面了解研究过程,更好地评价其真实性。同时,推广CLAIM 的应用对于提高相关医学研究的报告质量、促进临床研究成果的转化效率具有重要意义。因此,本文呼吁医学期刊合理应用CLAIM 检查清单,以促使作者对人工智能医学影像研究成果进行详细、全面的描述,提升相关医学研究论文的报告质量和学术质量,最终推动医学期刊高质量发展,助力世界一流医学期刊建设。