郑欣雅,黄运有,张奕婷,翁晟杰,詹剑锋,张知非
1首都医科大学基础医学院,北京 100069 2广西师范大学计算机科学与工程学院,广西桂林 541000 3中国科学院计算技术研究所先进计算机系统研究中心,北京 100086
人工智能自20世纪50年代诞生以来,在社会生活的各个领域得到了广泛应用,其中医疗领域是人工智能应用的主要场景之一。近年来,医学人工智能研究迎来爆发式发展,涉及领域包括肿瘤在内的各类疾病的诊断、分类与预测,疫情诊治与监测,医疗机器人,可穿戴设备,智能药物研发与健康管理[1-2],以及智能医学教育[3-4]等。
医学人工智能的优势在于其能够快速处理和学习大量数据,形成等同或超越人类能力的算法或模型[5],通过支持和促进循证医学实践以及患者的个性化治疗,明显提高医学研究和医疗服务效率,降低医疗成本和医生负荷,让患者获取优质便捷的医疗服务,改善医疗体验,在推进医疗保健方面具有巨大潜力。然而,目前大部分人工智能模型仍停留在实验室阶段,最为关键的是,医学人工智能标准研究也处于初级阶段,现有的标准在术语、数据、标注以及追溯等方面多为通用标准[6],缺乏成熟的规范及标准用于对医学人工智能产品整个研发周期的管控,难以保证医学人工智能产品的质量。另一方面,医学人工智能产品在研发及落地的过程中面临应用、理解及接受多样化以及应用方面存在偏差等挑战,造成医学人工智能产品统一交互、比较以及评价困难。同时,医学人工智能在部署过程中还需面对复杂的伦理挑战[2],解决这些挑战亟需科学完备的规范与标准体系管控及引导。
建立统一的医学人工智能技术安全标准、应用规范和评价体系是保证人工智能在医疗健康领域发展与应用的基础和前提。依据在医疗全生命周期中承担的功能分类,医学人工智能标准体系包括基础类、数据类、技术类、应用与服务类、安全与隐私类、管理类6种类型[7],而依据其存在形式可分为医学数据标准、标准数据集、基准和规范/指南4类[8]。本文基于后者进行总结分析,以期为医学人工智能标准的进一步发展提供参考。
医学数据庞大复杂,既有传统的临床数据、实验室数据,又有人口健康数据、公共卫生数据等,随着可穿戴设备进入人们日常生活,数据采集的方式和来源也越来越多样化,而医学数据的质量是医学人工智能的根本,直接决定医学人工智能的可靠性和最终应用。统一的医学元数据(Metadata)标准是临床研究数据资源管理和共享的关键,是发展大数据人工智能的前提。元数据又称为中介数据,是描述数据的数据(data about data),主要是描述数据属性的信息,用来支持和指示历史数据存储位置。医学元数据标准是医学数据标准研究领域中最活跃的研究方向之一,该方向覆盖了从数据采集到处理的各个方面,是实现数据统一互通的基础。当前,医学元数据标准的建设已经跨入成熟阶段,获得了众多成果。其可用于规范医学数据采集、存储、传输、计算和展示[9],从而实现异源异构医学信息资源整合、提高医学数据处理的效率和质量。由于医疗领域数据化发展较早,医学元数据标准化进程已经历了漫长的过程[10],相对于医学人工智能标准体系中的其他类型,目前相关数据标准和术语标准已经比较成熟。
1994 年,Regenstrief 研究院发布的观测指标标识符逻辑命名与编码系统(logical observation on identi-fiers names andcodes,LOINC)覆盖了实验室测试临床观测指标语义标准,该标准成为临床数据交换标准协会(Clinical Data Interchange Standards Consortium,CDISC)标准的一部分。值得注意的是,美国食品药品监督管理局(Food and Drug Administration,FDA)、日本医药品医疗器械综合机构强制要求递交符合CDISC标准的电子数据,我国国家药品监督管理局2016年发布的临床试验数据管理工作技术指南也建议采用CDISC标准递交原始数据库和分析数据库[11]。
SNOMED-CT (Systematized Nomenclature of Medicine-Clinical Terms)医学系统命名法-临床术语,是当前国际广泛采用的临床医学术语标准。SNOMED-CT标准是以概念为中心对临床信息进行系统编排的标准数据集合,适用于计算机处理和电子健康档案记录,主要用于临床信息采集、与临床知识库连接、信息追溯以及临床数据积累和交换。SNOMED-CT已与其他常用国际临床术语标准建立映射与合作关系,并发展出多种语言扩展版。
为了对医学知识资源的重要特征进行准确、规范描述,从而有利于对互联网海量医学资源质量与真实性进行评估,国际标准化组织(International Organization for Standardization,ISO)与欧洲标准化委员会(European Committee for Standardization,CEN)合作出台了ISO 13119:2022《健康信息学-知识资源-元数据》[9]。此外,DS/EN ISO 13119-2013(丹麦标准化协会)、KS X ISO 13119-2015(KR-KATS)、GOST R ISO 13119-2016(RU-GOST R)、KS X ISO 13119-2015(2020)(KR-KS)、BS/EN ISO 13119-2022(英国标准学会)均属于ISO 13119标准。
医学数字成像与通信(Digital Imaging and Communications in Medicine,DICOM)是医学图像存储和传输的国际标准,其由美国放射学会和美国国家电气制造商协会联合成立的标准委员会于1993年首次发布。DICOM标准应用于放射学、心脏病学成像和放射治疗设备(X线、CT、MRI、超声等),并越来越多地应用于眼科和牙科等其他医学领域的设备。DICOM®被国际标准化组织认定为ISO 12052标准,在中国乃至全球均有广泛应用。
HL7s(Health Level seven standards)是与医疗健康信息传输与交换相关的医学元数据标准,是支撑互操作性、互联互通能力的基础标准之一[12]。此标准随1987年成立的HL7组织一起诞生。在美国,HL7s实际上已成为一个强制性标准,主要涉及医疗保健信息的交换、管理及整合,还包括病房和患者信息管理系统、化验系统、放射系统等各个方面。在我国,医院病历系统供应商早在制定行业标准之前就建立了自己的系统,导致可用于数据交换的标准医学术语缺乏标准化,另外医院间数据共享活动不活跃,HL7s标准在我国尚未得到广泛应用。
近年来,快速医疗保健互操作性资源(Fast Heal-thcare Interoperability Resources,FHIR)标准越来越受到研究者的关注。其是HL7组织于2011年开发的一项新标准[13],最初由美国联邦机构和保险公司推广使用。FHIR标准主要思想是构建一组资源,用于定义数据格式、数据元素和基于HTTP的REST应用程序编程接口协议,以实现健康护理相关信息的交换。这些规则和程序的核心组成部分共同实现了医疗保健中越来越多的计算机应用程序之间的数据交换。其在智能手机、平板电脑、移动健康应用程序、智能手表和健身追踪器等智能技术的支持方面均一致,且能够在单个文档中显示患者细粒度的数据访问,使临床研究数据检索既及时又高效。FHIR标准具有其他标准不可替代的优势,因此在医疗保健领域被迅速采用,2019年以来美国国立卫生研究院加大开发FHIR工具研究的资金支持,鼓励研究人员探索FHIR的应用,进一步促进了基于FHIR的数据基础设施和管道的开发,以及研究产生的数据的存储、分析和共享。有学者认为,FHIR标准可能成为未来解决医疗保健互操作性问题的合适解决方案[13]。
人工智能研发过程中,数据的收集和处理通常占据70%左右的工作量,标准亦是如此。医学数据标准已开展多年,积累了大批可互操作以及规范的数据资源,成为基于数据驱动的医学人工智能研究的基础,避免了医学人工智能标准建设需从头开始的窘境。然而,多年来医学数据标准的建设均是以临床目标为主,近年的医学人工智能数据标准充分考虑了人工智能的具体需求,但仍缺乏对人工智能与医学深度融合后产生的新问题的标准。例如,数据的选择沿用了传统医学的纳入和排除规范,忽略了数据对真实世界还原度的标准规范,这会导致医学人工智能模型部署在真实世界时难以泛化。
鉴于人工智能模型自身以及研发过程中的随机性、复杂性,不同的数据集上研发和测试的模型可能存在巨大差异,甚至相同数据集上不同训练策略或测试策略也会造成模型的差异。因此,数据集的建立需要遵循相同的标准,而数据集本身也成为人工智能标准的重要组成部分。然而,人工智能标准建设存在滞后性且数据集构建需耗费大量时间,使得人工智能发展初期不得不使用影响力大或公认的现有数据集作为标准。例如,在缺乏标准的时代建立的ImageNet数据集存在很多问题,但却被图像识别领域作为标准引领了人工智能技术复苏以及发展的潮流。与人工智能技术发展初期相似,医学人工智能数据构建标准的欠缺导致部分现有数据集成为了用于人工智能技术研发和评价的标准。目前存在的大多数标准数据集是根据目标疾病的数据类型进行分类,例如与X线、CT、MRI、超声等相关的医学影像数据集,与心电、脑电等波形数据相关的生理参数数据集,与基因、蛋白相关的组学数据集及与特定疾病或研究目标相关的多模态数据集等[14]。
得益于成熟的医学数据标准,医学影像领域积累了大量数据,已成为医学人工智能最先获得突破的领域。目前,医学数据标准从数据的收集、存储、标注、处理、安全及伦理多方面均有了成熟标准。例如,医学影像的格式标准DICOM、数据交互标准FHIR、疾病分类标准ICD-10等。上述医学数据标准的建立为医学数据集的构建提供了基础,因此国内外涌现出了大量的医学影像数据集,促进了人工智能技术在医学影像领域的创新和发展。
2011年建立的癌症影像档案馆(Cancer Imaging Archive,TCIA)[15]是一个应用广泛的癌症医学影像的大型公开数据集,由美国国家癌症研究所资助,目前由弗雷德里克癌症研究国家实验室进行管理。该数据集收集的成像数据可按常见疾病类型(如癌症)或图像(如MRI、CT、数字组织病理学等)进行分组,还包括患者结果、治疗细节、基因组学、病理学和专家分析等与图像相关的数据。TCIA数据集是最早提供遵循FAIR原则的结构化数据的数据集。FAIR原则是指可查询(Findable)、可访问(Accessible)、可交互(Interoperable)和可再用(Reusable)的数据科学管理准则,2016 年由国际组织 FORCE11 正式提出,为医学影像 AI 科研提供了标准化数据保障[16]。其他代表性的数据集还包括LIDC(Lung Image Database Consortium)、EyePACS、RICORD(RSNA International COVID-19 Open Radio-logy Database)等。
为促进我国医学影像数据集的建设,2019 年国家卫生健康委员会能力建设和继续教育中心、国家药品监督管理局医疗器械技术审评中心等多家单位启动建设我国“肺部病变多模态影像和乳腺癌 X 线医学人工智能标准数据集”,涵盖肺部常见疾病 CT(包括增强 CT)、PET/CT 标准数据集和乳腺癌 X 线标准数据集[17]。该数据集打破了单一病种的局限性,构建了面向器官的数据集方案。
欧美各国最主要的4个心电数据集包括美国麻省理工学院与 Beth Israel 医院建立的MIT-BIH 心电数据集、美国心脏学会的AHA 心律失常心电数据集、欧盟的 CSE心电数据集和ST-T 心电数据集。上述心电数据集遵循国际电工委员会创立的IEC 标准并对心电图进行逐帧标注,但多为单导联心电图,数据量相对较小。2018年,我国在国家重点研发计划的支持下建设了首个符合中国人群的中国心电数据集,为我国AI心电智能分析算法的发展提供了数据基础[18]。最近,中国、美国及韩国分别建成了采集人数超过10 000人的12导联心电图数据集[19]。
癌症基因组图谱(Cancer Genome Atlas,TCGA)数据集始建于2006年,存储和管理关于癌症基因组数据的各类信息。TCGA已经生成了超过2.5 PB的基因组、表观基因组、转录组和蛋白质组数据。该数据集旨在提高诊断、治疗和预防癌症的能力,是目前医疗领域应用最广的公开数据集之一。其他组学数据集还包括GTEx、GEO、TIMER2.0、HPA、TISIDB、cBioPortal、LinkedOmics和ImmuCellAI等[15]。
以疾病或特定研究目标建立的标准数据集,通常包括影像、生理参数、实验室检查、临床观察以及组学数据等在内的综合多模态数据集。例如,旨在对阿尔茨海默病进行早期检测和跟踪的ADNI(Alzheimer’s Disease Neuroimaging Initiative)公共数据集、重症监护医疗信息相关数据集MIMIC(Medical Information Mart for Intensive Care)[8]。北京协和医院眼科于2021年构建的糖尿病视网膜病变(diabetic retinopathy,DR)眼底彩照人工智能研究标准数据集,填补了我国基于实际临床应用场景的DR标准数据集的空白[20]。为提高我国肝脏移植临床诊疗和科研水平,中华医学会外科学分会外科手术学学组、中华医学会器官移植学分会肝移植学组、中国医师协会器官移植医师分会移植免疫学专业委员会联合组织撰写了《肝脏移植标准数据集》,此数据集主要参考国际国内术语标准(如ICD-10、ATC LONIC等),电子病历规范(HL7 CDA),国际及国内疾病标准指南、数据规范及专家共识,同时兼顾中国肝移植注册等系统的填报需求,为我国AI在肝脏移植方面的发展提供助力[21]。最近,广州医科大学建立了世界上首个专门研究铁死亡调控因子和铁死亡疾病关联的FerrDb V2数据集,为铁死亡相关疾病的机制研究奠定了基础[22]。
研究表明,使用有限和特定临床环境数据训练的模型应用于特定患者群体往往会出现数据选择偏倚和覆盖偏倚,这些数据偏倚可能造成模型在实际部署与开发过程中的表现产生明显差距。而对于同一个数据集,也存在用不同模型训练产生的效果迥异的现象[23]。由于医疗的特殊性和人体的复杂性,每一个用于医疗实际的人工智能模型或产品的实用价值和安全性都必须经过严格评估。2021年世界卫生组织发布了全球首份卫生人工智能报告及其设计和使用6项指导原则,报告指出,尽管在医疗领域应用人工智能具有明显益处,但必须将其临床部署过程中存在的风险降至最低[24]。第三方评测和临床试验是风险控制和评价的最佳选择,但因其对资源和时间的巨大需求无法满足人工智能模型快速迭代开发中频繁测试的要求,因此在人工智能研究中,通常采用“基准”来评估和比较模型性能,其也是人工智能发展的驱动力。基准本质上是标准化的任务集,包括任务(如乳腺癌筛查)、代表任务的数据集(如乳腺癌筛查数据集CBIS-DDSM)以及评估模型性能的一个或多个指标(如准确率)。在智能医学领域,构建标准化的医学人工智能基准是一项紧迫且颇具挑战性的任务。医学人工智能的未来取决于人工智能基准可在多大程度上反映医疗保健的实际需求[25]。
最近,针对开发和评估具有临床诊断推理能力的临床自然语言处理模型,推出了一套新的诊断推理基准Dr.Bench。其是一套临床任务,包括来自10个公开可用数据集的6项任务,涉及临床文本理解、医学知识推理和诊断生成,目标是推进临床自然语言处理模型的科学发展,以支持计算机诊断决策对应的下游应用,并提高医疗保健提供者在患者护理过程中的效率和准确性[26]。MedPerf则是由来自13个国家的20家公司、20家学术机构和9家医院代表组成的的专家联盟创建的基准测试平台,旨在用联合学习方法将人工智能模型安全地分发至不同的机构(如医疗机构),以实现人工智能模型的联合评估[27]。
另外,研究人员还开发了用于自动血栓检测的基准CODEC-Ⅳ[28],有望提高手术机器人性能的手术工作流程和技能分析基准HeiChole[29]等。而CBLUE_数据集则是一套中文医疗信息处理评测基准。
2023年ChatGPT-4和Bard的发布,大语言模型(large language models,LLM)在医疗环境中的潜在应用前景引起了空前关注。LLM不仅以优秀的成绩通过了美国执业医师考试,可生成临床文档(如出院总结、手术和程序说明)、综述研究论文或作为聊天机器人回答患者有疑虑的医学问题等,还可协助医生根据医疗记录、图像、实验室结果诊断病情,并提出治疗方案[30]。但由于LLM的输入和输出范围几乎是无限的,且无法提供信息的确切来源,因此无法确保答案的确定性和可信度。开发测试LLM的可用性和市场表现的测试基准是医学人工智能面临的新挑战。有研究使用EQIP(Ensuring Quality Information for Patients)工具测试ChatGPT-4提供的5种肝胆疾病医药信息的可靠性,发现与临床指南的一致性为60%[31]。此外,测试LLM抽象推理能力及其他认知能力的方法仍然是一个悬而未决的问题。2023年5月的一项研究在2019年创建的抽象推理语料库基础上,制作了一套新的谜题,称之为ConceptARC,旨在为测试人工智能系统的能力提供更好的基准,测试结果显示ChatGPT-4在逻辑谜题检测中正确率很低,提示ChatGPT-4在推理抽象概念能力方面存在欠缺[32]。
随着AI的发展和应用,医学领域必将带来颠覆性的改变,这也必然对现有的秩序和人际关系造成冲击,同时也将产生新的技术、法律和伦理问题,需要健全相关的规范加以约束。2021—2023年迎来了人工智能的快速发展时期,世界卫生组织相继发布了《为基于人工智能的医疗设备生成证据:训练、验证和评估框架》《医疗卫生中人工智能的伦理治理》等指导性文件,旨在对AI医疗设备产品生命周期内的验证、生成证据和报告等方面的具体方法、原则、标准、基本路径和实施要点,以及医学人工智能伦理治理达成全球共识[33]。与此同时,为提高医疗市场人工智能设备的安全性和性能,美国FDA发布了基于人工智能/机器学习的“软件即医疗器械(SaMD)行动计划”,欧盟则发布了《医疗器械条例》[34]。为顺应医学人工智能在我国的快速发展,2022年国家市场监督管理总局和国家标准化管理委员会联合发布了《信息技术 人工智能 平台计算资源规范》[35],为我国人工智能平台建设提供了标准依据。同年,中共中央办公厅、国务院办公厅印发了《关于加强科技伦理治理的意见》[36],这是我国首个国家层面的科技伦理治理指导性文件,是为了进一步完善我国科技伦理体系,实现高水平科技自立自强,是加强我国科技伦理治理的标志性事件之一。为应对ChatGPT-4,Med-PaLM2等生成式人工智能技术的挑战,2023年7月国家互联网信息办公室等七部门联合公布了《生成式人工智能服务管理暂行办法》[37],旨在促进生成式人工智能技术健康发展和规范应用,但仍缺乏在医学领域应用的细化规定。
当前我国医学人工智能规范较多,然而各类规范并未形成统一体系,涉及不同临床任务的规范均需单独开发,因此规范发布滞后于研发速度的现象普遍存在。例如,关于阿尔茨海默病的人工智能研究如火如荼,相关规范却未见发布。另一方面,当前医学人工智能规范对人工智能与医学的融合程度相对较低。例如,国家药品监督管理局发布的评审要点中对于医疗器械的评价采用了临床试验结合传统人工智能指标的方式,而并未进一步将医疗器械的评价推向临床获益,易造成人们对医疗器械应用的过度乐观。
应用医学人工智能已成为我国现代医疗领域发展的必然趋势,但相关标准研究相对滞后,目前仍缺乏统一且规范化的中文临床医学术语标准、大规模高质量标注的训练数据集,规范化的测试基准和专业化的监管体系尚不成熟,不利于人工智能在医疗领域的长远发展。此外,人类疾病谱不断迁延变化,医学人工智能作为健康领域极具潜能的助手,其标准体系亦需不断完善。
未来医学人工智能的标准建设应着重关注人工智能与医学深度融合所产生的新的术语、关系以及问题,围绕真实临床场景进行拓展。因此,如何将传统临床获益纳入医学人工智能标准建设将是急需突破的重要目标之一。然而,目前临床获益却无法直接融入当前的医学人工智能体系。一方面,传统临床试验中临床获益通常需对患者进行一定时间的观察,并且根据患者的主要临床结局进行计算。该方式耗时耗力,与需要频繁测试评价的人工智能开发流程相冲突。另一方面,为了降低临床试验相关时间和资源成本,最近基于真实世界数据的临床评价方法被提出。然而,该方法存在一定局限性。首先,基于该方法的评价是回顾性的,难以模拟类似前瞻性试验中出现的不确定因素。其次,真实世界数据通常关注受试者当前以及历史状态,难以根据患者受干预后临床结局给出准确评价。因此,当前的临床获益要融入医学人工智能标准并非易事。为了降低成本以及保持试验的准确性,结合基准以及小规模真实临床试验的评价标准可能是建立临床获益在内的医学人工智能标准的可行途径。