王 浩,孟祥峰,郝 烨,李佳戈,李静莉
中国食品药品检定研究院,北京 100050
随着人工智能技术的发展,人工智能医疗器械产业不断壮大,临床应用不断增加[1-2]。当代人工智能医疗器械普遍采用机器学习[3]的技术路线,核心算法的训练、调优、测试、临床试验等关键环节均需使用高质量的临床数据集。在算法训练与调优阶段,数据集的属性类似于原材料,帮助人工智能算法学习临床特征,建立辅助决策的能力。在算法测试阶段,数据集的属性类似于测试基准(benchmark),是比较算法决策结果和人工决策结果的主要载体;数据集的标注结果一般由人工判读产生,是算法测试的参考标准(reference standard)。在人工智能医疗器械产品的临床质控阶段,数据集的属性类似于质控品,用于对产品质量进行日常监测,为识别、预防不良事件提供支撑。因此,数据集的质量对于人工智能医疗器械产品的全生命周期均具有重要影响,国内外多个医疗器械监管技术文件将数据质量控制列为重要议题[4-5]。为了充分支撑监管需求、规范数据集建设与质控,我国在人工智能医疗器械标准化进程中,围绕数据质量开展了大量工作,并于2022年牵头起草发布了国际先进标准IEEE 2801-2022《医学人工智能数据集质量管理推荐标准》(IEEERecommendedPracticefortheQualityManagementofDatasetsforMedicalArtificialIntelligence)[6],同年发布了我国行业标准YY/T 1833.2-2022《人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求》(下文简称“YY/T 1833.2-2022”)[7],初步建立了“数据集开发过程管理+质量评价”双管齐下的标准框架。
数据集质量评价的基本思路,来自信息技术、临床数据管理、医疗器械监管等多个领域的交叉融合。国际标准ISO/IEC 25012[8]作为信息技术领域的基础通用标准,明确了数据质量特性的基本定义,在医疗领域有待进一步展开和转化;临床数据管理领域公认的FAIR原则[9],即可查寻(Findability)、可访问(Accessibility)、可交互(Interoperability)、可再用(Reuse)原则,在专病数据集建设过程中被广泛采用;医疗器械监管关注电子数据的完整性与可追溯性,在数据核查活动中常采用ALCOA原则[10],强调数据的可归因性(Attributable)、易读性(Legible)、同时性(Contemporaneous)、原始性(Original)、准确性(Accurate)五大属性。上述原则为标准的起草提供了重要理论依据,属于文献调研的重点[11-12]。近年来我国在医学专病数据库、人工智能医疗器械数据集建设方面开展了大量工作[13-16],为YY/T 1833.2-2022标准的起草提供了实践素材和行业共识基础,也支持了标准的技术验证。
本文对YY/T 1833.2-2022中数据集通用要求的编制思想、条款内容和实施方式进行解析,旨在为数据集的开发、质量评价及过程管理提供依据,以引导临床机构按照标准要求开展数据集建设与质量验收,助力将我国丰富的临床数据转化为人工智能医疗器械行业急需的高质量数据集,为人工智能产品的高质量发展提供良好的产业供应链。
YY/T 1833.2-2022适用于对人工智能医疗器械质量有直接影响的数据集,例如产品研发阶段使用的训练集和调优集、验证/确认阶段使用的性能独立测试集和临床试验数据集、上市后使用的质控数据集等。上述数据集对应人工智能医疗器械全生命周期质量管理的各个关键环节,是监管证据链的组成部分,因此成为标准的主要关注对象。对于研发早期用于概念论证、人员培训等活动的其他数据集,若不涉及最终产品的设计开发和测试活动,未纳入医疗器械范畴,可参考执行本标准,不作强制要求,以避免限制创新。当产品研发采用迁移学习路线时,预训练模型本身依托的数据集若来自非医疗领域,亦不适用于本标准。
YY/T 1833.2-2022的主要约束对象是数据集制造责任方,其定义为“对数据集的设计和制造负有责任的实体”。医院、体检机构、科研院所、生产企业、检测机构、监管机构都有可能成为数据集制造责任方。在开展数据集质量评价前,数据集制造责任方需根据标准要求,准备数据集的描述文档、风险分析文档、可追溯的过程记录,明确声明数据集的质量特性。
数据集的文档要求主要包括说明文档及风险分析文档2个方面。YY/T 1833.2-2022第4章提出了数据集的说明文档要求。说明文档用于向用户、第三方检测机构、监管机构描述数据集的基本情况、开发过程和质量特性,作为开展质量评价的依据。描述文档的作用类似于医疗器械的说明书和技术要求的融合。
数据集制造责任方在编写说明文档时,应重点关注数据集的类型、基本信息、标识信息、质量特性4个要素。
数据集的类型可按照数据集本身的预期用途、数据来源、用户类型、访问管理方式、更新形式进行划分。数据集类型将影响数据的采集路径、存储方式、管理机制,影响数据集的开发与维护成本,且与数据集制造责任方的工作量直接相关。IEEE 2801-2022进一步解释了数据集类型对数据质量管理的影响。
数据集的基本信息包含数据模态、数据层次、应用场景、数据采集要求、数据预处理要求、数据标注要求、数据元、元数据、数据更新、数据多样性等要素,以及依从的条件、规则和规范。数据集的设计输入(建设方案)是数据集基本信息的主要来源,数据集建成之后的统计信息作为补充。
与医疗器械软件类似,数据集本身也需要具备命名、唯一标识和版本号,用于追踪数据集的使用、流通和变化情况,配合监管机构对数据集进行追溯;数据集制造责任方的名称、联系方式也应在说明文档中体现。数据集如出现更新,版本号则应及时变更。
数据集制造责任方在建成数据集之后,应按照YY/T 1833.2-2022第5章的要求,将数据集的各个质量特性映射为具体的技术指标,在说明文档中进行声明。本部分将直接体现数据集的技术水平,是横向比较数据集质量的重要依据。对于可客观量化描述的技术指标,数据集制造责任方应给出具体数值,例如准确性、一致性;对于不能客观量化描述的技术指标,数据集制造责任方应给出可验证的书面证据,例如可访问性、可理解性。
数据集风险分析文档是数据集制造责任方开展风险管理活动的重要产出,标准中强调了数据集偏倚风险,列举了选择偏倚、覆盖偏倚、混杂偏倚等情形。数据集制造责任方可参考临床试验设计中的偏倚控制思路,在设计、建立数据集的过程中加强样本的多样性、代表性。对于临床获取难度较大的病种、样本,数据集制造责任方可通过数据扩增等方式提供补充,但应注意对扩增数据进行人工审核确认后方可投入使用,且对扩增数据赋予特别的标识,与真实临床数据进行区分。
YY/T 1833.2-2022第5章共规定了17种质量特性。表1归纳了其中与数据价值有关的8个质量特性及其注意事项。这些质量特性一般在编写数据集的设计输入(建设方案)时由数据集制造责任方预先声明,实际效果取决于数据采集、预处理和标注环节。
表1 与数据价值相关的质量特性
为了确保上述质量特性得以实现,数据集制造责任方需从数据源头加强把关,注意事项解释如下:
(1)准确性:一方面,数据采集应尽量反映患者生理或病理层面的真实情况,标注结果应尽量接近金标准或参考标准;另一方面,数据录入应尽量避免出现错误,导致偏离真实情况。准确性由数据采集设备的先进程度、数据采集流程与人员操作的规范程度、数据标注与数据录入的严谨程度共同决定。“真值”的呈现形式与具体的数据模态有关,需要根据现实条件确定。例如,病灶良恶性的判定以病理诊断作为“真值”;冠状动脉狭窄程度的判定以冠状动脉造影结果作为“真值”。为了确保“真值”的实现,采集数据的设备(如放射影像设备、光学成像设备、生理信号采集设备等)应符合相关法规、标准要求,完成必要的计量、校准,使之处于有效状态。
(2)完备性:一方面包含数据元、元数据字段的全面性,由数据集的数据结构体现,可通过数据库软件进行预览和查验;另一方面包含数据采集、标注的充分性,由数据集包含的数据模态、信息量体现,需经数据解析进行验证。
(3)唯一性:数据集的唯一性体现在病例、数据元等不同层面。数据集的样本如出现重复,将破坏数据集的预设分布,导致数据集存在偏倚等问题,因此各个样本应保证唯一。数据集制造责任方在进行数据收集时,应进行查重,从根源上杜绝样本重复。值得注意的是,对于同一病例提交多次检查的情形,不同检查应避免重复,例如病例的多次随访/预后评估数据之间、MRI不同扫描序列之间、冠状动脉CT平扫/增强序列之间避免重复。
(4)一致性:标准提出的一致性包含内部和外部两个层面。内部一致性指的是同一数据单元在内部流转过程中质量保持不变,例如图像数据在经历脱敏、查重、标注等操作后,图像矩阵保持不变。数据流转过程中的格式转换、有损压缩是影响内部一致性的常见风险,需引起重视。外部一致性指的是不同批次、不同来源样本之间的相似性,需开展数据之间的横向比对,尤其注意数据采集条件、标注方式的相似性。
(5)确实性:主要反映样本的真实程度,客观上要求数据集制造责任方防范数据造假、数据污染等情形,体现了数据集制造责任方的诚信、严谨程度。
(6)时效性:反映数据集的采集条件、标注规则是否适应当前需求,同时也体现了数据集制造责任方的执行效率。
(7)精度:主要由数据采集设备、数据标注软件的技术水平决定。例如,成像设备的空间分辨率、像素分辨率、动态响应范围等技术参数决定了数据采集的精度;标注软件能够勾画的最小分割单元等技术参数决定了数据标注的精度。
(8)代表性:作为体现数据公平的主要属性,需事先设计、事后验证。数据集设计输入(建设方案)的预设样本分布、样本量设置应考虑临床患者群体的流行病学特征;数据集建成后,实际的统计分布应尽量贴近预设分布。
数据集建成后,其使用质量也是数据集质量评价的重点。表2归纳了与使用质量有关的6个质量特性及其注意事项,其含义与软件质量评价相似,以用户的权益为视角。对于数据集制造责任方而言,使用质量取决于数据的存储格式、编码形式、封装方式。数据集制造责任方在建设数据集的同时,需考虑辅助工具的匹配,例如数据库软件、数据恢复软件,以加强对用户的技术支持能力。
表2 与使用质量相关的质量特性
数据集建设过程中,数据集制造责任方具有管理责任,YY/T 1833.2-2022对此也进行了规定。表3归纳了与管理相关的3个质量特性及其注意事项。保密性需从数据脱敏、数据安全、网络安全等角度考虑,对基础设施和工具有一定要求。依从性主要由数据集制造责任方声明,明确数据集建设过程中执行的法规、技术标准、临床规范、参考文献,对数据集的合规性提供系统支撑,同时也反映了数据集总体设计的合理性。可追溯性要求数据集制造责任方在数据采集、预处理、标注等各个环节建立操作规程和原始记录,以过程为导向加强数据集的合规性,以助于满足人工智能医疗器械生命周期的质量管理要求。
表3 与管理相关的质量特性
YY/T 1833.2-2022作为医药行业标准,以监管需求为出发点,主要用于对人工智能医疗器械行业使用的数据集进行质量评价,也可用于自检、第三方测试、数据集进货检验等目的,同时可帮助人工智能医疗器械的生产厂家对数据集的供应商进行审核。
标准要求数据集制造责任方提供数据集说明文档、风险分析文档,能够帮助监管部门快速了解数据集的建设过程和技术水平,也能够帮助生产企业根据需求遴选数据集。标准要求数据集制造商声明17种质量特性,为数据集质量的横向比对提供了依据,能够帮助行业形成统一的质量认识。值得注意的是,数据集制造责任方在声明质量特性时,需参考具体病种、模态和预期应用的产品情况、监管要求[17-21],不宜将专病数据库的技术参数直接转化为数据集的质量特性。专病数据库作为医学数据资源的重要载体,以病种为主题,其范围一般大于YY/T 1833.2-2022提出的数据集概念,应根据对标的人工智能医疗器械需求,进行样本抽取、筛选和整合,形成真正的数据集,提交质量评价。
数据集的质量评价流程以抽样检验为主要步骤。YY/T 1833.2-2022沿用了目前市场监督抽验常用的国家标准,统计方法较成熟,数据集制造责任方可采用相关方法开展自检,确定抽样方案和质量水平。YY/T 1833.2-2022的发布实施,有助于企业自检,亦有助于指导新检测工具、检测平台的开发[22]。
数据集是人工智能医疗器械产业发展的重要资源。YY/T 1833.2-2022的发布实施,为数据集的质量评价提供了统一标准,为数据供应链的发展提供了质量保证同时为相关机构研究建立具体医学场景下的数据集专用标准提供了通用框架,将推动数据集质量评价在细分领域的落地。医疗机构启动数据集建设前,可按照该标准的要求梳理数据采集条件,为后续人工智能产品开发和应用提前谋划,从而节约资源。临床机构作为数据集建设的主力军,有必要充分了解标准的内容,根据标准的要求准备数据集描述文档、风险分析文档,在数据集建设阶段保留可追溯的记录,并加强人员培训和过程监管。