行业标准《人工智能医疗器械质量要求和评价第1部分：术语》解析

2023-11-30 03:11孟祥峰李佳戈

协和医学杂志 2023年6期

孟祥峰，王浩，李佳戈

中国食品药品检定研究院，北京 100050

人工智能是基础设施的组成内容，除需与云计算、区块链等技术相融合外，还需与5G、物联网、互联网等通信技术，以及数据中心、计算中心等算力技术相融合。如人工智能与云计算融合后，云计算平台可根据授权在云中收集、存储和分析电子病历、检验检查、临床诊断数据，为人工智能模型训练提供大量优质的数据支持，打造更好的医疗人工智能产品。人工智能同5G相融合，将诊断功能下放至有通讯条件的基层地区，可提升基层医生的诊疗水平；也可与数据中心、计算中心相融合，利用强大的算力支持，开发不同模态、不同病种的医学应用案例。近年来，人工智能算法在医学影像、手术导航、神经电生理、脑机接口、智能康复、体外诊断、健康大数据等领域与医疗器械深度融合，在疾病诊断、治疗、康复、慢病管理、预防等方面显示出了巨大应用潜力。

人工智能技术在未来医疗中具有良好应用前景，同时也产生了诸多问题，包括人工智能与哪些医疗行为的融合属于医疗器械范畴，人工智能医疗器械在深度学习或使用中持续学习时应如何及何时对其进行验证，验证方法是否会产生风险，等等。因此，应建立人工智能医疗器械质量评价标准体系，确定合适的方法以验证基于人工智能的医疗器械软件。

术语标准是人工智能医疗器械质量评价系列标准的基础标准，通过为人工智能医疗器械的质量评价提供可使用的统一术语和定义，规范产品性能及安全评价手段、评价特性、评价方法及评价指标；通过明确产品类别，促进人工智能医疗器械评价体系的建立[1]，为产品的开发、测试及质量控制提供依据。

1 术语标准国内外研究现状

在我国GB/T5271系列标准中，第28、31和34部分[2-4]分别定义了人工智能相关的基本概念与专家系统术语、机器学习术语、神经网络术语三部分。人工智能相关GB/T5271系列标准等效采用ISO/IEC国际标准：ISO/IEC 2382系列标准[5]。2022年10月14日，由TC28(全国信息技术标准化技术委员会)归口，TC28SC42(全国信息技术标准化技术委员会人工智能分会)执行的国家标准GB/T 41867-2022《信息技术人工智能术语》[6]标准正式发布，并于2023年5月1日实施。该标准界定了人工智能领域中的常用术语及定义，给出了基础类、关键通用技术、关键领域技术、安全/伦理四大类术语的定义。人工智能技术作为信息技术的一个分支，在过去的标准中，分散在“信息技术”系列标准的不同部分。而GB/T 41867-2022标准的发布，将“人工智能”技术形成独立的标准，这符合该技术的发展趋势，也符合当前国际上对于信息技术词汇的发展趋势。国际上ISO/IEC 2382系列标准中相关信息技术的术语均整合在ISO/IEC 2382：2015标准中。此外，2022年国际标准化组织和国际电工委员会联合发布ISO/IEC 22989：2022[7]标准，阐述了与AI系统相关的概念及相关技术。

当前国内外相关术语标准均面向信息技术，以人工智能新技术为导向，无法体现医疗器械领域独有的特性及风险点，且产品的质量评价也并非上述研发标准所关注的内容。因此开发人工智能医疗器械质量要求和评价术语标准对医疗行业具有重要价值。由国家药品监督管理局主管，人工智能医疗器械标准化技术归口单位起草的YY/T 1833.1-2022《人工智能医疗器械质量要求和评价第1部分：术语》标准于2022年7月1日发布，2023年7月1日起实施，该标准界定了人工智能医疗器械质量要求和评价使用的术语和定义。统一的评价指标体系也是人工智能算法质量评估重要的研究问题之一，这有助于实现人工智能算法的横向比较，使评价更为客观。该标准是专门服务于医疗器械的人工智能技术相关术语，主要突出医疗器械领域独有的特性及风险点、质量评价相关指标术语，这份标准对融合人工智能技术的医疗行业具有重要价值。

2 标准框架介绍

本标准是YY/T 1833《人工智能医疗器械质量要求和评价》系列标准的第一部分，是保证标准系统一致性与连贯性的基础性标准，为整个标准体系术语定义的统一奠定了基础。标准分为基础技术术语、数据集术语、质量特性术语、质量评价术语、应用场景术语5个章节。如图1所示，该标准在收集和广泛征求社会各界意见后，重点突出医学人工智能技术与医学人工智能评价技术的相关需求，有侧重地对术语进行分类，同时兼顾不同的临床应用场景。例如，将目前的人工智能评价指标分为检出、分类、分割等几种形式，将评级方式分为对立性能测试、判读者性能测试、多判读者对病例研究等几种形式。

图1 人工智能医疗器械术语标准框架

在术语的编排上体现了人工智能医疗器械带来何种新的概念、医学术语与通讯术语如何融合，明晰了部分词义混乱与应用场合，修改了由于多领域借用导致的词汇不规范现象，避免了混用术语对行业的不良影响。对于测试技术相关术语，为便于理解和使用，采用附录的形式，以文字、图标、公式等方式进行解析，方便读者理解每条数据的准确概念。标准按照GB/T 1.1-202《标准化工作细则第1部分：标准化文件的结构和起草规则》的规定起草。

3 术语分类

3.1 基础技术术语

基础技术术语部分共收录了33个词汇(表1)，主要包括应用于医疗器械领域的关键人工智能技术，如模式识别、人工神经网络、机器学习、服务能力与方式(医学知识库、算法服务、云服务、本地服务等)。

表1 基础技术术语列表

本标准定义的“人工智能医疗器械”是指采用人工智能技术实现其预期用途的医疗器械。如“采用机器学习、模式识别、规则推理等技术实现其医疗用途的独立软件；采用内嵌人工智能算法、人工智能芯片实现其医疗用途的医疗器械。”该定义重点强调“实现其预期用途”，这里的预期用途指的是满足医疗器械定义的医疗目的，排除虽采用了人工智能技术，但仅为器械的非医疗功能，如用于“登记”的人脸识别。在该定义的注释中，对基于当前技术的人工智能医疗器械进行举例，包含独立软件的形式及智能硬件等产品形态。

机器学习是指与人类学习行为相关的人工智能，机器学习虽是人工智能的子集，却是人工智能的核心领域[8-10]，各种机器学习技术广泛用于医疗器械中。标准收录和定义了多种机器学习技术，如深度学习、监督学习、无监督学习、联邦学习、迁移学习等，这些技术的定义将有助于开发人员对产品的技术类型进行归类，便于测试人员有针对性地进行相关测试。

3.2 数据集术语

数据集在人工智能医疗器械的开发、生产、检验、监管中是一个非常重要的角色。而数据集的质量对人工智能医疗器械的质量具有重要影响，数据集可用于训练和测试，因此其关系到产品算法的开发与调优、临床前评价、回顾性临床试验、产品性能监控、变更确认等几个方面。目前，业内对于数据集的需求旺盛，随着产品预期用途不断增加，对数据集在病种、数据格式、标注细节、规模等方面的要求也越来越复杂[11]，标准从数据集类型、数据处理、金标准、数据标注、数据模态等方面对相关数据进行了归纳和定义。

根据用途的不同，标准将数据集分成3类，分别是用于算法训练的训练集、用于优化算法的调优集和用于测试算法的测试集。数据集最重要的宗旨是强调合规、可用，应当收集由伦理委员会批准或脱敏后豁免的临床数据。该标准对数据质控的一些词汇进行了定义：(1)数据清洗：保证数据可用，把错误数据剔除或修正；(2)数据治理：数据是可用的，但可能是无序的，比如数据的标注规则不统一、存储与调用格式不明确等，把这些无序的数据整理起来，便是数据治理的过程；(3)数据脱敏：保证数据满足我国相关法律法规的要求。此外，人工智能技术发展迅速，从影像到文本、信号等多种数据模态迅速迭代，标准对数据的存储模态和方式进行了一些定义，包括图像、文本、数值等。

在标准中提到的“外部知识源”即是数据的标签，相当于诊断结果。对于数据集的标签标准给出了3个定义，分别为参考标准、金标准和GT值。无论是参考标准还是金标准，若用于与算法输出的结果进行比较，均可称之为GT值。而金标准属于参考标准的一种，是基于当前医疗手段最优的诊断结果。以上标签均是通过数据标注而获得。

3.3 质量特性术语

通过对人工智能医疗器械相关的图书[12-13]、文献、标准、法规等相关资料进行调研及梳理，本标准建立了统一规范的质量特性术语，为YY/T 1833系列标准中的质量评价标准提供了术语基础。标准收录了可靠性、完整性、一致性、重复性、再现性、可达性、可得性、保密性、网络安全、安全性、鲁棒性、泛化能力、可追溯性、公平性、可解释性、响应时间等16个方面的特性，为人工智能医疗器械质量评价提供了通用的判断依据。这些特性包括一般软件产品的质量特征，如可靠性、安全性、鲁棒性等，也包含人工智能特有的质量特征，如可追溯性、公平性和可解释性，从不同方面反映了产品的质量水平。

3.4 质量评价术语

人工智能医疗器械产品检测指标通常是对数据进行分类、对数据的特征进行标记或提取[14]，标准在术语中将指标拆解为检出、分类、分割3类[15]，从业人员在使用评价指标时需精心辨别词义，区别相似概念在用法上的细微区别，避免造成认知上的误解和使用上的混乱。该部分给出了涉及影像、文本、信号等不同模态数据的评价指标，并给出了明确定义，避免同一术语不同含义的现象，从业人员可根据检测需求进行选择。对于这3类评价方法多为利用算法后的结果与参考标准进行比较，若单纯在利用算法输出结果的情况下进行测试，定义为“独立性能测试”，即将算法自身和参考标准比较。而“判读者性能测试”是在临床检验中经常用到的一种评价方式，因此可将算法自身配合医生的判断与参考标准进行比较。通过这两种方法可更全面地分析产品辅助诊断或检测的性能。

3.5 应用场景术语

人工智能医疗器械的产品类型和应用场景快速增加，已从早期单一的影像识别扩展为多模态人工智能产品形态。其在辅助诊断、辅助筛查等诸多领域实现了突破，可帮助医生识别CT影像、病理切片、皮肤/视网膜图像、心电图、内窥镜检查、面部和生命体征，应用场景也在不断丰富。标准基于现有产品形态及技术水平认知，总结归纳了11个大类别的应用场景，这将有助于准确对产品进行分类，便于检验评价指标体系的选取，以及监管部门进行管理。从目前取得注册证的产品来看，以计算机辅助诊断和计算机辅助检测两类产品居多。其中，计算机辅助诊断产品突出在提供除计算机辅助检测结果之外的信息，包含对患者是否患病、疾病类型、严重程度、发展阶段、干预措施等作出的判断。应用场景术语的定义对产品的预期功能进行了准确划定，从场景维度对产品进行了划分，为产品的审评/审批、分类界定提供了参考。

4 讨论

对于人工智能医疗器械质量的要求和评价贯穿了人工智能器械的整个生命周期，包括数据集评价、过程评价、验证评价、变更再评价、临床性能评价等。在不同阶段，产品将面向不同的人群，如研发人员、审评人员、临床医生、患者等，因此必须建立统一的术语规范，实现跨系统间产品检测评价的互操作性和一致性。

该标准的应用范畴为人工智能医疗器械。虽然部分人工智能技术可用于医学的某个环节，但并非所有医学人工智能产品均属于人工智能医疗器械，比如标准提到的临床决策支持类产品、知识图谱类产品，在某些国家和地区，可能并不属于医疗器械。人工智能医疗器械在风险预测、疾病检测、诊断和治疗等任务中可为临床医生提供支持，在不同的临床用途、不同的应用场景、不同生命周期监管阶段，应选择合适的评价指标，严格按照标准规定的含义执行，避免性能要求、质控参数的混用滥用，保证参数的可比性以及评价的统一性。如人工智能算法评价指标中，Dice系数和Jaccard系数均表示模型产生的目标窗口与参考标准窗口之间的相似度，公式的分子均包含目标窗口与参考标准窗口的交集，取值范围均在0和1之间，但其具体的公式表达有细微区别。精确度和召回率均表示真阳性样本比例，不同的是，精确度表示真阳性样本在被算法判为阳性的全部样本中所占比例，而召回率表示真阳性样本在全部阳性样本中所占的比例，二者具有较大区别。

产品上市前的验证和确认活动需建立独立的测试集、临床试验数据集。产品临床部署后，日常质控环节需要建立数据集用于评估算法性能是否发生变化、是否可重复。产品上市后监督检验、更新再评价等活动也需要建立专用的数据集。该标准单独为数据集设置术语章节，从数据模态、数据规范、数据集的构建、数据集的标注、数据集的应用等方面进行了定义，读者应根据术语要求，依据不同的应用目的规范数据集建设，为产业的高质量发展提供基础支撑。这里的术语对数据集建设者也是一种提示，应从合规、可用、准确等方面进行人工智能医疗器械的开发、生产、测试。

5 小结

术语是相关领域内的基础性标准。在人工智能医疗器械领域，《人工智能医疗器械质量要求和评价第1部分：术语》为后续标准的起草提供了重要名词定义，规定了人工智能医疗器械的范畴，按场景对产品类型进行划分，建立了不同模态数据的评价指标体系，这将有助于促进行业形成统一认识，减少多义和同义现象，避免在产品评价过程中产生歧义和误解。

该标准共158个术语，其中引用或修改引用术语71个，首次出现或首次给出明确定义的术语87个。标准中，我国首次对“人工智能医疗器械”术语进行定义。基于当前认知达成的共识，标准对常用的人工智能技术进行了举例，并对人工智能技术在诊疗过程中所起的作用进行限定，不仅涉及软件技术，还囊括了智能硬件技术，这对医疗器械产品的分类和定性具有重要参考意义。常用术语方面，比如参考标准、金标准、GT值，召回率、灵敏度、查全率，Dice系数、Jaccard系数，测试集、训练集、调优集等常被提及，某些含义似乎相同或类似。通过文献调研，标准对上述术语的细微差别和本质区别进行了明晰，避免了语义混淆和误用。

术语标准是基于当前共识所建立，突出了产品质量要求和评价中可能会使用的术语，比如机器学习技术，仅考虑标准起草前所出现的技术；应用场景，仅考虑当前已上市或在研产品的情况；质量评价，仅考虑当前型式检验及临床评价的方式。人工智能技术在飞速发展，随着生成式人工智能技术、智能机器人技术等的应用落地，新的理念和认知将不断涌现，术语标准也将进一步扩充和完善。

行业标准《人工智能医疗器械 质量要求和评价 第1部分：术语》解析