人工智能医疗器械标准体系设计探索

2021-12-31 08:42王浩唐桥虹郝烨孟祥峰李佳戈李静莉

中国医疗设备 2021年12期

王浩，唐桥虹，郝烨，孟祥峰，李佳戈，李静莉

中国食品药品检定研究院医疗器械检定所，北京 102629

引言

人工智能（Artificial Intelligence，AI）医疗器械在我国发展较快，目前已有十多个产品获得第三类医疗器械注册证，技术转化和临床应用步伐加快。为支持产业发展，我国药品监管部门开展了卓有成效的监管研究，在AI医用软件产品的分类界定[1]、AI医疗器械产品的审评审批[2-5]、软件产品生产质量管理[6]等环节发布了多个重要的指导原则和技术文件，对产业提供指导。2019年，国家药品监督管理局正式成立了AI医疗器械标准化技术归口单位，组织我国AI医疗器械标准的制修订，为监管和产业提供技术支持，目前已有两个行业标准完成报批[7-8]。

标准体系的设计是开展标准化工作的基础。由于AI医疗器械是医疗器械领域新的分支，目前相关的国际标准化组织尚未建立专门的技委会。欧美国家近年来相继发布了各自的AI标准规划，我国的国家标准化管理委员会在2020年也发布了《国家新一代人工智能标准体系建设指南，我国的AI医疗器械标准体系建设需要结合行业实际进行探索。

由于我国的AI医疗器械产业刚刚起步，来自教育、科研、监管、临床等领域的利益相关方参与标准化工作的热情高涨，思路较为多元化。本文对于AI医疗器械标准化的趋势进行了梳理，对AI医疗器械标准体系的发展方向提出了建议，旨在促进AI医疗器械标准化进程，完善质量评价体系。

1 标准化发展趋势

1.1 行业前沿动态

从监管历史来看，对AI产品的监管思想建立在传统计算机辅助诊断软件基础上，不断发展变化，趋于严格。美国食品药品监督管理局（Food and Drug Administration，FDA）在2019年提出了良好机器学习规范（Good Machine Learning Practice，GMLP）的概念[9]，探讨产品的变更和再评价问题，旨在缩短算法更新后的评价周期。在征求社会意见的基础上，FDA提出了AI/机器学习医疗器械软件行动计划[10]，在调整监管框架、发展GMLP的同时，提出了以患者为中心、对用户的透明度、算法偏倚与鲁棒性评价、真实世界证据。欧盟在“可信赖的AI”伦理思想[11]基础上，把AI的风险控制纳入立法环节，其中医学AI属于高风险应用。

从国际标准化活动来看，信息技术领域（通用AI、软件测试等）、医用电气设备等诸多领域的标准化成果，对AI医疗器械的标准化有借鉴意义。表1列举了近3年来国外已发布的相关标准化文件，来自国际标准化组织（International Organization for Standardization，ISO）、国际电工委员会（International Electrotechnical Commission，IEC）和美国国家标准化组织（American National Organization for Standardization，ANSI）等。

表1 国外相关标准化文件汇总

从信息技术领域的角度看，ISO、IEC在大数据参考架构、AI术语、AI可信赖性、AI软件测试方法等方向开展大量工作，形成了较多的技术报告（Technical Report，TR）。从医疗器械角度看，IEC在医疗器械自治能力方面形成了TR，与AI医疗器械存在密切联系。从美国ANSI/CTA的情况看，医学AI的术语定义、可信赖性形成了标准，以阐述概念为主，内容较为简短，不涉及具体产品的验证、确认、测试。

从国外产品公布的上市申请资料来看，这些产品在性能指标、测试方法、测试集等方面存在较多的差异，尚未建立统一的范式[24]。从国外算法模型评价与比对的情况看，AI的临床应用还受到不少问题的制约，例如预期用途描述不清晰、算法偏倚、过拟合、测试结果难以重复、数据管理混乱等[25]。在临床研究领域，AI产品专用的临床试验报告要求也成为了研究热点[12,26]。

1.2 质量评价实践的演化

在产品质量评价的实践环节中，对AI医疗器械产品算法性能的评价也在演化发展，对标准体系的建设同样提供了重要的启示。本节以糖尿病视网膜病变辅助诊断软件为案例，介绍质量评价思路的变迁。

在起步阶段，此类产品的质量评价工作立足于测试集的整体结果，反映统计学意义下的总体表现。一般来说，测试人员需要收集来自不同地区、不同机构、不同临床分期的患者眼底图像构建测试集，比较AI给出的分期与参考标准的分期，从而计算准确率等主要指标。

为扩展对产品鲁棒性的认识，测试人员可对眼底图像进行裁剪、插值、滤波等处理，模拟临床环境下的数据变化和硬件变化，把处理后的图像输入AI产品，观察其输出的变化。此类测试也称为对抗测试[2]，侧重产品性能变化的趋势，有助于制造商更好地限定产品的部署使用环境及数据质量要求。

在AI伦理思想的推动下，AI的可解释性、可预测性等要求正在影响产品的质量评价思路。AI产品性能的“拐点”成为质量评价关注的新问题，即了解AI的性能在何种条件下出现显著的偏离。本文设计了算法测试用例，对于糖尿病视网膜病变辅助诊断算法的“拐点”进行观测和举例。

由于眼底图像上的出血斑是临床医生、AI产品进行图像分期的重要依据，而出血斑的尺寸因患者而异，具有临床多样性。为了直观地研究出血斑尺寸对AI算法的影响，从增殖性糖网病变的眼底图像上提取出血斑的图像，按照不同比例线性改变其尺寸，使用泊松融合算法[27]植入另一幅健康的眼底图像，从而合成试验样本。根据医学定义，合成的图像属于糖网二期，属于需要临床转诊的分期。

将合成的系列图像输入开源的糖网AI算法模型，可得到AI分期结果随出血斑尺寸变化的曲线和“拐点”（图1）。随着出血斑尺寸的增大，AI的分期出现了阶梯式的上升；当出血斑的尺寸低于20像素时，算法给出的是假阴性结果；当直径大于等于20像素时，算法的分期结论保持正确。这意味着出血斑的尺寸对AI的准确性有直接的影响，制造商在临床部署时需更加细化明确产品的适用范围，开展针对性的验证和确认。该案例所体现的AI算法性能变化，也反映了AI与人类医生认知模式的区别，有助于用户了解AI本身性能的限制。

图1 糖网AI算法分期结果与出血斑直径的关系曲线

通过上述案例可以发现，AI产品的质量评价宜下沉到算法的工作过程中，关注AI在患者个体、病灶个体上的表现，了解算法的偏倚与能力限制。这种测试思路有助于完善AI医疗器械的方法标准、产品标准。

2 标准体系设计建议

根据上述情况，AI医疗器械的标准化，需要以问题为导向，在应用中落地。本节对AI医疗器械的标准体系设计提出建议。图2所示为AI医疗器械标准体系框架图，分为基础标准、管理标准、方法标准和产品标准四大板块，各板块又可展开成不同的角度。

图2 AI医疗器械标准体系框架图

2.1 基础标准

以深度学习为代表的新一代AI算法的工作方式具有黑盒特性，难以直观地理解，因此利益相关方对产品质量缺乏充分的了解和信任，在人机互动方面存在一定的疑惑，制约着AI的应用落地。因此，AI医疗器械产品的安全有效应包含可信赖性、透明度、可解释性、可溯源性等一系列内在要求。这是建立健全基础标准的一大出发点，需要在产品的安全可信、编码溯源、隐私保护、人机交互、可用性等方面开展工作，对上述质量特性加强控制，增强利益相关方的信心。

根据研发现状，AI产品设计受到数据、算法双重驱动，高质量的数据集是研发活动的物质基础；产品形态以独立软件、软件组件为主，算法的质量与软件的特性密不可分；产品运行环境日趋灵活，与互联网技术高度融合。上述因素对产品质量有直接的影响。因此，基础标准还需要在数据集、数据标注、算法框架与模型、软件特性、网络安全等角度开展工作，加强产品的质量保证。

2.2 方法标准

由于AI算法具有黑盒特性，产品的质量评价目前主要关注输入-输出之间的关系，性能指标测试结果与输入的测试集有一定的关联，产品在真实世界中的表现也可能随数据发生变化。因此，AI医疗器械的质量评价方法与传统医用电气设备、医疗器械软件存在较大差别。

从需求来看，AI医疗器械的方法标准需要解决算法模型、成品的质量评价需求，包含上市前验证与确认、临床验收与质控、真实世界监测等各个环节。不仅考虑常见的性能指标（如灵敏度、特异性等），而且对AI特殊的质量特性进行评价，如鲁棒性等。质量评价的维度需要从患者整体向个体进行扩展，关注算法的细节表现。此外，根据惯例，质量评价过程需要调用的方法、工具、平台，也应作为方法标准的一部分进行考量，例如用于扩增测试数据的方法等。

2.3 管理标准

AI医疗器械的发展依托于数据、算法、算力，验证和确认的方式比较特殊，产品的更新迭代频繁。其生产质量管理一方面执行现有法规[6]和质量管理标准（ISO 13485、YY/T 0287等）的通用要求，另一方面需要规范AI算法、数据集[28]本身的设计开发流程、生命周期管理，对算法更新与再评价的框架进行创新，对云平台、计算平台等特殊的生产设施加强管理，对标注人员[29-30]、数据采集人员的选拔、培训、质控进行统筹。AI医疗器械管理标准的研究，还应借鉴医疗器械软件监管与标准化的思想[31-32]，强调预防不良事件、加强产品版本控制与追溯。此外，管理标准的落地，需要具体领域技术规范的支持，例如在数据集标注与建设方面编写配套的专家共识[33]。

2.4 产品标准

目前，我国已上市的AI医疗器械产品预期用途包括辅助诊断、辅助检测、辅助分诊等，数据模态包括了CT、MRI、眼底彩照、心电、X线等。由于在每个细分方向的产品数量还不够丰富，产品标准的制订条件尚不成熟，目前暂时处于预研状态，将根据产业发展规模和监管需求提上日程。AI医疗器械的产品标准将明确具体产品的功能、性能指标、试验方法、检验规则等内容，对基础标准、方法标准进行呼应。产品标准也包括AI医疗器械附件、原材料（包括数据集）的专用要求、指标、验证方法。

3 讨论

我国的AI医疗器械标准体系建设，在学习借鉴国际经验的同时还需要兼顾国情，与国外存在一定的差异：一方面，国外的标准研究来源于软件测试[20]、通用AI[19]、大数据[12]等已有的标准化领域和组织，与医疗器械行业的结合比较薄弱，缺乏集中的顶层规划。国内的AI医疗器械标准化工作在药品监管部门领导下，立足于监管需求，标准化的对象更加丰富，考虑了产品的通用质量特性、性能与安全指标、评价方法、原材料（数据集）等各个方面，以及生产质量管理的各种要素（如数据标注），覆盖产品的全生命周期；另一方面，由于AI技术本身处于快速发展中，国内的标准化工作一般立足于行业的普适性、阶段性成果，对于具体产品的设计工艺、核心部件、技术细节和最新进展的关注程度还不够充分，在细粒度和时效性方面可能存在不足，标准的前瞻性有待提高。

本文在国内外文献调研和产品测试实践基础上，对我国AI医疗器械标准体系的设计策略进行了研究，分析了基础标准、方法标准、管理标准、产品标准各自的发展需求，并对产品质量评价的发展方向进行了展望。AI医疗器械标准的发展，一方面应与我国的监管法规做好衔接，发挥技术支持作用，另一方面应及时吸收国际前沿思想，更好地管控AI医疗器械的特殊风险，提高对产品质量的认识和评价能力。