张建楠,李莹莹,周佳卉,朱烨琳,李兰娟
(1.浙江数字医疗卫生技术研究院,杭州 311100;2.浙江大学医学院附属第一医院,杭州 310003)
独立医用软件(SaMD)是独立于医疗设备硬件而在通用计算机上使用并直接用于一个或多个医疗目的的一类软件[1]。随着人工智能技术的快速发展和领域渗透,基于人工智能技术的独立医用软件正在快速发展。世界范围内已经涌现的一批人工智能独立医用软件产品,包括常见的医学影像诊断软件及一些放射诊断器械、临床化学检测系统、心血管诊断和监测器械、神经病学诊断器械和眼科诊断器械等[2]。人工智能(AI)新技术赋能催生了监管部门对这类特殊产品的监管需要[3],对此美国食品药品监督管理局(FDA)等世界AI发展领先国家监管部门和国际医疗设备监管机构论坛(IMDRF)等领域相关国际组织开展了热烈讨论并开启了针对智能化新兴医疗器械软件的监管变革。FDA总结了此次变革归因于AI的技术特殊性在传统监管模式中的不兼容,不同于传统计算机医用软件程序代码完全固定可完全适应于静态的医疗器械监管模式,AI技术以数据、算法和算力为技术特征,由数据或算法驱动的独立医用软件会随着算法和数据的变化而动态变化,加剧了产品安全性和有效性中的不确定性风险,增加了实时软件监管和高频变更控制需要[4]。这意味着AI独立医用软件在上市后的监管包括变更控制、质量控制和安全监测将尤为关键。
当前,大部分国家监管机构面向AI独立医用软件上市的监管制度和政策已逐步建立。2019年,美国FDA开展了基于人工智能/机器学习的医疗器械软件(AI/ML-based SaMD)的监管框架讨论以应对AI医用独立软件监管[5]。FDA延用了IMDRF对SaMD制定的风险分类分级框架[6];并依照AI算法特征将相关产品对应于各自适用的510(k)、上市前审评(PMA)和 产品重新分类申请(De Novo)监管审批通道,初步制定了不同严格程度的上市前/后监管程序和必须遵照的监管规则。FDA从算法性质出发将人工智能独立医用软件开发算法分为“锁定”(locked)和“自适应”(adaptive),分类分级了其中的不确定性风险程度。基于“锁定”算法,软件算法不随使用改变,相同输入即得相同输出。而基于“自适应”算法,软件通过既定学习进程可改变软件的根本性能表现,算法的更新及确认受其本身控制,相同输入在软件迭代更新前后可能会得到不同输出结果。在FDA监管框架下,IDx-DR成为FDA批准的第一个提供糖尿病视网膜病变诊断决策的自主AI系统[7],而另30余种AI独立医用软件产品均以“锁定算法”经FDA批准上市[8]。FDA目前对于算法自适应的AI独立医疗软件如何监管尚未有万全的应对方案[9]。中国国家药品监督管理局(NMPA)对于AI独立医用软件监管给出了不同的理解。NMPA定义人工智能独立医用软件为基于医疗器械数据,采用人工智能技术实现其医疗用途的独立软件[10]。《深度学习辅助决策医疗器械软件审批要点》从数据和算法角度入手将人工智能独立医用软件分为数据驱动和算法驱动,并将算法成熟度作为风险分类分级的核心考虑因素。《人工智能医用软件产品分类界定指导原则》指明对于算法在医疗应用中成熟度低(指未上市或安全有效性尚未得到充分证实)的人工智能医用软件,若用于辅助决策,如提供病灶特征识别、病变性质判定、用药指导、治疗计划制定等临床诊疗建议,按照第三类医疗器械管理;若用于非辅助决策,如进行数据处理和测量等提供临床参考信息,按照第二类医疗器械管理。目前NMPA批准的12个按照第三类医疗器械管理的人工智能独立医用软件产品[11]依据审批要点对照FDA分类均可归于锁定算法。可以看出,尽管各国监管部门对于风险的具体评判标准有所不同,但对于高风险性的AI独立医用软件表示担忧,对于低风险的AI独立医用软件监管持审慎态度呈现一致。
在AI独立医用软件发展初期,监管者对于影响人工智能独立医用软件全生命周期监管的关键要素仍在积极探索中,其范畴主要围绕:①关键监管策略,即适应于AI/ML透明度、可解释性差、泛化能力和鲁棒性及算法自适应等特殊技术属性的实时性强、灵活性高的监管制度或框架;②监管支撑保障,即与之相适应的质量评价和安全监管标准、强依赖的标准化数据集储备、测试方案、技术工具等实现科学监管的支撑体系。相比相对成熟的上市前准入,本文认为随着申请和上市产品的持续增加,如何通过监管科学积极发挥对人工智能独立医用软件市场化发展的引导和监督,防范人工智能独立医用软件的算法风险,积极应对准入后的AI独立医用软件应用的持续监管问题更不容忽视,因为医用软件一直存在开发人员无法完全了解临床环境导致错误和风险的问题。2018年10月至2019年5月,美国、英国、加拿大、澳大利亚、中国等公开的136例国际医疗器械严重不良事件导致的医疗器械召回中,由于软件缺陷原因引起的比例占到了16.91% [12]。而这种情况在AI独立医用软件不可解释的黑盒模式下无疑将更甚。
由此,本文重点从AI/ML技术特征出发分析国内外对于AI医疗软件监管制度建设及指南、标准和标准化支撑的建设现状;并以上市后监管的变更控制、质量控制和安全监测为侧重梳理当前监管体系下我国AI医疗软件在上市后监管上面临的问题,并提出了相关措施建议,以期为进一步完善我国AI独立医用软件全生命周期管理提供参考。
AI独立医用软件监管制度是实施监管的根本依据。美国、欧盟、日本、中国等已初步建立了AI独立医用软件监管制度。以FDA为代表,监管机构面向AI/ML技术影响下关键的上市后算法变更、质量控制和安全监测问题提出了概要性的解决策略或方案。
对于上市后AI医用软件的算法变更问题,美国FDA《基于AI/ML的医疗器械软件的监管框架更改协议》(讨论稿)提出了一种将变更控制前置的方案,以保障上市后AI独立医用软件迭代时算法可控。FDA通过变更控制计划中的独立医用软件预先性能说明(SaMD Pre-Specifications)和算法更改协议(Algorithm Change Protocol)框定软件规格的潜在变化区域和预期更改描述;并通过新的产品全生命周期监管方法(TPLC)确保产品能够遵循算法更改协议按照预先指定的性能目标实施算法更改[13]。与之类似,日本PMDA于2019年12月更新的《药品和医疗器械法》(PMD Act)面向算法的快速迭代提供了上市后使用AI持续改进SaMD性能的审批审核流程[14],并规定性能必须是单向改进,由上市许可持有人(MAH)进行管理。MAH可开发一种程序以确保“改进过程”并在上市前审批审核流程中提交。
对于上市后质量控制监管,各国针对透明性、可解释性、可信赖性等算法模型的质量评价方案仍处于探索阶段,质量监管将通过新的质量评价体系/系统实现。
2021年1月,FDA器械和放射健康中心(CDRH)内设的独立部门数字健康卓越中心发布了《基于人工智能/机器学习的软件医疗设备行动计划》,提出了5项研究要点用以探索保证人工智能独立医用软件的安全性和有效性监测的实现路径(见表1)[15]。欧盟在2021年5月生效的《2017/745欧盟医疗器械法规》(下称新法规)中侧重强化了制造商的上市后义务,要求制造商重新评估当前的质量管理和文档编制战略,并建立包括质量管理体系(QMS)和技术文档售后监督程序等在内的全面流程。我国针对AI独立医用软件监管部分延用传统监管模式,经由质量管理系统、临床表现和评估等进行质量监管。NMPA于2019年制定并发布了《医疗器械生产质量管理规范附录独立软件》,从独立软件、软件组件生产管理、质量控制、不良事件监测分析等8个方面提出要求。此外,2021年3月,国家药监局正式发布的修订后的《医疗器械监督管理条例》(以下简称新条例)在较大范围内强化了医疗器械的上市后监管力度。新条例提出要强化医疗器械注册人、备案人应当履行的义务:要求建立与产品相适应的质量管理体系并保持有效运行;制定上市后研究和风险管控计划并保证有效实施。
表1 FDA基于AI/ML软件医疗设备行动计划概要
对于上市后安全监管,基于不良事件报告系统以及产品召回制度是上市后监管的主流应对机制。此外,提升产品上市后追溯能力是另一个可帮助及时获取AI独立医用软件产品安全相关信息及解决AI引起的不良事件定责问题的可行解决方案。欧盟实行了统一的身份识别系统(UDI)计划,将优先支持医疗设备软件(MDSW)的UDI获取;针对新引入IIa级别以上产品,要求制造商提供上市后临床跟踪调研评估报告(PMCF)作为定期安全更新报告(PSUR)的一部分。FDA的上市后监管策略包括基于真实世界数据的追溯和安全监测,该方案作为试点计划正在探索当中[14]。我国国家药监局组织于2020年11月制定发布的《真实世界数据用于医疗器械临床评价技术指导原则(试行)》同样提出利用真实世界数据进行上市后临床评价和不良事件监测。此外,新条例明确了增设产品唯一标识追溯、延伸检查等监管措施。通过基于唯一标识符的追溯体系建立和不良事件监测系统实现上市后的安全监管。
AI独立医用软件相关指南或标准是进行AI独立医用软件科学监管的重要支撑。美国FDA与国际标准化组织(ISO)、国际电工委员会(IEC)、电气与电子工程师协会(IEEE)等国际标准化组织建立了广泛合作,正积极参与面向人工智能独立医用软件的国际标准制订。同时,FDA还与美国医疗仪器促进协会(AAMI)、英国标准协会(BSI)等机构合作开发关于医学人工智能术语和分类的方案、医学人工智能认证过程的方案。国际电信联盟(ITU)和世界卫生组织(WHO)于2018年7月联合成立健康医疗人工智能焦点组(FG-AI4H)正在创建健康评估指南,涵盖AI独立医用软件健康伦理、监管法规、需求规范、软件生命周期规范、数据规范、测试实践规范、评估规范、示范应用、应用和平台的通用要求和针对各类医学应用的专用要求[16]。国际标准化组织ISO已发布部分AI独立医用软件适用的可参考标准,如健康信息学—机器学习技术在成像和其他医疗应用中的应用(ISO/TR 24291: 2021),机器系统的状态监测和诊断—数据处理、通信和展示(ISO 13374-4: 2015),健康软件和健康IT系统安全、有效性和保障—第1部分:原则和概念(ISO 81001-1: 2021)等。另外,安全、有效和可靠的健康软件和健康IT系统—鉴证案例应用指南 ISO/AWI TS 6337,健康软件—第 2 部分:健康和保健应用—质量和可靠性(ISO/PRF TS 82304-2)等质量和安全评价相关标准正在开发中。
国内AI独立医用软件标准建设正处于初始阶段。药监局医疗器械技术审评中心(CMDE)为促进AI独立医用软件标准化发展发布了两项指南:一是《深度学习辅助决策医疗器械软件审批要点》,从适用范围、审批关注要点、软件更新、相关技术考量、注册申报资料说明五个部分进一步明确产品审批细则。二是《肺炎CT影像辅助分诊与评估软件审评要点(试行)》,结合新冠肺炎国情通过绿色通道和适当的程序宽松进一步推动肺炎相关SaMD软件的审评审批。中国检验检疫科学研究院牵头成立的人工智能医疗器械工作组(AIMDWG)立项了安全有效性评价术语标准IEEE P2802、数据集质控标准IEEE P2801。另外,人工智能医疗器械标准化技术归口单位根据《医疗器械标准管理办法》初步构建了我国人工智能医疗器械标准体系,具体分为基础标准、管理标准、方法标准和产品标准。基础标准主要面向行业基础共性问题,对人工智能医疗器械的术语、分类、编码、数据质量、数据标注、数据集等进行规范。其中,《人工智能医疗器械质量要求与评价 第1部分:术语》和《人工智能医疗器械质量要求与评价 第2部分:数据集通用要求》处于起草阶段。面向人工智能生产质量管理面临的特殊问题,包括风险管理、算法开发、基础设施管理、产品迭代变更管理、人员管理等方面的管理标准处于申报立项阶段。方法标准主要面向产品、组件的质量评价需求,包括产品/系统性能评价方法、产品变更评价方法、安全测试方法等方面,也涉及测试工具评价、标注工具评价等内容。目前,人工智能医疗器械创新合作平台发布《基于眼底彩照的糖尿病视网膜病变辅助决策产品性能指标和测试方法》和《基于胸部 CT 的肺结节影像辅助决策产品性能指标和测试方法》两项技术文件。在产品标准方面,根据产品上市数量与监管需求,目前冠状动脉CT血流分析、神经系统影像辅助诊断等方向已形成草案初稿。
为系统提升AI独立医用软件产品质量评价能力,一些国家和地区正在积极推动标准化数据集、测试用例、测试方法、工具、指标、平台等关键监管支撑的研究。例如,国际电信联盟ITU和世界卫生组织WHO于2018年7月联合成立健康医疗人工智能焦点组(FG-AI4H),目标创建在线基准测试平台和协助注释或数据收集等相关工具的开源软件包。平台将收集形成可以验证人工智能模型的未公开的测试数据集,建立人工智能金标准数据集[6]。欧盟集合21国启动了AI4EU项目,希望实现数据集、算法、技术工具等技术资源的共享与整合。项目通过网站www.ai4europe.eu已提供临床用例等数据集、支持以增强图像的形式创建解释的解释器ABELE等共享资源[17]。中国食品药品检定研究院在2020年7月启动了《医学人工智能产品全生命周期检测平台研发与应用示范》项目,为包括上市前验证确认、上市后监管、临床在用质控、产品变更评价等监管环节提供技术服务[18]。项目在数据接口、软件界面、体系架构、测试方法等方面已取得初步进展,以医学数字成像和通信(DICOM)格式的医学影像应用为切入点,开发和整合数据上传、统计分析、数据标注、测试集抽取等主要模块,联通数据、算法和算力。人工智能医疗器械创新合作平台已初步建立医疗人工智能测评公共服务平台,一期建立糖尿病视网膜病变常规眼底彩色照相Al标准数据库。
AI独立医用软件在上市后具有算法频繁变更、算法模型不可解释等固有属性,较传统监管模式实时性和灵活性要求更高。依据AI/ML灵活的算法变更方式,上市后的监管显然值得引起更大重视。一方面,对于已准入产品的上市后算法追溯和实时监测实际仍存在挑战,目前国内还未建立成熟的直接应对机制。另一方面,基于现阶段FDA、NMPA等监管框架仍无法真正应对自适应算法驱动型AI独立医用软件的监管,因为人们无法清楚解释黑盒算法更新前后的机制和原理,这种固有高风险因素无法被医务人员所接受。尽管当前有一种基于深度泰勒分解(DTD)的解释方法Layer-wise Relevance Propagation可以识别出哪些输入数据(特征)对算法起决定性作用[19],但其仅面向数据驱动的AI独立医用软件在可解释性问题上可能有效,且需进一步考察其在医疗领域内的真实世界表现。面向AI独立医用软件算法可解释性问题是国内外监管科学共同面临的短板。针对AI医疗领域的算法模型解释器的研究与开发难度较大,国内还未见成熟成果。
我国大多AI独立医用软件标准处于在研阶段,受标准研制周期和其他不确定性因素干扰影响,标准缺乏问题严重。我国的AI独立医疗设备软件在监管支撑上仍缺乏明确统一、全面细致的上市后评估/评审标准,评审/审批细则的缺乏影响监管工作的快速、准确落实。当前,我国面向AI独立医用软件产品技术性能、应用效果等的评估体系仍未建立,仅部分学者在研究层面提出了医疗人工智能产品应用效果的评估框架[20],面向AI独立医用软件的技术安全规范标准和质量评价体系尚未建立。
在高质量数据层面,上市后的监管缺乏大型数据集支撑。在面向新出现的AI独立医疗设备软件时无法访问足够的测试数据是预测算法模型性能的一个主要限制因素。大型的标准数据集、测试集、验证集对上市后AI独立医用软件的迭代和验证至关重要。但当前AI医疗领域的金标准数据集严重缺乏,无法提供参照。一方面,由于访问健康数据受法律和隐私保护约束较大以及信息化水平和互联互通影响,当前我国大型标准测试数据集缺乏严重,造成上市后临床评估困难等监管制约。另一方面,尽管AI独立医用软件在其模型准确性方面多做相关报道,但在真实临床环境中的应用评价数据目前仍显匮乏,包括临床有效性、成本效益和安全性评估方面的数据等。上市后软件的真实世界数据难以收集和利用,造成软件迭代监管难以真正落地,大大增加AI独立医用软件使用的潜在风险。这对基于自适应算法的AI独立医用软件的发展尤为不利。
建议面向AI独立医用软件全生命周期监管引入“监管沙盒”机制,系统性完善AI独立医用软件监管体系。加快完善AI独立医用软件上市后监管机制,加强上市后产品预期应用场景规制和应用效果评估及基于真实世界数据的“不良反应”监测预警研究,建立面向高风险AI独立医用软件的危险预警机制。基于《深度学习辅助决策医疗器械软件审批要点》等建立前瞻性的AI独立医用软件监管框架,吸纳AI系统技术下可预见的其他技术分支,在全生命周期监管流程、质量监管体系、临床评价/试验、上市后追溯和再审查机制中建立广泛适用的安全性和有效性监管机制。
建议基于人工智能医疗器械标准体系框架加快推进AI独立医用软件国家标准和行业标准制定,并适当引入或转化面向AI独立医用软件质量、安全、管理等国际标准。在国际社会建立AI独立医用软件标准体系建设协作机制,开展AI独立医用软件标准在国际国内的协同建设,促进AI独立医用软件在世界范围内的统一建设并制定医疗AI全球标准化监测计划。
在数据支撑上加快推进基于真实世界数据的AI独立医用软件研究。面向数据驱动型AI独立医用软件,加快功能化、标准化测试数据集集群建设。深化基于真实世界数据的AI独立医用软件上市后监测研究,从试验设计、临床表现、工作流程、数据管理等方面的数据需求出发,加快真实世界数据采集和分析研究工具系统和数据互联互通建设。面向算法驱动型AI独立医用软件,探索开发适应于基于自适应算法的AI独立医用软件的全生命周期监察评估系统,通过实时监测自适应算法跟踪性能等建立AI独立医用软件上市后的安全可控机制,利用数字化、可视化手段强化“算法追踪”的可及性。