【作 者】胡凯,杨辉,郑超,王雯,马琳榕
1 浙江省医疗器械审评中心(浙江省医疗器械不良事件监测中心),杭州市,310009
2 浙江省药品检查中心,杭州市,310000
具有人工智能/机器学习(artificial intelligence/machine learning,AI/ML)技术特点的医疗器械产品已经在多个国家获得上市。如2018年,美国上市了8款AI/ML类的软件器械产品[1]。近年来,国内企业在药监部门政策支持下也有该类产品上市,如“冠脉血流储备分数计算软件产品”“肺炎CT影像辅助分诊与评估软件”“糖尿病视网膜病变眼底图像辅助诊断软件”“儿童手部X线影像骨龄辅助评估软件”等。
根据AI/ML技术发展特点,该类产品通过实时数据改进性能是一个发展的方向,即含自适应算法的器械产品,但是自适应算法可能改变产品的技术指标和结果。目前,国外未对具有自适应算法特点的产品细化监管要求。我国现行的评价方式中,明确了算法驱动型和数据驱动型两种软件更新[2]。其中算法驱动型更新,以及导致算法性能评估结果发生显著性改变的数据驱动型更新,属于重大软件更新,需进行许可事项变更,根据最新发布的《人工智能医疗器械注册审查指导原则》,建议产品关闭自适应学习。这对于自适应算法来说,会导致频繁的许可事项变更,既不经济也不现实。美国相关机构试图解决这一问题,发布一系列试点政策。下面将介绍自适应算法产品的特点和美国的系列政策,并进行初步探讨。
含自适应算法器械产品的算法比传统产品的复杂度更高。有学者将自适应定义为“处理和分析过程中,根据处理数据的数据特征自动调整处理方法、处理顺序、处理参数、边界条件或约束条件,使其与所处理数据的统计分布特征、结构特征相适应,以取得最佳的处理效果”[3]。具有自适应算法的AI/ML软件可能改变其性能和模式,给监管带来挑战。
面对挑战,一种观点是只允许锁定的算法上市,安全性极好但缺点也明显。例如,训练数据缺少某亚组人群,算法面对该亚组人群患者时将产生不适宜的结果。如文献[4]展示了传统算法的乳房X线图像分析乳腺癌风险产品,缺点是可能无法识别潜在亚组。自适应算法可识别出潜在亚组,甚至可以针对不同的亚组自动调整算法模型,但是如果按照各国传统上市前审查途径,则该更新的效率会受到时间的影响。
另一种观点是允许器械产品使用自适应算法,并在无审查的情况下更新算法。自适应算法更新过程包括“参数驱动型”和“算法驱动型”(例如,用多项式替换线性模型)。“参数驱动型”更新面临一个问题,其质量严重依赖相关基础数据的质量。案例显示[5],用户的错误或有意的对抗性攻击,激发系统产生了低质量的医学数据。
根据美国21 CFR 807.81相关规定,510(k)产品在两种变化情形下需提交申请:对器械的更改或修改可能会严重影响安全性或有效性;器械预期用途的重大更改或修改。而针对软件修改的措施,FDA在软件变更指南[6]中列举了提交软件更改的一些常见情形,如:平台、架构、核心算法、需求细化、外观更改、重建与重构。
自美国颁布《21世纪治愈法案》以来,FDA加强了数字医学产品的科学管理,部分调整了医疗器械范围,特别细分了“软件功能”的差异。法案明确了“用于医疗机构的行政管理”“用于维持和促进健康生活”“用于患者的电子记录”“用于数据的传输、存储、格式转换、重现”这四类预期用途为非医疗器械功能[7]。
此外,为适应独立软件医疗器械的日益发展,FDA探索了独立软件的监管模式——发布“软件预认证程序”试运行[8]。预认证程序用于高风险独立软件医疗器械的上市前审查而豁免低风险产品。程序接轨了目前IMDRF对独立软件医疗器械的共识[9],如基于“信息对医疗决策的意义”“对健康的影响程度”两个要素的“四级风险”分类。同时,将510(k)、PMA、De Novo三大上市前审查程序的共同要素统一并简化程序。
预认证程序的运行得到利益相关方的积极响应。其简化了中风险和低风险产品的上市前审核并注重上市后评价,但高风险产品,如涉及关键的诊断与治疗软件产品的变更审核,如何定义变化的大小等问题悬而未决。
FDA在2019年4月的讨论文件中提出的试点,基于AI/ML的独立软件医疗器械可以在获得授权后在一定程度上进行自我更新[10]。基于AI/ML的独立软件医疗器械的上市前审查时,制造商可以选择提交“预定的变更控制计划”(SaMD pre-specifications,SPS),其中包含对预期变更的描述和“算法变更协议”(algorithm change protocol,ACP),包括用于实现变更的相关方法[11]。
SPS,即制造商对“性能”或“输入”的预期修改,或与产品的“预期用途”相关的计划更改。
ACP,即制造商已实现的,和为适当地控制SPS文档中描述的预期变更类型的风险所采用的特定方法。ACP表述了产品更新应符合的程序和需求的数据,使得更新后的产品满足SPS要求且保证安全有效。其要素包括:数据管理、再训练计划、性能评估、升级流程。
根据试点政策的SPS和ACP要求,对于AI/ML软件器械进行包括数据管理在内的“预先的描述”,其要求与“自适应”本身的不可预先描述性相冲突。未知亚群对产品性能造成的影响,使得ACP文件“再训练”一项中“发起再评价的标准”是否符合临床实践也是不确定的。如应当发起再评价但系统性能却无变化或相反的“假阴阳性”情形,存在风险。
通过查阅文献,试点政策可能面临的难题如下:
(1)数据分布的变化。数据流中的数据分布随时间发生不可预测的变化,使原有的分类器分类不准确或决策系统无法正确决策[12]。大量样本改变权重和差异特别明显的个体样本均会改变“分类边界”。案例展示了这种[13],系统用于识别出皮肤病的良恶性,但训练数据集未考虑肤色要素,将导致对输入输出的真实函数关系估计的偏离。结果,相同的图像在不同时间可能会导致两种不同的概率诊断。试点政策同样会面临此难题。ACP文档要求制造商描述“再训练计划”,包括计划、算法的架构与参数、数据的预处理、开展性能评估的细则。站在制造商角度,因为自适应算法的处理过程是动态且复杂的,测试用数据的典型性、再评价的触发条件的可描述性,无参照和依据。
(2)未识别的隐藏数据维度。在某项潜在未知数据分布维度上,当自适应获得的新数据与ACP描述的数据不同时,结果产生协变量平移[14],也是一种迁移学习的情况。例如由于资源限制,训练数据可能采集自该隐藏维度特征单一的区域。而上市后的产品被部署在该区域外时,制造商可能无法事前预见新数据的特征值和已有数据特征值在隐藏维度下的区别,所以在第一次上市前审查时提出通过SPS和ACP文档规定数据的描述特性存在不完整的情形。
(3)临床视角的不稳定性。不同患者间医学上轻微的差异不应导致诊断或治疗的实质性差异。稳定的算法在面对输入之间的细微变化时,应给出在输出空间中类似的预测[15]。DWORK等[15]在文献讨论了这种基于个体的公平性,医学上相似的患者如果得到不同诊断,则该产品是不稳定的。从患者安全的角度来看,不希望某产品经常将医学上相似的病变进行非常不同即“不够平滑”的分类。对于AI/ML产品,很多常用的分类系统是高度非线性的。这使得它们特别容易受到这种不稳定的影响[16]。这对SPS和ACP描述文档来说,如何制定“性能评估”的合理阈值还需要结合医学临床实践,防止过多触发性能评价造成的资源浪费。
上文从美国试点政策在面对含自适应算法的器械产品时,从SPS和ACP文档审查要素出发,讨论了实践困难的情形。在此基础上,提出相关策略供业界讨论。
基于“收益-风险”是医疗器械上市前评价的核心思想之一。对含自适应算法产品的评价,需考虑在使用场景下产品使用“锁定算法”和自适应算法哪个具有更有效的风险控制。
首先,应当考虑应用场景是否适合使用自适应算法。因素包括:输入数据的丰富程度、算法的成熟程度和稳定程度。考虑这些因素,主要是为了控制“未知”风险的数量,尽可能降低后续风险措施的成本。其次,应当考虑自适应算法的风险,是否小于带来的收益。例如,对输入和输出之间真实函数的估计偏离,而可能对患者带来收益和造成伤害的评价。再次,考虑采用自适应算法所带来的收益是否显著高于传统的“锁定算法”。如果“锁定算法”已能够为患者带来良好的收益,改用自适应算法增加的边际收益不显著,那么采用自适应算法也是不适合的。
将自适应算法的重点放在开发流程上,建立良好机器学习管理实践的规则(good machine learning practices),利用电子系统等现代化信息手段,同时建立具有深层专业背景的监管专家库,以“连续”监控、识别和管理由于AI/ML特性而导致的相关风险。
监管机构可能需要对所有以往数据的随机子集进行定期的系统测试。也可通过扰动已有的患者数据来生成“新数据”,甚至利用技术手段生成对抗样本,用于检查AI/ML模型的鲁棒性。充分考虑患者类型的多样性。监管机构还可以使用对抗性方法在AI/ML软件的整个生命周期中进行算法压力测试。
此外,可利用电子系统和数据分析技术,例如变更点检测或异常检测,以连续监视AI/ML算法。例如,FDA用国家医疗产品监视系统Sentinel[17]来连续监视批准的基于AI/ML医疗器械产品的行为。
建立多方参与机制是为避免涉及自适应算法带来的医学伦理复杂情形而导致的误判漏判。目前在国外,学界特别关注高级人工智能算法所带来的公平性、透明度和责任归属问题[18-20],因为这些问题会导致潜在的伦理困境。
医疗产品多方参与机制在美国是有例可循的。依据FDASIA法案第618节要求FDA与国家健康信息技术协调员办公室(ONC)和联邦通讯委员会(FCC)协商,发布健康类信息技术产品的监管框架以避免重复监管[21]。
在产品上市后的监管部门的主导下,从产品的安全有效性出发,通过建立某种利益相关机构的多方参与机制,帮助制造商杜绝某些涉及技术敏感、伦理困境、国家安全的违规行为,同时降低因多程序监管而带来的时间问题。
通过对美国现有政策的研究,并结合自适应算法技术特点的部分文献检索,提出了美国现行试点政策框架所面临的挑战。但是,研究仅建立在现有认识的基础上,必然会有很多限制因素。含自适应算法的器械产品乃至广泛意义上人工智能产品对各个领域带来的“黑箱”问题,是所有人面临的挑战,关系到全人类的利益。
我国药品监管相关部门为此进行了大量的探索,付出了巨大的努力。如国家局医疗器械技术审评中心建立的“人工智能医疗器械创新合作平台”,通过建立各个工作组开展了相关工作,为业内制造商提供了交流沟通的渠道。
我们呼吁产业中的制造商和临床机构在探索科技前沿的同时,能够同时为相关机构提供建设性、普惠性的行业观点,从患者福祉和人民需求的角度出发,形成一个良性的产业环境。相信随着自适应算法产品技术的不断进步,在各方的共同努力下,最终形成科学的监管规则。