刘枭寅,梁宏,郭兆君,贺伟罡
1.国家药品监督管理局 医疗器械技术审评中心,北京 100081;2.国家药品监督管理局 医疗器械技术审评检查长三角分中心,上海 201203
据统计2017年全球约有4.25亿糖尿病患者,其中中国约占1.14亿,超过1/3的患者会出现糖尿病视网膜病变(以下简称“糖网”)[1]。糖网是工作年龄人群第一位的致盲性疾病,早期干预可延缓病情发展避免致盲,早期干预的主要方式是定期的眼底照相检查[2]。但目前我国87%的患者就诊于县级以下基层医疗机构,近70%未接受规范检查[3],由于各种原因,又难以在基层配备足够数量具备眼底检查能力的医生。近年来基于深度学习的糖网人工智能(Artificial Intelligence,AI)辅助诊断软件首先于国外出现[4-5],国内也开展了很多相关研究[6-8],相关产品的出现为这一问题的解决带来了希望。
近两年在国内申请注册的糖网AI软件核心功能是采用深度学习算法对单张眼底照片进行糖网二分类,即判断眼底彩照是否存在II期及以上糖网。II期及以上的糖网患者应转诊到专业眼科机构进行干预,II以下可留在基层医疗机构定期复查。不同产品支持的拍摄方式(散瞳或免散瞳)、拍摄范围、相机种类等方面有所区别。AI对患者双眼多张照片分析结果进行简单逻辑运算后给出综合结果,但不能仅凭AI诊断结果进行临床决策,需要由医生对图像拍摄质量和诊断结果进行综合判断,报告签字后生效,必要时需重新拍摄、修改结果。有些产品还具有一些辅助功能,如:自动图像质量判定、糖网分级(给出每一级糖网分级)、眼底病灶识别,这些功能采用深度学习算法或常规模式识别算法。产品一般由客户端和云端(或本地服务器)组成,深度学习算法运行在云端或本地服务器。
这些产品是否具有足够的安全有效性并符合法规上市,需要药监部门的把关。药监局发布了《深度学习辅助决策医疗器械软件审评要点》[9],为所有深度学习医疗器械软件构建了监管框架,还有一些专家学者从伦理、标准、质量体系等方面探索评估方法[10-14],但国内外尚无专门针对糖网AI软件评价方法。笔者所在的部门过去2年完成多个此类产品的审评,形成了对其安全有效性评价的方法。除常规软件要求外,需要重点评估训练数据质控、人机配合、算法性能评估、性能影响因素评估、使用限制说明、网络安全等方面。上述方法有效地支持了产品上市前评估,为后续同类产品的审评提供了依据,并为类似产品的审评提供了一定参考价值。
深度学习算法需要优质和足够的训练数据以保证训练质量,而医疗数据的标注专业性很高,因此需要充分评估算法训练数据的质控过程,从源头上保证算法质量[15]。应从“人机料法环”方面评估训练数据采集、整理、标注过程的科学性和规范性,训练、调优、验证集划分的合理性。
数据采集方面,重点关注申请人对采集人员、采集设备、采集过程的要求。采集人员应规定资质、培训、考核要求。采集设备应明确所使用的相机的品牌型号、散瞳与否、拍摄角度、范围、分辨率。采集过程应明确人员职责、采集步骤、结果审核等要求。采集到的原始数据应进行脱敏以保护患者隐私。若使用历史数据,至少应明确采集设备的要求,对其他要求开展差异分析论证采集过程和标准的科学性、规范性。
数据整理方面,应明确预处理方式,如滤波、增强、重采样、尺寸裁剪、均一化等,建议要求申请人使用典型图片演示每步预处理后图像的变化以便直观了解。应明确弃用照片的规则和弃用的数量,以便于了解产品不适用的情形。
数据标注方面,应评估标注人员、基层设施、标注过程、质量评估是否科学规范。标注人员可区别于采集人员,按照一线标注人员、审核人员、仲裁人员分别制定选拔、培训、考核的要求,要求通常逐级增高。基础设施方面,眼底照相作为光学直接成像,标注环境宜与实际阅片环境一致,还应给出标注软件的情况及其验证确认。标注过程应以流程图的形式给出,重点明确会对标注质量产生重要影响环节的细节,如标注规则及其合理性依据,持续保证一线标注人员标注质量的方法,审核和仲裁的规则。
数据集构建方面,需给出标注前基础数据集和标注后划分的训练集、调优集、验证集的样本量和分布情况及其确定依据。样本分布宜接近流行病学分布,应特别注意保证糖网I级、II级样本的比例。样本分布应充分考虑采集设备、主要采集参数(如散瞳与否、拍摄角度范围)、来源医疗机构、合并其他眼底疾病/症状等因素,兼顾地域、年龄、性别等基线信息。为解决样本分布不均衡问题,可对训练集、调优集进行数据扩增,不宜对测试集扩增。若进行了数据扩增,应给出扩增数据集的样本量和分布情况。
糖网AI软件核心功能单一,结果明确,看似可以替代医生,但其实是由于使用场景局限,反而更需要操作者充分了解产品的使用限制,二者各自需承担的工作,合理配合,才能发挥产品优势。国家卫健委印发的糖网分级诊疗技术方案希望发挥基层全科医生承担起糖网初筛任务[16],但目前很多基层医生尚不具备相应能力,需要经过培训以获得拍摄和糖网分级的能力,在此基础上再借助AI提升效率。
需要评估产品使用流程是否落实了“医生负责,AI辅助”,说明书中是否充分提示了使用风险和使用限制,申请人应制定包括基本操作和上述关注点的操作者培训和考核方案,并验证方案的可行性,以证明人机交互良好。糖网AI软件需要操作者完成的工作主要有图像拍摄、图像质量判断(主要包括拍摄范围、拍摄质量)、结果确认签字,必要时还需要重新拍摄或修改结论。需要注意的是,有些产品虽然有图像质量判断模块,但由于软件验证无法穷举覆盖所有不合格情况,仍需由医生对图像质量做最终判断。
糖网二分类主要采用敏感性、特异性来考量算法性能,应一并给混淆矩阵,已批准产品的性能下限定在80%~90%。还可给出准确性、阳性预测值、阴性预测值、ROC-AUC等参数。糖网多分类的应给出各类的敏感性、特异性以及多分类的kappa系数。图像质量评估输出二分类的参考糖网二分类,输出图像质量评分的参考糖网多分类。
算法性能评估可基于自建测试集、临床试验数据集、回顾数据、真实世界数据、第三方数据集等。各测试集应明确用于产品测试的样本量和样本分布情况,明确数据收集、整理、标注的情况,特别是标注过程和标注规则,对于标注质控不佳、标注规则有差异的测试集不宜与其他测试集进行合并统计分析。列表给出基于各测试集的测试结果,结果应包含置信区间,分析测试结果之间差异的原因,进而初步识别出产品性能的影响因素及其影响程度。
算法性能影响因素评估是为了了解产品的泛化能力,若对于某项性能影响因素的泛化能力不佳,如处理某一机型图片的性能低于预期,应视其影响程度在不同文件中增加使用限制。从目前申报产品来看,影响糖网二分类性能的主要因素有图像质量、合并其他眼底疾病/症状、机型差异。为提高产品泛化能力,首先应尽可能保证训练集针对各因素有充足的样本分布,此外还应针对各因素建立子测试集,验证算法是否具备了对这些因素的泛化能力。如同算法性能评估,各子测试集数据可以来自不同数据集,但只有标注规则相同的集合才能合并。
针对图像质量,对于无论图像质量评分高低均给出糖网分级的软件,应对不同图像质量评分的测试集进行测试,算法性能低于预期的,不宜在软件中展示糖网分级结果,或在软件界面和说明书中给出“图像质量评分较低时糖网分级结果不可靠应由医生自行判断”的提示。
合并其他眼底疾病/症状,应明确算法训练过程是否单独考虑了其他疾病,并验证是否符合设计,可以对合并与未合并其他疾病的数据集分别进行测试,分析性能差异是否均能满足预期,是否出现显著性差异。
针对机型差异,应对预期宣称可处理其图片的机型分别建立子测试集进行算法性能评价,单机型的图像数量和样本分布应具有一定的代表性,性能测试结果应满足预期性能。
产品软件操作流程、相机拍摄方式、操作者要求、产品性能、可达到预期性能的相机等方面的差异决定了产品的使用限制。在证明产品满足基本安全有效性的前提下,为解决剩余风险的使用限制应在注册证、产品界面、说明书等处给出。
在注册证适用范围中,强调不能仅凭本产品结果进行临床决策,图像质量应由医生评价认可。产品的禁忌证为无法拍摄眼底照片的患者,其他禁忌证与眼底照相检查相同。
在产品技术要求中,应给出经前期性能影响因素评估后允许对其图像进行分析的眼底相机的型号。
在软件界面中,AI分析结果界面应允许医生修改,报告界面应有医生签字处以落实医生责任。
在说明书中,应给出产品的所有注意事项,特别是结合前期的人机配合、算法性能评估、算法影响因素评估后得出的使用限制,如:① 产品仅用于检测糖网,不用于检测其他疾病,如果未检测糖网,不意味着不存在其他眼部疾病;② 产品应由有资质的机构和人员按照说明书使用;③ 执业医师应该结合软件诊断、患者病史、主诉等各种信息综合给出诊断意见,特别应关注患者眼部相关的疾病及做过的治疗;④ 执业医师应接受过相应培训,产品使用中负责评估图像拍摄质量和范围是否符合诊断要求,AI诊断结果是否正确,必要时重新拍摄或修改结论。此外,作为新生事物还应简述产品训练过程、临床试验、网络部署等以便用户了解产品。
产品若部署在云端,云计算服务供应商视为供应商,除提交网络安全描述文档证实常规网络安全风险可控之外,还需要提供云计算服务供应商出具的安全等级评测报告和信息安全管理体系认证证明,以证明所采用云计算服务的网络安全风险可控。
在国内外没有同类产品安全有效性评价方法和相关产品标准的情况下,本研究以现有软件、网络安全和深度学习的监管框架[9,17-19]为基础,结合已获批上市糖网AI软件的特点,提出了安全有效性评价方法。已发布的肺炎CT影像辅助分诊与评估软件审评要点[20]也采用了类似方法制定,但由于产品特点差异,评价重点不同。本研究不是机械的套用深度学习审评要点,而是以人机配合和算法性能为切入点,提出了6方面重点评价内容,明确了糖网AI软件上市前审评尺度,有效指导后续产品申报。
本研究针对眼底照相属于直接光学成像,采集易受影响,图像变异性大的特点,提出人机配合方面的评估要求。这一思路可供未来具有类似特点的产品借鉴,如直接成像的设备、需要连续处理(如内窥镜)、使用者需要培训才能具有资质或能力的产品。关于算法性能评估和性能影响因素评估,本研究提出了可将自建测试集、临床试验、回顾数据、真实世界数据、第三方数据集在满足一定条件情况下重排形成不同的子测试集进行性能评估的思路,可供各类AI产品借鉴。本研究重视产品注意事项的呈现,提出对于上述环节发现的问题应根据其严重程度分别在注册证、产品界面、说明书中给出相应的使用限制,这是解决产品剩余风险的重要手段。
上述评价方法主要针对目前我国已上市的基于眼底照片的糖网单病种AI产品,主要关注糖网二分类功能,未深入讨论图像质量判断、病灶识别等辅助功能的评估。由于产品比较新,缺少定量的评价指标,本研究仅是基于当前认知的审评尺度,随着研究的深入,希望未来能够给出更多定量的评价指标。当前,眼底多病种AI病灶识别圈画也在蓬勃发展,其评价方法有待进一步研究。
针对眼底糖网AI软件,本文在现有深度学习算法监管要求框架基础上,针对算法性能和泛化能力,提出了该产品安全有效性的评价方法,主要包括训练数据质控、人机配合、算法性能评估、性能影响因素评估、注意事项说明、网络安全等6方面内容。评价方法有效指导相关产品上市申报,并对类似产品的评价起到借鉴作用。