郑晨,张宇晶,彭亮,蒋薇,鲍雅晴
1.国家药品监督管理局 医疗器械技术审评中心,北京 100081;2.国家卫生健康委能力建设和继续教育中心,北京 100191
近年来,利用人工智能(Artificial Intelligence,AI)算法辅助医生进行海量肺结节CT影像的快速检测和初步诊断,已成为AI医疗器械领域的研究热点之一[1-3]。目前,国内已有相关产品获准上市,还有若干产品正在申请上市,除临床评价等传统方法外,如何采用基于测评数据库的新方法来评价此类产品的安全有效性,已成为AI医疗器械技术审评的关注重点。
测评数据库是指可用于软件确认的第三方数据库[4],其中软件确认是指通过提供客观证据认定软件满足用户需求和预期用途[5]。现有CT肺结节第三方数据库存在数据量不足、数据分布与临床真实情况差异较大、数据开放导致的“开卷考试”等问题,不适合作为测评数据库[6-7]。同时,用于CT肺结节产品测试的标准数据库[6,8]由于在数据持续更新方面存在局限性,故仅可在一定范围内用作测评数据库。
本文旨在从医疗器械技术审评的角度明确CT肺结节测评数据库的构建要求,以期指导相关责任方筹建符合技术审评要求的测评数据库,同时为探索CT肺结节测评数据库取代或部分取代临床评价的可行性提供参考。
通过对国内外AI医疗器械技术审评相关指导文件的调研发现,美国食品药品监督管理局(Food and Drug Administration,FDA)相关指导文件仅对测试集有要求[9],尚无测评数据库要求。国内相关指导文件已有测评数据库的通用要求[4,10],但尚无针对CT肺结节测评数据库的专用要求。
测试集和测评数据库虽有相似之处,但存在本质差异,前者属于软件验证(通过提供客观证据认定软件输出满足软件输入)范畴,后者属于软件确认范畴,软件验证是软件确认的基础,详见表1。
表1 测评数据库、公开数据库和测试集对比
本文基于上述国内外AI医疗器械监管要求[4,6,8-11]的调研,结合多项AI医疗器械的审评工作经验,提出CT肺结节测评数据库构建的专用要求。
根据《深度学习辅助决策医疗器械软件审评要点》[4]和《人工智能医疗器械注册审查指导原则(征求意见稿)》[10]的要求,除满足数据管理、网络安全与数据安全、可扩展性等数据库通用要求外,CT肺结节测评数据库还应具备权威性、科学性、规范性、多样性、封闭性和动态性等特点。
CT肺结节测评数据库的数据采集、标注及其质控工作应由相应权威临床机构(如国家临床医学研究中心)的放射科医生完成,以保证数据准确性;数据标注、审核和分歧仲裁人员应具备相应的临床实践经验,如职称、工作年限等,以保证数据质量。
CT肺结节测评数据库的数据样本应来源于临床真实数据,不应来源于公开数据集,不得进行数据扩增。所有数据需经过医院伦理委员会批准或同等效力的行政审批,包括原始图像和流行病学信息,以及其他相关的临床数据、信息资料等[1]。CT肺结节测评数据库应具有一定的规模,数据总量应基于肺结节流行病学统计指标和测试抽样误差控制要求,数据总量需远大于单次测试抽取的样本量。如果数据总量过低容易导致抽样误差过大,测试结果不准确[11-12]。
数据分布应符合CT肺结节流行病学特征情况。已有研究表明高龄、有吸烟史、疾病史是肺结节发生的危险因素[13]。因此,患者人群分布应参考流行病学统计进行均匀随机抽样或按照临床上肺结节高发年龄段分布进行分层抽样。目前肺结节各类型的患病率尚未获得全国的流行病学统计,可依据各机构掌握的先验数据设计肺结节类型比例,可进行均匀随机抽样或按结节类型和长、短径分布进行分层抽样[6]。
测评数据库的数据采集、数据脱敏、数据清洗以及数据标注等过程的质量直接影响测评数据库的使用价值,因此均应建立质控程序,并满足可追溯性要求。数据采集需考虑采集人员、采集流程、采集质量评估等方面要求。采集人员应熟悉胸部CT扫描的技术要点,能根据不同病种和目的,调整合适的参数进行扫描以获得最佳数据质量,如从在三甲医院从事图像采集工作5年以上资质的人员中选拔。采集流程应统一,保证扫描范围包括全部肺。采集质量评估通过检查数据扫描的质量,剔除存在缺层、错层、图像伪影和扫描视野缺失等数据。
数据脱敏是为了保护患者隐私,去除敏感信息,如机构名称和地址,患者姓名、生日和地址等,须符合相关法律法规的要求。数据清洗是为了去除不合格数据,如CT影像序列不连续,非肺部图像等数据,从而筛选出满足质量要求的数据。数据标注流程和质控影响标注结果,如标注人员的资质和数量,标注形式、标注轮次和标注步骤,结果判定标准(如临床诊疗规范、专家共识、文献分析),结果判定规则(如少数服从多数、高水平医生仲裁),标注质量评估等。
为了控制统计意义上的偏倚,测评数据库应具备充分的多样性,数据应来源于多家、多地域、多层级的代表性临床机构以及多家、多种、多参数的代表性采集设备,以保证数据多样性能够满足算法泛化能力评估要求。
代表性临床机构应考虑采集图像的场所,包括体检、门诊和住院等不同应用场景。代表性采集设备应考虑设备兼容性和采集特征的要求。设备兼容性包括CT的制造商、型号、规格(如探测器排数)和性能指标等要求。采集特征包括采集方式(如常规剂量平扫/增强、低剂量平扫)、采集参数(如管电压、管电流、加载时间、层厚与层间距、层数、辐射剂量[14]、窗宽窗位、重建方式、显示方式)、采集精度(如分辨率、采样率)等[8]。
应对CT肺结节测评数据库实施封闭管理,测评活动亦需在封闭安全的环境下进行,否则相当于“开卷考试”,无法保证测评结果的客观、公正和公平。
CT肺结节测评数据库应具备持续的科学性、多样性、封闭性和数据的时效性,陈旧数据可能与当前采集设备的技术水平、数据质量以及医生标注的原则和水平存在差异,会导致软件确认的系统性偏差[15],因此应定期对一定比例的数据样本进行更换、补充。
CT肺结节测评数据库的构建,关键是要保证数据多样性,控制数据偏倚。我国幅员辽阔,地域差异明显,更加需要考虑数据多样性问题,同时亦需考虑数据采集的难度,受时间和成本的限制,可以结合地域、医疗机构的典型性以及动态性来保证数据多样性。数据偏倚主要考虑选择偏倚和参考标准偏倚。选择偏倚来源于抽样。原则上,应根据测评数据库数据分布情况(包括流行病学统计、采集地点、采集设备、肺结节特征等因素)等比例随机抽取测试样本,且样本量应满足测试抽样误差控制要求。需要注意的是,由于不同的CT扫描剂量对于产品性能有较大影响,因此采集设备需予以考虑[16]。参考标准偏倚来源于与真实情况的差距。现阶段对标注标准的理解,如小结节的标注,实际上还存在很多不一致。对于医学图像判读,不同专家对影像数据的解读也存在一定的差异[17]。因此,建议由来自影像科、呼吸科等多个科室的医生联合阅片,尽量减少不完美参考标准的偏倚。
使用测评数据库需考虑其适用场景和限制条件。产品类型不同评价重点也不同,如肺结节CT影像辅助检测软件预期用于肺结节的检出和影像学分类,需关注假阴性,避免漏诊;而肺结节CT影像辅助诊断软件预期用于肺结节良恶性判定,需关注假阳性,避免误诊,因此需要考虑测评数据库的测评对象范围。同时,同类产品的输出不同评价要求亦不同,如肺结节CT影像辅助检测软件可输出二分类亦可输出多分类,测评数据库若采用多分类通常可根据对应关系测评二分类产品,反之则无法进行评测,因此需要考虑测评数据库的测评能力。
为保证测评数据库的封闭性,需要尽量提高数据样本总量,保证样本总量远大于单次测评样本量。若样本总量有限,需要考虑限制同一产品的测试次数,以免样本分布规律“开放”。同时,测评数据库应具备动态性,持续保证测评数据库的封闭性。
测评数据库的测评结果统计可由责任方自行承担,亦可由责任方与第三方测评机构合作承担,但需要考虑封闭性要求。
若条件具备,测评数据库可包含适当比例的罕见或特殊临床真实数据样本用于开展压力测试,以便深入评估算法泛化的极限能力[4]。未来,基于测评数据库,利用数据扰动、生成对抗网络等技术,衍生出对抗测评数据库,可以深入评估算法的鲁棒性。
由于临床试验实施机构的多样性存在一定限制,数据分布与临床真实情况存在差距,尚难以对AI医疗器械的安全有效性进行深入全面的评价。测评数据库可有效解决相关问题,可以部分替代或全部替代临床试验,能够降低注册申请人的负担,加快产品上市进程。
本文前瞻性地提出CT肺结节测评数据库的构建要求,以期指导相关责任方筹建符合技术审评要求的测评数据库,避免构建的第三方数据库不能用于软件确认,造成资源浪费。今后,将继续研究测评数据库评估办法,推进第三方数据库经评估后成为测评数据库,以满足AI医疗器械监管要求。