王雅文 刘英慧 卢红 国家药品监督管理局医疗器械技术审评中心 (北京 100081)
内容提要: 通过研究美国食品药品监督管理局和我国已批准的内镜肠息肉辅助检测软件的上市前临床评价资料,并结合该类产品临床应用特点,探讨消化内镜领域人工智能医疗器械的临床评价思路。
近年来,消化内镜领域的人工智能医疗器械发展迅速,本研究通过研究美国食品药品监督管理局(Food and Drug Administration,FDA)和我国已批准的内镜肠息肉辅助检测软件的上市前临床评价资料,并结合该类产品临床应用特点,探讨消化内镜领域人工智能医疗器械的临床评价思路[1-3]。
根据美国国立卫生研究院的数据,结直肠癌是美国癌症死亡的第二大原因[4]。结直肠癌通常始于直肠或结肠中的息肉或其他癌前病变,其转归、预后与病变分期密切相关,多数早期可治愈,5年生存率达91%,局部进展期为72%,而晚期不足15%[4]。因此,发现并切除癌前病变是降低结直肠癌发病率和病死率的最有效方法[5]。有研究显示,腺瘤性息肉的检出率每增加1%,间期结肠癌的风险就会降低3%[6]。但内镜医生进行结肠镜检查时,由于肠道环境复杂、息肉形态难以识别以及肠道准备差等原因,有多达27%的息肉漏诊[7]。在美国和日本开展的两项串联对照临床试验中,作为对照组的常规结肠镜检查有30%~41%的腺瘤被漏诊[8,9]。多项临床试验和观察证明,人工智能辅助的结肠镜检查能够明显提高内镜医师的腺瘤检出率及平均腺瘤检出数,并降低腺瘤和无蒂锯齿状病变漏诊率[10-14]。
美国FDA在1997年批准第一款人工智能产品[15];2012年,美国FDA发布了计算机辅助类软件的临床评价指导原则,对深度学习技术的人工智能(Artificial Intelligence,AI)辅助决策产品的临床评价要求基本延续了传统计算机辅助决策类产品的监管思路[16]。2017年7月27日,FDA的器械和放射健康中心(Center for Devices and Radiological Health,CDRH)发布数字健康创新行动计划(Digital Health Innovation Action Plan),对医疗软件提出监管方法的新举措,并在2017年批准了第一个基于深度学习技术的人工智能辅助决策医疗器械软件[17]。人工智能医疗器械主要审批途径为510(k)和De Novo。
我国在2019年发布了《深度学习辅助决策医疗器械软件审评要点》,在2022年发布了《医疗器械软件注册审查指导原则(2022年修订版)》和《人工智能医疗器械注册审查指导原则》,对深度学习辅助决策类产品的审评提出了基本要求。临床评价要求基于核心功能或核心算法,结合预期用途和成熟度予以综合考虑;辅助决策类功能,如是全新的功能、算法和用途原则上均需开展临床试验。
消化内镜肠息肉辅助检测软件由软件安装光盘组成,临床功能模块包括:采集卡管理模块,处理算法管理模块,绘制检测区域模块。产品供医疗机构的执业内窥镜医师用于成人结肠镜检查时,在内窥镜设备输出的视频图像中检测并在图像中标记出疑似息肉,为执业内窥镜医师的临床诊断提供辅助参考,适用于结肠镜的白色光源。
2021年4月,FDA通过De Novo批准了首个内镜肠息肉辅助检测软件即GI Genius。临床试验在意大利3家研究机构开展,临床试验设计为前瞻性、多中心、随机、平行对照设计[18]。试验组为患者接受CADe辅助医生结肠镜检查,对照组为常规结肠镜检查。提交FDA注册申报的主要为基于263例患者的临床试验数据。主要评价指标为腺瘤检出率,次要评价指标包括平均腺瘤数、平均息肉数、无蒂锯齿状病变检出率,右半结肠腺瘤检出率,回盲部到达率,退镜时间等;安全性评价指标为不良事件发生率和阳性预测一致度。
2021年11月,成都微识的肠息肉辅助检测软件EndoScreener取得510k。临床试验在境外4家研究机构开展,临床试验设计为前瞻性、多中心、随机、平行、交叉对照设计[19]。试验组为患者先行“CADe+医生”检查再进行一次医生独立检查,对照组为先进行医生独立检查后再进行一次“CADe+医生”检查。计划入组232例,实际完成患者223例。主要评价指标为腺瘤漏诊率,次要评价指标包括息肉漏诊率、无蒂锯齿状病变漏诊率、腺瘤检出数、息肉检出数、腺瘤检出率、息肉检出率,安全性评价指标为不良事件发生率和阳性预测一致度。
2022年8月,波士顿Iterative Scopes公司的肠息肉辅助检测系统取得510k。临床试验在美国5所研究机构和社区医院开展,临床试验设计为前瞻性、多中心、随机、平行对照设计,试验组为患者接受CADe辅助医生结肠镜检查,对照组为常规结肠镜检查[20]。实际完成患者1359例。主要评价指标为平均腺瘤数和阳性病例比例(等同于阳性预测一致度),次要评价指标包括腺瘤检出率,无蒂锯齿状病变检出率,阳性患者平均腺瘤数,退镜时间,息肉检出率,平均息肉数。安全性评价指标为不良事件发生率。
三款产品均不对病变进行表征或分类,也不建议临床医生如何处理可疑息肉。由临床医生决定所识别的区域是否实际包含可疑病变,以及根据标准临床实践和指南应该如何管理和处理病变。
2022年7月成都微识通过境外临床试验路径在我国境内获批上市。目前该类在审项目有4个,临床设计类型包括平行对照设计和交叉对照设计。
目前,我国批准上市较多的是静态医学图像AI检测识别的产品,静态影像的成像和阅片是两个独立环节,AI产品只会影响后者,并不会干扰成像环节。然而,实时动态AI检测软件发挥作用必须在医学检查的过程中(如内镜,超声等应用),成像和阅片是实时发生在动态视频流上,所以AI的辅助检测提示功能本质上影响了图像的获取过程。例如,在结肠镜的操作中,AI产品的提示肠息肉的目的是引导医生发现、进一步观察并确认病灶,那么正确的提示将引导合理的镜头视野,从而实现更有效的病灶发现,反之,误报可能对操作和图像获取产生负面影响,比如导致医生的精力被分散到阴性区域,减少了可能存在的病灶被捕捉进入镜头的概率,也会发生过多的误报导致医生心烦意乱影响检查效果[21]。
因此,实时动态医疗AI的临床效果不能通过回顾性研究来评价,而需要通过前瞻性随机对照试验来评价使用AI之后是否优于医生单独检出。FDA关注的是消化内镜肠息肉辅助检测软件辅助检查是否增加了癌前病变的检出,是否减少了漏诊,因此腺瘤漏诊率和平均腺瘤数等成为临床试验的主要评价指标。以下将详细讨论FDA目前认可的临床试验设计相关要素。
FDA目前认可平行对照和交叉对照试验两种设计。对照试验具有能够最大程度地避免临床试验设计、实施中可能出现的各种偏倚,平衡混杂因素,提高统计学检验的有效性等诸多优点。交叉对照设计可以最大程度地反映干预的检测差异,采用交叉对照试验,前后两次结肠镜检查的内镜医生需要是同一人,并且需要对第一次检查发现的息肉进行切除或活检,以防止对第二次检查造成影响,尽可能减少偏倚。从临床试验结果上看,两组四次检查的对照可以互相检验,更容易暴露出操作者的主观偏倚,所以交叉对照设计是FDA早期的要求[22]。最早获批的两个申请人都进行了该设计,但是从后续进行的临床试验看,申请人更愿意选择普通平行对照RCT[8,14]。因为交叉对照试验需要对患者进行两次结肠镜检查,相当于延长患者的麻醉时间,可能增大患者的并发症的概率。另外,交叉对照试验还存在由于第二次检查的存在而导致的心理因素,医生可能在第一次检查时有所松懈。平行对照试验在样本量足够大的情况下,可能更能反映产品临床应用的真实情况。但平行对照试验更需要关注试验组和对照组的基线,因为阳性率较高的患者,容易影响试验结果。
目前我国目前关于深度学习辅助决策类产品的临床试验设计,主要有单组目标值法和随机平行对照设计两种。对患者是否患有目标疾病,从而对患者的分诊转诊提供辅助决策建议的产品,该类产品不给出具体病变情况,且无论辅助分诊结果为阴性、阳性,均需专业医师再一次对患者影像进行评阅,如糖尿病视网膜病变辅助分诊、肺炎辅助分诊、脑出血辅助分诊等各类目标疾病患者的计算机辅助分诊、转诊产品等,可以考虑采用单组目标值设计,主要评价指标可考虑产品辅助分诊结果的诊断准确度指标(如敏感度、特异度等,通常为患者水平)。
对目标疾病的病变病灶进行辅助检测的产品,如肺结节辅助检测产品、骨折CT影像辅助检测产品等,临床试验建议采用对照设计,试验组为医师与申报产品共同检测,对照组为传统检测诊断方法(如临床医师的阅片/综合诊断)。主要评价指标考虑诊断准确度指标(如敏感度、特异度、AFROC曲线、检出率等,一般灵敏度考虑病灶病变水平,特异度考虑患者水平)。临床试验比较类型应能够体现产品受益风险的可接受性,建议考虑优效性设计,如针对4mm以上肺结节CT影像辅助检测软件可考虑患者水平的特异度优效和病灶水平的敏感度非劣效。对于肠息肉辅助检测软件也是类似考虑。
无论是交叉对照试验还是普通平行对照试验,目前FDA注册相关的临床试验中的主要临床终点和次要临床终点的设置较为一致,如表1所示。
作为主要临床终点,FDA除了关注反映临床效用的腺瘤漏诊率或平均腺瘤数之外,还引入了阳性预测一致度作为重点关注的安全性指标。也就是说FDA对本类产品的安全性考虑并不只局限在不良事件,而是设置了更精细的安全性标准,即不能因为AI产品的引入导致临床上切除或活检了过多的非癌前病变的组织,导致患者经受额外无谓的医疗干预。
关于次要评价指标里,无蒂锯齿状病变在内镜下呈现扁平隐匿的特点,临床上很不容易被发现和完全切除。有研究指出,1/3的间期结直肠癌源于无蒂锯齿状病变[23]。因此,无蒂锯齿状病变检出率也是很重要的指标。客观上,无蒂锯齿状病变的识别对内镜医师和AI都是比较大的挑战,所以作为次要指标进行观测,无法用其独立评价AI的性能。当前,临床界对无蒂锯齿状病变的研究也是个重点议题[24]。
但腺瘤漏诊率需要采用串联试验,增加了患者发生穿孔、麻醉并发症的风险。同时在我国医疗常规诊疗中,门诊发现息肉不能进行大量切除,需患者住院治疗。
关于目前正在申报的临床试验设计主要采用随机对照设计,试验组为医师与申报产品共同检测,对照组为医师,主要评价指标考虑息肉检出符合率,临床试验设计比较类型考虑优效性设计,以高年资医师为金标准。该临床试验设计需在充分考虑试验组和对照组的肠道清洁波士顿评分、是否到达回盲部、退镜时间等基线数据均衡的基础上,是否也可以反映申报产品的安全有效性有待探讨。
对于临床试验的操作医生,FDA建议参与研究的医生应当具有代表性的经验水平(至少有1000例结肠镜检查经验),1000例结肠镜检查经验只是入门门槛,是内镜医师在肠镜检查方面合格的通用标准。同时,FDA可能认为水平不足的医生的提升空间更大,所以如果以较低水平的医生作为标准来测量产品的临床有效性,可能会导致临床效用的高估。但是又无法科学地按照年资来进行医生的筛选限制,因为高年资医生不一定比低年资医生更为优秀。因此,FDA对参与研究的医生提出了更高要求,希望对照试验在教学医院进行,并且参与医生在没有AI辅助的情况下的自然腺瘤检出率应该在25%~40%。目前国内在审的部分临床试验中医生资质也要求在2000例以上。
FDA对本类产品强调通过随机对照试验评价临床效用和安全性的同时,也明确了临床前独立性能测试的重要性,根据FDA公开材料和获批产品的相关的学术论著,临床前独立性能测试,也就是数据集测试评价的核心原则和方法[1,2,26,27]。
数据集测试中最核心环节是基于帧的真阳性、真阴性、假阳性和假阴性验证,主要评价指标通常选择每帧灵敏度(Frame-Based Sensitivity),定义为基于识别区域与金标准交并比(IoU)的真阳性帧数除以阳性帧总数;每帧特异度(Frame-Based Specificity),定义为真阴性帧数除以阴性帧总数。
次要评价指标皆基于上述验证结果,包含每息肉的敏感度(Lesion-Based Sensitivity),定义为基于交并比(Intersection-over-Union,IoU)且满足检测时点(Time to Detection)和标记持续性(Mark Persistence)的真阳性息肉数除以总息肉数。检测时间点即从息肉第一次出现到第一次被算法标记检测的时间。例如,设置400ms作为参数,即一个息肉出现400ms以内如果没有被算法识别到,就算是基于息肉的假阴性(Lesion Based False Negative)。标记持续性是指算法对息肉的连续检测时间。
次要评价指标也包括基于帧的受试者操作特征(Receiver Operating Characteristic,ROC)曲线和ROC曲线下的面积(Area Under ROC Curve,AUC)、平均每分钟误报率(假阳性Rate/minute)等。ROC曲线的绘制是基于主要评价指标每帧灵敏度和每帧特异度。一个假阳性被定义为在一个非息肉对象上的任何检测标记,且标记持续时间大于等于要求的标记持续性(Marker Persistence)值。平均每分钟误报率是指一分钟误报的平均个数。
对于测试数据集,FDA严格要求纳入一定规模的退镜全长视频,要求退镜全长视频应当剪裁去除手术片段(如息肉切除术、活检等)之后不做任何截取,全部纳入测试。关于数据集,应尽可能多地涵盖不同尺寸、形态、病理的息肉,内窥镜主机及内镜型号。息肉诊断标准应该基于组织学确认。这几点目前也是我国对于该类产品数据集验证的审评关注点。
综上所述,通过对FDA消化内镜肠息肉辅助检测软件类产品的临床监管思路分析并结合我国现阶段对人工智能医疗器械的要求,研究讨论评审要点,有助于完善我国对于内镜肠息肉辅助检测产品的审评要求,提高我国对内镜肠息肉辅助检测产品的审评效率,从而更好地促进我国医疗器械行业的发展。