人工智能辅助结肠镜检查对息肉检出率影响的Meta分析

2023-02-19 10:16冯夕纹李素贞向鹏飞史广蒙綦利平
中国内镜杂志 2023年1期
关键词:结肠镜亚组腺瘤

冯夕纹,李素贞,向鹏飞,史广蒙,綦利平

(武汉科技大学附属武汉亚心总医院 1.消化内科;2.普外科,湖北 武汉 430056)

腺瘤性息肉已被证明是结直肠癌的癌前病变[1],结肠镜检查是目前发现并切除腺瘤性息肉的主要方法之一[2],但结肠镜检查质量却有所差异。判断结肠镜检查质量高低的指标分为术前质量指标(肠道准备)、手术质量指标[盲肠插管率、退镜时间和腺瘤检出率(adenoma detection rate,ADR)]和术后质量指标(监测间隔)[3]。虽然临床不断改进结肠镜检查的方法,以提高检查质量,但结肠镜检查中的腺瘤漏诊率仍高达27%[4]。人工智能(artificial intelligence,AI)已在医学领域广泛应用,深度学习(deep learning,DL)是一种机器学习方法,是AI 应用领域的一个重要组成部分[5],在成像应用方面有着巨大的发展前景。DL是应用神经网络结构的机器学习模式,与传统的机器学习相比,DL 拥有更强大的学习能力,无需进行大量数据的预处理和手动提取,即可自动提取特征,还可进行多任务学习[6]。在医学成像方面,DL可应用于病变检测及分类,同时进行辅助诊断,从而提高临床工作的准确性和效率[7]。因此,DL模型在胃肠内镜检查领域中发展迅速。最近的研究[8]表明,计算机辅助检测(computer-aided detection,CADe)可以准确检测大肠息肉,降低漏检率。但现有的研究在评估息肉检测效能(如:息肉大小、形态、位置和组织学等)上数据比较分散。为此,本研究系统总结了AI 辅助结肠镜对结直肠息肉检测率的影响,以及其与病变特征之间的关系。

1 资料和方法

1.1 文献检索策略

检索自建库至2021年5月Cochrane Library、PubMed、Embase、Web of Science、中国知网(CNKI)、万方数据(Wanfang Data)和维普网(VIP)中关于AI 辅助结肠镜检查的研究。采用主题词与自由词相结合的方法进行检索:artificial intelligence 、colonoscopes、colonoscopy、人工智能和结肠镜。

1.2 纳入与排除标准

1.2.1 纳入标准①研究对象:行结肠镜检查的门诊或住院患者,年龄≥18岁;②研究类型:随机对照试验(randomized controlled trial,RCT);③干预措施:AI 组采用AI 辅助结肠镜检查,对照组采用常规结肠镜检查;④肠镜检查质量:波士顿肠道准备评估量表(Boston bowel preparation scale,BBPS)≥ 6 分,退镜时间 ≥ 6 min,盲肠插管率≥85%。

1.2.2 排除标准①重复发表的文献;②无全文、信息不全或无法进行数据提取的文献;③会议论文、综述和个案报告;④非中文或英文文献。

1.3 结局指标

1.3.1 主要指标①ADR;②息肉检出率(polyp detection rate,PDR)。

1.3.2 次要指标①腺瘤位置(左半结肠、右半结肠);②腺瘤大小(≤5 mm、6~9 mm和 ≥10 mm);③腺瘤形态(有蒂腺瘤和无蒂腺瘤);④息肉位置(左半结肠和右半结肠);⑤息肉大小(≤5 mm、6~9 mm和 ≥10 mm);⑥息肉形态(有蒂息肉和无蒂息肉);⑦退镜时间(不包括活组织检查或治疗时间)。

1.3.3 相关定义结直肠息肉定义:任何已经切除并进行组织学检查的内镜下病变。腺瘤定义:组织学证实为腺瘤成分的息肉。

1.4 文献筛选与资料提取

1.4.1 文献筛选剔除重复文献后,依据纳入与排除标准进行文献筛选。由两名研究者根据纳入与排除标准,独立进行文献筛选、提取资料与核对,如遇分歧,则咨询第三方协助判断。文献筛选时,首先阅读文题和摘要,在排除明显不相关的文献后,进一步阅读全文,以确定是否纳入。

1.4.2 资料提取主要包括:①文献的一般特征:第一作者、发表时间、国家、研究类型、样本量、性别和年龄;②结局指标;③文献质量评价。

1.5 质量评价

由两名研究者按照Cochrane偏倚风险评估对纳入的文献进行质量评价。对于RCT,评价标准包括:随机序列产生、分配隐藏、实施者及研究者是否盲法、研究结果盲法评价、不完整的数据结果、选择性报道和其他偏倚等7 项,每项均采用“是”“否”和“不清楚”进行评价,“是”为低度偏倚,“否”为高度偏倚,“不清楚”为缺乏相关信息或偏倚情况不确定。

1.6 统计学方法

采用RevMan 5.4 软件进行Meta 分析。二分类变量采用相对危险度值和95%CI 计算;连续型变量采用加权均数WMD值和95%CI计算。P<0.05为差异有统计学意义。结合I2和P值进行异质性检验,若P>0.1或I2<50%,提示研究间异质性较小,采用固定效应模型;若P≤ 0.1和I2≥ 50%,提示研究间异质性较大,采用随机效应模型进行合并分析。

2 结果

2.1 文献检索结果及特征

在计算机上手动检索查询,共获得文献865 篇,逐层筛选后,最终纳入8 篇[9-16]RCT,共6 217 例(AI组3 095 例,对照组3 122 例),个体研究样本量为669~1 058 例。文献筛选流程见图1。纳入研究的基本特征见表1。

表1 纳入研究的基本特征Table 1 Basic features of the included studies

图1 文献筛选流程图Fig.1 Flow chart of literature screening

2.2 纳入文献的质量评价

8 篇RCT 偏倚风险评价中,1 篇文献[10]未描述随机序列产生的方法和分配隐藏;6 篇文献[9-14]未对实施者或参与者实施盲法,7 篇文献[9-12,14-16]未对结局指标实施盲法,8篇文献均无不完整数据及选择性报道。见图2。

图2 风险评估Fig.2 Risk assessment

2.3 主要结局Meta分析结果

2.3.1 ADR纳入的8 篇[9-16]研究均报道了ADR,各研究间异质性小(P=0.090,I2=43%),采用固定效应模型分析。根据使用的AI 系统,分为Wision AI 系统和其他系统两个亚组。结果显示:AI 组的ADR 均高于对照组(=1.43,95%CI:1.33~1.55,P=0.000);亚组分析中,Wision AI 系统(=1.31,95%CI:1.17~1.46,P=0.000)和其他系统(=1.58,95%CI:1.41~1.77,P=0.000)的ADR均高于对照组。见图3。敏感性分析:将随机效应模型转换,并逐一去除每篇文献后,对异质性进行检验,转换前后各项指标结果基本一致,表明Meta分析结果稳定。

图3 两组ADR比较的森林图Fig.3 Forest plot of comparison of adenoma detection rate between the two groups

2.3.2 PDR纳入的8 篇[9-16]研究均报道了PDR。根据使用的AI 系统,分为Wision AI 系统和其他系统两个亚组。4 项使用Wision AI 系统的研究[11,14-16]异质性大(P=0.090,I2=54%),采用随机效应模型分析。结果显示:AI 组的PDR 均比对照组高(=1.40,95%CI:1.30~1.51,P=0.000);亚组分析中,Wision AI 系统(=1.38,95%CI:1.22~1.55,P=0.000)和其他系统(=1.45,95%CI:1.31~1.61,P=0.000)的PDR 高于对照组。见图4。敏感性分析:将随机效应模型转换并逐一去除每篇文献后,对异质性进行检验,转换前后各项指标结果基本一致,表明Meta分析结果稳定。

图4 两组PDR比较的森林图Fig.4 Forest plot of comparison of polyp detection rate between the two groups

2.4 次要结局Meta分析结果

2.4.1 腺瘤位置共7 篇文献[9-15]报道了腺瘤位置。各研究间异质性小(P=0.230,I2=20%),采用固定效应模型分析。根据腺瘤的位置,分为左半结肠腺瘤和右半结肠腺瘤两个亚组。结果显示:AI组,左半结肠(=1.57,95%CI:1.42~1.73,P=0.000)和右半结肠(=1.72,95%CI:1.55~1.91,P=0.000)的ADR均高于对照组。见图5。

图5 两组不同位置ADR比较的森林图Fig.5 Forest plot of comparison of ADR at different locations polyp detection rate between the two groups

2.4.2 腺瘤大小共6 篇文献[9-12,14-15]报道了腺瘤大小。根据腺瘤大小,分为 ≤ 5 mm、6~9 mm和 ≥ 10 mm 3个亚组。6项腺瘤 ≤ 5 mm的研究[9-12,14-15]异质性大(P=0.040,I2=57%),采用随机效应模型分析。结果显示:AI 组<10 mm 的ADR 均高于对照组,即:≤ 5 mm(=1.74,95%CI:1.52~1.99,P=0.000)和6~9 mm(=1.35,95%CI:1.08~1.69,P=0.008)的ADR 均高于对照组,≥ 10 mm(=1.39,95%CI:1.01~1.93,P=0.050)的ADR差异无统计学意义。见图6。

图6 两组不同大小ADR比较的森林图Fig.6 Forest plot of comparison of ADR in different sizes between the two groups

2.4.3 腺瘤形态共5 篇文献[10-11,13-15]报道了腺瘤形态。根据腺瘤形态,分为有蒂腺瘤和无蒂腺瘤两个亚组。5 项有蒂腺瘤的研究[10-11,13-15]异质性小(P=0.980,I2=0%),5 项无蒂腺瘤的研究[10-11,13-15]异质性小(P=0.160,I2=39%),采用固定效应模型分析。结果显示:AI组中无蒂的ADR高于对照组(=1.81,95%CI:1.66~1.98,P=0.000),AI 组有蒂的ADR 与对照组相比,差异无统计学意义(=1.13,95%CI:0.89~1.43,P=0.330)。见图7。

图7 两组不同形态ADR比较的森林图Fig.7 Forest plot of comparison of ADR with different morphology between the two groups

2.4.4 息肉位置纳入的6 篇[9-11,13-15]研究报道了息肉位置。根据息肉位置,分为左半结肠息肉和右半结肠息肉两个亚组。6 项右半结肠息肉的研究[9-11,13-15]异质性大(P=0.005,I2=71%),采用随机效应模型分析。结果显示:AI 组左半结肠(=1.68,95%CI:1.54~1.83,P=0.000)和右半结肠(=2.02,95%CI:1.73~2.36,P=0.000)的PDR均高于对照组。见图8。

图8 两组不同位置PDR比较的森林图Fig.8 Forest plot of comparison of PDR at different locations between the two groups

2.4.5 息肉大小共5 篇文献[9-11,14-15]报道了息肉大小。。根据息肉大小,分为 ≤ 5 mm、6~9 mm和 ≥ 10 mm 3 个亚组。5 项息肉≤5 mm 的研究[9-11,14-15]异质性大(P=0.000,I2=88%),采用随机效应模型分析。结果显示:AI 组<10 mm 的PDR 高于对照组,即:≤ 5 mm(=1.96,95%CI:1.65~2.32,P=0.000)和6~9 mm(=1.30,95%CI:1.11~1.52,P=0.000)的PDR均高于对照组,两组 ≥ 10 mm(=1.36,95%CI:0.92~2.01,P=0.120)的PDR比较,差异无统计学意义。见图9。

图9 两组不同大小PDR比较的森林图Fig.9 Forest plot of comparison of PDR in different sizes between the two groups

2.4.6 息肉形态共5 篇文献[10-11,13-15]报道了息肉形态。根据息肉形态,分为有蒂息肉和无蒂息肉两个亚组。5 项无蒂息肉的研究[10-11,13-15]异质性大(P=0.002,I2=79%),采用随机效应模型分析。结果显示:AI组中无蒂的PDR高于对照组(=1.92,95%CI:1.69~2.18,P=0.000),两组有蒂的PDR 比较,差异无统计学意义(=1.24,95%CI:0.99~1.54,P=0.060)。见图10。

图10 两组不同形态PDR比较的森林图Fig.10 Forest plot of comparison of PDR with different morphology between the two groups

2.4.7 退镜时间共6 篇文献[9-11,13-15]报道了退镜时间。各研究[9-11,13-15]间异质性大(P=0.000,I2=93%),采用随机效应模型分析。结果显示:AI组与对照组的退镜时间无差异(MD=0.27,95%CI:-0.01~0.55,P=0.060)。见图11。

图11 两组退镜时间比较的森林图Fig.11 Forest plot of comparison of exit time between the two groups

2.5 发表偏倚

采用漏斗图评估发表偏倚,结果显示:主要结局指标中的ADR 和PDR 漏斗图左右基本对称,提示发表偏倚较小。次要结局指标中的腺瘤大小、腺瘤位置、腺瘤形态、息肉大小、息肉位置和息肉形态漏斗图左右不对称,提示有一定的偏倚;退镜时间漏斗图左右基本对称,提示发表偏倚较小。见图12和13。

图12 主要结局指标漏斗图Fig.12 Funnel chart of primary outcome indicator

图13 次要结局指标漏斗图Fig.13 Funnel plot of secondary outcome indicators

3 讨论

3.1 结直肠癌的临床现状

结直肠癌是全球第三大常见癌症,其发病率在逐年上升[17-18],结肠镜检查是公认的最有效的筛查方法之一[19]。目前,结肠镜检查质量在不断提高,但腺瘤漏诊时有发生,主要原因有:内镜医师的注意力或识别能力有差异,进镜过程中未完全暴露结直肠黏膜,腺瘤切除不完全[20-21]等。虽然黏膜暴露取决于内镜医师的检查技术、肠道准备的质量和内镜本身的旋转角度,但可以通过AI 辅助来改善息肉在内镜屏幕上可见却不能识别的问题。AI 系统可以根据图像之间的特征差异来识别病变,并对图像进行快速处理[6],可以在内镜检查期间实时使用[22]。因此,AI系统可以在内镜检查期间标记可疑区域,从而辅助内镜医生识别息肉。

3.2 AI辅助的结肠镜检查

本文共纳入8篇RCT,Meta分析结果显示:AI辅助结肠镜检查提高了ADR 和PDR;次要结果中,AI组与对照组相比,腺瘤和息肉的检出率与位置、大小和形态相关。AI 组<10 mm 腺瘤和息肉的检出率提高,考虑原因是:腺瘤和息肉直径越小,肉眼越不容易观察到,利用AI 可以帮助识别病变;无蒂腺瘤和息肉的检出率增加,考虑原因为:无蒂的腺瘤和息肉基底部较宽,呈扁平状,内镜医师肉眼不容易识别。AI 辅助可以弥补人眼的识别缺陷,增加检出率。此外,两组患者的退镜观察时间比较,差异无统计学意义。由此可见,即使用AI 辅助结肠镜检查,亦不会增加时间效率。

近年来,LIU 等[11]、WANG 等[14]、WANG 等[15]和WANG 等[16]均使用Shanghai Wision AI DL 系统,结果均显示:AI 辅助结肠镜检查增加了ADR 和PDR,且有较高的灵敏度和特异度。REPICI 等[23]报道了一项前瞻性RCT,该研究由10 名非资深的内镜医师(操作<2 000 例)使用DL CADe 系统,将660 名患者随机分组,结果显示:CADe 能明显提高ADR(53.3%和44.5%,P<0.01),且AI 辅助结肠镜的PDR 稳定,不受内镜医师的经验影响。

3.3 AI的临床应用

AI 在临床实践中实施时,还有许多问题需要解决。AI 和DL 模型的算法仍在不断发展[24],不同模型和训练数据之间存在很大的差异,每个AI 系统都需要独立的前瞻性验证。将DL 应用于结肠镜检查时,仍然需要临床医生提供结肠镜诊断图像等临床数据,再让机器学习,最后才可做出诊断[5,25],可能会因无法识别系统中未包含的疾病亚型而导致漏诊,也有可能因数据不足,将较为罕见的疾病亚型识别为疾病常态,从而导致误诊的发生[26]。DL 亦无法识别出新的病种,且DL 依赖于高质量的图像数据,若患者肠道准备不足,或有出血灶等导致图像清晰度较低时,则可能无法准确识别[27]。因此,需完善统一各模型的数据,增加数据库的储备,提高DL对图像的处理功能;随着5G技术的普及以及与AI和大数据的结合,AI在肠镜中的应用将更标准化和规范化。

3.4 本研究的局限性

本研究具有一定的局限性。首先,纳入的部分研究未提及随机分组和分配隐藏的方法,文献质量有待提高;其次,部分文献的结局指标数据格式不统一,可能导致Meta分析产生偏倚,影响结果的可靠性。

综上所述,肠镜检查中应用AI 辅助可以提高PDR 和ADR,与息肉和腺瘤的位置、大小及形态相关,与退镜时间无关。

猜你喜欢
结肠镜亚组腺瘤
肾嗜酸细胞腺瘤与嫌色细胞癌的MDCT表现及鉴别
胸腺瘤与自身免疫性疾病的研究进展
艾灸神阙穴对不同程度力竭运动大鼠海马区单胺类神经递质的影响❋
冠心病患者肠道菌群变化的研究 (正文见第45 页)
不同年龄阿尔茨海默病患者脑核团ADC值与年龄的相关性
后肾腺瘤影像及病理对照分析
结肠镜下治疗肠息肉的临床疗效观察
175 例结肠镜诊断和治疗结肠息肉的临床分析
结直肠息肉应用腹腔镜联合结肠镜治疗的临床观察
胸腺瘤放射治疗研究进展