姜良慧 孙 昕 张荣秋 孟欣颖 李雪桐 周长宏#
青岛大学附属青岛市市立医院东院保健科1(266071) 内镜中心2 北京航空航天大学中德软件技术联合研究所3
背景:基于深度学习技术的计算机辅助诊断已成为胃肠病学领域的研究热点,计算机辅助诊断结直肠息肉已引起越来越多的关注。目的:验证一个自动识别结直肠息肉的深度学习模型,分析该模型对新手内镜医师的辅助学习功能。方法:回顾性收集2019年1月—2020年1月青岛市市立医院东院内镜中心数据库中的结肠镜图像共1 200张,其中结直肠息肉图像600张,正常结肠图像600张。以深度学习技术模型对1 200张内镜图像进行验证,并比较该模型与5名新手内镜医师诊断结直肠息肉的敏感性、特异性、准确率、时间。结果:深度学习模型诊断结直肠息肉的敏感性为93.2%,特异性为98.7%,准确率为95.9%,每张图像的诊断时间为(0.20±0.03)s,模型的敏感性、准确率、诊断时间优于5名新手内镜医师,特异性优于部分新手内镜医师。当息肉≤5 mm或6~9 mm时,模型的准确率分别为88.1%、96.8%,优于5名新手内镜医师;当息肉≥10 mm时,模型的准确率为100%,与5名新手内镜医师无明显差异。模型识别隆起型息肉的准确率为94.8%,优于部分新手内镜医师;模型识别扁平型息肉的准确率为91.7%,优于5名新手内镜医师。扁平型息肉未能识别(38.8%)、黏膜皱襞处息肉(32.7%)、误认黏膜皱襞为息肉(12.2%)为模型假阴性或假阳性的主要原因。结论:深度学习模型对结直肠息肉的辅助诊断有较高的准确率、敏感性、特异性,且诊断时间较短,可辅助新手内镜医师识别小息肉和扁平型息肉。
结直肠癌是癌症患者死亡的常见病因[1],是中国常见的第三大癌症[2]。80%~90%的结直肠癌由腺瘤样息肉演变而来,“腺瘤-癌序列”的概念得到了临床研究支持[3]。结肠镜检查作为结直肠癌筛查和监测的金标准,定期结肠镜检查并切除结直肠息肉可在一定程度上预防结直肠癌。腺瘤检出率(adenoma detection rate, ADR)与结肠镜检查后结直肠癌发生率和死亡率呈负相关[3]。然而在不同的内镜医师中,ADR差异可达7%~53%[4],提高结直肠息肉的检出率是提高我国结直肠癌患者生存率的有效策略,建立一个准确、客观的结直肠息肉检出工具对内镜专家和新手内镜医师均大有裨益。因经验不足,新手内镜医师的息肉漏诊率明显高于内镜专家,针对新手内镜医师的岗前和在岗培训对降低息肉漏诊率十分必要。
随着人工智能(artificial intelligence, AI)技术的革新,基于深度学习(deep learning, DL)的计算机辅助诊断正成为诊断疾病的重要工具。本研究采用DL技术初步探索内镜图像下结直肠息肉的自动识别,测试计算机图像分析能力,并与新手内镜医师识别息肉的敏感性、特异性、准确率、诊断时间进行比较,旨在明确DL模型在结直肠息肉诊断中的临床价值,从而辅助新手内镜医师提高息肉的识别和诊断水平。
回顾性收集2019年1月—2020年1月期间青岛市市立医院东院内镜中心数据库中1 200张结肠镜图像,其中结直肠息肉图像600张,正常图像600张。纳入标准:行息肉摘除术或息肉切除术治疗的患者,诊断均由术后病理检查明确。排除标准:①晚期结直肠癌;②炎症性肠病;③有结直肠手术史;④有活检禁忌的患者;⑤黏膜下病变。
所选图像均在白光、非碘染色、非放大模式下正常拍摄,内镜型号主要包括Olympus 290主机+肠镜290I、Fujinon 4450主机+肠镜600ZW、600WR系列。本研究应用由北京航空航天大学中德软件技术联合研究所提供的基于DL技术的息肉识别模型进行验证。
利用DL技术模型对1 200张结肠镜图像进行对比分析识别。共选取7名本院内镜医师,分别为2名专家内镜医师和5名新手内镜医师。专家内镜医师从事内镜工作超过20年,内镜检查例数超过5 000例;5名新手内镜医师从事内镜工作小于2年,内镜检查例数小于500例。2名专家内镜医师结合息肉组织病理学标注内镜图像作为验证标准,5名新手内镜医师分别在同一计算机上对选取的验证集进行识别与诊断。为测试模型稳定性以及与新手内镜医师对比结果的平衡性,反复打乱测试集顺序后,利用模型进行5次图像分析,分别记录模型和新手内镜医师诊断图像所用的时间,并统计敏感性、特异性、准确率。
本研究共选取验证集图像1 200张,其中结直肠息肉图像600张,正常图像600张。DL模型5次识别结直肠息肉的敏感性均为93.2%(559/600),特异性均为98.7%(592/600),准确率均为95.9%(1 151/1 200),每张图像诊断时间平均为(0.20±0.03)s(表1)。DL模型正确识别结直肠息肉的输出图像见图1-2。
图1 DL模型正确识别结肠皱襞处息肉的输出图像(标注框周数字为标注框内是息肉的概率)
5名新手内镜医师对选取的验证集图像的敏感性、特异性、准确率、每张图像平均诊断时间见表1。利用模型辅助诊断结直肠息肉的敏感性、准确率均明显优于5名新手内镜医师,差异有统计学意义(P<0.001);特异性明显优于新手内镜医师1和4,差异有统计学意义(P<0.005),与新手内镜医师2、3、5相比无明显差异(P>0.05);DL模型的诊断时间均明显优于5名新手内镜医师,差异有统计学意义(P<0.001;表1)。
表1 DL模型与5名新手内镜医师的结直肠息肉诊断结果比较
600张息肉图像中,≤5 mm的息肉图像277张,6~9 mm息肉图像249张,≥10 mm息肉图像74张;隆起型息肉图像286张,扁平型息肉图像314张。
当息肉≤5 mm或6~9 mm时,DL模型识别息肉的准确率分别为88.1%、96.8%,均明显优于5名新手内镜医师,差异有统计学意义(P<0.05);当息肉≥10 mm时,DL模型准确率为100%(74/74),与5名新手内镜医师相比差异无统计学意义(P>0.05);模型和5名新手内镜医师识别不同大小息肉的准确率相比差异均有统计学意义(P<0.001;表2)。
DL模型识别隆起型息肉的准确率为94.8%,明显优于新手内镜医师1~4,差异均有统计学意义(P<0.05),与新手内镜医师5相比差异无统计意义(P>0.05);DL模型识别扁平型息肉的准确率为91.7%,均明显优于5名新手内镜医师,差异有统计学意义(P<0.005);DL模型、新手内镜医师2、4识别两种不同形态息肉的准确率无明显差异(P>0.05),新手内镜医师1、3、5识别隆起型息肉的准确率优于扁平型息肉,差异有统计学意义(P<0.05;表2)。
图2 DL模型正确识别2处≤5 mm结肠息肉的输出图像
表2 DL模型与5名新手内镜医师诊断不同大小、形态结直肠息肉的准确率比较%(n/N)
DL模型错误识别了49张验证集息肉图像,假阴性率为6.8%(41/600),假阳性率为1.3%(8/600)。其中,漏诊的扁平型息肉占错误识别图像的38.8%(19/49),漏诊的结肠皱襞处息肉占32.7%(16/49),误诊结肠皱襞为息肉占12.2%(6/49),息肉位于图像边缘占4.1%(2/49),图像模糊、视野昏暗、器械、回盲部、气泡、颜色干扰各占2.0%(1/49)。DL模型诊断结果为假阴性输出图像和假阳性输出图像见图3-6。
图3 DL模型未识别位于结肠皱襞、覆盖气泡的息肉图像,诊断结果为假阴性(黑色箭头所示处为息肉)
本研究将新兴的DL技术应用于结直肠息肉诊断,就该模型在临床实践中辅助新手内镜医师识别息肉进行了初步探索。通过收集1 200张结肠镜下结直肠息肉图像,整理数据集输入DL模型进行验证,结果显示模型的敏感性为93.2%、特异性为98.7%、准确率为95.9%,每张图像的诊断时间平均为(0.20±0.03)s,证实该模型诊断结直肠息肉具有较好的临床效果。
图4 DL模型未识别位于结肠皱襞的息肉图像,诊断结果为假阴性(黑色箭头所示处为息肉)
图5 DL模型误认结肠皱襞为息肉的输出图像,诊断结果为假阳性
图6 DL模型误认气泡为息肉的输出图像,诊断结果为假阳性
本研究结果显示,DL模型识别息肉的敏感性、准确率、诊断时间优于5名新手内镜医师,特异性优于部分新手内镜医师。当息肉≤5 mm或6~9 mm时,模型识别息肉的准确率分别为88.1%、96.8%,优于5名新手内镜医师;当息肉≥10 mm时,准确率为100%,与5名新手内镜医师相仿;其中,模型识别不同大小息肉的准确率差异有统计学意义,息肉越大,模型识别息肉的准确率越高。由此可见,当息肉为1~9 mm时,DL模型对于新手内镜医师具有一定的辅助作用。Wang等[5]的一项临床随机试验将基于DL的计算机辅助系统与标准结肠镜检查对息肉的检测结果进行比较,结果显示计算机辅助诊断息肉的ADR优于标准结肠镜检查,其中ADR的增加仅限于微小息肉和小息肉,>10 mm息肉的诊断结果无明显差异。Guo等[6]开发了基于卷积神经网络的计算机辅助检测算法,其对小息肉(2~8 mm)的敏感性与内镜专家相同(均为88%),优于2名接受培训的医师(分别为84%和76%)。
本研究结果还显示,DL模型识别隆起型息肉的准确率为94.8%,优于部分新手内镜医师;模型识别扁平型息肉的准确率为91.7%,优于5名新手内镜医师。既往研究发现,结肠镜检查过程中,扁平型息肉的漏检率明显高于隆起型息肉[7]。本研究发现,DL模型识别这两种不同形态息肉的准确率相比差异无统计学意义,故该模型在临床检查过程中有利于辅助新手内镜医师诊断息肉,减少扁平型息肉的漏诊率。
通过对DL模型错误识别的内镜图像进行分析发现,扁平型息肉、黏膜褶皱对模型识别息肉的干扰作用较大,分别占38.8%、32.7%。本研究为模拟临床内镜操作的真实环境,验证集均选取内镜下息肉原图,同时添加形态较小、扁平、内镜下与结肠黏膜色差不明显的息肉,并添加内镜下模糊、散焦、局灶黏液、出血、粪便、皱襞、内镜反光、视野昏暗、运动模糊等不清晰图像,模型识别的敏感性、特异性、准确率受图像选择偏倚较小,测试结果相对具有真实性和可靠性。
本研究所收集图像均为白光、非染色、非放大内镜下图像,具有广泛临床适用性。结直肠息肉的临床表现具有隐匿性,我国结直肠癌的预防主要通过对非特异性症状和无症状的人群进行筛查。染色内镜、放大内镜等在一定程度上可提高息肉检出率[8],但因检查费用较高,且对内镜医师操作水平具有一定要求,并未在我国多数医院普及,未能作为息肉筛查的常规手段。由此认为针对白光内镜图像设计的计算机辅助诊断结直肠息肉模型的实际适用范围更大,具有更高的临床价值。
当前DL模型已初步实现检测内镜视频中是否存在息肉。在验证过程中,将内镜视频导入神经网络模型,视频自动拆分成帧,并以25帧/s循环检测每一帧,识别疑似病变部位,并实时输出诊断结果。因动态视频下,肠道内环境复杂,故模型检测息肉精准度偏低,模型部署至临床内镜系统存在一定局限性。后续将收集并添加更多的训练样本,完善模型后进行系统地视频验证,优化模型后可联合内镜系统,开展实时内镜检查过程中对比研究,验证模型的实际应用效果。
结直肠息肉和腺瘤为公认的结直肠癌的癌前病变。美国一项大型队列研究[4]结果表明,有效结肠镜检查可降低约70%的结直肠癌死亡率。故有效提高结肠镜检查时息肉和腺瘤的检出率已成为结直肠癌一级预防的重要措施。临床实践中,息肉漏诊原因主要为:①肠道准备差、退镜速度快、患者体位不佳影响肠道黏膜视野暴露,干扰肠道息肉的识别。因此,高质量的肠道准备[9]、充足的退镜时间[10]、动态体位变化[11]可一定程度上改善息肉识别率。②内镜医师技术水平差异引起的诊断差异,内镜医师经验差异、检查时因器械操作分心、因疲劳或情绪因素引起注意力不集中均可造成部分息肉漏诊[12-14]。有研究显示,经验丰富的护士可通过观察监视器辅助专业的内镜医师将息肉检出率和ADR分别提高8.9%和7.4%[15];实时内镜检查过程中,“第二观察者”可在一定程度上辅助内镜医师提高息肉检出率[16]。
随着近年技术的突破,AI将改变胃肠病学领域,尤其是内镜和图像诊断,AI正迅速从胃肠病学的实验阶段过度到临床实施阶段[17]。计算机辅助息肉诊断引起了越来越多的关注,Urban等[18]利用DL技术设计并训练的网络模型识别息肉的准确率为96.4%。Wang等[19]的研究开发验证了DL算法,其辅助诊断结肠息肉的敏感性和特异性分别为94.38%、95.92%。Lee等[20]的研究利用YOLOv2模型,开发并验证了用于息肉检测的DL算法,测试集A包含1 338幅息肉图像,敏感性为96.7%,测试集B包含612幅息肉图像的公共数据库,敏感性为90.2%。息肉检测系统可作为一个有效的第二观察者,实时吸引内镜医师观察疑似病变,提高新手内镜医师的息肉检出率,克服内镜检查过程中因临床经验等因素导致的诊断差异。临床内镜操作检查是一个自身成长、累积经验的过程,如何帮助新手内镜医师提高白光内镜下息肉检出率,是目前面临的现实问题。对于新手内镜医师,计算机辅助诊断有助于协助新手内镜医师识别息肉,在实际操作中起有良好的辅助作用。
综上所述,本研究基于AI技术建立的识别结直肠息肉DL模型具有较高的临床价值,可辅助新手内镜医师进行息肉的诊断。后续研究将扩大模型的数据集,持续优化模型,联合内镜检查系统,争取开展临床前瞻性研究,以验证本模型的效能。随着计算机辅助诊断技术的进步以及内镜技术的更新,基于DL的内镜辅助系统有望在未来的临床工作中发挥重要价值。