石泽璇 付梓龙 刘军娜 李靓璐 牛琼
滨州医学院附属医院消化内科,滨州 256603
深度卷积神经网络(convolution neural network,CNN)是一种机器学习的高级模型,也是图像学习最热门的学习算法。CNN不仅能像人的大脑一样处于不断学习的状态,还能对目标图像进行自动识别、检测,并对目标图像进行快速且准确的分析,提高疾病诊断率。该系统具有检测速度快、检出率高的特点,可应用于大样本量的筛查工作,这就为结直肠癌的筛查节省了时间和成本[1]。早期发现结直肠癌前病变可以促进临床医生的决策并减少他们的工作量。这可以使用具有内窥镜和组织学图像的自动系统来实现。CNN在深度学习模型中克服了模型的过拟合和梯度消失劣势,然而一套成熟的CNN模型依赖大样本量的医疗数据训练并测试。结肠镜检查是用于筛查并诊断肠道疾病的强大医疗仪器,可有效早期诊断结直肠癌,可对结肠息肉分类以指导建立最佳诊疗策略。但是,其诊断准确性却难以得到保证,因为结肠镜检查中存在几项无法规避的局限性:第一,该检查手段误诊率较高;第二,一些肿瘤性病变难以发现,即使是内窥镜专家也不例外;第三,在人口众多的城市及三甲医院,这项工作使内窥镜医生面临高耗时、高劳动量及高精神专注度挑战;第四,腺瘤检测率很大程度上取决于内窥镜医生的工作经验。
深度学习(deep learning,DL),特别是CNN,是一种基于人脑视觉皮层处理和识别图像的原理的深度神经网络。CNN包含多层感知器(人工神经元),旨在使用最少的预处理。CNN利用多个网络层(连续卷积层后跟池化层)从图像中提取关键特征,并通过完全连接的层作为输出提供最终分类。CNN能够从医学图像大数据中自动学习提取隐含的疾病诊断特征;从输入数据中提取特征的卷积层由提取特征的滤波器和将滤波器的值转换为非线性值;由于输入值中有许多特征,所以CNN中使用了多个筛选器;提取不同特征的多个过滤器的组合可以应用于CNN以确定原始数据的特征;过滤器是在通过从学习数据中学习来识别特征后自动创建的;通过过滤器提取特征图后,将应用激活函数使定量值非线性(是或否值)。近几年,CNN已迅速成为医学图像分析研究热点。基于医学图像的诊断,如病理学、放射学和内窥镜检查,预计将成为医学领域第一个受到人工智能影响的诊断[2]。在胃肠镜检查中,深层模型正在利用病变的形状和边缘信息进行预测。DL有望通过自动检测和分类病变来帮助内窥镜医生提供更准确的诊断。因此,内窥镜医生必须专注于这项新技术。基于CNN技术的结肠镜检查为医疗行业的发展提供了新思路并且已在多个肠道内窥镜领域中应用。
CNN即专门适用于图像数据的深度神经网络已被用于对多种类型肿瘤的分类或定位中。CNN模型筛查结直肠病变基于白光、放大内窥镜和亚甲蓝、靛胭脂等染色剂处理后的色素内镜及电子染色的内镜图片和视频训练模型,通常会用2种甚至2种以上内镜图片训练以提高模型的准确性或适用性。临床上约80%的结直肠息肉为腺瘤。腺瘤发现率是间歇结直肠癌的独立预测指标[3]。计算机辅助诊断结肠息肉及腺瘤主要包括结肠镜下息肉的自动识别及实时显示息肉存在的位置、大小、数量等特征,内镜下行息肉组织学分类,实现精准光学诊断[4]。术语“光学诊断”指的是使用先进的成像技术进行实时的、活体的息肉特征观察和评估,以指导治疗决策。
Byrne等[5]开发了一个人工智能模型,用于实时评估结直肠息肉的内窥镜视频图像;采用CNN模型:训练集,使用223个息肉视频(29% NICE类型1,53% NICE类型2和18%没有息肉的正常黏膜),包括60 089帧;验证集,使用40个视频(NICE类型1、2和2个正常黏膜的视频),最终的测试集包括125个连续识别的微小息肉,其中包括51个增生性息肉和74个腺瘤;腺瘤的诊断灵敏度为98%(95%置信区间92%~100%),特异度为83%(95%置信区间67%~93%),阴性预测值97%,阳性预测值90%。
Wang等[6]开展了一项前瞻性随机对照试验,基于DL的息肉实时自动监测系统表现出高准确性、保真度和稳定性;研究表明,在腺瘤发现率较低的地区,基于DL的实时计算机辅助监测系统显著提高了结直肠息肉和腺瘤的检出率。目前,计算机辅助诊断系统有可能应用于临床实践,以更好地检测结肠息肉。
Yang等[7]开发并验证了DL模型;该模型可以在白光结肠镜图像上自动对大肠病变进行组织学分类;收集有病理结果的大肠病变的白色结肠镜图像,共收集1 339例患者的影像资料3 828张,训练了2个卷积神经网络模型,对7类和4类分类的平均准确率在外部验证数据集中分别为74.7%和79.2%;在外部验证中,ResNet-152模型在4类分类方面优于2名内窥镜医生,并且与表现最差的内窥镜医生相比,在检测管状腺瘤病变方面显示出更高的曲线下面积(AUC)(0.818);用启始-Resnet-v2方法检测高度不典型增生病变的平均AUC,达到0.876;建立的CNN模型在基于标准白光结肠镜图像将结直肠肿瘤从非肿瘤性病变分类为晚期结直肠癌方面表现出良好的性能。该模型可以被用来辅助组织学的准确预测和在实践中选择最佳的治疗策略。
对微小息肉的准确光学诊断将使其能够识别直肠乙状结肠区的增生性息肉,并使内窥镜医生能够自信地采取“诊断并离开”的方法,而不是切除病变。同样,对于小腺瘤,准确的光学诊断将促使内窥镜医生就地切除病变并丢弃标本,而不需要进行组织学评估(“ 切除并丢弃”策略)。因此,基于计算机辅助监测系统预测息肉病理类型在未来临床工作中有望成为可能,息肉病理准确预测仍是临床上的一项重要挑战。
全结肠镜检查对结直肠癌、大肠息肉、炎症性肠病等疾病的诊断具有很高的灵敏度和特异度。大肠疾病的临床特点因解剖部位不同而不同。最近的几项研究指出,根据流行病学、预后和化疗的临床结果,右侧和左侧的癌之间存在差异[8-12]。因此,结肠镜检查能够准确地确定大肠疾病的解剖位置。结肠镜检查的第一步是在检查过程中识别每个肠道区域的解剖位置。这也是构建计算机辅助监测系统的第一步。该系统可在结肠镜检查过程中为我们提供支持,并为结肠镜检查过程的质量提供保证。
Saito等[13]构建了一个使用CNN的计算机辅助设计系统;该模型通过训练409例9 995张结肠镜图像来构建CNN,并使用5 121张独立的结肠镜图像来测试其性能;这些图像根据7个解剖位置进行分类:回肠末端、盲肠、升结肠到横结肠、降结肠到乙状结肠、直肠、肛门和难以区分的部分;最终构建了一个CNN算法并评估了内窥镜医生的诊断与CNN的诊断之间的一致性;构建的系统识别了结肠镜图像的解剖位置,AUC如下:回肠末端0.979,盲肠0.940,升结肠至横结肠0.875,降结肠至乙状结肠0.846,直肠0.835,肛门0.992。在测试过程中,CNN系统正确识别了66.6%的图像。此外,由于末端回肠的准确率足够高,如果我们将其结合到实时结肠镜检查中,就能够构建一个完成全结肠镜检查的自动确认系统。因此,我们可以使用计算机辅助诊断系统为未来结肠镜检查的发展奠定基础。
肠道准备质量是影响结肠镜检查的重要因素之一。尽管结肠镜检查在降低结直肠癌发病率和不算率方面的潜力很大,但结肠镜检查的质量和有效性与几个因素有关。肠道准备就是这样一个因素。事实上,肠道清洁对于确保结肠黏膜的最佳可视化以及检测和切除息肉至关重要。肠道准备不足与漏诊和手术时间延长有关[14-15]。现已经开发了几种量表来评估肠道准备。一些学者建议将肠道准备的质量作为结肠镜检查报告的一部分进行记录。清洁质量决定了结肠镜检查的质量、难度、速度和完整性。在住院患者和合并症较多的患者中,清洁质量较低。接受息肉切除术的患者比例随着清洁质量的提高而增加,而结肠癌检测似乎并不严重依赖于肠道准备的质量。
Zhou等[16]利用CNN开发了一个每30 s提供1次肠道准备评分并显示结肠镜检查退出阶段每个评分的累积帧比的名为ENDOANGEL的新系统;该系统在人机竞赛中以93.33%的准确率优于所有内窥镜专家;在带有气泡的图像中达到了80.00%的准确率;在20个结肠镜视频中,准确率为89.04%。这为我们提供了一种新颖且更准确的肠道准备评估方法。这种客观、稳定的系统——ENDOANGEL可以在临床中可靠、稳定地应用。
Zhou等[17]基于波士顿肠道准备量表(Boston Intestinal Preparation Scale,BBPS)开展了一项前瞻性观察性研究;该研究纳入3个月内616例接受结肠镜筛查的患者,结果显示,e-BBPS分数与腺瘤发现率之间存在显著的负相关(r=-0.976,P<0.010);e-BBPS得分1~8的腺瘤发现率分别为28.57%、28.68%、26.79%、19.19%、17.57%、17.07%、14.81%和0;确定e-BBPS评分3分作为阈值,以保证腺瘤发现率超过25%,从而实现高质量的内窥镜检查。e-BBPS系统有可能为充分肠道准备的量化提供更客观和精细的阈值。
结肠镜作为一种操作者依赖性检查,受内镜医师的主观意识影响较大,检查过程中内镜医师的操作质量对腺瘤发现率起关键作用[18]。内镜医师对腺瘤的重视程度和操作水平参差不齐。即使是三甲医院,也存在因肠道准备差、内镜检查人数多、检查时间过快、初级内镜医师对放大染色内镜图像判别能力欠佳、内镜医师图像观察专注水平随疲劳程度增加而下降等问题导致漏诊。如何提高结直肠腺瘤发现率已经成为各级医院消化内镜中心最关注的问题之一。结肠镜退镜过程中的检查时间、肠道清洁度、检查完整度均可影响结直肠腺瘤检出[19]。基于标准操作流程的质量控制可降低操作者间的差异,提高结肠镜检查质量,从而提高结直肠腺瘤检出率[20]。
Wang等[21]通过结肠镜检查时阑尾口的出现证实结肠镜完全穿越全部结肠,从而作为评估结肠镜检查完整率的指标;首先,通过提取阑尾孔图像中新的局部特征,新特征基于沿边的横截面的几何形状、照明差异和强度变化;然后通过显示至少3 s阑尾孔检查的附录视频来表明阑尾口的良好可视化,再利用近相机停留检测来填补缺失的边缘欠清晰的阑尾孔图像,并剔除一些错误的分类,从而识别阑尾口并将其作为评估结肠镜检查完整率的指标;研究结果中监测新月形阑尾孔图像的平均灵敏度和特异度分别为96.86%和90.47%。
Su等[22]创建了一种基于CNN模型的实时自动质量控制系统以降低内窥镜医师检查时间和水平上的波动性,以此来稳定结肠镜检查的常规质量控制;与对照组相比,实时自动质量控制系统组实时自动质量控制系统腺瘤发现率(0.289比 0.165,P<0.001)、每次手术的平均腺瘤数量(0.367比0.178,P<0.001)、息肉检出率(0.383比0.254,P<0.001)和每次手术检测到的息肉平均数量(0.575比0.305,P<0.001)均较高;此外,实时自动质量控制系统组退出时间(7.03 min比5.68 min,P<0.001)和充分肠道准备率(87.34%比80.63%,P=0.023)均优于对照组;这项研究表明,实时自动质量控制系统可显著提高息肉和腺瘤的检测能力,提高结肠镜检查的质量。
随着最近人工智能的发展,在医学的各个领域以及胃肠病学中,已经实现了对医学图像上的疾病的自动诊断或分类。有些在结肠镜检查领域取得了很好的性能,不仅用于检测大肠息肉[23],而且还用于大肠息肉的分类[24-25]。然而,大多数研究集中于使用放大窄带内镜或内窥镜检查的特定图像来区分肿瘤性和非肿瘤性病变[26],这限制了其实际应用。近10余年来CNN技术广泛应用于肠道检查的各个环节,但尚缺乏真正投入临床使用的临床试验,例如目前的研究多为回顾性研究,而回顾性研究学习材料的来源渠道通常较单一且多为静态有倾向性的高质量内镜图像。人工智能走向未来临床实时应用需优化的内容:⑴内镜图像选择偏倚,导致回顾性研究结果往往优于临床操作实际结果;⑵图像数据集临床实时应用具有一定的片面性和局限性,不能涵盖病变所有形态特征,而视频集的应用能较好解决上述问题;⑶内镜检查过程中的视频一般包含相对数量低清晰度的真实图片,这是单纯筛选出的高质量的固定像素图片很难涵盖的,利用视频里截取的大量画面作为学习材料,一定范围内可减少假阳性和假阴性率[27]。通过不断改良CNN模型,提高临床试验的准确率、灵敏度及特异度,为人工智能走向未来临床实时应用打下坚实基础。
近年来DL策略的应用在结肠镜检查领域取得了很好的性能,对于未来类似的DL方法也有巨大潜力。消化道肿瘤的早期诊断一直是医学界亟待攻克的热点。利用DL的方法在结肠镜检查中对结肠病变监测、定位和分类,以帮助内镜医生减少漏诊率,提高腺瘤发现率。然而,消化系统早期癌前病变一般累及范围小、深度浅,内窥镜下形态表现不明显,难以发现;而且,内窥镜检查的评估结果往往取决于手术医生的主观经验,主观性很强,对医生的临床技能和工作经验要求很高,低资质或疲惫的医生更有可能误诊病变。CNN可能有助于内窥镜医生识别病变并将不良反应降至最低。尽管DL方法取得了巨大的成功,但临床验证和应用仍然是必须的。创建更大、分类更细的公共数据集,需要较少训练样本的新算法和通用验证框架的创建将保持上升趋势,并将最终应用于计算机辅助诊断系统的临床应用,以帮助胃肠病专家提高腺瘤发现率和早期发现结直肠癌[28]。
现阶段越来越多的研究证明了CNN在提高息肉光学诊断方面的潜力。CNN的使用可能会减轻内窥镜操作人员之间的可变性,使实时采用“切除并丢弃”或“离开”策略成为可能。这将为医疗系统带来显著的社会效益,避免不必要的非肿瘤性息肉切除术,并提高结肠镜检查的效率。但是,这需要前瞻性的多中心随机对照试验和公开可用的基准测试数据集来进一步评估CNN的有效性和普适性。此外,随着这些模型出现在内窥镜检查单元中,迫切需要制定指南来确定它们在临床工作流程中的作用。
作者贡献声明石泽璇:研究实施,论文撰写,数据采集,统计学分析;付梓龙:研究实施;李靓璐:数据采集;刘军娜:统计学分析;牛琼:研究指导,论文修改,经费支持