人工智能辅助消化内镜诊断的进展

2024-05-18 00:33:50赵思琦刘文天

世界华人消化杂志 2024年3期

赵思琦,刘文天

赵思琦,刘文天,天津医科大学总医院消化内科天津市 300052

0 引言

消化道疾病的发病率一直居于世界前列,2015年我国肿瘤登记资料显示,食管癌、胃癌、肝癌和结直肠癌在恶性肿瘤中构成比为35.82%,且多数患者发现时已为中晚期,预后较差,故发现早期癌变一直是消化内镜领域的研究热点.消化内镜在消化系统疾病的诊疗过程中发挥着不可替代的作用,随着内镜技术的发展,电子色素内镜如窄带成像(narrow-band imaging,NBI),蓝激光内镜(blue laser imaging,BLI)及放大内镜(magnifying endoscopy,ME)、共聚焦激光显微内镜等技术应用于临床,超声内镜(endoscopic ultrasound,EUS)、胶囊内镜(capsule endoscopy,CE)也日趋成熟,使医生可以直观地检查消化道黏膜病变及黏膜下病变.然而,由于我国电子内镜医疗资源分布不均,内镜医师临床经验以及诊疗水平参差不齐,对早期癌变黏膜的识别度低,导致我国食管癌、胃癌等疾病的早期内镜下检出率较低.如今计算机技术迅猛发展,在各种机器学习(machine learning,ML)之上衍生出更高级的基于深度学习(deep learning,DL)的AI技术,如卷积神经网络(convolutional neural network,CNN).CNN在图像识别、图像分割、图像理解等领域表现优异,已经成为医学成像的一个有前途的工具.AI影像系统包括: 计算机辅助检测系统(computer assisted detection,CADe)和计算机辅助诊断系统(computer assisted diagnosis,CADx),目前该系统仍在不断开发、测试和改进中,有望未来在临床得到广泛的推广.

1 人工智能辅助胃镜检查的应用进展

胃镜检查是直观检查上消化道病变的最常用手段.人工智能辅助胃镜检查的研究热点包括检测致癌独立危险因素幽门螺杆菌(Helicobacter pylori,H.pylori)感染[1]、识别Barrett’s食管(Barrett's esophagus,BE)和慢性萎缩性胃炎(chronic atrophic gastritis,CAG),以及对食管癌、胃癌的早期诊断和分期分级,评估预后等.国内外已有多位学者将CAD系统应用于食管疾病诊断的探索,包括食管癌的识别及分级、BE和非异型增生BE(non-dysplastic Barrett's esophagus,NDBE)的辨别等.

1.1 人工智能辅助诊断BE BE是已知的食管腺癌(esophagus adenocarcinoma,EAC)的癌前病变.BE患者应定期接受内镜监测,以便在早期发现EAC,进行内镜下干预,改善预后.当内镜下可疑BE但目标活检和随机活检均未显示异常增生时,可称为NDBE[2],NDBE可发展为高级别瘤变(high-grade neoplasia,HGD)或EAC,但可能性较BE低.

Jisu等[3]构建了一个CNN分类器来区分BE和食管癌,其分类准确率为80.77%.而后de Groof等[4]首次开发了一种基于白光内镜(white light endoscopy,WLE)的CAD系统,用于实时内镜下辨别BE和NDBE,并且在Jisu的基础上扩大了训练数据集和验证数据集.该研究前瞻性地收集40例BE和20例NDBE患者的WLE静态图像用于验证.经验证,该CAD系统在WLE图像上检测和定位BE准确度为92%,灵敏度为95%,特异度为85%.然而当病变的最大部分包含反光时,该系统将难以识别病变.

继Jisu和de Groof之后,Struyvenberg等[5]利用DL技术选择用双中心来源的494364张普通内镜图像和1430张含病变的WLE及NBI缩放图像(802张BE和628张NDBE)分层多次训练CADx系统,在进一步扩大验证数据集静态图片数量的同时加入NBI变焦视频.经验证,该系统基于NBI变焦图像检测BE的准确性、灵敏度和特异性分别为84%、88%和78%;基于视频的准确性、灵敏度和特异性分别为83%、85%和83%.基于视频的CADx系统的准确性、灵敏度差别不大,值得注意的是其识别BE的特异性增加了,这可能会减少内窥镜医师假阳性预测的数量,从而减少不必要的活组织检查.该研究验证数据集包含的视频样本量相对较小,故该系统对视频的识别可能不够稳定.

1.2 人工智能辅助诊断食管癌食管癌是全球第八大最常见的癌症[6],2020年中国食管癌新发病例和死亡病例别占全球的53.70%和55.35%[7].早期食管癌(esophageal squamous cell carcinoma,ESCC)预后良好,5年生存率可达80%,晚期预后极差,5年生存率不足20%.故内镜下早期识别、早期治疗食管癌对患者预后极其重要.

癌症侵袭深度是影响浅层癌患者治疗选择的一个关键因素,然而内镜下观察者对侵袭深度的判断具有主观因素.Nakagawa等[8]用非放大内镜和放大内镜(二者均包含WLE、NBI和色素内镜图像)图片训练人工智能系统,用于评估浅层ESCC.该系统鉴别病理性粘膜及粘膜下微浸润性(SM1)癌与粘膜下深浸润性(SM2/3)癌的敏感性为90.1%,特异性为95.8%,阳性预测值为99.2%,阴性预测值为63.9%,准确率为91.0%,其对肿瘤侵袭深度的判断与有经验的内窥镜医生相当.

Guo等[9]用NBI图像通过深度学习训练的实时CAD系统识别食管癌的灵敏度为98.04%,特异性为95.03%,但未开发对食管肿瘤进行分级的功能.随后Wang等[10]通过CNN构建了一个通过单次多盒检测器(single-shot multibox detector,SSD)进行深度学习的人工智能系统,可在识别食管肿瘤的基础上进行组织学分级,包括低级别鳞状异常增生、高级别鳞状异常增生和鳞状细胞癌(squamous cell carcinomas,SCC).498张WLE和438张NBI图像被纳入训练图像数据集.SSD对食管SCC具有良好的敏感性,综合SSD、WLE和NBI对食管癌的敏感性分别为98.9%、97.5%和100%.该系统在检测食道肿瘤方面的灵敏度、特异性和诊断准确性分别为96.2%、70.4%和90.9%,且在区分食道肿瘤的组织学等级方面的准确率为92%,且分析NBI(95%)时显示出比WLE(89%)图像更好的准确性.虽然NBI通过放大肿瘤的特征增加了敏感性,但NBI也可能因过度诊断而降低特异性.食管肿瘤的不同组织学分级通常是通过放大内镜来进行的,该研究证实该系统在不需要放大内镜和经验丰富的内镜医师的情况下在准确诊断浅表食管肿瘤方面具有很大的潜力.

1.3 人工智能辅助诊断胃非肿瘤性病变H.pylori感染了世界上超过一半的人口.多种研究表明H.pylori感染与胃癌密切相关,因此,H.pylori已被国际癌症研究机构确认为Ⅰ类致癌物.中国作为H.pylori感染大国,及时发现并防止其持续感染造成组织损伤尤为重要.内镜检查并非检测H.pylori感染的常用方法,但可作为一种新的方法对H.pylori感染进行多角度评价.

Itoh等[11]首先开发了CNN模型检测H.pylori感染,其灵敏度和特异性分别为86.7%和86.7%,AUC为0.956.该研究说明CNN辅助诊断H.pylori感染似乎是可行的,有望促进和改善健康检查中的诊断,但由于其样本量小,稳定性仍待验证.Zheng等[12]用1959名患者胃不同部位的WLE图像训练CNN模型来评估H.pylori感染.单个胃部图像的AUC为0.93,敏感性、特异性和准确性分别为81.4%、90.1%和84.5%,其中胃体的AUC(0.94)最高.每个病人的多个胃部图像的曲线下面积为0.97,灵敏度、特异性和准确性分别为91.6%、98.6%和93.8%,高于单个胃部图像的相应指标,且灵敏度和特异性不输于其他直接H.pylori检测方法[13-15].有研究发现WLE下基于CNN的H.pylori感染计算机辅助决策支持系统(CADSS-HP)诊断H.pylori感染的灵敏度与优于组织病理学[16].

有研究表明CNN的表现似乎与医生相当[17].Shen等[16]前瞻性地验证了CADSS-HP的诊断效能.发现CADSS-HP的灵敏度和准确性(91.5%,89.9%)均优于内窥镜医生(78.3%,83.8%).Seo等[18]开发的用于诊断H.pylori感染的CNN模型也在多中心多种族的验证数据集中表现出良好的整体性能.

胃癌前疾病(gastric precancerous disease,GPD)可能会恶化为早期胃癌,胃黏膜萎缩是GPD的一种,是胃癌进展的关键阶段,CAG的早期诊断对预防胃癌的发生发展具有重要意义,然而内镜下CAG漏诊率高,内窥镜诊断CAG的敏感性为42%[19],且活组织检查既昂贵又耗时.近年来,彩色内镜联合放大内镜和激光共聚焦显微镜已成为慢性胃炎诊断和鉴别诊断的重要工具.

Zhang等[20]训练的卷积神经网络-慢性萎缩性胃炎模型(CNN-CAG)能很好区分CAG与其他胃黏膜炎症,如胃粘膜慢性炎症、慢性非萎缩性胃炎和胃粘膜活动性炎症,其诊断萎缩性胃炎的准确率、敏感性和特异性分别为0.942、0.945和0.940,均高于专家的诊断结果,且可以对其萎缩程度准且分类,萎缩程度越严重,诊断准确率越高,轻、中、重分别为0.93、0.95、0.99.但CNN-CAG数据集为单中心,没有纳入动态视频,有研究表明[5,21,22]视频可以增加诊断的效能.Zhang等[23]使用迭代强化学习训练的胃癌疾病网络(GPD-Net)模型实现了3类GPD的分类,即息肉、侵蚀和溃烂,准确率为88.90%,有望临床上及时识别GPD.

1.4 人工智能辅助诊断胃癌胃癌是全球第五大常见癌症,也是癌症相关死亡的第四大原因[24].近一半的胃癌患者初诊即为晚期,晚期胃癌患者在手术治疗后5年生存率不足30%,而早期胃癌患者在及时治疗后5年生存率可达90%以上[25,26].因此人工智能辅助胃癌检出、胃癌侵袭深度的识别、病理诊断,具有广阔的发展空间.

Li等[27]开发的基于NBI的CNN系统在早期胃癌维也纳分型诊断中,其敏感性明显高于专家,特异性和准确性方面没有发现明显的差异[28],且CNN的诊断灵敏度、特异性和准确性都明显高于非专家[29].Ikenoyama等[30]研发的CNN系统灵敏度明显高于内窥镜医师,特异性明显低于内镜医师.次年,Teramoto等[31]基于WLE利用DenseNet-121分类改进的CNN模型检测胃癌单张图像的灵敏度为97%,特异性为99.4%,分类错误率小于0.02.在早期胃癌的病例中,具有广泛侵犯区域的图像被归类为晚期胃癌.在健康病例中,内镜检查显示胃粘膜粘附的气泡和充血区被误诊为晚期胃癌.有研究表明[21]使用包含大量非癌症图像以及视频似乎可以减少假阳性和假阴性.但该CNN模型在基于病例的评估中,其检测灵敏度和特异性均达到100%.此外,Su等[29]还研究了不同深度学习方法构建的CNN模型的侧重点,发现Faster RCNN和Mask RCNN更强调阳性检测,Cascade RCNN更强调阴性检测[29].

另外,胡珊博士团队研发的实时计算机内镜辅助系统(内镜精灵,ENDOANGEL)在一个大型多中心前瞻性随机对照研究中识别胃癌的准确率为84.7%,敏感性为100%,特异性为84.3%[32],该研究有力说明了人工智能对于内镜下识别胃癌有较高的性能和稳定性.

1.5 人工智能辅助在胃镜领域的其他应用有研究表明[33]特发性胃十二指肠溃疡出血病史且幽门螺旋体阴性的患者,重复出现消化道并发症的风险增加.Wong等[34]建立了一个模型(IPU-ML)来预测复发性溃疡出血.IPU-ML在1年内识别出复发性溃疡出血的总体准确率为84.3%.

2 人工智能在肠镜领域的应用进展

结肠镜(Colonoscopy)是直观检查结直肠病变的最常用手段,人工智能在肠镜领域的研究热点为溃疡性结肠炎(ulcerative colitis,UC)的诊断和预后评估,识别结直肠息肉、对息肉进行组织学分级,以及对结直肠癌的诊断和分期分级,预测转移和预后等.

2.1 人工智能诊断结直肠腺瘤性息肉结直肠息肉分为瘤变息肉(低级别瘤变腺瘤、高级别瘤变腺瘤、粘膜内癌、浸润性癌)和非瘤变息肉(增生性息肉和无瘤变的无梗锯齿状息肉),结直肠腺瘤性息肉是大肠癌前病变,包括管状腺瘤、绒毛状腺瘤和绒毛管状腺瘤[35].

结直肠腺瘤在结肠镜检查的漏诊率高达26%,多个大规模多中心RCT研究表明人工智能可以大大降低结直肠肿瘤的漏检率[36-38].Luo等[39]开发的人工智能息肉检测辅助系统不仅明显增加了传统结肠镜下的息肉检出率(polyp detection rate,PDR)(34.0%vs38.7%),而且对小于6 mm的息肉的PDR由69%提高到91%,但无法对息肉进行分类.

在人工智能对息肉组织学识别方面,也有诸多国内外学者做了努力.García-Rodríguez等[40]开发并前瞻性验证了在WLE下ATENEA系统和内镜医生评判结直肠息肉组织学分类的总体准确率分别为83.3%和80%,其中ATENEA正确预测了91.3%的腺瘤和57.1%的非腺瘤,内镜医生正确评判了75.4%的腺瘤和95.2%的非腺瘤.虽然该系统对非腺瘤性病变的表现不尽人意,但ATENEA系统显示出与内窥镜医生类似的全局准确性.Sánchez-Montes等[41]开发并验证了基于WLE的CADx对结直肠息肉分类的性能.该系统分类腺瘤性和非腺瘤性息肉的总体灵敏度为95.0%,准确性为91.1%,特异性为87.9%,对于小息肉亚组,该系统分类准确性为87%,与内镜医师诊断性能相当,强于ATENEA系统.虽然该系统对设备要求低,但无法对息肉进行再细化分类.Choi等[42]开发了基于WLE的CNN-CAD系统,旨在对息肉的组织学细化分类,Choi等进行的一项多中心研究表明该系统识别正常、低级瘤变、高级别瘤变和腺癌息肉的灵敏度为77.25%,特异性为92.42%,阳性预测值为77.16%,阴性预测值为92.58%,表现出与内镜专家相似的性能,并优于低年资医师.朱兴旺[43]建立了智能诊断模型在Pit Pattern分型Ⅲ和Ⅳ型,该预测模型中准确率分别为91.77%和98.26%,特异度为92.70%和99.10%;NICE2型的准确率和特异度为90.04%和84.88%;JNET分型2A型的准确率和特异度为82.41%和77.71%;2B型的准确率和特异度为90.75%和81.42%,使息肉的分类更加细化.

2.2 人工智能诊断结直肠癌结直肠癌是全球第三大常见癌症[24],也是全球第癌症二大死亡原因.早期发现癌性病变可改善结直肠癌患者的预后.

Yamada等[44]开发了一个人工智能系统,在结肠镜检查中自动检测结直肠癌的早期迹象,系统显示的敏感性和特异性分别为97.3%和99.0%,验证集的曲线下面积为0.975.此外,该系统对非息肉亚组敏感性为93.7%,低于息肉亚组(98.0%).

高光谱成像(hyperspectral imaging,HSI)是一种无对比度和无接触的成像技术,可提供空间分辨率的光谱分析,有可能在细胞水平上区分组织[45-47].Collins等[48]使用15倍交叉验证的CNN辅助HSI对32例(6例T1-2,26例T3-4)结直肠腺癌进行验证.该模型的总体灵敏度为87%,特异性为90%,ROC-AUC为0.95.在T1-2组,敏感性和特异性分别为89%和90%,在T3-4组,敏感性和特异性分别为81%和93%.该研究说明这种方法可能会成为内窥镜下识别肿瘤的有用工具,可达到精确和无破坏性的光学活检,更进一步判断出无肿瘤的切除边缘.

2.3 人工智能诊断UC UC是一种病因不明的慢性非特异性肠道炎症性疾病,主要累及直肠和结肠,多呈反复发作的慢性病程.表现为间断性腹泻、黏液脓血便、腹痛及里急后重等.内镜下可根据Mayo评分(MES)、UC内镜下严重程度评分系统(UCEIS)等评判UC的活动程度,通常将MES=0,1定义为内镜下缓解,MES=2,3定义为内镜下活动.组织学上可根据Geboes评分、Nancy评分、RHI指数等评判组织学活动程度,通常将Geboes评分≤3定义为组织学缓解,该评分＞3定义为组织学活动.

Yao等[49]利用多中心数据验证一个图像视频分析系统对UC镜下表现分级的性能.该系统在静止图像中具有出色的性能,灵敏度为0.902,特异性为0.870.在高分辨率视频中,该系统在78%的视频中正确预测了MES.在外部临床试验视频中,评审员在82.8%的视频中认可系统的MES.在69.5%的视频中,系统和评审员的评分一致.临床试验视频的MES分级(通常是低分辨率)在83.7%的视频中正确区分了内镜下缓解和活动.Gutierrez Becker等[50]提出的方法能够以高度的准确性和稳定性对内窥镜视频进行更精细的分级(Mayo诊所内窥镜分值≥1的AUC=0.84,Mayo诊所内窥镜分值≥2的AUC=0.85,Mayo诊所内窥镜分值≥3的AUC=0.85.

有研究表明[51]UC患者内镜和组织学疾病活动并不完全一致,内镜下粘膜愈合是UC预后良好的重要治疗目标,而实现组织学愈合比内镜下粘膜愈合有更大的益处,故根据内镜下表现推断组织学炎症十分必要.据此,Maeda等[52]开发并评估了一个基于520倍超放大内镜图像的CAD系统来预测所有结直肠节段的持续组织学炎症.该系统基于诊断的特异性和准确性分别为97%和91%,而灵敏度略差,为74%,但这并没有减少活检标本的数量,且无法预测长期预后.但不可否认,CAD具有支持即时治疗决策和预测长期结果的潜力.因此,通过学习图像的进一步积累,有望提高诊断性能,最终减少不必要的活检.在此基础上,日本的Takenaka等[53]开发的深度神经网络(DNUC算法)以90.1%的准确率识别内窥镜UC缓解期的图像,以92.9%的准确率识别UC组织学缓解期的图像.当DNUC在同一图像中产生内镜和组织学缓解时,考虑粘膜愈合.与专家结果的比较,DNUC对评估粘膜愈合具有较高的敏感性(92.0%)和特异性(91.3%),阳性预测值和阴性预测值分别为86.2%和95.1%[54].Takenaka等[54]还进行了一项前瞻性研究,将UC相关的住院和结肠切除术作为终点,评估DNUC结果与终点之间的关联,此外,还评估了类固醇使用和临床复发的数据.该研究发现专家得出的结果与DNUC之间的差异无统计学意义(住院,P=367;结肠切除术,P=0.693;类固醇使用,P=0.851;复发率P=0.758)[54],说明DNUC可以准确预测患者预后,预测价值与专家评估相当.

3 人工智能在胶囊内镜领域的应用进展

CE是一种无创、无需麻醉、患者耐受性好且依从性高的消化道检查手段,现已成为诊断小肠疾病的首选方式.然而,单次CE平均可捕获数万张图像,内镜医师阅片时间长且效率低,病变检出率也易受医师专业水平和疲劳程度的影响,而在图像数据庞大的CE领域,人工智能更具应用优势.

3.1 人工智能在CE下检测肠道出血和血管扩张早期人们应用颜色直方图、颜色矩、可疑血液指示器(suspected blood indicator,SBI)、HemoPill光学传感器等[55,56]识别出血,但其特异性差,不适合用于临床诊断.Aoki等[57]利用ResNet50深度网络结构的CNN算法来识别血液含量,该方法检测肠腔内血液含量的AUC达到0.9998,以概率0.5为临界值,敏感性、特异性和准确性分别为96.63%、99.96%和99.89%,均高于SBI检测的相应数据(76.92%、99.82%和99.35%),具有明显优势.继Aoki等之后,Mascarenhas等[58]开发CNN检测小肠管内的血液和血液残留物,准确率和精确度分别为98.5%和98.7%.敏感性和特异性分别为98.6%和98.9%,与Aoki等人的研究共同说明CNN在识别肠道出血方面具有稳定的高性能.在检测血管扩张方面,Tsuboi等开发CNN检测小肠管内的血液和血液残留物,准确率和精确度分别为98.5%和98.7%.敏感性和特异性分别为98.6%和98.9%,与Aoki等人的研究共同说明CNN在识别肠道出血方面具有稳定的高性能.在检测血管扩张方面,Tsuboi等[59]开发并验证了基于多分类单杆检测器(SSD)目标检测算法的CNN系统,其检测血管扩张病变的AUC为0.998,以0.36为临界值,灵敏度与特异度分别为98.8%与98.4%.

3.2 人工智能辅助CE检测肠道溃疡、糜烂和狭窄为提高诊断效率,Aoki等[60]使用基于SSD的CNN系统,辅助医师检测肠黏膜糜烂和溃疡.在CNN辅助下内镜医师在用时更短的同时不降低检出率,对大病灶(d＞5 mm)检出率相同(100%vs100%),且对小病灶(d≤5 mm)的检出率更高(83%vs79%),这有助于在保证质量的前提下提高内镜医师的读片效率.为进一步提高效率,实现人工智能全自动识别肠道溃疡,Wang等[61]探索搭建CNN系统的架构和基础网络,提出了一个HAnet架构,使用ResNet-34作为基础网络,将浅层的超特征与深层的深层特征融合,提供最终的诊断决策.该系统对粘膜破损识别的准确率为92.05%,其灵敏度和特异性分别为91.64%和92.42%,优于VGG、DenseNet和Inception-ResNet-v2,以及经典的机器学习方法.

目前大多数研究都是基于单一型号CE图像进行训练和验证,故Kratter等[62]探索了ML算法在不同CE下识别黏膜糜烂,对PillCam-SB3-s胶囊和PillCam-Crohn-s胶囊获得的黏膜糜烂图像进行识别及组合识别,发现虽然单个胶囊模型在来自同一领域的验证集上表现良好,但它们在其他胶囊的测试集上表现不佳,但所开发两种不同胶囊的联合模型提供了高且一致的诊断准确性,这有望利用ML算法为自动胶囊读取创建一个整体的人工智能模型.

在溃疡和狭窄的分级方面,Barash等[63]训练的CNN系统能对糜烂的图像进行分级,1级与3级溃烂的分类准确率为91%,2级与3级的分类准确率为78%,1级与2级的分类准确率为62.4%,这可能允许对相关疾病进行自动检测和分级.Klang等[64]开发的深度学习算法检测克罗恩病(Crohn’s disease,CD)的小肠糜烂AUC为0.99,准确率在95.4%到96.7%之间,这加强了前人的成果.次年,Klang等[65]将该模型优化,优化后的模型可以将狭窄病灶与溃烂病灶分开,且能以93.5%的平均准确率识别狭窄程度(轻度、中度和重度狭窄的AUC分别为0.992、0.975和0.889).

3.3 人工智能辅助CE检测肠道息肉和肿瘤 Gilabert等[66]开发了一个多平台的网络应用,AI-Tool.它嵌入了一个CNN来帮助结肠胶囊内镜(CCE)评审员.在AI-Tool的帮助下,审查时间减少了6倍,息肉检测灵敏度从81.08提高到87.80%,这拓展了Aoki等[60]的研究,并取得AI辅助内镜医师对不同病变检出的一致性结果.Yamada等[67]训练的基于SSD的CNN系统检测结直肠肿瘤的曲线下面积为0.902,灵敏度、特异性和准确性分别为79.0%、87.0%和83.9%,但对病变未进行亚组分析.Saito等[68]训练了一个深度CNN,其检测病变的AUC为0.911,这同Yamada等人的研究一致,且在对病变类别的亚组分析中,对息肉、结节、上皮瘤和粘膜下肿瘤的检测敏感度分别为86.5%、92.0%、95.8%和77.0%,具备临床应用的潜力.

4 人工智能在超声内镜领域的应用进展

EUS是将内镜和超声相结合的消化道检查技术,可利用内镜下的超声行实时扫描获得胃肠道的层次结构的组织学特征及周围邻近脏器的超声图像,消化道EUS包括超声食管镜、超声胃镜、超声十二指肠镜、超声肠镜,广泛应用于诊断消化道上皮下病变、判断消化系肿瘤的侵犯深度及外科手术切除的可能性、胰胆系统肿瘤、十二指肠壶腹部肿瘤的鉴别诊断、纵隔病变等,对慢性胰腺炎等诊断亦优于其他影像学检查.此外,谐波造影增强超声内镜(contrast-enhanced harmonic endoscopic ultrasound,CH-EUS)对消化道内外病变的诊断也很有用.内窥镜超声波引导的细针抽吸/活检(EUS-FNA/B)作为胰腺肿块病变的一线诊断工具,在临床实践中也被广泛使用.有研究表明[69],人工智能辅助超声内镜(EUS-AI)对消化系统疾病的诊断准确性与内窥镜医师相当甚至更好.

4.1 人工智能辅助EUS诊断消化道黏膜下病变消化道上皮下病变(subepithelial lesions,SELs)是源于胃肠道壁内非黏膜层而突向胃肠道腔的肿块样病变.EUS是诊断SELs最合适的方式[70-72].胃肠道间质肿瘤(gastrointestinal stromal tumors,GISTs)和胃肠道平滑肌瘤(gastrointestinal leiomyomas,GILs)是最常见的SELs,所有的GISTs都有恶性潜力,然而,GILs被认为是良性的.Yang等及Liu等[73,74]开发的EUS-AI诊断系统均可有效地区分GISTs和GILs,提高SELs的诊断准确性.Minoda等[75]开发的EUS-AI系统可以鉴别胃SEL中GIST与非GIST,其准确率、灵敏度和特异性分别为94.4%、100%和86.1%,AUC值为0.98.为预测GIST的恶性潜力,Lu等[76]建立了一个风险分层的EUS-AI模型来.在大量外部验证集中,按肿瘤划分的四类风险的EUS-AI模型总体准确率、敏感性、特异性、PPV和NPV分别为74.50%、55.00%、79.05%、53.49%和81.63%.两类风险EUS-AI模型预测极低风险的GIST的准确性、敏感性、特异性、PPV和NPV分别为86.25%、94.44%、79.55%、79.07%和94.59%.Minoda等还评估了用于诊断胃间质瘤的EUS-AI系统是否可以应用于非胃GIST.研究显示[75],基于胃SEL的EUS-AI对非胃GIST同样有较好的诊断能力,且对胃肠道不同部位非胃源性GIST的诊断准确率随着病变大小的增加而增加,这与胃SEL的结果一致,但该研究纳入病例较少,稳定性还有待考证.此外,为改进识别GIST效率,He等[77]提出了一种Query2框架,经GIST514-DB数据集验证表明该方法构建的人工智能诊断GIST更优.

在人工智能与内镜医师诊断效果比较方面,人工智能诊断模型识别常见SEL的效能与3年以上经验的EUS医师相当,略差于5年以上经验的EUS专家,仍有进步空间[78].由人工智能评估的CH-EUS结果区分GISTs和GILs的诊断能力与内窥镜专家的盲读能力相当[79].

4.2 人工智能辅助EUS诊断胰腺疾病 Kuwahara等[80]回顾性收集了多种类型胰腺肿块(胰管腺癌[PDAC]、胰腺癌[PASC]、腺癌[ACC]、转移性胰腺肿瘤[MPT]、神经内分泌癌[NEC]、神经内分泌肿瘤[NET]、实体假瘤[SPN])的EUS图像,开发了一个能够区分胰腺癌和非癌性胰腺病变的人工智能模型,其胰腺癌诊断的曲线下面积、敏感性、特异性和准确性分别为0.90、0.94、0.82和0.91,诊断每类疾病的敏感度为PDAC 0.96、PASC 1.00、ACC 1.00、MPT 0.33、NEC 1.00、NET 0.93、SPN 1.00.

自身免疫性胰腺炎(autoimmune pancreatitis,AIP)可以在EUS中表现为局灶性肿块,而没有其他特异性特征,这使AIP与慢性胰腺炎或PC区分十分困难.此外,目前的指南[81,82]认为EUS仅作为一种获得细胞组织学标本以排除恶性肿瘤的方法,而不考虑其基于形态学方面的诊断能力.Tacelli等[83]的研究对指南做出了挑战,他们开发的CNN模型在由116位AIPs和234位PC组成的350例患者队列中,仅凭EUS下表现就可以正确分类88%的患者,在无需细针抽吸/活检的条件下具有较高的分类准确性.在AIP与PDAC、慢性胰腺炎和正常胰腺的区分方面,Marya等[84]开发的EUS-CNN模型可以完成这一任务,且具有足够的性能来实时分析EUS视频.该模型区分AIP和NP的敏感度和特异性分别为99%和98%;区分AIP和PDAC的敏感度和特异性分别为90%和93%;区分AIP和CP的敏感度和特异性分别为94%和71%;区分AIP与其他所有条件的敏感性和特异性分别为90%和85%,EUSCNN模型能准确地将AIP与PDAC和良性胰腺条件区分开来,可以使病人得到更针对性的干预.

此外,Tang等[85]首次开发了一种基于CH-EUS的人工智能诊断系统(CH-EUS MASTER),该系统可以识别胰腺癌与非肿瘤性肿块,并在EUS引导下细针抽吸/活检(EUS-FNA/B)过程中引导目标穿刺区域.CH-EUS MASTER诊断胰腺肿块的准确性、敏感性和特异性均明显优于内镜检查.CH-EUS MASTER指导下的准确率93.8%,敏感性90.9%,特异性100%,阳性预测值100%,阴性预测值83.3%,这有望减少不必要的FNA/B,提高取材的准确性,节约病理资源.

4.3 人工智能辅助EUS诊断胆系疾病对于胆囊息肉状病变EUS是最准确的诊断方式.Jang等[86]开发的EUS-AI系统对于肿瘤性和非肿瘤性胆囊息肉的鉴别诊断的敏感性、特异性、阳性预测值、阴性预测值和准确性分别为57.9%、96.5%、77.8%、91.6%和89.8%.与内窥镜医生的诊断性能相比,EUS-AI具有更高的特异型,准确率介于中级医师(66.7%)和专家医师(77.5%)之间,表现出良好的性能.

对于胆总管结石的EUS图像,人工智能诊断的灵敏度、特异度和准确率分别为75.81%、98.57%和89.91%,均不高于有经验的超声内镜医师(灵敏度94.42%、特异度100.00%和准确率97.88%),但把两种诊断方式进行并联诊断试验后,人工智能联合超声内镜医师对胆总管结石诊断的灵敏度为97.67%,特异度为100%,准确率为99.12%,较有经验的超声内镜医师有所提高[87].Yao等[22]构建的BP MASTER系统可在EUS下识别胆管站点及自动测量其直径,通过前瞻性地收集视频数据进行交叉研究,证实BP MASTER系统可将内镜医师对站点识别的准确率从60.8%提高到76.3%,有利于医师对胆道的全面检查.在EUS下识别胆管结石方面,人工智能仅能作为一项辅助医师的工具用来提高诊断效率,减少对胆道站点观察不全所致的漏诊,而难以独立完成可靠诊断.

4.4 人工智能辅助EUS诊断CD 肠道超声是内镜下观察肠道分层的最佳方式,可用于临床疑似IBD患者的初步评估和随访.肠壁增厚是CD最重要的超声特征,也是诊断CD炎症的有效标志,EUS区分UC和CD的敏感性和特异性高,肠壁厚度≤3 mm与内窥镜缓解和经壁缓解有显著关联[88,89].Carter等[90]开发了一个人工智能系统来区分肠壁增厚(肠道炎症的替代物)和肠道超声的正常肠道图像.在健康病例中,86.4%被正确诊断,在非健康病例中,94%被正确诊断.总体而言,该系统检测肠壁增厚的准确性、敏感性和特异性分别为90.1%、86.4%和94%,平均受试者工作特征曲线下面积为0.977,在识别CD肠道超声图像的肠壁增厚方面具有较高的准确性.

5 结论

通过对人工智能辅助消化内镜诊断消化系统疾病领域国内外文献的分析,可以发现目前人工智能辅助胃肠镜不仅可以识别消化道恶性肿瘤如食管癌、胃癌、结直肠癌,更重要的是也对癌前病变如BE、CAG、不同级别腺瘤的识别具有较高的准确性.人工智能辅助CE识别肠道出血和血管扩张方面灵敏性很高,但在识别息肉和肿瘤方面差于传统胃肠镜;在EUS方面,人工智能辅助诊断消化道上皮下病变、辨别胰腺肿块类型方面效能较高,但对于胆道结石的诊断效能不佳.多数研究是在人工环境(图像和视频数据集)中完成的构建及检测,若想将人工智能转化为在临床环境中的成功,其在人工环境中的良好表现是先决条件,此外还需内窥镜医师完整暴露黏膜的基本技能以及驾驭人工智能的能力.不同人工智能构建方法对诊断的侧重点不同,如Faster RCNN、Mask RCNN更着重于阳性预测,Cascade RCNN则更着重阴性预测,对于不同的诊断目的可以选用不同的人工智能构建方法,这也提示内窥镜医师需要了解不同人工智能的特点,以便与其达成良好的合作关系.此外,使用包含大量非癌症图像以及视频训练人工智能似乎可以减少由于内镜图片的角度问题以及反光等原因造成的假阳性和假阴性,此后可开发包含大量视频的数据集用于比较和验证现有人工智能系统对视频识别的准确性,以及开发更符合临床环境的人工智能.

总体来说,人工智能单独诊断性能与高年资内镜医师相当或弱于高年资内镜医师,目前没有RCT研究表明人工智能单独诊断效力强于高年资内镜医师,但几乎全部研究都表明,与低年资内镜医师相比,人工智能诊断准确性更高.对于人工智能辅助高年资医师方面,有RCT研究表明,当将人工智能系统作为一种辅助工具时,可以提高经验丰富医师的诊断效能.人工智能的真正价值在于协助内窥镜医师将诊断准确性达到一个新的高度,但这并非意味着一味强调降低假阴性,在医疗资源紧张的今天,对于假阳性的把控同样重要.

人工智能辅助消化内镜诊断疾病方面已经取得了可喜成效,目前国内外已有多种人工智能辅助系统落地,如内镜精灵、影诺鹰眼、百洋肿瘤临床决策系统[91]等,但仍有许多问题需要进一步探讨和研究,例如无梗锯齿状病变难以与背景粘膜区分,人工智能难以识别、CE诊断问题中对于多种疾病同时诊断的研究较少、单凭内镜下表现难以对恶性肿瘤进行分期、人工智能需对受到外部因素如患者的呼吸和心跳影响的EUS图像进行实时校正和配准、广泛领域前瞻性多中心研究较少等.这不仅需要深入分析和研究,还需要结合实际情况进行更为精确的建模,为后续研究和应用提供更广泛深远的发展空间.