基于人工智能的胃镜图像辅助识别模型在慢性萎缩性胃炎诊断中的临床研究

2020-05-13 04:44华雯俏姜相君青岛大学附属青岛市市立医院消化内科266011

胃肠病学 2020年10期

华雯俏管鑫姜相君青岛大学附属青岛市市立医院消化内科(266011)

背景：目前人工智能(AI)是临床各领域的研究热点，强大的图像识别和处理能力使其在消化内镜领域具有很强的优势。目的：基于AI构建胃镜图像辅助识别系统，并探讨其在慢性萎缩性胃炎(CAG)诊断中的价值。方法：选取2018年4月—2020年8月在青岛市市立医院行胃镜检查并取活检行病理检查者的胃镜图像3 813张，其中包括CAG 1 927张和慢性非萎缩性胃炎(CNAG) 1 886张，选取其中3 055张图像为训练集(CAG 1 541张，CNAG 1 514张)，379张图像(CAG 193张，CNAG 186张)作为调整集，其余图像作为测试集。训练并验证深度学习模型，绘制模型受试者工作特征曲线(ROC曲线)和P-R曲线，比较该模型与3名低年资内镜医师、3名高年资内镜医师诊断CAG的敏感性、特异性和准确性。结果：深度学习模型识别CAG的ROC曲线下面积为0.916 8，P-R曲线下面积达0.931 6，敏感性为89.1%，特异性为74.2%，准确性为81.8%。深度学习模型识别CAG的敏感性、特异性和准确性均明显优于低年资内镜医师，甚至优于部分高年资内镜医师。结论：基于AI技术构建的诊断CAG的深度学习模型具有较高的敏感性、特异性和准确性，可有效识别出CAG，可辅助临床内镜医师在胃镜检查中作出相应诊断。

慢性萎缩性胃炎(chronic atrophic gastritis, CAG)是公认的胃癌前疾病，构成了上皮内瘤变以及腺癌发生的基础。CAG的最终结局为胃癌，其发病率全球排名第五，死亡率位居第三位[1]，因此对于CAG的筛查和干预十分重要。然而白光内镜诊断CAG的敏感性很低，具有较大的检查者差异，漏诊率高[2]。基于深度学习(deep learning)的人工智能(artificial intelligence, AI)正成为辅助诊断疾病的重要技术。深度学习应用多层结构的机器学习模型[3]，可使计算机自动发现并学习需要的特征。其模仿人类大脑神经元，经过多层处理，将原始输入数据中的特征逐级转化为更高、更抽象的表现形式，从而应用简单的模型即可学习复杂的功能[4]。本研究基于深度学习技术构建了一个图像辅助诊断模型，并探究其在CAG诊断中的应用，以期提高CAG内镜下的诊断率。

对象与方法

一、图像资料

所有胃镜图像均来自于2018年4月—2020年8月在青岛市市立医院内镜中心行胃镜检查并取活组织病理检查的患者，包括CAG患者和慢性非萎缩性胃炎(CNAG)患者。所有纳入研究的病灶均符合《中国慢性胃炎共识意见(2017年,上海)》[5]的诊断标准，内镜下CAG黏膜红白相间，以白相为主，皱襞变平甚至消失，部分黏膜血管显露；可伴有黏膜颗粒或结节状等表现。CNAG内镜下可见黏膜红斑、斑块、出血点，或黏膜粗糙伴或不伴水肿、充血渗出等。病理诊断标准采用我国慢性胃炎病理诊断标准以及新悉尼系统的直观模拟评分法。同时，排除因行胃部手术造成胃解剖结构改变、消化道准备不良和拍照不清楚、质量不佳的病例。最终纳入共3 813张图像，其中CAG图像1 927张，CNAG图像1 886张。

二、研究方法

1. 准备数据集：临床医师从青岛市市立医院内镜中心数据库中挑选特征明显的胃镜图像。因表现以黏膜变、白相为主的CAG在内镜下的诊断准确率较低[6]，故选择以此特征为主的CAG图像。由于CAG多发生于胃窦和胃小弯处[6]，且此处也是易于癌变的位置，同时为了使本模型更适应真实的胃镜检查环境，本研究采集的图像为各种角度、照明度、距离下拍摄的胃窦、胃小弯图像。同时为了减少干扰、提高模型准确性，去除有大量胆汁、粘液、食物残渣等的图像。白光观察是胃镜检查最常用的模式，也是多数CAG患者确诊时应用的模式，故所有胃镜图像均在白光、非放大模式下拍摄。所使用的胃镜为Olympus公司260、290系列以及Pentax公司i10系列。

2. 图像标注：临床医师根据病理结果将图像分为CAG、CNAG两组。

3. 图像预处理：工程师对标注好的图像先进行预处理，将图像分辨率调整成长度×宽度为331×331，格式为JPG。去除图像周围黑框以及时间、年龄、性别等白色水印干扰，突出图像特征。通过旋转、裁剪、反转、缩放、模糊等方式增强数据，扩充样本，提高模型识别的准确性。然后按照8∶1∶1的比例将图像分为训练集、调整集和测试集(表1)。

表1 纳入图像的分组情况(n)

4. 选择适用网络，构建并训练模型：工程师建立模型，采用Inception-ResNet-V2网络，Adam算法搭载卷积神经网络(convolutional neural networks, CNN)构建深度学习模型。CNN包括卷积层、池化层、全连接层和softmax层，其中卷积层包含多个卷积核，可对数据特征进行提取；池化层对数据特征进行选择、汇总，加快训练速度；全连接层对提取出的高阶特征进行组合并输出结果；softmax层将结果映射为概率。采用ReLU激活函数对所选取特征进行非线性映射，没有复杂的指数运算，计算简单效率高，防止梯度消失，加快收敛速度。深度学习模型对图像的处理过程见图1。

A：去除白色水印的胃窦部图像；B：调整成331×331大小的输入层图像；C：卷积操作生成的特征图

每次送入网络中训练的数据称为一个Batch，Batch Size设为64，即神经网络每次使用64张图像进行训练，连续训练48次，即网络完成全部训练集一次向前计算和反向传播的过程称为一个epoch，完成一个epoch再应用调整集图像进行验证，这样每个epoch均会得到一个验证结果和一个训练模型。然后根据验证结果调整模型参数，构建出一个新模型，再进行第二次训练，网络需经历多个epoch进行训练，经过参数调整，保留调整集效果最佳的模型，调整集在训练过程中识别CAG准确性的变化曲线见图2。调整集图像仅用于验证而不参与训练过程。

图2 调整集在训练过程中识别CAG准确性的变化曲线

5. 测试模型：应用测试集来测试训练所得到的模型，计算模型的敏感性、特异性和准确性，并绘制受试者工作特征曲线(ROC曲线)、P-R曲线，分别计算ROC曲线下面积(AUC)和P-R曲线下面积(AP)，来评估模型的性能。

6. 比较模型与内镜医师的诊断能力：选取6名内镜医师对测试集图像进行诊断，包括3名低年资内镜医师以及3名高年资内镜医师。低年资医师从事内镜工作小于3年，胃镜操作例数不超过2 000例，高年资医师从事内镜工作超过5年，已操作超过5 000例胃镜检查。分别计算各医师诊断的敏感性、特异性和准确性，并将其结果与CNN模型结果进行比较。

三、统计学分析

应用SPSS 26.0统计学软件，计数资料以率或百分比表示，组间比较采用χ2检验，P<0.05为差异有统计学意义。

结果

一、模型的ROC曲线和P-R曲线

经过3 813张胃镜图像的训练和测试，深度学习模型诊断CAG的ROC曲线图见图3，AUC可达0.916 8；P-R曲线图见图4，诊断CAG的AP可达0.931 6。深度学习模型识别CAG的敏感性为89.1%，特异性为74.2%，准确性为81.8%。

图3 深度学习模型的ROC曲线图

图4 深度学习模型的P-R曲线

二、模型与内镜医师诊断能力的比较

深度学习模型最终的混淆矩阵结果见表2，模型诊断CAG的敏感性为89.1%，特异性为74.2%，

表2 模型最终测试时混淆矩阵结果(n)

准确性为81.8%。与深度学习模型相比，低年资内镜医师1、2、3诊断CAG的敏感性、特异性和准确性均显著降低(P<0.05)，且低年资内镜医师的平均敏感性、特异性和准确性也显著降低(P<0.05)；高年资内镜医师1诊断CAG的特异性显著降低(P<0.05)，高年资内镜医师2的诊断特异性和准确性显著降低(P<0.05)，其余指标与深度学习模型相比无明显差异(P>0.05)，且高年资内镜医师的平均敏感性、特异性和准确性与模型相比亦无明显差异(P>0.05;表3)。

表3 CNN模型与内镜医师诊断能力比较%(n/N)

讨论

本项研究对AI图像智能识别技术在CAG辅助诊断中的应用进行了研究，回顾性收集了3 813张图像进行整理、分类，然后投入模型中进行学习、调整参数并验证，最终测试结果显示模型诊断CAG的AUC达0.916 8，AP达0.931 6，敏感性为89.1%，特异性为74.2%，准确性为81.8%。该模型诊断的敏感性、特异性、准确性均优于低年资内镜医师，诊断水平可达到经验丰富内镜医师的水平。

在病例收集阶段，1例CAG患者诊断2年后复查胃镜时发现了高级别上皮内瘤变，并及时接受内镜黏膜下剥离术治疗，说明对胃癌前疾病的筛查和随访十分重要。胃黏膜萎缩是胃癌进展的关键阶段，构成了发生异型增生和胃癌的背景，CAG患者的胃癌年发生率为0.1%～0.25%，病程20年时的胃癌累积发生率约为2%[7]。黏膜萎缩程度越高，癌变风险随之增高[8]。若能提高萎缩的识别率并及时采取干预措施，可阻断或延缓其癌变进程，降低我国胃癌的发病率和死亡率。AI的出现在消化内镜领域是跨时代的发展，其强大的数据分析能力可帮助临床医师更准确、高效地识别病灶，提高癌前疾病的诊断率，进而降低胃癌的发病率和死亡率。

普通白光内镜对CAG的诊断仅有中度的敏感性和特异性，且具有很大的检查者差异，因此目前仍主要依赖于活组织检查，多点活检可提高CAG的诊断率，但需额外花费病理检查费用，且活检数量增加亦可提高出血风险。高危心血管病且高出血风险的患者并不建议取活检，低危心血管病但高出血风险的患者检查前需至少停用5 d抗栓药[9]，但停用抗栓药可导致部分患者血栓栓塞风险升高。AI可为医师提供诊断意见，减少活检数量，提高活检精确度甚至避免不必要的活检，减少医疗资源的浪费，降低患者的经济压力。欧洲指南建议晚期CAG患者应每3年接受一次高质量的内镜检查，有胃癌家族史者应进行更深入的随访(每1～2年复查一次)[7]。但如此密切的随访检查无疑增加了国家的医疗负担、医师的工作压力。且我国医疗资源分配不均，优质资源集中于各大医院，故广大基层医院非常缺乏经验丰富、高水平的内镜医师[10]。然而大部分患者就诊于基层医院，更易造成癌前疾病、早期胃癌等的漏诊。AI能自动识别病变特征，提供稳定准确的信息辅助医师作出诊断，成为检查者的“第三只眼”，如能在基层医院广泛推广，可大大提高癌前疾病的诊断率，提高检查效率，提高医师诊断水平[11-12]。

本研究模型是基于深度学习的基础而建立的。传统的图像识别方法仅能识别特定病变，十分依赖于设计者的先前经验和知识，难以利用大数据。而深度学习可自行提取特征并进行学习，对图像进行分类，随着训练数据量的增大，识别精度亦会随之升高。Wang等[13]的研究采用深度学习和非深度学习方法对前列腺癌的MR图像进行分类，结果显示基于CNN的深度学习模型效果明显优于非深度学习模型。说明深度学习技术十分适用于目前的大数据时代。

AI技术在图像视觉识别方面的卓越表现使其在医学各个领域均有广泛的应用空间，如乳腺癌的筛查、间质性肺病、阿尔兹海默症、糖尿病视网膜病变、糖尿病黄斑水肿、皮肤癌的辅助诊断等[14-18]。在消化内镜领域中，AI已可实现胃解剖部位的识别，Xu等[19]设计的MT-AD-CNN检测任务的平均准确性达93.74%，可用于胃镜检查质控，减少胃镜检查盲区，并培训青年内镜医师。Nakashima等[20]将AI与BLI、LCI模式下的胃镜图像相结合用于诊断幽门螺杆菌(Helicobacterpylori, Hp)感染，结果显示BLI、LCI两种模式的ROC曲线图的AUC分别为0.96和0.95，敏感性分别为96.7%和96.7%，说明该模型可实现Hp的内镜下诊断。在食管疾病方面，从Barrett食管到食管癌，各个阶段的食管病变均有相关的AI辅助诊断模型的重要研究。Horie等[21]构建的模型对食管癌的敏感性可高达98%。蔡世伦等[22]训练出的食管早癌辅助诊断模型的AUC达到0.996 1，可达到经验丰富的内镜医师水平。Hassan等[23]构建的AI系统筛查结直肠息肉的敏感性高达99.7%，且在82%的病例中的反应速度均高于临床医师。Taunk等[24]将AI与结肠息肉的共聚焦激光内镜图像结合，区分肿瘤性息肉和增生性息肉的敏感性为95%，特异性为94%，准确性为94%。国内外关于AI在胃癌和早期胃癌等恶性肿瘤性疾病中的研究相对较多，王智杰等[10]构建的深度学习模型对早期胃癌的识别准确性和敏感性均高于内镜医师。但CAG相关的AI研究仍相对较少。

本研究构建的图像识别模型在CAG的诊断方面具有令人满意的结果，可帮助内镜医师准确、高效地识别出胃癌前疾病，扩大了AI在消化内镜领域可识别的疾病谱。但用于训练和验证的图像均经过医师的挑选，故模型对图像质量的要求较高。此外，泡沫、光影和瘢痕会被错误地识别为CAG，造成诊断的假阳性。未来会联合多家内镜中心，扩大训练的数据量，根据黏膜萎缩严重程度、萎缩范围、是否肠化生等进一步分组，并纳入瘢痕、光影、泡沫等干扰因素作为对照对模型进行训练，进一步提高模型的诊断准确性。

总之，基于多学科协作、医工结合的消化内镜智能化技术发展迅速，在消化内镜领域的应用会越来越全面，越来越精细，可为国家医疗事业、患者均带来巨大益处。