贾雨晨 丁乙轩 梅文通 曹锋 李嘉 李非
首都医科大学宣武医院普通外科 急性胰腺炎临床诊疗与研究中心,北京 100053
【提要】 人工智能在医学及医疗领域发挥着越来越重要的作用,其在疾病预测及辅助决策方面展现出巨大潜力。本文总结当前人工智能在胰腺炎领域的相关研究,重点阐述人工智能在胰腺炎辅助诊断、治疗决策、预后评估中的研究进展、应用和潜在用途。
人工智能(artificial intelligence,AI)是一种涉及计算机、统计学、生物学等多个学科的交叉和前沿科学,通过研究、开发各种理论和技术以及应用系统来模拟、扩展人的智能。随着相关理论和技术的不断成熟,AI在医学领域的探索也在不断地扩展与深入。近年来,大量报道阐述了AI在AP、CP和自身免疫性胰腺炎(autoimmune pancreatitis,AIP)中的研究与应用,AI通过与临床实践紧密结合在胰腺炎的诊断、治疗和预后评估等方面展现出巨大潜力。本文对AI在胰腺炎诊治中的研究进展及应用进行综述。
1955年, John McCarthy首次提出AI的概念,即“制造智能机器的科学与工程”,并在1956年美国达特茅斯大学会议上与计算机、心理学、神经生理学等领域的专家共同开创了AI领域[1]。AI包括机器学习、模糊逻辑、计算机视觉、自然语言处理、专家系统、推荐系统等众多部分。在医学领域中AI有两个主要分支,即现实部分和虚拟部分。现实部分是以医疗设备和医疗机器人为代表的实物;虚拟部分是以机器学习为代表的数学算法,旨在通过经验提高学习效果。传统机器学习包括决策树(decision tree,DT)、支持向量机(support vector machines,SVM)、随机森林(random forest,RF)和人工神经网络(artificial neural network,ANN)等。其中,ANN的应用较为广泛,它是由大量处理单元互联组成的非线性、自适应信息处理系统,通常由输入层、模拟神经层、输出层组成,通过模拟人脑神经网络进行信息处理。经过大量数据的学习与调试,可以找到输入层与输出层之间与现实相近的函数关系。深度学习(deep learning,DL)是目前机器学习研究中的新方向,其通过深度神经网络(deep neural network,DNN)和卷积神经网络(convolutional neural network,CNN)等方法处理庞大且繁杂无序的医疗数据,表明AI在医学领域具有巨大潜力与广阔应用前景。
1.人工智能在AP诊断与严重程度预测中的作用:Kazmierczak等[2]在1993年首次通过ANN分析血清胰酶活性诊断AP,发现脂肪酶是AP的最佳预测因子,诊断准确度为85%,诊断能力优于单独使用淀粉酶或联合应用脂肪酶和淀粉酶(P<0.05)。Pofahl等[3]在1998年首次使用AI预测AP的严重程度,发现ANN能够准确地预测住院时间超过7 d的AP患者,且ANN与Ranson和APACHEⅡ评分的预测能力相似。Keogan等[4]首次将CT与实验室检查相结合,使用循环法在同一AP患者数据集中对ANN进行训练和测试,结果显示ANN成功预测了住院时间超过平均住院时间(8.4 d)的患者,且与线性判别分析(linear discriminant analysis,LDA)性能相当(P=0.530),并优于Ranson(P<0.020)和Balthazar CT评分(P<0.003)。上述两个研究的局限在于使用住院时间评估AP严重程度,而不是修订后的亚特兰大分级。住院时间是对严重程度的间接测量,不能直接体现AP严重程度,老年或住院期间需进行胆囊切除术的胆源性胰腺炎等因素会导致预测结果受到严重影响。Halonen等[5]建立了ANN与逻辑回归(logistic regression,LR)两种模型,对234例SAP患者的回顾性数据集进行测试,并在另外60例连续收治的SAP患者的前瞻性验证集中进行验证,评价预测准确度。结果显示,SAP患者住院死亡的最佳预测模型是包含4个变量(年龄、初次入院后60~72 h内的最高血清肌酐值、是否机械通气和慢性健康状态)的LR模型(AUC=0.862),ANN的预测能力稍低于LR但优于传统的APACHEⅡ、Ranson、Imrie评分。Pearce等[6]采用核逻辑回归(kernel logistic regression,KLR)方法首次使用入院APACHEⅡ评分与CRP相结合预测AP严重程度,发现该模型预测AP严重程度的能力明显优于入院APACHEⅡ评分(AUC值分别为0.82、0.74,P=0.004)。该研究表明机器学习可以明显改善入院后首次观察指标的预测性能,且有助于简化评估工作和纳入新观察指标。Mofidi等[7]开发了一种由10项临床指标组成的ANN来预测SAP的发生及相关死亡,结果显示,ANN预测SAP、多器官功能障碍综合征(multiorgan dysfunction syndrome,MODS)和死亡的准确度分别为92.5%、94.1%和97.5%,ANN较APACHEⅡ和格拉斯哥评分能更准确地预测SAP、MODS的发生及死亡(P值均<0.05),该研究首次验证了ANN在预测SAP方面优于线性模型。Yoldaş等[8]发现ANN预测急性胆源性胰腺炎(acute biliary pancreatitis,ABP)的严重程度和死亡的准确度较高,通过前瞻性队列训练后,ANN较入院时APACHEⅡ评分和入院48 h的Ranson评分更准确地预测了ABP患者的严重程度(AUC=0.697)和死亡(AUC=0.696)。Andersson等[9]首次使用疼痛持续时间作为危险变量之一的ANN预测AP严重程度,结果显示ANN(AUC=0.92)在预测严重程度方面的性能优于LR(AUC=0.84,P=0.030)和APACHEⅡ评分(AUC=0.63,P<0.001)。Hong等[10]建立由胸腔积液、血清钙和血尿素氮组成的分类和回归树(classification and regression tree ,CART)模型早期识别SAP高风险(79.03%)和低风险(7.80%)患者,其预测效能优于APACHEⅡ评分(AUC值分别为0.84、0.68,P<0.001)。该模型在随后的验证队列中得到验证(AUC=0.86)。但当时未修订的亚特兰大分类标准存在局限性,限制了上述两项研究的临床价值。
随后,Yang等[11]基于修订后的亚特兰大分类标准,采用入院后12 h内收集的肌酐、乳酸脱氢酶、氧合指数等指标,使用DT模型预测SAP,结果显示,训练组预测SAP的灵敏度和特异度分别为80.9%和90.0%,测试组分别为88.6%和90.4%。Choi等[12]也建立了由APACHEⅡ、BISAP评分和Balthazar CT分级、EPIC评分系统组成的分类树分析(classification tree analysis,CTA)模型早期预测AP严重程度,该模型在训练队列的预测性能(AUC=0.85)高于单一使用APACHEⅡ评分(AUC=0.84)、BISAP评分(AUC=0.84)、EPIC评分(AUC=0.74)、Balthazar CT分级(AUC=0.70),特异度为100%,准确度为94.8%;在验证队列中,该模型实现了与训练队列相似的预测性能(AUC=0.83)。Lin等[13]发现基于SVM的MRI放射组学模型在AP严重程度的早期预测中表现良好,该模型在训练组(AUC=0.92)和验证组(AUC=0.85)的性能均高于APACHEⅡ、BISAP和MR严重指数(MR severity index,MRSI)评分,该模型能反映AP早期阶段的胰腺实质损伤,对胰腺微循环障碍的进一步研究有望解读放射组学的发现。Sun等[14]运用RF与递归特征消除算法开发并验证了一个基于11项静脉血标志物的AP严重程度分层模型,该模型在24 h内对AP进行分类,AUC值为0.74±0.04。随后该模型在568例AP患者中得到进一步验证(AUC=0.73),预测效能与Ranson评分(AUC=0.74)相似且高于APACHEⅡ和BISAP评分(AUC值分别为0.69、0.66)。该模型使用静脉血相对安全且在入院时即可采集。
Jin等[15]比较了多层感知人工神经网络(multilayer perception-artificial neural network,MPL-ANN)和偏最小二乘判别(partial least squares-discrimination,PLS-DA)两种机器学习模型诊断和预测AP严重程度的效能。采用了易于获取和床旁动态监测的血常规和血清生物化学指标,结果显示,中性粒细胞/淋巴细胞比是最具价值的预测指标(AUC=0.99,95%CI0.984~0.997,灵敏度94.3%,特异度98.6%)。与PLSDA模型(AUC=0.91,95%CI0.853~0.971,灵敏度87.8%,特异度84.4%,准确度84.8%)相比,MPL-ANN模型在SAP患者的诊断和预测方面具有更好的表现(AUC=0.98, 95%CI0.960~1.000,灵敏度92.7%,特异度93.3%,准确度93.0%)。Ding等[16]首次使用美国大型重症监护数据库(MIMIC-Ⅲ)对AP患者住院死亡率进行了ANN预测,发现ANN(AUC=0.77)性能优于LR模型(AUC=0.61)、Ranson评分(AUC=0.65)和SOFA评分(AUC=0.40)。Hong等[17]开发了第一个可解释的用于预测SAP的RF模型,模型无关的局部解释(local interpretable modelagnostic explanations,LIME)被用于RF模型的可视化解释。该模型在训练和测试队列中的AUC值分别为0.89、0.96,其预测效能和诊断准确度都高于LR模型和BISAP评分。之后的研究者们发现极致梯度提升(extreme gradient boosting,XGBoost)算法具有精确度高、灵活性强、数据过度拟合风险小、可通过自动学习处理缺失值等优点,在预测AP严重程度的研究[18-21]中均实现了较好的预测性能。
2.人工智能在AP并发症预测中的作用:决定AP临床结局的主要因素是器官功能衰竭和器官功能衰竭持续时间,并发器官功能衰竭的AP患者死亡率>20%[22]。因此在早期阶段识别器官功能衰竭的高风险患者至关重要。两项研究使用AI预测AP中的持续性器官功能衰竭(persistent organ failure,POF)。Hong等[23]开发了以发病72 h内的年龄、血细胞比容、血糖、尿素氮和血钙为变量的第一个ANN模型用于预测AP中的POF,其灵敏度为81.3%,特异度为98.9%,准确度为96.2%,且预测效能显著高于LR模型或APACHEⅡ评分(P值均<0.001)。Langmead等[24]开发了包含5个血清细胞因子的RF模型,结果显示其AUC值为0.91,准确度为89%,阳性预测值为0.89,阴性预测值为0.90,优于单个细胞因子、实验室检查结果和传统临床评分(P值均<0.05)。另有两项研究用AI预测AP患者的多器官功能衰竭(multiple organ failure,MOF)。Qiu等[25]发现SVM、LR、ANN和APACHEⅡ评分预测MOF能力相近,在SVM、LR和ANN模型中,血细胞比容、K-time、IL-6和肌酐是MOF的共同重要预测因素。Xu等[26]通过多中心队列验证了自适应增强算法(adaptive boosting algorithm,AdaBoost)模型能有效预测AP病程中的MOF(AUC=0.83,95%CI0.740~0.888),IL-6和肌酐是模型中两个具有代表性的预测指标。
来自南京的Fei及其团队[27]在应用AI预测AP相关肺损伤与AP相关血栓方面做出了许多重要工作。2018年,通过ANN预测SAP患者发生急性肺损伤的风险,结果显示预测灵敏度为87.5%,特异度为83.3%,准确度为84.43%,且ANN的预测性能显著优于LR模型(P=0.012)。2019年,通过ANN预测了SAP并发ARDS的风险和严重程度,同样,预测性能显著优于LR模型(P<0.05),与柏林标准的ARDS定义相比,ANN显示了较好的准确度,对轻度、中度和重度ARDS的诊断准确度分别为68.0%、61.5%、82.8%,总准确度为73.1%[28]。该团队还运用AI预测了AP相关门静脉血栓的发生,其中3项研究[29-31]采用ANN模型,1项研究[32]采用CART模型,结果发现AI模型的预测性能均优于LR模型。
肾脏是AP患者最常受影响的器官之一,急性肾损伤(acute kidney injury,AKI)被认为是AP常见和严重的并发症,可降低AP患者的生存率,并增加医疗负担。Tomašev等[33]开发了一个深度递归ANN模型预测AKI,该模型成功预测了55.8%的AKI患者和90.2%的随后需要透析的患者。Qu等[34]发现XGBoost对AP患者AKI的预测效果最好(AUC=0.92),且明显优于LR模型(AUC=0.87)。Yang等[35]基于RF、SVM、XGBoost、DT和ANN的算法建立AP并发AKI的预测模型,各模型AUC值在0.73(95%CI0.223~1.227)至0.90(95%CI0.400~1.403)之间,其中RF模型预测效果最佳。
有研究分别预测了AP发生腹腔感染与发展为急性坏死性胰腺炎的风险。Qiu等[36]发现ANN能准确预测MSAP和SAP患者的腹腔感染,且效果优于LR模型(P<0.001)。Kiss等[37]首次使用AI早期预测急性坏死性胰腺炎,结果显示XGBoost模型的预测能力与现有临床评分系统相当。
3.人工智能在AP手术时机及预测复发中的作用:Lan等[38]发现基于IL-6、感染性坏死、发热和CRP的RF模型准确地预测了接受早期或延迟手术的患者。在此基础上,Luo等[39]进一步建立了基于循环神经网络(recurrent neural network,RNN)的时间感知相干长短期记忆(time-aware phased-decay long short-term memory,LSTM)模型,该模型直观地显示了AP患者从发病到出院的实验室指标的变化和具体手术过程。
Chen等[40]发现基于增强CT的SVM模型在预测AP复发方面表现良好。Mashayekhi等[41]发现基于增强CT的SVM模型可以区分复发性急性胰腺炎(recurrent acute pancreatitis,RAP)、功能性腹痛和CP。该模型在RAP组、功能性腹痛组和CP组的AUC值分别为0.88、0.79和0.90,总体预测准确度为82.1%。
目前AI在CP领域的研究尚不深入,大多数研究为CP与胰腺癌的鉴别诊断。Yeaton等[42]采用DT模型分析CP与胰腺癌患者的ERCP刷检细胞学标本,该模型在训练集中的灵敏度为91%,特异度为87%,在测试集的灵敏度和特异度均为80%。Norton等[43]使用ANN及计算机辅助分析EUS图像特征,将结果与实际EUS诊断以及回顾手术录像的内镜医师的诊断进行比较,3种方式鉴别CP与胰腺癌的准确度分别为80%、85%和83%,首次证明了计算机辅助图像分析在EUS诊断中的可行性。之后的研究[44-47]均参考了此种研究模式,采用不同的图像处理技术和AI方法对EUS图像特征进行提取和分析,结果都实现了较高的诊断效能。由此可见,AI技术在CP领域的应用潜力巨大。
AIP是一种独特的CP亚型, 与胰腺导管腺癌有许多相似的临床表现。目前AI在AIP领域的研究均与诊断相关。Zhang等[48]采用SVM结合Fisher准则和序列前向浮动选择算法(sequence forward floating selection algorithm,SFFS)从PETCT图像中提取纹理特征并选择最优多模态特征子集。结果显示,该模型运用病变纹理分析能准确鉴别AIP与胰腺导管腺癌。Liu等[49]采用支持向量机递归特征消除法(support vector machine recursive feature elimination,SVM-RFE)从PETCT图像中筛选出最优放射组学特征集,并采用线性SVM构建最终分类器。该模型在鉴别AIP和胰腺导管腺癌病变方面具有良好的性能。Marya等[50]建立的EUS-CNN模型能准确区分AIP、胰腺导管腺癌、CP和正常胰腺,从而提供更早、更准确的诊断能力。
随着进入21世纪这一大数据时代,AI在医学及医疗领域焕发出新的活力,使用AI算法构建的辅助诊断、治疗决策、预后评估模型在诸多疾病中的应用对传统指南构成挑战。但仍有许多问题亟待解决:(1)高质量的数据是强大模型的基石,大多数研究从电子病历和公共数据库中获得数据,其记录方式和时间无法确定,各研究使用的评价指标以及测量和测试的标准也未达成一致。随着临床实践的发展,公共数据库中的过时记录可能不包含当前和未来研究所需的所有特征。因此,应重视数据管理,增加对数据来源、标本采集和结果评价的详细描述,以提高数据的可解释性和质量。其次,多数研究不仅样本量较小,更缺乏独立队列外部验证,不同医疗机构与地区研究数据的规模和结果事件的发生率都不同,小样本和不平衡的数据通常会导致模型过度拟合。此外,临床记录往往含有大量异常值与缺失值,这些混杂因素同样会导致过度拟合。遗憾的是目前几乎没有研究详细描述数据预处理以及异常值、缺失值和不平衡数据的处理过程,所以目前为止尚未得到广泛应用于临床实践的胰腺炎AI模型。(2)尽管基于AI算法的模型具有更好的性能,但其推导和演化过程均存在黑箱效应,即工作原理和特征选择过程的可解释性低。因此,未来研究应兼顾AI模型的预测性能和可解释性。(3)与AI结合的影像组学技术正越来越多地应用于胰腺炎研究,但影像组学技术仍处于发展的早期阶段,需要建立统一的成像标准并开展多学科、多中心合作来减少因设备参数及操作不同造成的图像异质性。此外,目前的图像分割和特征提取等步骤仍需依靠影像学医师的人工判断,使用AI算法直接对图像进行自动处理的技术仍有待开发。
总之,AI在胰腺炎辅助诊断、治疗决策、预后评估等方面已经展现出了巨大的潜力,随着AI、大数据、影像组学等新兴技术研究的不断深入,相信以上问题将被逐一解决。临床医师也应认识到AI在挑战传统医疗实践的同时也为诊疗提供了新的机遇,只有怀着兼容并包的态度,才能使AI在人类监督下焕发出新的活力。
利益冲突所有作者声明无利益冲突