崔承 陈飞龙,2 综述 李禄全 包蕾 审校
(1.重庆医科大学附属儿童医院新生儿科/国家儿童健康与疾病临床医学研究中心/儿童发育疾病研究教育部重点实验室/儿科学重庆市重点实验室,重庆 400014;2.重庆邮电大学计算机科学与技术学院,重庆 400065)
新生儿坏死性小肠结肠炎(neonatal necrotizing enterocolitis,NEC)是新生儿期严重的消化道疾病,根据美国国家卫生统计中心数据,NEC 是2019 年美国新生儿死亡的十大原因之一,其病死率为0.094‰,高于2018年的0.079‰[1]。面对病死率增加和发病机制不明,动态监测、早期诊断治疗是减少NEC 发生、改善预后的关键[2],目前多采用修正版Bell分级作为诊断标准[3],其诊断需结合症状、生化指标和腹部影像学动态评估,其中症状评估和影像学报告存在主观性[4],且NEC 难以与食物蛋白诱发的小肠结肠炎和缺血性肠坏死区分,易误诊,导致非NEC 患儿接受额外的检查和治疗,延长住院时间,给家长带来心理和经济负担[5]。漏诊则会影响患儿预后。机器学习(machine learning)技术的发展为消除主观性因素、减少漏诊误诊提供了可能。
机器学习是人工智能(artificial intelligence,AI)的分支,其通过算法学习样本数据以完成特定任务。近年来已广泛用于医疗保健、电子商务、农业等领域[6],在判断垃圾邮件[7]、预测企业风险中的成功应用[8],表明机器学习在诊断NEC,预测NEC风险方面具有潜力。
机器学习算法可分为监督学习、半监督学习、无监督学习和强化学习等分支[9]。监督学习依据特征标签进行分类,可用于疾病诊断、腹部X线片(abdominal radiograph,AR)分析等[10]。无监督学习侧重根据特征对样本进行聚类,如根据电子病历数据对患者进行分组[11]。半监督学习介于上述二者之间,使用数量有限的标记数据训练模型。强化学习通过奖惩机制和环境交互进行训练,如根据糖尿病患者动态血糖水平调整胰岛素剂量[12]。评价机器学习模型性能指标包括特异度、灵敏度、受试者操作特征曲线 (receiver operating characteristic curve,ROC 曲线)、曲线下面积(area under the curve,AUC)等[13]。
逻辑回归(logistic regression,LR)是主要研究因变量(分类结果)及自变量(预测因子)之间相关性的监督学习算法。LR 通过预测每个预测因子变化时分类结果改变的概率,从而定量评估某疾病与各预测因子之间的关系[14]。
Cho等[15]对包括704例NEC患儿在内的10 353例极低出生体重儿进行统计分析,纳入胎龄、出生体重、性别、出生年份和季节等74个预测因子,比较了人工神经网络(artificial neural network,ANN)、决策树(decision tree,DT)、LR、朴素贝叶斯、随机森林(random forest,RF)和支持向量机(support vector machine,SVM)6 种算法,结果表明RF 和LR 准确率和ROC 曲线最优,在进一步分析NEC 危险因素中,LR 选出的可能预测因子为败血症、出生体重、妊娠糖尿病、动脉导管未闭(patent ductus arteriosus,PDA),RF 选出的可能预测因子是出生体重、出生体重Z值、产妇年龄和胎龄。但LR 处理胎龄和低出生体重等共线性因素时[16],会使方差增大,影响置信区间和假设检验[17]。
LR 在回溯NEC 高危因素时能展示权重,可解释性强,有助于监测有早产、感染等高危因素的重点新生儿。但基于LR的回顾性研究尚未就危险因素达成完全共识。此外,人工筛选预测因子可能遗漏关键预测因子或纳入共线性因子,从而影响LR结果[18],而纳入无关变量会夸大预测结果的有效性[19],因此,未来筛选预测因子需避免纳入共线性因子或遗漏关键预测因子,以充分发挥LR在NEC高危因素溯源中的价值。
DT 是包含根节点、内部节点和叶节点,基于条件进行筛选的倒置树结构算法[20](图1)。可采用熵、Gini指数等作为内部节点筛选依据。叶节点中样本种类越丰富,熵越大。DT 通过增加树的深度让熵快速下降从而聚类,具有天然可解释性[21]。但随着叶节点数量的增加可能导致过拟合。因此通常采用限制深度、修剪、增加验证集等方法减少过拟合[22]。
图1 决策树简化模型 叶节点中样本纯度越高,熵、Gini指数越小。通过计算机计算近似所有可能结果后选择最佳的树。
Lueschow 等[23]收集了219 例NEC 患儿数据,比较7 种NEC 不同定义,通过DT 算法归纳出9 个NEC重要定义特征(呼吸暂停、嗜睡、粪便隐血、腹胀、胎龄、发病日龄、喂养量、弥散性血管内凝血、隐匿性直肠出血),发现修正版Bell 分级和英国NEC定义[24]在诊断NEC时,特异度较低(分别为0.402和0.504),但灵敏度较高(分别为0.706和0.745),更现代的定义(佛蒙特州牛津网络定义[25]、国际新生儿联合会定义[26]和“三选二”原则[27])具有更高的特异度(分别为0.667、0.897、0.880),但灵敏度较低(分别为0.314、0.225、0.294)。基于此,作者指出非Bell-NEC定义可能诊断NEC更准确。
RF 通过从数据集中随机选择样本和特征来构建多个DT,并聚合其结果进行预测[28]。其优点包括抗过拟合、快速处理高维数据、无需选择特征,而局限性在于分类效果受样本量影响较大。随着样本量增加,每棵树中同类数据越多,分类效率越高[29]。
NEC 发生可能与肠道菌群、喂养方式有关[30-32],因此Masi 等[33]针对14 例NEC 患儿和34例对照组,通过宏基因组学测序644 个粪便样本,整合喂养方式、胎龄等特征,用RF构建了母乳低聚糖和肠道微生物群组合的NEC 预测模型,成功地将87.5%的样本分类为健康新生儿或NEC患儿。
SVM 是用于分类或回归的监督学习算法,其通过最大化数据点在空间内类别与平面之间的距离,即找到最佳边界(或超平面)。使每个类别在空间中的数据点到分类边界的距离之和最大,因此也称支持向量[34](图2)。
图2 支持向量机简化模型 样本距最佳边界越远可信程度越高。通过计算机计算出最佳边界,让每类样本距离最佳边界尽可能远。
李振宇[35]收集了564 例疑似NEC 早产儿的临床和影像学数据,包括264 例NEC 组和300 例非NEC组,使用LR筛选与NEC相关的危险因素并建立回归方程。然后使用递归特征消除、最大相关最小冗余、弹性网3种特征选择方法筛选特征,并取特征交集(肠道扩张、门脉积气、肠壁积气等7个特征)和特征并集(肠道扩张、肠壁积气、门脉积气、妊娠糖尿病、PDA、肠鸣音减弱、血便等32个特征),使用SVM、多层神经网络、XGBoost 3种算法建立NEC 诊断模型并进行性能评价。SVM在取交集时性能最优(AUC为0.919);多层神经网络在取并集时性能最优(AUC 为0.933)。然而,Martin[36]认为,肠道扩张和门脉积气等特征在NEC 定义中已发挥作用,因此不宜将这些特征再作为自变量,否则可能影响模型性能。
SVM适合处理数据特征较多的高维数据,但在处理大型数据集时需要大量计算资源和内存来储存模型。且当样本数据不足或存在过量特征时,高维空间的数据可能面临维数灾难,导致模型性能下降[37]。设置核函数可使SVM 处理线性和非线性数据,但如何设置核函数及超参数是SVM优化的难点。
梯度提升(boosting)是一类通过迭代训练多个弱分类器来构建强分类器的集成学习算法,这类算法包括AdaBoost、XGBoost、LightGBM 等[38]。其在训练过程中会根据先前分类器错误情况来调整样本权重以训练更准确的分类器。XGBoost基于梯度提升决策树算法改进,引入正则化技术和自定义损失函数,支持并行计算提高预测速度并降低过拟合的风险,从而提高模型精度。
Weller[39]提取MIMIC Ⅲ数据库中电子健康数据记录,根据Bell 分期标准或临床证据,确定了116 例NEC 患儿和464 例对照组。收集抗生素使用情况、出生体重、分娩方式、性别等48 个特征构建数据集并赋予相应分值,之后使用XGBoost训练预后预测模型,并提前预警NEC可能发生的时间。
高文静等[40]比较了3 个NEC 诊断模型,将248例符合腹泻、腹胀、呕吐、呼吸暂停和肌张力下降中任意一项的患儿作为数据集,通过五重交叉验证,分为198 例样本集和50 例测试集,统计了白细胞计数、血小板计数、心率、血压等9个指标。采用DT、XGBoost 和ANN 构建预测模型,并对测试集50 例样本进行分类预测。结果表明,XGBoost 算法在灵敏度、特异度和AUC 方面优于DT和ANN。
Gao 等[41]还开发了基于LightGBM 的多模态系统,LightGBM 是基于梯度的单边采样算法和排他性特征捆绑算法的树模型,前者从样本缩减角度出发,保留具有大梯度的样本,同时通过单边采样降低计算成本,后者从特征约简角度出发,捆绑互斥特征,减少树的深度,提高模型泛化能力。作者收集了1 823例疑似NEC患儿的4 535张AR和年龄、心率等临床数据,进行迁移学习并选出最优深度学习(deep learning,DL)模型SENet-154。然后使用827例疑似NEC患儿和379例确诊NEC患儿的AR 进行训练,筛选出AR 影像学重要特征,最终利用LightGBM 对诊断和手术预测数据进行学习,构建多模态AI系统。并对25例待确诊病例进行分类诊断和手术预测,在双盲下与低年资、高年资医生进行外部验证。该系统对诊断NEC 的AUC 为0.934,对手术预测的AUC 为0.941,与高年资医生判断结果相当。
Boosting 在多特征稀疏数据集和小规模数据集中表现欠佳,易导致过拟合,需引入正则项控制模型复杂度,但该算法准确性高,可解释性好,有一定应用潜力。
DL 是有多层次隐藏结构的机器学习方法,通过学习数据特征和规律,从而高效处理和精准预测各种任务,如图像分类、自然语言处理、语音识别等。 DL 包括ANN、 卷积神经网络(convolutional neural network,CNN)、生成对抗网络等形式。
ANN 通过人工神经元模拟了大脑神经网络中树突的接收功能和轴突的信号输出功能[42](图3~4)。
图3 神经元示意图
图4 神经网络简化模型 每个人工神经元接受多个输入信号经计算机处理后作为下层神经元的输入信号,最终输出结果。
Irles 等[43]使用ANN 从76 例NEC 和肠穿孔患儿数据中学习,构建了包括23 个特征的出生时ANN 模型和包括35 个特征的住院期间ANN 模型,特征包括产妇年龄、绒毛膜羊膜炎、胎龄、性别、出生体重、血气分析等,作者使用反向传播算法构建了三层神经网络,认为在生后24 h 内,动脉血气(二氧化碳分压和碳酸氢根离子)是预测NEC的重要因素,而对于住院期间患儿,PDA、使用母乳强化剂、早发败血症、低血压等是导致NEC肠穿孔的重要因素。
Son 等[44]基于ANN 算法改良,开发了用于早产儿肠穿孔的早期预测模型,作者使用了12 555例患儿数据,包括521 例NEC 肠穿孔患儿、208 例NEC 自发性肠穿孔患儿和一个无NEC 对照组,预测因子包括胎龄、低出生体重、呼吸窘迫综合征、使用糖皮质激素、低血压、脓毒血症和PDA 等,作者通过引入批归一化和随机失活技术,分别建立了预测NEC 和NEC 肠穿孔的两分支。经内部验证,该模型优于传统算法。
CNN是一种模拟动物视觉皮质的DL 算法,采用卷积层和池化层来提取图像特征,并使用多个全连接层来实现图像分类和识别[45]。由于NEC 患儿可出现肠壁积气、门脉积气、气腹等影像学表现[2],因此有学者采用CNN 对NEC 患儿临床特征和AR图像进行自动分类。通过卷积核和池化层来提取AR或腹部超声的特征,与NEC病理学活检结果对比,最终生成特定颜色热图以突出AR图像中病理学特征。综合临床表现和AR特点,评估患儿是否诊断NEC及是否需要手术干预[10]。
多示例学习(multi-instance learning,MIL)是一种能够在缺乏固定标记的情况下学习实例集的框架。Lin等[46]开发出一个基于注意力机制的门控MIL 系统,收集粪便微生物群以门纲目科属分类,产生高维度、低信号强度数据进行风险识别。对患儿的临床指标及微生物菌群数据预处理后,注意力池化模块为每个实例分配注意力权重,以动态调整NEC 风险评分,并对最有用的微生物菌群分类特征进行解释,实现了早期、精确的NEC 预测。此外,引入“增长袋分析”,将MIL 应用于纵向临床样本,将MIL模型中置信度分数转为动态风险分数,结合新生儿日龄及既往评分动态评估,从而量化患NEC的可能性。当风险评分为0.35时,总体灵敏度为86%,特异度为90%。但有研究认为婴儿肠道菌群与分娩方式存在相关性,如剖宫产的婴儿肠道菌群更接近母体皮肤定植细菌,感染、喂养方式、使用抗生素等因素也能改变肠道菌群[47]。这可能影响该算法预测NEC的准确性。
DL可以从大量数据、图片中提取到复杂关系,在NEC 研究中应用广泛。然而,DL 缺点明显,例如输出层通过算法从数据集中提取,模型内部结构和计算过程不可见,因此可解释性差,又称黑盒[48]。这可能导致错误的诊断或治疗决策[49]。
机器学习在NEC应用上面临4个技术问题,即数据通用性、模型可用性、模型可解释性和模型精度不足。单中心、小样本研究可能导致数据通用性不足,样本过小易产生选择偏倚和过拟合,因此需要大型多中心研究。
构建可用的NEC 诊断模型需收集多个特征,但设计过多特征,现实中可能导致数据收集不及时或数据缺乏时效性,反之,特征过少将影响模型性能。因此,未来设计模型中,需平衡特征数量以确保模型可用性。
DL 和SVM 具有黑盒结构,缺乏可解释性,这将导致模型可信任度不高,且纠正模型困难[49]。有学者通过降维、灵敏度分析和可视化辅助工具来解释模型[50],也有学者认为高性能机器学习模型,无需可解释性即可循证[51]。但即便如此,现有算法模型仍存在性能不足问题,未来可能的研究方向之一是引入时间维度,考虑特征出现的先后顺序和变化趋势对NEC 诊断的影响。因此,循环神经网络、长短期记忆递归神经网络等时间序列算法应得到重视,这些算法在文本识别、语音识别等领域已取得不错成绩,也许有望在NEC 研究中发挥重要作用。
机器学习算法在NEC 应用中还涉及伦理和法律问题,即如何处理医生与NEC 模型的冲突和预测模型的法律责任问题。虽然目前NEC 预测模型已在回顾性研究中进行广泛探讨,但所有研究均未能指出如何解决医生经验与模型结果之间的冲突。随着NEC 预测模型的发展,模型和医生决策孰更可靠,可能困扰患儿家长,加剧医患间不信任感[52]。在法学界,AI的法律责任问题仍有争议,但无论是独立责任理论还是代理责任理论都没有回答AI 是否具有法律地位及其如何承担法律责任的问题[53],这也将是NEC模型应用的障碍。
机器学习算法可应用于NEC的病因回溯[15,43],预测诊断[10,41]和定义研究[23]。但迄今仍缺乏可被广泛接受的NEC机器学习预测模型。
在未来,完善和优化AI 相关法律、纳入高质量大型多中心数据集、构建高精度算法模型或解决黑盒问题,将为机器学习在NEC 诊疗中的应用提供更好支持。
利益冲突声明:所有作者声明无利益冲突。