机器学习在IgA肾病中应用的进展

2020-02-16 13:07:07石念峰王荣勤吴和燕综述夏正坤审校
医学研究生学报 2020年10期
关键词:肾小球机器肾病

石念峰,王荣勤,吴和燕综述,夏正坤审校

0 引 言

IgA肾病(immunoglobulin A nephropathy,IgAN)是全球最常见的原发性肾小球疾病[1],也是导致终末期肾病(end-stage renal disease, ESRD)的常见原因[2-3]。由于缺乏特征的血清学表现,肾活检仍然是IgAN诊断的权威检查手段,但由于其有创性,导致大部分患者在确诊时已经进入ESRD。如何早期识别有进展风险的患者将具有积极的现实意义。传统模式下,临床研究的数据统计、分析等环节需要耗费大量人力、效率低。近年来,随着机器学习技术的广泛应用,医学研究者开始尝试借助机器学习模型进行IgAN的病理分析、早期检测与诊断、预后预测、生存分析等[4]。本文就机器学习在IgAN中的应用作一综述,旨在为IgAN辅助诊疗提供最新的机器学习应用参考。

1 机器学习与统计建模

机器学习是人工智能的一种研究方向,主要任务是从数据中自动分析建立规律,并利用规律对未来数据或无法观测的数据进行预测[5-6]。机器学习和统计建模具有显著差异。首先,两者目的任务不同。机器学习主要任务是通过数据集学习建立可重复预测的模型,多用于解决预测问题[6];统计建模则是发现数据集中变量之间的关系以及这些关系的重要性,多用于推断变量间的相关性或变量的未来值。由于是一种“端”到“端”的技术,大多数机器学习算法预测结果缺乏可解释性[5]。其次,机器学习和统计模型的有效性评估不同。前者需要借助测试集验证其准确性,后者则使用置信区间、显著性检验等进行评价。

医学领域多采用统计建模方法进行早期诊疗、预后评测和生存分析等研究[1,7-8]。吴和燕等[2]等利用Cox比例风险模型研究发现,伴C1q沉积的儿童IgAN发生ESRD的风险是C1q阴性患儿的5.772倍,得出C1q沉积是儿童IgA肾预后不良的独立危险因素的结论。Barbour等[8]利用Cox比例风险模型对来自日本、中国、欧洲等3927名成年IgAN患者的病理分析,构建一个适合多种族的、由估算肾小球滤过率(estimated glomerular filtration rate, eGFR)、活检时平均动脉压(mean arterial blood pressure,MAP)和尿蛋白、MEST-C评分等构成的IgAN终末事件风险预测模型,能够准确地预测成年IgAN患者进入ESRD的概率。然而,考虑到IgAN终末事件和患者的年龄相关,该风险预测模型是否适用于儿童IgAN患者还有待进一步研究[7]。

随着机器学习技术,尤其是深度学习技术,在计算机视觉、语音识别、自然语言处理等领域的出色表现,机器学习模型已经逐步被应用到病理检测[9]、预后评估[3,10]等医学领域中。利用机器学习技术,从临床数据中提取新知识、定义预测模型,以支持检测、诊断、预后和治疗等,已成为医学研究和临床医师的重要手段[4,11]。

2 机器学习辅助IgA肾病诊断

IgA肾病发病隐匿,临床表现不一,病理损伤类型多样,早期诊断生物标志物匮乏。因此,基于机器学习的IgA肾病诊断近年来逐渐成为一个研究热点[1,12]。

2.1机器学习构建模型优化病理诊断肾病理与预后密切相关,通过肾活检中肾小球形状识别,观察肾形态演变,可预测IgA肾病患者发生ESRD的概率[13]。准确的肾小球显微医学图像分割和形态分析对于获得可靠的疾病诊断非常重要。随着机器学习的卷积神经网络(convolution neural network, CNN)在多视觉分类问题方面的成功应用,医学研究者开始尝试利用机器学习的图像分割和物体分类技术,提高IgA肾病活检病理诊断的准确性和效率。

Han等[14]构建了一个像素级标记的肾小球显微医学图像分割数据集,通过按比例缩小区域提议网络中的锚点数量和增加Mask分支中的反卷积层数,提高肾小球分割精度,实现了肾小球显微医学图像的自动分割。Lituiev等[15]训练了基于U-Net的深度卷积神经网络,进行肾数字化组织切片中的淋巴样聚集物(LA)识别,95%置信区间的AUC达到97.78%±0.93%,IoU得分为69.72%±6.24%,显著提高了肾活检评估的准确性和速度。Simon等[16]设计了一种支持向量机(support vector machine, SVM)和CNN融合的肾局部薄切片中肾小球定位和组织结构识别方法,借助肾局部薄切片的局部二值模式图像特征向量训练SVM模型,通SVM加速肾小球识别深度训练和特征集构建,实施IgA肾活检的肾组织病理诊断,将糖尿病性肾病小鼠模型的病理变化误报率降低至3%以下。Ledbetter等[17]将每位IgAN患者的eGFR值被附加到CNN网络的倒数第二层,通过eGFR进行肾形态分类辅助CNN训练,预测IgAN患者的肾功能。实验表明,单独添加初始eGFR将CNN训练时间减少2倍,网络的验证误差减少20%,提高了IgAN肾活检的高分辨率数字病理的扫描效率。Chagas等[9]将CNN和SVM结合,训练了毛细血管内膜和肾小球高细胞性两种病变深度分类型,借助多任务分类实现肾组织切片病变扫描和筛选,进而完成人类肾图像中肾小球高细胞性的自动检测,肾小球病变识别失败率仅有4%。由此可见,通过机器学习构建模型对于优化病理图像诊断具有极大的意义。

2.2无创性IgA肾病早诊生物标志物发现肾活检是IgAN诊断的金标准[12]。然而,由于其具有创性,患者接受度较低,导致大部分患者在确诊时已进入ESRD。因此,医学研究者在基于机器学习的无创性或微创性IgA肾病早诊生物标志物方面进行了大量的研究[18]。

Agar等[19]收集了1979年1月至1989年7月期间在墨尔本Prince Henry's医院进行肾穿刺活检的284名患者临床及病理数据,建立了小型肾病活检数据库,采用DLG算法进行肾病自动诊疗,IgAN诊断准确率可达81.26%。Agar据此认为,如果建立大型肾病活检数据库,采用机器学习技术可能会显著提升肾小球疾病诊断的准确率,甚至可能实现非侵入式诊断。Ruchika等[20]开发了一个基于规则的诊断决策支持系统DSS,利用决策树算法实现肾小球疾病临床自动诊断。首先,将包括IgAN在内的15种常见的肾小球疾病的标准临床特征和病理学特征抽象成知识库;接着,依据29项临床检验指标,将每种肾小球疾病抽象为1个或多个特征矢量,利用决策树算法通过特征矢量间的欧拉距离自动预测疾病类型。对612名患者的实验表明,DSS能正确预测509例,占83.2%。Afshin等[21]收集了13名IgAN尿样,利用LASSO、MCP和随机森林作多变量分析等方法,对尿样中的493种尿蛋白进行研究,评估高维和低样本量时生物标志物对IgAN诊断的有效性。实验表明,LASSO、MCP和随机森林分别仅显示出7、3和5个生物标志物作为IgAN肾病的有效因子,其中最有效的生物标志物是LASSO中的细胞外硫酸酯酶Sulf-2(OR=0.28)和血清白蛋白(OR=2.66),MCP中的α1-抗胰蛋白酶(OR=73.7)。

3 机器学习辅助IgA肾病进展预测及预后评估

在诊断时预测患者的IgAN长期预后评估是IgAN诊治主要困难之一。Junhyug等[22]收集了韩国首尔国立大学医院肾内科于1979年至2014年的1622位患者的17个临床与病理指标构建数据集,将IgAN患者初步诊断后的十年内是否进展至ESRD变为分类问题,采用逻辑回归、神经网络、决策树、Boostings等6种机器学习算法分别建立了IgAN进展预测模型,发现eGFR、肾小球硬化百分比和肾小球硬化症强度等对IgAN预后影响较大。

Pesce等[23]开发一种临床决策支持系统(CDSS),通过对1040例经活检证实的IgAN患者(意大利546人、挪威441人、日本53人)长期随访,使用肾活检时的可用临床数据借助人工神经网络(ANN)对ESRD及其时间进行定量风险评估。将性别、年龄、MEST分级、血清肌酐、24h蛋白尿量和高血压等指标作为ANN输入参数,首先预测ESRD的状态,然后预测达到ESRD的时间(≤3年、3~8年、>8年)。实验表明,ANN在ESRD预测(意大利、挪威和日本IgA肾病人群的AUC分别为89.95%、93.3%和100%)和时间选择方面均表现出了很高的性能(来自意大利、挪威和日本IgAN患者的f测度分别为90.7%、90.7%和70.8%),可用于识别“高风险” IgAN患者。Han等[24]将人口统计学、临床和病理等19个参数作为输入参数,分别使用逻辑回归、随机森林、SVM、决策树等6种机器学习算法建立模型评估IgAN患者的ESRD风险。实验结果表明,随机森林预测到ESRD的进展性能最好(准确度为93.97%,敏感性80.60%,和特异性95.27%)。Chen等[10]收集了自单个中心的1022名中国IgAN患者和来自18个肾脏中心的1025名IgAN患者的人口统计学、临床和病理等36个参数,采用XGBoost和Cox回归模型,构建了简化的评分标准模型(SSM),实现诊断性肾活检后5年内进展为ESRD或eGFR降低50%的IgA肾病风险分层。Kaplan-Meier分析评估SSM获得风险分层表明,C统计量为0.84(95%CI:0.80-0.88),风险分层显著(P<0.001),据此发布了IgA肾病ESRD风险南京预测模型。Liu等[3]对2009年1月至2013年11月在湘雅市第二医院接受活检证实患有IgAN的262名患者的人口统计学和临床病理数据进行了回顾性分析,结合随访数据(中位随访时间为4.66年),利用随机森林(RF)构建模型预测IgA肾病患者的ESRD状态。首先,使用性别、年龄、高血压、血清肌酐、24h蛋白尿和MEST分级等6个预测指标来训练初始RF模型(F测度为0.8,AUC为92.57%);接着,在6个预测指标中添加Oxford-MEST分数训练并改进RF模型,发现改进后的RF模型优于初始RF模型(AUC为96.1%、F测度为0.823);最后,当分别加入C3和eGFR后RF模型AUC分别提高到97.29%和95.45%。同时,还观察到通过额外尿酸、血红蛋白和白蛋白均可改善RF模型的性能。

4 机器学习在IgA肾病应用的几点思考

与肾病临床医学的预后评估、治疗决策方法相比较,机器学习具有高敏感检出、高维信息挖掘、高通量计算的能力,可提供更加丰富的诊断指标,辅助鉴别诊断、基因分析及预后判断等[11],提高IgAN的预后评估、诊断治疗质量。然而,机器学习在IgAN中的应用,还有很多工作需要医学研究者去探索和认识。一方面,基于机器学习的IgAN早期检测、诊断、治疗和预后研究还处于未成熟阶段。另一方面,由于机器学习“端”到“端”的特性,导致IgA肾病诊疗和预测模型缺乏可解释性,无法被广泛临床应用。基于此,本文对机器学习在IgA肾病中应用,提出几点思考。

4.1多源数据融合的IgAN早诊生物标志物智能筛选IgA肾病早诊生物标志物发现研究基于小样本数据集的较多,机器学习算法的输入条件单一,主要以人口学指标和特定的病理或临床特征为主,如性别、年龄、MEST分级、血清肌酐、24h蛋白尿量、MEST分级等。未来,在IgA肾病早期发现、早诊早治研究方面,应结合医院电子病历及病理等系统,实时采集临床与检验等数据,从无症状患者检查指标中筛选出IgA肾病高危人群,跟踪其疾病进展,结合基因组学和蛋白质组学等生物数据,借助机器学习技术筛选并获得可靠的IgA肾病早期预警标志物。

4.2多算法融合优化机器学习算法性能每种机器学习算法都有其局限性,单一分类器不能完全满足IgA肾病诊疗,需要将多种算法有机结合起来、扬长避短,提高IgAN应用中机器学习的鲁棒性和临床实用价值。

4.3结合医学机理的IgAN机器学习模型构建机器学习得到的算法模型多为缺乏临床医学解释的深度模型。一方面由于模型无法与传统的循证医学证据进行有效关联,缺少可信性[25];另一方面模型的行为缺乏透明性,研究者很难界定模型的迁移边界和工作机制,无法迁移至其他疾病诊疗。因此,采用可视化、消融实验、注意力机制等基于结果的可解释技术,结合临床医学理论和实践,设计可解释的合理模型架构,可为IgAN临床应用提供更多可信赖的、可转移的循证医学证据。

4.4研究基于深度学习的IgAN临床应用基于深度学习的IgAN诊疗一直以来都是充满挑战的医学研究领域,不仅在于IgAN隐匿、发病周期长,还在于IgAN发病机制不明、影响因素多。广大医学研究者们已经做了大量的研究探索并模型设计,但现有模型泛化能力有限,无法规模化用于临床实践。构建涵盖多种族、大样本数据集,开展基于深度学习的IgAN临床应用,是一个值得期待的研究领域。

5 结 语

基于机器学习的IgAN研究具有重要医学和社会价值。本文从机器学习和统计建模的本质区别入手,对机器学习在优化病理诊断、无创性IgAN早诊生物标志物发现和IgAN进展预测及预后评估等三个方面的最新应用进行了综述,认为基于机器学习的IgAN早期检测、诊断、治疗和预后研究还处于未成熟阶段,并且机器学习在IgAN早诊早治和ESRD进展预测的应用将是IgAN领域的研究热点。将机器学习与医院电子病历及病理等系统集成,建立多算法融合、鲁棒和可解释的IgAN诊疗模型和临床应用,降低患者的ESRD发生概率,具有广阔的应用前景。

猜你喜欢
肾小球机器肾病
机器狗
环球时报(2022-07-13)2022-07-13 17:18:39
机器狗
环球时报(2022-03-14)2022-03-14 18:19:44
预防肾病,维护自己和家人的健康
中老年保健(2021年4期)2021-08-22 07:07:58
中医怎样治肾病?
肾病防治莫入误区
保健医苑(2020年1期)2020-07-27 01:58:20
“重女轻男”的肾病
基层中医药(2018年7期)2018-12-06 09:25:32
未来机器城
电影(2018年8期)2018-09-21 08:00:06
中西医治疗慢性肾小球肾炎80例疗效探讨
中外医疗(2016年15期)2016-12-01 04:25:52
肾小球系膜细胞与糖尿病肾病
无敌机器蛛