基于机器学习的儿童过敏性紫癜肾损害预测研究

2020-02-03 09:56
肾脏病与透析肾移植杂志 2020年6期
关键词:紫癜变量患儿

叶 媛 孙 涛 沈 思

过敏性紫癜(Henoch-Schönlein purpura,HSP)是儿童期最常见的全身性血管炎之一[1]。临床以皮肤紫癜、腹痛、关节痛和肾炎为特征,半数患者累及肾脏发展为过敏性紫癜性肾炎(Henoch-Schönlein purpura nephritis,HSPN)[2]。HSPN是儿童最常见的继发性肾小球疾病[3-4]。据报道,每10万名儿童中有6~24人会发生HSP,其中约30%~50%的患者会发展为HSPN[5]。是否有肾损害是决定HSP患儿长期预后的关键因素。HSPN的早期准确诊断对于患者预后和个体化治疗至关重要。肾活检是HSPN确诊的金标准,但由于其具有创性,家长及患儿多难接受,导致部分患者在确诊时肾脏病变已极为严重[6]。

本文的研究目的是检验是否可以用简单的临床数据预测HSP发生肾损害,有助于临床医生早期高效诊断HSPN,以期避免HSPN的发生或减轻其发生的严重程度。

对象和方法

研究对象选取2016年1月~2018年12月三年间在东部战区总医院儿科的533例HSP的患儿,其中337例患儿合并紫癜性肾炎。根据欧洲抗风湿病联盟(EULAR)[7]和《紫癜性肾炎诊治循证指南(2016)》[8],HSP的诊断标准为:可触性皮疹(必要条件)伴以下四项中至少一项临床症状:腹痛、关节炎/关节痛、肾脏受累、组织病理学检查结果提示IgA沉积。肾损害以临床指标为主:定义为在HSP病程6个月内,出现血尿、蛋白尿、肾功能的异常,如血清肌酐(SCr)升高和估算的肾小球滤过率(eGFR)下降。其中eGFR的计算公式为:≤16岁使用Schwartz公式[9],>16岁使用CKD-EPI公式[10]。eGFR<90 ml/(min·1.73 m2)即认为肾功能不全。

纳入标准:符合上述诊断标准,年龄≤18岁,患儿家长知情同意。排除标准:有其他肾脏疾病的患儿(如肾病综合征、肾脏肿瘤等);合并有严重心、肝、脑、免疫系统等疾病或消耗性疾病者。

研究因素收集包括人口学特征、临床症状、实验室指标在内的共31个指标作为候选预测因子。其中人口学特征包括性别、年龄、发病季节;临床症状包括是否有关节症状(关节肿痛),是否有腹部症状(包括腹痛和消化道出血),皮肤紫癜部位(紫癜分布是否蔓延到上半身),是否有紫癜复发。实验室指标包括尿常规、血常规、体验免疫、生化检验等检验结果。

统计学方法采用《SPSS 24.0》进行数据处理与分析。对于缺失值超过一半的指标,将其舍去,以免影响整体结果,对于缺失值较少的指标,使用多种填补方式进行比较,采取期望最大化算法(expectation maximization,EM)进行缺失值填充。计数资料采用χ2检验,计量资料采用均数±标准差表示,采用t检验。P<0.05为差异有统计学意义。

机器学习方法采用《Python 3.6》进行Logistic回归和XGBoost模型预测和分析。XGBoost是一个有监督的机器学习模型,它由多个弱预测模型组合起来,使用的弱预测模型通常是CART(classification and regression trees)树[11]。在训练过程中,以梯度增强的方式生成一系列决策树,决策树的叶子节点对应的值是一个实际的分数,每棵决策树的累计得分作为最终的预测值。我们使用五折交叉验证来测试算法的准确性。将数据集分成5份,轮流将其中4份作为训练集,另外1份作为测试集,每次实验都会得到对应的正确率,5次结果的平均正确率作为对算法精度的估计。

结 果

基本资料533例患儿中,女性264例,男性269例;发病年龄2~17岁,平均年龄9.02±2.87岁;伴关节症状233例(43.7%),伴腹部症状290例(54.4%),紫癜复发233例(43.7%),皮肤紫癜分布仅在下半身446例(83.7%),蔓延到上半身87例(16.3%);发病季节以冬季最多152例(28.5%)。HSP患者发生肾损害的有337个样本,标记为1,未发生肾损害的有196个样本,标记为0。

特征选择对数据中的指标进行单因素分析,初步筛掉一些可能无意义的变量,由表1和表2可以看出性别,血小板计数、C反应蛋白、总胆固醇、三酰甘油、IgM、血清补体C4这些变量在是否发生肾损害上认为是不显著的因素(P>0.05不具有统计学意义),因此舍去,留下24个变量。

表1 症状变量χ2检验结果

表2 实验室指标变量t检验结果

XGBoost模型能够自动计算特征重要性,当输入变量数为12个、10个、8个、5个时,模型的AUC分别为0.78、0.88、0.79、0.63。故当使用XGBoost重要性得分衡量的10个最重要的变量作为输入的时候,模型效果最好。根据XGBoost模型输出的重要性特征排名(图1),居于前十位的变量是:抗链球菌溶血素“O”(ASO),尿N-乙酰-β-D-氨基葡萄糖苷酶(NAG酶),尿视黄醇结合蛋白(RBP),IgA,年龄,紫癜复发,皮肤紫癜部位,腹部症状,24h尿蛋白定量,中性粒细胞百分数。

图1 XGBoost模型的预测特征重要性图

模型构建实验过程中,通过不断调整输入和各项参数,达到训练误差最小。当前XGBoost参数组合如表3所示。

确定参数后,每棵树都对样本是否发生肾损害进行预测打分,加在一起得到最终的预测值,以0.5为判断值,>0.5输出“1”认为是发生肾损害,<0.5输出“0”认为是不发生肾损害。

表3 XGBoost重要参数

模型预测性能评价24个变量组成的特征矩阵分别输入Logistic回归和XGBoost两个模型进行预测。图2是Logistic回归五折交叉验证的ROC曲线,平均曲线下面积为0.74±0.14;图3是XGBoost的五折交叉验证的ROC曲线,平均曲线下面积为0.88±0.02。对比可知,XGBoost模型效果更好,并且稳定性优于Logistic回归。图4中,XGBoost的召回率高于精确率,即XGBoost预测模型的敏感度更好。将两个模型相比较,可以发现XGBoost在各性能指标上的表现都优于Logistic回归。故认为XGBoost在HSP患儿是否发生肾损害的预测问题上的表现更优。

图2 Logistic ROC曲线

图3 XGBoost ROC曲线

图4 两模型预测结果比较

表4 两模型预测结果比较

讨 论

本文基于临床数据对患儿HSP是否发生肾损害进行预测,XGBoost模型各项指标都高于Logistic回归。目前对HSPN的预测研究主要使用的是回归方法。例如宋均亚等[12]采用单因素及多因素分析方法筛选肾损害高危因素,并建立了预测HSPN发生风险的列线图模型。奚晓隽等[13]使用单因素分析和Logistic回归分析初发HSP患儿的肾脏受累的独立危险因素。Logistic回归模型是经典的方法,由于它是一个线性回归模型,用于分类预测时,在处理非线性问题上存在不足,而且回归模型由于对样本的依赖会导致过拟合问题,对未知样本的预测效果不好。而XGBoost的优点在于:(1)引入正则化项,有助于减少过拟合问题。(2)支持列抽样,不仅能降低过拟合,还能减少计算。(3)可以自动为缺失值指定分支的默认方向,提高算法的效率。(4)在迭代之前,预先对节点的特征进行排序,保存为数据库结构,遍历选择最优分割点,每次迭代,重复使用该结构,降低了模型的计算。在进行节点的分裂时,计算每个特征的增益,选增益最大的特征进行下一步分裂,那么各个特征的增益可以开多线程进行。(5)允许用户自定义优化目标以及评估的准则,这就为模型的广泛性应用提供了更多的可能。

XGBoost模型可以自动得到每个属性的重要性得分,从而有效地进行特征的筛选。重要性得分衡量了特征在模型构建树中的价值,一个特征越靠近根结点,权重越大;一个特征被更多的树选择,就越重要。因此指标重要性得分越高,表示这个指标更多地被模型用来构建树,其重要性就越高。在本文中,重要性居于前十位的变量是:ASO,尿NAG,RBP,血清IgA,年龄,紫癜复发,皮肤紫癜部位,腹部症状,24h尿蛋白定量,中性粒细胞百分数。

链球菌溶血素是溶血性链球菌的代谢产物之一。人体在感染该型链球菌后,血清中可出现大量的ASO抗体。有报道部分患儿在发病前有上呼吸道感染史[14-15]。陈洪敏[16]对患儿进行咽部分泌物A组β型溶血链球菌抗原和血ASO检测,认为A组β溶血链球菌感染可能是诱发儿童HSP并导致HSPN的重要因素之一。在本文的预测模型中ASO的重要性最高。其次是尿NAG和RBP。NAG是一种存在于泌尿系统的溶酶体酶,广泛应用于临床,是非常经典的肾小管损伤标记物。正常的情况下,肾小管上皮细胞向尿液中分泌少量的NAG,尿液中的含量非常低。当肾小管细胞受损时,NAG就会大量从肾小管上皮细胞释放进入尿液,这时候通过尿液检查NAG就会升高,即尿NAG升高反映肾小管的损伤。RBP反映肾脏近端小管重吸收功能受损,是一个评价肾脏疾病的良好标本。杨晓青等[17]研究认为尿α1微球蛋白、RBP和NAG联合检测有助于早期评价HSPN肾小管损伤的状态和程度。血清IgA是机体黏膜防御系统的主要成分,广泛分布于乳汁、唾液以及胃肠道、呼吸道、泌尿生殖道黏膜分泌液中。因此,其在抗感染防御第一线中起重要作用,尤其在呼吸道和肠道。这在本文的预测模型中也是一个重要指标。丁艳等[18]的研究认为IgA水平升高可能是HSPN的高危因素。HSP的病理特点是免疫复合物沉积于血管壁,形成微血栓及纤维素性坏死,出现动脉炎,血管通透性增加,导致皮下出血。相似的改变也可出现于消化道黏膜,临床上则表现为腹痛或便血。畅晓元等[19]认为皮疹分布范围广(皮疹累及躯干及上肢)、出现消化道症状和血清IgA水平升高可能是HSPN的高危因素。本文的研究中皮肤紫癜部位表示的是紫癜分布是否蔓延到上半身,即臀部以下和臀部以上两种情况,也是一个重要的危险因素。Chan等[20]的Meta分析认为年龄>10岁、严重的腹部症状、关节炎、紫癜持续或复发、ASO升高是HSPN的危险因素。Bogdanovic[21]的研究认为持续或复发紫癜,腹部症状,较大年龄是HSPN最重要的危险因素。宋纯东等[22]认为儿童HSPN新月体含量与 24 h 尿蛋白水平等均有一定相关性,大量蛋白尿是影响肾功能及病程的重要因素。与本研究得出的过敏性紫癜发生肾损害重要预测特征结果一致。

本研究尚存在以下不足,首先,本研究为单中心回顾性研究,样本量偏少且未经外部验证;其次,受收集病例资料来源限制,本研究虽然纳入了许多预测变量进行筛选,但仍不够全面,可能存在未纳入的潜在预测变量;再次,模型的稳定性尚有欠缺;最后,在临床应用方面,开发更多的辅助决策技术,更好地服务于临床,也是我们仍需努力的方向。

小结:本文使用Logistic回归和XGBoost两种方法分别对患儿HSP是否发生肾损害进行预测,对比发现XGBoost模型的表现更好。本研究意在用简单的临床数据进行HSP发生肾损害的预测,可以减少对患者的有创性检查带来的伤害。在以后的工作中,我们将完善不足,以临床需求为出发点,更好地服务于临床应用。

猜你喜欢
紫癜变量患儿
马鸿杰教授治疗过敏性紫癜性肾炎临床经验总结
维生素D联合GnRHa在特发性性早熟患儿中的应用
唇腭裂患儿家长围手术期的心理需求
KD患儿急性期h-FABP、PAC-1表达与冠状动脉受损的关系
儿童过敏性紫癜IL-17、HPV-B19检测的临床意义
抓住不变量解题
儿童过敏性紫癜饮食影响因素分析
分离变量法:常见的通性通法
不可忽视变量的离散与连续
变中抓“不变量”等7则