郑江元,祝锐,颜永杰,周洋,罗亚玲*
1重庆医科大学医学信息学院,重庆 400016;2重庆医科大学医学数据研究院,重庆 400016
子痫前期是一种妊娠期高血压疾病,其特征是妊娠20周后出现的高血压和蛋白尿,由于其病因较多,发病机制较复杂,给孕产妇和围产儿带来了巨大的危害。文献报道,子痫前期是导致孕产妇及围产儿死亡的主要原因之一[1-2]。在过去的几十年里,尽管国内外在子痫前期相关领域取得了重大进展[3],但是到目前为止,子痫前期的病因和发病机制仍未完全明确,且无有效的救治措施,及早发现并加强管理仍是主要的临床策略[4]。为了减少子痫前期带来的不良影响,有必要对孕妇进行子痫前期风险预测。随着智慧医学的发展,机器学习技术具有比传统统计学方法更好的优势,已被广泛应用于疾病的预测诊断中[5-8]。本研究从电子病历中收集数据,采用机器学习算法构建子痫前期风险预测模型并进行评价,以期为医护人员对子痫前期孕妇的评估和防治提供参考。
1.1 研究对象 本研究为回顾性分析,数据来源于重庆医科大学医学数据研究院大数据平台,该平台包含了重庆医科大学附属7家医疗机构的电子病历数据。收集该数据平台中2016年1月-2018年12月年龄为20~45岁的1609例住院孕妇的资料,其中子痫前期组291例,非子痫前期组1318例。在数据收集过程中,数据的提取和输入均经过检查,排除了临床资料严重缺失的病例,以及出院诊断中有糖尿病、慢性高血压病、肾脏疾病、心脏病等的病例。诊断标准:子痫前期根据中国《妊娠期高血压疾病诊治指南(2020)》[1]的标准进行诊断。本研究已通过重庆医科大学医学研究伦理委员会审批。
1.2 收集指标 收集患者的一般资料(年龄、高血压家族史、糖尿病家族史)、体征资料(收缩压、舒张压等)、妊娠情况(孕产次、妊娠期等)及实验室资料(血常规、肝功能、肾功能、电解质、凝血功能)等,排除缺失率≥30%的指标。
1.3 指标分析 对子痫前期组与非子痫前期组患者的一般资料、体征资料、妊娠情况和实验室资料进行统计学描述及比较,分析子痫前期的影响因素。根据影响因素构建基于LightGBM机器学习算法的预测模型,并评估其效能。
1.4 统计学处理 采用SPSS 25.0软件进行统计分析,缺失率<30%的指标使用多重插补的方法填补。符合正态分布的计量资料以±s表示,组间比较采用t检验;不符合正态分布的计量资料以M(Q1,Q3)表示,组间比较采用Mann-WhitneyU检验;计数资料以例(%)表示;对结局变量、高血压家族史、糖尿病家族史、孕周≥34周和是否初产妇等分类变量进行赋值,采用χ2检验进行比较。将两组间差异有统计学意义的指标纳入logistic回归分析,进一步筛选子痫前期的影响因素。P<0.05为差异有统计学意义。
1.5 机器学习模型构建 将子痫前期组与非子痫前期组按照7:3随机分为训练集(n=1126)和测试集(n=483),并对训练集和测试集中的特征变量进行一致性检验。调用python3.7.0 lightgbm包中基于梯度提升决策树(Light Gradient Boosting Machine,LightGBM)的机器学习算法建立预测模型;采用5折交叉验证算法确定LightGBM模型的最优参数,包括num_leaves、max_depth、min_data_in_leaf、feature_fraction、bagging_fraction和bagging_freq。其中num_leaves用来提高模型的准确率,max_depth、min_data_in_leaf、feature_fraction、bagging_fraction和bagging_freq用来防止模型过度拟合。采用敏感度、特异度、准确度、曲线下面积(AUC)等指标评价测试集中预测模型的效能。
2.1 一般资料比较 纳入的1609例孕妇中,子痫前期291例,占18.1%,非子痫前期1318例,占81.9%。共收集了58项指标,排除缺失率≥30%的13项指标,最终纳入45项指标。两组间谷氨酰转移酶(GGT)、谷丙转氨酶(ALT)、凝血酶时间(TT)、谷草转氨酶(AST)、尿比重等35项指标差异有统计学意义(P<0.05),而中性粒细胞计数、凝血酶原时间(PT)、平均红细胞体积(MCV)、淋巴细胞计数等10项指标差异无统计学意义(P>0.05,表1)。
表1 子痫前期组与非子痫前期组患者的基线资料比较Tab.1 Comparison of baseline data between preeclampsia group and non-preeclampsia group
2.2 子痫前期的影响因素分析 利用二元logistic回归分析对这35项指标进一步筛选,其中11项指标[尿比重、尿酸、平均红细胞血红蛋白浓度(MCHC)、球蛋白、血小板分布宽度(PDW)、钾离子、就诊年龄、收缩压、舒张压、脉搏和孕周≥34周]差异有统计学意义(P<0.05),可作为子痫前期的独立危险因素;此外,高血压家族史虽然差异无统计学意义(P=0.063),但通过咨询临床专家和查阅参考文献,最终也作为子痫前期的影响因素(表2)。
表2 子痫前期差异性指标logistic回归分析Tab.2 Logistic regression analysis of difference index in preeclampsia
2.3 机器学习模型 将上述12项独立危险因素作为预测模型的输入变量,孕妇是否发生子痫前期作为结局变量,并将子痫前期组与非子痫前期组按照7:3随机分为训练集和测试集,对训练集和测试集中的特征变量进行一致性检验,所有特征变量在训练集和测试集中均满足一致性检验(P>0.05,表3)。在训练过程中,采用5折交叉验证算法对LightGBM模型的参数进行优化,调优参数的范围为:num_leaves为5~100,max_depth为3~8,min_data_in_leaf为1~102,feature_fraction为0.6~1.0,bagging_fraction为0.6~1.0,bagging_freq为0~50。经过试验,参数设置为num_leaves=5、max_depth=3、min_data_in_leaf=91、feature_fraction=0.8、bagging_fraction=0.6、bagging_freq=5时,LightGBM模型的预测效果达到最优,模型的曲线下面积(AUC)为0.964,敏感度为84.9%,特异度为92.7%。
表3 特征变量在训练集和测试集中的一致性检验Tab.3 Consistency test of characteristic variables in training set and test set
2.4 模型效能检验 采用测试集对模型的效能进行验证,结果显示,LightGBM模型的敏感度和AUC均高于logistic回归模型,但logistic回归模型的特异度和准确度高于LightGBM模型(图1、表4)。
图1 Logistic回归模型与LightGBM模型在测试集中的ROC曲线图Fig.1 ROC plot of logistic regression model and LightGBM model in test set
表4 Logistic回归模型与LightGBM模型的效能评价Tab.4 Performance evaluation of logistic regression model and LightGBM model
子痫前期存在多因素、多机制、多通路发病的综合征性质[1],唯一的治疗方法为中断妊娠,但是可能会增加母婴早产并发症的风险。虽然已有学者将检查指标用于子痫前期的诊断预测[9-11],如可溶性血管内皮生长因子(soluble fms-like tyrosine kinase 1,sFlt-1)和胎盘生长因子(placental growth factor,PlGF)等,但其预测效果并不理想[12],且在低收入和中等收入国家推广较为困难。本研究通过分析重庆医科大学医学数据研究院大数据平台中的1609例住院孕妇的临床数据构建了预测模型,以辅助初级临床医师和基层医疗机构评估子痫前期的发生风险。
本研究筛选出子痫前期的12项影响因素,其中,球蛋白和孕周≥34周两个指标为保护因素,尿比重、尿酸、平均红细胞血红蛋白浓度等指标为危险因素。目前,患者年龄、高血压家族史、收缩压和舒张压这4项指标对子痫前期发生风险的影响已被广泛报道[13-16],而尿比重、尿酸、平均红细胞血红蛋白浓度、球蛋白、血小板分布宽度、钾离子、脉搏和孕周≥34周在子痫前期中的作用则少见报道。
有研究发现,与健康孕妇比较,子痫前期孕妇在妊娠期间更容易消耗血清免疫球蛋白,导致血清球蛋白浓度降低[17]。本研究发现,球蛋白为子痫前期的保护因素,球蛋白浓度越高,所消耗的球蛋白越少,患子痫前期的风险越小,与文献报道一致。临床上将孕周<34周定义为早发型子痫前期,孕周≥34周定义为迟发型子痫前期[18],其中早发型子痫前期不良出生结局的发生率高于迟发型子痫前期,病情更危重,发生多器官功能损伤的风险更高[19]。因此,孕周越高孕妇发生子痫前期的风险越低。
子痫前期患者可能存在肾功能受损,由于肾脏灌注和肾小球滤过率下降,尿比重增高时,尿液浓缩,尿酸清除率下降,导致尿酸增多[20]。此外,近端小管对尿酸的重吸收增加和排泄减少,使子痫前期患者尿酸进一步增多[21]。有研究报道,子痫前期患者红细胞聚集能力增强,变形能力减弱,血浆扩容不足,导致血小板黏附于血管壁,红细胞膜破坏,红细胞血红蛋白浓度增加,血红蛋白/血细胞比容比值增高,血液黏度增高[22-23]。已有研究发现,与正常妊娠晚期比较,子痫前期患者血小板计数更低,原因为血小板平均容积、血小板分布宽度升高,使得血小板消耗增加,从而导致血小板计数减少[24]。此外,据文献报道,妊娠前中期高血钾水平与严重子痫前期的发展风险较高相关[25]。妊娠期间醛固酮和孕酮可影响孕妇的血钾水平,因此,血钾水平升高可能提示醛固酮和孕酮紊乱,而醛固酮和孕酮紊乱又可能与子痫前期的发生有关[26]。美国妇产科医师学会(American College of Obstetricians and Gynecologists,ACOG)提出,心率是子痫前期的一个预警指标[27]。子痫前期孕妇可能存在心功能损害,原因包括:(1)血管阻力增加,心脏后负荷加重;(2)肾素-血管紧张素-醛固酮系统平衡被破坏,造成水钠潴留,引起血液浓缩;(3)贫血、低蛋白血症导致血浆胶体渗透压降低;(4)血浆扩容不足[28]。而脉搏与心率相关,脉搏越快则提示心率越快,孕妇患子痫前期的风险越大[29]。
随着大数据时代的来临,机器学习在医疗卫生领域的应用越来越广泛,尤其是在疾病的预测和预后评估方面[30-31]。本研究根据筛选出来的子痫前期影响因素,构建了子痫前期预测模型,以预测孕妇子痫前期的发生风险。结果显示,LightGBM模型的效果达到最优时,其AUC为0.964,敏感度为0.849,特异度为0.927。本研究LightGBM模型的AUC高于Jhee等[26]的模型(敏感度=0.603,特异度=0.991,AUC=0.924)。但是,Jhee等[26]的模型由于病例组(n=474)与对照组(n=10058)例数不平衡,导致敏感度及特异度相差过大,而本研究的LightGBM模型在敏感度及特异度相差过大的问题上有所改善,综合性能较之前的预测模型有所提高。Logistic回归模型的可解释性非常好,从特征的权重可以解释不同特征对最后结果的影响,在医疗卫生领域可用于探索疾病的相关影响因素,但因为模型简单,容易出现欠拟合、模型总体效能不高等问题。LightGBM是一种快速的、分布式的、高性能的基于决策树算法的梯度提升框架[32]。LightGBM模型采用直方图算法对数据进行分割,通过离散化的统计量遍历寻找最优分割点,减小内存,提高训练速度[33];采用有深度限制的按叶子生长策略,从当前叶子节点中找到增益值最大的节点进行分裂,并对树的深度进行限制,防止过度拟合,缩短寻找最优深度树的时间,降低了误差,提高了预测准确度[34]。
综上所述,本研究构建了基于机器学习算法的子痫前期预测模型,并利用敏感度、特异度、准确度和AUC等评价指标对构建的机器学习模型进行评价,一定程度上减少了单一评价指标带来的偏倚。同时,本研究结合了母体因素和常见的产前实验室检查指标,纳入的患者来自多个中心,样本量大且具有良好的代表性,可以有效地预测子痫前期的发生风险,对临床上孕妇子痫前期的早期识别有一定的辅助作用,具有潜在的临床价值。
本研究仍存在一些不足之处:(1)数据均来源于重庆地区,可能存在选择偏倚,需要进行外部验证以进一步评估模型的效能;(2)本文构建的预测模型综合效能较高,包含了12项指标,虽然均为易于获得的常规实验室检查指标,但指标数量较多,在临床推广应用有一定困难;(3)研究中部分指标的缺失率过大,如BMI是孕产妇产检的重要指标,但在本研究中由于该指标缺失率过大而未纳入模型中,重要指标的缺失可能会对模型的效能产生一些影响。因此,未来仍需进一步论证该指标的缺失是否会对预测结果有较大影响。