基于随机森林的妊娠糖尿病患者产后糖代谢异常风险的预测模型

2023-06-19 02:22孟敏敏耿晋莹李欢欢张岩波
山西医科大学学报 2023年5期
关键词:母乳喂养空腹产后

孟敏敏,韩 晶,耿晋莹,李欢欢,杨 弘,李 靓,张岩波#,王 彦

(1山西医科大学公共卫生学院卫生统计学教研室,太原 030001;2山西医科大学第一临床医学院内分泌科;3山西医科大学第一医院内分泌科;*通讯作者,E-mail:wyroad@126.com;#共同通讯作者,E-mail:sxmuzyb@126.com)

妊娠糖尿病(gestational diabetes mellitus,GDM)是指妊娠前糖代谢正常,妊娠期间发生糖代谢异常但血糖未达到显性糖尿病的水平,是一种常见的产科疾病[1]。有数据显示,我国妊娠糖尿病患病率逐年增加并且该疾病会对孕妇、胎儿、新生儿产生各种不利影响。妊娠糖尿病患者的产后血糖大多数可以恢复正常,但也有小部分患者会发生糖耐量异常甚至转变为2型糖尿病[2]。产后糖代谢异常会对产妇造成短期或长期的影响如发生各种代谢性疾病,包括心血管疾病、高血压、高血脂、肥胖等。因此,分析患者产后糖代谢异常的高危因素并对高危因素提前进行管控,在一定程度上可以预防糖尿病的发生、发展且对孕妇、胎儿、新生儿的健康都有很重要的临床意义[3]。近年来,机器学习广泛应用于医疗卫生领域,在疾病诊断和预测等方面具有一定的优势,因此,本研究拟利用多因素Logistic回归和随机森林算法,通过队列研究数据构建妊娠糖尿病患者产后糖代谢异常的风险预测模型,以期为临床实践中妊娠糖尿病患者产后糖代谢异常的风险评估提供数据指导,便于尽早发现病情,开展临床治疗。

1 资料与方法

1.1 研究对象

本研究基于山西医科大学第一医院产科分娩的妊娠糖尿病患者队列研究,该队列于2021年8月开始,共纳入妊娠糖尿病患者207例。每位患者产后6周进行随访,随访结局事件为产后6周血糖情况。

1.2 相关定义

妊娠糖尿病(GDM)诊断标准:妊娠24~28周行75 g口服葡萄糖耐量试验(OGTT),空腹、口服葡萄糖后1 h,2 h血糖分别为5.1~6.9 mmol/L,≥10.0 mmol/L,8.5~11.0 mmol/L,任何一个时间点血糖值达到上述标准即诊断为GDM。

产后血糖异常包含以下3种情况:①糖尿病:空腹血糖≥7.0 mmol/L和(或)餐后2 h血糖≥11.1 mmol/L和(或)糖化血红蛋白≥6.5%;②葡萄糖耐量减低:空腹血糖<6.1 mmol/L,餐后2 h血糖7.8~11.1 mmol/L;③空腹血糖受损:空腹血糖6.1~7.0 mmol/L同时餐后2 h血糖<7.8 mmol/L。

孕前体质指数(kg/m2)=孕前体质量(kg)/身高(m)2;产时体质指数(kg/m2)=产时体质量/身高2;孕期体质量增加值(kg)=产时体质量(kg)-孕前体质量(kg)。糖尿病家族史:患者的直系亲属患有糖尿病如父母和兄弟姐妹;妊娠糖尿病史:前几次生产时就曾患有妊娠糖尿病。合并症:妊娠的同时患有子痫前期、多囊卵巢综合征、妊娠期高血压、高脂血症、肥胖症、亚临床甲减等代谢性疾病。

1.3 统计方法

1.3.2 多因素Logistic回归分析 利用逐步回归法筛选变量,变量的入选标准为P<0.05,采用极大似然法构建基于Logistic回归的妊娠糖尿病患者产后血糖异常的风险预测模型。

1.3.3 随机森林算法 随机森林利用Bootstrap抽样法,从训练集中有放回地随机抽取n个样本,生成有差异的新子集;再根据n个训练子集建立相应的决策树。本研究属于分类问题,应结合多棵树的分类结果,利用投票法将最高得票的类别用于最终的判断结果[4,5]。

1.4 模型性能评价

妊娠糖尿病患者产后血糖异常风险预测模型的效能评价指标包括准确率、精确度、召回率、F1得分和受试者工作特征曲线下面积(AUC),AUC越大,模型的预测效能更好。

2 结果

2.1 一般情况

本次研究共纳入207例,产后血糖异常患者41例,产后血糖正常患者166例,产后血糖异常发生率为19.8%。根据患者产后6周随访结果即血糖是否正常分两组,分别描述研究对象基线特征,并分别比较两组间每个特征是否有统计学差异。研究纳入的特征有:患者年龄、孕次、产次、流产史、孕晚期宫高及腹围、孕前体质指数(孕前BMI)、产时体质指数(产时BMI)、孕期体质量增加值、妊娠糖尿病(GDM)诊断孕周、产妇分娩周数;诊断GDM时空腹血糖(0 h GLU)、餐后1 h血糖(1 h GLU)、餐后2 h血糖(2 h GLU);孕晚期白细胞、红细胞、血红蛋白、血小板计数、游离三碘甲状腺原氨酸(FT3)、游离甲状腺素(FT4)、促甲状腺激素(TSH)、糖化血红蛋白(HbA1c)及D-二聚体;是否有合并症、孕期是否采用胰岛素治疗、是否母乳喂养、是否有糖尿病家族史、是否有妊娠糖尿病史、是否有流产史。纳入的所有特征中分类变量的赋值情况见表1,患者基本信息见表2。

表1 纳入的特征中分类变量赋值情况

表2 研究对象基本情况

2.2 随机森林算法

2.2.1 变量重要性排序 用训练集构建基于随机森林算法的妊娠糖尿病患者产后糖代谢异常的风险预测模型,得到变量重要性排序依次为:0 h GLU、是否母乳喂养、GDM诊断孕周、孕前BMI、产时BMI、HbA1c、FT3、孕期体质量增加值、血小板计数、2 h GLU、1 h GLU、红细胞、D-二聚体、年龄、FT4、白细胞、血红蛋白、腹围、TSH、孕次、分娩周数、宫高、是否胰岛素治疗、产次、流产史、GDM史、有无合并症、糖尿病家族史(见图1)。

图1 产后糖代谢异常预测模型的变量重要性排序

2.2.2 降维 根据变量重要性排序进行逐步随机森林分析。结果显示,变量数为13时袋外数据错误率最低(见图2)。故将重要性排名前13的变量纳入随机森林算法和多因素Logistic回归中建立预测模型。

n_features为进入模型的变量个数;OOB error rate为袋外数据错误率

2.3 多因素Logistic回归分析结果

以随机森林筛选出的0 h GLU、是否母乳喂养、GDM诊断孕周、孕前BMI、产时BMI、HbA1c、FT3、孕期体质量增加值、血小板计数、2 h GLU、1 h GLU、红细胞、D-二聚体13个因素作为自变量,产后糖代谢是否异常为因变量进行多因素Logistic回归分析,以α入=0.05和α出=0.1筛选变量。结果显示,GLU(0 h)、FT3、GDM诊断孕周、是否母乳喂养有统计学意义(P<0.05,见表3)。

表3 产后糖代谢异常的多因素Logistic回归分析结果

2.4 随机森林模型结果

随机森林预测模型十折交叉验证结果显示,当随机树数量为8,树的最大深度为3时能够建立最优模型;诊断GDM时空腹血糖、FT3、GDM诊断孕周对妊娠糖尿病患者产后血糖情况的影响最大,产时BMI、是否母乳喂养、孕期体质量增加值对产后糖代谢也有一定的影响。

2.5 多因素Logistic回归和随机森林模型的结果比较

两种模型的具体对比结果见表4,可以看出随机森林模型的各个评价指标都要优于多因素Logistic回归模型。两个模型测试集的ROC曲线图见图3。

图3 随机森林和多因素Logistic回归测试集ROC曲线

表4 随机森林和多因素Logistic回归分析模型比较

3 讨论

随机森林是Leo Breiman于2001年提出的一种智能化机器学习算法,对数据特征类型没有特殊的要求[5]。与常规的多因素Logistic回归预测模型相比,随机森林算法具有高度并行化,不容易过拟合,对部分特征缺失不敏感,抗噪能力强等优势[6,7],即便是对于复杂的数据,也能在比较高的预测精度下给出各个特征对因变量的重要性评分,也正因如此,随机森林算法已被广泛应用于临床研究尤其是各种疾病的风险评估和影响因素探索等方面。但是,随机森林模型和多因素Logistic回归相比也有一定的不足之处,如多因素Logistic回归不仅能得出与因变量相关的重要特征,而且能够对各个特征的作用方向及作用程度做出更直观的解释。本研究构建的妊娠糖尿病患者产后血糖异常风险预测模型中,随机森林模型预测的准确率为0.890,精确度为0.830,召回率为0.800,F1得分为0.810,AUC为0.934;多因素Logistic回归模型预测的准确率为0.870,精确度为0.820,召回率为0.730,F1得分为0.760,AUC为0.908,可以看出随机森林模型的各个评价指标都要优于多因素Logistic回归模型。桑祎莹等[8]构建了诊断糖尿病周围神经病变的随机森林和Logistic回归模型,发现随机森林的预测效能要高于Logistic回归模型,两个预测模型的AUC值分别为0.963和0.882;梁冰倩等[9]比较了随机森林和Logistic回归在高尿酸血症预测中的效能,结果表明,随机森林预测模型的AUC值为0.759,Logistic回归模型的AUC值为0.658。本研究结论与以上研究一致,均表明随机森林模型预测效果要优于多因素Logistic回归模型。

妊娠糖尿病患者是发展为2型糖尿病的高危人群,有研究表明,对产后血糖异常程度较低的患者提前进行干预能够预防远期糖尿病的发生,突出强调了产后血糖筛查的必要性[10]。但在随访过程中,我们发现部分患者的产后血糖筛查依从性不高,说明患者没有充分认识到妊娠糖尿病的远期不利影响,这也突出了本研究的重要性。本研究能够为产后糖代谢异常的高危人群筛选提供一定的借鉴作用,临床人员可以根据研究结果对重点人群进行健康宣教,让患者深刻意识到产后血糖筛查的重要性并且行动起来,在一定程度上预防产后糖代谢异常甚至糖尿病的发生。

本研究中多因素Logistic回归发现,诊断GDM时空腹血糖高、诊断孕周早、孕晚期FT3较高以及非母乳喂养与产后糖代谢异常的发生相关。空腹血糖在某种程度上反映了胰岛素抵抗因子的水平,正常孕妇的空腹血糖较低,若孕期空腹血糖水平较高,则说明机体胰岛素抵抗程度严重,产后糖代谢异常甚至发展为糖尿病的机会更大。Kim等[11]在对混杂因素调整后,发现妊娠期间空腹血糖值是产后糖耐量异常最有力的预测因子;Damm等[12]的研究也证明,诊断GDM时患者空腹血糖水平高是妊娠糖尿病患者晚期发展为糖尿病的独立预测因素;除此之外,西班牙的一项研究[13]也指出,诊断GDM时OGTT的4个异常血糖值是产后糖代谢异常甚至糖尿病的最强预测因子。诊断孕周越早,说明患者胰岛素抵抗程度更加严重,糖代谢异常程度更高,因此产后4~12周血糖异常机会更大,这与吴连方等[14]和孙伟杰等[15]的研究结果一致。有研究表明母乳喂养可帮助GDM患者预防产后糖代谢异常,母乳喂养的时间越长,GDM患者产后糖代谢异常的比率越低[16]。这可能是因为当女性母乳喂养时,每天大约50 g的葡萄糖被用于产奶过程中,从而导致相对于非母乳喂养患者,血糖更容易降低[17]。更加具有临床意义的是,母乳喂养会增强新生儿抵抗力,促进新生儿发育;同时可以降低产妇发生乳腺癌、子宫癌以及各种代谢性疾病的风险。从随机森林特征重要性排序可以看出,孕前BMI和产时BMI均与产后血糖异常相关,这与胡可军[18]的报道相一致。一方面,BMI越高,机体越容易发生脂代谢紊乱,进而导致胰岛素抵抗程度增加,产后糖代谢异常的概率增大;另一方面,BMI越高,说明机体的脂肪储备越多,脂肪能够分泌与胰岛素抵抗指数相关的瘦素,血清瘦素增加,胰岛素抵抗程度也会随之增加。糖化血红蛋白能够反应近2~3个月的血糖水平,毫无疑问,糖化血红蛋白值越高,产后糖代谢异常的几率更大,胥华猛等[19]对这一问题做了详细的阐述。甲状腺激素也与产后糖代谢异常有关,是因为甲状腺激素具有升高血糖的作用,它能够加速小肠黏膜对葡萄糖的吸收;促进肝糖原分解;促进肝脏糖异生作用;增强肾上腺素、胰高血糖素、皮质醇和生长激素的升糖效应。在Tang等[20]的研究中,发现妊娠早期FT3水平高是产后糖代谢异常的危险因素,而本研究还得出孕晚期FT3水平高是产后糖代谢异常的危险因素,造成这种差异的原因可能是两个研究纳入的自变量不同。

综上所述,本研究得出诊断GDM时空腹血糖高,非母乳喂养,诊断孕周早等是妊娠糖尿病患者产后糖代谢异常的危险因素,我们应对重点人群进行健康宣教,提高妊娠糖尿病患者产后血糖筛查的依从性,必要时采取针对性干预措施,在一定程度上可以降低产后糖代谢异常的发生率。除此之外,通过运用数据挖掘的算法来建立妊娠糖尿病患者产后糖代谢异常的风险预测模型,是大数据时代医学研究方面的一个热点,我们要好好利用起来,使其在疾病风险预测中发挥更大的临床作用。

猜你喜欢
母乳喂养空腹产后
采血为何要空腹
空腹运动,瘦得更快?
探讨子宫压迫缝合术在产后出血治疗中的作用
产后出血并发症的输血治疗及预后
产前宜凉,产后宜温
我用了20天追成全母乳喂养
母乳喂养 好处多多
林姗:母乳喂养是幸福的
空腹喝水
爱自己从产后护理开始