基于深度学习网络的妊娠期糖尿病预测模型的研究

2025-03-05 00:00:00杨正孙超周逢仓
电脑知识与技术 2025年3期
关键词:深度神经网络妊娠期糖尿病深度学习

关键词:深度学习;妊娠期糖尿病;深度神经网络

中图分类号:TP393 文献标识码:A

文章编号:1009-3044(2025)03-0031-03 开放科学(资源服务) 标识码(OSID) :

0引言

妊娠期糖尿病是影响母婴健康的重要疾病之一,早期预测和干预能够有效降低疾病风险。传统妊娠期糖尿病预测方法受到数据处理复杂性与模型预测准确性的限制,导致无法准确预测疾病,进而对母婴健康造成一定的威胁。深度学习模型具有强大的学习能力,能够自动提取数据中的有用信息,发现影响妊娠期糖尿病发生的潜在因素。通过构建深度学习网络模型,可以为妊娠期糖尿病预测提供一种更加准确、可靠的方法,有助于早期发现和管理妊娠期糖尿病,提高医疗资源的利用率。

1 深度神经网络理论与技术分析

1.1 孤立森林算法

孤立森林算法是一种适用于大数据集的高效异常检测算法,主要基于集成学习思想,通过构建多棵孤立树来识别数据集中的异常值[1]。与传统异常检测算法相比,孤立森林算法无须对数据集进行标记,具有良好的泛化能力和实时性能[2]。

此算法的计算步骤如下:

本点x是否为异常数据。

1.2 特征选择相关技术

1) XGBoost算法

XGBoost算法是优化算法的一种,主要基于梯度提升决策树,主要目的为实现高效、灵活、便携的机器学习解决方案,通过对弱分类器进行加权组合,不断迭代以提升模型的预测性能[3]。XGBoost算法的主要计算原理为,在每一轮迭代中根据上一轮的预测结果计算残差,并针对这些残差训练新的决策树模型,逐步纠正之前的错误,不断提升模型精度。

2) IV值

IV值是信息论当中的一种概念,可衡量一个特征对目标变量的预测能力,IV值越大,特征对目标变量预测能力越强,越有可能成为影响模型性能的关键因素[4]。IV值主要以信息增益思想作为基础,通过对比特征在存在与否的两种情况下目标变量分布变化评估特征的预测能力[5]。

2 数据收集与预处理

2.1 数据来源与收集方法

本次研究妊娠期糖尿病预测模型的研究数据主要来自于各大医疗机构的电子病历系统,并从公共卫生机构、实验室以及相关合作项目中获取了部分数据,见表1。

该数据集综合了体检数据和基因数据,为妊娠期糖尿病预测模型研究提供了数据支持。其中,体验数据详细记录了孕妇的年龄、身高、孕前体重、BMI分类、血压等重要生理指标;基因数据则深入探索了单核苷酸多态性(SNP) 对妊娠期糖尿病发生的影响。该数据集主要包含1200个样本,被划分为训练集和测试集,每个样本均具备84个特征属性,其中体检特征有28个,SNP特征有55个,用于标识的id特征有1个。每种特征属性均包括连续型和离散型数据,为模型构建提供了丰富的信息支持。在数据集中,主要采用二元标签区分患者的健康状态,0标签用于健康的患者,1标签则对应患病的患者。通过对数据集的深入分析发现,无论是哪种状况的患者,都呈现出均衡分布的状态,可有效避免模型在训练中出现偏差,提升模型预测性能。数据集还充分展示了妊娠期糖尿病在孕妇中的分布情况,其中标签值为0的样本个数为634 个,标签值为1的样本个数为566个,表明本次收集的样本中患病和未患病孕妇的比例相近,表明妊娠期糖尿病在现实生活中具有普遍性,对模型的泛化能力提出了较高要求。

2.2 数据清洗与标准化处理

数据清洗的主要目的是去除和修正数据中的异常值、重复值和缺失值,具体步骤如下所示。

1) 通过填充平均值、中位数或使用机器学习算法等方式进行预测填充,识别并处理数据中的缺失值。

2) 对重复的数据进行去重处理,确保每一条数据均为唯一的。

3) 检测并处理异常值,异常值可能由于数据录入错误或设备故障等原因所导致,可通过设定阈值或使用统计方法对其进行识别和修正。

2.3 特征选择与提取

经过数据清洗与标准化处理后,得到包含73个特征属性的数据集,其中包括23个体验特征和50个基因SNP特征。部分特征可能直接影响模型构建和实验结果的准确性,而另一部分则会影响实验结果[6]。为有效降低数据对实验结果的影响,需进行特征选择,以筛选出真正有价值的特征,提高模型的性能与可解释性。在进行特征选择过程中,需系统分析SNP 特征与患病率之间的关系。本次研究工作首先利用XGBoost算法进行深度挖掘,通过模型训练过程中自动计算得到的特征重要性评分,识别出对预测目标具有影响力的特征子集,并在此基础上进一步引入IV算法进行补充。针对SNP特征,采用单变量分析IV值进行特征选择,该方法可直观反映特征与目标变量之间的关联程度,从而更好地判断哪些SNP特征能够预测妊娠期糖尿病。

1) 利用XGBoost模型优化特征筛选:在构建预测妊娠期糖尿病的模型过程中,借助XGBoost的强大功能,特别是XGBClassifier组件,与事先确定的23项体检指标进行深入分析,以明确哪些特征在预测结果时最具有影响力。通过算法计算得出每个特征的权重,并对其进行排名。根据分析结果,产次和BMI分类这两个特征的权重低于10,表明这两个特征在预测妊娠期糖尿病时贡献相对较少。为进一步验证这一结果,本次研究通过查阅相关医疗资料对这两个特征进行深入的医学分析,经过综合考量后决定在后续模型构建中去掉这两个特征[7]。经过筛选,本次研究选择了权重值在110以上的特征,经过XGBoost算法筛选后保留了8个最具影响力的特征作为构建妊娠期糖尿病预测模型的关键输入,主要特征包括胰岛素抵抗指数、甘油三酯、超敏C-反应蛋白、白细胞、年龄、孕前BMI、高密度脂蛋白和载脂蛋白A1。

2) 利用IV值优化筛选:通过使用IV值来选择特征,该值可以量化每个SNP特征对目标变量的预测能力,以筛选出对模型性能具有显著提升作用的特征。IV值在计算时会对每个SNP特征的各个取值进行划分,计算每个取值的WOE值,并将其转化为IV值,最终取各个IV值的和作为总IV值[8]。当IV值lt;0.1时,表明该特征的预测能力较弱,对模型贡献有限;当IV值gt;0.5时,表明该特征的预测能力可疑,可能包含噪声或与模型预测目标不相关的信息。因此,在进行特征筛选时,需选取IV值在0.1~0.5之间的SNP特征,以确保所选特征具有足够的预测能力。根据表2可知,经过IV值计算后,本次研究筛选出4个SNP特征,分别为SNP11、SNP34、SNP37和SNP53。这4个特征的IV 值均落在0.1~0.5的范围内,在模型预测中具有适中的预测能力,是构建有效预测模型的关键特征。

3深度学习模型构建

3.1深度学习网络结构设计

建模结构设计包括数据收集、数据清洗与预处理、特征选择、模型验证与测试,以及性能评估与优化。

3.2 模型性能评估指标

评价指标的主要作用是评估模型性能的优劣,在分类任务中可以帮助判断模型对标签预测的准确程度,其中优秀模型所生成的预测结果大多数为正确的[9]。在医学诊断领域,常用的评价指标包括准确率、灵敏度、特异度、精准率以及F1值等。

4 实验结果分析

采用XGBoost算法和IV值筛选出12个对预测任务极为重要的特征属性,将其作为模型训练的新输入数据。在模型训练过程中,共划分了包含1000个样本的训练集,以及由200个样本组成的独立测试集,进行了详尽的模型性能评估。为了保证结果的稳健性,实施了10折交叉验证策略。在进行了共计100次的训练后,最终观察到模型在测试集上的准确率稳定在80%左右。

为有效验证特征选择方法的有效性,本次实验比较了不同特征选择算法下模型的性能。除混合使用XGBoost算法和IV值外,本次实验还尝试应用主成分分析(PCA) 和单独IV值进行特征选择,结果见表3。

根据表3可知,采用XGBoost与IV值混合特征选择策略的XGBoost+IV-BNDNN 模型,凭借82.05% 的准确率显著优于其他方法。

5结论

基于深度学习网络的妊娠期糖尿病预测模型研究,成功构建了高效且准确的预测模型。通过精细的模型设计和优化,充分利用妊娠期妇女的临床数据,有效识别糖尿病风险因素。根据实验结果,模型的预测准确率较高,可为妊娠期糖尿病的早期预警和干预提供有力的技术支持。

猜你喜欢
深度神经网络妊娠期糖尿病深度学习
试论基于深度神经网络的汽车车型识别问题
深度神经网络的发展现状
循证护理在妊娠期糖尿病护理中的作用探讨
妊娠期糖尿病的临床干预对妊娠结局的影响
农村育龄妇女妊娠期糖尿病影响因素的研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
软件导刊(2016年9期)2016-11-07 22:20:49
基于深度神经网络的身份识别研究
基于深度卷积网络的人脸年龄分析算法与实现
软件工程(2016年8期)2016-10-25 15:47:34