吴晖南 陈淑娇 陈展峰 杨叶楠 曾程浩 吴莎莎 苏雪云
糖尿病是一种由异常高血糖引起的内分泌系统疾病,是全球最常见、增长最快的疾病之一。国际糖尿病联合会(International Diabetes Federation,IDF)预测2016—2045 年,糖尿病的患者数量将从4.25 亿上升至6.29 亿。我国目前已有1.63 亿成年人,患病率为11.4%,高居全球首位,其中90%为2 型糖尿病;2045 年将达到2.12 亿[1]。同时,糖尿病患者往往会并发多种疾病,这些患者每年在疾病治疗上背负着巨大的经济负担[2-4]。据许多研究报道,年龄、性别、身高、体质量、高血压、血脂等因素是糖尿病风险评分系统的传统危险因素[5-7]。这些大量且没有相对重要性的指标使临床医生在糖尿病临床风险评估上难以做出决策。因此,有必要构建一种糖尿病预测模型以帮助临床医生早期识别患者的发病风险,同时为患者提供早期治疗,以达到早发现、早治疗、减缓疾病进展、减少其并发症的目的。糖尿病预测模型的建立可以更精准地早期发现和预测糖尿病的发生[8]。早期发现有助于发现糖尿病前期患者并及时进行干预,避免发展成糖尿病;且有助于预防并发症的发生。糖尿病的各种急性或慢性并发症,会对患者的生活、心理健康和经济产生很大的影响,会严重影响患者的生活质量,缩短寿命。早期风险评估结合有效的干预措施将有助于预防糖尿病的发生、减缓糖尿病的进展。近年来,疾病风险预测模型已经被广泛应用。在人工智能的计算机科学时代,机器学习结合统计技术的应用使计算机能够在没有明确编程的情况下“学习”特定的任务[9]。日常的机器算法模型有Logistic 回归、贝叶斯网络、随机森林、XGBoost 和轻量级梯度提升术(Light gradient boosting machine,LightGBM)等[10]。本研究基于机器学习算法和群体数据,构建了一种高效的糖尿病预测模型,利用LightGBM 机器学习方法和传统的Logistic 回归方法进行模型建立,达到最精确地预测患者患糖尿病的可能性。
提取2016 年1 月—2021 年12 月石狮市某社区卫生服务中心的体检及就诊数据库。
在多种机器学习算法中,选择使用LightGBM 机器学习方法,并以传统的Logistic 方法作为对照。
1.2.1 数据集预处理
收集石狮市某社区卫生服务中心的群体数据,数据集含有165 263 行,42 个特征。对收集到的数据进行数据清洗、缺失值处理、特征选择和均值标准化处理。通过数据探索性分析(exploratory data analysis,EDA),探索特征与糖尿病之间的关系,筛选出可能最利于模型预测的特征,并对数据进行特征编码,以提高模型的预测能力。
1.2.2 模型训练和性能评估
将原数据集随机划分为训练集(80%数据)和测试集(20%数据)。训练集使用k 折交叉验证方法(k =5)交叉验证。评估模型在训练集上的性能,并对模型进行参数选择和超参数优化。测试集用于测试模型,并评估模型的准确性。使用精确度、召回率(即敏感度)、特异性通过测试集进行模型性能评估。
数据使用Kolmogorov-Smirnov(KS)方法进行正态性检验,P<0.05 为差异有统计学意义。数据由python 3.8 分析,LightGBM 基于LightGBM 库(https://github.com/microsoft/LightGBM)。合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)和NearMiss 基于imbalanced-learn 库(https://imbalanced-learn.org/stable/)。
本次用于模型训练的数据共有165 263 条,其中糖尿病患者占比仅2.4%,数据集存在正负样本不平衡的问题(图1A);因此,尝试了SMOTE 过采样和NearMiss 下采样方法以提高模型的表现,发现过采样方法效果更佳。通过确诊日期距离体检日期的天数分布直方图可以看出大部分患者在体检后3 年内确诊,很多确诊间隔<60 d,因此间隔时间短(<5 d)的数据可能更适合作为诊断模型而非预测模型(图1B)。
图1 用于模型训练的数据基本情况。A:糖尿病患者在全部模型训练数据中占比;B:确诊日期距离体检日期的天数分布直方图。
选取了20%的样本分别对两种模型进行了验证,验证样本包含48 420 名正常人,1 159 例患者。通过表1可以观察到,传统Logstic 模型综合准确率为73%,宏观精确度为53%,宏观召回率为76%,F1 值48%,针对患病群体的精确度仅为6%。而相较于传统Logistic 模型,LightGBM 模型综合准确率为97%,宏观精确度72%。宏观召回率80%,F1 值75%,针对患病群体的精确度为42%。
表1 两种模型评估结果比较(%)
因为糖尿病的发病率与年龄的增长呈正相关,为了去除年龄分层对模型结果的干扰,按照0~50 岁、51~60 岁、61~70 岁、70 岁以上进行分层,做出对应的细分小模型(表2)。但分层后模型的效果并未有显著提升。其中,年龄层越大的模型对应的性能表现越好,因为对应的样本量和患者数量越多,但表现并未超出主模型太多。因而,根据年龄进行分层并不能有效提升模型表现。
表2 各年龄层样本分布情况(例)
近年来,随着大数据时代的到来,基于机器学习的糖尿病预测模型也成为学术研究的热点[11-12]。LightGBM 模型是机器学习中的一种算法,它是基于经典的梯度提升决策树(gradient boosting decision tree,GBDT)算法的改进,旨在解决GBDT 在海量数据中遇到的问题,让GBDT 可以更好更快地被应用。近年来,LightGBM 模型广泛地应用于医学领域,如心脏病预测、脑出血相关肺炎预测、妊娠期糖尿病预测等[13-15]。LightGBM 模型比传统Logistic 模型具有一定的优势。
通过对比可以观察到,在模型存在一定的正负样本不平衡的情况下,LightGBM 模型比传统Logistic模型预测2 型糖尿病更准确。LightGBM 模型应用范围极广,曾被用于预测高危人群脑卒中风险、胆囊癌、急性肾损伤等疾病评估[16-17];也有多个研究证实了使用LightGBM 对糖尿病进行预测的优越性,但这些研究均基于皮马印第安人等国外人群样本,而没有基于我国本土人群的更为特异的LightGBM 预测模型[18-21]。通过本研究证明了LightGBM 基于本土数据集远优秀于传统Logistic 模型的糖尿病预测准确度,同时证实了LightGBM 在糖尿病预测上的广泛应用前景,表明了机器学习算法的预测准确性。
本研究基于LightGBM 模型的糖尿病预测模型,旨在通过机器学习方法提高糖尿病预测的准确性。使用社区卫生服务中心包含糖尿病患者和非糖尿病患者的大规模数据集。数据集包括患者的基本信息、生活习惯、生化指标等多个特征。在预处理阶段,本研究对数据进行了缺失值处理、异常值处理和特征缩放等操作,以确保数据质量。在训练过程中,本研究采用了交叉验证方法,以评估模型的泛化能力。同时,本研究调整了LightGBM 模型的超参数,以优化模型性能。
本研究结果显示,LightGBM 模型的糖尿病预测模型的综合准确率、宏观准确度、宏观召回率、F1 值都高于Logistic 模型,可能因为收集的大数据库大多为不平衡标本,Logistic 模型处于劣势。针对患病群体的精确度在Logistic 模型只有6%,而LightGBM 模型可以达到42%,而且随着后续机器继续学习,精确度还会逐渐提升。考虑到糖尿病发病与年龄因素有明确的正相关,为排除年龄对预测模型的影响,本研究按照0~50 岁、51~60 岁、61~70 岁、70 岁以上4 个年龄段进行分层,做出对应的细分小模型。分层后重建模型,但模型的效果并未有显著提升。虽然,年龄层越大的模型对应的性能表现越好,因为对应的样本量和患者数量越多,与主模型无明显差异。因此,最后模型设计未采纳年龄分层的模式。
研究基于LightGBM 模型的糖尿病预测模型,通过对临床数据中的生物特征、生活习惯、基本生化指标等因素进行分析,预测糖尿病的患病风险。结果表明,该模型具有较高的准确率,可以为医生提供更多的客观数据支持,帮助其做出更准确的诊断和治疗决策,同时也可以为患者提供个性化的健康管理建议,从而有效降低糖尿病的发病率和并发症风险,改善患者的生活质量。在未来的研究中,将继续优化模型,提高预测精度,并为临床实践提供更加有效的支持。通过实验研究,发现机器学习算法在糖尿病预测模型中具有以下优点:(1)提高预测准确性:机器学习算法可以自动处理和分析大量数据,挖掘出潜在的风险因素,从而提高模型的预测准确性。(2)优化特征选择:机器学习算法可以自动选择最重要的特征,去除无关紧要或冗余的特征,从而提高模型的泛化能力。(3)高效构建模型,可反复验证和修正:机器学习算法逻辑关系确定后可以反复进行验证和修正,而且通过数据量的逐渐增加,日趋接近真实情况。
然而,机器学习算法也存在一些局限性,如对数据质量和标注的依赖较强,需要大量的训练数据才能达到较好的性能等。此外,不同的机器学习算法可能适用于不同的数据类型和问题场景,需要根据具体情况进行选择。
综上所述,本研究利用LightGBM 和传统Logistic 算法,基于本土数据模型构建了更加具有特异性的糖尿病预测模型。首先,在对石狮市某社区卫生服务中心进行数据预处理的基础上,将处理过的数据随机划分为训练集和测试集,将测试集代入训练后的模型以验证糖尿病预测的准确性;本研究以同样的方法利用传统Logistic算法搭建模型进行疾病预测,并将两种模型的预测结果进行对比,证实了LightGBM 模型的准确性;通过试验得出,基于本土样本的LightGBM 模型特异性强,精确度高,模型解释能力强,有广阔的临床应用价值。LightGBM 算法可以得到预测精度较高的预测模型,但训练后得到的模型面临黑箱问题,其可解释性较差,即难以使医生理解其决策过程。笔者将继续对模型进行完善,并尝试使用博弈论模型的方法(shapley additive explanations,SHAP)和(local interpretable model-agnostic explanations,LIME)运用于解释模型的输出,以帮助医生理解和应用模型。后续还需进一步通过机器学习优化模型表现,并进行转化为应用模式,以帮助更多的公卫医生和临床医师进行决策。此文的研究结果也为糖尿病预测模型后期标准制定提供了借鉴内容。