基于多层感知神经网络的糖尿病并发症预测研究

2018-11-17 01:06刘迷迷蔡永铭
软件 2018年10期
关键词:尿常规糖化生化

刘迷迷,蔡永铭



基于多层感知神经网络的糖尿病并发症预测研究

刘迷迷1,蔡永铭2,3*

(1. 广东药科大学 公共卫生学院,广东 广州 510006;2. 广东药科大学 医药信息工程学院,广东 广州 510006; 3. 广东省中医药精准医学大数据工程技术研究中心,广东 广州 510006)

糖尿病并发症患者的死亡率高于仅患糖尿病患者的死亡率,预测糖尿病并发症有重要意义,以辅助临床早发现和早治疗糖尿病并发症,降低糖尿病患者死于并发症的风险。本研究目的是根据糖尿病患者的尿常规检查、生化检查和糖化检查信息,构建预测糖尿病并发症的多层感知神经网络(Multilayer Perceptron,MLP)模型,并筛选对糖尿病并发症预测影响较大的指标,以期提高糖尿病并发症的诊断筛查。依据《实用内科学》中关于糖尿病及其并发症的诊断术语规范诊断结果的糖尿病并发症种类。分别以尿常规检查、生化检查和糖化检查的各项指标为自变量,以糖尿病并发症种类为因变量,应用MLP算法建立糖尿病并发症预测模型,并以Boosting方法提高MLP模型预测准确率,同时与统计模型Logistic回归对比分析。MLP模型筛选出对糖尿病并发症预测影响较大的4项尿常规和6项生化检查指标,其中影响最大的是患者的年龄。尿常规检查和生化检查的MLP模型准确率较高,分别为87.56%、67.94%,且收益图曲线上凸明显,接近理想曲线。糖化信息的MLP模型准确率低仅39.31%,收益图曲线呈锯齿状上升,远离理想曲线。Logistic回归模型的准确率都较低,收益图曲线均远离理想曲线。基于糖尿病患者的尿常规检查、生化检查和糖化检查等信息,构建的尿常规检查和生化检查的MLP模型预测效果较好,并筛选出对糖尿病并发症预测影响较大指标,结果可用于辅助临床医生优化诊断和治疗糖尿病并发症。MLP模型比Logistic回归模型准确率更高、收益更好,更适用于糖尿病并发症的预测。

糖尿病;并发症;多层感知神经网络;MLP;Logistic回归

0 引言

糖尿病是目前影响全球人类健康的最重要的慢性非传染性疾病之一,据国际糖尿病联盟(IDF)统计,2014年全球糖尿病患者人数达3.87亿,预计到2035年全球糖尿病患者人数将增长55%,接近6亿[1]。糖尿病病程长,是目前医学界公认并发症最多的疾病,不仅给患者自身肉体和精神带来伤害,使患者寿命缩短,还给患者家庭、社会和国家带来沉重的经济负担。许多研究发现,糖尿病并发症患者的死亡率明显比只患糖尿病患者的死亡率高[2]。因此,对于糖尿病并发症的预测研究具有重要意义,以实现并发症的早预防、早发现和早治疗,协助临床医生优化诊断和治疗,从而降低糖尿病并发症的死亡率。本研究拟根据糖尿病患者的尿常规检查、生化检查和糖化检查等信息预测糖尿病并发症,构建糖尿病并发症的多层感知神经网络(Multilayer Perceptron,MLP)模型。MLP是一种模式分类的神经网络模型,与单层感知神经网络相比,MLP可解决复杂线性不可分的多分类问题,适用于医疗数据分析,例如,在肝硬化、高血压等疾病的预测研究中效果甚好[3-5]。同时本研究利用MLP计算各检查指标对预测糖尿病并发症的重要性,筛选出对糖尿病并发症预测影响较大的指标,在一定程度上辅助临床决策。对比MLP和传统Logistic回归两种模型对糖尿病并发症的预测效果。

1 资料和方法

1.1 资料来源

本研究资料来自于国家临床医学科学数据中心提供的《糖尿病数据集》,利用其中的尿常规信息表、生化信息表和糖化信息表。共有399例糖尿病患者的尿常规检查资料,499例糖尿病患者的生化检查资料和443例糖尿病患者的糖化检查资料,三个信息表包含患者性别、年龄和各检查对应的众多指标。

对尿常规检查、生化检查和糖化检查的各项指标进行数据清洗、预处理和纠正非法值:删除主题词、申请序号、就诊时间等无关或全部为空值的列数据;分类型检查指标规范类标号;删除糖尿病并发症诊断结果为空值或“待查”的患者数据;删除检查指标值为非法值的患者数据;糖尿病并发症诊断若有多种结果,为了充分揭示原始数据信息,复制该例患者数据,确保每例患者数据只有一种诊断结果。经上述预处理后,402例糖尿病患者尿常规检查的各项指标定义及赋值见表1,524例糖尿病患者生化检查的各项指标定义及赋值见表2,496例糖尿病患者糖化检测的各项指标定义及赋值见表3。依据《实用内科学》中关于糖尿病及其并发症的诊断术语对尿常规检查、生化检查和糖化检查的诊断结果进行规范,本研究不区分1型和2型糖尿病,规范为糖尿病,规范后尿常规检查、生化检查和糖化检查的诊断结果分别有14种、17种和 14种。

1.2 方法

本研究应用MLP算法,对患者尿常规检查、生化检查和糖化检查数据分别构建糖尿病并发症预测模型。因为尿常规检查、生化检查和糖化检查的诊断结果种类较多,且各类样本量较少,创建标准的MLP模型预测准确率很低,分别为18.91%、18.70%和33.27%,所以本研究采用Boosting方法创建整体模型,由其生成多个模型序列以提高神经网络模型预测准确率[6]。Boosting方法创建多个模型,用加权投票方式整合多个模型的预测,对样本进行整体地分类预测。防止模型过度拟合,在内部将样本划分为模型构建样本集和防止过度拟合样本集,后者作为独立的样本集,用于跟踪训练过程中的错误,以防止MLP对数据中的几率变异进行建模,本研究指定30%的样本为防止过度拟合样本集。插补缺失值,并计算各项指标对预测糖尿病并发症种类的重要性。按以上参数设置对MLP模型进行训练。

表1 尿常规检查的各项指标定义及赋值

Tab.1 Definition and assignment of indicators of urinalyses

表2 生化检查的各项指标定义及赋值

Tab.2 Definition and assignment of indicators of biochemical examination

表3 糖化检查的各项指标定义及赋值

Tab.3 Definition and assignment of indicators of saccharification examination

根据糖尿病并发症种类随机分配样本70%训练集和30%测试集,分别用于训练和测试Logistic回归模型。因为患者尿常规检查、生化检查和糖化检查诊断结果有多个种类,所以建立多项式Logistic回归模型,并用逐步法分步构建方程,保证模型纳入的是对糖尿病并发症预测重要的指标。指定糖尿病性肺部疾病为建模的参考种类,其他参数为默认值,按以上参数设置对Logistic回归模型进行训练。最后,以分类准确率和收益图评价模型的预测效果。本研究构建和评价上述两类模型均在IBM SPSS Modeler 18.1软件中实现。

2 结果

2.1 并发症分布

按照《实用内科学》中糖尿病及其并发症的诊断术语对糖尿病患者尿常规检查、生化检查和糖化检查的诊断结果规范后,统计三类检查诊断结果的糖尿病并发症分布,见表4。糖尿病患者中,除未患并发症的患者外,糖尿病合并心脏病的患者比例最高,其次是糖尿病性肾病、肝胆疾病和高血压等。

表4 糖尿病并发症的统计分布

Tab.4 Statistical distribution of diabetic complications

2.2 指标的重要性

MLP计算各项检查指标对预测糖尿病并发症种类的重要性,按重要性降序排列,前10个指标及其重要性见表5。每个MLP模型的指标重要性之和为1.0,尿常规检查中年龄、尿蛋白、性别和尿比重是尿常规检查中对糖尿病并发症预测影响最大的4项指标。生化检查中对糖尿病并发症预测影响较大的指标有年龄、肌酐、血清白蛋白、性别、直接胆红素和总胆红素,但各指标的重要性区分度不大。糖化检查的MLP模型预测效果不佳,由该模型计算的指标重要性的参考价值可能不大。总的来看,年龄是对糖尿病并发症预测影响最大的指标。

表5 预测糖尿病并发症的重要指标

Tab.5 Important indicators for predictions of diabetic complications

2.3 模型的评价

本研究用分类准确率,即正确分类的样本例数占总的样本例数的百分比,以及收益图评价模型的分类效果,其中收益图以各模型预测糖尿病性肺部疾病的收益图为例。尿常规检查、生化检查和糖化检查的MLP模型准确率分别为87.56%、67.94%和39.31%,各MLP模型预测糖尿病性肺部疾病的收益图见图1(曲折上升的曲线即收益图曲线)。尿常规检查的MLP模型有很高的准确率,并且收益图曲线上凸明显,迅速上升达到100%收益后平稳,十分接近理想曲线,模型预测效果好。生化检查的MLP模型有较高的准确率,收益图曲线部分呈锯齿状上升,比较接近理想曲线,模型预测效果较好。糖化检查的MLP模型准确率低,收益图曲线呈锯齿状上升,远离理想曲线,模型预测效果不好。因此,尿常规检查和生化检查的MLP模型预测效果较好,可用于糖尿病并发症的预测。

尿常规检查、生化检查和糖化检查的Logistic回归模型准确率分别为24.38%、23.85%和33.06%,各模型预测糖尿病性肺部疾病的收益图见图2(曲折上升的曲线即收益图曲线)。各Logistic回归模型准确率都很低,收益图曲线呈锯齿状上升,远离理想曲线,模型预测效果很差,不适用于糖尿病并发症的预测。

图1 MLP模型预测糖尿病性肺部疾病收益图

图2 Logistic回归模型预测糖尿病性肺部疾病收益图

3 讨论

本研究用MLP分别筛选出对糖尿病并发症预测影响较大4项尿常规检查和6项生化检查指标,临床医生预测或诊断患者糖尿病并发症时可重点考虑患者的这几项指标,以便快速评估患者患某种糖尿病并发症可能。年龄是尿常规检查和生化检查MLP模型最重要的指标,医生和患者应重视年龄因素,以往的流行病学调查和回顾性分析的结果均发现年龄与糖尿病发病率密切相关[7,8]。评估糖尿病并发症的独立危险因素研究的结果显示,随着患者年龄的增长,糖尿病并发症的发生风险会随之增加[9]。

本研究采用MLP构建神经网络模型,可以处理较为复杂的关系,且预测能力好,适用于疾病预测研究。Boosting 方法产生一系列“成分模型”,其中每个模型在整个数据集上构建,在构建后续成分模型时考虑了前一成分模型的结果,逐步生成多个模型序列的整体模型,该整体模型采用组合规则对新样本进行分类预测,提高了模型的准确率[10]。

MLP等神经网络模型是模拟人类大脑处理信息方式的简化模型,通常包含输入层、隐藏层和输出层三个部分,不容易对模型进行解释。传统的统计模型更容易解释因变量与自变量之间的关系,例如Logistic回归模型,是一组用于在给定一组预测变量值的情况下推导出目标类别概率的回归方程,可以用于估计新样本属于某个类别的概率。本研究糖尿病性肺部疾病被视为基准类别,Logistic回归模型给出其他类别相对于基准类别的对数优势比,每个类别的预测概率根据这些对数优势比推导得出。但是传统的统计模型处理自变量类型多样、变量间关系复杂的问题时,效果很差,本研究使用Logistic回归模型预测糖尿病并发症的准确率和收益图不如MLP模型[11-13]。综上,本研究的目的是更准确地预测糖尿病并发症种类,模型的可解释性不是最重要的,因此建立MLP模型以获得良好的预测。

目前已用于预测糖尿病并发症的研究方法主要有Logistic回归、COX回归、支持向量机、分类与决策树模型和神经网络模型,以及结合Logistic回归等统计方法进行特征筛选再利用神经网络算法建立预测模型[14]。其中利用神经网络算法构建的糖尿病并发症预测模型准确率较高,例如BP神经网络和学习向量量化神经网络[15-16]。但未见利用针对非线性复杂多分类问题的MLP算法预测糖尿病并发症的研究,且以往的研究大多只对一种糖尿病并发症进行预测,最多的也只有7种,本研究依据《实用内科学》中关于糖尿病及其并发症的诊断术语,全面规范了糖尿病并发症的种类,然后建立模型对更多种糖尿病并发症同时预测。

4 结论

本研究根据糖尿病患者的尿常规检查、生化检查和糖化检查等信息构建糖尿病并发症预测模型,其中尿常规检查和生化检查的MLP模型预测效果较好,可用于辅助临床诊断糖尿病并发症,进而改善患者生活质量,降低糖尿病并发症死亡率。同时筛选出对糖尿病并发症预测影响较大4项尿常规检查和6项生化检查指标,影响最大的是患者的年龄,医生可重点考虑这几项指标,在一定程度上辅助临床决策,优化诊断和治疗糖尿病并发症。与传统的统计模型Logistic回归对比,MLP模型对自变量类型多样、变量间关系复杂的糖尿病并发症预测有更高的准确率和更好的收益,更适用于预测糖尿病并发症。

[1] International Diabetes Federation. IDF Diabetes Atlas Sixth editionposter update 2014[EB/OL]. http://www.Idf.Org/ diabetesatlas/update-2014. [2014-11-10].

[2] 王会奇, 何松明, 李东升. 2型糖尿病患者181例社区跟踪十年并发症和合并症及治疗情况变化分析[J]. 中国全科医学, 2012, 15(12C) : 4212-4215.

[3] 韩玲. 基于人工神经网络——多层感知器(MLP)的遥感影像分类模型[J]. 测绘通报, 2004, (9): 29-30+42.

[4] Semra I, Sadık K, Ays G. Comparison of multilayer perceptron training algorithms for portal venous doppler signals in the cirrhosis disease[J]. Expert Systems with Applications, 2006, (31): 406-413.

[5] Wang A, An N, et al. Predicting hypertension without measurement: A non-invasive, questionnaire-based approach[J]. Expert Systems with Applications, 2015, (42): 7601-7609.

[6] Schwenk H, Beng Y, et al. Boosting neural networks[J]. Neural Computation, 2000, 12( 8): 1869-1887.

[7] Chew B H, Ghazali S S, et al. Age≥60 years was aninde­pendent risk factor for diabetes-related complications despite goodcontrol of cardiovascular risk factors in patients with type 2 diabetesmellitus[J]. Exp Gerontol, 2013, 48(5): 485-491.

[8] Farshchi A, Esteghamati A, et al. The cost of diabeteschronic complications among Iranian people with type 2 diabete­smellitus[J]. J Diabetes Metab Disord, 2014, 13 (1): 42.

[9] 李伟芳, 李华, 董捷, 王鹏. 老年2型糖尿病慢性并发症发病时间及危险因素分析[J]. 中国全科医学, 2015, 18 (14): 1632 -1636.

[10] Zhou Z H, Wu J X, et al. Ensembling neural networks: Many could be better than all[J]. Artifical Intelligence, 2002, 137(1-2): 239-263.

[11] 马莉雅. 基于决策树、逻辑回归和改进神经网络的几种慢性病的危险因素分析研究(英文)[J]. 软件, 2014, 35 (12): 58-65.

[12] Kurt I, Ture M, et al. Comparing performances of logistic regression, classification and regression tree, and neural networks for predicting coronary artery disease[J]. Expert Systems with Applications, 2008, 34(1): 366-374.

[13] 田兴国, 陈江涛, 吕建秋. 基于数据挖掘的兽药质量风险预测[J]. 现代食品科技, 2017, 33(11): 212-218.

[14] 李攀. 基于神经网络的2型糖尿病并发症预测模型的研究[D]. 2016, 广州中医药大学.

[15] 崔纯纯. 基于神经网络的糖尿病并发症预测系统研究[D]. 2018, 北京交通大学.

[16] 李戈靳, 立忠. 基于学习向量量化网络建立糖尿病并发症预测模型[J]. 中国自然医学杂志, 2006, 12(8): 254-258.

Predictions of Diabetic Complications Based on MLP

LIU Mi-mi1, CAI Yong-ming2,3*

(1. School of Public Health, Guangdong Pharmaceutical University , Guangzhou, 510006, China; 2. College of Medical Information Engineering, Guangdong Pharmaceutical University, Guangzhou 510006, China; 3. Guangdong Chinese medicine big data engineering research center, Guangzhou 510006, China)

Objective The mortality of patients with diabetic complications is higher than that of patients with only diabetes, and it is of great significance to predict diabetic complications, so as to assist the early detection and early treatment of diabetic complications in clinical practice and reduce the risk of diabetes patients dying from complications. The aim of the present study was to according to the examinations information of diabetes patients, such as urinalyses, biochemical examination and saccharification examination, build multilayer perception neural networks (MLP) models for predicting the diabetic complications, and screen the important indicators for predictions of diabetic complications, to improve the diagnosis and screening of diabetic complications further. Methods The type of diabetic complications is standardized according to the diagnostic terminology of diabetes and its complications in. By the indicators of urinalyses, biochemical examination and saccharification examination as independent variables respectively, the type of diabetic complications as dependent variable, MLP algorithm was used to establish prediction models of diabetic complications, and Boosting method was applied to improve the predictive accuracy of MLP models. In addition, the MLP models were compared with the traditional statistical models (i.e., the Logistic regression models). Results The MLP models screened out four indicators of urinalyses and six indicators of biochemical examination that have great effects on prediction of diabetic complications, one of which most affected is age. The accuracy of the MLP model of urinalyses and biochemical examination was as high as 87.56% and 67.94% respectively, and in their gain charts, the practical curves were obviously convex close to the ideal curves. However, the accuracy of the saccharification information MLP model was only 39.31%, and in its gain chart the curve was jagged and away from the ideal curve. The Logistic regression models had low accuracy, and curves of those gain charts were away from the ideal curves. Conclusions The MLP models based on urinalyses and biochemical examination of diabetes patients have good prediction effects, and the examination indicators that have a great influence on the prediction of diabetic complications are screened out. These results can be used to assist clinicians in optimizing the diagnosis and treatment of diabetic complications. The MLP models have higher accuracy and better gains than the Logistic regression models, they are more suitable for the prediction of diabetic complications.

Diabetes mellitus; Complications; Multilayer perceptron; MLP; Logistic regression

TP311.5

A

10.3969/j.issn.1003-6970.2018.10.007

广东省自然科学基金项目(项目编号:2014A030313585);2016年广东省创新强校项目“广东省高校基于云计算的精准医学大数据工程技术研究中心”

刘迷迷(1993-),女,研究生,研究方向为健康信息数据挖掘。

蔡永铭(1975-),男,教授,研究方向为卫生信息系统集成、医学信息处理,中国计算机学会(CCF)会员(会员号:20517M)。

刘迷迷,蔡永铭. 基于多层感知神经网络的糖尿病并发症预测研究[J]. 软件,2018,39(10):30-35

猜你喜欢
尿常规糖化生化
阴道分泌物对尿常规临床检验结果的影响及对策
尿常规与尿沉渣对尿液检验的影响及分析
从废纸篓里生化出的一节美术课
谁是半生化人
新型糖化醪过滤工艺
甜酒曲发酵制备花生粕糖化液的研究
糖化血红蛋白测定在非糖尿病冠心病中的意义
尿常规干化学检测结果准确性及影响因素分析
对尿常规检验影响因素的研究
米酒酿造的糖化条件优化