蚌埠医学院预防医学系(233030)
宋 健 吴学森△ 张 杰 张玉媛 陈 雪
三种统计学模型在糖尿病个体患病风险预测中的应用*
蚌埠医学院预防医学系(233030)
宋 健 吴学森△张 杰 张玉媛 陈 雪
目的 探讨logistic回归、BP神经网络和决策树分析模型在预测个体2型糖尿病患病风险中的应用。方法 分别应用logistic回归、BP神经网络与决策树建立2型糖尿病预测模型,通过受试者工作特征曲线评价模型的预测效能。结果 共550名糖尿病患者和1100名非糖尿病患者纳入本次研究。logistic回归、BP神经网络和决策树分析模型的预测一致率分别为80.8%、84.1%和81.1%。3种模型ROC曲线下面积(AUC)分别为0.739、0.777和0.737。BP神经网络的AUC与logistic模型和决策树分析模型的均有统计学差异(P<0.05)。结论 BP神经网络在预测个体患2型糖尿病方面具有更好的预测效能。
2型糖尿病 logistic回归 BP神经网络 决策树分析
2型糖尿病是严重危害人类健康的重大公共卫生问题,全世界约有超过3.5亿人患有2型糖尿病[1]。中国是世界上糖尿病患病人数最多的国家,患病率高达11.6%[2]。有效地对个体进行糖尿病风险评估,可以筛选出高危人群,并通过一系列的行为和生活方式干预,减少糖尿病及相关并发症的发生。数据挖掘技术是近些年来广泛应用于医学领域的一种新的分析方法,在疾病诊断、预后、风险评估等方面具有良好的应用价值[3-5]。数据挖掘技术可以充分利用已有数据的信息,从具有重复性、多样性及不规范性等特点的复杂的医学数据中提取出有价值的信息,并为临床决策提供帮助[6-7]。其中,应用最广泛的有采用误差反向传递(back propagation,BP)学习方法的BP神经网络和决策树分析模型。本文采用慢性病社区调查数据,探讨BP神经网络与决策树分析模型在糖尿病个体风险预测中的应用价值,并与传统的logistics回归进行比较,以求寻找到2型糖尿病风险预测的最佳数学模型。
1.资料来源
本课题组于2015年7月至8月,采用横断面调查方法,选择蚌埠市龙子湖区共7个社区,以家庭为抽样单位,共收回有效问卷3077份。调查内容包括两个方面:问卷调查及体格和实验室检查。采用自行设计问卷,由经过培训的课题组成员对社区居民进行问卷调查。调查问卷信息主要包括:受访者的一般个人及家庭信息及生活行为方式;体格检查指标有身高、体重、腰围等;实验室检查指标主要包括:空腹血糖、血脂和糖化血红蛋白等。数据首先录入到Epidata软件中,采用双录入方式,并逐一核对。
2.相关变量及定义
(1)体质指数(body mass index,BMI)=体重(kg)/身高(m)2,正常值:18.5≤BMI<24,<18.5或者>24均视为不正常;(2)高血压:收缩压/舒张压≥140/90mmHg和/或已确诊为高血压者;(3)甘油三酯:正常值0.40~1.81mmol/L,超过此范围均视为不正常;(4)糖化血红蛋白:正常值小于等于6.5%,大于6.5%视为不正常;(5)腰臀比:正常值男性小于0.9,女性小于0.8;(6)吸烟:包括既往吸烟和正在吸烟的被调查者;(7)糖尿病:自报患者和新诊断患者,即无自报糖尿病史,但本次测定空腹血糖≥7.0 mmol/L者。
3.统计学分析
使用SPSS随机数功能将数据集按3:1分为训练数据和预测数据。训练数据用于计算参数和建立模型,预测数据用于评估预测效果。
(1)logistic回归:模型采用最大似然估计前进法,入选变量和剔除变量的标准分别是是P<0.05和P>0.10。
(2)BP神经网络:采用SPSS 17.0统计软件中的神经网络模块的多层感知器。输入层变量为研究所纳入的10个自变量,输出层为是否发生糖尿病,定义隐藏层数为1。
(3)决策树分析:选择卡方自动交互检测,使用分割样本进行验证,无交叉验证,树深度最大值为3。
(4)受试者工作特征曲线(receiver operator characteristic curve,ROC 曲线): 比较ROC曲线下面积(area under curve,AUC),最大者表示预测价值最佳。AUC值为0.5时,表明无诊断价值,首先要对AUC与0.5的差异进行统计学检验。AUC越接近1,价值越大。不同模型AUC的比较用统计量为Z的非参数检验。所有统计分析均由SPSS 17.0和Medcalc完成,P<0.05被认为差异具有统计学意义。
1.一般情况
共调查社区居民3077人。糖尿病患者550人,占调查对象的17.8%。按1∶2的原则在与病例生活在相同社区及工作性质相近的正常人群中选择对照,即1100名非糖尿病患者纳入此次分析中。本研究所选择对象中,女性居民占57.7%(952人)略多于男性42.3%(698人)。50岁以上人群占多数,为69.0%。文化程度普遍偏低,大专及以上人群仅有158人,占研究对象的9.6%。被调查居民中吸烟人群占29.2%。BMI和腰臀比不正常者占很大比例,分别为58.7%和77.7%。有14%的研究对象有糖尿病家族史。具体信息见表1。
表1 调查对象的一般信息
2.logistic多因素分析
将所研究变量纳入分析模型中,共有以下变量具有统计学意义,分别为年龄、BMI、糖化血红蛋白、性别、家族史、甘油三酯。结果见表2。因此建立预测方程:P=1/(1+e(2.799-0.845×年龄-0.373×BMI-0.885×家族史-2.810×糖化血红蛋白-0.588×性别-0.679×甘油三酯))。根据所建方程对预测集数据进行预测,其一致率为80.8%,ROC曲线下面积及95%CI为0.739(0.694~0.781)。
表2 糖尿病风险预测logistic多因素分析结果
3.BP神经网络分析结果
所选自变量敏感度分析结果表明对糖尿病发生影响较大的前5位因素依此是糖化血红蛋白(0.448)、年龄(0.102)、甘油三酯(0.094)、高血压(0.069)和糖尿病家族史(0.059)。预测数据集结果显示,其预测一致率为84.1%,ROC曲线下面积及95%CI为0.777(0.734~0.817)。
4.决策树分析
树的第一层为糖化血红蛋白,说明糖化血红蛋白与糖尿病关联性最强。其余进入变量依次为年龄、甘油三酯、糖尿病家族史和性别。其预测的一致率为81.1%,ROC曲线下面积及95%CI为0.737(0.692~0.779)。
5.ROC曲线面积比较
三种模型的ROC曲线下面积与0.5均有统计学差异(P<0.05)。三种模型的ROC曲线下面积两两比较结果见表3,结果显示BP神经网络模型预测的ROC曲线下面积与logistic模型(Z=2.847,P=0.0044)和决策树模型的ROC曲线下面积(Z=3.050,P=0.0023)的差异有统计学意义。而logistic模型和决策树模型的AUC(Z=0.306,P=0.7594)的差异没有统计学意义。三种模型的ROC曲线见图1。
表3 三种模型曲线下面积两两比较结果
图1 三种模型的ROC曲线
1.糖尿病及其风险预测
糖尿病不仅是威胁人类健康的重要疾病,同时也是很多严重疾病的致病因素,如冠心病、肿瘤等[8]。通过特定的数学模型进行个体糖尿病风险预测,为采取预防干预措施提供建议,有助于提高人群的健康水平和生活质量。本研究通过调查问卷所得变量,建立不同模型进行了比较,显示神经网络模型在预测上具有良好性能。糖尿病是基因与环境共同作用的结果,除了本文所列一些变量外,某些生化标志物如炎性因子、脂联素、microRNA等也与糖尿病风险有关[9],但检测这些成分耗时耗费,并不利于风险评估的快速开展。另外,芬兰等国的糖尿病评分工具,通过一些类似本文的简易的变量都实现出了较好的评价效果[9-10]。
2.BP神经网络模型
BP神经网络在医学中有着广泛的应用。徐学琴通过使用BP神经网络对全国麻疹的发病率进行了有价值的预测[11]。国外研究分别通过logistic回归和神经网络模型预测脑外伤手术术后院内死亡率,神经网络模型表现出明显的优势[12]。BP神经网络具有很多优点,比如具有较强的非线性映射能力,可以合理提取输入变量和输出变量之间的规则,并进行修改、容错等[4]。但同时BP神经网络也存在一定缺陷,比如对于样本量的问题,至今没有明确的公式。关于隐藏层数的设定,多数研究表明,当BP神经网络隐藏层数为1时,可以达到较好地反映数据规律、特征及获得较好预测效能的作用。本文作者在探讨BP神经网络在肺癌并发症预测价值时,比较了不同隐藏层数的预测效果,结果表明隐藏层数为1时获得的ROC曲线下面积最大[13],故本研究中BP神经网络隐藏层数设定为1。另外,BP神经网络无法解释某个变量的作用方向,而logistic回归却能对模型和变量具有很好的解释性。
3.决策树模型及其应用
决策树模型运算时间短,结果以树状显示简单直观,结果的分类把握度较准确。但分类属性增多情况下,会影响预测的效果[14]。决策树模型同BP神经网络模型类似,也无法判断某因素的作用方向。以往多数研究显示决策树模型在预测效能上好于logistic回归,如决策树在预测高血压患者健康素养中优于logistic回归[15]。而本文在糖尿病预测中,两种模型间效果没有统计学差异,可能与树的深度设置、剪接方法有关,需要在以后的研究中进一步探讨。
简洁并快速有效的预测糖尿病风险可以更好地提高全民健康水平。本文研究提示BMI超标、年龄偏大、男性、糖尿病家族史、糖化血红蛋白均是糖尿病的危险因素。通过数学模型,利用可快速获取的信息进行预测,是未来发展的方向。神经网络模型在预测糖尿病个体风险上有较好的效果。但在实际应用中,logistic回归对变量有直观的解释,结果容易解释。而神经网络模型和决策树模型对变量却没有很好的解释能力。所以,实际应用中也应结合各自模型的优点,以期在公共卫生实践中取得最好的利用价值。
[1]Nathan DM.Diabetes Advances in Diagnosis and Treatment.JAMA,2015,314(10):1052-1062.
[2]Lu C,Sun W.Prevalence of diabetes in Chinese adults.JAMA.2014,311(2):199-200.
[3]吴伟,郭军巧,安淑一,等.使用思维进化算法优化的神经网络建立肾综合征出血热预测模型.中国卫生统计,2016,33(1):27-31.
[4]叶华容,杨怡,林萱,等.BP神经网络在高频彩超特征诊断乳腺癌中的应用.中国卫生统计,2016,33(1):71-72.
[5]Tseng WT,Chiang WF,Liu SY,et al.The application of data mining techniques to oral cancer prognosis.J Med Syst,2015,39(5):59
[6]高明,唐顺,徐福文.医院数据挖掘平台中X-11-ARIMA预测模型的应用研究.中国卫生统计,2016,33(1):139-141.
[7]Gonzalez GH,Tahsin T,Goodale BC,et al.Recent Advances and Emerging Applications in Text and Data Mining for Biomedical Discovery.Brief Bioinform,2016,17(1):33-42.
[8]Leon BM,Maddox TM.Diabetes and cardiovascular disease:Epidemiology,biological mechanisms,treatment recommendations and future research.World J Diabetes,2015,6(13):1246-1258.
[9]张晶,金雪娥.2型糖尿病患病风险预测的研究进展.中华实用诊断与治疗杂志,2013,27(9):839-841.
[10]Wannamethee SG,Papacosta O,Whincup PH,et al.The potential for a two-stage diabetes risk algorithm combining non-laboratory-based scores with subsequent routine non-fasting blood tests:results from prospective studies in older men and women.Diabet Med,2011,28(1):23-30.
[11]徐学琴,杜进林,孙宁,等.改进的BP 神经网络模型在麻疹预测中的应用研究.中国现代医学杂,2014,24(31)52-55.
[12]Shi HY,Hwang SL,Lee KT,et al.In-hospital mortality after traumatic brain injury surgery:a nationwide population-based comparison of mortality predictors used in artificial neural network and logistic regression models.J Neurosurg,2013,118(4):746-752.
[13]宋健;logistic回归模型、神经网络模型和决策树模型在肺癌术后心肺并发症预测中的比较.安徽医科大学,2014.
[14]薛允莲.logistic回归结合决策树技术在冠心病患者住院费用组合分析中的应用.中国卫生统计,2015,32(6):988-992.
[15]李现文,李春玉,Kim M,等.决策树与logistic回归在高血压患者健康素养预测中的应用.护士进修杂志,2012,27(13):1157-1159.
(责任编辑:刘 壮)
国家自然科学基金(81373100)
△ 通信作者:吴学森,E-mail:xuesenwu@163.com