人工神经网络模型在2型糖尿病患病风险预测中的应用*

2014-12-17 07:40郭奕瑞李玉倩王高帅刘晓田张路宁张红艳王炳源王重建
郑州大学学报(医学版) 2014年2期
关键词:人工神经网络变量预测

郭奕瑞,李玉倩,王高帅,刘晓田,张路宁,张红艳,王炳源,王重建

1)郑州大学公共卫生学院流行病学教研室 郑州450001 2)郑州大学药学院临床药理学教研室 郑州450001

#通讯作者,男,1977年10月生,博士,副教授,研究方向:心血管代谢性疾病,E-mail:tjwcj2005@126.com

随着社会经济的发展、生活水平的提高,2 型糖尿病已成为严重威胁人类身心健康的重要疾病[1]。大量研究[2-3]显示,对2 型糖尿病进行社区干预是世界公认的符合成本效益的、可降低心血管发病率的有效措施。因此,研究评价个体患2 型糖尿病的风险,对其采取有效的干预措施,可延缓疾病的发生,降低危害性。人工神经网络(artificial neural network,ANN)是当前具有智能模式识别能力的工具之一,在传染病、肿瘤、高血压及相关疾病的分类和诊断中的应用已有报道[4-9],但大多数是以临床资料为基础预测个体的患病风险,而基于现场调查的资料非常有限。该研究以2 型糖尿病流行病学现场调查资料为基础,探讨ANN 在2 型糖尿病预测中的作用,并将其与当前医学领域中广泛应用的logistic 回归预测模型相比较,探讨个体患2 型糖尿病风险的最佳预测模型。

1 对象与方法

1.1 研究对象 采用横断面调查的方法,对河南省某农村社区年龄35~74 岁常住居民8 640 人进行问卷调查、体格检查及血生化指标检测。

1.2 调查内容 问卷调查:包括社会人口学特征、个人疾病史与行为危险因素等。体格检查:身高、体重、腰围、血压等。生化指标:利用葡萄糖氧化酶法测定空腹血糖(FPG)。所有调查对象均签署知情同意书。

1.3 2 型糖尿病和中心性肥胖诊断标准 ①2 型糖尿病诊断参照美国糖尿病学会(ADA)2010年诊断标准:FPG <6.1 mmol/L 为血糖正常(NFG);6.1≤FPG <7.0 mmol/L 为空腹血糖受损(IFG);既往有2型糖尿病史,或正在进行降糖治疗,或FPG≥7.0 mmol/L 为2 型糖尿病,并排除1 型糖尿病、妊娠糖尿病及其他特殊类型糖尿病。②中心性肥胖诊断标准参照2005年国际糖尿病联盟(IDF)提出的代谢综合征(MS)全球共识定义,即男性腰围≥90 cm,女性腰围≥80 cm。

1.4 训练集及检验集设置 由于ANN 模型的预测预报能力与学习样本质量及信息紧密相关,故训练集的样本量应比检验集多。该研究将8 640 份资料按照性别、年龄组指标3∶1 随机分为训练集(6 480人)与检验集(2 160 人)两部分,每组中2 型糖尿病患者与非患者的比例与原始数据保持一致。训练集用于筛选变量和建立预测模型,检验集用于模型的检验和评价。

1.5 统计学处理 使用Access 数据库软件平行双人录入数据。运用Matlab 7.1 软件编程建立ANN预测模型;采用SAS 9.1 建立二分类非条件logistic回归模型,绘制两个模型预测判别的受试者工作特征(ROC)曲线,通过ROC 曲线下面积(AUC)评价模型。

2 结果

2.1 一般人口学特征 该研究共纳入有效研究对象8 640 人,其中训练集6 480 人,检验集2 160 人。统计分析显示,训练集和检验集相关影响因素之间差异均无统计学意义(表1)。

表1 训练集和检验集研究对象人口学特征

2.2 Logistic 回归预测模型的建立 以是否患2 型糖尿病为因变量,以可能的影响因素为自变量进行2 型糖尿病的单因素和多因素logistic 回归分析,自变量赋值情况见表2。多因素分析时,以α =0.05作为选入变量的标准,α =0.1 作为剔除变量的标准,采用偏最大似然估计前进法进行逐步回归分析,最后共筛选出7 个影响因素(表3),建立了logistic回归模型。

表2 非条件logistic 回归分析自变量赋值表

表3 2 型糖尿病患病影响因素的多因素logistic 回归分析

2.3 ANN 预测模型的建立 以可能的影响因素作为输入神经元,构建ANN 预测模型。输入变量:年龄、性别、职业、文化程度、婚姻状况、人均年收入、吸烟、饮酒、体力活动、高脂饮食、蔬菜水果摄入、2 型糖尿病家族史、高血压家族史、高血压史、脉搏、脉压差、中心性肥胖(赋值情况见表2);输出变量:是否患2 型糖尿病,构造人工神经网络。其结构为:输入层含17 个神经元,隐含层19 个神经元(可调),输出层1 个神经元,对应预测变量(即是否患2 型糖尿病)。

2.4 模型预测能力的评价 见图1、表4。ANN 预测模型灵敏度、特异度、阳性预测值、阴性预测值、AUC 均优于logistic 回归预测模型。

图1 ROC 曲线A:logistic 回归;B:ANN 预测模型。

表4 Logistic 回归与ANN 预测模型预测能力评价

3 讨论

危险度评价作为流行病学的研究方法,在探索病因研究方面已得到广泛应用。Logistic 回归分析属于非线性概率模型中的一种,主要适用于因变量为分类变量的回归分析,已成为一种常用的评价疾病危险度的分析方法[10-11]。但是对慢性非传染性疾病而言,由于影响疾病状态的因素众多,作用方式复杂,以流行病学资料为基础,利用传统线性判别函数这种“刚性”方法进行疾病状态预测,就存在很大的局限性。ANN 是根据生物神经网络在结构、功能及某些基本特性方面的理论抽象、简化和模拟而构成的一种信息处理系统[12-13],该模型突破了传统的线性处理模式,避开了复杂的参数估计过程去解决一系列变量关系不能精确地用函数表达的分类与回归问题,能够为每位研究对象“量体裁衣”地给出一个特定的预测结果,从而实现有效的预测判别功能[14]。

在预测模型的评价过程中,灵敏度和特异度是其中重要的指标,较高的灵敏度和特异度预示着该模型具有较强的预测判别性能。同时,ROC 曲线是应用广泛的评价两种诊断方法、诊断水平的方法[15],ROC 曲线可直观地观察灵敏度和特异度之间的关系,AUC 越大其诊断试验的准确度越大。该研究结果显示:ANN 预测模型可获得比logistic 回归分析更好的预测效果,对于同一测试样本,其灵敏度、特异度、阳性预测值及阴性预测值均高于logistic 回归分析,研究结果与钱玲等[16]的报道相一致。

该研究证实了ANN 能够较准确地判别特定个体是否发病,可对具体的个体作出比较准确的预测,为解决个体发病预测提供了一种新方法,同时也为2 型糖尿病高发风险的评估、个体化的预防及综合防治措施的制定提供了科学依据。但是,该研究建立的预测模型与其他常用的数学模型一样,作为一种数据处理方法,主要从数据上反映疾病的发展变化趋势,一旦相关参数发生变化或无法获得相应参数,也就无法作出有效预测。此外,有很多影响2 型糖尿病发病的因素未被充分考虑到模型中,从而影响了结果的准确性,因此在实际应用中,还必须考虑其他因素对预测结果的影响。

[1]Nathan DM,Buse JB,Davidson MB,et al.Medical management of hyperglycemia in type 2 diabetes:a consensus algorithm for the initiation and adjustment of therapy:a consensus statement of the American Diabetes Association and the European Association for the Study of Diabetes[J].Diabetes Care,2009,32(1):193

[2]Whiting DR,Guariguata L,Weil C,et al.IDF diabetes atlas:global estimates of the prevalence of diabetes for 2011 and 2030[J].Diabetes Res Clin Pract,2011,94(3):311

[3]Norris SL,Kansagara D,Bougatsos C,et al.Screening adults for type 2 diabetes:a review of the evidence for the U.S.Preventive Services Task Force[J].Ann Intern Med,2008,148(11):855

[4]孙锦峰,耿云亮,郭奕瑞,等.Elman 神经网络与ARIMA 模型对流感发病率预测效果的比较[J].郑州大学学报:医学版,2013,48(5):584

[5]Sato F,Shimada Y,Selaru FM,et al.Prediction of survival in patients with esophageal carcinoma using artificial neural networks[J].Cancer,2005,103(8):1596

[6]Dumont TM,Rughani AI,Tranmer BI.Prediction of symptomatic cerebral vasospasm after aneurysmal subarachnoid hemorrhage with an artificial neural network:feasibility and comparison with logistic regression models[J].World Neurosurg,2011,75(1):57

[7]Forberg JL,Green M,Bjork J,et al.In search of the best method to predict acute coronary syndrome using only the electrocardiogram from the emergency department[J].J Electrocardiol,2009,42(1):58

[8]张矗,吴逸明,吴拥军,等.人工神经网络技术在纤维支气管镜诊断肺癌中的应用[J].郑州大学学报:医学版,2010,45(1):113

[9]Lin CC,Bai YM,Chen JY,et al.Easy and low-cost identification of metabolic syndrome in patients treated with second-generation antipsychotics:artificial neural network and logistic regression models[J].J Clin Psychiatry,2010,71(3):225

[10]Li YC,Chiu WT,Jian WS.Neural networks modeling for surgical decisions on traumatic brain injury patients[J].Int J Med Inform,2000,57(1):1

[11]Linder R,Konig IR,Weimar C,et al.Two models for outcome prediction a comparison of logistic regression and neural networks[J].Methods Inf Med,2006,45(5):536

[12]Smith AE,Nugent CD,McClean SI.Evaluation of inherent performance of intelligent medical decision support systems:utilising neural networks as an example[J].Artif Intell Med,2003,27(1):1

[13]Lin CS,Chiu JS,Hsieh MH,et al.Predicting hypotensive episodes during spinal anesthesia with the application of artificial neural networks[J].Comput Meth Prog Biomed,2008,92(2):193

[14]Wadie BS,Badawi AM,Abdelwahed M,et al.Application of artificial neural network in prediction of bladder outlet obstruction:a model based on objective,noninvasive parameters[J].Urology,2006,68(6):1211

[15]Reichlin T,Hochholzer W,Bassetti S,et al.Early diagnosis of myocardial infarction with sensitive cardiac troponin assays[J].N Engl J Med,2009,361(9):858

[16]钱玲,施侣元,程茂金.人工神经网络应用于糖尿病和糖耐量受损的个体发病预测[J].中国慢性病预防与控制,2005,13(6):277

猜你喜欢
人工神经网络变量预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
抓住不变量解题
也谈分离变量
利用人工神经网络快速计算木星系磁坐标
人工神经网络实现简单字母的识别
基于改进人工神经网络的航天器电信号分类方法
基于人工神经网络的经济预测模型