曹文君,徐勇勇,谭志军,王庸晋
·论著·
基于人工神经网络模型的多个慢性病主要危险因素筛查研究
曹文君,徐勇勇,谭志军,王庸晋
目的 探讨基于人工神经网络(ANN)模型的多个慢性病主要危险因素筛查。方法 选取2008年1月—2010年12月参加北京某健康管理中心体检的年龄45岁及以上人群6 938例。采用逐步回归和遗传算法相结合的方法确定ANN输入变量,尝试构建高血压、糖尿病、冠心病及慢性病患者预测模型,并采用受试者工作特征(ROC)曲线评价预测模型的准确性。结果 6 938例体检人群中高血压患者1 665例(24.0%),糖尿病患者609例(8.8%),冠心病患者443例(6.4%)。年龄、体质指数、胸围、腰臀比、总胆固醇、高密度脂蛋白胆固醇、尿酸、性别、尿糖、高血压家族史、糖尿病家族史、心血管疾病家族史是慢性病患者的主要危险因素,其中以年龄对慢性病患病的影响最大,作用效应为25.3%。高血压、糖尿病、冠心病及慢性病ANN预测模型ROC曲线下面积分别为0.80、0.87、0.81、0.78,预测高血压、糖尿病、冠心病、患任一慢性病的准确性分别为75.1%、91.2%、93.7%、75.2%。结论 利用ANN模型筛选出多个慢性病主要危险因素,可为慢性病的有效预防提供科学依据。
人工神经网络;慢性病;危险因素
曹文君,徐勇勇,谭志军,等.基于人工神经网络模型的多个慢性病主要危险因素筛查研究[J].中国全科医学,2015,18(25)3050-3053,3058.[www.chinagp.net]
Cao WJ,Xu YY,Tan ZJ,et al.Identification of major risk factors for multiple chronic diseases based on artificial neural network[J].Chinese General Practice,2015,18(25):3050-3053,3058.
第四次国家卫生服务总调查结果显示,我国居民慢性病患病率高达20.0%,在过去10年中,平均每年新增慢性病病例1 000万[1]。国家卫生计生委2011年统计,慢性病死亡率达85%以上,是主要疾病负担[2]。《中国心血管病报告2011》显示我国心血管疾病的发病率约17.7%,多发于45岁及以上中老年人群(约占95%),其中高血压和糖尿病是心血管疾病的主要危险因素[3]。大多研究探索的是单一疾病发生的风险因素[4-5],而同时关注多种疾病的研究较少。然而,生理指标的异常通常同时与多种疾病相关。因此,筛选慢性病的共同危险因素也很重要。多个危险因素的联合作用导致了疾病的发生,通过构建慢性病预测模型有效识别高危人群,并进行针对性干预,不仅有助于疾病治疗,而且同时可避免不必要的过度治疗,提高医疗资源的利用率。另外,影响慢性病发生的危险因素并不相互独立,它们之间往往存在复杂的非线性关系。人工神经网络(artificial neural networks,ANN)可以更好地揭示这些变量间的关系,它通过计算机技术同时分析多个变量对结果变量的作用大小[6]。用神经网络进行研究分两个阶段:训练阶段和验证阶段,其中训练阶段的任务是通过输入输出数据来构建关系函数;而验证阶段则是验证训练阶段构建的函数,往往通过输入一组已知输出结果的数据作为输入数据。为此,本研究基于ANN同时构建高血压、糖尿病、冠心病及慢性病(包括高血压、糖尿病、心脑血管疾病)的预测模型,以便采取有效的干预措施。
1.1 研究对象 选取2008年1月—2010年12月参加北京某健康管理中心体检的年龄45岁及以上人群6 938例,均知情同意且自愿参加本研究。
1.2 研究方法 冠心病患者需出具二级以上医院诊断证明。糖尿病患者指符合WHO1999年糖尿病诊断标准[7],有糖尿病史,目前正在服用治疗药物者。高血压患者指有高血压史或筛查结果阳性,即收缩压≥140 mm Hg(1 mm Hg=0.133 kPa)和/或舒张压≥90 mm Hg。本研究共调查62项临床、实验室等体检指标,包括全血细胞分析、尿液常规分析、肝功能、血脂分析、肾功能等。为确定本研究中所使用的变量,分别对中、老年组各慢性病进行单变量分析,剔除P>0.25的变量[8]。
1.3 统计学方法 采用逐步回归和遗传算法相结合的方法确定ANN输入变量,尝试构建高血压、糖尿病、冠心病及慢性病患者预测模型,并采用受试者工作特征(receiver operator characteristic,ROC)曲线评价预测模型的准确性。本研究尝试构建3种不同算法的神经网络模型:包含一个隐藏层的多层神经网络(multi-layer perceptron,MLP)、概率神经网络(probabilistic neural network,PNN)和径向基函数网络(radial basis function,RBF)[6]。在评价预测模型准确性时,利用伯努利函数随机选择约70%的样本作为训练集,约30%作为验证集,为避免过度拟合,从训练集中再次抽取约20%作为测试集。最终得到训练样本3 925例(占样本总量的56.6%)、测试样本948例(占样本总量的13.7%)和验证样本2 065例(占样本总量的29.8%)。
2.1 体检人群患慢性病情况 6 938例体检人群中高血压患者1 665例(24.0%),糖尿病患者609例(8.8%),冠心病患者443例(6.4%)。其中45~59岁5 711例,包括高血压患者1 139例(19.9%),糖尿病患者417例(7.3%),冠心病患者223例(3.9%);60岁及以上1 227例,包括高血压患者526例(42.9%),糖尿病患者192例(15.6%),冠心病患者220例(17.9%),其他疾病患病率均低于5%。
2.2 筛选慢性病主要危险因素 表1中列出了以高血压、糖尿病、冠心病和慢性病为输出变量时,由逐步回归和遗传算法相结合的方法确定的ANN输入变量。与高血压相关的危险因素有:年龄、体质指数、胸围、腰臀比、空腹血糖、三酰甘油、总胆固醇、低密度脂蛋白胆固醇、白细胞计数、γ-谷氨酰转移酶、高血压家族史;与糖尿病相关的危险因素有:年龄、体脂肪率、腰臀比、收缩压、高密度脂蛋白胆固醇、胆固醇/高密度脂蛋白胆固醇(CHOL/HDLC)、中性粒细胞比例、性别、尿糖、糖尿病家族史;与冠心病相关的危险因素有:年龄、体质指数、腰臀比、三酰甘油、总胆固醇、低密度脂蛋白胆固醇、红细胞计数、尿蛋白、心血管疾病家族史、脑血管疾病家族史、高血压史、糖尿病史;与慢性病相关的危险因素有:年龄、体质指数、胸围、腰臀比、总胆固醇、高密度脂蛋白胆固醇、尿酸、性别、尿糖、高血压家族史、糖尿病家族史、心血管疾病家族史。
2.3 慢性病主要危险因素的重要性排序 本研究尝试构建3种不同算法的神经网络模型:MLP、PNN和RBF,其中以包含一个隐藏层的MLP神经网络模型拟合效果最好。图1~4分别列出不同输出变量构建的MLP神经模型的预测结果。图1展示ANN输入变量在预测高血压事件中的重要性排序,模型隐藏层包含5个节点,图中分别显示各输入变量对结果变量的效应和标准化效应,其中以年龄作用效应最大,为18.9%,其次为体质指数、低密度脂蛋白胆固醇、γ-谷氨酰转移酶等。在以糖尿病为输出结果的ANN模型中,隐藏层包含6个节点,其中以糖尿病家族史对结果的影响最大,作用效应为18.1%,其次为收缩压、腰臀比、中性粒细胞比例等(见图2)。以冠心病为输出结果的MLP模型中,隐藏层包含6个节点,其中以年龄对结果的影响最大,作用效应为31.2%,其次为总胆固醇、红细胞计数、尿蛋白等(见图3)。以是否患慢性病为结果变量,筛选合适的ANN输入变量,发现年龄对慢性病患病的影响最大,作用效应为25.3%,其次为高密度脂蛋白胆固醇、胸围、体质指数等(见图4)。所有变量对结果重要性的百分比之和为1,变量越多,各变量的重要性相对越小,所以本研究更关注的是各输入变量对结果影响的顺位。观察各输入变量,发现许多变量是共同危险因素,比如年龄、体质指数、腰臀比、家族史在预测模型中占重要位置。
2.4 危险因素预测慢性病准确性评价 ROC曲线下面积描述模型预测各慢性病的准确性。其中高血压、糖尿病、冠心病及慢性病预测模型ROC曲线下面积分别为0.80、0.87、0.81、0.78,各预测模型ROC曲线下面积均位于0.80附近,说明模型预测性良好。各慢性病MLP预测模型在预测疾病时的特异度高于灵敏度,预测高血压的准确性为75.1%,预测糖尿病的准确性为91.2%,预测冠心病的准确性为93.7%,预测患任一慢性病的准确性为75.2%。本研究中为避免数据拟合过度,分别设置了训练集、验证集和检验集,从灵敏度和特异度等指标结果可以看到,训练集与检验集结果接近,说明不存在训练集过度拟合的现象。
众所周知,人类疾病的决定因素有很多,包括不良的生活方式、家族遗传等,它们在人体内常表现为相互作用的、复杂的非线性关系,错综复杂的关系增加了研究者进行疾病评估的难度。通常,采用临床评价得到的预测规则含有较多的主观成分,结论很难统一。因此利用统计学方法进行疾病预测已成为医学领域重要课题,如最为典型的美国Framingham研究中心采用Logistic逐步回归预测受试者患冠心病的风险[9],他们的研究为疾病预测提供了更为可靠的信息。Logistic回归分析是疾病预测常用的多元统计方法,但此方法在进行参数估计时要求变量间相互独立,而许多疾病危险因素间存在着不同程度的依赖关系,这样容易造成分析结果的不稳定。ANN比较灵活,对数据要求较传统统计方法低,分析时利用大量的参数解释变量间复杂的非线性关系,且构建的模型预测性高,能较准确估计危险因素。Voss等[8]用不同的统计技术预测中年男性患冠心病的风险,文中主要比较MLP、PNN两种神经网络模型和Logistic回归模型预测疾病的准确性。通过比较ROC曲线下面积得知,构建的两种神经网络模型预测结果优于Logistic回归方法,而MLP模型又好于PNN模型[8]。此后,神经网络广泛用于各类疾病预测。Shanthi等[10]研究ANN在预测血栓栓塞病中的应用,提出一种神经网络功能模型以补充现有的诊断方法。作者采用反向传播(back propagation,BP)算法对样本进行训练,并用于预测卒中的分类。这项研究工作表明,ANN在疾病预测方面具有良好的性能,它作为卒中的预测工具可明显提高疾病诊断的准确率。Pradhan等[11]研究不同神经网络学习算法预测糖尿病的准确性。虽然ANN得到了较为广泛的应用,但是其结果解释性较Logistic回归模型差,且在进行效应分析时不能给出区间估计。因此,作者在数据分析时一定要结合数据特征选择正确的方法。
表1 高血压、糖尿病、冠心病和慢性病ANN模型输入变量的选择
注:ANN=人工神经网络,CHOL/HDLC=胆固醇/高密度脂蛋白胆固醇
注:ANN=人工神经网络
图1 ANN输入变量在预测高血压事件中的重要性排序
Figure 1 Importance ranking of ANN input variables in predicting hypertension events
图2 ANN输入变量在预测糖尿病事件中的重要性排序
Figure 2 Importance ranking of ANN input variables in predicting diabetic events
图3 ANN输入变量在预测冠心病事件中的重要性排序
Figure 3 Importance ranking of ANN input variables in predicting CHD events
注:家族史包括高血压家族史、糖尿病家族史、心血管疾病家族史
图4 ANN输入变量在预测慢性病事件中的重要性排序
Figure 4 Importance ranking of ANN input variables in predicting chronic disease events
由于中老年(≥45岁)是慢性病的主要受害人群,因此本研究尝试筛选发病率最高的3种慢性病(高血压、糖尿病、心脑血管疾病)的危险因素,同时探讨任一慢性病的危险因素,以筛选出的慢性病共同危险因素作为慢性病预测的测量指标。并通过计算ROC曲线下面积评价各慢性病预测模型的准确性,提示可通过研究中筛选出的主要危险因素对相应慢性病进行干预,以有效降低慢性病的发生。
[1]中华人民共和国国家卫生和计划生育委员会.卫生部公布第四次国家卫生服务调查主要结果[EB/OL].(2009-02-07) [2015-03-23].http://www.moh.gov.cn/mohbgt/s3582/200902/39201.shtml.
[2]王世勇.中国慢性病报告及国际慢性疾病防控最新进展[R].第六届中国健康传播大会,2011.
[3]Lim SS,Vos T,Flaxman AD,et al.A comparative risk assessment of burden of disease and injury attributable to 67 risk factors and risk factor clusters in 21 regions,1990—2010:a systematic analysis for the Global Burden of Disease Study 2010 [J].Lancet,2012,380(9859):2224-2260.
[4]Xu XQ,Xu YF,Zhu MJ,et al.Short-term prediction of the masles based on BP neural network[J].Chinese General Practice,2013,16(10):3488-3490.(in Chinese) 徐学琴,徐玉芳,朱明军,等.基于逆传播神经网络的麻疹短期发病预测研究[J].中国全科医学,2013,16(10):3488-3490.
[5]Liu YT,Mo Y,Huang SG.Diabetic cardiovascular autonomic function test comparison analysis[J].Practical Journal of Cardiac Cerebral Pneumal and Vascular Disease,2012,20(3):407-408.(in Chinese) 刘宇田,莫轶,黄思光.糖尿病心血管自主神经功能检查法比较分析[J].实用心脑肺血管病杂志,2012,20(3):407-408.
[6]张良均,曹晶,蒋世忠.神经网络实用教程[M].北京:机械工业出版社,2008:31-36.
[7]叶任高,陆再英.内科学[M].北京:人民卫生出版社,2004:787-820.
[8]Voss R,Cullen P,Schulte H,et al.Prediction of risk of coronary events in middle-aged men in the Prospective Cardiovascular Munster Study(PROCAM) using neural networks [J].Int J Epidemiol,2002,31(6):1253-1262.
[9]D′Agostino RB,Vasan RS,Pencina MJ,et al.General cardiovascular risk profile for use in primary care:the Framingham Heart Study [J].Circulation,2008,117(6):743-753.
[10]Shanthi D,Sahoo G,Saravanan N.Designing an Artificial Neural Network Model for the prediction of thrombo-embolic stroke[J].International Journals of Biometric and Bioinformatics,2009,3(1):10-18.
[11]Pradhan M,Sahu RK.Predict the onset of diabetes disease using Artificial Neural Network(ANN)[J].International Journal of Computer Science & Emerging Technologies,2011,2(2):303-311.
(本文编辑:崔沙沙)
Identification of Major Risk Factors for Multiple Chronic Diseases Based on Artificial Neural Network
CAOWen-jun,XUYong-yong,TANZhi-jun,etal.
InstituteforCardiovascularDisease,ChangzhiMedicalCollege,Changzhi046000,China
Objective To discuss the identification of major risk factors for multiple chronic diseases based on artificial neural network(ANN).Methods We enrolled 6 938 subjects aged 45 or older than 45 who received physical examination in a health management center in Beijing from January 2008 to December 2010.Stepwise regression combined with genetic algorithm was used to determine the input variables of artificial neural network(ANN).We tried to build the prediction models for hypertension,diabetes mellitus,coronary heart disease and chronic diseases and then evaluated the accuracy of these models by receiver operator characteristic(ROC) curve.Results Among 6 938 subjects,1 665(24.0%) had hypertension,609(8.8%) had diabetes mellitus,and 443(6.4%)had coronary heart disease.Age,body mass index(BMI),chest circumference,waist-hip ratio,total cholesterol,HDL-C,uric acid,gender,urine sugar,family history of hypertension,family history of diabetes mellitus and family history of cardiovascular disease are major risk factors for chronic diseases,among which age had the greatest influence on chronic diseases with an effect rate of 25.3%.Moreover,the areas under ROC curves of ANN prediction models for blood pressure,diabetes,coronary heart disease and chronic disease were 0.80,0.87,0.81 and 0.78 respectively.The accuracy rates in the prediction for hypertension,diabetes,coronary disease and chronic disease were 75.1%,91.2%,93.7% and 75.2%.Conclusion Main risk factors for multiple chronic diseases could be identified by ANN model,which could provide scientific references for effective prevention of chronic diseases.
Artificial neural network;Chronic disease;Risk factors
国家自然科学基金资助项目(81302518)
046000山西省长治市,长治医学院心血管病研究所(曹文君,王庸晋);第四军医大学军事预防医学院卫生统计学教研室(徐勇勇,谭志军)
王庸晋,046000山西省长治市,长治医学院心血管病研究所;E-mail:yongjinwang2008@sohu.com
R 195.4
A
10.3969/j.issn.1007-9572.2015.25.011
2015-05-07;
2015-07-08)