王喜丹,王晓丹,梁 丽
(1.西安交通大学第一附属医院药学部,陕西 西安 710061;2.重庆工商大学制造智能国家科技合作基地,重庆 400067)
糖尿病作为继心脑血管疾病、恶性肿瘤之后的第三大威胁人类健康的非传染型慢性疾病,其全球患者总数2011年已达3.7亿,其中80%在发展中国家,预计到2030年将达到5.5亿[1]。其中,我国作为世界上患者数量最多的国家之一,糖尿病预防和控制已成重大公共卫生问题[2]。2型糖尿病发病原因受到很多因素的影响,如遗传因素、生活方式、外界环境等。此外,糖尿病还会引发心脏病、脑血管疾病等严重并发症的发生。因此,建立2.型糖尿病患病风险的预测模型,对高危人群的患病风险进行预测,进一步做好糖尿病的预测和预警[3]。因此,对高危人群糖尿病患病风险进行预测,确定高危人群范围,可以提前做好防御措施,延缓糖尿病患病、并发症的发生。近年来,已经有Markov,Cox比例风险回归模型,神经网络[4],支持向量机[5]等模型应用于糖尿病患病风险预测。但是,这些方法也都存在不同程度的局限性,比如过度拟合、陷入局部最小值、对随机性和波动性数据不敏感、对不平衡数据预测效果不理想等问题。同时,上述提及的算法是浅层学习的算法,它们很难从高维的数据样本中学习到较为复杂的非线性关系,而深度学习是由相互联系的神经元构成的堆栈网络。它直接从低层数据出发,逐层学习到高层特定性质的学习网络,有效避免了传统的算法训练效果不佳的问题。
本文利用深度信念网络(deep belief network,DBN)对2型糖尿病的特性进行学习,采用反向传播神经网络(back propagation neural network,BPNN)建立分类器,从而对糖尿病高危人群的尽早发现和实施有效干预提供帮助,为提升人们的健康水平和生活质量做出努力。
研究对象来自于某医院体检中心数据。其中与糖尿病发病风险相关的危险因素:(1)性别;(2)年龄;(3)舒张压(mm Hg);(4)收缩压(mm);(5)甘油三酯;(6)BMI指数(kg/m2);(7)糖尿病家族史。
2型糖尿病诊断标准:①2型糖尿病诊断标准参照美国糖尿病学会(ADA)2016年12月发布的糖尿病诊疗标准:FPG<6.1 mmol/L为血糖正常(NFG);6.1≤FPG< 7.0 mmol/L为空腹血糖受损(IFG);既往有2型糖尿病史,或正在进行降糖治疗,或FPG≥7.0 mmol/L为2型糖尿病,并排除1型糖尿病、妊娠糖尿病及其他特殊类型糖尿病。收缩压低于140 mmHg,舒张压低于90 mmHg。
本研究将舒张压为0和BMI指数为0的样本去掉之后,共有729个样本。并将样本集随机分成两部分:训练集(700)和测试集(29)。建模的过程如下:(1)数据归一化处理;(2)利用MATLAB 16软件建立DBN神经网络模型;(3)建立BP神经网络模型;(4)两个模型的评估和比较,并得出结论。
典型的深度学习(DBN)是多层RBM(Restricted Boltzmann Machine,RBM)和一层BP神经网络组成的一种深层神经网络,网络训练时可通过逐层训练来实现(结构如图1所示)。本文设计使用的糖尿病患病风险预测的深度学习(DBN)模型为:与糖尿病发病风险相关的危险因素;通过重复训练,两层RBM构建的网络提取糖尿病特征信息;并且在最后一层RBM后面设置BP网络并初始化连接权值,接受最后一层RBM网络的特征输出特征变量作为BP网络的特征输入变量。最后的网络结构为网络输入层为8,2个RBM,其中2个RBM神经元单元数都为20,输出层为1。
图1 深度信念网络模型
BP神经网络就是一个不断调节网络权值的过程,在MATLAB中不断调整网络结构和调整相关参数,得到BP神经网络的输入层为8,隐含层单元数为3,输出层为1。
模型评估在相同的实验环境下选取能使分类效果和泛化能力达到最佳效果的参数来建立DBN和BP分类器,两个分类器在测试样本集上的预测结果见表1。同时为了更好的描述模型的质量,为此引入3个参数:灵敏度,特异度和约登指数。
表1 分类器测试集的预测效果
本文将深度学习(DBN)模型和BP模型应用到五年内糖尿病患病风险预测研究中,并且得到了每个分类器的预测结果。通过表1可以看到分类器的性能和质量。根据各项指标的数据可以发现,模型的分类器性能和效果都很好,准确率都在能接受范围内。相比较而言,BP神经网络的分类准确率和灵敏度较低,分别为89.66%,87.5%,而DBN模型的准确率为93.10%,灵敏度为100%,效果较好。说明DBN模型在特征学习方面有较好的能力。
本文建立的深度学习(DBN)模型和BP神经网络模型均具有较好的预测准确率,为解决个体发病预测提供了一种新方法,同时也为2型糖尿病高发风险的评估、个体化的预防及综合防治措施的制定提供了科学依据。尤其是DBN模型,在灵敏度和预测准确率方面有很大的提高。但是,由于深度学习(DBN)预测模型与其他常用的数学模型一样,作为一种数据处理方法,主要从数据上反映疾病的发展变化趋势,一旦相关参数发生变化或无法获得相应参数,也就无法作出有效预测。此外,有很多影响2型糖尿病发病的因素未被充分考虑到模型中,从而影响了结果的准确性,因此在实际应用中,还必须考虑其他因素对预测结果的影响[6]。只有预测模型与医院患者相结合,开发并运用到平台去,对数据进行更新、展示与交互,根据个体的体检数据预测糖尿病的发病风险,才可以帮助病人更好地发现和预防疾病,更多地关注糖尿病高危人群。
[1]罗森林,郭伟东,张 笈,等.基于Markov的Ⅱ型糖尿病预测技术研究[J].北京理工大学学报,2011,31(12):1414-1418.
[2]苏 萍,杨亚超,杨 洋,等.健康管理人群2型糖尿病发病风险预测模型[J].山东大学学报(医学版),2017,55(6):82-86.
[3]孙胜男,李 峥.2型糖尿病风险评估工具的研究进展[J].中华护理杂志,2009,44(9):861-864.
[4]郭奕瑞,李玉倩,王高帅,等.人工神经网络模型在2型糖尿病患病风险预测中的应用[J].郑州大学学报(医学版),2014,49(2):180-183.
[5]王 勋,陈大方.支持向量机在建立2型糖尿病预测模型中的应用[J].中国慢性病预防与控制,2010,18(6):560-562.
[6]Jack W.Smith,BS,JE Everhart,MD, MPH,and so on.Using the ADAP Learning algorithm to forecast the onset of Diabetes Mellitus[J].Proc AnnuSympComputAppl Med Care,1988:261-265.