徐学琴,孙春阳,刘晓蕙,裴兰英,王瑾瑾,栗彦芳,申 杰,闫国立
手足口病 (HFMD)是由多种肠道病毒 (EV)引起的常见传染病,多发生于5岁以下婴幼儿,其临床症状主要为发热和手、足、口等部位的皮疹、疱疹,伴或不伴口腔溃疡,病情严重者可引起心肌炎、肺水肿、无菌性脑膜脑炎等致命性并发症[1]。近年来,该病已被列入丙类法定报告传染病,且发病呈逐年上升趋势[2],成为危害我国儿童健康的主要传染病,给社会、家庭带来沉重的负担[3-5]。建立HFMD的发病预测模型,通过预测该病在未来时间的发病数据,掌握HFMD的流行规律,及时识别其发生发展趋势,对于制定有效的、有针对性的防控措施,控制HFMD的流行状况,维护儿童健康有重要意义。目前,有多种模型用于传染病预测,如马尔科夫链、灰色模型、求和自回归移动平均模型、组合模型等[6-9]。其中,人工神经网络 (ANN)模型也越来越多地应用于传染病的分析与预测[10]。本研究选用ANN的逆传播神经网络 (BPNN)模型建立HFMD的发病预测模型,并利用检验合格的模型对HFMD未来半年的发病数进行短期预测,为制定HFMD的防制策略和措施提供理论依据。
1.1 BPNN模型的基本原理 BPNN模型是按误差逆传播算法训练的多层前馈网络,由信息的正向传播和误差的反向传播两个过程组成[11]。该模型结构包括输入层、隐层和输出层,每层包括若干个神经元。输入层各神经元接收来自外界的信息,传递给隐层;隐层可分为单隐层或多隐层,负责信息处理;输出层接收隐层传递的信息,经进一步处理后,完成一次学习的正向传播处理过程,由输出层向外界输出信息处理结果。当实际输出与期望输出不符时,就进入误差的反向传播阶段。在正向传播和误差反向传播的循环中,各层权值不断调整,此即神经网络学习训练的过程,直到网络输出的误差减少到可以接受的程度。
1.2 数据来源 HFMD发病数据来源于我国传染病网络直报系统,采用Matlab 7.0软件建立模型,以2011年1月—2014年1月的发病数据用于模型训练,2014年 2—3月的发病数据用于模型检验。
1.3 方法
1.3.1 数据的预处理 为了提高训练的速度和降低训练的难度,采用峰值法[12]对原始数据进行归一化处理,即每个数据除以比各发病数都要大的数值,即归一化峰值,使得各数据转化为0~1的数值,并保留5位小数。本研究将归一化峰值定为数据中最大发病数的1.5倍。
1.3.2 模型的建立
1.3.2.1 基本参数的确定 为了能获得很好的逼近性能,本研究中将BPNN模型定为4层结构,输入层神经元数定为12,第1层隐层神经元数定为12,第2层隐层神经元数定为5,输出层神经元数定为1,即以连续12个月的HFMD发病数预测第13个月的发病数。训练时采用Levenberg-Marquardt数值优化算法以提高收敛速度。隐层和输出层分别采用Tansig函数和Logsig函数为激励函数。
1.3.2.2 模型的训练 训练的目的是确定BPNN模型中各神经元的阈值和神经元间的连接权重,以使模型输出的发病数与实际发病数之间的吻合度最高[13]。结合实际情况,将网络的训练期望精度定为0.000 1,采用自适应速率训练方法对建立的BPNN模型进行训练,经若干代训练后网络若达到了该期望精度,训练即完成。
1.3.2.3 模型的仿真预测及检验 利用训练完毕的模型采用分步预测法进行仿真预测[14],由于输入向量需要有12个数据,第1个预测数据从2012年1月开始出现。以2011年1—12月实际发病数作为输入序列,预测2012年1月的发病数,再以2011年2月—2012年1月实际发病数预测2012年2月的发病数,依此类推,得到2012年1月—2014年1月的预测发病数。若实际发病数与预测发病数之间的吻合度较高,相对误差小,则说明该神经网络模型的预测精度较高,可用于HFMD月发病数的预测。为了检验模型的预测能力,以2014年2—3月的发病数检验该模型。
1.3.3 HFMD发病数的短期预测 利用所建立的模型对HFMD未来半年的月发病数进行预测,即以2013年4月—2014年3月的发病数构成输入向量,得到2014年4月的预测发病数,依此类推,得到2014年4—9月的预测发病数,并进行反归一化处理。
2.1 模型的仿真预测及检验 经训练完毕的模型对2012年1月—2014年1月的月发病数进行仿真预测,平均相对误差绝对值为0.640 6%(见表1、图1),仿真预测较精确地逼近了真实值。以2014年2—3月发病数对模型进行检验,得出预测发病数分别为3.978 3、15.140 7万人,相对误差绝对值平均为1.814 7%。在所有预测点的平均相对误差为0.727 6%。
2.2 未来发病数的短期预测 经该BPNN对2014年4—9月的发病数进行预测,所得预测值经反归一化处理后分别为29.856 7、45.473 0、41.259 0、27.098 8、12.675 8、24.999 1万人。
表1 BPNN模型对2012年1月—2014年1月HFMD发病数的预测结果Table 1 Predicted incidence amount of HFMD from January 2012 to January 2014 by BPNN model
图1 HFMD实际发病数与BPNN模型的预测发病数Figure 1 Actual incidence amount and predicted incidence amount of HFMD by BPNN model
传染病的预防和控制工作一直是公共卫生工作中的重要部分。利用数学模型来预测传染病的发生、发展和流行趋势,有利于提高传染病预防控制工作的预见性和主动性,从而提高传染病的防控效率与效益[15]。传染病由于受到各种环境因素、社会因素及人自身免疫状况的影响,具有突发性、周期性、季节性和非线性变化规律,要对传染病进行准确预测,必须同时考虑这些特点。而BPNN模型能够很好地处理含有非线性及复杂的数据问题,具有很强的泛函逼近能力[16]。而且,BPNN模型能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。因此,BPNN模型非常适合于传染病的预测。
本研究即采用BPNN模型,利用我国HFMD的历史月发病数据来建立用于HFMD预测的模型,并对其进行检验。该模型预测结果显示,预测值和真实值的吻合度非常高,在仿真预测点的平均相对误差为0.640 6%,在检验样本点的平均相对误差为1.814 7%,在所有预测点的平均相对误差为0.727 6%,均表明所建立的模型具有良好的预测精度,可以用来进行HFMD的预测。本研究利用所建立的BPNN模型对HFMD进行了6个月的短期预测,结果显示,2014年4月HFMD发病数将持续上升,5月达到高峰,之后有所下降,在8月降到最低点后9月又有所回升。该变化趋势与2011—2013年同期的变化趋势吻合。相较于2013年,2014年将是HFMD发病数显著增加的一年,需加强HFMD的防控工作。
本研究建立的BPNN模型具有良好的预测精度,可以用来进行HFMD的短期预测。本研究在最初利用BPNN建立模型时,遇到了收敛速度慢、训练时间长的问题。为解决该问题,本研究采用了四层神经网络结构,并且采用了 Levenberg-Marquardt数值优化算法,从而得到了适于HFMD短期发病数预测的BPNN模型。
[1]Ji H,Li L,Wu B,et al.Epidemiology and etiology of hand-foot-and-mouth disease seen in Jiangsu Province from 2008 to 2010 [J].Chinese Journal of Pediatrics,2012,50(4):261-265.(in Chinese)
嵇红,李亮,吴斌,等.江苏省2008至2010年手足口病流行病学及病原学特征分析 [J].中华儿科杂志,2012,50(4):261-265.
[2]XuM, ZhaoH,Liu Y.Epidemical analysis on 91 children in kindergarten with hand-foot-and-mouth disease in 2008[J].Chinese Community Doctors,2008,10(23):258.(in Chinese)
徐蔓,赵红,刘烨.2008年集居幼儿园手足口病91例流行病学调查分析[J].中国社区医师,2008,10(23):258.
[3]WangLS, BiZQ, FangYY, et al.Epidemical analysis on hand-foot-andmouth disease of Shandong province in 2008[J].Shandong Medical Journal,2009,49(19):45-47.(in Chinese)
王连森,毕振强,房玉英,等.2008年山东省手足口病流行病学分析 [J].山东医药,2009,49(19):45-47.
[4]Zhang Y,Tan XJ,Wang HY,et al.An outbreak of hand,foot,and mouth disease associated with subgenotype C4 of human enterovirus 71 in Shandong,China[J].J Clin Virol,2009,44(4):262 -267.
[5]Wan JF, Zhu LY, Liu H, et al.Epidemical analysis of hand-foot-andmouth disease(EV71)in Fuyang City[J].Anhui Medical Journal,2008,29(4):344-345.(in Chinese)
万俊峰,朱理业,刘红,等.阜阳市手足口病 (EV71感染)疫情流行病学分析[J].安徽医学,2008,29(4):344-345.
[6]Deng S,Li XY.Application of Markov chain in prediction ofthe disease of respiratory tract infectious[J].Chinese Journal of Health Statistic,2010,27(6):615-616.(in Chinese)
邓甦,李晓毅.马尔科夫链在呼吸道传染病预测中的应用[J].中国卫生统计,2010,27(6):615-616.
[7]林玫,李永红,梁大斌,等.ARIMA与GM模型在广西细菌性传染病预测中的应用[J].应用预防医学,2012(4):204-207.
[8]Ye ML,Zhang DX,Wang RH.Using ARIMA model to surveillance and forecast the incidence rate of notifiable infectious diseases in Chongqing[J].Journal of Chongqing Medical University,2009,34(8):1070-1072.(in Chinese)
叶孟良,张多西,王润华.重庆市法定报告传染病预测与监测的ARIMA模型[J].重庆医科大学学报,2009,34(8):1070-1072.
[9]Cai HY,Wu QH,LYu JQ.Study on combination model in prediction of infectious diseases [J].Computer Simulation,2012,4:238-242.(in Chinese)
蔡海洋,吴庆辉,吕精巧.组合模型在传染病预测中的应用研究 [J].计算机仿真,2012,4:238-242.
[10]Dong XJ,Jia WN.Predictive efficiency comparison of ARIMA-time-series and BP neural net model on infectious diseases[J].Modern Practical Medicine,2010,22(2):142-143.(in Chinese)
董选军,贾伟娜.ARIMA时间序列和BP神经网络在传染病预测中的比较[J].现代实用医学,2010,22(2):142-143.
[11]Filleul L,Le Tertre A,Baldi I,et al.Difference in the relation between daily mortality and air pollution among elderly and all-ages populations in south western France [J].Environ Res,2004,94(3):249-253.
[12]严文娟,张晶,胡广芹,等.BP神经网络用于肝炎患者舌诊近红外光谱的研究[J].光谱学与光谱分析,2010,30(10):2628-2631.
[13]Xu XQ,Xu YF,Zhu MJ,et al.Shortterm prediction of the measles based on BP neuralnetwork[J].Chinese General Practice,2013,16(29):3488 -3490.(in Chinese)
徐学琴,徐玉芳,朱明军,等.基于逆传播神经网络的麻疹短期发病预测研究[J].中国全科医学,2013,16(29):3488-3490.
[14]LiJW, Liang AQ, Tian H, et al.Prediction in the total power of Henan Province's agricultural machinery from 2011 to 2015 [J].Journal of Agricultural Mechanization Research,2012,34(6):47-50.(in Chinese)
李建伟,梁爱琴,田辉,等.2011—2015年河南省农业机械总动力的预测[J].农机化研究,2012,34(6):47-50.
[15]Wang BG,Qu B,Guo HQ,et al.Study on infectious diseases prediction by mathematical model[J].Chinese Journal of Health Statistics,2007,24(5):536-540.(in Chinese)
王丙刚,曲波,郭海强,等.传染病预测的数学模型研究 [J].中国卫生统计,2007,24(5):536-540.
[16]YiJ, Hu DY, Yang DX, et al.Application of three kinds of model in forecasting prevalence of pulmonary tuberculosis[J].Chinese General Practice,2012,15(5):1495 -1497.(in Chinese)
易静,胡代玉,杨德香,等.三种预测模型在肺结核发病预测中的应用[J].中国全科医学,2012,15(5):1495-1497.