刘红杨,刘洪庆,李望晨,赵 晶
·论著·
·方法学研究·
差分自回归移动平均与广义回归神经网络组合模型在丙型肝炎月发病率中的预测应用
刘红杨,刘洪庆*,李望晨,赵 晶
目的 探讨差分自回归移动平均(ARIMA)与广义回归神经网络(GRNN)组合模型在丙型肝炎月发病率中预测建模效果及应用前景,为疫情预测提供依据。方法 2015年5月—2016年5月,选取山东省疾病预防控制中心法定传染病直报系统2004—2014年丙型肝炎月度发病率数据及山东省统计局发布的同期人口资料。对2004—2014年山东省丙型肝炎月发病率数据构建ARIMA模型,验证拟合精度并外推预测;将ARIMA模型拟合值作为GRNN模型的输入,实际值作为GRNN模型的输出,对样本进行训练和预测。比较单纯ARIMA模型和ARIMA-GRNN组合模型在丙型肝炎月发病率中的预测效果。结果 2004—2014年山东省丙型肝炎年均发病率为17.28/10万,并随着时间的推移呈上升趋势(Z=29.05,P<0.01)。ARIMA(1,2,1)模型预测2014年山东省丙型肝炎发病率与实际发病率基本一致,落在95%置信区间内,拟合效果较好。以ARIMA(1,2,1)模型拟合值作为GRNN模型的输入,丙型肝炎月发病率实际值作为GRNN模型的输出,取最优光滑因子0.12训练模型,ARIMA-GRNN组合模型预测的拟合值与实际值基本吻合。ARIMA模型和ARIMA-GRNN组合模型的平均误差率(MER)分别为16.87%、15.30%;决定系数(R2)分别为0.53、0.60;平均绝对误差(MAE)分别为0.17、0.09;平均绝对百分误差(MAPE)分别为1.18、0.35。结论 ARIMA-GRNN组合模型对山东省丙型肝炎月发病率拟合及预测效果优于单纯ARIMA模型,具有较高的拟合精度,有较为广阔的应用前景,对于疫情预测工作有一定的实用性意义。
丙型肝炎;发病率;预测;差分自回归移动平均模型;广义回归神经网络
刘红杨,刘洪庆,李望晨,等.差分自回归移动平均与广义回归神经网络组合模型在丙型肝炎月发病率中的预测应用[J].中国全科医学,2017,20(2):182-186.[www.chinagp.net]
LIU H Y,LIU H Q,LI W C,et al.Application of ARIMA-GRNN combination model in predicting monthly incidence of hepatitis C[J].Chinese General Practice,2017,20(2):182-186.
本研究创新性:
本研究通过对山东省丙型肝炎月发病率时序图进行分析发现,既有线性趋势又有非线性趋势,时间序列分析能够充分提取模型线性信息,广义回归神经网络(GRNN)具有强大的非线性逼近能力、较快的学习速度和预测结果稳定等优点,将两者结合起来,建立差分自回归移动平均(ARIMA)-GRNN组合模型。该模型具有综合利用各单一预测模型所提供信息的特点,预测更加敏锐,有效提高预测精度。ARIMA-GRNN组合模型对山东省丙型肝炎月发病率拟合及预测效果优于单纯ARIMA模型,具有较高的拟合精度,有较为广阔的应用前景,对于传染病疫情预测具有一定的实用价值。
丙型肝炎是全球流行高发传染病之一,主要经血液或血液制品、母婴和性途径传播。据WHO统计,全球丙型肝炎患者约1.85亿人,每年因丙型肝炎死亡约35万例。20%~30%的患者有发展为肝硬化、肝癌的风险,发病率仅次于乙型肝炎[1-4]。在我国,人们对丙型肝炎的认识、重视程度远不及乙型肝炎。但与乙型肝炎相比,其危害有过之而无不及。近年来,山东省丙型肝炎患者例数呈逐年升高趋势,充分利用监测信息资源,通过建立合适的数学模型对识别疾病发病规律,预测发病趋势具有重要作用,是控制疫情发展的有效措施之一[5]。本研究应用差分自回归移动平均(ARIMA)模型及其与广义回归神经网络(GRNN)组合模型对山东省2004—2014年丙型肝炎月发病率数据构建预测模型并评价其预测效果,为丙型肝炎的预防控制和预测预警工作提供定量方法的依据,提高工作时效性。
1.1 资料来源 2015年5月—2016年5月,选取山东省疾病预防控制中心法定传染病直报系统2004—2014年丙型肝炎月度发病率数据及山东省统计局发布的同期人口资料,数据真实、可靠。
1.2 方法
1.2.1 ARIMA(p,d,q)模型 ARIMA模型是20世纪70年代初BOX等[6]提出的著名的时间序列预测方法。该模型较灵活,在预测过程中既考虑了序列依存性,又考虑了随机波动的干扰性,对短期预测的精度较高,故广泛应用于各类对象的定量预测。建模过程分为4步:序列平稳性检验及平稳化处理、模型识别、参数估计和模型检验、预测应用。本研究利用2004—2013年山东省丙型肝炎月发病率数据建立模型并拟合外推,以2014年实际数据检验模型预测效果。
1.2.2 ARIMA-GRNN组合模型 GRNN模型最早由美国学者SPECHT[7]在1991年提出,是径向基神经网络(RBFNN)的一个分支,适用于解决非线性问题,具有良好的全局逼近性和最佳逼近性质,是一种新颖有效的前馈式神经网络模型。该模型有输入层、径向基隐含层和线性输出层3层组织构成。GRNN中的调节参数仅有一个,即光滑因子。一般光滑因子越小,GRNN对样本的逼近性能就越强;光滑因子越大,GRNN对样本的逼近过程就越平滑。由于GRNN模型的学习全部依赖数据样本,所以其能尽量避免人为等主观因素对预测结果产生的影响。GRNN模型在于逼近能力、分类能力和学习速度方面有较强的优势,可处理不稳定的数据,并且在样本数据缺乏时,预测效果也较好[8-9]。
步骤建立:(1)学习样本的选择。最优ARIMA模型拟合值作为GRNN模型的输入,丙型肝炎月发病率实际值作为GRNN模型的输出,建立一维输入、一维输出的GRNN模型训练样本并进行训练。(2)数据处理。由于样本数据量纲存在较大差异,采用归一化方法中的线性函数转换方法,将所有的输入、输出训练数据控制在[0,1]范围内进行处理,以消除数据自身的影响,有利于模型训练。(3)网络的建立与训练。随机选取一个或两个样本作为待估点,通过对光滑因子的不同取值进行多次尝试,确定最优值,并分别对待估点进行预测,计算待估点预测值与实际值误差序列的误差均方根(RMSE)值,作为模型性能的评价指标。(4)模型应用。当光滑因子确定后,GRNN模型的训练也随之结束。用训练好的GRNN模型拟合值与实际值比较,观察其吻合程度并进行预测及外推。
1.2.3 模型精度评价[10-11]采用平均误差率(MER)及决定系数(R2)评价单纯ARIMA模型与ARIMA-GRNN组合模型的拟合效果。R2越大,预测模型的拟合效果越好。采用平均绝对误差(MAE)和平均绝对百分误差(MAPE)评价预测模型的外推能力。MAPE可以衡量不同预测模型的优劣,MAPE越小,预测模型的外推能力越强,即预测性能越好。
1.3 统计学方法 采用Excel 2013建立数据库,SAS 9.2构建ARIMA模型,MATLAB构建ARIMA-GRNN组合模型。各年间丙型肝炎发病率的比较采用趋势χ2检验。以P<0.05为差异有统计学意义。
2.1 一般情况 2004—2014年山东省共报告丙型肝炎18 095例,年均发病率为17.28/10万,其中2012年和2014年发病率较高,分别为29.52/10万、25.21/10万。2004—2014年丙型肝炎发病率随着时间的推移呈平缓波浪式上升趋势(Z=29.05,P<0.01,见图1)。
Figure 1 Variation trend of cases and the incidence of hepatitis C in Shandong province from 2004 to 2014
2.2 疫情预测
2.2.1 ARIMA模型预测 (1)序列平稳性检验及平稳化处理。根据2004—2013年山东省丙型肝炎月发病率数据绘制时序图,该序列有曲线趋势,序列非平稳。对原序列进行2阶差分处理后,长期趋势提取充分;同时白噪声检验显示,延迟6阶P<0.01,各观测值均在0值附近较为稳定的波动,形成平稳序列(见图2~3)。(2)模型识别。根据残差序列的自相关函数(ACF)和偏自相关函数(PACF)性质,ACF图和PACF图均呈现出拖尾性,初步确定p=5,q=2。模型从低阶开始依次反复调试验证后,根据Akaike信息标准(AIC)和Bayesian信息标准(BIC)选取最优模型ARIMA(1,2,1)。(3)参数估计和模型检验。拟合检验统计量P均>0.05,可以认为该残差序列为白噪声序列,该模型拟合效果好;参数显著性检验显示参数均显著(P<0.05),说明ARIMA(1,2,1)模型可用于预测。用模型绘制出的2014年山东省丙型肝炎预测值序列图,预测值与实际发病率基本一致,落在95%置信区间内,拟合效果较好。(4)模型预测。利用原序列和已构建最优模型回代,预测2015年山东省丙型肝炎月发病率情况(见图4)。
Figure 2 Sequence diagram of monthly incidence of hepatitis C in Shandong province from 2004 to 2013
图3 2004—2013年山东省丙型肝炎月发病率2阶差分后时序图
Figure 3 Sequence diagram after two-order difference of monthly incidence rate of hepatitis C in Shandong province from 2004 to 2013
图4 山东省丙型肝炎月发病率序列模型拟合效果图
Figure 4 Fitting effect diagram of series model of monthly incidence rate of hepatitis C in Shandong province
2.2.2 ARIMA-GRNN组合模型预测 (1)学习样本的选择。以ARIMA(1,2,1)模型的拟合值作为GRNN的输入,丙型肝炎月发病率实际值作为GRNN模型的输出,建立一维输入、一维输出的GRNN模型并进行样本训练。(2)数据处理。2004—2014年丙型肝炎月发病率ARIMA(1,2,1)模型的拟合值与实际值已位于区间[0,1]中,无需再对输入、输出样本进行归一化处理。(3)模型的建立与训练。在学习样本中随机选择2006年7月与2011年11月丙型肝炎月发病率的拟合值与实际值作为训练的待估点,以确定光滑因子。光滑因子从0.10开始取值,每次增加一个单位量0.01直至0.20,并分别对待估点进行预测,计算待估点预测值与实际值误差序列的RMSE,将不同光滑因子与其对应的RMSE绘图(见图5)。当光滑因子为0.12时,待估点值RMSE值达到最小值0.03,所以确定光滑因子为0.12。(4)模型应用。利用最优光滑因子0.12训练模型,预测丙型肝炎发病率,拟合值与实际发病率基本吻合(见图6)。
注:RMSE=误差均方根
图5 不同光滑因子对应的RMSE
Figure 5 Corresponding RMSE values of different smoothing factors
图6 山东省丙型肝炎月发病率序列模型拟合效果图
Figure 6 Fitting effect diagram of series model of monthly incidence rate of hepatitis C in Shandong province
2.3 模型精度评价 ARIMA-GRNN组合模型的拟合和外推效果明显优于单纯ARIMA模型,提示组合模型用于山东省丙型肝炎月发病率的拟合与预测精度明显提高(见表1)。
表1 单纯ARIMA模型与ARIMA-GRNN组合模型评价
Table 1 Evaluation of ARIMA model and ARIMA-GRNN combination model
模型拟合检验MER(%) R2 外推检验MAE MAPEARIMA(1,2,1)模型1687053017118ARIMA⁃GRNN组合模型1530060009035
注:ARIMA模型=差分自回归移动平均模型,GRNN=广义回归神经网络,MER=平均误差率,R2=决定系数,MAE=平均绝对误差,MAPE=平均绝对百分误差
自BATES等[12]首次提出组合预测模型的理论和方法以来,因其具有综合利用各单一预测模型所提供信息的特点,有效提高预测精度,引起国内外学者的广泛关注。时间序列分析作为一种传统的线性模型分析方法,对时间序列变量中的各种已知和未知因素进行综合统一的分析,进而实现拟合预测,仅适用于平稳时间序列的短期预测,但对具有非线性映射性能较弱,难以确定合适的模型结构,其预测精度也常不尽如人意[13]。因GRNN模型具有强大的非线性逼近能力、较快的学习速度、较好处理不稳定数据的能力、网络结构较少受人为主观因素影响和预测结果稳定等优点,因而广泛用于多种非线性关系的拟合与预测[14]。将两者结合起来,组合模型的拟合外推性能更好,使得预测更加敏锐,并且模型建立的过程简单,被广泛应用于传染病的预测[15]。
山东省2004—2014年丙型肝炎年均发病率为17.28/10万,并随着时间的推移呈平缓波浪式上升趋势,丙型肝炎的防控工作依然严峻。本研究利用2004—2014年丙型肝炎疫情报告数据构建ARIMA模型,经过序列平稳化、模型定阶、参数估计及模型检验等步骤得出最优模型ARIMA(1,2,1),其预测值与实际发病率基本在模型拟合95%置信区间内,能有效拟合丙型肝炎发病并进行短期预测。但其拟合曲线在上升或下降方面与实际发病率存在差异,因此使用ARIMA-GRNN组合模型对原始数据进一步拟合,除个别月份与实际发病率存在较小差异外,其余时间点与实际发病率基本重合。ARIMA模型和ARIMA-GRNN组合模型的MER分别为16.87%、15.30%,R2分别为0.53、0.60;MAE分别为0.17、0.09,MAPE分别为1.18、0.35。ARIMA-GRNN组合模型拟合效果优于ARIMA模型,预测精度明显提高,提示ARIMA-GRNN组合模型对山东省丙型肝炎发病率未来情况可以进行良好的跟踪预测,具有较为广阔的应用前景,为丙型肝炎的预防控制提供较为可靠的依据。
丙型肝炎素有人类健康“沉默的杀手”之称,WHO将HCV慢性感染作为重要的公共卫生问题[16]。由于丙型肝炎的潜伏期较长,症状不明显,至少80%的患者发病前并未发现已感染HCV,增加了病毒传播的危险性,丧失最佳治疗时机,引起并发症的发生[17-18]。在临床工作中,加强丙型肝炎的早期筛查工作及血液制品的管理,能够明显降低丙型肝炎发病率。实现早发现、早治疗,丙型肝炎的治疗效果可优于乙型肝炎,多数患者有望实现治愈。2015年底,我国发布了丙型肝炎防治指南,随着口服治疗的直接抗病毒药物(DAAs)的上市及临床应用,将明显改善丙型肝炎患者预后[19]。
从方法上看,本文采用单纯ARIMA模型和ARIMA-GRNN组合模型对山东省丙型肝炎发病率进行预测,并进行对比分析,结果更客观。研究的不足之处主要在于样本数据较少且仅局限于山东省,另外,由于随机选取的待估点,在一定程度上限制了GRNN模型的学习和预测效果。同时,本研究未考虑影响丙型肝炎发病的因素,可能会影响到预测精度。在实际工作中,在有条件的情况下可以全面收集影响丙型肝炎的发病因素,建议建模时加入相关因素,扩大样本量等方法来提高预测精度[20]。本文只拟合了ARIMA-GRNN一种组合模型,也可拟合其他组合模型,或结合多个模型,从而获得更优的预测模型,并比较各种预测模型的优劣[21]。
作者贡献:刘红杨进行文章的构思与设计,统计学处理,撰写论文,对文章整体负责,并监督管理;刘洪庆负责文章的质量控制及审校;李望晨进行论文的修订;赵晶进行数据收集、整理。
本文无利益冲突。
[1]MOHD HANAFIAH K,GROEGER J,FLAXMAN A D,et al.Global epidemiology of hepatitis C virus infection: new estimates of age-specific antibody to HCV seroprevalence [J].Hepatology,2013,57(4):1333-1342.
[2]LAVANCHY D.The global burden of hepatitis C[J].Liver Int,2009,29(Suppl 1):74-81.
[3]WHO.Guidelines for the screening,care and treatment of persons with hepatitis C infection[EB/OL].[2016-04-10].http://www.who.int/hepatitis/publications/hepatitis-c-guidenlines/en/.
[4]HAJARIZADEH B,GREBELY J,DORE G J.Epidemiology and natural history of HCV infection[J].Nat Rev Gastroenterol Hepatol,2013,10(9):553-562.
[5]韩琴,苏虹,王忱诚,等.ARIMA模型与GRNN模型对性病发病率的预测研究[J].现代预防医学,2012,39 (6):1337-1340. HAN Q,SU H,WANG C C,et al.Prediction on the incidence of blood and sexually transmitted diseases with models of ARIMA and GRNN[J].Modern Preventive Medicine,2012,39(6):1337-1340.
[6]BOX G E P,JENKINS G M,REINSEL G C.Time series analysis: forecasting and control[M].San Francisco: Holden Day,1976:181-218.
[7]SPECHT D F.A general regression neural network[J].IEEE Trans Neural Netw,1991,2(6):568-576.
[8]朱玉.单纯ARIMA模型和ARIMA-GRNN组合模型在丙肝月发病率中的预测效果比较[D].合肥:安徽医科大学,2011. ZHU Y.Comparison of the prediction effect between the single ARIMA model and the ARIMA-GRNN combination model in the monthly incidence of hepatitis C virus infection[D].Hefei:Anhui Medical University,2011.
[9]吴伟,郭军巧,安淑一,等.应用ARIMA-GRNN模型对肾综合征出血热发病率时间序列数据的预测研究[J].中国卫生统计,2015,32(2):211-213. WU W,GUO J Q,AN S Y,et al.Application of ARIMA-GRNN model to predict the incidence of hemorrhagic fever with renal syndrome[J].Chinese Journal of Health Statistics,2015,32(2):211-213.
[10]王平.三种预测模型在主要传染病发病率预测中的应用[D].杭州:浙江大学,2010. WANG P.Application of three model in forecasting incidence of the main communicable diseases[D].Hangzhou: Zhejiang University,2010.
[11]任茹香.基于GRNN的变权重组合预测模型在传染病发病率预测中的应用[D].杭州:浙江大学,2011. REN R X.A forecasting model with variable weight combination based on GRNN for infectious diseases[D].Hangzhou:Zhejiang University,2011.
[12]BATES J M,GRANGER C W J.Combination of forecasts [J].Operations Research,1969,20(4):451-468.
[13]朱玉,夏结来,王静.单纯ARIMA模型和ARIMA-GRNN组合模型在猩红热发病率中的预测效果比较[J].中华流行病学杂志,2009,30(9):964-968. ZHU Y,XIA J L,WANG J.Comparison of predictive effect between the single auto regressive integrated moving average (ARIMA) model and the ARIMA-generalized regression neural network (GRNN) combination model on the incidence of scarlet fever[J].Chinese Journal of Epidemiology,2009,30(9):964-968.
[14]吴昊澄,王臻,何凡,等.基于GM(1,1)-GRNN组合模型的肾综合征出血热发病率预测[J].中国媒介生物学及控制杂志,2012,23(4):347-349. WU H C,WANG Z,HE F,et al.Prediction of the incidence of hemorrhagic fever with renal syndrome based on GM(1,1)-GRNN model[J].Chinese Journal of Vector Biology and Control,2012,23(4):347-349.
[15]严薇荣.传染病预警指标体系及三种预测模型的研究[D].武汉:华中科技大学,2008. YAN W R.Study on the early warning indicators system and three types of forecasting models for infectious diseases[D].Wuhan: Huazhong University of Science and Technology,2008.
[16]World Health Organization.Global alert and response: hepatitis C[EB/OL].[2016-01-14].http://www.who.int/csr/disease/hepatitis/whocdscsrlyo2003/en/index1.html.
[17]LEMOINE M,NAVAGAM S,THURSZ M.Viral hepatitis in resource-limited countries and access to antiviral therapies:current and future challenges[J].Future Virol,2013,8(4):371-380.
[18]武海波,周紫霄,黄奕祥.2004—2011年中国丙型病毒性肝炎流行病学特征分析[J].现代预防医学,2015,42(7):1173-1175. WU H B,ZHOU Z X,HUANG Y X.Analysis of epidemiological characteristics of viral hepatitis C in China,2004—2011[J].Modern Preventive Medicine,2015,42(7):1173-1175.
[19]中华医学会肝病学分会,中华医学会感染病学分会.丙型肝炎防治指南(2015年更新版)[J].中国肝脏病杂志(电子版),2015,7(3):19-35. Chinese Society of Hepatology,Chinese Society of Infectious Diseases.The guideline of prevention and treatment for chronic hepatitis C: 2015 update[J].Chinese Journal of Liver Diseases(Electronic Version),2015,7(3):19-35.
[20]胡晓媛,吴娟,孙庆文,等.ARIMA模型与GRNN模型对肺结核发病率预测的对比研究[J].第二军医大学学报,2016,37(1):115-119. HU X Y,WU J,SUN Q W,et al.Comparative study on ARIMA model and GRNN model for predicting the incidence of tuberculosis[J].Academic Journal of Second Military Medical University,2016,37(1):115-119.
[21]姜超,刘文东,胡建利,等.丙肝疫情3种不同疾病预测预警方法比较[J].中国公共卫生,2015,31(4):390-393. JIANG C,LIU W D,HU J L,et al.Prediction and early warning for HCV:comparison of three methods[J].Chinese Journal of Public Health,2015,31(4):390-393.
(本文编辑:吴立波)
Application of ARIMA-GRNN Combination Model in Predicting Monthly Incidence of Hepatitis C
LIUHong-yang,LIUHong-qing*,LIWang-chen,ZHAOJing
DepartmentofHealthStatistics,CollegeofPublicHealthandManagement,WeifangMedicalUniversity,Weifang261053,China
*Correspondingauthor:LIUHong-qing,Associateprofessor;E-mail:liuhq576@163.com
Objective To explore the predictive modeling effects and application prospects of ARIMA-GRNN combination model in the monthly incidence of hepatitis C,and to provide basis for the epidemic prediction.Methods From May 2015 to May 2016,the 2004—2014 monthly data on the incidence of hepatitis C were selected from direct reporting system of legal infectious diseases in Shandong Provincial Center for Disease Control and Prevention,and the population at the same period released by Shandong provincial Bureau of Statistics were also chosen in the study.ARIMA fitted model of the monthly incidence data of hepatitis C in Shandong province from 2004 to 2014 was constructed,and the fitting precision was verified and extrapolated;the fitted value of ARIMA model was taken as the input of GRNN model,and the actual value of monthly incidence of hepatitis C as the output,and the samples were trained and predicted.The effects of ARIMA model and ARIMA-GRNN combination model on predicting the monthly incidence of hepatitis C were compared.Results The annual average incidence of hepatitis C in Shandong province from 2004 to 2014 was 17.28/100 000,and showed an increasing trend as time went on (Z=29.05,P<0.01).By the use of ARIMA(1,2,1) model,the predictive incidence of hepatitis C in Shandong province in 2014 was basically the same as the actual incidence,which falls within the 95% confidence interval with good fitting effects.The fitted value of ARIMA(1,2,1) model was taken as the input of GRNN model,and the actual value of monthly incidence of hepatitis C as the output,the training model with an optimal smoothing factor of 0.12 was selected,and the fitted value of ARIMA-GRNN combination model basically agreed with the actual value.The mean error rate (MER) of ARIMA model and ARIMA-GRNN combination model were 16.87% and 15.30% respectively;their determination coefficients (R2) were 0.53 and 0.60 respectively;their mean absolute errors (MAE) were 0.17 and 0.09 respectively;and the mean absolute percent errors(MAPE) were 1.18 and 0.35 respectively.Conclusion The fitting and predictive effects of ARIMA-GRNN combination model on the monthly incidence of hepatitis C in Shandong province is better than those of simple ARIMA model,and has a high fitting precision and a promising application prospects.It is of certain practical significance in the epidemic prediction.
Hepatitis C;Incidence;Forecasting;ARIMA model;GRNN
“健康山东”重大社会风险预测与治理协同创新中心资助课题(XT-1402001)
R 512.63
A
10.3969/j.issn.1007-9572.2017.02.012
2016-08-07;
2016-12-01)
261053山东省潍坊市,潍坊医学院公共卫生与管理学院卫生统计学教研室
*通信作者:刘洪庆,副教授;E-mail:liuhq576@163.com