杨秋英 郭广行 陈 卉
基于时间序列ARIMA模型的艾滋病发病率预测研究*
杨秋英①*郭广行②△陈 卉①
目的:采用自回归积分移动平均(ARIMA)模型对2000-2014年全国艾滋病发病率建立预测模型,并使用预测模型对2015-2017年艾滋病发病率进行预测。方法:分析2000-2014年全国艾滋病发病率原始数据(国家统计局统计),对其进行平稳化处理,使其符合ARIMA模型的要求,并对ARIMA模型进行参数识别和模型拟合后预测2015-2017年艾滋病发病率;在对预测模型诊断检验的同时分析评价预测结果。结果:2000-2014年全国艾滋病发病率持续上升,在2011-2012年间增幅较大,对2015-2017年各年发病率进行预测,其结果分别为3.57/10万、3.80/10万和4.04/10万,与2000-2014年趋势相比依旧呈现持续上升。结论:利用全国2000-2014年艾滋病发病率数据,采用时间序列ARIMA模型对其建立预测模型,并使用该模型对2015-2017年全国艾滋病发病率预测,能够准确提供艾滋病病毒(HIV)感染数据信息,使HIV感染者能及时认识到其危害,有效预防控制艾滋病的发生。
艾滋病;发病率预测;自回归积分移动平均模型
[First-author’s address] School of Biomedical Engineering, Capital Medical University, Beijing 100069, China.
艾滋病,即获得性免疫缺陷综合征(acquired immunodeficiency syndrome,AIDS),是由于人体感染艾滋病病毒(human immunodeficiency virus,HIV)导致全身免疫系统遭到破坏,最终致使人体丧失抵御疾病的能力而导致死亡。
国家卫生计生委、联合国艾滋病规划署(UNAIDS)、世界卫生组织(WHO)联合对2014年中国艾滋病疫情进行估计:截至2014年底,中国存活艾滋病病毒感染者和艾滋病患者(PLHIV)为50.07万例,死亡15.87万例[1];2015年当年新发HIV感染者5.03万例,死亡1.28万例,艾滋病已成为我国严重的公共卫生问题[2]。
艾滋病严重威胁着人类的生命健康,其患者的3年病死率接近100%[3]。目前的抗病毒治疗方法仍存在很大的局限性,不但无法彻底清除体内的病毒,且需要终身治疗,而长期服药又会产生耐药性,治疗费用昂贵,给个人和家庭带来沉重的经济负担,也给国家的经济发展带来重大的损失。艾滋病发病率预测是流行病学研究中的重要分支之一,通常应用各类模型进行预测,但由于实际问题的可变性和复杂性,针对实际问题寻求合适的预测模型显得尤其重要且较为困难[4-7]。基于此,本研究通过对实际数据的分析,结合全国艾滋病传播特性,选取自回归积分移动平均模型(autoregressive integrated moving average,ARIMA)模型参数建立针对实际情况的模型,实现艾滋病发病率的ARIMA模型拟合和预测,预测2015-2017年我国未来3年艾滋病的发病率。
ARIMA模型,即Box-Jenkins模型、博克思-詹金斯法。ARIMA模型根据原序列是否平稳以及回归中所包含部分的不同,具有3种基本模式:即移动平均(moving average,MA)模型、自回归(autoregressive,AR)模型及ARIMA模型。
ARIMA模型经常表示为arima(p,d,q)。当序列为平稳序列时,ARIMA模型的表达式为公式1:
式中p为自回归参数;q为移动平均阶数;yt是模型的待估计参数。当序列为非平稳序列时,可通过对序列取对数和作差分处理使其平稳化;d为序列成为平稳时所做的差分次数。
对于单个被观察指标形成的平稳序列,计算其自相关和偏自相关函数,并根据绘制的函数图形确定模型的参数值。若其偏相关函数是截尾,而自相关函数是拖尾,则平稳序列可采用AR模型进行拟合;若其偏相关函数是拖尾,而自相关函数是截尾,则平稳序列可以移动平均模型RA进行拟合;其他情况则可采用ARIMA模型。
ARIMA建模的过程包括5个步骤:即数据平稳化、模型参数识别、模型的拟合与预测、模型的诊断检验和模型预测结果分析及评价[8-10]。
2.1数据准备
(1)原始数据。2000-2014年国家统计局统计的艾滋病发病率数据如图1所示:
图1 2000-2014年艾滋病发病率趋势图(1/10万)
图中显示,2000-2003年艾滋病发病率基本保持稳定,2004-2011年保持持续增高状态,2011-2012年增幅跨度较大,2012-2014年又恢复稳定增长。2011-2012年艾滋病发病率增幅较大的主要原因是,既往感染HIV者陆续进入发病期。此外,2011-2012年艾滋病疫情出现的特征为感染人群多样化,流行趋势复杂化[1-2]。
(2)平稳化处理数据。ARIMA模型建模的首要条件是要求预测的数列满足平稳化条件,即个体值围绕序列均值上下波动。对于非平稳时间序列,其平稳化处理是对序列取对数和作差分处理。因此,需要判断序列的变化趋势,若存在异方差,则对序列进行对数转换,若存在一定的上升或下降趋势,则对序列进行差分平稳化处理[11]。图1显示,2000-2014年艾滋病发病率数据序列呈现上升趋势,不能直接用ARIMA建模,对序列数据进行一阶差分以消除增长趋势,一阶差分后结果数据如图2所示:
图2 2000-2014年艾滋病发病率一阶差分图
图中显示,序列数据进行一阶差分后消除了数据上升趋势,除2011-2012年特殊情况外,已趋于平稳化,满足ARIMA模型建模基本要求,可用于ARIMA模型建模。
2.2模型参数识别
数据序列一阶差分后的结果为平稳序列,则ARIMA模型中参数d=1,下面需确定p和q。求得一阶差分后序列的自相关函数(autocorrelation function,ACF)和偏自相关函数(partial autocorrelation function,PACF)[12](如图3所示)。
图3 一阶差分自相关和偏自相关函数示图
一阶差分序列的自相关图和偏自相关函数图显示,相关值均未超出显著边界(0.5),所以ARIMA模型选为ARIMA(0,1,0)。
2.3模型拟合与预测
模型拟合及预测2014年后3年(2015-2017年)的艾滋病发病率,其结果分别为3.57/10万、3.8/10万和4.04/10万(如图4所示)。
图4 ARIMA模型拟合结果曲线图
2.4模型诊断检验
模型残差的自相关函数和偏自相关函数显示,残差序列at的所有自相关函数和偏自相关函数的值均为平稳,则残差序列中不再包含可供提取的非随机成分,此时的残差可被视作白噪声,拟合效果良好;R2=0.910,且拟合程度良好[13](如图5所示)。
图5 残差序列自相关和偏自相关函数示图
2.5模型预测结果分析及评价
2011年以前艾滋病发病率基本处于稳定或持续增高状态,但2011-2012年较特殊,因此选取2010-2014年的5年实际值、预测值及95%置信区间(confidence interval,CI)进行分析[14-15]。除2012年外,其他4年的实际值均落在预测值的95%CI内(见表1)。
表1 2010-2014年实际值、预测值及预测值的95%CI
平均绝对误差(mean absolute error,MAE)[16-17]表达式为公式2:
式中,xi为时间点i时的实际值,为时间点i时的预测值,n为预测次数。
计算MAE值结果,包含2012年在内的数值为MAE=0.482;不包含2012年的数值为MAE=0.253。从MAE值的结果表明,扰动较大时对预测值影响较大。
2000-2014年艾滋病发病率数据表明,其整体呈上升趋势,尤其在2011-2012年间,发病率呈现明显上升趋势,且从预测结果看,未来3年艾滋病发病率仍上升明显。究其原因主要为以下因素:①患者本身不知情或者即使知情也不愿接受事实;②经济方面的影响;③虽被告知使用抗艾滋病药物,但坚持用药比较困难;④有些患者仍然在传播;⑤艾滋病的治疗只能有效地控制病情而无法彻底治愈[18-19]。
艾滋病发病率预测研究作为流行病学研究的重要研究之一,对艾滋病发病率实现ARIMA模型拟合并实现预测,有望为我国HIV感染者及时开展抗病毒治疗,更加合理配置艾滋病有限的预防控制资源,具有一定的现实意义和理论依据。
[1]中华人民共和国国家统计局.2000-2014年年度艾滋病发病率数据[EB/OL].http://data.stats. gov.cn/easyquery.htm?cn=C01&zb=A0O0F01& sj=2014,2016.
[2]国家卫生计生委疾病预防控制局.2015年全国法定传染病疫情概况[EB/OL].(2016-02-18)[2016-06-22] http://www.nhfpc.gov.cn/jkj/s3578/201602/b9 217ba14e17452aad9e45a5bcce6b65.shtml.
[3]杜静轩,杨俊平.预防艾滋病母婴传播与健康教育[J].医学信息,2010,23(11):4048.
[4]胡冰雪,曲波,刘洁,等.ARIMA模型和GM(1,1)模型在全国艾滋病发病率预测中的比较研究[J].预防医学情报杂志,2014,30(10):813-816.
[5]Liu F,Zhu N,Qiu L,et a1.[Application of R-based multiple seasonal ARIMA model,in predicting the incidence of hand,foot and mouth disease in Shaanxi province][J].Zhonghua Liu Xing Bing Xue Za Zhi,2016,37(8):1117-1120.
[6]颜康康,林雪君,鲍红红,等.灰色GM(1,1)模型在艾滋病、淋病、梅毒发病率预测研究中的应用[J].实用预防医学,2015,22(3):371-374.
[7]沈艳.基于神经网络的高校艾滋病发病率预测分析[J].科技通报,2015,31(12):28-30.
[8]George EP,Box Gwilym M Jenkins,Gregory C Reinsel.Time Series Analysis:Forecasting and Control[M].5th.Wiley,2015:138-180.
[9]方积乾.生物医学研究的统计方法[M].北京:高等教育出版社,2010.
[10]钱丽萍.基于ARIMA模型的儿童医院门诊量预测研究[D].苏州:苏州大学,2015.
[11]Rosychuk RJ,Youngson E,Rowe BH.Presentations to Alberta emergency departments for asthma:a time series analysis[J].Acad Emerg Med,2015,22(8):942-949.
[12]张立栋,李继影,吴颖,等.不同时间分辨率的风功率时间序列ARIMA模型预测[J].中国电力,2016,49(6):176-180.
[13]吴鑑洪.时间序列中回归模型的诊断检验[D].上海:华东师范大学,2007.
[14]韩景静,曾新,王骏.临床试验中率差及其置信区间的估计方法[J].中国新药与临床杂志,2016,35(4):255-259.
[15]杨文光,吴云洁,王建敏.基于熵权法的小样本灰色置信区间估计[J].郑州大学学报,2016,48(1):51-56.
[16]马建威,徐浩,陈洪辉.信息推荐系统中的朋友关系预测算法设计[J].国防科技大学学报,2013,35(1):163-168.
[17]王玉祥,乔秀全,李晓峰,等.上下文感知的移动社交网络服务选择机制研究[J].计算机学报,2010,33(11):2126-2135.
[18]陈品一.基于艾滋病时空数据的防治效果综合评价模型研究[D].重庆:第三军医大学,2013.
[19]张志常,刘雁,娄岩.我国大陆地区各省艾滋病与淋病、梅毒报告发病率的系统聚类分析[J].预防医学情报杂志,2016,32(7):670-672.
Research on AIDS incidence prediction based on ARIMA
YANG Qiu-ying, GUO Guang-xing, CHEN Hui//China Medical Equipment,2016,13(11):1-4.
Objective: Using ARIMA to build modeling AIDS incidence from 2000 to 2014 in China and predict the incidence from 2015 to 2017. Methods: Applying the AIDS incidence in China from 2000 to 2014, analyzing the original data and smoothing processing to meet the requirements of ARIMA model, identify ARIMA parameter and predict the incidence after model fitting from 2015 to 2017. Finally, diagnostic tests are carried out on the model, and the predicted results are analyzed. Results: The incidence of AIDS continues to rise in china from 2000 to 2014 and appears substantial growth from 2011 to 2012. The annual incidence was predicted from 2015 to 2017, respectively 3.57/100000, 3.80/100000 and 4.04/100000. Compared with the trend from 2000 to 2014, the incidence still continued to show an upward tendency. Conclusion: AIDS incidence in China from 2000 to 2014 is used to model time series ARIMA, and the model is used to predict the AIDS incidence from 2015 to 2017. In order to accurately provide the HIV infection data, HIV infection can be aware of their harm in time, so that AIDS can be prevented and controlled effectively.
Acquired immunodeficiency syndrome; Incidence prediction; Autoregressive integrated moving average model
1672-8270(2016)11-0001-04
R512.91
A
杨秋英,女,(1973- ),博士,讲师。首都医科大学生物医学工程学院,研究方向:医学信息学及模式识别。
10.3969/J.ISSN.1672-8270.2016.11.001
山西省科技厅基础平台项目(2014091004-0104)“大数据环境下数据分析和预测方法研究”;首都医科大学基础-临床科研合
作基金(14JL16)“北京市MSM人群艾滋病相关预测模型研究”
△共同第一作者:郭广行
①首都医科大学生物医学工程学院 北京 100069
②太原师范学院地理科学学院 山西 太原 030619
y_yangqy@163.com
2016-06-06