陈国伟 伍啸青 林艺兰
ARIMA模型在厦门市居民人均期望寿命预测中的应用
陈国伟1,2,3△伍啸青1,2,3林艺兰1,2,3
目的 探讨自回归综合移动平均数(ARIMA)模型预测厦门市居民人均期望寿命的可行性。方法 利用1987年至2013年厦门市居民期望寿命数据,借助SAS9.1软件建立模型,参数估计采用最小二乘法。结果 厦门市居民的期望寿命从1987年的72.62岁上升至2013年的79.68岁,女性期望寿命均大于男性,平均相差(5.79±0.45)岁。建立的疏系数ARIMA((4),1,0)模型预测值与实际值的平均相对误差为1.07%,预测2013年的期望寿命约为79.35岁(95%CI:77.46~81.26岁)。加入2013年数据重新调整模型后预测2014-2016年厦门市居民的期望寿命分别为79.91岁、80.31岁和80.60岁。结论 ARIMA模型可用于对厦门市居民期望寿命的短期预测。
期望寿命 时间序列 ARIMA模型 预测
期望寿命是衡量一个国家或地区的人群健康状况和经济发展水平的综合指标,其不受国度和种族的影响,适于不同国家地区间的比较[1]。预测人群期望寿命的未来走势可为国家或地区制定社会发展规划及决策提供重要参考,但目前对期望寿命的预测研究较少,本研究欲探讨自回归综合移动平均数法(autoregressive integrated moving average,ARIMA)预测厦门市居民期望寿命的可行性,现将结果报告如下。
1.资料来源
1987-2013年的人口死亡资料来自厦门市死因监测系统。其中1987-1989年的数据为1989年对岛内居民做的回顾性调查,1990年开始岛内和同安县建立死因监测点,2002年后,监测范围覆盖全市(岛内两个区,岛外四个区,其中同安、翔安两个区原属同安县)。2002年以前采用ICD-9编码、2002年及之后采用ICD-10编码建立死因数据库。人口学资料来自厦门市公安局。
2.建模方法
ARIMA(p,d,q)模型是 1976 年Box-Jenkins提出的随机时间序列预测方法[2],其中p为自回归阶数、d为差分阶数、q为滑动平均阶数,模型结构可表示如下:
其中Φ(B)=1-φ1B-φ2B2-…-φpBp,Θ(B)=1-θ1B-θ2B2-…-θqBq,B为后移算子,dxt为d阶差分,εt为模型在t时期的偏差或误差。φi为模型自回归系数,θi为模型滑动平均系数。若模型出现某些系数(φi或θi)省缺了,则称为疏系数ARIMA模型[2]。
本研究利用1987-2012年厦门市居民的期望寿命确定最优模型,用2013年期望寿命进行组外回代,计算预测误差以判断预测精度。最后用1987-2013年的数据重新拟合模型,预测厦门市居民未来三年的期望寿命。建模前利用原始数据的散点图和自相关图(ACF)观察数据是否平稳。若不平稳则采用差分处理。利用SAS提供的p≤5、q≤5的BIC信息量,取BIC值最小者初步进行模型定阶,根据BIC值不断调试模型的阶数进行模型检验(包括参数检验和残差检验)。采用最小二乘法估计参数,若某个参数不显著,则剔除后重新拟合模型;若模型信息提取不完全,即残差为非白噪声序列,不能用于预测,需重新建模。若同时有几个模型通过检验,以AIC值最小者为最佳模型。
3.统计分析方法
1.厦门市居民期望寿命变化情况
厦门市居民期望寿命从1987年的72.62岁逐渐上升到1993年的77.92岁,之后有所下降逐渐平稳,2002年上升至78.23岁,之后又有所下降,至2006年降至74.54岁,之后逐渐回升,至2013年为79.68岁。女性期望寿命大于男性,差异值最小为3.56岁(1994年),最大为7.78岁(2001年),平均相差(5.79±0.45)岁,见图1。
2.建立预测模型
从图1可以看出原始数据可能存在上升趋势,其自相关函数图(图2)显示自相关系数长期位于零轴一边,且部分超过2倍标准差,数据不平稳;经1阶差分后的自相关函数基本落入2倍标准差范围(图3),数据平稳可用于建模。利用SAS软件提供的p≤5、q≤5的BIC信息量,模型初步定阶为p=4,q=0。经参数检验,模型ARIMA(4,1,0)中只有延迟阶数为4的自回归系数有意义(见表1),剔除没有意义的参数重新拟合模型,最后建立疏系数ARIMA((4),1,0)模型,其残差检验各延迟阶数卡方统计量的P值均大于0.05(见表2),残差为白噪声序列,拟合的模型有效。此时AIC值为71.098,SBC值为73.536。组内回代结果显示,预测值与实际值平均相对误差为1.07%,预测2013年的期望寿命约为79.35岁(95%CI:77.46~81.26岁),比实际79.68岁少0.33岁。
3.模型预测结果
加入2013年期望寿命值重新拟合模型,最后所得模型参数φ4=-0.42361,模型可表示为:xt=xt-1-0.42361xt-4+0.42361xt-5+εt,其中x为期望寿命,t为年份,εt为残差。预测2014-2016年厦门市居民的期望寿命分别为79.97岁、80.31岁和80.60岁。2006年的理论预测值与实际值相差最大(预测值为76.23岁,实际值为74.54岁,相对误差2.26%),但预测值仍在95%可信区间范围内,见图4。
期望寿命是衡量一个国家或地区的人群健康状况和社会经济发展水平的综合指标,它消除年龄结构影响,适于不同人群和不同地区之间直接比较[1]。世界卫生组织(WHO)最新统计数据显示2012年我国居民的出生期望寿命为75岁(男性74岁、女性77岁),比北美、欧洲的发达国家略低,但远高于全球平均水平70岁(男性68岁、女性73岁)[3]。厦门市居民在1993年期望寿命就已超过75岁,2012年达到79.19岁,高于全国平均水平4.19岁,这与我市成为经济特区,经济与社会协调发展分不开。WHO的报告还显示所有调查地区的期望寿命女性均高于男性,从全球看平均相差5岁左右,从全国看平均相差4岁左右[3],厦门市居民1987-2013年的期望寿命也都是男性低于女性,平均相差5.79岁。男性寿命低于女性除生理因素外,也可能与男性工作生活压力较大、作息不规律、饮食不平衡及吸烟、酗酒等生活习惯和方式有关[4]。
对人群期望寿命发展趋势的预测可为政府制定社会发展规划及决策提供参考,但目前对期望寿命的预测研究较少,仅见用线性回归模型进行预测[5]。ARIMA 模型是应用日臻成熟的时间序列分析方法,它无须事先了解资料的典型特征,只须预设一个可能适用的模型,再不断调整参数获取最优模型,在疾病发病或死亡的预测中应用广泛[6-8],很少应用于对期望寿命的趋势预测。本研究尝试建立ARIMA模型对厦门市居民期望寿命进行预测,结果显示预测值与实际值平均相对误差为1.07%,预测精度较好,预测2013年的期望寿命约为79.35岁,比实际少0.33岁,在可接受范围,且模型拟合效果图也显示预测值与实际值基本吻合,说明所建立模型预测效果较好,可用疏系数ARIMA模型对厦门市居民未来的期望寿命进行短期预测。根据模型预测值2015年厦门市居民期望寿命将达到80.31岁,比2011年增加约1.33岁,能达到国家十二五规划制定的五年人均期望寿命增加1岁的要求。与静态数据的回归分析不同,时间序列分析的模型拟合是动态过程[2],实际应用中须不断收集新数据,用于验证已建立的模型,并不断加入新数据重新调整模型,使其更接近实际情况。
ARIMA模型预测具有资料易得、操作简便且精确度高等优点[9],但在建模过程中应注意几个问题:首先,建模过程最困难的是模型识别和定阶步骤,常用的瞎子爬坡(从低阶向高阶递进)逐步试探法或根据自相关图和偏自相关图的截尾性和拖尾性定阶的方法过程冗杂,要求建模者有一定经验,且须花费大量精力筛选最优模型[10]。SAS软件可提供p≤5,q≤5的模型BIC值,并直接指出BIC量最小的模型阶数,本研究发现利用其直接提供BIC量最小的阶数初步识别模型,并根据BIC值从小到大不断尝试建模,在通过参数检验和残差检验的几个有意义的模型中根据AIC准则[2](AIC值越小越好)筛选最优模型,简化了定阶过程,经验不足者也能快速掌握。其次,建模的时间序列太短会影响模型的稳定性,可靠性较差,一般要求序列达到30,本研究用25年期望寿命值建的模型平均相对误差并不大,未来每年应不断加入新的期望寿命值重新调整模型,使模型更稳定。再次,本研究发现模型的预测值如果提前一个间隔期,即用模型算出的t+1年的期望寿命值来作为t年的期望寿命预测值,模型拟合效果更好,平均相对误差只有原来的一半(约0.56%),2013年的期望寿命预测值为79.62岁,只比实际值相差0.06岁,是否每个一阶差分模型都会有这样的效果有待于进一步探索。最后,在建模过程中,如果序列的均值远大于0,如本研究中原始数据期望寿命均值达76岁多,拟合的模型若没有常数项,结果将与实际值偏差很大,没法用于预测,此时即使常数项无统计学意义也应予以保留。本研究最后拟合的是一阶差分后的序列,均值0.27接近于0,常数项没统计学意义剔除后不影响预测。
总之,ARIMA模型对厦门市居民期望寿命的预测相对误差小,模型稳定,可进行短期预测。
[1]黄洋洋,王曼,杨永利,等.河南省居民期望寿命及与经济和卫生事业发展的关系.郑州大学学报(医学版), 2013,48(5):643-645.
[2]王燕.应用时间序列分析.北京:中国人民大学出版社,2008:152-159.
[3]World Health Organization.Life expectancy:Life expectancy Data by country[DB/OL].http://apps.who.int/gho/data/node.main.688(2014-05-05/2014-07-10).
[4]沈洁,姜庆五.2005-2010年中国城市居民期望寿命性别差异的分析.中华流行病学杂志,2013,34(75):690-695.
[5]吕行,关思宇,犹忆,等.期望寿命与婴儿死亡率的预测.现代预防医学,2011,38(21):4389-4390.
[6]郑名烺,陈辉.麻城市自杀死亡水平时间序列模型分析及预测研究.中国卫生统计,2012,29(3):395-396.
[7]陈正利,陈伟,许汴利.应用ARIMA模型对河南省1991-2011年乙型肝炎发病趋势分析.中国卫生统计,2013,30(3):401-403.
[8]朱奕奕,赵琦,徐飚,等.ARIMA乘积季节模型在上海市甲肝发病预测中的应用.复旦学报医学版,2012,39(5):460-464.
[9]申铜倩,刘文东,胡建利,等.x-11-ARIMA过程在痢疾疫情预测中的应用研究.中国卫生统计,2014,31(3):395-398.
[10]安淑一,赵卓,郭军巧,等.应用时间序列模型预测辽宁省麻疹疫情.中国卫生统计,2014,31(5):781-783.
(责任编辑:刘 壮)
1.厦门市疾病预防控制中心(361021)
2.福建医科大学预防医学专业教学基地
3.厦门大学公卫学院预防医学教学基地
△通信作者:陈国伟,E-mail:strlchen@163.com