李望晨 王在翔 肖文静 张利平△
两类思想时间序列建模方法在医疗收入趋势周期预测中的应用*
李望晨1,2王在翔2肖文静2张利平1,2△
时间序列分析是利用历史时序资料分析事物本身随时间变化规律,经数学模型拟合后提取历史延续性信息,惯性外推后预测未来。随着交叉学科多样化方法引入,时间序列分析技术和软件工具不断拓展,为不同问题数据资料提供适应空间[1-4]。经济事物季度或月度数据常有周期波动与长期趋势,观测数据多且有连贯性,周期起伏波动与长期延续性趋势明显。常规模型方法性能有限,如灰色法适于短期较平缓性随机时序分析,曲线拟合法适于长期平滑趋势时序分析,ARIMA法适于长时平稳随机时序分析[5]。于是考虑以下两种新思路:第一种思路是,对于季节或周期性变化时间序列数据,先用季节效应分解法计算处理,将时间序列分解为长期趋势因素、季节性因素和随机波动因素,然后分别提取不同类型规律性信息。第二种思路是,对季节性变化数据也可直接用季节效应ARIMA法建立模型(简单季节模型或乘积季节模型[6])。前者是针对趋势性和季节性的时序数据资料,先用低阶差分消除长期趋势,再用周期步长差分消除周期性波动,转化为平稳序列后由ARIMA模型对其进行拟合。若短期相关和季节效应间有交互关系,应考虑后者(即乘积季节模型)。
针对趋势和季节性时序数据分析问题,借助算例载体建立模型,比较两类思路的原理,进行方案设计和效果比较。算例资料为某医院2001-2012年季度收入数据,建立拟合模型并外推预测。先从数据散点图进行预分析,发现随时间呈现周期波动和平缓发展延续特点,即以年为周期有季节波动起伏和长期平滑递增趋势,数据资料见表1。
表1 某医院2001-2012年按季度收入数据(万元)
以X11过程法进行时间序列分解[7],提取季节指数因素,并经调整后得到趋势序列,再分别用ARIMA法或多项式曲线法拟合与外推,将外推值与季节指数乘积还原合成预测值,该思想属于组合预测法的范畴。X11、ARIMA法可用SAS软件,曲线拟合法可用Excel软件。
X11过程法可以实现时间序列因素分解目的,然后将分解后的长期趋势、季节波动、交易日、不规则等因素建立模型。该算法较复杂:以多次短期中心移动平均消除不规则波动,周期移动平均消除长期趋势,交易周期移动平均消除交易日因素,等等,前后共作11次移动平均,剔除季节波动影响,交易日影响不存在,计算季节指数和长期趋势。鉴于因素交叉关联,该法使用X11乘法模型,借助SAS软件实现。
原始序列经X11法提取季节指数,分别为96.13%,97.77%,100.26%和105.86%,经季节调整后得到长期趋势序列(图1),以及剩余随机波动序列(图2)。
1.ARIMA法 ARIMA就是自回归移动平均模型,表达式为Φ(B)dxt=Θ(B)εt,设φi,θj为自回归和移动平均系数。Φ(B)=(1-φ1B-…-φpBp), Θ(B)=(1-θ1B-…-θqBq), 其中Bkxt=xt-k为k步延迟算子,d阶差分算子为d=(1-B)d。简明步骤包括模型定阶、识别、检验和应用。{xt}经过低阶差分后消除增长趋势得到平稳序列,经纯随机性检验资料有无建模必要。根据AIC、SBC最小准则定阶适合模型结构,以t检验法识别模型参数。最后对残差序列{εt}进行纯随机性检验,分析模型是否显著,最后进行预测应用。
图1 季节调整后长期趋势
图2 剩余不规则波动
X11法消除原始序列季节影响后,以ARIMA法拟合长期发展趋势。先经差分处理为平稳序列,用于拟合数据变化规律。序列经二阶差分消除趋势平稳,不是纯随机平稳序列;在p,q≤6中自动寻优定阶,MA(2)模型BIC=5.843最小,参考自相关图和偏自相关图最优定阶。由条件最小二乘法识别参数,最终得到模型表达式(1-B)2xt=(1-1.083 7B+0.335 61B2)εt。经分析,拟合后残差序列为纯随机序列,延迟阶数为6,12,18,24时,P=0.561,0.889,0.975和0.824>0.05,由模型得到趋势外推值3703,3752,3802,3851,乘以季节指数后还原计算2012年医院收入预测值3560,3668,3812,4077;计算相对误差1.04%,1.44%,1.76%,2.29%。
X11过程法消除季节影响后以曲线拟合法分析长期趋势,计算增长特征,二阶差分与时序有线性变化特点,可确定二次多项式xt=2767.58-10.2318t+0.67456t2为模型表达式,决定系数R2=0.980,F检验P<0.001,说明模型拟合理想,趋势外推值为3673,3724,3777,3831,乘以季节指数还原后得到2012年医院收入预测值3531,3641,3787,4055,计算相对误差1.84%,2.17%,2.41%,2.80%。经验证,三次多项式拟合稍优于二次多项式,决定系数R2=0.991>0.980,F检验P<0.0001,建立模型xt=2679.66+11.976t-0.545t2+0.018t3拟合理想,趋势外推值为3761,3836,3914,3997,乘以季节指数还原后为预测值3616,3750,3924,4231,计算相对误差0.51%,0.75%,1.14%,1.41%。多项式回归系数均有统计学意义,不作赘述。
ARIMA作为随机时序分析法,应根据序列过去值、当前值与残差制定线性模型;趋势序列存在较平滑稳定变化趋势,随时间呈多项式延续增长特点。经季节调整后对长期趋势进行拟合、外推。经比较,X11-三次多项式模型(黑色粗线)为最佳,长期趋势的拟合与外推效果比较分别见图3~5。三种组合模型对原始序列的拟合及外推效果比较见图6。
图3 ARIMA模型
图4 二次多项式模型
图5 三次多项式模型
图6 三种组合模型的拟合外推效果比较
先用低阶与周期差分提取趋势与季节信息,转化为平稳序列后直接用简单季节ARIMA模型或乘积季节ARIMA模型分析,验证并比较拟合与外推效果。
1.简单季节ARIMA模型 趋势季节数据可经周期步长差分提取季节信息,经简单低阶差分提取趋势信息,根据提取后的残差序列作为平稳序列拟合依据。构造模型结构:
Φ(B)Ddxt=Θ(B)εt,Θ(B)=(1-θ1B-…-θqBq), Φ(B)=(1-φ1B-…-φpBp)。其中D为周期步长,d为差分阶数;{εt}为白噪声序列。对于按年度呈季节周期、长期趋势变化序列而言,若存在多项式趋势则用二阶差分,若存在季节变化特点,则用4步周期差分4=(1-B4),观察差分处理后序列是否达到平稳,对其用ARIMA法建立模型。
前面计算显示季节效应消除后,长期趋势呈现二次或三次多项式特点。由于差分计算会损失随机性信息,于是仅用2阶差分消除趋势,再经过4步周期差分消除季节趋势。不必提取季节指数信息,直接建立低阶差分ARIMA模型。在SAS程序中由ACF和PACF特点反复调试模型阶数并识别模型参数。最后确定(1-0.33455B+0.25349B4)(1-B4)(1-B)2xt=εt为模型表达式。经过延迟6,12,18,24时,P=0.6489,0.9700,0.9915,0.8880,表明残差序列已经为纯随机序列,模型显著。经模型预测得到2012年医院收入预测值为3567,3670,3815,4079;计算相对误差0.83%,1.40%,1.68%,2.23%。
2.乘积季节ARIMA模型。简单季节模型中季节效应、趋势效应之间若有交互影响,则需要构建乘积季节模型。低阶差分后序列用ARMA(p,q)提取短期相关性,用ARMA(P,Q)提取季节效应或季节相关性。假设二者有交互效应和乘积关系,则须构造为乘积模型结构形式:
ARIMA(p,d,q)×(P,D,Q)S: Φ(B)ΦS(B)Ddxt=Θ(B)ΘS(B)εt;
其中,Θ(B)=(1-θ1B-…-θqBq), Φ(B)=(1-φ1B-…-φpBp);
ΘS(B)=(1-θ1BS-…-θQBQS), ΦS(B)=(1-φ1BS-…-φpBPS)。
二次多项式特点长期趋势可用二阶差分,季度周期可用4步周期差分。为避免过度差分丧失随机信息,仍用2阶、4步差分。同理在SAS中经反复调试模型阶数及识别参数,得到模型ARIMA(4,2,0)×(1,1,0)4,其表达式为(1-0.39647B)(1+0.33027B4)(1-B4)(1-B)2xt=εt。残差序列延迟6,12,18,24时,P=0.8449,0.9893,0.9957,0.9147,说明为纯随机序列,模型显著。由乘积季节模型直接外推2012年医院收入预测值3577,3680,3828,4088。计算相对误差0.56%,1.13%,1.34%,2.01%。经模型拟合效果比较,乘积季节ARIMA模型最佳,季节效应和短期相关性有交互影响。
以上从两类建模方案设计5种拟合模型。第一种方案:X11法与随机时序分析法(ARIMA)或确定性时序分析法(多项式曲线)建立组合模型。第二种方案:根据季节效应和短期相关性间存在简单加法或交互乘法影响,直接可以建立两类季节ARIMA模型。
经过模型定阶、识别等数据计算处理,然后由模型得出2012年预测值、相对误差。经比较分析,模型拟合和外推效果均不错,优劣顺序依次为X11-三次多项式、乘积季节ARIMA、简单季节ARIMA、X11-ARIMA、X11-二次多项式。预测值和相对误差绝对值见表2。
表2 5种模型预测精度比较情况
用X11过程法提取季节指数,经调整后得到长期趋势序列,用ARIMA法或曲线拟合法建模拟合外推,与季节指数相乘后还原计算预测值。该方案体现组合建模思想。须说明,长期趋势序列预测效果已经很好了,无须对ARIMA法和曲线法再进行加权组合计算。另一种方案是采用周期差分和低阶差分提取季节变动和长期趋势因素,将转化后的平稳序列建立ARIMA拟合模型,根据是否季节效应和短期相关是简单加法关系还是复杂交互乘法关系,分别考虑构建简单季节模型或乘积季节模型。
以某医院收入的季度数据作为实证算例,周期波动稳定和长期变化趋势规律明显,数据资料丰富连贯,受随机混杂因素影响小。两种方案原理不同,第一种体现时间序列分解后的组合建模思想,第二种是对两类季节模型的选择使用。经比较发现乘积季节ARIMA模型、X11-三次多项式模型拟合性能最佳,拟合与外推效果均不错。
[1]张利平,于贞杰,张建华,等.六种时间序列组合建模方案在卫生费用趋势拟合中的应用研究.中国卫生经济,2015,34(8):56-58.
[2]李望晨,王春平,张利平基于时间序列方法适配建模分析的卫生支出预测实证研究.中国卫生统计,2015,32(2):273-274.
[3]张利平,李望晨.趋势外推与ARIMA法在卫生费用组合预测建模中的应用.中国卫生统计,2015,32(3):430-432.
[4]李望晨.基于增长特征法与ARIMA的人均卫生事业费趋势预测比较研究.中国卫生统计,2014,31(3):450-452.
[5]李望晨,王素珍,刘洪庆,等.预测问题应用设计中的若干适配对策与实证研究.中国卫生统计,2015,32(3):547-549.
[6]张爱红,周培,申铜倩,等.乘积季节ARIMA 模型在食源性疾病预测中的应用.中国卫生统计,2014,31(3):68-73.
[7]申铜倩,刘文东,胡建利,等.X11-ARIMA过程在痢疾疫情预测中的应用研究.中国卫生统计,2014,31(3):395-397.
(责任编辑:郭海强)
*资助项目:教育部人文社科基金(15YJCZH087);山东省自然科学基金(ZR2015HL101);山东统计科研项目(KT16230,KT16231)
1.潍坊医学院“健康山东”重大社会风险预测与治理协同创新中心(261053)
2.潍坊医学院公共卫生与管理学院
△通信作者:张利平