时间序列分解模型在山东省糖尿病门诊量预测中的应用

2021-02-06 10:23:24焦晨黄艳然赵钦风冷安丽
中国农村卫生事业管理 2021年2期
关键词:残差季节门诊

焦晨,黄艳然,赵钦风,冷安丽

1.山东大学齐鲁医学院公共卫生学院卫生管理与政策研究中心,山东 济南 250012;2.国家卫生健康委员会卫生经济与政策研究重点实验室(山东大学),山东 济南 250012;3.山东大学政治学与公共管理学院,山东 青岛 266200;4.山东大学公共治理研究院,山东 青岛 266200

1 研究背景

医疗服务数据反映了患者寻求医疗建议的时间,但不一定与症状发作的日期一致。尤其是患有轻度疾病的患者可能不会及时就医,除非病程加重或出现并发症[1]。因此,医疗咨询的数量并不是患病情况的简单衡量标准,而是疾病水平、疾病严重程度、医疗保健服务的可及性以及医疗卫生服务需求及利用能力的综合体现[2]。许多医疗机构的就诊数据都可以看到周期性或节假期效应。以往研究主要关注每周或每年的周期性变化,但忽略了公众假期的影响[3]。国外专家把这种“节假日效应”归咎于假期医院员工减少,导致部分特殊治疗和检查不能进行[4]。迄今,关于糖尿病假日效应的文献相对有限,且结果相互矛盾。对就诊人次的周期性和节假日效应必须同时考虑,以便医疗保险管理和医院管理者在节假日及其附近日期内对门诊就诊数据进行持续有效的监督。

时间序列可以帮助医保和医院管理人员每日监测就诊情况,直观识别出异常活动[5]。以往研究发现,在用于症状监测的医疗数据存在周期性和节假日效应,会掩盖真正的疾病流行异常情况[6]。然而,以往采用时间序列分析方法的研究主要基于医院健康信息系统数据,以季度或月度数据为统计指标进行门诊人次或费用的预测,鲜有对医疗保险大数据的规律探索和预测研究。因此本文目的是采用“周”度数据,基于山东省2型糖尿病医保门诊人次构建时间序列分解模型,探索糖尿病门诊就诊规律,并对今后门诊就诊量进行预测。

2 资料与方法

2.1 资料来源

根据ICD-10疾病编码,本研究提取山东省滨州、东营、菏泽、济宁、莱芜、聊城、泰安、威海、潍坊、烟台、枣庄、淄博12个地级市医疗保险数据库中2015年1月1日至2017年12月31日(共计156周)2型糖尿病患者门诊数据。

2.2 研究方法

本研究应用时间序列分解法中广泛的乘法模型建立数学模型。时间序列中每一时期的数据(Yt)是多种因素共同作用的综合结果。这些因素通常可分为4类:长期趋势(T)、季节变动(S)、循环变动(C)和不规则变动(I)。即Yt=Tt·St·Ct·It。

2.2.1 时间单位的划定 每年均从1月1日起,把每7天划定为一“周”。2016年为闰年,为便于各年间统一比较,将2月29日归入当年所在周(第9周)。另外将每年的12月31日归入最后一周。每年均为52周。

2.2.2 时间序列分解模型的构建 使用时间序列分解法构建数学模型,为缩短预测周期,提高短期预测精度。可基于“周”度数据进行预测,其过程如下:

①季节变动因素的计算

采用移动平均法计算季节指数。其步骤如下[7]:第一,计算52项移动平均数,作为该时期中间“周”的趋势值,确定时间序列增长总趋势;第二,计算3年内每周实际门诊人次和趋势值对比的修匀比率;第三,将各年同一“周”的修匀比率加以平均,得到各年同“周”的平均修匀比率(实际季节指数);第四,用修正系数进行修正,得到各“周”最终的季节指数St。修正系数=52/实际季节指数之和×100,季节指数St=修正系数×St'。

②ARIMA模型的构建

建模过程包括序列平稳化、模型识别、模型参数估计、模型预测和评价4个阶段。其中,序列平稳性的判断采用单位根(ADF)检验;p、q值的选择,一般采取信息准则方法,本研究结合Akaike信息准则(AIC)、Schwartz贝叶斯准则(SBC)和残差平方和评价拟合优度;模型参数显著性假设采用t检验;模型适应性检验采用Ljung-Box Q检验并结合残差自相关图,判断残差序列是否为白噪声序列。

③基于ARIMA和季节指数的时间序列分解模型

将季节指数St与剔除季节变动因素后的时间序列预测模型Yt'相乘,即得到关于原始时间序列的预测模型,即Yt=Yt'×St。

2.3 统计分析

采用Excel 2016、SPSS 22.0和Eviews 10.0软件进行统计分析。以双侧检验P<0.05认为差异具有统计学意义。

3 结果

3.1 原始门诊量时序特征

2015-2017年,山东省2型糖尿病患者门诊人次分别为2 312 152、2 884 433、3 221 354,随时间呈现不断上涨趋势,年均增长率为18.22%。每年2型糖尿病就诊人次呈现一定的季节性特征,1-2月份呈现低谷,从2月份开始增长,3-11月小幅度波动,11-12月份又有一定幅度的增高。此外,门诊人次也受到节假日效应的影响,春节和国庆周门诊人次达到一年中最低水平。见图1。

图1 2015年1月-2017年12月糖尿病“周”门诊人次时序图

3.2 季节指数序列图

实际季节指数之和为5 213.08,修正系数为99.75%,根据以上公式,计算得出最终季节指数St。由于春节和国庆节的节假日效应,图中有两个明显的低谷,分别在第6周和第40周,季节指数分别为60.86%和74.01%。其后,在第9周和第41周,相继出现两个小高峰,季节指数达113.24%和115.31%。见图2。

图2 季节指数序列图

3.3 构建时间序列分解模型

3.3.1 ARIMA模型的识别和诊断 单位根检验结果判断一阶差分后的序列为平稳序列(P<0.000 1)。其自相关函数图和偏自相关函数图见图3。自相关函数在滞后2期以后被截断,偏自相关函数的绝对值呈现衰减态势,初步判断样本很可能服从MA(2)过程。结合Akaike信息准则(AIC)、Schwartz贝叶斯准则(SBC)和残差平方和评价拟合优度,由低阶到高阶逐个试验。其中,备选模型诊断的主要依据有:①模型参数通过t检验,即模型参数显著异于零;②通过Ljung-Box Q检验和残差自相关图,确定残差序列为白噪声序列。最终拟合模型为ARIMA(2,1,2)。

图3 一阶差分序列自相关函数图和偏自相关函数图

3.3.2 ARIMA模型的参数估计和检验 由表1可知,模型系数均有统计学意义(P<0.05),R2=0.947。

表1 ARIMA(2,1,2)模型的参数估计

3.3.3 ARIMA模型的检验 图4为模型残差自相关图,此模型残差均落入95%置信区间内,初步判定模型已包含原始序列的所有特征。Ljung-BoxQ检验统计量为13.275,P=0.505,证明残差为白噪声序列。ARIMA(2,1,2)为最优模型。用公式表示为:Yt'=DYt'+Yt-1'=0.354DYt-1'-0.272DYt-2'+εt-1.579εt-1+0.706εt-2+224.451+Yt-1'

图4 残差自相关图

3.3.4 包含季节变动因素的时间序列模型 2型糖尿病患者门诊人次的预测模型为:

Yt=Yt'·St

=(DYt'+Yt-1' )St

=(0.354DYt-1'-0.272DYt-2'+εt-1.579εt-1+0.706εt-2+224.451+Yt-1' )St

3.3.5 模型的评价 用150-156周的门诊人次回代检验模型的预测效果,根据预测值与实际值的相对误差判断模型的预测精度。模型回代显示,预测值相对误差的范围为0.32%-9.71%,平均绝对百分比误差(MAPE)为3.39%。进一步使用模型预测2018年门诊人次为4 033 516,同比增长20.14%。

4 讨论

4.1 ARIMA模型在门诊量变化预测中的应用

ARIMA模型兼有回归分析和移动平均的长处,是一种短期预测精度较高的方法研究,适合任何发展形态的序列,也是现代医学统计预测最为常用的方法之一[8]。由于受到季节变动的影响,医学领域的一些指标呈现一定的周期性和循环波动。为获得更高的预测精度,本研究采取了时间序列分解法,将季节变动因素“暂时”剔除,用消除季节影响的时间序列建立ARIMA模型。研究结果表明,基于山东省糖尿病门诊大数据而构建的ARIMA与季节指数组合模型拟合良好(R2=0.947),预测效果非常理想。

而且,本研究建立的ARIMA模型,采用的数据汇总了山东省12市医保系统中2型糖尿病患者就诊信息,样本量大,数据来源可靠。以往基于单一医院就诊数据进行分析预测,所受影响因素众多,波动较大,在针对某一疾病进行预测时不具有普适性,如季节性波动、长期增长趋势、节假日效应等。本研究能较好地解决这个问题。

4.2 门诊人次的预测

对门诊人次进行预测,可以了解慢性病流行趋势,为将来制订工作计划和合理配置卫生资源提供决策依据,提高社会效益和经济效益。使用构建的季节组合ARIMA模型预测2018年山东省2型糖尿病门诊量为4 033 516人次,同比增长20.14%;结合2017年度患者人数进一步估算年人均门诊次数,结果为11.52次,相比于2017年的9.20次增长了2.32次。门诊人次逐年递增,可能的主要原因有[9]:①我国人口老龄化加剧,疾病谱发生转变;②不健康的生活方式,包括超重或肥胖、体育运动不足、吸烟和不健康的饮食习惯,导致2型糖尿病及其相关并发症的发生率增高;③物质生活水平的提高释放了更多的医疗需求。

2型糖尿病患者年人均门诊次数远高于居民平均就诊次数。就诊不仅为患者带来直接医疗费用经济负担,也会产生间接经济负担。因此非常有必要采取相应的政策干预,有效减少2型糖尿病的就诊次数。此外,如结合2型糖尿病次均门诊费用,可预测得到全省糖尿病门诊直接医疗费用,为评估医保基金负担提供参考。

4.3 糖尿病门诊量的季节性

每年2型糖尿病就诊人次呈现一定的季节周期性和节假日效应,尤其是春节效应和国庆节假日效应。根据以往研究,寒冷的气候可导致2型糖尿病患者糖化血红蛋白水平升高,冬季(12-2月)也是糖尿病急性并发症更易发生的季节[10]。然而,由于中国人最重视的传统节日恰在每年的1-2月份,暴饮暴食、就诊不及时等原因会致使患者血糖自我管理情况不佳,造成不良后果[11]。且冬季寒假期间的血糖控制不佳无法逆转,其累积效应很有可能导致患者每年糖化血红蛋白的升高[12],病情加重并出现并发症。因此,建议基层医疗卫生服务中心加强在两节之前的健康教育,提高糖尿病患者在长假期间的自我健康管理意识。

4.4 研究的局限性

ARIMA与季节指数组合模型虽有较高的拟合度和精确度,但无法回避移动节假日的影响。由糖尿病门诊时序图可知,每年糖尿病就诊人次除了呈现一定的季节性特征外,还受到节假日效应的影响。此外,ARIMA模型比较适合短期预测,随着预测期增加,标准误差随之增大,预测结果也会变得越不确定[13]。因此,要提高预测精度,需要通过新获得的数值对模型进行更新或修正。

综上,基于ARIMA与季节指数的时间序列模型对糖尿病门诊人次发展变化规律的分析有较好的适应性和实用性,可以较好地拟合糖尿病门诊人次并用于预测研究。另外,患者门诊就诊呈现显著的季节周期性和节假日效应。基层卫生服务机构应采取针对性措施控制糖尿病门诊医疗服务的过快增长。

利益冲突无

猜你喜欢
残差季节门诊
基于双向GRU与残差拟合的车辆跟驰建模
门诊支付之变
基于残差学习的自适应无人机目标跟踪算法
我喜欢的季节7
基于递归残差网络的图像超分辨率重建
自动化学报(2019年6期)2019-07-23 01:18:32
季节蠕变
英语文摘(2019年5期)2019-07-13 05:50:06
季节的变换
幼儿画刊(2018年10期)2018-10-27 05:44:36
汉字小门诊系列(四)
汉字小门诊系列(九)
汉字小门诊系列(八)