基于ARIMA模型的广州市中医药卫生资源配置预测分析

2024-07-22 00:00:00郭德超张豪徐建敏
科技风 2024年16期

摘要:本文收集了广州地区2003年至2022年的中医药卫生技术人员和医院床位数等数据,采用R语言构建自回归整合移动平均模型(AutoregressiveIntegratedMovingAverageModel,ARIMA)进行中医药卫生资源配置预测研究,分析了广州市中医药卫生资源的情况以及发展趋势,为广州市相关中医药卫生政策制定提供参考依据。

关键词:R语言;卫生资源配置;自回归整合移动平均模型;卫生预测

ResearchontheTeachingApplication

ofDataVisualizationintheCourseofHealthInformationManagement

GuoDechao1ZhangHao2*XuJianmin2

1.SchoolofPublicHealthandManagement,GuangzhouUniversityofChineseMedicine

GuangdongGuangzhou510006;

2.GuangzhouCenterforDiseaseControlandPreventionGuangdongGuangzhou510000

Abstract:ThisarticlecollecteddataontraditionalChinesemedicinehealthcareprofessionalsandhospitalbedsinGuangzhoufrom2003to2022.UsingRlanguage,anautoregressiveintegratedmovingaveragemodel(ARIMA)wasconstructedtopredicttheallocationofhealthcareresources.ThesituationanddevelopmenttrendsoftraditionalChinesemedicinehealthcareresourcesinGuangzhouwereanalyzed,providingreferencefortheformulationofrelevanttraditionalChinesemedicinehealthcarepoliciesinGuangzhou.

Keywords:Rprogramminglanguage;healthserviceresource;autoregressiveintegratedmovingaveragemodel;healthforecast

一、概述

卫生资源是维护公共健康的物质基础,是特定社会和经济条件下整个社会提供给健康部门各项支持的总和,包括人力、财力和物力等[1],在当代中国,随着老龄化日益严重,卫生资源的合理配置已经是国家卫生战略的重要目标。中共中央、国务院于2016年发布的《“健康中国2030”纲要》指出,健康优先、改革创新、科学发展和公平公正是贯彻落实健康中国战略部署的基本原则[2],因此,利用大数据技术对卫生资源进行预测和优化,是实现有限的卫生资源科学配置的有力手段。时间序列模型是统计学的分支之一,是一种基于随机理论和数理统计学的方法,它可以基于历史数据预测未来的发展变化的规律和趋势,揭示研究对象在一定时期内的变化趋势,从而可以有效预测未来的变化,为政府部门科学决策提供依据。ARIMA模型被研究人员用于预测股票的价格或者某地区GDP的发展趋势,目前,医疗研究人员将ARIMA应用于感染性疾病和传染病学[34],也有研究人员将其应用于预防医学和公共卫生研究[57]。本文拟利用时间序列模型来分析广州市2003年至2022年的中医药卫生资源配置数据,预测相关卫生指标,为相关部门决策提供参考。

二、材料与方法

(一)数据资料

本文中的广州市中医医院床位数、中医药卫生技术人员等数据来源于广东省卫生健康委员会发布的2022年广东省卫生健康统计年鉴[9],其中床位数是2003年至2022年广州市中医医疗机构床位数,卫生技术人员是2003年至2022年广州市中医药卫生技术人员数,具体数据如图1、图2所示。

(二)方法

本研究采用基于R语言的ARIMA时间序列分析法,ARIMA时间序列分析法也称为BoxJenkins模型,用来处理单变量同方差的非平稳时间序列,通过差分法或适当的变换转化为平稳序列,再使用ARMA模型。

ARIMA(p,d,q)模型的形式如下:

Φ(B)Δdxt=Θ(B)εt或Δdxt=Θ(B)εtΦ(B)

其中,Δd=(I-B)d为d阶差分。

三、程序代码及其解释

处理床位数数据的程序及其代码解释如下:

##统一设置ggplot2的绘图风格

library(ggplot2)

theme_set(theme_bw())

####:自回归移动平均模型####

##使用ARMA模型来预测未来的数据

library(ggfortify)#载入内置函数包

library(gridExtra)#载入内置函数包

library(forecast)#载入内置函数包

##读取数据

data<read.csv("data/data.csv")

data<ts(data$x)

plot.ts(data)

autoplot(data)+ggtitle("序列变化趋势")

##白噪声检验

Box.test(data,type="LjungBox")

##pvalue=3.045e05,说明不是白噪声

##平稳性检验,单位根检验

adf.test(data)

##pvalue=0.01,说明数据是平稳的

##分析序列的自相关系数和偏自相关系数确定参数p和q

p1<autoplot(acf(data,lag.max=30,plot=F))+

ggtitle("序列自相关图")

p2<autoplot(pacf(data,lag.max=30,plot=F))+

ggtitle("序列偏自相关图")

gridExtra::grid.arrange(p1,p2,nrow=2)

auto.arima(data)

##对数据建立ARMA(2,1)模型,并预测后面的数据

ARMAmod<arima(data,order=c(2,0,1))

summary(ARMAmod)

##对拟合残差进行白噪声检验

Box.test(ARMAmod$residuals,type="LjungBox")

##pvalue=0.7853,说明是白噪声

##可视化模型未来的预测值

plot(forecast(ARMAmod,h=20))

四、结果和讨论

偏自相关系数PACF在1阶后截尾,即滞后期偏自相关系数的大小几乎为0,可以认为p的取值约为1(如图3所示);自相关系数ACF在3阶后拖尾,即滞后期自相关系数的大小几乎为0,可以认为q的取值约为3(如图4所示)。

通过观察自相关系数和偏自相关系数虽然可以确定p和q,但是这不是最好的方法,R提供了自动寻找序列合适的参数的函数auto.arima(),运行该函数后发现较好的ARMA模型为ARMA(2,1),对数据建立ARMA(2,1)模型,并预测后面的数据,程序运行后AIC=464.66,ar1、ar2、ma1三个系数分别为:1.148、-0.1514、0.0605,且在训练集上模型的拟合绝对值误差MAE=0.7656117,数值非常小,说明模型的拟合效果很好。

用函数Box.test()对ARMA(2,1)拟合残差白噪声进行检验,从程序输出的结果可以发现,pvalue=0.9822>0.05,说明残差序列已经是白噪声,即ARMA(2,1)已经成分地提取数据中的有用信息。

最后用forecast()函数来预测未来20年的数据,并将其可视化,得到的结果如图5、图6所示。图中包含了原始序列和预测的序列曲线,并且给出预测值的置信度为80%(舌侧阴影部分)和95%(浅色阴影部分)的置信区间。

本文使用R语言来实现时间序列模型,能够较好地拟合数据,预测广州市卫生资源配置的相关指标,具有一定的理论和实践价值,本文为广州市的卫生资源优化配置提供了参考依据。

参考文献:

[1]韩春蕾,韩坤,王培成.我国卫生资源配置现状及均等化分析研究[J].现代预防医学,2015,42(14):25672570.

[2]中共中央国务院印发《“健康中国2030”规划纲要》[EB/OL].http://www.mohrss.gov.cn/,2016.

[3]BaiL,LuK,DongY,etal.PredictingmonthlyhospitaloutpatientvisitsbasedonmeteorologicalenvironmentalfactorsusingtheARIMAmodel.SciRep.2023Feb15,13(1):2691.

[4]LiuXD,WangW,YangY,etal.NestingtheSIRVmodelwithNAR,LSTMandstatisticalmethodstofitandpredictCOVID19epidemictrendinAfrica.BMCPublicHealth.2023Jan19,23(1):138.

[5]XuM,YueW,SongX,etal.EpidemiologicalCharacteristicsofParainfluenzaVirusType3andtheEffectsofMeteorologicalFactorsinHospitalizedChildrenWithLowerRespiratoryTractInfection.FrontPediatr.2022Apr27,10:872199.

[6]ZhaoW,SunY,LiY,etal.PredictionofCOVID19DataUsingHybridModelingApproaches.FrontPublicHealth.2022Jul22,10:923978.

[7]XinY,WangB,ZhangH,etal.Machinelearningassessmentofwhitebloodcellcountsinworkersexposedtobenzene:ahistoricalcohortstudy.EnvironSciPollutResInt.2023Mar,30(13):3820238211.

基金信息:广州市哲学社科规划2023年度课题,广州市中医药卫生资源空间配置及预警研究(编号:2023GZGJ64)

作者简介:郭德超(1978—),男,汉族,河南南阳人,硕士,讲师,主要从事卫生信息管理工作;徐建敏(1971—),女,汉族,内蒙古包头人,硕士,主任技师,主要从事病媒生物与寄生虫预防控制。

*通讯作者:张豪(1979—),女,汉族,河南南阳人,硕士,主任医师,主要从事疾病预防控制工作。