ARIMA模型在临床红细胞需求预测中的应用

2019-10-15 10:27刘芸男彭荣荣杨冬燕杨小丽
安徽医科大学学报 2019年10期
关键词:差分残差红细胞

刘芸男,彭荣荣,杨冬燕,杨小丽

根据世界卫生组织的研究报告,当无偿献血率达1%~3%时才能满足该国基本的供血需求,2017年我国无偿献血率为1.05%,可以看出我国血液保障能力尚处于“紧平衡”状态[1]。近年来重庆市社会经济快速发展,百姓医疗服务需求不断增长,引发临床用血量的迅速增加,尤其是互助献血取消后,临床血液需求缺口加大。然而,目前重庆市对临床血液需求的预测缺乏科学的方法,主要依据相关人员既往经验粗略估算,此法存在较多局限。故该研究采用自回归移动平均模型(autoregressive integrated moving average model,ARIMA)建立需求预测模型,在全面了解临床血液需求的基础上,突破采供血的区域政策限制,在各区域间实现血液资源的整合与合理调配,避免区域性血液资源短缺或过剩现象的发生。

1 材料与方法

1.1 数据来源及处理获取重庆市血液中心2006~2016年红细胞类制品出库记录,红细胞类制品包括辐照悬浮红细胞、辐照悬浮少白细胞红细胞、去白细胞悬浮红细胞等。临床红细胞用量以单位(U)计算,1 U红细胞类制品由200 ml全血分离制备。

ARIMA模型建立的基本步骤:① 数据平稳化处理。通过时序图初步判断序列是否平稳,若为不平稳序列,则针对序列不平稳的趋势性或周期性进行差分或季节性差分处理,实现序列的平稳化。② 模型识别。对平稳序列做自相关图,根据自相关函数和偏自相关函数拖尾、截尾情况估计p、d、q值,建立备选模型;并根据贝叶斯准则(bayesian information criterion, BIC)选择最优模型[3]。③ 模型检验。根据残差ACF图与PACF图以及Ljung-Box Q统计量,判断残差序列是否为白噪声。若是,则模型可用于预测;若否,则需重新对序列进行识别、估计和检验,以获得最优拟合模型。④ 预测并验证。运用最终选定的ARIMA模型预测需求值,计算95%CI以及相对误差,并与同期的实际值比较,以验证模型的拟合效果。

1.3 统计学处理运用Excel软件建立数据库,按月对临床红细胞用量进行统计与整理;并采用SPSS 19.0软件进行数据分析及模型构建,以P<0.05为差异有统计学意义。

2 结果

2.1 红细胞类用量时间序列图及平稳处理绘制2006年1月~2016年6月红细胞类临床用量时序图(图1)。2006~2016年红细胞类制品用量波动幅度较大,总体呈上升趋势;同时序列还存在明显的季节周期性,在12个月为一个周期的序列中,每年的3、4、11、12月份用量相对较高,2、6、7、8月份则较低。鉴于序列具有趋势性与周期性的不平稳特征,故对数据采取差分及季节性差分处理。经过一次差分和一次季节性差分后序列如图2所示,观测值均围绕0值上下随机波动,故可认为处理后的序列为平稳序列。

2.2 模型的识别鉴于2006年1月~2016年6月红细胞临床用量序列存在明显的趋势性和季节性,故选用季节性ARIMA(p,d,q)(P,D,Q)s模型。本研究序列的季节周期为12个月,故s取12;因对原序列进行了一阶差分和一阶季节差分,故d=1,D=1。绘制一阶差分和一阶季节差分后ACF图和PACF图(图3),ACF延迟数目在1、4、5、11、12阶时均有突出,截尾及拖尾特征不明显,判定q=0,而PACF在3阶之后快速下降为0,呈三阶截尾,判断p=3;ACF延迟数目在12阶时样本自相关函数显著不为0,PACF则是在12阶附近显著不为0,因此P=1或0,Q=1。因此,识别的备选模型为ARIMA(3,1,0)(0,1,1)12和ARIMA(3,1,0)(1,1,1)12。对备选模型的参数估计和假设检验结果见表1,依据标准化BIC值越小,模型拟合效果越好的准则,确定最优模型为ARIMA(3,1,0)(0,1,1)12,且该模型与SPSS专家建模器推荐的模型一致。

图1 原始数据序列图

图2 差分和周期调整后序列图

图3 原始序列一阶差分和一阶季节差分后ACF图和PACF图 A:ACF; B:PACF

表1 备选模型的参数估计和假设检验

2.3 模型检验对最优模型ARIMA(3,1,0)(0,1,1)12的残差序列作自相关函数和偏自相关函数图(图4),残差的自相关函数和偏自相关函数基本都在95%CI内,同时Ljung-Box Q统计量为19.274,P>0.05,无统计学意义,说明残差序列不存在自相关,通过白噪声检验。综上判定该模型适用于重庆市血液中心临床红细胞需求量的预测。

2.4 预测及应用运用ARIMA(3,1,0)(0,1,1)12模型对2016年7~12月红细胞临床用量进行预测,绘制预测值与实际值时序值拟合图(图5)。预测值与实际值曲线趋势基本相同,且预测值均在95%CI内,平均相对误差较小,为2.55%,见表2。

3 讨论

ARIMA模型综合考虑了序列的趋势性和周期性变化等因素,借助模型参数进行量化表达,通过反复识别和模型诊断、比较,以获得最佳模型[4]。ARIMA模型具有数据收集简单、适用性强、预测精确度高等特点[5],近年来在医学卫生领域已得到广泛应用,如艾滋病、疟疾、乙肝等疾病发病趋势及卫生支出的预测等[2,6-8]。

临床红细胞用量是一组根据某年某月的时间间隔顺序记录下的有序数据,分析显示该时间序列数据呈一定的趋势性与周期性特征,说明时间序列分析的ARIMA模型可用于血液需求预测,且已得到相关研究[9]的证实。有文献[10]报道,ARIMA模型在预测临床血液需求方面优于其他时间序列模型。

红细胞成分血具有纯度和浓度高、临床疗效好、病毒感染风险低等特点,但保存期限较短一般为21~35 d。近年来,由于医疗服务能力的提高和医疗服务需求的快速增长加剧了血液的供需矛盾,结构性、季节性、区域性缺血现象时有发生。尤其是在省级血液中心覆盖的、高端医疗资源集中的地区情况更为严重[11]。

图4 模型残差自相关函数和偏相关函数图

图5 实际值与预测值比较图

表2 2016年7月~2016年12月预测结果(U,%)

本研究将血液供需矛盾最为突出的血液中心纳入研究视野,以重庆市血液中心为研究对象,对该血液中心2006年1月~2016年6月每月向医院提供的红细胞用量进行分析建模,得出最优模型为ARIMA(3,1,0)(0,1,1)12;运用该模型对重庆市血液中心2016年7~12月每月红细胞临床用量进行预测,结果显示预测值和实际值的动态趋势基本一致,平均相对误差为2.55%。已有研究[6,10,12]表明,ARIMA模型预测结果平均相对误差若小于5%则说明模型预测精准性较高,有较好的预测效果。因此该模型可以用于重庆市血液中心未来红细胞临床用量的预测。

建立红细胞临床需求预测模型,有助于科学地制定招募采血计划,提高血液供给及需求之间的契合度,使红细胞成分制品既能满足临床需求,又能避免过期浪费。然而,ARIMA模型也具有一定的局限性,它是依靠历史的统计数据建立的数学模型,并未考虑国家重大政策改变和调整、突发公共卫生事件等外部因素的影响[6]。因此,ARIMA模型仅适用于短期结果预测,在红细胞成分制品未来临床需求的预测中,预测未来1年的趋势是可行的[13]。预测时间过长会增大预测误差,影响预测精度。由于健康中国战略的实施、二孩政策的推行、人口老龄化的快速发展,尤其是互助献血的取消等因素都会对预测效果产生影响。因此应加强临床红细胞需求数据长期的收集,保证数据的及时更新,以便对模型进行修正或重新拟合,确保预测的精度。

猜你喜欢
差分残差红细胞
红细胞的奇妙旅行
RLW-KdV方程的紧致有限差分格式
基于双向GRU与残差拟合的车辆跟驰建模
数列与差分
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
破碎红细胞检测研究进展
Uf1000i红细胞检测在肾内科的应用价值
综合电离层残差和超宽巷探测和修复北斗周跳
猪附红细胞体病诊治对策探讨