基于时间序列分析的悬浮红细胞临床需求预测模型研究

2020-06-23 06:38彭荣荣刘芸男杨冬燕王含柔赵明烽杨小丽

中国医科大学学报 2020年6期

彭荣荣，刘芸男，杨冬燕，王含柔，赵明烽，杨小丽

（1.重庆医科大学公共卫生与管理学院，医学与社会发展研究中心，健康领域社会风险预测治理协同创新中心，重庆 400016；2.重庆市血液中心，重庆 400015）

近年来，随着地市级医疗机构服务能力的提高，医院规模不断扩大，患者更多选择到中心血站覆盖的地市级医疗机构接受治疗，使地市级医疗机构血液用量迅速增长，中心血站血液供需矛盾突出，区域性、季节性和结构性缺血常常发生［1］。目前，重庆市对临床血液需求预测主要依据相关人员既往经验粗略估算，存在较多局限，本研究拟采用差分整合移动平均自回归（autoregrescive integrated moving average，ARIMA）模型建立临床血液需求预测模型，以实现血液资源的科学采集和储备。

1 材料与方法

1.1 数据来源及处理

获取2006年至2016年重庆市万州中心血站每月向医院提供的悬浮红细胞ABO各血型用量以及悬浮红细胞总用量的数据；运用Excel软件建立数据库，按月统计悬浮红细胞ABO各血型用量以及总用量；然后运用SPSS 19.0软件进行统计分析。临床用量以单位（U）计算，1 U悬浮红细胞由200 mL全血分离制备。

1.2 ARIMA模型建立

ARIMA模型建立的基本步骤：（1）时间序列分析及平稳处理。对于存在趋势性和季节周期性的序列分别进行差分和季节差分处理使其平稳。（2）模型识别与参数估计。观察经过差分后平稳序列的自相关函数（autocorrelation function，ACF）图和偏自相关函数（partial autocorrelation function，PACF）图，确定模型的阶数；然后对模型进行参数估计与假设检验，根据t检验结果中的P值进行判定，若P＞ 0.05则检验未通过，则需重新选定模型；最后依据贝叶斯信息准则（Bayesian information criterion，BIC）确定最佳模型。（3）模型检验。对模型的残差序列进行白噪声检验，可通过观察残差序列ACF和PACF是否落在95%可信区间（confidence intervals，CI）内或根据Ljung-Box Q检验结果中的P值判定。（4）模型预测。运用最优模型预测2016年7月至12月每月悬浮红细胞临床用量，计算95%CI及相对误差，并与同期悬浮红细胞临床实际用量比较，验证模型的拟合效果。

2 结果

2.1 悬浮红细胞用量时间序列分析及平稳处理

以A型悬浮红细胞为例，绘制2006年1月至2016年6月每月用量原始序列图（图1A），可见2006年至2012年用量逐年上升，2013年至2016年上升趋势逐渐变缓。同时该序列还存在明显的季节周期性，以12个月为1个周期，每年1、2月用量较低，8、9月用量较高。上升趋势及季节周期性表明该序列呈现不平稳的特征，为了消除原序列趋势性和季节周期性的影响，对其进行差分和季节差分处理，处理后序列中每个值都围绕在固定值附近波动，为平稳序列，见图1B。因B型、O型、AB型和总量原始序列也呈现相同特征，故进行了类似处理。

图1 A型原始序列图和差分、季节差分后的序列图Fig.1 Original sequence diagram of type A and the sequence diagram after the difference and seasonal differences

2.2 悬浮红细胞模型识别与参数估计

悬浮红细胞A型血用量的原始序列存在季节周期性，故选用季节乘积模型ARIMA （p，d，q）（P，D，Q） s。A型血原始序列以12个月为1个周期，故s=12；且对其进行了一阶差分和一阶季节差分，因此d=1、D=1。绘制A型经过一阶差分和一阶季节差分的ACF和PACF图（图2）。根据图2，初步判断PACF呈3阶截尾特征，p=3；ACF拖尾或截尾特征不明显，q=0。同时，ACF和PACF在滞后12阶均显著不等于0，故Q=1、P=1。综上可知，A型识别模型为ARIMA （3，1，0）（1，1，1）12。

A型识别模型的参数估计与假设检验见表1。A型识别模型ARIMA （3，1，0）（1，1，1）12的参数显著性检验未通过（P＞ 0.05）［2］，故需重新选定模型。A型ACF在滞后1、5、10、11、12、13阶显著不为0，考虑q取1、5、10、11、12、13；PACF在滞后1～3、5、9、10、11、12阶显著不为0，故考虑p取3、5、9、10、11、12；为了将模型考虑得更加全面，尝试p和q取0的情况。相关学者认为P、D、Q三者取值一般不大于2［3-4］，即取0、1或2，并考虑p、q、P、D、Q取不同值的各种模型。将残差不是白噪声（Ljung-Box Q检验，P＜ 0.05）和参数显著性检验未通过的模型除去，再根据贝叶斯判定准则［5］，最终选定A型的最优模型为ARIMA （0，1，1）（0，1，1）12。

与悬浮红细胞A型识别过程类似，B型、O型、AB型和总用量的最优模型分别为ARIMA （0，1，1）（1，0，0）12、ARIMA （0，1，1）（0，1，1）12、ARIMA （0，1，1）（0，1，1）12和ARIMA （3，1，0）（0，1，1）12。各最优模型的参数估计与假设检验见表2。

图2 A型差分、季节差分后的ACF和PACF图Fig.2 Autocorrelation function and partial autocorrelation function diagram of type A after the difference and seasonal differences

表1 A型识别模型和最优模型参数估计及假设检验Tab.1 Parameter estimation and hypothesis test of the model identified by type A and the optimal model

表2 B、O、AB型和总用量最优模型的参数估计与假设检验Tab.2 Parameter estimation and hypothesis test of type B，O，AB and the total optimal model

2.3 模型检验

对悬浮红细胞ABO各血型用量以及总用量的最优模型进行白噪声检验。以A型为例（图3），A型残差序列ACF和PACF均落在95%CI内；且模型残差序列Ljung-Box Q检验结果显示无统计学意义（统计量为21.736，P＞ 0.05），说明残差序列呈白噪声过程，残差为随机性误差，适用于临床悬浮红细胞需求量的预测。B型、O型、AB型和总用量的模型检验过程类似，结果显示均通过白噪声检验。

图3 A型模型残差序列ACF图和PACF图Fig.3 Autocorrelation function and partial autocorrelation function diagram of the residual sequence of the type A model

2.4 模型预测（表3）

应用各最优模型对2016年7月至12月每月悬浮红细胞A型、B型、O型、AB型用量及总用量进行预测，预测值均在95%CI内，并将预测值与同期实际值进行比较，平均相对误差分别为9.2%、7.5%、4.9%、10.8%、4.3%。以A型为例，模型拟合图中实际值与预测值变化趋势吻合度较高（图4），B型、O型、AB型和总用量的模型拟合图特征类似。平均相对误差在10%左右，说明模型预测结果精度较高，预测拟合效果好。

表3 2016年7月至12月份预测结果Tab.3 The predicted values from July to December 2016

图4 A型模型拟合效果图Fig.4 Fitting effect diagram of the type A model

3 讨论

时间序列是一组按照某种时间间隔（年、月、日、季节等）顺序排列的实测值。时间序列分析是探究这一组数据中所反映出来的发展过程、方向和趋势，进行类推或延伸，并根据这组数据资料对未来情况进行预测［6］。ARIMA模型是时间序列分析中最重要的方法之一，该模型能综合提取时间序列中的趋势信息以及季节周期性信息，预测其未来走势［7］，适用于与季节周期性相关的临床悬浮红细胞需求预测。

本研究以重庆市采供血量最大的万州中心血站为研究对象，运用ARIMA季节乘积模型方法对该中心血站2006年1月至2016年6月每月悬浮红细胞ABO各血型用量以及总用量的时间序列数据进行统计分析并建立模型，然后运用最优模型对2016年7月至12月每月悬浮红细胞ABO各血型用量以及总用量进行预测，预测结果显示平均相对误差较小，说明各模型预测精度较高，具有良好的拟合效果，与以往研究结果一致［8-10］。

悬浮红细胞是一种红细胞成分血，它能够提高机体血液运氧能力，改善组织缺氧状态，但保存期限短（＜35 d）。建立悬浮红细胞临床用量ARIMA模型，利于血站科学地制定招募采血计划，提高血液供需间的契合度，避免区域性血液资源短缺现象发生。然而，ARIMA模型是依据历史数据进行统计分析并建立的数学模型，未考虑到其他因素（国家重大政策出台、突发自然灾害事件等）的影响，故ARIMA模型仅适用于短期（以1年较为恰当［11］）结果预测。因此，每年应及时补充临床悬浮红细胞用量信息，并根据最新数据重新识别、诊断以选出最优模型，从而提高预测精度以及保证拟合效果，及时准确地为临床用血提供科学依据。