三种时间序列模型预测医院感染发病率的比较

2019-03-14 09:43陈越火顾翔宇于志臻

中国感染控制杂志 2019年2期

陈越火, 顾翔宇, 于志臻

(复旦大学附属华东医院医院感染管理科, 上海 200040)

医院感染已成为所有医疗机构无法回避的公共卫生问题，随着诊疗技术的不断发展，加之疾病谱的变化和人口老龄化程度的不断提高，给医院感染的预防与控制增加了诸多挑战。系统、持续地对医院感染进行监测和分析，根据监测结果针对性地制定干预措施是保证患者医疗安全，最大限度减少医院感染的重要手段[1-2]。而准确、及时、有效地对未来一段时间内医院感染的发生、发展趋势的预测可为医院日常管理、决策提供一定的数据支持。目前医院感染发病率除较多地使用传统的自回归移动平均模型(autoregressive integrated moving average model，ARIMA)预测外[3-4]，人工神经网络模型也开始逐渐应用于医院感染预测领域[5-6]。本文使用ARIMA模型、NAR神经网络(nonlinear autoregressive neural network，NARNN)模型和ARIMA-BPNN(back propagation neural network)串联组合模型分别建立预测模型，比较三者的预测效果，探讨时间序列模型在医院感染领域应用的适用性，探索预测医院感染发病率的最佳模型，为医院的相关决策提供科学依据。

1 资料与方法

1.1 数据来源资料来源于上海某三级甲等医院2011年1月—2017年12月医院感染综合监测数据，医院感染发病率按照公式：医院感染发病率=同期新发医院感染病例数/观察期间危险人群例数×100%计算，其中新发医院感染病例数据通过临床科室主动报告与医院感染监控专职人员查阅病历相结合的方式获取，医院感染病例依照卫生部2001年颁发的《医院感染诊断标准(试行)》诊断，观察期间危险人群例数以同期出院例数替代[7]。2011年1月—2016年12月累计72个月的月度医院感染发病率数据作为拟合集拟合模型，2017年1—12月的月度感染发病率数据作为预测集检验模型的预测效果。

1.2 模型原理与方法本次研究通过构建ARIMA模型、NARNN模型及ARIMA-BPNN组合模型，比较三种模型的预测效果，以探索可用于预测医院感染发病率的最佳模型。模型构建步骤如下。

1.2.1 ARIMA模型的建立[8]根据ARIMA建模的基本程序，首先对月度发病率数据进行平稳性等序列预处理，根据医院感染发病率存在一定季节性的特征，建立季节性ARIMA模型：ARIMA(p, d, q)×(P, D, Q)12，其中p、d、q分别是简单模型的自回归阶数、差分阶数和移动平均项，P、D、Q分别是季节性模型的自回归阶数、差分阶数和移动平均项。根据序列散点图、自相关函数(auto-correlation Function, ACF)图、偏自相关函数(partial auto-correlation function, PACF)图等初步确定模型参数，并通过残差检验判断拟合模型是否有效，最后根据赤池信息量(Akaike information criterion, AIC)或贝叶斯信息量(Bayesian information criterion, BIC)选取多个模型的最优模型，其中AIC和BIC均是模型拟合精度和参数未知个数的加权函数，使AIC或BIC函数达到最小的模型为相对最优模型。

1.2.2 NARNN模型的建立[9]NAR神经网络是一种用来模拟时间序列的神经网络，一个典型的NAR神经网络主要由输入层、隐含层和输出层及输入和输出的延时构成。网络的输出取决于当前的输入和过去的输出。NARNN模型方程为：y(t)=f(y(t-1)，…y(t-d))，其中y(t)是神经网输出，d表示延时阶数，f表示用神经网络实现的非线性函数。根据神经网络构建程序，将拟合集数据随机分成训练样本(80%)、检验样本(10%)和测试样本(10%)，采用Levenberg-Marquard算法，根据医院感染发病率有一定季节性的特点，设定延时阶数为12，隐含层神经元个数采用试错方法来确定，分别构建隐含神经元个数从10到100的模型，由于输入权重和阈值不同，每个模型训练20次，依据训练结果的MSE和决定系数R2选取最佳模型。训练阶段使用open-loop模式，训练完成后使用closeloop函数使改为闭环模式进行预测，预测采用前进递推预测法，即根据拟合集数据预测(t+1)月医院感染发病率，再将(t+1)月感染发病率代入预测模型计算(t+2)医院感染发病率，以此类推。NAR神经网络的实现使用 MATLAB R2014b软件中的神经网络工具箱中的ntstool。

1.2.3 ARIMA-BPNN模型的建立 BP神经网络是一种按误差反向传播训练的多层前馈网络，其基本思想是梯度下降法，利用梯度搜索技术，以期使网络的实际输出值和期望输出值的误差均方值为最小，本研究构建三层BP神经网络，输入层2个神经元，输出层1个神经元，隐含层神经元个数从10到50分别进行训练。网络训练参数中隐含层选择双曲正切S形传递函数(tansig)，输出层选择纯线性传递函数(pureline)，训练函数选择贝叶斯正规化函数(trainbr)。将前述最优ARIMA模型输出的拟合值和相对应的时间变量(月度)建立一个2维矩阵作为BPNN的输入变量，将相对应的医院感染发病率实际值数据建立一个1维矩阵作为BPNN的目标变量，数据用mapminmax函数进行归一化处理，通过调整隐含层神经元个数获得组合模型的最优训练结果。

1.2.4 模型验证使用均方误差(mean-square error, MSE)和相对误差绝对值平均(mean absolute percentage error, MAPE)评价ARIMA模型、NARNN模型和ARIMA-BPNN组合模型的拟合与预测效果[10]。通过比较MSE和MAPE的大小评判模型的优劣，以模型预测效果MAPE最小者为最优模型[11-12]。

1.3 统计学分析应用R 3.4.4 forecast包构建ARIMA模型，使用MATLAB R2014b神经网络工具箱构建NARNN模型和ARIMA-BPNN组合模型。

2 结果

2.1 医院感染情况 2011—2017年本次研究对象的医院感染发病率为0.99%，分月统计的医院感染发病率为0.52%～1.77%。见图1。

图1 2011—2017年月度医院感染发病率变化趋势Figure 1 Changing trend of monthly incidence of HAI from 2011 to 2017

2.2 ARIMA模型首先对拟合集数据进行平稳化处理，经过一阶简单差分和一阶季节性差分后，经增项DF单位根(augmented Dickey-Fuller test, ADF)检验显示序列平稳(Dickey-Fuller=-7.091 7,P<0.01)，参考ACF和PACF图的截尾拖尾情况，尝试拟合不同的ARIMA模型，根据AIC和BIC最小和模型简化原则，结合模型拟合效果和残差QQ图，确定最优模型为ARIMA(0, 1, 1)×(0, 1, 1)12，模型数学表达式为ΔΔ12yt=εt-0.698 2εt-1-εt-12+0.698 2εt-13，参数检验见表1，AIC=1.24，Ljung-Box检验统计量为1.1026，P=0.2937，残差序列可认为白噪声。

2.3 NARNN模型分析中发现当隐含层神经元个数为80时，训练样本的MSE=7.05×10-6，R2=0.999，检验样本的MSE=0.028，R2=0.848，测试样本的MSE=0.092，R2=0.797，显示模型拟合效果非常理想。误差自相关图显示，误差在lag为0时最大，其他情况下均未超过可信区间，表示构建的模型可用。模型的总体决定系数R2为0.9064，MSE为0.065，拟合值与真实值的误差见图2。

表1 ARIMA(0,1,1)×(0,1,1)12的参数估计Table 1 Parameter estimation of ARIMA(0,1,1)×(0,1,1)12

图2 NARNN模型拟合效果误差Figure 2 Errors of fitting effect of NARNN

2.4 ARIMA-BPNN模型将前述建立的ARIMA(0,1,1)×(0,1,1)12模型输出的拟合值和相对应的月度时间变量建立一个2维矩阵作为BPNN的输入变量，将相对应的医院感染实际发病率数据建立一个1维矩阵作为BPNN的目标变量，构造ARIMA-BPNN组合模型。分析中发现当隐含层神经元个数为20时，组合模型MSE为0.025，模型拟合效果较好，发病率拟合值与真实值的比较见图3。

图3 ARIMA-BPNN组合模型拟合效果Figure 3 Fitting effect of ARIMA-BPNN combination model

2.5 拟合与预测效果应用MSE、MPAE指标比较三种时间序列模型的拟合效果，见表2，结果显示，ARIMA-BPNN组合模型的拟合优度最佳，季节性ARIMA模型次之，NARNN模型稍差。以2017年1—12月的月度感染发病率数据作为预测集，应用MPAE指标比较三种模型的预测效果，见表3，结果显示，季节性ARIMA模型、NARNN模型和ARIMA-BPNN组合模型的预测结果与实际值的MAPE分别为15.42%、26.31%和14.87%，其中季节性ARIMA模型与ARIMA-BPNN组合模型的预测精度接近，后者稍优于前者，两者均明显优于NARNN模型。

表2 三种时间序列模型拟合效果比较Table 2 Comparison of fitting effect of three time series models

表3 2017年月度医院感染发病率三种模型的预测效果比较Table 3 Comparison of the performance of three models in predicting the monthly incidence of HAI in 2017

3 讨论

ARIMA模型是传统的时间序列线性模型，在处理规则数据方面具有诸多优点，但对非线性映射能力较弱，对非线性数据构建模型的效能较低[13]；而人工神经网络模型具有良好的非线性映射能力和自适应能力，在解决非线性数据时优势明显[14]。研究[15]结果表明，ARIMA模型、人工神经网络模型均已应用于医院感染发病率的预测，取得了良好的预期效果。但医院感染的发生受多种因素共同影响，不同医院因环境不同其医院感染发病率及其发展变化的趋势也不尽相同，对于特定医院的医院感染发病率预测，具体哪种模型预测效果好，需要具体研究探索。

基于医院感染发病率的变化趋势具有线性和非线性的双重特征，本研究在构建ARIMA、神经网络的基础上，增加ARIMA与神经网络组合模型，并对一年的数据进行了短期预测检验，以发现用于医院感染发病率预测的最佳模型。研究显示，基于本研究对象近年来医院感染监测数据，ARIMA-BPNN组合模型的拟合优度和预测精度均优于ARIMA模型和NARNN模型，三者拟合优度指标MAPE分别为11.95%、13.00%和14.61%，三者的预测精度指标MAPE分别为14.87%、15.42%和26.31%，与文献报道的预测模型的精度相似[11, 16]，在预测精度要求不是非常高的情况下，三种模型均可应用于预测医院感染发病率的未来变化趋势，其中ARIMA-BPNN组合模型的预测效果最佳，ARIMA模型预测精度稍低于ARIMA-BPNN组合模型，而NARNN模型由于对未来感染发病率预测的运算数据包含前一期感染发病率，因此对近期的预测效果较好，对远期的预测结果因形成累积误差而较差。

本研究构建的预测模型较好地拟合和预测了医院感染发病率，但由于本研究的医院医院感染发病率较低[17-19 ]，构建的模型不一定适合于医院感染发病率较高的医院使用。且由于预测模型是依据以往监测数据推测未来情况，随着未来监测数据的不断积累，模型参数也应随之作出调整，以便更好地进行预测分析。另外，医院感染的发生受诸多因素的影响，本研究只使用单一月度医院感染发病率构建模型，其他影响因素未加入到预测模型中，在今后的研究中，考虑尽可能多地收集影响医院感染发病率的各种因素，将之纳入模型，以便进一步提高模型预测精度。