窦一峰,崔金广,蒙文涛,吴秀春
(天津市宝坻区人民医院网络信息中心,天津 301800)
门急诊是医院向患者提供服务的第一个窗口,门急诊患者流量的变化直接影响医院医疗服务工作的组织与管理。一方面,根据门急诊人次数据合理配置门诊医生等医疗资源,节省患者排队等候时间,从而提高患者满意度,增强患者获得感。另一方面也能够及时有效地为医院领导决策和制定长短期规划提供科学依据,因此如何正确反映医院门急诊人次数的动态变化趋势和规律,对医院长远发展来讲具有十分重要的意义。
1.1 资料来源 数据采集于天津市某三级甲等综合性医院2009~2019 年医院门急诊就诊人次的月度数据,来源于《门急诊工作量月报表》,数据真实可靠。本文采用2009 年1 月~2018 年12 月用于模型的训练和测试,2019 年1~12 月的数据作为预测集检验模型的预测效果。
1.2 方法
1.2.1 NARNN 模型的建立 人工神经网络是一种模拟大脑神经系统处理信息的方式而人为建立的能够实现某种功能的网络,由大量模拟生物系统中神经元之间突触连接的神经元形成,因此其相比其他数学模型具有非线性,鲁棒性,并行性和自适应性等特点[1-3]。本文采用非线性自回归神经网络模型(nonlinear autoregression neural network,NARNN)[4,5]将自身作为回归变量进行建模,利用前期多干时刻的随机变量的线性组合来描述后面时刻数值,其形式如下:
典型的NARNN 包括滞后阶数,输入层,隐含层和输出层四个部分,基于自身数据作回归,形如yt=f(yt-1,yt-2,yt-3,…,yt-lag)。本文将数据分为用于训练调整网络的权值和阈值的训练集(80%),用于将训练过程中的过拟合现象降到最低的验证集(10%)和对网络结构进行最终调试的测试集(10%),以期得到最好的泛化能力。考虑到门急诊人次数具有一定的季节性的特点,将滞后阶数初始化设定为12,采取Levenberg-Marquardt 函数进行网络训练,通过经验初始化隐含层神经元个数值位3~200,进而不断调整尝试,根据拟合优度检验值R 方最优和误差最小化原则综合确定最终隐含层神经元个数。训练完成后采用前进递推预测法对未来一年数据进行预测,即根据拟合集数据预测(t+1)月医院门急诊人次数,再将(t+1)月门急诊人次数据代入预测模型计算(t+2)院门急诊人次数,依次计算得到最终结果,该模型使用MATLAB R2016b 编程求解。
1.2.2 LSTM 模型的建立 由Hochreiter & Schmidhuber 提出的长短时记忆网络(long short term memory network,LSTM)是一种在实际应用中能够学习长期依赖关系的循环神经网络[6,7]。它改良了标准RNN中的仅有一种如tanh 的重复神经网络模块的链式结构,LSTM 核心是cell 状态,LSTM 网络能通过一种被称为门的结构对cell 状态进行有选择性的决定让哪些信息通过,LSTM 具有3 个由sigmoid 层和点乘操作的组合的门结构,分别称作遗忘门,输入门和输出门,其中三类门共同控制信息进入和离开记忆细胞,输入门调节进入记忆细胞的新信息;遗忘门控制记忆细胞中保存多少信息; 输出门定义可以输出多少信息。基于此,本文选取LSTM 模型对医院门急诊人次数进行预测,通过学习历史数据中存在的时间依赖关系来进行有效预测,该模型使用PYTHON编程求解。
1.2.3 SARIMA 模型的建立 AR/MA/ARMA 模型是分析时间序列的重要方法[8]。某些时间序列,如医院门急诊就诊人次数等存在明显的周期性变化,这种周期是由于季节性变化(季度、月度等)引起的,把这种基于季节性的时间序列预测方法叫做季节时间序列模型(seasonal arima model,SARIMA),也叫乘积ARIMA 模型[9-11],其标准格式为:SARIMAA(p,d,q)×(P,D,Q)s。其中p、d、q 分别表示传统ARIMA 模型的自回归阶数、差分阶数和移动平均阶数,P、D、Q 分别表示季节性ARIMA 模型的自回归阶数、差分阶数和移动平均阶数,s 值为12。对于月度数据,其季节性变化周期为12,将首先对数据进行平稳性检验,根据序列散点图、自相关函数(auto-correlation function,ACF)图、偏自相关函数(partial auto-correlation function,PACF)图等初步确定模型参数,并通过残差检验判断拟合模型是否有效,最后考察赤池信息准则(akaike information criterion,AIC)和贝叶斯信息准则(bayesian information criterion,BIC),依据信息准则最小化原则选取多个模型中结果相对最优的作为最终的预测模型,该模型使用MATLAB R2016b 编程求解。
1.3 模型评价 主要采用均方误差(mean squared error,MSE)、均方根误差(root mean square error,RMSE) 和平均绝对误差(mean absolute error,MAE),平均绝对百分比误差(mean absolute percentage error,MAPE),对称平均绝对百分比误差(symmetric mean absolute percentage error,SMAPE)来评价三个模型预测效果的优劣。所有评价指标的值越小,说明预测模型描述实验数据的准确度越高,模型越优。令预测值为ypred={ypred1,ypred2,…,ypredn},真实值为yraw={yraw1,yraw,…,yrawn}具体计算公式依次如下:
2.1 NARNN 模型 根据模型结果可知,模型误差在滞后阶数为0 时最大,其余情况均在置信区间范围内,见图1。当隐含层神经元个数100 时,根据图2可知,模型在训练集上的R 方为1,在验证集上的R方是0.93,在测试集上的R 方为0.95,模型总体的拟合优度值为0.98,该模型十分理想,可用性强,其实际值与拟合值的误差对比见图3。
2.2 LSTM 模型 本次构建的LSTM 网络有1 个输入层,1 个带有15 个LSTM 神经元的隐含层,选择tanh 作为激活函数,以及一个进行多值预测的输出层。用平均绝对误差作损失函数,用随机梯度下降法adam 作为优化器,设置早期停止函数,以监测损失函数mse 的收敛状态,模型训练周期数为200,batch_size 为1,将所有训练数据和标签数据转换成3 维张量,采取80%的数据作为训练集与10%的数据作为测试集进行实验,最后10%作为预测集,实验结果见图4,结果显示在训练集上的RMSE 为6381.12,测试集上的RMSE 为7777.08,在预测集上的RMSE 为5186.30。
2.3 SARIMA 模型 首先对门急诊人次数序列进行平稳性检验,经单位根检验(augmented dickeyfuller,ADF)[12]后结果显示Dickey-Fuller 为-24.501,P<0.01,该序列一阶单整,是平稳序列,DW 统计量为1.9993,接近于2,序列不存在一阶自相关性,可以建立SARIMA 模型。根据图5 中序列自相关和偏相关函数图的拖尾和截尾现象,尝试建立多种模型进行拟合,具体见表1,with drift 代表有趋势,所以最终模型可以加上d=1 去除趋势,结合拟合结果和残差Q-Q 图确定本文SARIMA 模型为,AIC=2128.25,AICc=2129.73,BIC=2149.55,Box-Ljung 检验卡方统计量为0.005706,P值为0.9398,利用模型预测2019 年1~12 月数据的效果见图6,其中红色部分为95%置信区间水平。
2.4 拟合与预测效果比较 分别采用MSE、RMSE、MAE、MAPE 和SMAPE 对数据进行拟合和预测效果评价,预测数据集上的结果见表2,NARNN、LSTM和SARIMA 模型在MAPE 上的结果分别为8.22%、4.32%和3.40%,在SMAPE 上的结果分别为8.37%、4.33%和3.42%,LSTM 和SARIMA 两者预测效果优于NARNN,其中SARIMA 模型在4 个指标上的结果均优于LSTM 和NARNN,针对门急诊人次数拟合和预测效果较好,三种模型预测效果见图7。
表1 过程估计表
表2 三种模型在预测数据集上的评价指标结果
医院门急诊人次数月度数据是典型的时间序列数据,其主要特点表现为受季节影响显著,也会受社会因素、公众假期以及患者口碑等影响明显。NARNN 模型在小样本非线性低维数据预测中具有自适应能力强的特点,适合于解决非线性的时间序列问题。LSTM 模型基于机器学习的思想,不仅集成了传统RNN 算法的特点,还能够捕获时序数据中的依赖关系,根据长短时记忆特点对未知数据进行充分预测,研究显示该模型在时间序列预测中能产生良好的预测效果。SARIMA 模型能够解决时间序列中受季节性影响较为显著的问题。基于此,本文选取了三种不同的模型对医院门急诊就诊人次数进行拟合预测,也是机器学习方法与传统时序预测方法在解决医疗门急诊就诊人次数预测问题中的一次探索,以期选取较优的预测模型。
本文构建的三种模型通过在训练集上训练预测模型,并对该院门急诊就诊人次数未来一年的数据进行预测,结果显示SARIMA 模型的预测效果最优,其次是LSTM,NARNN 模型的预测效果相对较差,在预测精度要求不是非常高的情况下,三种模型均可应用于预测医院门急诊就诊人次数据的未来变化趋势。SARIMA 模型在对医院门急诊就诊人次数的趋势具有很好的预测能力,泛化能力强,鲁棒性高,能为医院管理决策部门提供更准确的预测数据,从而提高医院在门急诊人财物资源配置方面的效能,在医院服务质量评价体系中也具有一定的意义。由于医院门急诊就诊人次数的月度时间序列数据同时具有线性特征和非线性特征,单一模型的预测在时序预测中存在一定的局限性,未来考虑将模型进行信息融合,以期充分发挥组合模型的优势,得到更精准的预测结果。