一种基于LSTM模型的医用耗材需求量预测方法

2022-06-27 06:45杨燕钱正瑛庄希金伟

中国医疗设备 2022年6期

杨燕，钱正瑛，庄希，金伟

南京医科大学附属无锡人民医院医学工程处，江苏南京 214023

引言

随着医疗改革的不断深入，运营成本控制逐渐成了医院管理的重要研究方向[1]。医用耗材管理是医院成本管理的重要核心[2]。医院的医用耗材成本呈逐年上升趋势[3-4]，为提高医院的经济和社会效益，一系列医用耗材管理制度逐渐被提出。低值医用耗材品种繁多、应用量大，是医院开展日常工作的物质基础[5-6]。随着信息化技术的发展，对低值耗材的管理也从科室申请、库房入库、出库、接收等传统方式逐渐转为对临床科室有所指导，合理使用各类耗材。通过对低值耗材一个月、一季度甚至半年的需求量进行合理有效的分析，结合其他管理因素可以制定出较为科学的采购方式以及合理的采购数量，通过这种方式能够在降低医院运营成本同时指导临床科室更加合理的使用耗材。

另外，时间序列预测方法在众多领域有着广泛的应用，以差分整合移动平均自回归模型（Autoregressive Integrated Moving Average model，ARIMA）为代表的线性模型以简单和灵活性较高等优点被广泛应用于时间序列预测中[7]，但实际需要预测的序列通常具有非线性特征，传统线性模型在对时间序列预测研究中具有一定的局限性。为了进一步提高预测精度，以神经网络为代表的非线性模型在时间序列预测领域的应用越来越广泛。神经网络模型能够处理非线性数据，同时适应性强，可以有效提高模型预测精度。本研究基于长短期记忆神经网络模型（Long Short Term Memory Neural Networks，LSTM）实现医用耗材的需求量预测分析；LSTM弥补了循环神经网络（Recurrent Neural Network，RNN）存在的梯度消失和梯度爆炸、长期记忆力不足等问题，使得RNN能够有效利用长距离的时序信息[8]。本研究以医用低值耗材的库房领用需求量预测为研究对象，提出一种基于时间序列预测方法对耗材的需求量进行科学合理的预测[6]，并探究LSTM医用耗材预测模型的建立以及LSTM网络训练和预测结果的评价等方面的内容，以期为构建一种普遍适用的医用耗材管理模式提供参考。

1 资料与方法

1.1 研究对象

本研究使用无锡市某三甲医院2015年1月至2021年12月器械库房静脉留置针月度领用量作为示例数据集，训练LSTM模型。由于2019年底爆发的新冠疫情[9]对医院医疗活动开展具有重要影响，为了更好评估模型的预测精度，使用新冠爆发前后数据分别训练LSTM模型。具体实现方式为： ① 根据2015年1月至2019年6月静脉留置针领用数据预测2019年下半年的需求量；② 根据2015年1月至2021年6月静脉留置针领用数据预测2021年下半年的需求量。本研究基于MATLAB 2020b实现模型训练、预测及评价等。

1.2 LSTM神经网络模型

LSTM是RNN的一种[10]，LSTM对RNN进行了改进，改变了隐藏层的内部结构，解决了RNN梯度消失的问题。因为只改变了内部结构，所以它保留了RNN神经网络分析时间序列的优势。LSTM神经网络单元结构如图1所示，其网络相较传统的RNN的主要优势是其有“遗忘”单元，该结构可以使LSTM模型进行时间跨度更长的预测[11]。

图1 LSTM神经网络单元结构图

LSTM神经网络结构由一系列循环连接的记忆单元组成，记忆单元通常是由一个或多个自连接的细胞，以及输入门、输出门和遗忘门三个单元组成[12]。在LSTM网络中，其执行步骤如下所示。

（1）通过遗忘门ft决定从细胞中所需剔除的信息，见式(1)。

上式中，σ为sigmoid激活函数，该函数把“记忆”权重设置为0～1之间的值，0表示信息将被全部“遗忘”，1表示信息将被全部“记忆”。xt为当前层的输入向量，Ufht-1为上一隐藏层的输出，Uf、Wf、bf分别为输入权重和遗忘门以及偏置的权重。

（2）更新细胞中信息状态。gt是由sigmoid函数控制的外部输入门，gt决定从当前输入数据xt中获取的信息中选择多少用于更新细胞状态如式(2)所示。

式中，Ug、Wg、bg分别为输入权重和输入门以及偏置的权重。在Ct-1基础上更新的细胞状态Ct，见式(3)。

式中，Uc、Wc、bc为新获取信息中的权重。Ct是记忆单元的状态变量，它是LSTM保持长期记忆的关键。

（3）由输出门ot控制的信息输出结果如式(4)～(5)所示。

式中，Uo、Wo、bo分别为输入权重和输出门以及偏置的权重。

LSTM神经网络通过其遗忘门机制可以充分挖掘医用耗材每月领用数据序列数据历史信息同时使序列数据的依赖率更高，因此，依据LSTM建立医用耗材时间序列数据预测模型在理论上是可行的。

1.3 LSTM预测模型建立

1.3.1 数据处理

选取静脉留置针的每月领用数量作为本文的示例对象。静脉留置针使用量大，对于低值耗材而言，代表性较强。提取医院综合运营管理系统[13]中2015年1月至2021年12月静脉留置针每月领用数量作为数据源，对其进行处理，形成以月为单位的每月领用数量（图2）。处理后的数据作为LSTM模型的输入数据，LSTM模型中时间步对应于月份，预测值对应于月度领用数量。LSTM模型中每个元素均为每个月度领用量，将数据重构为行向量。

图2 时间序列数据时序图

对加载的数据进行标准化处理，本文选择z-score 标准化算法[14]，计算公式如式(6)所示。

其中，z为标准化之后的数据，x为原始数据，μ为原始数据的均值，σ为原始数据的标准差。经过z-score标准化处理之后的数据均值为0，标准差为1。

1.3.2 LSTM参数设定

在LSTM预测模型训练之前需要设定一些参数，这些参数决定LSTM的结构和训练效果等。LSTM隐藏层层数决定LSTM模型的结构，本文设置隐藏层数确定为1层；隐藏层内神经元数量设置为256。学习率设置为0.004，训练最大迭代数为1000。使用自适应矩估计算法[15]模型优化算法。

1.3.3 训练模型

分别使用2015年1月至2019年6月、2015年1月至2021年6月数据进行LSTM模型训练；按照上节参数对LSTM进行参数设定，然后对LSTM模型进行训练，训练过程如图3所示。

图3 LSTM网络训练过程

1.3.4 实现预测

使用训练后的模型预测下一个月的使用量，并在一次预测完成后更新网络状态，并把预测结果作为下一次预测的输入，直至完成指定时间间隔的预测。预测完成后和实际测试集数据进行对比，评价预测效果。

1.4 评价指标

为了量化LSTM模型在医用耗材领域预测的精度，本文使用了包括平均绝对误差（Mean Absolute Error，MAE）、均方根误差（Root Mean Square Error，RMSE）、平均绝对百分比误差（Mean Absolute Percent Error，MAPE）和决定系数（Coefficient of Determination，R2）四种量化分析指标[16-17]评价预测精度，计算方式分别如式(7)～(10)所示。

其中，i为第i个时间步；N为总时间步；为预测数据；yi表示真实数据；表示真实数据的平均值。MAE、RMSE用于评估真实值和预测值之间的偏差，取值越低预测结果越准确；MAPE在考虑真实值与预测值误差的基础上考虑了误差比例关系，是一个相对值；R2是一个标准统计指标，其值介于[-∞,1]之间，越接近1表示模型预测结果越准确。

2 结果

使用训练的LSTM模型预测医用耗材留置针一个季度以及半年使用量，本研究分别对新冠疫情前2019年下半年以及新冠疫情后2021年下半年进行预测分析，见图4～5。

图4 2019年LSTM预测结果

图5 2021年LSTM预测结果

使用上文论述的四种评价方法对两个时间预测结果进行评价，评价结果如表1所示。

表1 LSTM模型评价结果

表1中2019年预测各评价指标均好于同期2021年预测结果，表明2019年底爆发的新冠疫情对静脉留置针的预测造成了一定影响，使得拥有更多样本的2021年预测效果弱于2019年。各阶段预测结果MAE值和RMSE值均相差不大，表明预测结果中没有出现特别大的预测误差。表1中MAPE最小值是2.27%，MAPE最大值出现在2021年预测半年，值为4.54%，所有预测平均绝对误差均不超过5%。新冠爆发前的2019年预测结果评价指标R2分别为0.95和0.97，接近1且相差不大，此时LSTM模型预测结果较为准确；2021年预测1季度时R2为0.33，预测结果比2019年同期水平差；2021年预测半年时R2为-0.63，说明模型2021年半年预测误差比使用基准模型误差稍大。

3 讨论

本文运用无锡市某三甲医院2015年1月至2019年6月、2015年1月至2021年6月数据分别训练LSTM模型，使用训练的模型分别预测2019年7—9月和2019年下半年、2021年7—9月和2021年下半年需求量，通过结果可以发现预测时间越短，预测结果越准确。通过上述预测结果可以直观的掌握静脉留置针月度使用量的变化情况，预测留置针的使用需求的变化，能够降低需求判断的经验成分，避免库存数量不足和不必要的库存积压等情况。

由于医用耗材的使用受多种因素影响，预测模型很难与实际情况完全吻合。白玲等[18]基于ARIMA乘季节性模型进行医用耗材的使用预测，平均百分比误差为5.3%；杨越等[1]使用专家建模型模块自动选择模型进行某型号吻合器使用预测，预测结果R2=0.317，总体相对误差为15.12%；许亮业等[19]使用ARIMA模型进行医用低值耗材使用量进行预测，绝对误差为8.58%。值得注意的是，上述研究均使用线性模型进行预测且数据均为新冠疫情爆发前数据。本研究使用非线性模型LSTM进行新冠爆发前半年预测结果R2为0.95，平均百分比误差为3.43，均好于上述研究使用的线性模型，充分体现了非线性模型的优点。由于新冠疫情爆发以来，国内处于点状发生的状态，对某一地区的医疗机构而言，其受影响程度处于动态变化中，这使得医用耗材时间序列数据处于动态受影响状态中，呈现出一定的无序性；对基于时间序列数据进行历史规律挖掘的预测算法而言，其需要动态进行模型调整，影响了预测精度。从LSTM预测结果来看，预测误差上升有限，表明了LSTM模型能够动态跟踪时间序列的这种无序变化因素；R2下降明显，从侧面表明了时间序列数据的无序性。2021年一季度预测结果R2为正数，半年预测R2为负数，因此当前预测模型应进行短期预测，避免进行长期预测。

4 结论

本文以无锡市某医院常规在用耗材为研究对象，通过LSTM神经网络模型预测了未来一段时间某类耗材的需求数量，预测结果较理想，但当时间序列数据受到诸如新冠疫情这类突发因素影响时，LSTM模型预测精度将受到一定的影响，后续将考虑采用组合模型方法进行预测，进一步提高模型预测精度。本项研究一定程度上验证了LSTM模型在医用耗材需求预测领域的应用前景。