曹晓宇 徐 波 张慧凤 魏新江
1 鲁东大学数学与统计科学学院,264039 山东 烟台;2 山东省公共资源交易中心,250014 山东 济南
世界卫生组织(WHO)发布数据显示,2020年有近1 000万的死亡是由癌症导致的[1],但抗肿瘤药物价格昂贵以及先进治疗药物难以获取一直是困扰我国肿瘤患者的难题[2]。在医药领域方面,药品价格水平[3-6]及药品价格预测[7-9]是药品价格研究领域的焦点问题。本研究以山东省为样本地区,编制价格指数对山东省抗肿瘤药物的价格水平进行趋势分析,建立ARIMA和LSTM模型进行预测对比,选择最佳模型对抗肿瘤药物价格指数进行预测,为相关部门监测药物价格走势提供理论依据。
所用数据来源于系统脱敏处理的山东省2016年1月至2021年4月共64个月的抗肿瘤药物采购数据,对药品通用名匹配,筛选出64个月在山东省均有采购数据的40种抗肿瘤药物,并基于40种抗肿瘤药物的采购数据进行价格指数的编制和预测。
1.2.1 用药频度和药品日价格计算方法
在编制药品价格指数时,虽然不同通用名的药品价格都是以货币作为计量单位,但同一药品通用名存在不同规格、不同剂型、不同包装等问题,将其药品价格进行简单相加没有意义,因此采用WHO推荐的限定日剂量(DDD),即为达到治疗目的成人所需要使用的平均日剂量[10]。用药频度( DDDs)替代抗肿瘤药品的数量,即该药品的数量可供一位肿瘤患者使用的天数;药品日价格( DDDc) 替代抗肿瘤药品的价格,即一位肿瘤患者服用该药日平均价格。计算公式:
(1)
(2)
1.2.2 价格指数编制
药品价格指数反映一定时期内药品价格的变化程度,能够衡量药品价格水平[11]。价格指数常用编制方法有拉式、帕氏以及费氏价格指数等。编制不同的价格指数,其含义也不同,在研究中需要根据研究目的选择合适的模型。拉式、帕式、费式价格指数计算公式:
式中,P0表示的是药品基期价格;P1表示的是药品报告期价格;Q0表示的是药品基期数量;Q1表示的是药品报告期数量。
1.2.3 长短时记忆神经网络
长短时记忆神经网络(LSTM),本质上是一种特定形式的循环神经网络(RNN)[12]。LSTM模型主要通过改进新的内部状态和门控机制2个方面解决RNN在训练过程中出现的梯度消失和梯度爆炸问题。新的内部状态可以对线性的循环信息进行传递,而门控机制用来控制信息传递的路径,包括遗忘门ft、输入门it和输出门ot。
1)遗忘门:判断哪些信息需要被神经元遗忘,通过Sigmod层组成,其输出结果介于0~1之间,“0”表示完全遗忘这部分信息,“1”表示完全保留这部分信息。计算公式:
ft=σ(Wfxt+Ufht-1+bf) (6)
2)输入门:控制哪些信息需要被储存。分为2步:第一步将先前隐藏信息和当前输入信息通过Sigmod函数决定哪些值用来更新,第二步通过Tanh函数生成新的候选值。计算公式:
it=σ(Wixt+Uiht-1+bi) (7)
3)输出门:控制当前内部状态有多少信息需要输出给外部状态。首先通过Sigmod函数得到新的单元状态,再通过Tanh函数将值缩放在-1到1之间,最后与Sigmod输出相乘,得到最终的输出。计算公式:
ot=σ(Woxt+Uoht-1+bo) (8)
式中,σ表示输出区间(0,1);xt表示当前时刻的输入;ht-1表示上一时刻的外部状态。
1.2.4 自回归移动平均
ARIMA模型全称为自回归移动平均模型,可以用来对时间序列数据进行预测,简记为ARIMA(p,d,q)[13]。ARIMA将原始序列视为随机序列,并建立相关模型进行分析与研究。计算公式:
利用公式(3)、(4)、(5)编制抗肿瘤药物的拉式、帕式、费式价格指数,并绘制价格指数趋势图。抗肿瘤药物的拉式、帕式、费式价格指数下降比例分别约为25%、57%和43%,除了2016年11月至2017年3月及2019年12月至2020年4月期间有2次较大波动外,大部分月份抗肿瘤药物的价格变动呈现稳步下降趋势,表明山东省的抗肿瘤药物市场发展前景良好,抗肿瘤药品的价格整体呈现下降的趋势。价格指数变动趋势见图1。
图1 山东省抗肿瘤药物价格指数变动趋势
探究2次波动原因:2016年11月至2017年3月期间原料药垄断严重,抗肿瘤药物的制药成本增加,药品价格持续上涨[14];2019年12月至2020年4月期间新冠疫情暴发并在全球蔓延,WHO癌症控制官员埃尔巴维表示患者免疫系统受到病毒抑制,患病率上升[15]。同时,医药市场受到波及,生产企业不能及时生产所需药品,造成部分药品短缺,抗肿瘤药物价格急速上升。
2.2.1 数据预处理
费式价格指数更能准确地反映现实价格的变化,所以采用费式价格指数数据建立模型。抗肿瘤费式价格指数为一维特征,对筛选后的序列利用公式(10)进行归一化处理。
(10)
同时,为了使抗肿瘤药物的价格指数预测数据具有现实价值,利用公式(11)对其进行反归一化处理。
x=y(max-min)+min
(11)
2.2.2 模型构建
构建费式价格指数LSTM模型,提取其中65%的数据当作训练集,35%的数据当做测试集,设置迭代次数为100,神经元数量为4。
绘制费式价格指数损失图,当训练集的损失值下降时,测试集的损失值也下降,且2条线逐渐拟合,表明LSTM神经网络正常,是理想状况。损失值变化见图2。
图2 费式价格指数模型损失图
2.2.3 LSTM模型预测
利用训练好的LSTM模型预测费式价格指数数据,预测值和真实值的走势大致相同,呈下降趋势。蓝色曲线为真实值,黄色曲线为训练集预测值,绿色曲线为测试集预测值。拟合效果见图3。
图3 费式价格指数模型预测
利用构建的LSTM模型预测未来8期的费式价格指数,未来8期的费式价格指数呈下降的趋势,见表1。
表1 LSTM模型预测值
利用ARIMA模型建立抗肿瘤药物价格指数预测模型,与LSTM模型预测结果进行对比分析。
2.3.1 平稳性和随机性检验
判断费式价格指数序列平稳性,抗肿瘤药物费式价格指数序列波动趋势较大,序列蕴含着显著的递减趋势及以年为周期的季节效应。
对费式价格指数序列进行1阶差分,提取蕴藏的确定性信息。利用ADF检验和LB统计量分别进行平稳性和纯随机性检验,得出1阶差分后序列为平稳非白噪声序列的结论。费式价格指数1阶差分时序图见图4。
图4 费式价格指数1阶差分时序图
2.3.2 ARIMA模型建立
根据差分后的自相关(ACF)图拖尾,偏自相关(PACF)图1阶截尾,对序列拟合ARIMA(1,0,0)×(1,1,0)12模型。见图5。
图5 低价格指数1阶差分序列自相关与偏自相关系数图
计算ARIMA(1,0,0)×(1,1,0)12模型参数:
(1-B12)(1-B)xt=-0.007+
(12)
对上述模型进行模型与参数检验。由检验结果可知,P大于检验水准0.05,残差序列为白噪声序列,模型成立。见图6。
图6 ARIMA(1,0,0)×(1,1,0)12模型统计学检验
根据原始序列的长度为64,依据近似方法判断参数显著性。由模型的拟合效果来看,参数估计值的绝对值都大于该参数的2倍标准差,所以模型的参数都显著非零。见表2。
表2 费式价格指数模型预测误差
2.3.3 ARIMA模型预测
建立ARIMA(1,0,0)×(1,1,0)12模型的预测图,基于模型(12)预测未来8期费式价格指数。预测结果显示,未来8期费式价格指数整体呈现递减趋势。在一定程度上证实,“十三五”期间实施山东省药品集中采购政策对降低抗肿瘤药物价格的有效性。预测结果见图7和表3。
图7 费式价格指数模型预测图
表3 ARIMA模型预测值
为评判模型拟合效果,采用均方误差(MSE)作为评价标准,MSE能够反映数据的变化情况。计算公式:
(13)
计算ARIMA(1,0,0)×(1,1,0)12模型和LSTM模型的均方误差,MSE分别为0.60%和1.85%,ARIMA(1,0,0)×(1,1,0)12模型拟合精度高于LSTM模型,ARIMA(1,0,0)×(1,1,0)12模型更适合应用于山东省抗肿瘤药物费式价格指数预测。
目前应用于时间序列预测的方法主要为ARIMA、决策树、RNN和LSTM等方法。在对药品价格指数进行预测时,模型一般采用单一机器学习算法或者深度学习算法,缺少模型的预测对比。机器学习中的ARIMA模型是常用的时间序列预测方法,适用于中短期时间序列且不考虑外界影响因素,缺点是要求序列平稳;而深度学习中的LSTM算法是目前较为流行的预测模型,能够解决RNN模型的长期依赖和梯度消失问题,缺点是对长期模型具有较好的预测效果。应根据数据本身选择适合的模型。本研究结果表明,相比较深度学习LSTM算法,机器学习ARIMA算法更适用于本次研究, 其预测误差比LSTM模型的预测误差低。
通过对山东省抗肿瘤药物价格指数进行分析,可以看出山东省药品集中采购政策能够降低抗肿瘤药物价格。基于LSTM和ARIMA模型对山东省抗肿瘤药物价格进行趋势预测,未来8个月抗肿瘤药物价格呈现下降趋势。动态监测抗肿瘤药物的价格走势,及时发现并调整价格波动异常情况。
本研究也存在一定的局限性,此次研究的数据为每月均在平台挂网出售的抗肿瘤药物,部分月份缺失的抗肿瘤药物没有考虑在内,对抗肿瘤药物的价格水平可能产生影响。后期会根据山东省药品集中采购平台提供的新月份抗肿瘤药物订单数据,及时对模型进行参数调整,确保对抗肿瘤药物价格水平做出准确描述。