基于监护仪质控大数据的性能预测模型初探

2019-02-26 11:48潘克新徐太祥

医疗卫生装备 2019年2期

向逾，潘克新，徐太祥，姚明

（1.重庆市巴南区人民医院总务科，重庆 401320；2.陆军特色医学中心设备科，重庆 400042；3.重庆市巴南区人民医院儿科，重庆 401320）

0 引言

在现代医疗机构中，医疗设备已经成为不可或缺的诊疗手段，卫生监管部门也相应增大了对其质量的关注和管控力度。国内绝大部分医院的设备维修都属于故障后维修，很少能做到有目的的预防性维护，这种模式让我们经常陷入被动以致设备无法正常使用甚至伤及患者。如能有效预测未来设备性能的变化，就可以在设备不间断运行的情况下为医工人员提前制定针对性的维护策略或应急预案，充分保障综合医疗质量。

目前能为我们提供预测原始数据的有维修与质控数据。维修数据很大程度上只能定性分析设备当前故障，所测数据主要为电压和电流，指向范围太广，数据属性单一，在性能预判方面的针对性较差。而质控数据体现了设备主要功能的各个方面，是各个性能的综合反映，其大部分数据属于纯数值，符合时间序列的近似线性关系，便于建模和相关性研究。故本文以监护仪的血氧饱和度（以下简称“血氧”）质控数据为例进行预测分析，将其随时间推移而测出的数据序列视为一个时间序列并用数学模型近似描述这个序列，结合SPSS统计软件的基础函数最终确定符合客观规律的时序模型参数和趋势曲线。这个参数模型被准确识别后就可以用质控数据序列的过去值和现在值来预测未来值，从而预估设备性能的变化。

1 数据特点和预测模型

1.1 质控数据的特点

时间序列与一般的统计数据不同，它是一些有严格先后顺序的数据，不同时间段（点）的数据可能没有关联，但很多情况下它们之间存在着某种前后相承的关系，并不是绝对意义上的独立。

质控数据按照设备功能分类，属于单次时间节点测量值的集合，它严格按照时间轴来记录，以测量间隔来看，它是可以以季度、月份、天等时间计数顺序来排列的连续序列，而且是数值序列而非名义序列。同时，按照检定规程，即便是超差项，其阈值也规定在某个小范围内，属于偏离不大的时间序列，分布特征相对比较稳定。时间序列模型通常利用时间序列的过去值、当期值以及滞后扰动项的加权并建立模型来“解释”及“预测”时间序列的变化规律，所以质控数据可用时间序列模型来描述。

1.2 预测模型的选定

常用的预测模型包括单方程回归模型、联立方程回归模型、VAR（vector autoregression）模型、ARIMA（autoregressive integrated moving average）模型[1]。前 2种模型的缺点是：工具变量的选取具有随意性，不同的工具变量对应不同的参数估计值，据此而产生的预测误差必然较大；由于质控数据存在同期影响关系且当期关系并未隐含到随机扰动项之中，所以VAR模型也不适合。

ARIMA模型为自回归积分移动平均模型，记为ARIMA（p，d，q），由 AR（autoregressive）模型和 MA（moving average）模型组合运算而成，是统计模型中最常见的一种用来进行时间序列预测的模型，它只需要内生变量而不需要借助外生变量，在各个领域都有实际应用[2]。ARIMR模型中的均值、方差和自协方差与时间的绝对水平无关（是关于时间的常量），处理的时序数据是稳定的或者差分后稳定的，能捕捉线性或近似线性关系[3]。故该模型适合分析质控数据，其短期预测能力较强，时间越长精度越低。

2 数学模型及分析软件

2.1 模型分析和实现步骤

ARIMA模型有3个参数：p，d，q，其中，p代表预测模型中采用的时序数据本身的滞后数，也叫AR（p）（p阶自回归模型）项，代表该序列的项目数；d代表时序数据需要进行d阶差分化才是稳定的；q代表预测模型中采用的预测误差的滞后数，也叫MA（q）（q阶移动平均模型）项[4]，代表该序列的项目数。假设p、d、q的值确定，ARIMA预测模型的数学形式表达为

其中，yt为需要预测的当前值，μ为常数，t为时间点，yt-p为之前某个时间点对应的自回归项，p为上述AR（p）序列的数目，φ 表示 AR（p）序列中各项对应的系数；et-q为之前某个时间点对应的移动平均项，q为上述 MA（q）序列的数目，θ表示 MA（q）序列中各项对应的系数。

由AR（p）的定义来看，一个时间序列yt的变化受到自身以往状态的影响，影响因素主要是时间序列在不同时间点的取值。去除间接的相关性后，与它间隔超过p期的序列值将不再相关，因而AR（p）的偏自相关图在p阶函数值之后会呈现截尾性，同时它对平稳性有一定的要求。

由MA（q）的定义来看，时间序列模型根据平均前期预测误差的原则建立，前期预测值加上预测误差就可得到现在的预测值。移动平均模型是数据序列et的q+1个近期值的线性组合，因此et只能影响q+1期的序列yt值，使得相隔时间超过q+1的2个yt之间不存在相关性，因而MA（q）的自相关图在q阶函数值之后会呈现截尾性，同时它对可逆性有一定要求。

在SPSS软件中根据自相关和偏自相关的图形特征可选择对应的模型：若为自相关系数拖尾，偏自相关系数p阶截尾则采用AR（p）；若为自相关系数q阶截尾，偏自相关系数拖尾则采用MA（q）模型；若自相关系数和偏自相关系数都拖尾，则采用ARMA（p，q）模型；若为自相关系数q阶截尾，偏自相关系数p阶截尾则采用 ARIMA（p，d，q）模型。ARIMA 模型的建模分析过程如图1所示。

图1 ARIMA模型建模分析过程图

其基本步骤如下：

（1）获取被观察的时间序列数据，只能是某个性能质控结果中的纯数字值，不能交叉提取，因为不同参数的数据指向和数据关系是不同的。

（2）观测数据趋势图是否为平稳时间序列，对于非平稳时间序列要先进行d阶差分运算后变为平稳时间序列。根据输出的数据序列图判断是否为拖尾或截尾来判断平稳性，若为截尾则说明序列为非平稳。可反复设置不同d值进行平稳性观察比对，从中选取最优d值（d可为0）。

（3）经过上一步处理，已经得到平稳时间序列。要对平稳时间序列分别求得其自相关系数和偏自相关系数，通过对自相关图和偏自相关图的分析，确定最佳的阶数p和q。

（4）由以上的 p、d、q得出 ARIMA 模型，就可以进行模型检验和误差分析，最终由软件给出曲线趋势图。

上述步骤可简单描述为：首先用差分去掉季节性波动，之后去掉长期趋势，然后平滑序列去掉尖峰，最后用一个线性函数+白噪声的形式来拟合序列，也即不断地用前p个值来计算p+1的值，达到数据预测的目的[5]。

2.2 SPSS分析软件

本文在SPSS20.0中实现时间序列分析，由Data、Transform、Analyze、Graph 4个组件共同完成。在Data和Transform中完成数据定义和必要处理，以适应各种分析方法的要求；在Analyze中主要提供4种分析方法，包括指数平滑法、自回归法、ARIMA模型和季节调整法；在Graph中提供直观的图形分析工具，包括序列图、直方图、自相关图和偏自相关图等。该软件通过图形化观察和检验来把握时间序列的诸多特征，如时间序列的发展趋势是上升还是下降或是有无规律地上下波动、时间序列的变化周期以及是否存在异常节点等[6]。

3 实验及结果分析

首先进行数据准备，对某三甲医院某台进口品牌监护仪的血氧模块做一周一次的质控监测，跟踪记录2017年2—10月“90%标准值”内的测量值。在数据视图里导入Excel数据，分别标注为“日期”和“血氧值”，同时在变量视图里确认“血氧值”为数值型变量。SPSS软件的可导入文件类型丰富，包含dBase、FoxPro、Excel、普通文本以及 ASCII文本数据等，适应多种数据源[7]。

然后观察序列图，考察总体的平稳性。依次在菜单栏点击“分析”—“预测”—“序列图”。

不同d值血氧数据序列图如图2、3所示。从图2可以看出，曲线没有明显的季节性，整体趋势围绕“90%标准值”上下波动，因此没有必要做季节分解和差分，此时d=0。为了直观比对，设定d=1后观察（如图3所示），可以看出一阶差分（k阶差分即相距k期的2个序列值之间相减）后的时间序列与零阶差分相差不大，并且二者随着时间推移，时间序列的趋势都属于拖尾。因此认为序列是基本平稳的，可将差分次数d设置为0。

图2 血氧数据序列图（一阶差分，d=0）

图3 血氧数据序列图（一阶差分，d=1）

一般来说，平稳性的实质是要求随机过程包含的任意有限维随机变量族的统计特性具有时间上的平移不变性，这是一种非常严格的要求，如果要度量这种平稳性就需要分析2n-1个随机变量的分布或联合分布[8]。而从生成的序列图一般可以看出数据的几种基本趋势：（1）平稳性，围绕某水平线或某直线波动；（2）趋势性，呈显著上升或下降；（3）季节性，在某个固定时间段内有明显的季节波动。在预处理时必须首先去掉趋势性和季节性，使其符合平稳状态，这对于后续准确预测数据是至关重要的[9]。由图2可初步判断序列为平稳或非平稳，如平稳则进行下一步，如为非平稳，根据趋势特性通过相应的变换将其变为平稳序列：线性趋势选用差分、指数趋势先取对数再差分、季节性选用季节差分[10]。

接下来确定p和q值。依次在菜单栏选择“分析”—“预测”—“自相关”，将变量设为“血氧值”，同时勾选“自相关”和“偏自相关”。因为d=0，故不要勾选“差分”。生成的自相关图和偏自相关图如图4所示。

图4 血氧数据序列自相关图和偏自相关图

由图4可知，自相关和偏自相关基本都收敛在置信区间内，且都属于截尾的属性，因此可对原始序列建立 ARIMA（p，0，q）模型。p 值和 q 值的确定也有多种方法，主要包括以下几种：（1）观察法。直接观察，如果自相关图在q+1阶突然截断趋近于0，则在q处截尾。同理，偏自相关图在p+1处截断趋近于0，则在p处截尾，二者结合判断。（2）参数检验。利用数理统计检验高阶模型新增加的参数是否近似为零，判断检验模型残差的相关特性等。（3）信息准则。确定一个与模型阶数有关的准则，如赤池信息准则（Akaike information criterion，AIC）、贝叶斯信息准则（Bayesian information criterion，BIC）等，既考虑拟合效果接近程度，又考虑参数个数[11-12]。在实际应用中可多种方法综合应用，本文采用观察法判断。从图4可以看出，虽然2幅图中截尾属性的地方不止一处，但自相关图中q=3开始突然截尾，偏自相关图中p=2开始突然截尾，故p=2，q=3。依次点击“分析”—“预测”—“创建模型”，将“因变量”设为“血氧”，“自变量”设为“日期”，“方法”设为 ARIMA，“条件”设为“p=2，d=0，q=3”，并在“统计量”选项卡中，“拟合变量”选择“平稳的R方”和“R方”，“比较模拟”中选择“拟合优度”，“个别模型统计中”选择“参数估计”，SPSS输出的分析结果见表1。

表1 SPSS输出的模型拟合数据

表1中部分重要指标释义如下：

（1）R方：使用原始序列计算出的模型决定系数，正值越大说明拟合程度越好（最大为1.0），负值表示拟合效果很差。

（2）平稳的R方：用模型的平稳部分计算出的决定系数，当序列具有趋势或季节波动时，该指标优于R方，表中两者相等说明模型为非季节性。该值越大越好（最大为 1.0）。

（3）RMSE：均方误差的平方根，表示模型预测因变量的精度，其值越小，精度越高。

（4）MaxAE：最大绝对误差。

（5）MaxAPE：最大绝对误差百分比，单位为“%”。最大绝对误差和最大绝对误差百分比对于考虑预测最坏情况很有用，其值越小，说明预测值与原始值差别越小，即预测效果越好。

（6）正态化的BIC：基于均方误差的分数，该值越小越好。

另外，SPSS软件同时输出的模型统计量中，“Sig.”代表显著水平，若以5%为检验水平，大于0.05表示非自相关（随机的），小于0.05表示自相关（非随机的），本研究得出的Sig.为0.043。上述数据综合说明：拒绝残差序列为独立序列的原假设，模型拟合后的残差序列存在自相关，拟合情况良好，MaxAPE小于3%，可认为ARIMA模型达到了较好的效果。

为了清晰展示拟合值和观测值曲线的比对情况，SPSS可生成如图5所示的波动图，两者在整个可信区间总体拟合情况较好，整体上呈小幅波动状。

图5 血氧数据序列的拟合值和观测值

图6 血氧数据的趋势曲线

依次点击“分析”—“回归”—“曲线估计”后可得到图6所示趋势曲线。从图6中可以看出血氧测量值的总体水平从2017年2月到10月呈逐步下降走势，偏离“90%标准值”的程度逐渐增大。2017年10—12月的部分为给出的预测情况，其值更低，说明该监护仪的血氧电路需要进一步维护检测。通过这样的数据处理而形成的图形可直观反映该监护仪血氧电路的实际情况。所以，在持续的质控检定工作记录中，通过SPSS软件建模和分析，具有以下作用和优点：

（1）各类被检医疗设备都有自己的定量检测记录，而且大部分主要性能的检测结果都为纯数值，通过本文的分析可方便地实现指定性能的趋势计算，强化了质控工作的必要性和针对性。

（2）虽然质控数据非常庞大且看似毫无头绪，但不能止于“超差即不合格”的思维定势，不能满足于完成检测任务或是放弃隐患排查。本文所述理论清晰可行、软件运用简单方便，可从无序的数据中挖掘出设备性能的未来走势曲线。

（3）分析一定时间内的数据，根据直观的趋势曲线，客观判断某台设备的某项功能是否处于下降状态。这样可以非常方便地辅助维修工程师制订针对性维护保养计划，有目的地依靠质控数据的分析准确指导预防性维护的实施，也能为采购部门获取设备质量及性能信息提供数据支撑。

（4）预防性维护的工作量大大减少，不用遍历每一台设备，也不用根据个人经验来实施维护。如果分析发现有设备的性能呈下降趋势，就可以针对该设备的某一方面进行检查。就本文而言，出现血氧检测值逐步偏离增大的原因可能有：940 nm红外光驱动器脉冲调制时序频率变低，造成识别结果均值偏低；探头有污渍，连续脉冲信号计算有延迟；U/I转换电路的基准电压偏低等。

4 结语

在医疗设备的预防性维护工作中，很难对每台设备逐一深入排查，更多的时候只能抽样检测。如果要实现真正意义上的预防性维护，达到方便有效的性能监控，利用质控大数据进行分析和预判不失为一种可行性较强的手段。本文涉及的方法及分析软件在社会生产生活中已广泛应用，适应各类需求，图形化操作，内含多种集成函数。

质控数据包含的信息很多，除了能找到哪些变量对目标值有影响外，还能确定在目标属性的变化中不同原因的影响比例，例如控制电路板的老化程度、血氧探头性能的下降程度、红外二极管穿透力的降低程度等，或将性能变化的来源定位到某个具体部位和元件，这些针对医疗设备特别是大型、高风险设备的性能预测理论和方法都值得深入研究。利用现成的检测数据，充分进行性能预估分析，及时评价运行质量和实施应对措施，才能实现质控工作更深层次的价值和医疗设备的优质化管理。