唐明康,王科盛*,李双双,刘 培,彭旭光
(1.电子科技大学机械与电气工程学院,成都 611731;2.成都水木医疗科技有限公司,成都 611731)
我国各大医院已经普遍对各类医疗设备,尤其是应急救治设备开展较为严格的日常管理。临床使用过程中,一些医院也已经开始收集海量的应急救治设备运行数据,但如何有效利用这些数据并形成规范化的应用模式,仍是当前医院数据赋能研究的一个难点问题。
目前虽然我国针对医疗设备陆续出台了一系列监督管理和临床使用安全方面的政策法规[1-3],但利用医疗设备运行数据对医疗设备开展可靠性水平评价的研究还十分匮乏。在应急救治过程中,应急救治设备的可靠性水平直接影响应急救治实施,而应急救治设备的可靠性水平与其在日常使用中的运行数据又直接相关。因此,如何充分利用应急救治设备日常运行数据,甄选出可靠的应急救治设备奔赴前线,对应急救治工作以及医院的日常医疗设备选用和调度具有重要的现实意义。
医用物联网作为新兴事物,主要被应用于辅助医院实时掌握医疗设备基本信息[4-5],但这种掌握侧重实现医疗设备的精细化管理,缺乏从物联网数据底层起始的清洗工作,遑论深入挖掘物联网数据中的隐藏信息。目前我国针对医疗设备数据已出台一些行业标准[6-8],医疗健康大数据应用日益广泛[9-10],但针对医疗设备物联网底层数据进行清洗并分析的研究成果鲜见相关报道,亟须开展相关方面的研究工作。本文以呼吸机物联网数据为研究对象,主要针对预处理数据的有效性开展研究,从数据清洗与特征工程2 个方面入手,将预处理后的数据作为输入,利用搭建的机器学习模型验证预处理数据在医疗设备故障预测过程中的有效性。
A 医院利用射频识别(radio frequency identification,RFID)技术制作呼吸机唯一身份标签,将采集卡嵌入呼吸机,通过物联网实时跟踪收集呼吸机运行数据[11-12],并汇总保存于数据库。目前,利用物联网数据,A 医院已实现信息化精准管理、追踪医护过程等目标[13-14]。采集过程中,物联网终端依据设定程式自行逐条从呼吸机采集数据,各条数据可对应二维表格的一行,同品牌型号呼吸机数据对应表格格式相同。本文累计收集84 台呼吸机临床工作10 d 的运行数据,共计176 万条。
本文分析对象为泰科PB840 呼吸机,其经由物联网传输至终端的数据对应表格共计222 列。按具体内容可将这222 列大致分为4 类,即标识类数据、参数设置数据、传感器实时数据、设备报警记录(部分数据项实例见表1),具体如下:
表1 PB840 呼吸机数据项表(部分)
(1)标识类数据用于确定各条数据来源,包含数据采集时间、呼吸机ID 编号、呼吸机型号,对应各条数据的数据生成时间、具体来源设备以及来源设备型号。
(2)参数设置数据包含呼吸机参数设置情况,与医师操作相关。
(3)传感器实时数据包含呼吸机运行过程相关指标,部分数据项数值随时间变化而波动。
(4)设备报警记录包含呼吸机运行过程中报警信息。但在呼吸机临床应用中,根据操作医师的反馈,考虑到必须对患者生命安全负责,呼吸机生成报警信号时强调高召回率而忽视精确率,这导致报警信息的准确率较低,对数据分析工作参考价值不高。
基于本研究现有数据,呼吸机物联网数据还具备以下特点:
(1)在时序层面,呼吸机物联网数据分布不均匀,且采集过程受呼吸机状态干扰。因此从宏观角度观察,数据采集时刻间隔不一,且在时序上存在不规律性。
(2)在数据类型层面,呼吸机物联网数据可分为数值类与状态类。前者指该类数据值为在固定区间内波动的浮点数,后者指该类数据值在有限状态中切换。
(3)在数据完整性层面,呼吸机物联网数据不完全合乎系统设计者制定的规范,为简便起见,后续将此类不符合规范的数据以异常数据代称,非此类数据则以正常数据代称。异常数据与正常数据相比,存在以下特征的至少一种:数据残缺,指嵌入呼吸机的采集卡未能从呼吸机上采集到一条完整的数据;乱码,指异常数据中不包含有效信息,全为乱码。根据以上对医用呼吸机物联网数据具体内容、数据类型、数据完整性的阐述,绘制呼吸机物联网数据分类情况,如图1 所示。
图1 呼吸机物联网数据分类图
异常数据约占呼吸机物联网数据总量的2.7%,且易于被直观发现并分离。大多数呼吸机在使用过程中均会产生异常数据。在时序上,异常数据故障多发于呼吸机开、停机时刻附近,其典型情况如图2所示。
图2 呼吸机异常数据时序分布典型情况
图2 依时序从下往上绘制异常/正常数据点,数据点的密集程度表现物联网终端采集数据的频率,异常数据于左侧绘制为红色。图中显示2021 年9 月7 日ID20140600175 的呼吸机随着异常数据出现频率逐渐增多最终停机。
鉴于异常数据的上述特性,本研究以预测异常数据故障为目标设计试验,从而印证预处理工作的有效性。
数据准备的目的在于将原始数据转换为适合机器学习模型的格式,以供给后续建模分析。数据准备根据操作顺序及难易程度大致可分为2 个步骤,即数据清洗与特征工程。
(1)数据清洗:数据清洗通常包含重复值处理、缺失值处理、异常值处理等要点。本文数据清洗工作见表2。
表2 数据清洗工作表
(2)特征工程:特征工程紧随数据清洗之后,其目的在于从原始数据中提取适合模型的特征。正确的特征能够降低模型的训练难度、提升其性能。虽然正确而恰当的特征工程方法需要结合数据与模型具体而定,但依然存在一些基本原则可供参考[15]。针对不同数据,特征工程提供不同的处理方法。对于数值型数据,常用方法有过滤、分箱、缩放、提取交互特征等[16-19];对于分类变量,常用方法有编码、特征散列化、分箱计数等[20-22];对于数据降维,常用方法有投影、流形学习、主成分分析等[23]。
本研究所涉特征工程方法包括缩放、编码以及通过自编码器实现的降维操作[24],其基本工作流程如下:
(1)掌握各数据项单变量分布情况。
因后续实验中所采用的神经网络模型的特性,需对数值型数据进行无量纲化处理以提升模型性能。首先对所收集的数据进行分析,获得各个数据项在其取值区间上的频数分布情况。部分数据列对应箱形图如图3 所示。
图3 部分数据列箱形图
由图3 可知,呼吸机物联网数据在数学统计分布上并不一致,针对具体数据项,需要结合其物理意义及统计分布情况逐项进行处理。可视化是观察数据分布的重要工具,图4 中各子图展示了呼吸机物联网数据分布的典型情况,即数值主要分布于首端、常用值附近、末端及数据分布近似正态分布,共计4种情况。
图4 数值型数据样例单变量分布图
(2)根据单变量分布情况选择处理方法。
本研究针对的是呼吸机物联网数据,其数值类数据的数值变动情况没有横跨多个数量级,因此不进行区间量化处理及指数、对数处理。
根据各数据项单变量分布图,针对性地使用min-max 缩放及Z-score 归一化,计算公式如下:
式中,x为原始数据;a、b为归一化值;μ 和σ 分别为数据的平均值和标准差。
对于状态类数据,依据数据清洗工作中建立的字典,将状态值映射替换为数值。
(3)依据后续使用的机器学习方法规整数据。
将呼吸机物联网数据按呼吸机ID 编号分组,并按生成时间排序,调整数据格式为矩阵格式。图5 展示了100 条同呼吸机的物联网数据依时序规整后的矩阵形式,数据将以此形式输入模型进行学习。
图5 矩阵值三维空间图
(4)人工特征选择。
呼吸机物联网数据经数据清洗后,其数据项虽大为减少,但依然高达121 项,且数据中包含着大量由缺失项产生的噪声。因此需对输入数据进行人工特征选择,以降低训练成本、滤除噪声。经对各数据项物理意义逐个分析,剔除了数据中连续性较低的参数设置数据与误报较多的设备报警记录,以合计46 项的传感器实时数据作为后续模型的输入。
在医疗设备故障预测领域,机器学习已是可行的方法之一[25]。陈艳等[26]基于呼吸机的环境、电气、气路数据以及故障报警资料,搭建神经网络实现了对呼吸机故障的识别与预警;Badnjevic 等[27]基于多种机器学习算法预测除颤器的性能,并结合多种指标以判断性能优劣。
本文采用人工神经网络方法,以异常数据作为训练标签,以预测异常数据故障为训练目标。将预测时长分段,转化模型任务为二分类任务,将训练目标,即预测时段内有无异常数据故障以独热编码表示(独热编码即One-hot 编码,独热编码使用一组单位向量来表示不同的状态,且该组向量在各不相同的一维上取值为1)。若预测30 min 内无异常数据故障,模型输出表示为(1,0),若预测30 min 内将出现异常数据故障,模型输出表示为(0,1)。
神经网络模型相关要点见表3。
表3 神经网络模型相关要点表
自编码器作为自监督学习算法的典范,以自回归为目标进行自监督学习,能在进行数据降维的同时实现特征检测功能。
表4 所示的模型结构仅含976 个可训练参数,小巧的模型容量能够强迫模型学习输入数据的主要特征。
表4 自编码器网络结构一览表
图6 以图像形式展示了本文自编码器对输入数据的编码、解码过程,原本长度为46 的向量被压缩至长度为3 的向量,经过解码后被还原至原始大小。在此过程中,解码得到的还原向量与输入的原始向量相比有所损失,但压缩得到的特征能够包含原始向量的主要信息。
图6 自编码器工作原理示意图
图7 展示了30 万条特征向量在3 维空间内的分布情况,特征向量全部来源于未经自编码器训练的测试集。
图7 特征向量三维空间散点图
图7 特征点的颜色变化反映着时序变化,可直观发现大部分时序相近的特征点在三维空间内位置也相近,且自发地构成数道轨迹,说明自编码器降维效果良好。
使用表5 中的编码器结构及权重对输入数据进行降维,在此基础上训练长短期神经网络执行二分类任务。在训练过程中,冻结编码器权重。
表5 神经网络结构一览表
神经网络在经过10 轮次训练后性能不再提升。使用准确率(Accuracy,Acc)、精确率(Precision,Pre)、召回率(Recall,Rec)、阴性预测值(negative predictive value,NPV)、特异度(Specificity,Spe)指标评估模型的性能。
式中,TP、FP、FN 和TN 分别代表真阳性、假阳性、假阴性、真阴性样本[28]。
训练结束时模型各项指标见表6。
表6 模型评估指标表单位:%
由于本研究数据集为不平衡样本集,常用的准确率、精确率、召回率指标易达到较高值,因此增添阴性预测值、特异度指标作为补充。由表6 可知,模型拟合效果良好,但由于在验证集上阴性样本较少,故对应的阴性预测值、特异度较低。
基于不平衡数据集训练分类任务时,对样本占比少的分类采取过采样措施以提升模型性能是常用方法之一。对训练集中样本数量占比较小的阴性样本采取过采样措施,训练结果按照超采样倍率列表,详见表7。
表7 超采样后模型评估指标表单位:%
超采样未对模型各项指标产生较大影响,说明验证集与训练集间数据时序特征差别相近。但特异度值始终保持96%左右,说明一部分阳性与阴性样本的特征相当接近。
为了针对呼吸机物联网数据探索出一种合理的底层数据预处理方法,本文从呼吸机物联网底层数据出发,描述了数据清洗及特征工程的大体流程,并设计训练了预测异常数据故障的神经网络模型,成功实现了对特定故障的预测。本研究初步验证了预处理工作的有效性,证明了呼吸机状态变化的确能够由物联网数据反映。研究中发现的数据冗余、缺失及数据异常,或能为物联网开发人员提供参考。另外,本研究针对医用呼吸机物联网数据的处理流程,或能为数据分析人员对如何处理各式医疗设备物联网数据提供参考。
本研究还存在一定的局限性,包括:(1)目前采集到的数据量有限,采集时间跨度仅达10 d,导致难以预测更长时间段内的故障情况,此外,数据量的稀少限制了模型容量及性能的提升。(2)由于缺乏验证手段,未能实现利用物联网数据预测呼吸机其他多种故障模式的目的,因此不能仅依据本研究成果对呼吸机实时可靠性进行估计。
在后续工作中,探究如何从呼吸机物联网数据中发掘医用呼吸机的其他故障模式对应特征,以及如何在更长时间维度上进行故障预警将是重点。