吴少峰 周瑞豪 郝学超 张伟义 舒红平 王亚强 朱 涛
(1.成都信息工程大学软件工程学院 成都 610225)(2.成都信息工程大学数据科学与工程研究所 成都 610225)(3.成都信息工程大学软件自动生成与智能服务四川省重点实验室 成都 610225)(4.四川大学华西医院麻醉手术中心 成都 610044)
术中低血压事件是手术中常发生的不良事件,有研究表明,术中低血压事件的发生,会导致患者手术后其它不良并发症事件(如急性肾损伤、心肌损伤等[1~2])的发生,甚至会导致患者的死亡[3~4]。在手术的过程中,提前5min~15min 预测低血压事件,将为临床医生主动采取措施预防风险,进而改善术后患者的预后提供帮助[5]。
临床上,患者的术中平均动脉压(Mean Arterial Pressure,MAP)持续1min 以上低于65mmHg,则认定患者发生术中低血压事件(如图1所示)[2]。导致这一事件的发生因素众多,仅根据临床医生在麻醉诱导前可用的变量进行预测是一项十分困难的任务[6]。因此,患者术中丰富的生理指标监测数据常被作为特征用于术中低血压事件的预测[7~9]。
图2 多变量时间序列
图3 时空信息分段融合模型
当前,术中低血压事件的预测是研究热点问题之一,通常采用有监督学习方法,利用患者术中有限窗口范围内的多种生理指标监测数据提取特征,将预测任务定义为在未来一段时间内“是否”会发生术中低血压事件的二分类任务实现。Hatib 等[5]基于患者术中监测的高保真动脉压波形数据,提取波形中包含的几何特征,将预测任务归为二分类问题,实现术中低血压事件的预测。Duggappa 等[7]利用患者术中监测的多个指标数据,采用二分类有监督学习模型,验证了灌注指数在术中低血压事件预测任务上的有效性。
多变量逻辑回归、随机森林、支持向量机、朴素贝叶斯等统计机器学习模型被广泛应用于术中低血压事件预测[6~7]。近年来,随着深度学习在众多领域的预测任务中被验证能够通过复杂的特征变换过程,获得更优秀的数据表证并应用于预测。因此,Lee 等[8]将卷积神经网络(Convolutional Neural Network,CNN)引入术中低血压预测任务,提取动脉压、心电图、光电容积脉搏图和血管照影等四种高清数据中蕴含的信号特征,通过回归(预测血压值)和分类(预测是否发生)来预测低血压事件的发生,取得了良好的应用效果。Chan等[9]利用长短期记忆(Long Short-Term Memory,LSTM)模型提取多变量特征在各时间点的观测值的时间序列关联信息,用于低血压预测任务。CNN具有良好的局部变量间关联特征的提取能力,但对特征的长时间序列依赖不敏感。相反地,LSTM 能够有效建模变量观测值的长时间序列依赖关系,但对于变量间的局部空间关联特征不友好。
因此,本文为解决上述问题,将患者术中多种生理指标监测数据联合表征建模,以期形成融合了多变量时序观测的“时间信息”(即单变量观测值上下文依赖信息)和“空间信息”(即窗口范围内变量间的局部关联信息)的数据表证,进而提升术中低血压事件预测能力。
术中低血压一直是医学领域的研究热点之一。Ghassemi等[10]基于Parzen正态模型、逻辑回归和神经网络在内的各种方法,使用患者的生命体征预测低血压。Hatib 等[5]基于逻辑回归方法,使用从动脉压波形中提取3022 个单独特征和2603125个组合特征进行术中低血压预测。Cherifa 等[11]通过与临床MIMIC II 数据库匹配的高频记录来训练机器学习算法,该算法能够提前30min 识别急性低血压。上述方法均使用了机器学习方法,但需要人工设计特征。
深度学习作为机器学习的子领域,因其可以自动学习和识别特征,有人将其用于术中低血压预测。LSTM模型因能够处理时间序列的长时间依赖问题,被广泛用于术中低血压预测。Jaffe等[12]使用rmsprop 和脱落正则化方法训练的LSTM 模型被用于急性低血压预测。但LSTM 只能学习到时间信息,忽略了局部空间信息。Lee 等[8]提出了基于全卷积网络(Fully Convolutional Networks,FCN)的术中低血压预测模型,虽然能解决上述问题,但又忽略了时间信息。Wang等[13]证实了在时间序列分类中残差网络(Residual Network,ResNet)也表现出了较好的性能。借鉴Jaffe、Lee 和Wang 等的思想,本文提出了一种基于时空信息分段融合的术中低血压预测方法,先使用FCN 或RES 提取多变量时间序列的局部空间信息,再使用门控循环单元(Gated Recurrent Units,GRU)学习时间信息并进行预测。
本文提出的两个模型的空间层的结构是不相同的,一个为FCN,而另一个为RES,但他们都是由卷积块(Convolution Block)组成。其中每个卷积块都包含三个操作:一维卷积、批标准化(Batch Normalization,BN)和修正线性单元(Rectified Linear Unit,ReLU)激活函数。FCN 详细结构图如图4(a)所示。
图4 空间层架构图
为了使每一层的输入分布更加相似,便于网络可以专注学习类别之间的差异,输入Fi使用BN对训练数据进行标准化,得到批标准化输出Bi:
最后,为了增加神经网络的非线性因素,输入Bi使用ReLU 作为激活函数进行非线性操作,输出结果为hi,但在经过最后一个ReLU 输出结果为:
本文使用三个GRU 来提取时间信息。详细结构图如图5所示。
图5 时间层架构图
其中Wi、Wz、Wh、Ui、Uz、Uh表示为可训练矩阵,br、bz、bh为偏置,∙表示元素乘法。根据上述公式类推,最后一个GRU层的输出为Etime。
本文使用的术中监护数据由某三甲医院提供,所有数据在使用时均已经脱敏处理。本文共使用139 台手术数据,从56 个指标中刷选出11 个最常用的生理指标,指标包括有:有创收缩压、有创舒张压、有创平均动脉血压、心率、脉搏、血氧饱和度、血流灌注指数、二氧化碳呼吸率、潮汐末二氧化碳、潮汐末氧气和吸入氧气均是1s 测量一次的数值数据。
通过滑动窗口的方法来生成训练样本,如图6所示。将滑动窗口划分成三个窗口:1)观察窗口;2)间隙窗口;3)预测窗口。其中观察窗口、间隙窗口和预测窗口的长度是固定的,在预测窗口中根据术中低血压的定义为观察窗口中的数据打上1或0的标签,其中标签1 代表发生低血压,对应的数据为正例样本,标签0 代表未发生低血压的负例样本。
图6 滑动窗口
正负例样本的滑动间隙设置相同则会造成数据的分布不平衡,如图7所示,滑动间隙10s的正例样本与10s、20s、40s和60s的负例样本对比,负例样本的滑动间隙越短,与正例样本的比例就越高。所以在划分时将正例和负例的滑动间隙分别设置为10s和60s,以确保正例样本的比例相对较高。
图7 正例样本与不同间隔负例样本比率图
针对数据中存在的缺失值,我们参考了Fernandes 等[14]的方法和Yoon 等[15]的方法进行处理。Fernandes 等[14]使用一个特殊值(-1)对缺失数据进行填充和Yoon 等[15]使用MRNN(Multi-directional Recurrent Neural Networks)在医学时间序列中对缺失值进行填补。在后续的文中,我们将用术语“原始数据”来指代使用特殊值填充的数据,而用术语“填补数据”来指代经过MRNN填补的数据。
模型训练批量大小为16,训练轮次为70。卷积核的数量为128,步长为1,大小为n×t,其中n表示卷积核的高度,设置为3,t表示卷积核的宽度,因输入向量X→的维度为11,所以t设置为11。GRU 的隐藏单元数为128,dropout 设置为0.5。学习率初始值为0.001,使用了早停机制和学习率改变机制。通过检测训练集的损失值,当10 轮损失值的改变小于0.0001 时,降低学习率到当前值的85%,当20 轮损失值变化小于0.0001 时,则停止迭代。
所有实验均使用5 折交叉验证。将全部样本通过5 折交叉验证划分成5 份,依次取其中4 份作为训练数据,剩余1份作为测试数据,最终训练出5个模型并得到5 份测试结果,评估模型性能时取5份结果的平均值、最小值和最大值(最小值和最大值的表示为(最小值-最大值))。
FCN、RES、GRU、LSTM、FCN-LSTM、RESLSTM 以及本文所提深度学习模型均使用Keras 框架搭建。
本文采用的评估指标包括NPV(negative predictive value,阴性预测值)、PPV(positive predictive value,阳性预测值)、Specificity(特异性)、Sensitivity(灵敏性)以及AUC,计算公式如下:
其中TP表示为被模型正确地预测为正例的样本数量,FP表示为被模型错误地预测为正例的样本数量,TN表示为被模型正确地预测为负例的样本数量,FN表示为被模型错误地预测为负例的正例样本数量。
4.4.1 原始数据对比
为了验证本文所提模型在预测术中低血压任务中的有效性,选择了两个机器学习模型逻辑回归(Logistic Regression,LR)、支持向量机(Support Vector Machine,SVM)深度学习模型FCN、RES、LSTM、GRU、FCN-LSTM、RES-LSTM作为对比模型。
观察表1,对比空间模型的FCN 和RES,其中RES的PPV 和特异性均高于FCN,这表明RES在剔除阳性样本和识别真实阴性样本方面表现出较高的准确性。然而,RES在排除真实阴性样本和检测真实阳性样本方面可能存在的局限性,其NPV 和灵敏性相对较低。
表1 原始数据对比
观察表1,对比时间模型的LSTM 和GRU,GRU的效果整体优于LSTM,而且将空间模型和时间模型进行结合,RES_GRU和FCN_GRU的指标均高于或等于对应的RES_LSTM 和FCN_LSTM 模型。这进一步说明在时空信息分段融合模型中,GRU 的效果要优于LSTM。这是因为GRU 具有更强的记忆和更新能力,能够更好地捕捉时序数据中的长期依赖关系,从而提高模型的性能。
因此,将表1 中LR、SVM、FCN、RES、GRU、RES_GRU 和FCN_GRU 进行对比可以发现,RES_GRU 和FCN_GRU 在多数指标上都表现出优于机器学习模型、空间模型和时间模型的性能。这是因为术中生理数据往往具有时序关系和空间分布信息。时间模型只能考虑时间维度的信息,空间模型只能考虑空间维度的信息。然而,时空信息分段融合模型能够同时利用时间和空间的信息,综合多个维度的特征,从而更全面地描述数据的特性。时空信息分段融合模型能够捕捉时间和空间之间的相关性。术中生理指标的变化往往与时间相关,而指标间的关系也可以反映不同时间之间的差异。时空信息分段融合模型能够通过跨时空关联更好地理解这种影响,并在分类任务中准确地考虑到这些关联。
因此,通过融合时空信息,时空信息分段融合模型能够更好地利用数据的时序和空间关系,提供更准确、全面的特征表示。这使得时空信息分段融合模型能够更有效地解决具有时空相关性的分类任务,并在术中低血压预测任务中表现出更优越的性能。
4.4.2 填补数据对比
为进一步验证时空信息分段融合模型在术中低血压的预测效果,本文还添加了原始数据和填补数据的对比,并根据原始数据对比中的分析,选择了深度学习模型FCN、RES、GRU 作为对比模型,对比原始数据和经过填充数据的效果。
观察表2 发现,使用填补后数据在空间模型或时间模型都存在指标下降的情况,例如FCN中灵敏性减少3%,RES 中特异性减少8.8%、GRU 中灵敏性减少11.6%。而在时空信息分段融合模型中,各项指标都有增加,这表明填充后的数据会引入新的特征或特征组合,这些特征对于单独的空间模型或时间模型是不可见或难以捕捉的。而时空信息分段融合模型通过综合考虑时间和空间的信息,能够更全面地获取新增加的数据信息。这样的综合特征表示可以帮助模型更好地区分不同类别之间的差异,提高分类性能。而且经过填补后,模型能更轻易地捕捉时间和空间之间的相关性,通过综合分析这两个维度的信息,模型能够更好地理解数据的整体模式和趋势,从而提高分类效果。
表2 填补数据对比
此外,观察表2可以发现各个模型在AUC的最小值和最大值范围上的差异比原始数据大。这说明填补数据虽然接近真实值,但不可能完全准确地反映真实情况,因此会引入额外的噪声。针对FCN、RES、GRU、FCN_GRU、RES_GRU 模型,它们的范围差的增大值分别为3.8%、6.6%、11.1%、1.5%、5.7%。尽管RES_GRU 模型的增大值相对较大,但与RES 和GRU 模型相比,其增大值仍然小于他们。而FCN_GRU模型的增大值最小。这说明时空信息分段融合模型相对于其他模型表现出更好的鲁棒性,能够更稳定地应对噪声和不确定性的影响,从而提高模型的可靠性和泛化能力。这些发现强调了鲁棒性在时间序列数据分析中的重要性。鲁棒性较强的模型能够在填补数据等引入噪声的情况下仍保持稳定的性能。因此,时空信息分段融合模型较小的范围差增大值显示了它们相对于其他模型具有更好的鲁棒性,这使得它们更适合在实际应用中处理时间序列数据并做出可靠的预测。
本文提出了基于时空信息分段融合模型的低血压预测方法,使用全卷积网络或残差网络提取局部空间信息,再使用门控循环单元提取时间信息并进行预测。在临床原始数据和填补数据中不仅表现出较好的性能,还表现出一定的良好鲁棒性。但术中低血压的发生不仅和患者术中的生理指标相关,还与患者基本信息以及病史都存在关系。所以在后续的实验中可以添加患者的术前数据,与术中数据一起预测低血压的发生。这样做可以更全面地考虑患者的情况,进一步提高低血压预测的准确性。