基于深度学习的医疗数据智能分析与核验算法研究

2023-08-27 09:02郭钰哲
电子设计工程 2023年17期
关键词:维空间编码器准确率

李 杨,郭钰哲,庞 乐

(西安交通大学第二附属医院,陕西西安 710004)

互联网技术的不断普及推动了医疗技术的高速发展,目前也有越来越多的智能医疗设备可以为人们提供便捷的医疗监测服务。通常情况下,医疗设备首先通过传感器采集患者的各种生理数据,例如血流量、血压值、脉搏值与心率值等。然后再对获取到的医疗数据进行智能分析及处理,从而有效判断出患者的身体健康状况,并为后续进一步诊治做先验指导。

然而,在实际使用过程中,随着医疗设备使用次数的增多及使用年限的增长,设备运行异常的情况也时有发生。这种情况可能会导致检测结果不准确,并对患者的健康状况做出误判,从而延误治疗时机[1-2]。因此,医疗设备的异常数据识别至关重要。异常数据的本质便是从设备多个维度所组成的高维数据中,分析出与大部分数据不相符的离散数据值,并根据这些数据值对设备的运行状态进行综合评估。

文中基于深度学习(Deep Learning,DL)模型,设计了一套医疗设备异常数据查验系统。该系统对自编码器(Auto Encoder,AE)算法及对抗神经网络(Generative Adversarial Network,GAN)进行了改进与融合,从而使高维数据转换为低维数据,且在提取特征后再进行分析。实验表明,该算法具有一定的实用价值。

1 异常数据核验算法设计

1.1 基于变分自编码器的数据降维算法

自编码器[3-4]是一种具有无监督性质的网络模型,其可将输入的高维数据映射至低维空间,进而学习数据的隐藏特征并完成数据重建。

通常一个基础的AE 网络具有三层结构,如图1所示。其分别为输入层、隐藏层和重构层,这三层结构实现了两个重要的转换,即编码与解码转换。

图1 自编码器结构示意图

对于一个维度为n的输入数据,可将其记为x。编码转换操作表征了一种空间映射关系,该映射关系实现了输入数据x从n维到d维空间的映射转换。编码转换可表示为:

式中,z表示输入数据x映射到d维空间的输出,σ指的是激活函数,b代表自编码器的偏置值,W表示自编码器的权重系数。

作为编码转换的逆操作,解码转换可表示如下:

式中,c代表自编码器在解码过程中的偏置值,W*表示该过程的权重系数。

深度AE 网络将多个基础的自编码网络进行叠加,作为一种无监督的深度网络模型,其利用上一层的隐藏层表示作为网络中下一层的输入,从而得到更为抽象的网络结构。深度AE 网络的结构如图2所示。该网络结构模型的训练终止目标为经过该深度自编码网络重构出n维空间。

图2 深度AE结构示意图

数据无限接近输入层的n维空间数据x,由此即可得到深度自编码器的损失函数为:

其中,W代表深度自编码器的权重系数,b、c表示偏置值,||·||2表示取L2 范数。为避免训练过程中出现过拟合现象,此处引入权重衰减(Weight Decay),则有:

由式(4)和(5)可知,Lwd表示权重衰减。同时,在式(5)中,λ表示衰减系数,||·||F为权重系数W的F范数。

由此可见,深度AE 训练与输出样本之间的映射是固定不变的,故模型对数据的噪声较为敏感。而处理特征较多的复杂数据时,样本的分辨误差则较大,因此需对AE 模型进行改进。

变分自编码器(Variational Auto-Encoder,VAE)[5-7]是生成神经网络的模型,其结构如图3 所示。该模型在AE 的基础上增加了变分结构,使编码器的输出样本数据对应输入数据的均值及方差。

图3 变分自编码器结构

VAE 作为自编码器的改进模型,其需要先得到观测值p(z)的潜在分布p(x|z),具体如下所示:

在连续域z中,可将数据x使用对数表示为:

式中,DKL为KL 散度(Kullback Leibler Divergence),LVAE为x的变分下界值,其使用的是拉氏变换(Laplace Transform);q为p(z)至p(z|x)映射的变分近似;φ和θ均为编码器的参数。求解目标即为通过优化φ和θ两项参数,进而得到DKL的最小值。设L的表达式如式(8)所示:

由于散度值大于零,故可得:

由此即得到变分下界。

1.2 基于改进GAN的异常数据检验模型

生成对抗网络[8-10]利用对抗的基础理论来获得理想的训练数据。其由生成器与鉴别器两个主要部分组成,且二者均可看作是映射函数。其中生成器通过学习真实样本的特征,将随机噪声伪造成具有真实样本特征的数据,而鉴别器则对伪造数据加以鉴别。生成器与鉴别器不断对抗学习,直至伪造数据被判别器判定为真为止,这体现了零和博弈(Zero-sum game)的思想。该网络的组成结构如图4所示。

图4 生成对抗网络结构

在计算GAN 时,判别器通常会对输入数据的散度进行计算,并以此作为数据真实性的判断依据。当散度接近0 时,表示数据的虚假度较高;而接近1时,则表示数据的真实性越高。

在生成器的训练过程中,当两组数据的分布距离接近时,交叉熵会变为常数,此时梯度则无法下降,导致梯度消失,训练失败。为了解决散度导致的梯度消失问题,文中使用Wasserstein 距离取代交叉熵,其可在全局层面对各组数据的分布距离进行计算。所以,相较于初始GAN,Wasserstein 距离[11-12]能改善原始GAN 带来的梯度下降问题。

虽然Wasserstein-GAN(WGAN)从理论上解决了GAN 模型不稳定的问题,但同时其引入的Lip 函数也会导致梯度爆炸的情况,并使算法性能变差且运算时间过长。因此,需要对WGAN 模型进行剪枝(Pruning Algorithm,PA)[13-14]操作。通过在WGAN 判别器损失函数中加入PA 项,以减少梯度运算所带来的计算负荷。

1.3 系统模型框架

由于WGAN-PA[15-16]可对噪声数据进行伪造,弥补了VAE 网络对噪声过于敏感的缺点,因此可将WGAN-PA 和VAE 进行结合,融合后的简化模型如图5 所示。在WGAN-PA-VAE 模型中,VAE 负责将输入的高维数据进行编码,并映射至低维空间;将低维数据输入至GAN 网络后,由GAN 中的生成器将其伪造成样本数据;再输入至鉴别器中,并解码得到最终的数据,即VAE 为WGAN-PA 模型的生成器。

图5 简化模型结构图

异常数据监测模型整体框架如图6 所示。其中,输入数据为医疗设备生成的各种状态数据,而数据设计模块则对状态数据进行归一化处理;之后再输入至WGAN-PA-VAE 模型进行差异数据监控,并将数据传输至异常检测模块。当异常得分达到故障阈值时,便可对机器状态做出预测,从而输出预测结果。

图6 异常数据监测模型整体框架

2 实验与分析

2.1 实验环境搭建

实验选择某医院大型医疗设备2015—2021 年运行的状态数据作为数据集1,常用异常数据公开集KDD99-sub 作为数据集2。此外,数据集1 与数据集2 的状态数据种类分别为12 种和41 种。数据集与实验环境说明如表1 所示。

表1 数据集与实验设置环境说明

2.2 算法测试

算法测试分为两部分,分别为算法的效率及性能测试。首先进行算法效率测试,并将准确率设定为评估值,观测准确率稳定后的迭代次数。迭代次数越少表明算法的收敛性越好,效率也越高。使用WGAN、VAE、随机森林(Random Forest)算法及文中算法在数据集1 上进行对比验证。最终得到的数据识别准确率与迭代次数的关系曲线如图7 所示。

图7 数据准确率与迭代次数关系曲线

由图7 可知,随着迭代次数的增加,所有算法的准确率均随之上升并逐渐趋于稳定。其中,文中算法在四种算法中对异常数据识别的准确率最高。同时,其在所有算法中迭代次数也最少,仅使用45 次迭代即可完成。由此说明文中算法具有较高的效率,且稳定性也较优。

性能测试部分同样对比了文中算法与WGAN、VAE、随机森林算法,其中,WGAN、VAE 用作消融实验(Ablation Experiment),随机森林算法则作为外部补充对比算法。评估指标采用深度学习常用的精确率、召回率及F1 值,在数据集2 上测试的结果如表2所示。

表2 测试结果

从表2 中可以看出,所提算法的精确率、召回率及F1 值在所有算法中均为最优。这表明,将WGAN与VAE 结合可有效提升算法的性能。

同时,所提算法还能对设备的健康状态进行分析预测。根据异常检测模块中的评分算法进行打分,得分高的即为异常数据量过多且易损坏的设备。此处实验采用2015—2020 年的设备数据进行训练,对2021 年设备情况的预测数据如表3 所示。

表3 得分情况

由表3 可看出,根据模型打分情况对设备的健康状况进行评估,得到的结果较为准确,可反映设备的实际健康情况。由此证明,文中算法具有一定的实用价值。

3 结束语

异常数据监测可对复杂医疗设备的健康状态进行全方面评估[17-18]。文中利用深度学习模型,首先,将自编码器改进为变分自编码器算法,然后,将对抗神经网络进行优化并剪枝,最终,使两种改进算法相结合,进而令模型具备了从高维数据中提取数据特征的能力。实验结果表明,文中算法具有良好的效率及性能,可对设备的健康状态进行打分并判断其损坏情况,故可应用于医疗设备数据智能分析系统中。

猜你喜欢
维空间编码器准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
Update on Fengyun Meteorological Satellite Program and Development*
基于FPGA的同步机轴角编码器
高速公路车牌识别标识站准确率验证法
基于PRBS检测的8B/IOB编码器设计
从零维到十维的空间之旅
JESD204B接口协议中的8B10B编码器设计
十维空间的来访者