李奕霏
(济宁市第一人民医院,山东 济宁 272000)
随着计算机信息技术的快速发展,医院信息化建设日趋成熟,健康档案系统也已逐步升级为智能化的管理平台。然而这类系统的广泛使用会产生大量数据,对采集到的数据进一步展开智能化分析才能为医疗服务、疾病预测以及降低成本等提供有效的支撑。因此如何智能挖掘复杂的医疗健康档案数据,并根据相关记录来预测出对应的健康状况是一个亟待解决的问题[1-2]。研究表明,深度学习(Deep Learning,DL)[3-4]技术可被广泛应用于医疗健康领域的数据分析之中,并取得了良好的效果,故文中提出了一种基于深度学习与模糊C 均值聚类(Fuzzy CMeans,FCM)的数据分析算法。该算法可对具备复杂属性的医疗档案数据进行分析与研究,以获得更为准确的数据挖掘结果。在对复杂属性的数据进行特征提取的基础上,通过聚类处理提高算法性能,并根据不同属性对数据加以分类,进而实现对患者健康状况的预测。
医疗健康档案数据是一种多模式的复杂数据,其数据量会持续、快速地增长,且其中还包含着丰富的信息。因此针对这种复杂的海量数据,深度学习可以从中提取出更具表达能力的特征信息,从而实现更加精准地判断及识别。
文中所采用的深度学习理论是一种利用深度人工神经网络(Deep Artificial Neural Network,DANN)的机器学习算法(Machine Learning,ML)。基本的人工神经网络结构[5]具有分别对应于神经细胞体和神经突起的节点与边缘,如图1 所示。其中,输入层的节点通过边连接到下一层中的其他节点,且边的权重为w,该权重参数可反映两个节点之间关联的强度。典型的神经网络由一个输入层、一个输出层及介于两者之间可变数量的隐藏层组成。
图1 人工神经网络的基本组成
若神经网络具有多个隐藏层,则称其为深度神经网络(Deep Neural Networks,DNN),基本结构如图2所示[6-7]。首先将输入层每个节点中的值乘以权重,而权重则被添加到下一层的节点中。因此,第一隐藏层中每个节点均包含具有不同权重的输入节点中的所有信息,进而生成各种可能的简化表示以区分数据集中的差异。随后再将第一隐藏层节点中的信息集成到下一隐藏层节点中,即第一隐藏层所有节点中的值再次乘以不同的权重,且在第二隐藏层每个节点中产生不同的值。此过程在多个层中重复,使得节点差异组合的数量大幅增加,因此需要建立能够分离数据集中差异的更高级标准。深度神经网络的训练旨在确定产生最小误差函数的权重值,该函数表示解释数据集的最优模型。在训练期间进行权重优化,将初始输入变量转换为更有用的特征。然后选择初始特征的子集并在更深层中构建抽象的特征,这些特征即为原始特征的差异组合。此外,由于所选要素中包含来自输入数据的相关信息,故可以使用上述降维表示来执行所需的任务。上述方法即为深度神经网络进行特征提取和选择的过程。
图2 深度神经网络的基本结构
该文设计的基于深度学习与模糊C 均值聚类的档案数据分析算法整体框架如图3 所示。首先对医院健康管理平台获取到的档案信息进行数据预处理,以便后续算法的分析计算;然后利用深度学习模型双向门控循环单元(BiGRU)学习数据集中的特征信息,并获得不同属性间的关联性;最终引入模糊聚类方法对模型所学习到的特征信息进行聚类,从而实现患者健康状况的预测。
图3 档案数据分析算法框架
深度学习方法可以从数据中提取深层及抽象的特征,并以有效的方式捕获数据中的长期依赖关系,进而实现对图像和文本数据的有效分析。由于诊断技术的发展,使得医学图像与转录数据的数量大幅增长。而在大数据分析中,深度学习方法具有比传统方法更为理想的性能,故该文选择了深度学习模型BiGRU 来进行数据的分析。该模型可以分别从正反两个方向读取数据,并提取健康档案数据中的上下文特征和语义特征等信息[8-11]。因此,根据健康档案数据的特点,该文基于深度学习模型BiGRU 设计了健康档案的分析算法。
BiGRU 模型的基本单元由一个向前传播与一个向后传播的GRU 单元组成。GRU 是一种递归神经网络(Recursive Neural Network,RNN)[12-13],其将输入门和遗忘门合并至同一个更新门中,形成了更为精简的结构。而上一时刻隐藏层的输出对当前隐藏层的影响由更新门控制,更新门值越大,其影响就越大。前一时刻隐藏层信息的忽略程度则由复位门决定,复位门值越小,说明被忽略的信息越多。GRU 结构如图4 所示。
图4 GRU结构
图4 中,x表示输入数据,h表 示GRU 单元的输出。r是复位门,z是更新门。GRU 在上一时刻通过复位门选择需要放弃的信息,则有:
式中,Wr是复位门的权重信息,ht-1是前一时刻的输入,br是该门的偏置,σ是激活函数。
GRU 通过更新门选择并更新当前时刻的信息,计算公式如下:
式中,Wz是更新门的权重信息,bz是更新门偏置。
其中,tanh 为激活函数,Wh、bh为权重信息和偏置,rt为复位门的输出,xt为输入的数据。
最终GRU 便可根据上述结果得到输出,计算公式如下:
深度学习算法虽具有良好的泛化与数值逼近能力,但其在执行过程中通常会产生确定值。而健康状况有时较为模糊,因此直接采用深度学习算法训练数据会存在较多的冗余信息,不但增大了计算量而且容易诱导算法难以收敛。相比于深度学习,模糊神经网络可以产生更详细的结果,也能过滤掉冗余信息,从而提高算法的泛化能力。模糊理论是一种具有模糊不确定性的重叠数据聚类算法,其能够从海量数据中挖掘出关键信息并进行聚类识别[14-16]。为了提升档案数据分析算法的性能,文中采用深度学习网络模型和模糊C 均值聚类技术来构建新方法。
模糊C 均值聚类[17-19]根据距离与隶属度值来最小化平方误差目标函数J,然后将有限顶点集合V=(v1,v2,v3,…,vN)划分为模糊子集C=(c1,c2,c3,…,ck)。
式中,m为大于1 的模糊度指数,Uij为vi在第j个聚类中的隶属度。通过更新隶属度矩阵U和聚类中心cj,迭代优化式(5)中的目标函数,以获得模糊聚类。当边缘切口小于阈值ε时,就会达到收敛。
首先初始化隶属度矩阵U,令Uij=,然后利用式(6)计算所有顶点的模糊隶属度:
再计算所有聚类的模糊聚类中心cj:
重复上述步骤,直至平方误差目标函数J值达到最小化或小于阈值ε。
为验证文中所提档案数据分析算法的有效性,文中实验将UK BioBank 的电子医疗记录数据作为数据集。其中包含了319 650 名患者的入院诊断信息、处方、病理及影像报告等与健康有关的数据。而数据中的患者健康状况类型可分为三种:健康、亚健康和疾病。同时,此次实验还将该数据集分为训练集、验证集与测试集。
文中使用Python 进行仿真,通过实验结果来验证所提档案数据分析算法的可行性。具体实验环境如表1 所示。
表1 实验仿真环境
将准确率、精确率、召回率与F1 值作为性能评价指标。计算公式如下:
式中,Pn为预测正确的样本数量;N为所有样本的总数量;TP 表示正确预测的样本数,FP 表示其他分类被错误预测为此分类的样本数,TN 表示作为其他分类被错误预测的样本数。
3.3.1 参数调整
文中还通过多组实验对比来确定算法的最优参数,具体实验结果如表2 所示。由表可知,当算法的最优参数设置为迭代次数300 次、最佳优化器选择Adam、学习率为0.001 以及批大小为64 个时,深度学习模型在数据集上的准确率可高达98.76%。
表2 参数调整实验结果对比
3.3.2 算法对比
为了验证该文算法的优越性,还将其与多种深度学习算法进行了实验对比。表3 为不同算法的准确率、精确率、召回率和F1 值的对比结果。
表3 实验对比结果
从表3 中可以看出,LSTM 在数据集中的表现最差,所有指标在对比算法中均为最低;而具有膨胀卷积和残差模块等结构的TCN 比LSTM 和GRU 这两种RNN 的变体效果更优,且TCN 在测试集上的精确率为93.95%,召回率为94.18%,F1 值为94.06%。此外,该文算法的准确率、精确率、召回率与F1 值分别为98.76%、98.81%、98.56%以及98.68%,均优于其他深度学习模型,由此证明了该文算法的优越性,同时还验证了加入模糊聚类的有效性。
为了对健康信息平台采集的海量健康档案数据进行智能化分析,文中提出了一种基于深度学习与模糊C 均值聚类的档案数据分析处理算法,以实现对被测者健康状况的精准预测。该算法采用深度学习模型BiGRU 对数据特征进行学习并提取关键信息,再通过模糊C 均值聚类算法进行处理,从而精准预测出相关人员未来的健康状况。在UK BioBank公开电子医疗记录数据集上进行的实验结果证明了所提算法的综合性能优越。此外,通过实验对比还验证了模糊C 均值聚类与BiGRU 联合应用的可行性和有效性。