刘瑞
(河南科技大学第一附属医院 血液科,河南 洛阳 471000)
随着智能化和信息化的快速发展,医学科学技术水平也在不断的提升,重症监护室(intensive care unit,ICU)成为医学研究人员关注的热门话题。ICU 主要分为综合ICU、专科ICU(如:烧伤ICU、心血管外科ICU、新生儿ICU 等)和部分综合ICU,部分综合ICU 介于综合ICU 和专科ICU之间(如:外科ICU、内科ICU、麻醉科ICU 等),其中综合ICU 收治危重症患者[1-3]。当前国内外关于ICU 死亡风险预测的研究中,传统方法大多使用Logistic 回归模型来预测ICU 患者的死亡风险[4],但是针对ICU 患者数据指标间的无规律性、可交互性和非线性关系等,这些方法在处理效果上仍存在值得改进的地方。而随着医疗信息化[5-6]和医疗大数据[7]时代的到来,ICU 患者的相关诊疗信息通常动态地存储在医院科室的计算机患者个人数据库系统中。这为研究人员进一步开发更加准确高效的死亡风险预测模型,提供了可靠的大数据保障。随着新一代人工智能[8]技术的快速发展,传统的机器学习方法已经被深度学习技术所超越,因此,通过将深度学习方法与ICU 死亡风险预测相结合,构建一种新型智能化的死亡风险预测模型,成为医疗领域亟待解决的关键问题之一[9-10]。笔者通过调研相关文献发现,LIPTON等[11]研究人员提出的卷积神经网络(convolutional neural network,CNN)作为一种高效的深度学习方法,广泛地应用于医学和生物信息学领域[12]。因此,本文首先通过运用国际上大型重症医疗数据库重症监护医学信息市场(Medical Information Mart for Intensive Care Ⅲ,MIMIC-Ⅲ)作为数据源,其次提出一种基于深度学习方法的ICU 患者住院死亡风险预测模型,最后与传统的简化急性生理评分(Simplified Acute Physiology Score Ⅱ,SAPS-Ⅱ)系统的预测性能进行分析比较。
本文的数据来源是选取麻省理工大学计算生理学实验室、哈佛大学贝斯以色列迪康医学中心和飞利浦医疗合作建立的MIMIC-Ⅲ大型重症医疗患者数据库,该数据库主要由生理波形数据库和临床数据库构成[13]。MIMIC-Ⅲ数据库是在MIMIC-Ⅱ数据库的基础上,进一步增加了2008 年至2012 年的相关医疗数据,提高了临床数据的类型。MIMIC-Ⅲ数据库通过精准的去隐私技术处理,目前对全球科研人员免费开放使用,已经成为开展重症医学领域临床研究的重要资源。笔者从该数据库中选取约3 亿多条结构化数据和6 万例ICU患者的临床信息,作为研究深度学习方法在ICU患者死亡风险预测的数据源。
1.2.1 数据清洗 数据清洗是提高数据挖掘质量的一种有效手段,本文首先去除MIMIC-Ⅲ数据库中的各个表格中的缺失数据、格式和内容错误的数据、逻辑错误的数据和不需要的数据,然后进行关联性验证,从中提取出SAPS-Ⅱ模型中用到的12 项生理参数(体温、氧合指数、心率、收缩压、尿量、血清尿酸氮、胆红素、白细胞计数、血清钾、血清钠、血清碳酸氢钠、格拉斯哥昏迷评分)、年龄、入院类型(计划手术,非计划手术,无手术)、是否合并艾滋病、转移癌和血液系统恶性肿瘤的所有相关变量。
1.2.2 数据变换 数据变换是对数据进行规范化和统一化处理,达到适用于挖掘的目的。在MIMIC-Ⅲ数据中,由于各类型变量都是以原始值的形式存储,同一生理变量也存在多种不同的单位形式,所以首先需要将变量的单位进行统一化。如果MIMIC-Ⅲ数据库中变量只有唯一的取值,则直接使用该变量的原始值。考虑到ICU 患者的各项生理参数指标,可能会存在多次重复测量现象,因此本文主要提取患者进入ICU 后的48 h 内各项生理参数变量的最大值、最小值和平均值。
在深度学习方法中卷积神经网络作为一种经典的有监督前馈神经网络[14]。从结构上看,卷积神经网络是由卷积层、池化层和全连接层构成。卷积层的作用主要是通过卷积核来实现对MIMIC-Ⅲ数据库特征进行提取,其中每一层的输出是对多输入特征进行卷积,其模型表达如下。
本文研究中所用的卷积神经网络算法和数据分析主要由软件R3.6.1 版本中的卷积神经网络包实现[15]。通过将MIMIC-Ⅲ数据库中的样本数据集随机划分为训练数据集和测试数据集,其中训练数据集占3/4、测试数据集占1/4,数值变量用均数±标准差(±s)表示,分类变量用频率表示。运用卷积神经网络包预测的变量来源于SAPS-Ⅱ模型中各个变量的原始值,若存在重复变量,则包括最大值和最小值,输出值为每个ICU 患者的住院死亡的可能性(概率)。各指标分别在训练集和测试集中进行比较,由于数据类型的不同,因此数值变量的平均值采用独立样本t检验,分类变量的构成比采用χ2检验。
在训练数据集中利用卷积神经网络建立模型,分别从准确率、灵敏度、特异度、约登指数、召回率等5 种指标进行比较。为了避免实验过程种存在的偶然误差,通常计算3 次结果的平均值,来比较模型的性能。使用配对t检验评价所构建的卷积神经网络模型的5 次结果之间的差异是否具有统计学意义。将训练好的卷积神经网络模型,运用测试数据集进行验证,结果如表1 所示,这表明卷积神经网络模型在模型性能上均高于SAPS-Ⅱ评分模型。
表1 两种方法在测试集上预测效果
随着大数据时代的到来,运用深度学习的方法,来预测ICU 患者住院死亡风险程度是医护人员和患者家属关注的焦点,同时也为早期发现和治疗ICU 患者提供了准确的科学方法。在过去的研究中,传统的危重症病情评分系统主要是采用Logistic 回归模型进行预测,本文使用的MIMIC-Ⅲ数据库是医学领域中一种流行的数据库,该数据库包含临床上病人的上万种特征,因此针对高维度的特征,需要选择合适的预测变量来建立ICU患者死亡风险模型,本文所选择的预测变量均来源于SAPS-Ⅱ评分模型中包含的特征变量。本文所提出的卷积神经网络模型和SAPS-Ⅱ模型在预测准确度上分别为75.77% 和74.00%,同时卷积神经网络模型在灵敏度上为71.56%,明显高于SAPS-Ⅱ模型的70.54%。
本文提出的卷积神经网络模型与传统的SAPS-Ⅱ模型相比,在性能上具有更明显的优势,因此更适合预测ICU 患者死亡风险。随着新一代互联网和人工智能技术的到来,医疗大数据也越来越受到医护研究人员的认可,通过借助计算机,运用卷积神经网络模型来智能化地构建住院死亡风险预测系统,不仅可有效辅助医生进行临床诊断决策,而且也提高了医护工作人员的工作效率。