基于重症监护数据库MIMIC-II的临床数据挖掘研究

2014-02-07 05:59张政波王卫东柴晓珂
中国医疗器械杂志 2014年6期
关键词:毒血症节律存活

王 剑,张政波,王卫东,潘 亮,柴晓珂

1 解放军总医院医学保障部,北京市,100853

2 解放军总医院生物医学工程研究室,北京市,100853 3 解放军总医院重症医学科,北京市,100853

4 解放军医学院,北京市,100853

基于重症监护数据库MIMIC-II的临床数据挖掘研究

【作者】王 剑1,张政波2,王卫东2,潘 亮3,柴晓珂4

1 解放军总医院医学保障部,北京市,100853

2 解放军总医院生物医学工程研究室,北京市,100853 3 解放军总医院重症医学科,北京市,100853

4 解放军医学院,北京市,100853

该文介绍了麻省理工计算生理学实验室、哈佛医学院BID医学中心以及飞利浦医疗合作建立的、开源的、多参数智能重症监护数据库Multiparameter Intelligent Monitoring in Intensive Care II:MIMIC-II,简单介绍了其结构、功能和临床应用。基于MIMIC-II临床数据库,开展了ICU脓毒血症病人血压和心率的昼夜节律性研究。该研究发现了脓毒血症患者死亡组和存活组在生理参数昼夜节律性上的显著性差异,解决了使用关系型数据库MIMIC-II开展生理参数昼夜节律性研究的很多技术问题。

数据挖掘;重症监护数据库;MIMIC-II;脓毒血症;昼夜节律性

0 引言

临床数据挖掘是指针对临床数据开展的数据挖掘技术,其目的是从回顾性的、海量的、多维度临床数据中获取新知识、发现新模式、新趋势,获取有用信息[1]。在“大数据”背景下,针对“医疗大数据”开展数据挖掘研究正逐渐成为热点研究领域。电子病例和医院信息系统的发展使医疗数据的提取、组织和再利用成为可能,医生和研究人员在一定程度上可以通过信息检索获得诊疗过程中的基本数据,用于科研和临床决策支持。虽然随着信息化进程的加快,医院信息系统收集到越来越多的数据,但是目前的医院信息系统在最初设计时没有考虑到医疗数据的再利用问题,更多的是满足医院收费和运营管理,因此基于医院现有临床数据库开展数据挖掘研究仍存在很多困难。由于缺乏有效的方法从来自医疗实践中的海量数据系统性地获取、分析和整合信息,医疗活动在一定程度上缺少循证支持,这实际上阻碍了医疗质量的持续提高[2-3]。相对而言,一些科室基于自身业务建立起来的专科数据库,能够更好的支持临床数据挖掘工作,从回顾性数据分析中获取新知识,从而有望形成临床数据收集-挖掘-临床决策支持的闭环,支持回顾性临床研究,达到医疗质量持续改进和提高的目的。

相比一般临床数据库,重症监护(Intensive care unit: ICU)数据库更能体现出临床数据分析的价值。ICU病人通常会接受很多治疗和干预,这些治疗和干预的效果需要客观数据的进一步验证,而实际过程中,支持或者反对某项治疗方法的高质量的临床数据却非常缺乏[4-5]。目前已经有一些商用和非商用的ICU数据库,这些数据库的功能主要是对人口统计学特征以及分布信息的归档,如疾病情况,严重程度以及就诊医院和科室信息等等。这些数据库的目的主要是评估和比较ICU病人疾病严重程度与治疗结果,以及治疗成本等,如由澳大利亚和新西兰重症监护协会建立的非商用数据库目前含有900 000多个ICU住院记录[6]。有些商用的ICU数据库虽然数据量比较大,但是生理和检验结果不完整,并缺少有效标识和生理波形数据库[7-9]。本文介绍了由美国麻省理工学院计算生理学实验室以及贝斯以色列迪康医学中心(BIDMC)和飞利浦医疗共同构建的多参数智能重症监护数据库(Multiparameter Intelligent Monitoring in Intensive Care II:MIMIC-II)。该数据库经过多个学科10多年的建设,目前已经被成功应用于ICU临床数据挖掘的多个研究领域。本文首先简单介绍MIMIC-II数据库的结构、功能和使用方法,然后介绍了基于MIMIC-II开展的研究项目:ICU脓毒血症患者生理参数昼夜节律性研究。

1 MIMIC-II数据库及其使用

1.1 MIMIC-II简介

MIMIC-II(http://mimic.physionet.org/)是一个对公众免费开放的重症监护病人数据库,收集了2001至2008年间来自BIDMC医学中心的ICU病人数据[10-11],目的是为了发展和评价先进的ICU病人监护系统,以提高ICU临床决策支持的有效性、准确性和时效性。该数据库包含临床数据库(clinical database)和生理波形数据库(physiological waveform database)两大部分。其中临床数据库目前已经收集了超过4万例ICU病人的临床信息,包括病人人口统计特征、检验检查结果、基本体征记录、输液和医疗干预记录、护理记录、影像学检查结果以及出院记录等,每个记录都有详细的时间信息;生理波形数据库记录了来自飞利浦床旁监护仪的高分辨率波形数据如心电、血压、脉搏波以及其他生理参数如呼吸、血氧、中心静脉压等等。所有这些数据资源经过严格的去除身份信息处理后,对全球研究人员免费开放,可以通过生理数据资源网站PhysioNet(http://www.physionet.org/)访问。全球每天有大量研究人员访问PhysioNet网站下载生理波形、趋势信息以及报警信息用于科学研究。由于生理波形数据库的使用相对简单,且目前国内已经有很多研究人员在使用,本文重点介绍了临床数据库部分,配合MIMIC-II数据库的使用,介绍了目前基于临床数据库开展的研究工作。

1.2 MIMIC-II使用

MIMIC-II临床数据库(2.6版)是一个关系型数据库,数据库中的原始数据以表格的形式存储,基本上是通过个人、医院和ICU住院的ID号关联组织起来的。目前麻省理工学院计算生理学实验室为数据库访问者提供了两个途径访问MIMIC-II数据库,一个是通过基于网页的在线访问工具:QueryBuilder,另一个是可下载的虚拟机(virtual machine: VM)镜像,以满足不同使用者的要求[12]。QueryBuilder功能相对简单,主要为使用者提供数据库的概况信息,使用者通过QueryBuilder可以快速的查询数据库的表格,检索基本信息,以查看数据库中是否有满足研究需求的相关信息;VM的功能更全,包含了MIMIC-II数据库的所有信息,使用者可以在本地安装后使用。QueryBuilder和VM都需要使用结构化查询语句(structure query language: SQL)对数据库进行操作,目前尚没有其他临床数据库支持类似的SQL查询功能。QueryBuilder和VM为使用者提供了访问MIMIC-II临床数据库的方法,要求使用者同时具有SQL和MIMCIII的使用经验。为了便于研究人员使用MIMIC-II临床数据库,计算生理学实验室结合临床研究问题举例介绍了如何使用SQL访问MIMIC-II数据库[12]。目前基于MIMIC-II临床数据库已经开展了大量的研究工作,全球已经有遍布32个国家的600多名研究者通过协议使用MIMIC-II临床数据库的数据资源,使用人数以每年50%的速度增长。与美国国家医学院复杂生理信号国家级科研资源中心PhysioNet配合[13],每年度的PhysioNet/CinC Challenges (http://www.physionet.org/ challenge)都会邀请全世界的研究人员一起解决临床实践中的富有挑战性和趣味性的问题。

2 ICU脓毒血症病人心率和血压昼夜节律性研究

2.1 问题来源

近来的一些研究表明,临床危重病人的昼夜生理节律性随病情的加重而消失。通过观察褪黑激素的分泌情况,研究人员发现在使用镇定药物和机械通气的ICU患者身上,昼夜生理节律性明显被破坏[14]。重度脓毒血症患者尿液中6-羟基硫酸褪黑素水平较非脓毒血症患者明显紊乱的事实也证明危重病人身上的昼夜生理节律性被破坏[15]。昼夜生理节律性对危重病人的临床意义是一个很难回答的问题,危重病人昼夜生理节律性的改变是一个生理补偿性反应还是一个病理反应,答案还不清楚。目前开展的所有关于ICU病人昼夜生理节律性的研究,由于ICU病人数据获取的困难性,样本量都比较小。这阻碍了在ICU病人大样本人群基础上开展昼夜生理节律性的研究。使用MIMICII数据库,我们可以使用数据库中已有的心率和血压等生理参数来建模昼夜生理节律性,从而在大样本数据集的基础上研究ICU病人的昼夜生理节律性。本研究是目前所知的第一个使用关系型ICU数据库数据开展的昼夜生理节律性研究项目。

2.2 数据来源和研究人群

本研究数据来自MIMIC-II数据库,该数据库收集了2001~2008年期间BIDMC的ICU病人的实验室检查、生理数据和临床诊疗数据。研究使用的所有数据(包括人口统计学特征信息以及各类生理参数、ICU死亡与否、用药和呼吸机支持情况等)通过SQL编程语言从MIMIC-II提取出来,包含了BIDMC的各类ICU病人中所有脓毒血症患者。从MIMIC-II数据库中提取出来的脓毒血症患者人数为3 837人(ICU住院日的中位数为5.3 d),经过数据预处理剔除不符合要求的病人记录后(数据预处理与记录筛选过程见文本2.3部分),用于最终研究使用的样本量为2 690人。从MIMIC-II中读取出来的数据以*.csv文件或者Excel电子表格的形式存储,在Matlab中完成数据预处理以及结果的统计分析。

针对上述研究人群,我们提取了心率、收缩压、舒张压、平均压4类感兴趣的心血管时间序列用于研究生理参数的昼夜节律性。由于这一人群的ICU住院日的中位数为5.3 d,我们提取了前6 d的生理数据用于分析。这些心血管变量的采样间隔为0.5~1 h,能满足昼夜节律性24 h周期性成分研究的采样率要求。除了上述参数,我们还提取了其他变量如ICU死亡与否、ICU入院时间、病人入院年龄以及升压药物和镇定药物的使用情况、机械通气使用情况等其他控制变量。

2.3 数据预处理和质量控制

要研究昼夜生理节律性,对生理数据的基本要求是至少每小时有一个测量值。来自MIMIC-II临床数据库的心率和血压数据,采样间隔通常在0.5~1 h,能满足昼夜生理节律性研究的需要。但由于这些数据来自临床环境,在实际记录中存在采样率变化、数据丢失、录入错误等情况,需要对数据集进行预处理以保证后续结果的可靠性。本研究的数据预处理包括时间序列对齐、合并有创和无创血压测量值、丢失数据差值以及剔除不合理记录等过程。最终我们剔除了ICU住院时间不足2 d或者有效数据长度不够48 h的病人记录,剔除了使用心脏起搏器的病人以及在整个ICU数据记录中丢失数据长度超过4 h的病人记录。进一步,我们剔除了不同时具有心率和血压测量数据的病人记录。最终我们剔除了29.9%的原始记录,剩下2 690例脓毒血症患者的心率和血压记录用于研究。数据预处理以及后续的信号处理和统计分析都在Matlab 2010b上实现。

2.4 昼夜节律性分析

对于筛选后的脓毒血症病人数据,进一步我们根据ICU死亡情况,分为死亡组和存活组,分别研究了死亡组和存活组在昼夜生理节律的差异。

2.4.1 集合平均

由于ICU病人病情复杂且在ICU中会接受各种治疗以及存在各种干扰,生理参数往往表现出较大的波动,为了直观看出ICU病人是否存在昼夜生理节律性,我们采用了统计信号处理上常用的集合平均的思想。首先根据ICU中脓毒血症患者死亡与否,将数据记录分为死亡组和存活组,然后在每一组内,对所有记录的心率和血压数据,在每个时间点相加取均值,从而获得每个小时点上的平均信号强度。通过观察两个分组的整体的信号强度,直观看出死亡组和存活组病人昼夜生理节律性的存在与否以及差异性,结果如图1所示。从图1可以看出,无论心率还是血压,脓毒血症病人死亡组和存活组都存在明显的差异,在存活组上能看到明显的昼夜生理节律性变化,而在死亡组这种变化几乎消失了。同时从心率和血压的基线变化上也能看出,存活组的转归要好于死亡组。在血压方面,存活组的平均压慢慢的恢复到正常的生理范围,而死亡组则一直停留在较低的水平。

2.4.2 昼夜幅度差的计算

为对比分析存活组和死亡组在昼夜生理节律性的差异,我们进一步计算了心率和血压参数的昼夜幅度差。我们采用数据驱动的方法确定了夜间时间:11:00PM~07:00AM和白天时间07:00AM~11:00PM,计算了每一个人的心率和血压在白天和夜间的中位数的差值,作为统计量来分析存活组和死亡组在昼夜生理节律性的差异。对于有多个住院日的ICU病人数据,我们取昼夜幅度差的中位数。

2.5 统计分析

我们采用了秩和检验来检验存活组和死亡组在昼夜生理节律性的差异。P<0.05认为两组之间存在显著性差异。统计分析在Matlab 2010b上实现。

2.6 结果

图2显示了将图1中的数据进一步以24 h为周期(从第2 d到第5 d)叠加平均的结果。对于这一结果,我们进一步采用了单余弦拟合的方法对昼夜节律性成分进行测试。单余弦拟合法是昼夜节律性研究常用的工具,对数据采用最小二乘拟合,P<0.05被认为符合余弦拟合[16]。从图2可以看出,无论心率还是血压,脓毒血症病人存活组的昼夜变化幅度都明显大于死亡组。

心率和血压昼夜幅度差的统计分析结果如表1所示。从中可以看出,无论心率、收缩压、舒张压还是平均压,脓毒血症病人死亡组和存活组之间都存在显著性差异。

图1 脓毒血症患者死亡组和存活组的心率和平均压比较Fig.1 Comparison of HR and MBP for sepsis between survival and non-survival subgroups

图2 脓毒血症患者死亡组和存活组的心率和血压24 h为周期叠加平均结果以及单余弦拟合结果Fig.2 Four-day average hourly data for HR and MBP between survivor and nonsurvivor subgroups, and corresponding results of single cosine curve ftting

表1 脓毒血症病人死亡组和存活组在心率和血压昼夜变化的幅度差异Tab.1 Amplitude difference in circadian variation between survivor and non-survivor subgroups

3 讨论

MIMIC-II数据库是第一个(目前也是唯一一个)大型的、对公众免费开放的ICU数据库,是一个非常有价值的研究工具,随着该数据库的不断扩展和完善,它的应用将越来越普遍。临床数据库建设的最大价值在于能够为各类临床研究提供数据支持,基于数据开展循证研究,为临床诊疗过程提供决策支持[17]。如前面引言部分论述的,医疗干预措施和效果评价需要高质量的、客观数据支持,尤其是在ICU环境中。本研究解决了使用关系型数据库MIMIC-II开展生理参数昼夜节律性研究的很多技术问题,如高效数据提取、时间序列对齐、合并有创和无创测量值、插值、集合平均、去趋势以及余弦拟合等。该研究一方面表明脓毒血者症患者死亡组和存活组在生理参数昼夜节律性上存在显著性差异:存活组仍保留有昼夜节律性,而死亡组则几乎消失了。另一方面,该研究也证明,关系型数据库MIMIC-II由于其丰富的数据信息(包括生理参数数值、记录时间以及ICU患者个人信息、治疗信息等),可用于开展生理参数昼夜节律性研究。利用MIMIC-II的丰富数据信息,可进一步研究昼夜节律性与临床干预措施(如使用机械通气、镇静药、升压药等)的关联性,为ICU病人治疗提供决策支持。

临床数据挖掘是一项回顾性的临床研究,除了可以发展临床决策支持工具,通过来自真实世界的数据来测试和评价各类模型和算法外,还需要发展数据驱动(data-driven)的研究工具,以发现新知识、新模式等。基于MIMIC-II开展的脓毒血症患者昼夜生理节律性研究,最初的发现过程其本质上就是数据驱动的方法(图1所示),通过这种方法我们直观的看到脓毒血症患者死亡组和存活组在心率和血压的动态特征上的差异性。随着MIMIC-II临床应用研究的深入,更丰富的数据驱动模型和工具将会发展出来,并且相对于以往的注重静态变量(如年龄、身高、体重、单次测量的生理和生化参数)的研究模式,后续研究将更注重研究参数的动态特征(如生理和生化参数的动态变化模式、干预治疗前后的反应情况等),以获取更多的个体化信息,补充和发展目前的各类模型和算法(多基于样本统计特征,缺少个体特征信息)。如对脓毒血症低血压患者死亡率的预测模型中,通过加入个体化的对升压药的反应信息,可有效提高预测模型的准确性[18]。

MIMIC-II为临床相关研究提供了数据资源和工具,但是临床数据挖掘研究面临很多挑战,这些挑战既包括工程上的数据提取和信息处理技术,也包括临床上的各种干扰因素对回顾性研究结果的影响,如何消除混淆因素。基于我们的经验,开展这类研究的最佳方式是组建一个包含医生、工程师以及统计学家的多学科研究团队,一线经验丰富的临床医生应该是这个团队的核心,提供研究思路并负责研究结果的解读,工程师和统计学家负责数据提取、信息和信号处理以及统计建模等,形成一个临床医生、工程师、统计学家多学科交叉团队,以高效地开展此类研究。

麻省理工学院计算生理学实验室的两个项目:MIMIC-II和Physionet在临床数据库建设和基于数据库开展临床研究方面都走在了该领域的前沿。相比较而言,我国在这方面的工作尚处于起步阶段,需要进一步加大资源投入,以充分利用我国医疗资源丰富的便利条件。传统的电子病历和医院信息系统面临升级改造,以支持更加详细的专科电子病历,支持临床数据挖掘研究。同时应该有更多的数据对研究人员开放,使数据在跨机构、跨国家之间有更好的互操作性[17]。

4 结论

重症监护数据库MIMIC-II是一个向公众免费开放的多参数ICU数据库,支持重症监护相关的临床研究,可通过QueryBuilder在线方式或者下载安装虚拟机离线方式访问和使用,通过结构化查询语言SQL检索和提取数据信息。基于MIMIC-II的脓毒血症患者昼夜生理节律性研究解决了使用关系型数据库MIMIC-II开展生理参数昼夜节律性研究的很多技术问题,如高效数据提取、时间序列对齐、合并有创和无创测量值、插值、集合平均、去趋势以及余弦拟合等。研究表明关系型数据库MIMIC-II可用于开展生理参数昼夜节律性研究,脓毒血者症患者死亡组和存活组在生理参数昼夜节律性上存在显著性差异。MIMIC-II为科研工作者和临床医生开展临床数据挖掘研究提供了丰富的数据集,通过回顾性的临床数据挖掘、分析,可以获取新知识、发现新模式,从而有助于不断提高医疗质量。

[1] Iavindrasana J, Cohen G, Depeursinge A, et al. Clinical data mining: a review[J]. Yearb Med Inform, 2009, 121-133.

[2] Celi LA, Mark RG, Stone DJ, et al. "Big data" in the intensive care unit. Closing the data loop[J]. Am J Respir Crit Care Med, 2013, 187 (11): 1157-1160.

[3] Tonelli MR, Curtis JR, Guntupalli KK, et al. ACCP/ATS/SCCM Working Group: an offcial multi-society statement: the role of clinical research results in the practice of critical care medicine[J]. Am J Respir Crit Care Med, 2012, 185(10): 1117-1124.

[4] Vincent JL, Singer M. Critical care: advances and future perspectives[J]. Lancet, 2010, 376(9749): 1354-1361.

[5] Vincent JL. Is the current management of severe sepsis and septic shock really evidence based?[J]. PLoS Med, 2006, 3(9): e346.

[6] Stow PJ, Hart GK, Higlett T, et al. ANZICS database management committee. Development and implementation of a high-quality clinical database: the Australian and New Zealand intensive care society adult patient database[J]. J Crit Care, 2006, 21(2): 133-141.

[7] Zimmerman JE, Kramer AA, McNair DS, et al. Intensive care unit length of stay: benchmarking based on acute physiology and chronic health evaluation(APACHE) IV[J]. Crit Care Med, 2006, 34(10): 2517-2529.

[8] Cook SF, Visscher WA, Hobbs CL, et al. Project IMPACT: results from a pilot validity study of a new observational database[J]. Crit Care Med, 2002, 30(12): 2765-2770.

[9] McShea M, Holl R, Badawi O, et al. The eICU research institute-a collaboration between industry, health-care providers, and academia[J]. Eng Med Biol Mag, 2010, 29(2): 18-25.

[10] Lee J, Scott DJ, Villarroel M, et al. Open-access MIMIC-II database for intensive care research[C]. Conf Proc IEEE EMBSoc, 2011, 8315-8318.

[11] Saeed M, Villarroel M, Reisner AT, et al. Multiparameter intelligent monitoring in intensive care II: a public-access intensive care unit database[J]. Crit Care Med, 2011, 39(5): 952-960.

[12] Scott DJ, Lee J, Silva I, et al. Accessing the public MIMIC-II intensive care relational database for clinical research[J]. BMC Med Inform Decis Mak, 2013, 13:9.

[13] Moody GB, Mark RG, Goldberger AL, PhysioNet: a web-based resource for the study of physiologic signals[J]. IEEE Eng Med Biol Mag, 2001, 20(3): 70-75.

[14] Olofsson K, Alling C, Lundberg D et al. Abolished circadian rhythm of melatonin secretion in sedated and artifcially venti-lated intensive care patients[J]. Acta Anaesthesiol Scand, 2004, 48(6): 679-684.

[15] Mundigler G, Delle-Karth G, Koreny M, et al. Impaired circadian rhythm of melatonin secretion in sedated critically ill patients with severe sepsis[J]. Crit Care Med, 2002, 30(3): 536-540.

[16] Fernández JR, Hermida RC, Mojón A. Chronobiological analysis techniques. Application to blood pressure[J]. Philos Transact A Math Phys Eng Sci, 2009, 367(1887): 431-445.

[17] Jensen PB, Jensen LJ, Brunak S, Mining electronic health records: towards better research applications and clinical care[J]. Nature Reviews Genetics, 2012, 13(6): 395-405.

[18] Mayaud L, Lai PS, Clifford GD, et al. Dynamic data during hypotensive episode improves mortality predictions among patients with sepsis and hypotension[J]. Crit Care Med, 2013, 41(4): 954-962.

Clinical Data Mining by Exploring Public MIMIC-II Intensive Care Database

【Writers】Wang Jian1, Zhang Zhengbo2, Wang Weidong2, Pan Liang3, Chai Xiaoke4
1 Medical Support Department, Chinese PLA General Hospital, Beijing, 100853
2 Department of Biomedical Engineering, Chinese PLA General Hospital, Beijing, 100853
3 Department of Surgical Intensive Care Unit, Chinese PLA General Hospital, Beijing,100853
4 Chinese PLA Postgraduate Medical School, Beijing, 100853

This paper introduces a free and publicly open ICU database: multi-parameter intelligent monitoring in intensive care II: MIMIC-II, which has been built up and maintained by the laboratory of computational physiology at the Massachusetts Institute Technology, Beth Israel Deaconess Medical Center and Philips Healthcare over the past decade. This paper briefly introduces its infrastructure, implementation and applications in clinical studies. Clinical study pertaining to circadian variation in heart rate and blood pressure during sepsis is shown as a typical example of research performed with MIMIC-II. In this study, it was found there was signifcant difference in circadian variation in both heart rate and blood pressure between survival and non-survival groups in septic patients. This study tackled several important techniques necessary for the investigation of the circadian rhythm.

data mining, intensive care database, MIMIC-II, septic patients, circadian rhythm

R197.324

A

10.3969/j.issn.1671-7104.2014.06.003

1671-7104(2014)06-0402-05

2014-06-03

北京市自然基金资助项目(3122034);国家科技支撑计划项目(2013BAI03B05)

张政波,E-mail: zhengbozhang@126.com

猜你喜欢
毒血症节律存活
羊妊娠毒血症的发病原因、临床症状、诊断和防治
空间里的时间:微重力等环境下的生物节律研究
连续性血液净化应用于重症脓毒血症治疗的临床疗效分析
血清降钙素原与C反应蛋白联合检测诊断脓毒血症的临床意义
病毒在体外能活多久
病毒在体外能活多久
飞利浦在二战中如何存活
131I-zaptuzumab对体外培养肿瘤细胞存活的影响
高容量连续性血液净化治疗对脓毒血症致早期急性肾损伤的效果分析
运用节律跳绳,提高跳绳教学质量