张心怡,张六一
(湖南师范大学医学院护理系,湖南 长沙 410013)
MIMIC(Medical Information Mart for Intensive Care)数据库是由麻省理工学院计算生理实验室和英国牛津大学的急诊科医生、计算机科学专家等共同建立的大样本重症监护数据库[1]。MIMIC数据库已经推出多个版本,目前最新的版本是MIMIC-Ⅲ1.4(V1.4),其中包含2001 年6 月-2012年10 月在医疗中心住院的38 645 例成年个体和7875 例新生儿(出生至28 d)的58 000 余次住院临床诊疗信息、手术操作及患者住院期间的各项护理记录等[2]。国外应用MIMIC 数据库在临床数据库的建设和基于数据库信息挖掘开展临床研究方面发展迅速且日益成熟,而我国尚处于起步阶段[3]。资料详细、样本量大的病例数据库对临床研究具有重要的推动作用,国内目前缺乏资料齐全的临床数据库。因此,本研究基于PubMed 数据库,分析2010 年1月-2020 年12 月MIMIC 数据库研究的相关文献,应用文献计量学方法总结MIMIC 数据库的研究热点,旨在为国内深入开展MIMIC 数据库的相关研究提供参考。
1.1 资料来源 以MIMIC 数据库为主题词,扩展检索PubMed 数据库中2010 年1 月-2020 年12 月发表的相关文献。检索策略:"MIMIC-Ⅲ"[All Fields] OR"MIMIC-Ⅱ"[All Fields] OR "MIMIC database"[All Fields]AND2010[PDAT]:2020[PDAT],运用EndNote X7 进行查重,无重复文献。
1.2 方法 ①下载与导入文献题录,PubMed 将电子版出版在2020 年,纸质版出版在2021 年的文献也纳入,这类文献的年代视为2020 年进行统计分析。将所有文献题录以Note First 格式导出,得到一个XML 格式文件,将文件导入书目共现分析系统[4](BICOMB 2.0);②提取与统计主题词,在BICOMB 2.0中提取并统计“主要主题词+副主题词”;③选取高频主题词,基于Donohue JC 高频词与低频词分界公式[5],同时结合专业知识选取高频主题词,生成词篇矩阵和共现矩阵;④绘制树状图,将词篇矩阵txt文件导入SPSS 22.0 进行系统聚类分析,聚类方法选择组间连接法,以二分类资料Ochiai 为度量标准,生成高频主题词的聚类树状图。
2.1 MIMIC 数据库研究发文数及年代分布 2010 年1 月-2020 年12 月以MIMIC 数据库为主要主题词的相关文献共334 篇,其中2010 年10 篇,2011 年4篇,2012 年8 篇,2013 年7 篇,2014 年16 篇,2015 年25 篇,2016 年29 篇,2017 年29 篇,2018 年49 篇,2019 年77 篇,2020 年80 篇。
2.2 发表期刊及国家分布 10 年间共有91 种期刊发表了MIMIC 数据库相关文献,其中发文量第1 的是Conference Proceedings IEEE Engineering in Medicine and Biology Society,共 发 表35 篇,占13.78%;第2 是Journal of biomedical informatics,共发表14 篇,占5.51%;第3 是AMIA Annu Sympo-sium Proceedings,共发表11 篇,占4.33%。期刊来源国家中,排在前3 位的分别是美国、英国、荷兰。其中,美国期刊共发表142 篇,占54.33%;英国期刊共发表55 篇,占20.47%;荷兰期刊共发表28 篇,占7.87%。我国期刊共发表18 篇文献,占5.12%,排第4 位。
2.3 第一作者分布 2010 年1 月-2020 年12 月发表的MIMIC 数据库相关文献第一作者共有246 名,发文量≥2 篇的作者共44 名,累计占34.94%,其中发文最多的作者是来自美国的临床医生Zhang Z,主要研究方向是急危重症医学,发文7 篇,占2.76%;位居第2 的作者是来自加拿大的公共卫生实验室的Lee J,主要研究方向是重症疾病微量元素与中毒间的关联,发文6 篇,占2.36%;第3 的作者是来自美国计算生理实验室的Lehman LW,主要研究方向是ICU 患者死亡率指标预测,发文5 篇,占1.97%。
2.4 高频主要主题词分布 提取主要主题词共321个,以出现频率≥4 次的主要主题词为高频主要主题词,共产生30 个高频主要主题词,见表1。
表1 高频主要主题词分布表(n,%)
2.5 共词聚类分析 运用SPSS 22.0 软件对生成的词篇矩阵进行聚类分析,生成聚类树图,见图1。结合树状图、主题词词义、代表性文献总结出6 个研究类团:①MIMIC 数据库介绍、数据处理方法的研究,由15、18、9、24、26、3、19 号主题词组成;②ICU 患者预后、死亡率预测分析,由11、23、7、10、21、6 号主题词组成;③ICU 患者基本生命体征、护理信息的研究,由20、28、1、8、16、25 号主题词组成;④探究某些因素是否是某些疾病的影响因子,由14、30、29、4 号主题词组成;⑤范围较广的其他类研究,由2、5、27 号主题词组成;⑥预测某种疾病的发病率或死亡率,由13、22、12、17 号主题词组成。其中纵轴数字表示高频主要主题词的序号,横轴数字表示高频主要主题词之间的距离。
图1 高频主题词聚类树状图
3.1 研究现状 文献计量结果显示,近10 年MIMIC数据库的相关文献整体趋势是逐年增加,这可能是由于近年来MIMIC 数据库信息资源丰富,受到各国研究人员关注,围绕其发表的论文逐年增长。2010年1 月-2020 年12 月的文献来源期刊欧美国家占较大的比例,其中PubMed 收录的我国期刊发表的相关文献占总文献的第4 位,表明我国对MIMIC 数据库相关研究的参与度也较高。通过研究主题的分布统计可以看出,MIMIC 数据库中的大部分数据已在相关研究中被使用,但其中对护理病程记录的文本数据进行分析的研究还较少,可进行深度挖掘,开拓更多研究。
3.2 研究热点 本研究运用共词聚类分析法,结合有关文献与专业知识,提炼出PubMed 数据库中MIMIC 数据库相关研究的6 个研究热点。
3.2.1 MIMIC 数据库介绍、数据处理方法的研究 有研究[1]报告了MIMIC-Ⅲ数据库是对广泛使用的MIMIC-Ⅱ数据库的更新,是一个由26 个表组成的关系数据库,其中包含与大型三级护理医院重症监护病房收治的患者有关的信息。另有研究[6]通过MIMIC 数据库观察和描述418 例ICU 中呼吸机相关性肺炎患者的临床特征,提取相关信息,总结了疾病诊断常见病原体和常用的抗生素,并提出在临床治疗过程中应注意无菌操作,密切监测患者抗生素使用情况。另有研究证明深度学习法[7]、应用开放源代码自然语言处理系统[8]、时间切片Cox 回归法[9]能有效挖掘临床数据并进行分析。我国也有研究介绍MIMIC 代码库以及数据库的申请、导入、结构关系及查询[10],但关于数据挖掘分析方法的研究较少。
3.2.2 ICU 患者预后、死亡率预测分析 ICU 患者死亡风险很高,预测患者的死亡率至关重要[11]。Layeghian Javan S 等[12]从MIMIC-Ⅲ数据库中提取79 例脓毒血症患者临床数据,放入机器学习模型,发现机器学习技术在脓毒症患者的预后系统中具有很高的潜力,尤其是集成算法。国内外多项基于机器学习方法预测ICU 患者死亡率的研究也得到证实[13,14]。数学模型有助于提高准确性,Jain SS 等[15]使用MIMIC-Ⅲ数据库获取慢性阻塞性肺疾病急性加重患者的合并症,合并症指数和人口统计学等数据,开发了3 种预测死亡率的模型,应用于临床实践可降低医疗成本并改善临终护理。总之,国外关于ICU患者预后、死亡率预测分析的研究较多,国内研究较少,可参考国外研究成果开发适合预测我国患者预后、死亡率的方法。
3.2.3 ICU 患者基本生命体征、护理信息的研究MIMIC-Ⅲ数据库中有大量常规医院护理期间获得的数据,这些都是临床数据的来源。Vincent JL 等[16]对MIMIC-Ⅲ数据库中2001-2012 年休克的患者进行回顾性分析,结果发现,低血压发作与较高的死亡率有关。范勇等[17]基于MIMIC-Ⅲ数据库分析发现收缩压在低血压时,无创血压所对应的死亡率明显高于有创血压。Luo Y 等[18]应用MIMIC 数据库进行回归性队列研究,发现ICU 患者的昼夜心率变化与短期和长期死亡率呈正相关,尤其是对病情相对较重的患者,其与王剑等[19]的研究结果一致。Ding EY 等[20]根据MIMIC-Ⅲ数据库中的护士评估Braden 评分、生命体征信息、诊断代码等训练了一系列机器学习算法,可有效对初入ICU 的患者自动进行医院获得性压疮风险评估。研究者根据MIMIC 数据库中患者的基本生命体征数据,可发现与死亡率、疾病预后、疾病诊断等的相关影响因素。而关于护理病程记录、护理信息的研究较少,今后可大量开展这一领域的研究。
3.2.4 探究某些因素是否是某些疾病的影响因子Li S 等[21]从2001-2012 年在MIMIC-Ⅲ数据库中回顾性分析ICU 成人脓毒血症患者体重指数(BMI)对脓毒血症患者短期和长期死亡率的影响,结果发现肥胖影响脓毒血症患者的生存率。Hsu DJ 等[22]应用MIMIC-Ⅱ数据库分析血液动力学稳定呼吸衰竭患者动脉置管与死亡结局之间的关系,结果发现,动脉置管留置28 d 不影响死亡率。Wang B 等[23]从MIMIC-Ⅲ数据库中探讨血清钙对重症急性肾损伤患者死亡率的关系,发现低浓度钙离子是重症急性肾损伤患者死亡率的独立预测因子。还有研究探讨红细胞分布宽度对ICU 重症患者死亡率[24]、重症急性肾损伤患者预后[25]、心源性休克患者死亡率[26]的影响。王帅等[27]采用MIMIC 数据库内连续有创收缩压同脉搏传导时间进行研究,经过数据分析,脉搏传导时间和收缩压呈线性相关性,可以作为血压测量方式和衡量动脉僵硬度的指标。
3.2.5 范围较广的其他类研究 Zhang S 等[28]从MIMIC-Ⅲ数据库获得3519 例ICU 社区获得性肺炎患者信息,应用于预测患者临床结局的模型,结果发现,关该模型具有更高的特异性,但该模型在预测患者30 d 死亡率方面仅比其他系统略好。通过参考MIMIC-Ⅲ数据库的体系结构模型,Wang J 等[29]建立适用于我国的急救数据库;周蜜果等[30]构想创建中医共享数据集。另有学者从MIMIC 数据库中提取患者信息,开发创建基于Android 的血压测量模块[31]和基于改进的整体平均经验模态分解算法的呼吸频率测量仪[32]。但该领域关于各类模型的比较研究还较少,越来越多的学者参考MIMIC 数据库的结构和数据开发适合我国患者的数据集,为我国医学临床研究提供便利。
3.2.6 预测某种疾病的发病率或死亡率 Calvert JS等[33]应用MIMIC-Ⅱ数据库开发脓毒症预警算法,可在系统性炎症反应发作时至少提前3 h 预测脓毒症,提高了早期识别高危患者的可能性。另有研究[34]从MIMIC-Ⅱ数据库中提取低血压和正常血压患者数据,建立患者低血压风险预测系统,以预测低血压发作,极大的帮助识别重症患者。Taoum A 等[35]使用MIMIC-Ⅱ数据库提出数据融合算法,可实时监测急性呼吸窘迫综合征患者的心率、呼吸、外周动脉血氧饱和度和平均气道压,预测急性呼吸窘迫综合征的发作。冯靖杰[36]在MIMIC 数据库上进行十折交叉验证,可为心血管疾病的初步诊断和筛查提供一定的指导,以及预测急性心肌梗死患者院内死亡的风险。
综上所述,MIMIC 数据库相关研究热点共有6个研究类团,分别为关于MIMIC 数据库介绍或数据处理方法的研究,关于ICU 患者预后、死亡率预测分析,关于ICU 患者基本生命体征、护理信息的研究,探究某些因素是否是某些疾病的影响因子,范围较广的其他类研究,预测某种疾病的发病率或死亡率。近年来基于各版本的MIMIC 数据库已经开展了很多项临床数据挖掘研究,而国内外针对护理病程记录、护理相关信息等的研究还较少,今后可根据护理领域数据开展更多研究;还可借鉴MIMIC 数据库运行机制构建符合我国国情的临床医学数据集,辅助临床决策。