医学生物学案例库构建及作用

2020-12-23 04:25李敏王梓豪贺继刚
医学信息 2020年22期
关键词:大数据案例

李敏 王梓豪 贺继刚

摘要:医学案例库是对医学信息“大数据”的整理、归纳。通过不同的逻辑算法,将医学“大数据”电子化。本文通过对医学生物学“大数据”的整理、收集而介绍目前国内外医学、生物学案例库的构建特点及作用,对医学案例库的构建及作用进行展示。

关键词:案例;大数据;医学案例库

中图分类号:G642                                   文献标识码:B                                 DOI:10.3969/j.issn.1006-1959.2020.22.002

文章编号:1006-1959(2020)22-0005-05

Construction and Function of Medical Biology Case Library

LI Min,WANG Zi-hao,HE Ji-gang

(Cardiovascular Surgery,the Affiliated Hospital of Kunming University of Science and Technology/the First People's Hospital of Yunnan Province,Kunming 653200,Yunnan,China)

Abstract:Medical case library is the collation and induction of "big data" of medical information. Through different logic algorithms, "big data" will be electronic. This paper introduces the characteristics and functions of medical and biological case databases at home and abroad through the collation and collection of "big data" in medical biology. To demonstrate the construction and function of medical case base.

Key words:Case;Big data;Medical case library

案例是“案例实例”的意思,必须是“具体情境下发生的典型案例”。案例学习的意义在于通过展现层次丰富、角度不同,彼此之间有密切逻辑关系的事实,回答“为什么”和“怎么样”的问题,而不是对“应该是什么”之类的问题做出直接判断。通过不同逻辑算法构建不同类型的案例库,可以使医学生物学研究“有据可查、有据可依”,也能够加强科研能力,是一个准确、有效的复杂过程,也是形象生动的代表物,具有方法论意义。本文通过介绍目前国内外已构建医学、生物学案例库的特点、作用,旨在提示广大医务工作者采用案例库对医学“大数据”进行信息挖掘,从而提高医疗质量的统一性、一致性。

1医学数据库内案例的本质

医学数据库内案例的本质就是“大数据”,即将海量的医学信息长期存储在计算机内的、有组织的、可共享的并统一管理的大量数据的集合。医学数据库的建立既能够改善传统医学文档存储方式的冗余和不易查找的问题,又能够维护医学文档的统一性和权威性。“大数据”一词涵盖了多种学科和应用,是采用不同统计、计算方法进行数据的归类、整理[1]。医学科学的“大数据”必须涉及到不同类型患者的特征、时间结构、治疗信息。尽管一些常规的统计方法已经满足了这些要求,并且已经应用于医学科学领域,但是开发更适当的方法来进行自动模式的识别仍有很大的潜力。这些尚待开发的方法或许将会证明对复杂性大数据应用程序更为有用。尽管很难通过大数据方法获得无偏差的结果,但大数据方法仍然具有很大希望为医学提供有益的补充信息。例如一家典型的医院在患者护理过程中每年可生成数百TB的数据(1 TB=1012字节),每位患者可产生5 GB(1 GB=109字节)数据[2]。若单纯使用计算机科学和传统的统计工具已经很难完成对这些大量信息的分析任务,也就是说很难对数据进行组织和描述,以及得出科学上有效的结论。这就需要对患者的大量数据进行复杂的分析和统计,以此可以优化计算时间来避免超出可用存储容量。

对“大数据”的分析可以结合网络,如在Google流感趋势项中,使用Google搜索的某些字詞的频率可以预测许多国家或者地区在其区域范围内的流感活动趋势。这些地区有关“流感”的出版物表明,使用Google搜索字词频率等相关数据可以准确预测流感趋势。相反,传统方式获取数据会麻烦得多[3]。通常,采用Google搜索可以创造出对流感趋势快速反应的可能性,这被认为是“大数据+互联网”的成功应用。

采用医学“大数据”建立医学“数据库”已成为目前世界范围内的趋势。医学数据库中各种数据整理技术的引入,能够极大程度的节省医学数据存储的空间、更好的保护患者的隐私、进一步实现各个不同单位间的资源共享、更细致地整合互联网的各种医学资料以及更加快捷地检索各种信息,从而给医学工作者带来极大的便利[4]。以下介绍当前医学生物学领域内具有代表性的生物医学数据库的构建及作用。

2国、内外流行的医学生物学案例数据库

2.1重症医学医疗数据库  目前重症监护数据库中最主要的数据库为:MIMIC-Ⅲ数据库。据Johnson AE等报道[5],MIMIC-Ⅲ是一个大型的单中心数据库,该数据库收集了大型三级医院重症监护病房收治患者有关的信息。所搜集的数据包括生命体征、医护人员记录的病历、实验室检验结果、影像报告、诊断代码、住院时间、生存数据等。该数据库可应用于多种方面,包括学术和工业研究、高等教育课程等。在数据被纳入MIMIC-Ⅲ数据库之前,首先根据《健康保险可移植性与责任法案》(HIPAA)标准,先使用结构化数据清理及日期转移两大手段对数据进行识别[5]。结构化数据的去识别化过程需要删除HIPAA中列出的所有十八个标识数据元素,包括诸如患者姓名、电话号码、地址、日期之类的字段。特别是,为了保持时间间隔,每个患者以相同的方式通过随机偏移将日期移到未来,从而使其在2100到2200年之间的某个时间发生停留。一天中的某个时刻、一周中的某天以及大致季节等,在日期转换期间被保留了下来。比如89岁以上患者的出生日期被更改,以掩盖其真实年龄来符合HIPAA规则:这些患者出现在数据库中其年龄可能超过300岁。通过使用经过严格评估的去识别化系统(该系统基于广泛的字典查找和带有表达式的模式匹配),从自由文本字段(如诊断报告和医师说明)中删除了受保护的健康信息[6]。随着新数据的获取,该身份识别系统的组成部分将不断扩展。

MIMIC数据模型的开发需要做到在简单的讲解说明与接近事实间取得平衡。一般使用ADMISSIONS、PATIENTS、ICUSTAYS、 SERVICES、TRANSFERS五个表格来定义和跟踪患者住院时间。     此外,五个表是针对其各自定义进行交叉引用的字典代码:D_CPT、D_ICD_DIAGNOSES、D_ICD_PROCEDURES、D_ITEMS、和D_LABITEMS。其余表包含与患者护理相关的数据,例如生理测量,护理者观察和结算信息[5]。在某些情况下,例如D_ICD_PROCEDURES表和CPTEVENTS表都包含与过程有关的详细信息,并且可以合并使用,似乎可以将表合并。因为数据源有很大的不同,Johnson AE等[5]采用是保持表的独立性的方法,建议研究人员开发适当的数据库视图,并进行转换,而不是在MIMIC数据模型中组合。MIMIC数据库的文档可在线获得。内容正在不断开发中,其中包括使用MIMIC进行的一系列研究。该网站具有允许研究社区通过GitHub直接提交更新和改进的功能[7]。

2016 年,美国科研团队在其原有 MIMIC-Ⅱ数据库基础上进一步改进升级,成功建立了 MIMIC-Ⅲ数据库,包含 52423 例次就诊于波士顿贝斯医疗中心各重症加强治疗病房(ICU)的危重症患者信息,也是目前世界上少数可免费使用的高质量数据库之一[7]。MIMIC-Ⅲ数据库所包含的数据来源于在各重症 ICU 接受治疗的患者,为进行重症医学领域的科学研究提供了条件。

2.2欧洲EpiCom基于网络的炎癥性肠病流行病学数据库  欧洲流行病学委员会(EpiCom)基于网络的研究(EpiCom,www.epicom-ecco.eu)在2006年至2010年期间建立了基于网络的炎症性肠病流行病学数据库。数据库建立是为了更好地确定炎症性肠病(IBD)与环境因素的关联机制、并确定跨国环境中新的危险因素[8]。基于Web的EpiCom数据库应用程序是在丹麦克罗恩结肠炎数据库(DCCD)(www.dccd-ibd.dk)的基础上设计的,其主要目标是成为一个流行病学数据库,更侧重于学术性和流行病学内容,而不是临床适用性[8]。该数据库用于EpiCom项目中使用的各种表格可在线注册。为了能够跟踪和记录该项目中所包括患者的临床病程,该数据库围绕9种临床方案建立,涵盖了该病程的所有方面。进入方案包括诊断标准方案,诊断标准方案中包含有关诊断、疾病程度和行为、进行的检查、患者人口统计学的数据。每次患者就诊时使用的方案包括疾病活动方案、用于血液分析登记的血样方案(包括维生素D)、有关自上次就诊以来发生的疾病状况、治疗和检查的临床评估方案。该数据库在所使用的方案中进行了内置的控制和验证测试,从而确保避免数据丢失和数据前后矛盾。EpiCom数据库不允许输入无效数据,特别是不能满足CD和UC哥本哈根诊断标准要求的患者数据[8]。为确保患者数据匿名,EpiCom数据库仅按出生日期和唯一的患者ID号注册患者信息。患者ID由五个元素组成:包含出生日期(六位数);性别(男/女);中心号码(三位数);和国家/地区号码(三位数)。EpiCom数据库创建了一个验证方案用于数据库验证。验证方案包含有关数据库的一般用途、时间消耗、总体印象和满意度、数据库中使用的问卷和方案的相关性和适用性的问题。EpiCom研究于2010年1月1日至2010年12月31日时期内,在西欧和东欧的地理区域内,创建了一个新的具有前瞻性、统一诊断、基于人群的入组队列,其均为IBD患者。随访期(FU)持续到2011年12月31日。在欧洲,科学家们将首次描述欧洲不同地理区域之间的差异,并证明生活方式对IBD发病率的影响。来自23个国家或地区的34个代表为成年医生和儿科医生,他们分别来自15个西欧国家或地区、8个东欧国家或地区、及一个亚洲国家(中国武汉市)[8]。

EpiCom研究的总体目标是调查欧洲国家IBD发病率是否存在东西国家的方向梯度,此外,IBD发病率是否与环境暴露差异相关。丹麦的HD-support LLC使用了大约两年的时间进行了基于Web的EpiCom数据库应用程序的开发。数据库的构建需要HD支持、需要项目指导小组就数据库的内容和结构进行一系列访谈、需要就所构建原型的初始功能列表达成一致[8]。为此项目创建了一个网站www.epicom-ecco.eu,该网站允许访问数据库、包含联系信息和EpiCom项目协议,世界上任何人都可以使用该协议以提高透明度。此外,在网站首页上创建了一个包含表,该表显示数据库中当前患者数量以及每个参与中心的发生率[8]。为了描述东欧和西欧国家的医疗质量,EpiCom数据库开发了一份特别针对医师背景、IBD医师教育、患者治疗信息水平、药物不良事件监测和结肠直肠癌监测的问卷。

2.3 CardioTF数据库  CardioTF数据库是为了创建心血管基因调控的综合数据源,并促进对基因组数据的更深入了解。该数据库的目的是整理有关心血管转录因子(TF)、位置权重矩阵(PWM)和增强子序列的信息[9]。心脏病是婴儿和成人发病和死亡的主要原因之一[10,11]。由于需要对先天性心脏病(CHDs)病因进行深入研究,因而必须对心脏转录因子(TFs)突变进行鉴定[12]。另一方面,已经发现某些成人心脏病的发生是基因调控序列的变化所致[13]。因此,了解TF及其下游靶标以及参与心脏发育的调控基因组序列将增进我们对心脏病的了解。利用心脏TF来探明与心血管发育相关的所有转录信息是一种生物治疗项目,记录了跨物种的TF、PWM文件和增强子信息,包括苍蝇、海鞘、鱼、青蛙、鸡、小鼠和人类,并且CardioTF数据库具有一个即时搜索引擎来查询相关信息[9]。除了可以查询数据以外,使用Na?觙ve-Bayes方法来识别核心的心脏TF,可将其用作路线图,来进一步了解涉及心脏发育基因调控网络的增强子。心脏TFs先前被定义为心脏基因表达的调控因子,可以影响心脏的发育过程,特别是心肌的发育和维持。在CardioSignal数据库中,还对促进心肌细胞基因表达的心脏特异性增强子进行了比较。心脏特异性转录因子被定义为调节心肌基因表达的基因。在发育过程中,心脏由三层组成心肌层、心外膜层和心内膜层。此外,至少有四种心脏特异性细胞系被鉴定,包括心肌细胞、内皮细胞、心外膜细胞和成纤维细胞,后者主要由心外膜细胞经上皮向间质转化(EMT)而来[14]。CardioTF数据库提供了一个框架,用户可以在该框架中查询跨物种的各种TF的同源性信息,以及来自高通量ChIP-seq数据与TF和增强子相对应的PWM信息[15]。心脏增强子和TFs的筛选有助于今后构建转录网络[15]。目前,Sperling组或Pu组的方法仅基于ChIP-seq数据报告了三到四个TFs[16]。其他基因组生物学家试图在基因组规模上寻找心脏增强子的类似方法也已在其它地方进行了综述[17,18]。但是,从这些研究中获得的信息远低于我们对这些核心心血管TF的了解,而这些核心TF有多种来源支持其在心血管发展中的作用。

2.4日本康复营养数据库据  Takasaki M等[19]报道,日本康复营养数据库是一个为康复营养方面观察性研究提供个案登记的数据库,从普通病房收集有关老年患者肺炎的数据,从康复病房收集有关中风和髋部骨折的数据。其建立是为推进日本康复营养的临床研究,而建立了康复营养数据库并评估其质量。康复营养数据库是一个基于Web的注册表数据库。该数据库总体目标如下:①发表有关康复营养的临床研究,这将有助于改善世界范围内康复医学的质量;②收集与康复营养相关的政策建议;③为康复营养协会的成员提供研究机会[19];④在创建此数据库时,选择要收集的数据项很重要[20]。日本康复数据库(JRD)是针对康复医学研究,并且使用JRD的英文论文数量正在增加[21-25]。该数据库项目的具体目标如下:①从每个机构收集数据并建立有关康复营养的病例注冊数据库;②根据参与机构的需求提供有关收集的数据信息;③允许每个机构将数据用于临床研究目的。

数据库在构建时需要特殊变量的数据则不可避免地会导致数据丢失,并降低所收集数据的质量[19]。电子数据捕获(EDC)是临床研究数据的电子收集系统,是实现高质量数据管理必不可少的工具[26]。EDC的优点包括易于清理数据和实时监视数据。许多EDC系统都很昂贵,但是近年来,已经开发出了低成本高效益且易于使用的EDC。研究电子数据捕获(REDCap)被列为世界标准医学研究EDC[26]。该EDC由范德比尔特大学开发,其源代码是免费提供的。目前,全世界有超过130000个REDCap项目正在进行中。使用REDCap,即使用户不是数据管理专家,也可以在Web上以低成本构建和轻松管理数据库[19]。REDCap的用户支持最近已在日本启动,例如,日本康复营养研究小组已经提出将REDCap作为注册表数据库的EDC的应用程序。数据库用户可以使用用户名和密码从任何地方登录系统。康复营养数据库是使用REDCap构建的Active Server网页。可以将输入项目制作为案件登记画面上的列表。参加机构包括日本康复营养协会成员所属的综合医院病房和康复病房。

该数据库具有三个主要数据输入页面(基本信息、住院期间的输入项和出院时的输入项),并且在注册数据库项目时会收集每个机构的信息并将其注册为附录。所有数据收集表格和数据报告都将自动分配一个REDCap ID。与传统的康复数据库不同,该数据库包含特定的营养评估项目,例如吞咽功能、饮食形式、营养摄入以及其他相关康复变量。通过利用该数据库,可以进行康复营养的研究,并且有可能在将来可将其结果提供给临床用于临床研究及实践。

2.5首都医科大学附属北京安贞医院心外科术后随访数据库  北京安贞医院心外科术后随访数据库旨在构建新型、双向交互式、远程医疗随访平台,完善心脏术后临床数据的收集,并为患者提供可靠优质的随访服务。研究人员运用现代通信、计算机及网络技术,开发与移动网兼容的随诊数据库及软件,以术后随访率、术后重要指标的随访质量,作为评估随访系统的标准[27]。该数据库在以下方面取得成功:①通过随访宣教、不断更新医患问答,提高患者的健康意识;②为每位患者定制个性化随访单,内置个性化随访问卷及定期复查周期,系统的自动判断、提醒、及动态比较功能,将有助于患者自测及术后调整;③作为健康档案,记录了患者的基本信息及术后的动态变化,方便以后就诊;④系统所有的判断、回复都来源于网络内置程序,减少了人力、时间成本,并尽可能的规避了医疗风险。

2.6北京解放军总医院急诊科急救数据库  北京解放军总医院急诊科急救数据库旨在建立急救患者多病种数据库,为研究急救领域临床科研问题提供基于“真实世界”的数据信息[28]。赵宇卓等研究显示,该院从解放军总医院的医院信息系统(HIS)、实验室信息系统(LIS)、急诊专科系统、急诊护理系统及床旁监护设备内,提取2014年1月至2018年1月在急诊科就诊患者的结构化和非结构化信息,通过建立表单、编写代码建立数据库,并对数据进行处理,初步建立了单中心数据库,即急救数据库。

3總结

医疗大数据库建设及数据分析技术正在深刻地改变着传统的生物医学研究、临床诊疗、卫生管理、医学卫生人才培养模式,并已成为大样本、大数据临床研究、个性化诊疗、精准医疗、疾病监测预警、卫生经济评价、政府政策评估、新药研制等医学科技新进展的重要支撑手段。现有数据库中收集的信息的质量和广度在各数据库之间、各机构之间以及国界之间差异很大。近年来,随着各大医院的信息化飞速发展,大多数医疗机构的各项医疗数据总量呈“爆发”式增加。数据的类型多种多样,除医疗机构收集的数据外,还有基因组学数据、公共卫生领域大数据等呈现迅速增长趋势。这些都为我们在有限条件下,利用现代技术在各个医学领域开发全面而准确的数据库提供了可能。

参考文献:

[1]Binder H,Blettner M.Big Data in Medical Science-a Biostatistical View[J].Dtsch Arztebl Int,2015,112(9):137-142.

[2]Sejdic E.Adapt current tools for handling big data[J].Nature,2014,507(7492):306.

[3]Ginsberg J,Mohebbi MH,Patel RS,et al.Detecting influenza epidemics using search engine query data[J].Nature,2009,457(7232):1012-1014.

[4]邓悟,邓波,廖灯彬,等.医学数据库应用的实践前景[J].华西医学,2009(3):737-738.

[5]Johnson AE,Pollard TJ,Shen L,et al.MIMIC-Ⅲ,a freely accessible critical care database[J].Sci Data,2016,24(3):160035.

[6]Neamatullah I,Douglass MM,Lehman LW,et al.Automated de-identifification of free-text medical records[J].BMC Med Inform Decis Mak,2015,8(2):1-32.

[7]Johnson AEW,Pollard TJ,Shen L,et al.MIMIC-,a freely accessible critical care database[J].Scientific Data,2016,3(4):160035.

[8]Burisch J,Cukovic-Cavka S,Kaimakliotis I,et al.Construction and validation of a web-based epidemiological database for inflammatory bowel diseases in Europe An EpiCom study[J].J Crohns Colitis,2017,5(4):342-349.

[9]Zhen Y,CardioTF.A database of deconstructing transcriptional circuits in the heart system[J].Peer J,2016(4):e2339.

[10]van der Linde D,Konings EE,Slager MA,et al.Birth prevalence of congenital heart disease worldwide:a systematic review and meta-analysis[J].J Am Coll Cardiol,2011,58(21):2241-2247.

[11]Celermajer DS,Chow CK,Marijon E,et al.Cardiovascular disease in the developing world: prevalences,patterns,and the potential of early disease detection[J].J Am Coll Cardiol,2015,60(14):1207-1216.

[12]McCulley DJ,Black BL.Transcription factor pathways and congenital heart disease[J].Curr Top Dev Biol,2015,100(7):253-277.

[13]Smith JG,Newton-Cheh C.Genome-wide association studies of late-onset cardiovascular disease[J].J Mol Cell Cardiol,2015,83(3):131-141.

[14]Evans SM,Yelon D,Conlon FL,et al.Myocardial lineage development[J].Circ Res,2010,107(12):1428-1444.

[15]He A,Kong SW,Ma Q,et al.Co-occupancy by multiple cardiac transcription factors identififies transcriptional enhancers active in heart[J].Proc Natl Acad Sci U S A,2017,108(14):5632-5637.

[16]Schlesinger J,Schueler M,Grunert M,et al.The cardiac transcription network modulated by Gata4,Mef2a,Nkx2.5,Srf,histone modififications,and microRNAs[J].PLoS Genet,2011,7(2):e1001313.

[17]Wamstad JA,Alexander JM,Truty RM,et al.Dynamic and coordinated epigenetic regulation of developmental transitions in the cardiac lineage[J].Cell,2012,151(1):206-220.

[18]Wamstad JA,Wang X,Demuren OO,et al.Distal enhancers:new insights into heart development and disease[J].Trends in Cell Biology,2014,24(5):294-302.

[19]Takasaki M,Momosaki R,Wakabayashi H,et al.Construction and Quality Evaluation of  the Japanese Rehabilitation Nutrition Database[J].J Nutr Sci Vitaminol(Tokyo),2018,64(4):251-257.

[20]Hada T,Momosaki R,Abo M.Impact of orthotic therapy for improving activities of daily living in individuals with spinal cord injury:a retrospective cohort Study[J].Spinal Cord,2018,56(8):790-795.

[21]Sawaguchi A,Momosaki R,Hasebe K,et al.Effectiveness of preoperative physical therapy for older patients with hip fracture[J].Geriatr Gerontol Int,2018,18(7):1003-1008.

[22]Kinoshita S,Momosaki R,Kakuda W,et al.Association between 7 days per week reha bilitation and functional recovery of patients with Acute stroke:a retrospective cohort study based on the Japan Rehabilitation Database[J].Arch Phys Med Rehabil,2017,98(4):701-706.

[23]Momosaki R,Kakuda W,Yamada N,et al.Impact of board-certificated physiatrists on rehabilitation outcomes in elderly patients after hip fracture:An observational study using the Japan Rehabilitation Database[J].Geriatr Gerontol Int,2016,16(8):963-968.

[24]Momosaki R,Abo M,Watanabe S,et al.Effects of ankle-foot orthoses on functional recovery after stroke:a propensity score analysis based on Japan Rehabilitation Database[J].PLoS One,2015,10(4):e0122688.

[25]Kinoshita S,Kakuda W,Momosaki R,et al.Clinical management provided by board-certificated physiatrists in early rehabilitation is a significant determinant of functional improvement in acute stroke patients:a retrospective analysis of Japan rehabilitation database[J].J Stroke Cerebrovasc Dis,2015,24(5):1019-1024.

[26]Harris PA,Taylor R,Thielke R,et al.Research electronic data capture(REDCap)-a metadata-driven methodology and workflow process for providing translational research informatics support[J].J Biomed Inform,2009,42(2):377-381.

[27]焦玉清,王堅刚,张海波,等.心脏外科术后随访数据库的建立及完善[J].中国医院管理,2015,35(3):53-55.

[28]赵宇卓,王俊梅,潘菲,等.急救数据库建设初探[J].中华危重病急救医学,2018,30(6):609-612.

收稿日期:2020-07-21;修回日期:2020-08-09

编辑/宋伟

基金项目:1.国家自然科学基金(编号:81460073、82060299);2.云南省科技厅-昆明医科大学应用基础研究联合专项[编号:2014FB089,2019FE001(-120)];3.云南省教育厅科学研究基金(编号:2015Z051);4.中国博士后科学基金(编号:2015M582764XB);5.成都医学院2015年度科研项目(编号:CYZ15-18);6.云南省医学后备人才(编号:H-201607);7.云南省万人计划青年拔尖人才(编号:Y-q201932);8.云南省专业学位研究生教学案例库建设项目(编号:YJS-SJ-02);9.云南省高层次卫生健康技术人才培养专项经费资助(编号:D-2019020)

作者简介:李敏(1992.5-),男,湖北黄冈人,硕士,住院医师,主要从事医学信息分析研究

通讯作者:贺继刚(1980.3-),男,云南昆明人,博士,副主任医师,主要从事医学信息分析研究

猜你喜欢
大数据案例
案例4 奔跑吧,少年!
随机变量分布及统计案例拔高卷
发生在你我身边的那些治超案例
大数据环境下基于移动客户端的传统媒体转型思路
随机变量分布及统计案例拔高卷
一个模拟案例引发的多重思考
案例警示