医疗健康大数据:概念、特点、平台及数据集成问题研究

2018-12-06 09:27邢丹姚俊明
物联网技术 2018年8期
关键词:数据集成大数据平台分布式计算

邢丹 姚俊明

摘 要:从狭义和广义角度定义了医疗健康大数据,分析并总结了医疗健康大数据区别于传统大数据的海量性、复杂性、精确性、安全性、异构性及封闭性的特点。同时探讨了构建医疗健康大数据平台的相关问题,架构技术及其关键问题、平台构建的兼容问题及其技术路线问题,最后分析了医疗大数据的数据集成所考虑的问题、难点及现有的集成方法。

关键词:医疗健康;大数据;大数据平台;数据集成;分布式计算

中图分类号:TP274 文献标识码:A 文章编号:2095-1302(2018)08-0-03

0 引 言

目前,我国虽已具有多年医疗信息化建设的历史,但是这些数据库信息孤立、分散、多元、异构、类型、标准不一,大多应用于单独医院或较小范围内的医院,没有形成大范围多学科、多标准、多类型、多模式的协同系统。与此同时,近年来国家提出打造以医院、社区、平台为主的“三位一体、相互协同”的综合服务新模式,医疗数据的产生,从医院管理系统的关系型数据转变为由RFID及无线传感组成的半结构化、非结构化大数据。如何完成多数据源医疗健康大数据的无缝集成和融合,构建全国范围内的医疗协同系统,是未来面向医疗行业所采取的必经之路。

这项工作需在充分掌握医疗健康大数据特点的基础上,通过构建医疗健康大数据平台,从数据集成问题着手,本文从不同角度探讨了医疗大数据相关问题。

1 医疗健康大数据概念及其特点

1.1 医疗健康大数据概念

狭义上的医疗健康大数据指的是医院的医疗机构产生的大数据,这是最主要的医疗健康大数据,产生于医院常规临床诊治、科研和管理过程,包括各种门急诊记录、住院记录、影像记录、实验室记录、用药记录、手术记录、随访记录和医保数据等[1]。

广义上的医疗健康大数据涵盖来自于区域卫生服务平台大数据、医学研究或疾病监测大数据、自我量化大数据、互联网上与医学相关的网络大数据、生物标本和基因测序的生物信息大數据。

1.2 医疗大数据的特点

医疗健康大数据除了具有传统大数据的大量性、多样性、快速性[1]之外,由于医疗行业的特殊性,使其还具有海量性、复杂性、精确性及安全性,同时由于医疗信息化建设的历史导致了异构性和封闭性。

(1)海量性。2011年,美国的医疗健康系统数据量就达到了150 EB。医疗卫生机构除了传统临床和检验中产生的数据之外,随着物联网技术的发展,能够实现所有物物相连,比如便携式医疗设备上二维码标签所产生的数据,这些物品的数据相比传统的数据量要大的多。加之各种健身、健康可穿戴设备的出现,使得血压、心率、体重、血糖、心电图(EKG)等的监测都变为现实和可能,信息获取和分析的速度已从原来的按“天”计算,发展到按“小时”,按“秒”计算。此外,基因数据也是庞大的存在,一次全面的基因测序,产生的个人数据达到300 GB。平台数据量巨大,通常要包含1 000万以上个人用户的各种医疗健康数据。

(2)复杂性。一方面医疗领域包含了大量的医学专业用语,仅疾病名称就包括3万多种,另外还有数以万计的诊断、手术和药物名称,以及大量影像、医嘱等非结构化数据[2]。由于医疗数据是不同临床诊疗服务过程中的产物,因此数据之间关系复杂,且易受到不同因素的影响,致使某些数据带有偏倚性。医院之间也存在诸多差别,如病人的个体特性和疾病程度、医院的诊断和治疗水平、医疗数据的记录和编码水平等。即使是同一个描述形式,其语法和语义上也不尽相同,更加导致了数据的复杂性。

(3)精确性。医疗行业数据与人的健康、疾病和生命息息相关,任何失误都可能导致错误结论,并进一步误导临床诊治工作,对临床实践造成巨大损害。因此在数据处理时必须保证数据完整性和约束完整性。数据完整性指数据的正确性、一致性和相容性;约束完整性指数据与数据之间的关联关系,是表征数据间逻辑的唯一特征。保证约束完整性是数据发布和数据交换的前提,可方便数据处理过程,提高效率。

(4)安全性。医疗数据除了包含病人隐私信息,也包含了大量关于医院运转、诊疗方法、药物疗效等信息。这些信息一般都较敏感,某些可能会涉及商业利益,因此目前存在的问题主要是医疗机构不愿意公开数据,而某些可进行数据处理的部门没有数据。

(5)异构性(多样性)。由异构问题导致了数据的多样。主要包括数据源的异构、管理系统的异构及所采用标准的异构。综合健康服务平台数据来源广泛,包括医院、独立体检机构、社区卫生服务机构、区域医疗信息平台、第三方检测机构、新农合、医保社保、个人用户和网络等,且主要产生自制药企业/生命科学,临床医疗/实验室数据,费用报销/利用率,健康管理/社交网络中;平台数据内容多样,包括病史、体格检查、理化检查、居民基本健康档案、各类个人信息和网页等,涉及到的数据源的类型多样,有结构化数据、半结构化和非结构化数据;管理系统的异构既有管理系统所运行的操作系统、采取的数据库的不同,还有不同的管理系统采用不同技术实现的异构;所采用的标准目前主要有CDA,HL7,DCOM接口等。

(6)封闭性。由各独立的自治系统导致了信息孤岛,进而所产生出的数据只适合在该系统内部,每个不同的医疗机构都自成一个体系,是一个独立运行的实体,导致数据无法共享。今后的工作需要制定统一的数据表示方式或是采用某种统一的方法对其进行封装,才能实现统一的处理,最终实现全国范围内系统之间的互联互通。所有这些特性使得医疗大数据工作者在具体实践中面临巨大的挑战。

2 构建医疗大数据平台相关问题分析

2.1 医疗大数据平台架构的技术及其关键问题

未来将建立一个“以人为中心”的综合健康服务生态系统,系统与区域医疗信息平台、医疗保险机构、体检中心、第三方检验/影像、主动医疗服务以及医保新农合等已有医疗服务资源进行规范化、标准化地整合与协同。其技术支撑层中完成对大数据的集成、存储、处理等功能,该层对大数据的处理选用开源的分布式计算平台,目前医疗健康大数据平台一般基于Hadoop框架来构建。该平台的技术体系理论上能够处理医疗综合健康服务生态系统中各种类型的数据存储和海量信息处理。而Hadoop能够为用户提供系统底层细节透明的分布式基础架构,并且以可靠、高效、可伸缩的方式处理海量数据的分布式软件架构,采用该技术必将节省平台整合的时间和金钱上的效率。

现有Hadoop与行业应用还存在一定差距。对于医疗应用而言主要是两个方面:其一缺乏面向医疗领域的分析和挖掘算法库、模型库;其二缺乏医疗知识库支撑。在临床决策支持等基于医疗健康大数据的应用中,需要基于对医生输入数据内容的理解,才能做出必要的决策支持。对于数据内容的语义处理,必须基于医疗健康知识库[3]。

医疗大数据平台需解决的关键技术:医疗健康语义知识库构建、非结构化数据的语义处理及传统分析和挖掘技术的并行化。

2.2 医疗大数据平台构建的兼容性及其技术路线问题

医疗大数据平台的构建需要考虑如何利用现有数据及需要收集哪些数据[4-5]。同时要考虑原有的关系型数据和Hadoop [6]中非关系型数据的存储,还有兼容业务数据和外部数据。

在技术路线上,首先研究医疗大数据应用需求;其次研究面向医疗的大数据整合与融合技术、数据语义化处理技术和大数据分析和挖掘并行化处理技术等关键技术;以医疗健康业务数据为核心,融合互联网数据、政府相关行业数据、第三方健康数据(PHR)、个体基因数据以及生物样本数据,完成医疗大数据中心建设;在此基础上,构建医疗大数据平台,开展医疗研究分析,实现基于大数据的健康服务应用。

如此庞大的系统工程中,可采取先以某个业务为试点突破(如医院),逐步完善方法,并以面向医疗健康领域的分析和挖掘算法库、模型库和缺乏医疗健康知识库支撑作为技术突破口。

3 医疗大数据的数据集成问题分析

3.1 医疗大数据集成需考虑的问题

医疗大数据平台构建问题中的技术难点之一是首先要实现医疗大数据系统集成[7-8]问题,笔者认为主要有以下几个方面的问题。

(1)医疗大数据系统集成的范围问题。系统的集成首要解决所覆盖的范围,是以医院为单位、以城市为中心的区域医疗[9]还是全国范围内的医疗卫生领域[10]的集成,这个问题决定了分布式计算中的问题规模、需要采取的技术及标准化的建设问题,同时也决定了未来我国卫生信息化建设的水平。根据国务院“互联网+”行动的指导意见,未来在“十三五”期间鼓励健康服务机构利用云计算、大数据等技术搭建公共信息平台,提供长期跟踪、预测预警的个性化健康管理服务的目标,构建的医疗大数据系统集成应是着眼于全国范围的医疗卫生领域,这就区别于以往单纯的全院级的系统集成和区域性的集成。

(2)医疗大数据系统集成的架构设计问题。系统的架构应充分利用原有的基础设施,通过建立虚拟的集成系统,采取标准化和可实现互操作的技术来完成大范围内的信息交换和共享。

(3)医疗大数据的系统集成问题实质上是一个在原有的医疗卫生行业信息化基础设施上搭建的一个大规模的分布式计算平台。该分布式平台的计算模式针对不同的医疗业务部门和机构所采用的计算模式也不尽相同,应包括解决医疗大规模数据的批量处理能力,也是我们日常数据分析工作中常见的一类数据处理需求[11];具备处理在时间分布和数量上无限的一系列动态数据集合体,即流数据,该类数据必须采用实时计算的方式给出秒级响应;此外,还应具有针对公共卫生领域的传染病途径的处理之类的图计算模式。该分布式计算平台中应能够海量数据的高效存储问题,如采用HDFS,Hbase,NewSQL,云数据库等技术。

3.2 数据集成的难点

数据集成的难点可归纳为异构性、分布性和自治性。现有构建数据集成系统的方法有多层体系结构和基于其中间层的实现方法。数据集成系统可划分为两类,即物化(Materialized)集成系统和虚拟(Virtual)集成系统。不断提高数据集成系统的性能、可伸缩性、灵活性和适应性,将是数据集成系统健壮发展的总趋势。而融入了数据仓库技术、移动 Agent技术、XML 技术、语义 Web 技术和 AI 技术的虚拟数据集成方案,将重新焕发生命力,并向具有分布式体系结构、形式语义的智能知识型软件方向发展。

3.3 数据集成

目前已有的几种典型数据集成方法有模式集成方法、数据复制方法及在这两种方法基础上的综合方法[12]。數据集成的数据源异构性问题,是数据集成问题的难点,异构性的难点主要表现在语法异构和语义异构上。

为构建具有全国范围内的大数据医疗系统,需采用该两种方法基础上的综合方法,想办法采用“云计算”中的虚拟化方法,提高基于中间件系统的性能,同时能够对数据源间常用的数据进行复制。

4 结 语

医疗大数据平台的建设事关国计民生,需要医疗卫生机构、政府、科研人员通力合作,针对医疗行业的特点解决标准、数据来源、数据处理的关键技术问题,才能真正发挥医疗健康大数据的价值。

参考文献

[1] JAVIER A P. Big data for health. IEEE Journal of biomedical and health informatics,2015,19(4):1193-1194.

[2]俞国培,包小源,黄新霆,等.医疗健康大数据的种类、性质及有关问题[J].医学信息学杂志,2014,35(6):10-12.

[3]冯东雷.医疗健康大数据技术路线和方法论初探[J].中国信息

界,2014(6):44-45.

[4] MEZGHANI E,EXPOSITO E,DRIRA K,et al. A semantic big data platform for integrating heterogeneous wearable data in healthcare[J]. Med syst,2015,39(2):182-183.

[5] SANGWHAN C,ASHRAF A,SYED S A. Towards a ‘Big health data analytics platform[C]. Washington,DC,USA:IEEE computer society,2015. 233-234.

[6] SARA D R,VICTORIA L,JOS? M B,et al. A mapreduce approach to address big data classification problems based on the fusion of linguistic fuzzy rules[J]. International journal of computational intelligence systems,2015,8(3):422-437.

[7] SRIVIDYA K,BANSAL,SEBASTIAN K. Integrating big data:A semantic extract-transform-load framework[J]. Computer,2015,48(3):44-45.

[8] XIN L D,DIVESH S. Big data integration[J]. Synthesis lectures on data management,2015,6(11):198-199.

[9] DASWIN D S,FRADA B,HERBERT F J,et al. Addressing the complexities of big data analytics in healthcare:The diabetes screening case[J]. Australasian journal of information systems,2015,19:102-104.

[10] CHRIS A. Translational research 2.0:a framework for accelerating collaborative discovery[J]. Personalized medicine,2014,11(3):351-353.

[11] LAURENT S,MARC V B. Structured data fusion[J]. IEEE Journal of selected topics in signal processing,2015,9(4):586-600.

[12]陳跃国,王京春. 数据集成综述[J].计算机科学,2004,31(5):48-50.

猜你喜欢
数据集成大数据平台分布式计算
云计算中MapReduce分布式并行处理框架的研究与搭建
面向异构分布式计算环境的并行任务调度优化方法
基于数据集成的水上项目国家队数据库网络管理平台的设计与开发