王力天
随着信息化建设的不断推进,给医院管理、医疗工作、科研发展、医患互动、患者健康带来了高效便捷的服务,同时也产生了大量记录医院日常管理和医疗工作的数据,这些数据随着时间的积累构成了庞大的数据资源。这些资源具有很高的价值却没有得以充分利用,如何让这些数据发挥价值,为医院各项工作提供服务,是值得每一个医院思考的课题。
医院大数据分析平台的构建
医院信息应用系统在日常医疗和管理中积累了大量历史数据,但各部门人员在日常数据录入和维护中,只是通过统计和排序对数据进行简单的功能操作,获得一些表面、浅显、价值不高的结果,这些数据并没有得到有效的分析和利用。构建一个大数据分析平台,从医院其他应用平台中抽取海量数据进行管理、整合、分析和利用,并从中发现潜在问题和有价值的规律,通过可视化的方式进行展示,能够为医院管理层提供科学决策的支持,并满足医生、病患的个性化需求,从而提高医院信息化服务的质量。
医院大数据分析平台的构建目标
第一,实现数据的共享和交换。将医院各应用系统的数据进行集成和整合,使来源各异、种类不一的各类数据可以相互使用,丰富数据的来源,打破系统间的信息孤岛,实现数据的共享和应用。
第二,大数据的采集和存储。研制数据适配接口,对接院内各应用系统获取各类异构数据,并采用大数据主流的框架和系统对数据进行统一存储,为数据的挖掘和分析打好基础。
第三,大数据分析与决策。采用数据挖掘、数理统计等相关技术,构建大数据分析框架,提取数据中隐含的、未知的、极具潜在应用价值的信息和规律,为医疗管理、病患管理、科研管理、后勤管理等各项工作提供决策和指导。
医院大数据分析平台的构建原则
首先要保障安全性。医院信息化工作中有许多保密性内容,大数据分析平台应采取安全性高的访问认证机制,同时在平台建设中要充分重视系统自身的安全性以及其他应用系统的安全性。
其次具有可扩展性。对医疗大数据的分析和应用是一项长期持久的工作,随着医院管理工作的重点、医院信息化工作的变化推进,对于信息平台的规模和要求也会不断变化。因此,要求平台的设计和实施要具有良好的扩展性,以满足不断发展变化的要求。
最后要有灵活性。在平台的设计和实施中要考虑到与其他应用系统的整合,开发出多个类型的接口,能够灵活接入其他系统、拓展服务类型。
医院大数据分析平台的总体框架
平台应适应于大数据处理要求,能支持PB级数据管理。系统架构应高安全性、易扩展性,能够支持各类主流开发语言,并提供丰富的接口。同时能够支持结构化和非结构化数据的存储和应用。Hadoop作为开源的大数据处理平台和工具,其提供的HDFS分布式文件系统和MapReduce模型能够很好地满足以上的要求。
基于Hadoop技术的医院大数据分析平台自下而上分为三个部分,分别为:数据层、大数据采集与存储、数据分析与展示。
数据层针对不同系统进行分析,制定系统数据采集范围与目标,收集医院在日常管理和医疗工作中产生的各类数据,将各种结构化和非结构化数据进行整合,为大数据的分析提供支撑。
大数据采集与存储旨在为各类异构数据研制适配接口,与院内其他各系统对接,并为数据提供适配、转换、存储等基本管理功能,基本步骤包括数据抽取、数据预处理和数据存储。
数据抽取是针对大数据分析平台需要采集的各类数据,分别有针对性地研制适配接口。对于已有的信息系统,研发对应的接口模块与各信息系统对接,不能实现数据共享接口的系统通过ETL工具进行数据采集,支持多种类型数据库,如SQL SERVER、ORACLE、ACCESS等医院系统数据库,按照相应规范对数据进行清洗转换,从而实现数据的统一存储管理。对于其他数据,需要具体根据数据情况实现相关接口,利用对应接口获取相关数据信息,进而完成数据的抽取。
数据预处理是为了使大数据分析平台的MapReduce算法能更方便对数据进行处理,同时为了使得数据的存储机制扩展性、容错性更好,需要把通过数据按照相应关联性进行组合,并将数据转化为文本格式,作为文件存储下来。
数据存储用于提升数据存储的扩展性和容错性,采用主流的大数据框架Hadoop的HDFS文件系统对医院的各类数据统一进行文本化存储,数据按相应规则存储,实现每日保存一套完整数据文件集,形成数据仓库。
数据分析和展示是核心业务层,通过数据报表工具,根据需求制定多样的、针对性的数据报表。通过基于的Hadoop的MapReduce编程模型实现的数据分析系统,针对存储的数据进行数据处理、算法运行、结果转换操作,将结果保存为报表文件,每日形成的报表文件集。报表展现系统将生成的报表文件以可视化方式进行展现。
大数据分析平台中的关键技术
大数据平台的构建借鑒了开源系统的先进理念,采用了Hadoop开源系统,充分利用HDFS的可靠性,MapReduce的引入大大加强了平台在数据分析方面的弹性,使平台在可扩展性、可靠性、易用性和性能方面都有良好的表现。
Hadoop技术
Hadoop框架是一个开源的大规模数据处理平台和工具,主要来源于Google公司提出的MapReduce编程框架、GFS文件系统以及BigTable存储系统等技术。Hadoop具有庞大的家族体系,本平台的构建主要涉及Hadoop框架的分布式文件系统HDFS和MapReduce模型。分布式文件系统作为Hadoop框架的底层,主要负责分析数据的分布式存储和管理,MapReduce模型主要是负责对大规模数据集进行计算处理。Hadoop采用HDFS文件系统子框架来实现其所具有的存储能力,用MapReduce编程模型框架来实现其计算能力,二者的巧妙结合使得Hadoop拥有高效的存储和计算能力。
HDFS技术
HDFS分布式文件系统是对大规模数据实现分布式存储和管理的有效工具,也是分布式计算的存储基础,具有很高的容错性和扩展性,并且对数据读写提供了的高吞吐率。HDFS实现了数据的分布式存储,使得应用程序能够更加灵活地访问大规模的数据集,同时也为后续对大规模数据的分析提供了数据平台。HDFS分布式文件系统釆用的是典型的主/从结构,这种结构极大地简化了系统的架构,使得系统更加简洁,方便系统的管理。Hadoop的分布式文件系统HDFS主要由主控制器和数据节点组成,主控制器管理名字空间和数据节点,同时管理数据块到数据节点DataNode的映射等。
文件系统中的DataNode作为数据节点,主要存储实际的数据,主要负责所在的物理节点上的存储管理,执行主控制器下达的命令。数据节点能够及时接收客户发送的读写请求,并针对这些请求完成相应的操作。从分布式文件系统的结构内部来看,数据文件被存储分割成多个数据块存储在每个数据节点上,每个数据节点存储着来自多个文件的数据块,同时每个数据节点上也会存储这些数据块的多份副本,保证后续數据操作的准确性。
MapReduce技术
MapReduce技术基于分布式文件系统,通过编写相应的处理过程能够实现对大规模数据集进行并行计算和处理,通过对不同分析模块编写相关的MapReduce处理函数能够实现对大规模数据的精确分析,同时能够控制各个节点之间完成高效的任务调度。MapReduce通过将操作分发给网络上的各个节点,每个节点会周期性地返回它所完成的工作和最新的状态,从而实现对大规模数据集的操作,这种处理方式保证了操作的可靠性。
MapReduce技术处理的方式是,首先将一个具体的任务分解成为若干个很小的任务,然后将分解后的任务分配到各个分节点,通过主节点来对分节点的任务进行管理和调度,然后得到分节点处理后的结果,再将结果整合,得到最终结果,通过多个节点之间的相互合作和调度,从而实现对大规模数据集的计算和处理。总的说来,MapReduce就是基于“分而治之”的思想实现“任务的分解与结果的汇总”。
大数据全面创新医疗管理
构建医院大数据分析平台是以医院战略发展规划为蓝本、以医院信息化建设纲要为依据而进行的创新性探索。以大数据建设顶层设计为基础,收集整合医院工作各方面所产生的数据,从数据中提取出有价值的信息和模型,推动医院工作的全面创新。
开展大数据顶层设计,以大数据应用全面推进医院发展
大数据将成为推进医院发展的新动力,通过开展大数据顶层设计,对大数据获取、收集、整理、利用进行全面规划,从应用需求出发,明确建设目的和路径,明确要做什么,不要做什么;应该先做什么,后做什么;用什么模式做,做到什么程度;达到什么效果,以指导医院未来3—5年的大数据建设。
快速推进医疗和管理工作的信息化,建立丰富的数据来源
用大数据方法全面分析现有医疗和管理工作,新建或升级信息系统,对医疗和管理实现全过程记录,建立丰富的数据收集渠道。
如通过对现有远程医疗系统进行全面升级,跳出远程医疗的概念,实现对医疗过程的全面支持,详细记录每个病患的检查和诊疗相关数据,包括健康基本数据、影像数据、检验数据、手术数据、用药数据、康复数据、出院随访数据等,将数据细分到每个行为细节,以提供超越传统系统的数据精细度,客观地反映出医疗的实际状况。
通过建立物联网应用,实现对物品、人员、安全等各方面管理的强大支撑,提升管理质量的同时积累大量管理数据和行为数据。
基于个性化服务需求,建立大数据分析模型
提供优秀的个性化服务是医疗和管理的重要目标之一,大数据应用则是提供规模化、个性化服务的必要条件,而大数据分析模型的质量决定了数据的价值。一个平时被忽略的数据在好的模型中,会产生难以想象的作用。
通过对医疗行为数据的分析,我们可以了解病患的治疗方案和治疗效果,研究哪些治疗方式是最容易被接受的,哪些治疗方案的设计是最受欢迎的,或具体到某个治疗过程的正确率以及横向和纵向的比较,并深层次地展现出其中的原因。这些数据被提供给医生,将对医疗创新提供最为直接的支撑。
通过对病患基本生活习惯和健康数据的分析,可以了解病患的日常生活规律和行为规律,了解病患行为与疾病产生之间的关联关系,提供病患健康生活的指导依据。
综合应用大数据成果,推动医院全面创新
通过大数据的综合应用,可以建立对各项医疗和管理工作的分析和判断,应用到实际工作中,从各个方面推动医院全面创新。
通过对健康基本数据、影像数据、检验数据、手术数据、用药数据、康复数据、出院随访数据等综合分析,建立医疗画像、病患画像、各专业画像,直观了解优势和不足,预测发展状况。
通过对病患人数、床位分配、医疗设备使用、能源消耗、低值易耗品消耗、食堂消费、无菌物品利用等进行综合分析,建立各资源利用率指数,实现数据可视化,引导管理工作的精细化和管理的扁平化。
通过对病患基本生活习惯和行为数据的分析,可以了解病患行为与疾病产生之间的关联关系等,发现具有某些特征的特殊群体及其独有的行为方式,并利用相关性数据进行挖掘,从中发现规律。
通过对医疗数据、医治成效、考勤记录、科研数据等相关数据进行综合分析,建立科学的、真实客观的医生绩效评价体系,改变传统人为评价的主观性,让大数据选出真正优秀的医生。
总的来讲,医院大数据分析平台的构建是充分利用医院运营中的大量实际数据,进行科学的统计与分析,为医院各项工作提供精确可靠的指导性方案,并以多种形式实现人们个性化的需要,为医院发展创新指明真实而又具体的方向,还能实现具体目标的持续发展,是今后医院管理的必然趋势。
(作者单位:诸暨市人民医院医共体计算中心)