杨琳,李超,林丽华,纪婷婷
(上海计算机软件技术开发中心,上海 201112)
基于IT治理的区域医疗卫生大数据架构研究
杨琳,李超,林丽华,纪婷婷
(上海计算机软件技术开发中心,上海 201112)
十二五期间,区域医疗卫生信息化建设取得显著成果,信息化系统应用过程中积累海量的医疗卫生数据。医疗卫生大数据中蕴含着丰富的价值,通过有效的手段进行分析、挖掘和利用能够提高医疗卫生服务水平。如何设计一套合理的区域医疗卫生大数据架构,规划医疗卫生大数据价值实现路径,成为当前研究的热点问题。结合区域医疗卫生大数据现状,借鉴IT治理的先进方法及思路,提出基于IT治理的区域医疗卫生大数据总体架构,并分别对数据架构、技术架构、应用架构以及安全体系进行实现。该架构设计方法为医疗卫生领域大数据架构设计提供一种思路,给出的区域医疗卫生大数据架构能够为医疗卫生机构规划大数据应用提供可参考的模型。
医疗卫生大数据;架构研究;IT治理
当前,高速发展的信息技术带来了全球信息化浪潮,信息化已成为当今世界发展的大趋势,在社会和经济的发展过程中起着重要的作用。国内外在推进卫生改革中,把卫生信息化作为重要的技术支撑和手段[1]。在美国,促进卫生信息经济发展的重要举措便是卫生信息化,联邦政府从卫生信息化的组织保障、制度创新、卫生信息系统设计以及对医疗服务供方采取一定的经济激励约束机制等方面促进信息技术在卫生领域中的应用。建立实用共享的医疗卫生信息系统、加快信息标准化和公共服务信息平台建设也成为了我国颁布的一系列医改方案。国内外对医疗卫生信息化建设和发展寄予厚望:其一卫生行业综合管理的科学决策能力和水平的提高可以借由信息化手段实现,其二医改监测、监督和绩效考核能力,提高卫生服务效率的提升也依赖于信息化手段,进而保障服务安全和提升服务质量[2]。
随着医疗卫生信息化“十二五”规划、“3521工程”等意见和方案的出台,在基层医疗信息系统建设指导意见等政策的指导下,我国医疗信息化建设脚步越来越快。目前,全国已有14个省份、107个地市建立了省级、地市级卫生信息平台,居民健康卡试点工作已在29个省份开展,区域内医疗卫生系统互联互通已在不同程度地实现了。目前已有2000多家医疗机构开展远程医疗,二级以上医疗机构均开展电子病历建设。在“十三五”期间,我国医疗信息化建设任务较重,重点还将围绕全员人口信息数据库、电子病历数据库、电子健康档案数据库3大数据库,国家、省、地市和县的4级区域人口健康信息平台,6大类业务应用等方面展开。
在信息化基础上积累的大数据已成为促进区域医疗卫生发展的基础性战略资源,未来三大数据库的建设也充分表明基于大数据的医疗健康应用越来越受到重视。但是目前并没有一个针对区域医疗卫生大数据架构的完整、长期以及统一的规划。IT治理以其先进的理念和方法,能够使组织从IT中获得最大价值,借鉴其理念和方法应用到医疗卫生大数据架构规划设计中,能够产生新的思路和价值。本文重点研究了基于IT治理的区域医疗卫生大数据架构设计方法,从总体上对区域医疗卫生大数据架构进行了规划和设计,并分别对数据架构、技术架构、应用架构以及安全体系进行具体的实现,为未来区域医疗卫生大数据资源建设以及挖掘利用提供了参考。
1.1 IT治理概述
信息时代,公司治理的内涵有了重要表现和发展,IT治理成为了治理的重要内容[3]。IT治理用于描述企业或政府是否采用有效的机制,使得IT的应用能够完成组织赋予它的使命,同时平衡信息技术与过程的风险、确保实现组织的战略目标。许多研究者基于他们自己的研究和理解,看待IT治理的视角各不相同,对IT治理亦有不同的描述:
Weill、Peterson等人认为“IT治理是在IT应用过程中,为鼓励期望行为而明确决策权归属和责任担当的框架”,他们将部署IT决策权看作是IT治理的重点内容,Weill更是强调IT治理旨在解决IT决策权力的分布问题。ITGI(全球IT治理研究中心)、Hoffman等认为“IT治理是董事会和执行层的责任,通过领导、组织和过程来保证IT实现和推动企业战略目标。价值、风险与控制是IT治理的核心。”他们强调IT治理中的控制因素,主要研究思想是平衡IT风险与回报,控制企业IT资源的运用,实现IT资源的有效性和效率。通过平衡IT资源及IT过程的风险与回报,有助于降低IT成本,提升IT投资价值。Gartner公司则认为IT治理是一种商业范式,它是由战略竞争力、全球化、业务流程共享和实时的企业创新需求所驱动而产生的。
ITSS分会(中国电子工业标准化技术协会信息技术服务分会)认为“IT治理是专注于信息技术体系及其绩效和风险管理的一组治理规则,由领导关系、组织结构和过程组成,以确保信息技术能够支撑组织的战略目标。”
基于各不相同的IT治理思想,风格迥异的IT治理模型或框架也被研究者们提出。参考ITSS分会对IT治理的定义,我们得到IT治理模型如图1所示,治理主体通过评估、指导、监督的治理方法完成治理过程。
1.2 基于IT治理的大数据架构设计方法
各卫生服务机构的业务系统通常由不同的信息化服务商提供,并拥有多个业务系统,在系统的互联互通及数据规范化方面缺乏统一标准。医疗卫生机构业务的快速发展,催生了对信息系统各种新的需求,业务过程中积累的数据量也越来越多,数据量越来越大,需要大量存储与计算资源,使得数据应用的成本越来越高,系统的可维护性和运行效率越来越差。如何提升对数据的采集、分析、应用能力,保障信息系统的有效性,促进信息系统和公众健康医疗数据互联融合、开放共享,使得大数据架构设计成为信息化过程中关注的热点。因此我们提出了基于IT治理的大数据架构设计方法,以IT战略为指导,从信息系统整体视角进行大数据架构设计,使得信息系统处理能力与医疗健康大数据应用需求相匹配。
图1 IT治理模型
IT治理的治理方法包括评估、指导、监督。评估是考虑组织内部需求和外部压力,评估组织当前和将来对IT应用的需求及能力,并随着业务需求、环境压力的变化,持续评估[4];指导是对IT治理的相关职责进行分配,对IT治理战略的准备和实施、信息技术及其应用管理体系的管理方案和规划进行指导;监督是对组织IT管理和应用的绩效进行监控,确保与IT有关的战略被正确执行、IT管理和应用符合内外部要求。
架构开发方法ADM(Architecture Development Method)是TOGAF架构研究和设计的核心[5],是一个以需求为中心的循环流程。主要包括架构愿景、业务架构、技术架构、信息系统架构、机会及解决方案、迁移规划、架构变更管理、实施治理、需求管理九大流程。结合IT治理的思路,在大数据架构设计方法中,我们把架构开发流程划分为规划、实施和应用三个阶段,治理实施不再单独作为一个流程,而是融合在整个架构开发的过程中。在明确了总体战略/IT治理目标后,应用IT治理的方法对业务需求、能力现状、规划方案进行评估,对实施过程进行指导,对应用过程进行监督,并且对应用成效进行持续的评估和反馈,作为IT规划设计的一个输入。其中规划包括需求管理、业务架构、架构愿景三大流程;实施包括数据架构、技术架构、应用架构、安全体系四大流程;应用包括应急联动、疫情监测、疾病预测等。大数据架构设计方法见图2。
图2 基于IT治理的区域医疗卫生大数据架构设计方法
在架构开发的规划、实施和应用三个阶段,每个阶段的具体任务包括:
(1)规划阶段
评估规划阶段的三大流程,确保规划形成的结果与总体战略保持一致。
需求管理:查找、记录、组织和跟踪系统需求变更,并在系统需求变更上使不同部门保持一致,进而可以维护清晰明确的需求阐述、每种需求类型所适用的属性,以及与其他需求和其他项目工作之间的可追踪性。
架构愿景:用于明确组织的架构远景。架构愿景利用业务推动者明确组织架构工作的目的,并且创建基线和目标架构的粗略描述。如果业务目标不清楚,那么该阶段中的一部分工作是来帮助业务人员确定其关键的目的和相应的过程。
业务架构:详述关于业务领域架构的工作。架构愿景中概括的基线和目标架构在此被详细说明,从而使它们作为技术分析的有用输入。业务架构采用的技术有业务过程建模、业务目标建模、用例建模以及差距分析等。
(2)实施阶段
按照总体战略/IT治理目标要求,指导实施阶段四大流程工作的开展。
数据架构:重点考虑大数据价值,基于此方面产生的流程出发,明确在大数据全生命周期诸如采集、传输、存储、分析挖掘以及应用过程中数据的数据流动情况[6],定义实体对象的数据表示和描述、数据存储、数据分析的方式及过程,以及数据交换机制、数据接口等内容。
技术架构:技术架构是大树价值实现的关键保障,是从技术视角研究和分析大数据的获取、管理、分布式处理和应用等[7]。大数据的技术架构与具体实现的技术平台和框架息息相关,不同的技术平台决定了不同的技术架构和实现。
应用架构:应用架构描述了主流的大数据应用系统和模式所具备的功能,以及这些功能之间的关系[8],主要体现在围绕医疗卫生大数据的应用如疫情监测、宏观规划、疾病分布及预测等,以及为支撑相关应用所必须的数据仓库、数据分析和挖掘、大数据相关技术等方面。
安全体系:数据的安全性直接关系到大数据业务能否全面地推广,通过安全体系建设保障大数据平台及其中数据的安全性。组织自身大数据环境所面临的安全威胁需进一步明确,由技术层面到管理层面应用多种策略加强安全防护能力,提升大数据应用过程中及其平台安全性。
(3)应用阶段
按照总体战略/IT治理目标,对不同的场景下基于大数据的应用成效进行监督和评价,并将评价结果反馈至需求管理流程,为后期大数据架构的完善提供参考。医疗卫生大数据应用包括应急联动、疫情监测以及疾病预测等[9-10]。
区域医疗卫生大数据总体架构是在IT治理/标准和安全体系的支撑下,由区域医疗卫生IT战略/数据战略、应用架构与技术架构、数据架构、基础设施四个层面构成。通过IT治理/标准的实施,确保由医疗卫生IT战略/数据战略指导应用架构与基础设施、技术架构、数据架构三个层面的规划建设,安全体系为三个层面的安全性提供保障,最终实现医疗卫生IT战略/数据战略目标。区域医疗卫生大数据总体架构如图3所示。
图3 区域医疗卫生大数据架构实施框架示意图
区域医疗卫生IT战略/数据战略:规定了浦东新区医疗卫生发展信息化战略和大数据应用的目标,是设计大数据架构的基础。
IT治理/标准:明确区域医疗卫生IT战略和数据战略目标,定义治理团队的组织结构、权责分配,对各个层面的规划实施结果提出要求。
数据架构:规划区域医疗卫生信息化中的各主题数据库,定义各主题数据库及其之间的关系,提出数据的采集、加工、分布和利用机制。
技术架构:定义了大数据价值实现过程中各个环节的技术要点、技术规范,技术架构作为较为重要的方面,是对应用架构和数据架构的支撑。
应用架构:规划区域医疗卫生大数据应用的架构。描述了区域医疗卫生应用系统和模式所具备的功能,定义各应用与信息资源的关系、与业务的支撑关系。
安全体系:定义大数据架构的安全方面的需求,例如安全规划模型、安全等级和安全评估保障机制等。
基础设施:规划区域医疗卫生信息化中的网络拓扑结构、主要计算和存储服务器,包括网络交换分层规划、计算与存储汇聚点的分布、IP地址规划、基础IT设施所采用的主要平台及技术。
大数据架构的研究和实现主要是在领域分析和建模的基础上,因此,区域医疗卫生大数据架构实现包括数据架构、技术架构、应用架构,同时安全体系作为保障,支撑架构的实现和安全运行。
3.1 数据架构
数据架构作为医疗卫生机构不得不面临的数据量问题,主要研究大数据采集、存储、分析以及应用过程中的数据表现形式以及支持各种业务应用的数据来源,数据定义的规范、使用方法等,明确数据流转关系及各模块之间传输、交换及共享的数据。
图4 区域医疗卫生数据架构图
由图可知,区域医疗卫生信息化业务系统将产生各种数据信息,包括医院管理信息、临床信息、医疗图像信息等,以及其他文档资源等,这些数据通过数据总线,按照相关规范汇聚传输,统一存储到数据中心中。数据中心的数据信息经过数据抽取、转换和加载等数据的整理,即把医疗卫生机构核心业务的数据从各个应用系统和未利用的信息资源文件中抽取出来,然后在数据规范的指导下,统一数据表达,剔除冗余数据,最后建立起数据仓库。数据仓库中的数据不再是业务流程的数据,而是一个个事实的描述,再根据数据分析或挖掘的不同主题,建立相对应的数据集市。数据集市中的数据高度汇总又包含各个维度,非常有利于数据分析挖掘,进行产生应用及展示。
3.2 技术架构
技术架构定义了如何建立一个服务运行环境来支持数据和应用架构,以保证业务的正常开展。技术架构设计结果能够提供对数据和应用的支持并保持一致。
由图可知,区域医疗卫生信息化系统产生的数据经过梳理、传输、存储到数据库中,结构化数据可以采用传统的结构化数据库进行存储操作,非结构化数据采用分布式存储技术进行存储操作。数据处理是数据应用的关键一步,利用Hadoop、Spark等工具及技术进行数据的挖掘分析操作,支撑报表、统计分析、挖掘预测等功能。
图5 区域医疗卫生大数据技术架构图
数据抽取采用ETL技术手段,ETL(Extract-Transform-Load)是构建数据仓库的重要一环。现实世界中,数据来源复杂,产生了许多脏数据,用户从数据源抽取出所需的数据,经过数据清洗等数据预处理工作,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。ETL包含三个方面:“抽取”从原始的业务系统中读取出来原始数据,这是所有工作的前提和起点;“转换”按照预先设计好的规则将前一阶段抽取得数据进行转换,消除数据的多源异构特性,使本来异构的数据格式能统一起来;“装载”即是完成进入到数据仓库中的工作,即将转换完的数据按计划增量或全部导入到数据仓库中。
非结构化或半结构化数据越来越多的存在与医疗卫生领域当中,同时对于医疗卫生服务具有较为重要的价值,非结构化数据的存储、处理等是当前需要考虑的问题。我们采用分布式数据存储技术处理采集到的非结构化数据,与目前常见的集中式存储技术是将数据存储在某个或多个特定的节点上,而分布式存储技术是通过网络使用机构中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,在机构的各个角落分散的存储数据。而对于传统的结构化数据是一种用户定义的数据类型,它包含了一系列的属性,每一个属性都有一个数据类型,存储在关系数据库里,可以用二维表结构来表达实现的数据。
分布式大数据处理是医疗卫生信息资源利用的重要一步,在医疗卫生数据中应用的数据挖掘处理技术对于提高整个医疗卫生行业水平是相当有益的。目前在医疗卫生领域应用较为广泛的有决策树、支持向量机、回归分析、数据仓库与OLAP分析、粗糙集理论以及聚类分析等。
数据挖掘处理的结果需要借助于数据展示技术来更加形象化、多样化的显示其价值和意义,在此可采用可视化技术、报表、统计分析、预测图等方式实现。
3.3 应用架构
大数据应用是其价值的最终体现,应用架构描述了区域医疗卫生应用系统和模式所具备的功能,以及这些功能之间的关系,主要体现在围绕医疗卫生大数据应用如疫情监测、宏观规划、疾病分布及预测等,以及作为支撑相关应用所必须的数据仓库、数据分析与挖掘、大数据相关技术等方面。
区域医疗卫生大数据应用架构如下:
图6 区域医疗卫生大数据应用架构图
区域医疗卫生大数据应用架构以大数据资源存储基础设施、数据仓库、大数据分析与挖掘等为基础,结合大数据分析、挖掘、展示等技术,实现疫情监测、宏观规划、应急联动、疾病分布、疾病预测等应用。
疫情监测:大数据时代,数据、统计、理性思考等为人类对疫情监测及防控带来了新的方法和路径。在某疫情爆发区,通过对医疗卫生大数据抽取,采用实时分析算法及模型,对整个区域疫情的发展态势、严重程度等保持时刻关注,为疫情应对提供决策支持。
宏观规划:医疗卫生大数据中涵盖方方面面的病人、医院、药品等信息,通过深入分析和挖掘,能够为医疗卫生管理机构规划及管理提供决策支持。例如在医院的选址研究中,通过分析病人地址区域、医院位置信息以及结合其他交通等信息,为医院的选址建设提供决策建议。
应急联动:当某地发生突发医疗卫生情况时,通过相关医疗卫生数据的分析,统筹协调区域医疗卫生机构对突发情况进行处置,合理安排及分配医疗卫生资源,提高突发情况处置效率及处理效果。
疾病分布:通过大量医疗卫生数据信息,描述疾病事件在什么时间、地区、人群中发生以及发生多少的现象,流行病学中简称“三间分布”。从数据仓库中,抽取出相应的数据库表,通过分析方法,建立疾病分布模型数据库,基于疾病分布模型数据库进行挖掘和分析,得出疾病的分布信息。
疾病预测:流行病的发生和传播有一定的规律性,与人群分布、气候以及环境指数等因素密切相关。通过挖掘医疗卫生数据内部特征,结合外部因素(气温、人口、环境指数等),可形成相应流行疾病的预测模型,有利于医疗卫生机构提前做好部署,提醒市民防范。
3.4 安全体系
安全体系支撑大数据架构的安全实施,保障医疗卫生大数据应用环境安全,具体可分为数据存储、数据传输、数据应用以及数据管理等方面。
图7 区域医疗卫生大数据安全体系图
医疗卫生数据量本来就很大,近年来随着业务的增长,医疗卫生服务水平的提升,数据量呈非线性增长,数据集中存储在一起且复杂多样,多种应用的并发运行及频繁无序的使用状况,产生了数据类别存放错位、数据丢失等问题。存储备份是保护数据存储安全的重要环节,身份验证能够确定谁正在对数据尤其是敏感数据进行访问,可以有效地应对数据存储安全问题。
数据传输过程中一旦出现安全漏洞,容易使得数据泄露,数据被盗用,造成较大损失。数据掩蔽是保护数据安全的有效手段,这些数据通过加密或断词被屏蔽等进行传输安全控制,加强传输安全可控性。核心数据的加密防护是增强大数据安全的重心,加强对敏感关键数据的加密保护,使任何未经授权许可的用户无法解密获取到实际的数据内容,能够有效地保护数据信息安全。
大数据应用往往具有海量用户及跨平台特性,这在一定程度上会带来较大的风险,因此在数据使用,特别是大数据应用方面应加强授权控制,保护数据的应用安全。数据应用中,通过访问控制技术,防止非授权访问和使用受保护的数据资源,近年来于属性的访问控制模型、基于任务的访问控制模型和基于角色的访问控制模型等诸如此类的访问控制模型比较人们。通过一系列权限控制技术诸如授权、统一身份认证等,对用户进行严格的认证和访问控制,有效保证大数据应用安全。
随着医疗卫生信息化建设的不断深入,应用系统级及其他途径产生的医疗卫生数据呈非线性增长,医疗卫生机构面临大数据环境带来的机遇与挑战。本文借鉴IT治理的思路和方法,对区域医疗卫生大数据架构进行了研究,提出了区域医疗卫生大数据总体架构,并对架构实现做了进一步说明。通过对区域医疗卫生大数据架构的设计及实现,能够为医疗卫生机构大数据的应用及价值实现提供可行的借鉴方法和框架,从而更好地为建设医疗卫生事业服务。
参考文献:
[1]马金凤,赵强,蒋璐,等.云存储在区域医疗卫生信息化建设中的价值探究[J].软件导刊,2013,12(10):10-11.
[2]郭丽,王秀丽,冯婕,等.新医改背景下卫生信息化建设的几点思考[J].信息通信,2013,(2):154-156.
[3]胥洪娥,赵炳新.企业IT治理对IT绩效影响的实证研究[J].科技管理研究,2016,36(4):177-183.
[4]马健.浅析企业IT治理概念及治理架构.科技视界,2015(4):312-312.
[5]宋俊典,李名敏,金涛,等.基于TOGAF的轨道交通企业信息化架构规划研究[J].计算机应用与软件,2010,27(5):165-168.
[6]葛苏慧,梁宏涛,房正华.高校共享数据中心虚拟化技术的架构[J].计算机技术与发展,2014(4):174-177.
[7]任桂禾,王晶.浅谈大数据处理技术架构的演进[J].信息通信技术,2014(6):47-51.
[8]陈丽.基于大数据的应用系统架构研究与应用[J].软件产业与工程,2014(5):33-38.
[9]林青,黄玉蕾.医疗卫生领域大数据共享的应用研究[J].信息安全与技术,2016,7(4):23-25.
[10]张传文.基于大数据的区域医疗信息共享体系研究[M].广州,华南理工大学,2015.
Research on the Big Data Framework of Regional Medical and Health Based on IT Governance
YANG Lin,LI Chao,LIN Li-hua,JI Ting-ting
(Shanghai Development Center of Computer Software Technology,Shanghai 201112)
During the 12th Five-Years Plan period,information construction of regional medical and health has achieved significant results,these information systems come into being bring massive medical and health data.Medical and health data contains wealth of value,through improving the level of medical and health by means of analysis,mining and utilization.How to design a set of reasonable regional medical and health data structure,plan medical and health data value realization,has become the hot issue of the current research.Proposes big data framework of regional medical and health based IT governance,which is focus on current situation,realizes data framework,technology framework,application framework and security system.The design method of architecture provides a novel idea for the big data architecture designing of medical and health,and gives formative medical and health framework to provide a reference model for medical and health institutions.
Medical Big Data;Architecture Research;IT Governance
1007-1423(2017)05-0052-07
10.3969/j.issn.1007-1423.2017.05.013
杨林(1979-),女,湖北襄阳人,工程师,研究方向为IT治理、大数据理论
2016-11-24
2017-02-10
上海市科技人才计划项目(No.16XD1421500)