基于Hadoop的医学影像数据平台应用研究

2015-09-28 10:09陆婷娟戚小平
世界复合医学 2015年3期
关键词:医学影像分布式架构

陆婷娟,戚小平

解放军第一一七医院信息科,杭州 310004

*论著——移动健康*

基于Hadoop的医学影像数据平台应用研究

陆婷娟,戚小平

解放军第一一七医院信息科,杭州 310004

基于医学影像数据的特点和目前医学影像数据管理存在的问题,我们设计了医学影像数据平台的架构,并对关系数据和非关系数据的存储和管理进行了设计。尤其是对影像数据的分布式存储进行了研究,我们利用Hadoop技术、结合分布式文件系统(HDFS)和集中存储(FCSAN)两者的优点和医学影像的特点设计了一套两者相结合的医学影像“在线一归档”二级存储架构,解决了PACS系统的扩展性和可用性问题。最后,基于上述的研究内容,设计了实验,验证了本文所提方法的医学影像数据平台具有的诸多优势。

Hadoop;医疗大数据;分布式存储;海量影像数据

随着医院信息化的建设,医院影像管理系统(PACS)的应用,医疗影像数据正在以惊人的速度增长[1]。对于医疗机构而言,要实现最高数据经济效益,关键是能够对包括结构性和非结构性数据在内的所有影像大数据进行集成[2],实现集中管理和更好的资源配置。在文中我重点研究基于Hadoop技术的医学影像数据平台架构,结合医院信息化发展的现状,设计了医学影像数据平台的架构,并对关系数据和非关系数据的存储和管理进行了设计。

1 医学影像数据的特点

根据对医院影像系统的分析,可以总结出其核心应用系统的数据特点[3]:

数据类型:文件(以静态医学影像图像和动态医学影像为主);

性能要求:同时访问人数少,但传输数据量大,带宽要求高;

数据量:很大且增长很快,从几TB到几百TB;

数据安全性:要求长期保存。

2 医学影像数据管理问题

医学影像数据地长期积累,必然给运行维护方面带来各种问题,因此需要从长远的角度考虑运行维护方面的问题,主要包括以下几个方面[3]:

交互性:要与医院现有的信息系统实现信息传递;

实用性:从医院的实际情况出发,满足医院管理者,医生,病患以及研究人员的需求;

可扩展性:根据实际使用情况,能够增加相应的功能模块;

稳定性和可恢复性:数据平台要具有很高的稳定性,并且在容灾数据备份,在出现问题时能够及时地恢复数据;

保持数据的一致性:不同的系统之间采用相同的字段,为系统之间保持互联提供保障;

成本合理性:影像数据的激增,造成医院信息部门的存储扩容压力,如果一味地购买服务器只会不断增加存储成本。

3 整体设计思路

根据以上所分析的医学影像数据的特点和管理问题,我结合Hadoop技术,设计了医学影像数据平台,结合分布式文件系统(HDFS)和集中存储(FCSAN)两者的优点和医学影像的特点设计了一套两者相结合的医学影像“在线一归档”二级存储架构。

Hadoop 是Apache 开源组织的一个分布式计算框架,也是最知名的开源云计算系统,可以在大量廉价的硬件设备组成的集群上运行应用程序,并为应用程序提供一组稳定可靠的接口,可以构建一个具有高可靠性和良好扩展性的分布式系统。分布式存储构架上,Hadoop基于每个从节点上的本地文件系统[4],构建一个逻辑上整体化的分布式文件系统,以此提供大规模可扩展的分布式数据存储功能。

3.1 整体架构

在系统架构方面,医学影像数据服务平台采用了混合式架构,即分布式架构和集中式架构相结合的影像数据共享交换模式。分布式架构是指医院的各类影像资料保存在各系统的服务器中,影像中心只保存影像资料的索引信息。需要调阅影像资料时再到各系统中调阅。这种结构要实现全面的数据整合是非常困难的。集中式架构是指对医院所有的医学影像(图像和结构化报告等)数据、索引信息都采用集中式存储。但是,这种做法对网络带宽要求高,存储空间要求大。

医学影像平台采用了“1:2:N”的系统设计方案,如图1所示。

图 1 医学影像平台系统设计

“1”是指一个中心,是指设立于医院信息部门的医学影像数据服务中心。为医院的各部门和病患提供影像数据存储、应用协同和运营管理等服务。

“2”是指两个平台,是指虚拟化硬件平台和SaaS模式的软件平台。医学影像协同应用涉及的用户数量庞大,应用类型复杂,对服务器的处理能力有很高的要求。服务器虚拟化技术目前已比较成熟,通过虚拟化技术将不同的应用分散到不同的虚拟服务器上运行,服务器的CPU利用相率将得到大大的提高。同时,服务器虚拟化可以方便得实现动态迁移、HA(高可用)和负载均衡,大大提高系统的可用性。

“N”是指基于中心和平台的多种服务,为各部门和人员提供管理、医疗、教学和科研等应用服务,包括基础、系统决策、影像会诊、影像转诊、影像教学、视频示教和病案调阅等服务,可以根据用户的需求,不断增加服务,成熟一个推出一个。

a.基础服务

基础服务是其他各种服务的基础。包括用户授权、认证管理、流程管理、病人ID管理和图像索引管理。

b.医疗服务

为医生、病患提供与医疗业务相关的服务,包括远程影像转诊、会诊、影像资料的检索与调阅,影像归档存贮、远程备灾等服务。

c.系统决策

主要为院领导和医院卫生管理机构提供分析数据、医院运行情况实时监控和管理等服务。

d.科研服务

为医学研究人员提供与医学影像相关的科研服务,包括图像内容检索、典型病例查询、数据挖掘等服务。

e.教学服务

为医院的医学导师、学生、进修生等相关人员提供医学影像资料,视频示教等服务。

在应用模式方面,采用最常见的前置服务器方式接入云服务平台,以减少对医院现有架构的改动,实现系统平滑升级,快速部署和实施医院影像的应用。降低了硬软件系统安装和维护的难度,降低对信息人员的技术要求。

3.2 核心影像数据的存储与处理

单纯的HDFS分布式文件系统不适合实时应用,但是具备低成本、易扩展、高性能、高可靠的特点[5]。而传统的集中存储((FCSAN)虽然成本、扩展性和传输带宽受到限制,但是非常适合需要低时延快速读写大量小文件的实时应用。因此,结合两者的优点和医学影像的特点设计了一套HDFS和FCSAN相结合的医学影像“在线一归档”二级存储架构。整个架构分成两个层次:底层是数据文件存储层,上层是文件访问组件层。系统架构如图2所示。

图2 系统架构图

数据存储层是医学影像资料的实际存储位置,它包含两个部分:基于FCSAN的一级“在线库”和基于HDFS的二级“归档库”。

a.一级“在线库”

医学影像数据中心保留一年内的原始DICOM图像文件,存储在高性能的FC SAN中。超过一年的图像则转换成S-DICOM文件转存到由HDFS集群构成的二级“归档库”中[6]。同时需要长期保存的可调用的数据以及远程灾备的数据也转换成S-DICOM文件,转存到HDFS分布式存储集群中。SAN(Storage Area Network,存储局域网络),主要目的是在计算机和存储元素之间传输数据[7]。

b.二级“归档库”

“归档库”的影像资料按照“以病人为中心”的原则存储,将病人生命周期内的全部医学影像S-DICOM文件[8]按照Modality(成像设备)、检查标识(Study UID)分类存储在同一个PatientID目录结构下,便于病人相关图像的分类检索和预读缓存,提高图像的访问速度。

c.SDFO

数据存储层之上是文件访问组件层。其核心是SDFO(S-DICOM File Operator)组件[9],主要用于屏蔽底层DICOM图像文件的操作细节,为上层的SaaS模式医学影像应用系统和DICOM应用组件提供统一的图像查询、读取和写入接口。SDFO的核心主要由SDFO Locator, SDFO Reader, SDFO Writer,SDFOConverter, SDFO Client五个部分组成:

· SDFO Client:提供HDFS和本地文件系统访问的客户端接口;

· SDFO Locator:用于检索DICOM文件的存储位置;

· SDFO Reader:用于读取DICOM文件;

· SDFO Writer:负责将从影像设备获取的图像写入集中存储((FCSAN);

· SDFO Converter:负责定时将FC SAN中的DICOM图像转换为S-DICOM格式,合并后存储到HDFS中。

4 实验

根据医院数据特点,设计了一个9.8G的文件数据包,包括:数据文件0.31G;视频文件2.70G;影像图片6.82G。运行环境,如表1所示。

表1 实验环境配置表

实验步骤:

数据入库:文件包上传到平台,并导入HDFS;

文件通过百兆以太网上传到平台并导入HDFS中共用时4分钟38秒

图 3 数据包导入HDFS时序

数据处理:对影像图片数据进行转换处理并再次存储到HDFS,对关系数据进行插入;

影像图片数据处理用时14秒,如图4所示:

图 4 影像图片处理时间

关系数据插入HBASE用时26.5秒,如图5所示:

图5 关系数据导入时间

数据读取:读取“二级归档库”的S-DICOM图像以及将DICOM图像合并转换成S-DICOM图像。

5 结果

根据测试情况来看,客户端同时读取和转换一个病人一次检查的S-DICOM文件时间约为1-2s左右,这样的延时对PACS系统的操作是可以忽略的。

测试结果表明MapReduce集群可以有效利用各存储节点的计算能力,通过提高水平扩展的方式提高医学影像海量数据处理的性能。实验表明,与传统的数据平台技术相比,基于Hadoop技术的医学影像数据平台具有诸多优势:分布式存储,没有单点服务器瓶颈,由系统中所有服务器一起提供数据服务;分布式数据,支持每秒万次以上读写;分布式数据库支持结构化和非结构化数据并存,保证高度数据一致;支持不停机扩容,同步增加存储能力和计算能力。该系统经过测试使用,取得了比较满意的效果,能够满足大型医院影像中心的功能和性能要求。

6 总结与展望

通过模拟医院数据特性,在实验平台环境下,验证了平台将数据从数据库导入Hadoop大数据平台的能力,验证了HDFS对非结构化数据的存储和管理能力、验证了复杂结构医疗数据包基于Hadoop大数据[10]平台从导入到检索、分析、交换的性能。因此,将Hadoop技术应用到医院信息化中可以帮助医院解决诸多的现实问题,日后还可以进一步将Hadoop技术应用到发展区域医疗平台中[11]。

(References)

[1] 李志强,康立军,王文翠.面向医疗信息的大数据安全管理策略探究[J].计算机安全,2014,04(2):84-86.

[2] 黄枫.医疗健康大数据 - 万亿行业[C]. 大数据全球技术峰会,北京:IT168文库,2013 .

[3] 柏志安,朱立峰,孙辅,等.医院集团内医学影像检查协同服务模式和实现[J].中国数字医学,2010,5(6):27-29.

[4] Wildani, Avani. The Promise Of Data Grouping In Large Scale Storage Systems[J].Computer Science,2013,36(8):72-75.

[5] 张迪,霍妍.云计算技术在医院信息化中的应用[J].信息技术, 2011(5):171-173.

[6] 黄晓云.基于HDFS的云存储服务系统研究[D].大连:大连海事大学管理科学与工程系,2010.

[7] 张洪娜.云计算平台中数据存储与文件管理的研究[D].广州: 广东工业大学计算机应用技术系,2011.

[8] Cashcow.麦肯锡:医疗行业的大数据革命[EB/ OL].2014-11. http://www.ctocio.com/reports/12037.html.

[9] 郑西川.区域医疗医学影像信息共享方案进展与面临的挑战[J].中国医疗器械信息,2009,15(10):57-61.

[10] 俞梦孙,曹征涛,杨军,等.关于尽快创立中国健康医学模式的思考与解读[J].世界复合医学,2015,1(2):99-102.

[11] 马光志,张晓祥,周彬.大数据时代的询证医学[J].世界复合医学,2015,1(2):120-124.

Medical image data with hadoop

LU Tingjuan, QI Xiaoping
Information Technology Office, No.117 Hospital of PLA, Hangzhou 310004

Based on the characteristics of medical image data and problems of management, We designed a novel framework for medical image data process, designed the architecture of medical imaging data platform include managements of relational data and non-relational data., and especially studied on the solution for distributed storage of image data. A medical image oriented ‘online -archive' two-level hierarchical architecture was developed based on Hadoop, HDFS and FCSAN technology. It addressed 2 issues:the scalability and the availability of PACS. Finally, based on the research above I built a pilot system to verify the advantages of the proposed method in this paper.

Hadoop; medical big data; distributed storage; massive image data

TP3

A

10.11966/j.issn.2095-994X.2015.01.03.06

2015-07-26;

2015-08-10

国家自然科学基金(81472861)

陆婷娟,工程师,研究方向为医院信息化管理,电子信箱:ltj.1212@163.com

引用格式:陆婷娟,戚小平.基于Hadoop的医学影像数据平台应用研究[J].世界复合医学,2015,1(3):223-226

猜你喜欢
医学影像分布式架构
基于FPGA的RNN硬件加速架构
医学影像技术在医学影像诊断中的合理运用
《当代医学影像误诊学》出版
《当代医学影像误诊学》正式出版
功能架构在电子电气架构开发中的应用和实践
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
WebGIS架构下的地理信息系统构建研究
基于DDS的分布式三维协同仿真研究
一种基于FPGA+ARM架构的μPMU实现