吴丽
摘 要:本文探讨了云计算的发展动态和典型架构,并对云计算在中医药信息化中的应用做了初步探讨,最后提出了引入云计算需要重点关注的问题。
关键词:云计算;中医药;信息化
1 引言
近年来,云计算已经成为IT行业的热门技术和话题。由于其并行计算、海量数据存储、扩展性极强的特点,逐步在多个领域得到蓬勃发展。笔者就如何在云计算环境下进行中医药信息化建设进行了探讨。
2 云计算简介与典型架构
2.1 云计算简介
云计算描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源。云运算是继上世纪80年代大型计算机架构演进到客户端-服務器计算架构之后的又一次计算架构巨变。用户不需要了解“云”中基础设施的细节,不必具有相应的专业知识,也无需直接进行控制,就可以在云计算平台上完成海量计算和存储任务的处理。
根据云计算中服务对象和提供者的关系,美国国家标准与技术研究院(NIST)定义了不同的云计算部署模型,包括:公有云(Public Cloud)、私有云(Private Cloud)、社区云(Community Cloud)和混合云(Hybrid Cloud)。企业和科研单位既可以利用服务提供商提供的公有云服务,,也可以通过云平台构建私有云。当前业界有不少公司已经提供公有云服务,比如国外的Amazon、国内的阿里巴巴和腾讯等,用户可以根据计算、存储需求来购买公用云服务。此外,目前主流的云平台包括VMware的vSphere、微软的Windows Azure、Citrix的XenServer以及部分开源项目(比如KVM等),用户可以根据自己的需求选择不同的云平台来构建私有云。
随着各行业数十年IT化的蓬勃发展,各种信息处理平台积累了海量的历史数据,蕴含了巨大的分析价值,这类数据通常称为“大数据”。由于这些大数据存在数据集超大(常常可达TB甚至PB级别)、非结构化(比如大量图片)、异构数据(多种数据比如文本、图形、视频混合)的特点,传统的关系型数据库应用已经难以满足大数据处理的要求。而云计算利用大量通用计算、存储资源支持并行、分布式计算的特点,相对较好的满足了大数据处理的要求。2003-2006年,Google陆续发表了三篇论文:《The Google File System》、《MapReduce: Simplified Data Processing on Large Clusters》、《Bigtable: A Distributed Storage System for Structured Data》,分别解决了分布式文件系统、分布式数据处理、非关系型数据库的关键技术,极大促进了大数据处理技术的发展,使得云计算首先在互联网行业生根发芽,逐步拓展到其他行业。
2.2 典型云计算架构
云计算对大数据的核心处理技术目前较为流行的是Map-Reduce架构,它是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。其核心思想是将海量的数据集合分解为多个子数据集,通过“Map(映射)”将子数据集和计算任务分解到各个计算节点上去,然后将计算结果通过“Reduce(化简)”操作汇总到一起。当前业界应用较多的Map Reduce开源项目为Apache Hadoop,其发源于Yahoo,作为开源项目开放后很多互联网公司首先在此项目上应用,其后得到了很多扩展,在大数据领域得到了蓬勃发展。
Hadoop框架透明地为应用提供可靠性和数据移动。它实现了Map-Reduce架构的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。Hadoop还提供了分布式文件系统,用以存储所有计算节点的数据,这为整个集群带来了非常高的带宽。Map-Reduce和分布式文件系统的设计,使得整个框架能够自动处理节点故障,从而实现了高度可扩展的分布式计算。
利用开源的云计算平台(比如KVM等)、分布式处理软件框架(比如Hadoop),企业和科研单位可以快速搭建具备海量数据处理、超强计算能力的云计算系统,从而使得科研人员得以聚焦在自己的专业领域上,避免在底层系统的构建、异常的处理方面浪费时间,从而大大提升了效率。
3 中医药信息化中的云计算应用与展望
中医药是我国的传统医学,承载着几千年来的中华民族优秀传统文化。中医药信息化是充分利用信息技术促进中医药信息资源的开发、利用和共享。加快中医药信息化建设,能够提高中医药科学管理水平和创新能力,促进中医药事业加速发展,实现中医药的现代化。在中医药信息化的道路上,中医临床诊断系统、专家系统、中医药数据挖掘系统等都取得了不同程度的发展,而云计算的引入将大大提高中医药信息化建设的效率。下面就云计算在中医药信息化中的应用做一些探讨。
3.1 分布式数据挖掘系统
在几千年的中医药发展历程中,留下了许多珍贵的文献资料,蕴含丰富的科学内容,通过数据挖掘技术可以找出隐含的有用信息和知识。目前已在中医药领域得到广泛应用,但现在一般采用的是基于文本或关系型数据库的单机应用,这种方式能支持的数据量级较小。而数据挖掘的准确性,除了与算法的选择相关外,还与数据集的“量”有较大关系,数据集的量越大,数据挖掘的准确性越高。当数据挖掘的数据集合超过一定程度、或者算法引入的因子过多时,传统的数据挖掘平台和算法往往难以支撑数据挖掘程序的有效运行。此时往往采用如下几个做法:
(1)缩减数据集:在数据预处理阶段按比例和一定规则(比如随机采样)对原始数据集采样,形成新的数据集,作为数据挖掘的输入数据。这种方式提高了数据挖掘算法的运算效率,但损失了精确性。
(2)优化算法:对算法优化,比如采用不同的算法或者减少算法因子,这会提升数据挖掘计算的效率,但也损失了精度;
(3)提高硬件性能:比如采用更高计算能力、更大内存的服务器,更高性能的数据仓库等,这将极大增加投资成本。服务器硬件性能的提升与投资非线性增长关系,超出一定范围后,计算性能提升1倍,则需投入资金可能高出N倍。
而基于云计算平台构建分布式的数据挖掘系统,比如采用前文提到的Hadoop开源软件框架,将数据挖掘程序和数据分布到多个不同的任务/数据节点上去,每个节点完成自己的挖掘任务后,反馈结果给汇总服务器,最后汇总数据结果。由于这种模式不需要对硬件提出额外要求,只需要根据数据挖掘的数据集和算法复杂度增加常规服务器即可,并且可以做到按需添加,避免闲时不用的浪费,极大降低了投资成本。
3.2 医学数据的处理与存储
在中医药医疗行业有大量的医学数据需要处理和存储,这些医学数据包括电子病历、体检记录、医学影像等,传统的存储模式分散在信息平台的不同医疗系统中:电子病历系统(EMR),医学影像存储与传输系统(PACS)、检验信息系统(LIS)等。受限于传统医疗系统在基础架构方面的限制,通常存在如下问题:
(1)大数据量:某医院每天产生GB级以上的原始数据,而由于传统数据库在大数据文件处理方面的限制,往往需要进行转换处理和归档存储,无法很好处理大数据的文件。
(2)异构数据:异构数据(文本、图像、语音、视频等)无法很好的保存在同一个关系型数据库中。
(3)数据源分散:由于技术、组织和流程的限制,数据保存分散,分散在不同的数据源中,数据不能在存储系统或不同磁盘之间自由流动,同时缺乏合理的备份恢复机制,并且安全保护可靠性弱。
这些医学数据的处理和保存方面既需要高性能的计算能力,又需要海量的存储资源。云计算技术中的分布式计算应用可以将需要密集计算的数据转换任务分布到大量通用的计算节点上并行完成,从而大大缩短了数据处理的时间,提高处理效率。对于海量医学异构数据的存储,可通过云存储将海量数据分布式存储到网络中多个不同类型的存储设备上,无需专用的存储资源,并可保证系统的可靠性,降低了投资成本。同时,云计算亦可以对平台中各类应用系统所需资源进行合理调度,提高硬件利用效率,减少数据安全隐患,提高网络运行性能,并保障所有应用系统的安全运行。
3.3 中医药科研计算存储平台
在中医药科研中,有大量项目类似如数据挖掘、医学图像处理等,每个项目都需要考虑对数据进行计算与存储建模、设计和实现,占用科研人员大量的宝贵时间。同时,由于每个项目独立计算和存储,也不利于硬件资源的共享和复用。通过云计算技术的引入构建统一的分布式中医药科研计算和存储平台,专业领域的科研人员直接使用云计算平台提供的API实现计算和存储功能,从而只需要关注本专业课题的研究,不需要关注具体的计算和存储实现方案,提高了科研效率。同时由于多个项目共用科研计算存储平台,达到了资源的复用,节约了大量的科研经费,避免了硬件投资的浪费。
4 中医药信息化中的云计算应用重点问题探讨
虽然云计算分布式处理、海量存储的特点对需要大数据量、密集计算的数据处理有很大帮助,但距离广泛应用仍面临部分问题需要解决,比如:
4.1 公有云、私有云的选择
目前已有不少公有云运营商提供公有云服务,公有云屏蔽云平台的技术实现细节,使得课题组研发人员可以聚焦于专业领域的问题解决上,提高了科研效率。同时公有云一般提供按资源(比如CPU、内存、存储空间等)、按时段(按日、月、年等)收费,研究人员可以在需要时按需申请。但公有云面临不同服务提供商提供的服务质量无法保证、通过公众网络访问云系统面临的潜在安全风险、以及网络中断导致的业务不可持续风险。
与公有云对比,私有云在安全、网络中断、服务质量等方面的风险相对小一些,但面临资源得不到充分利用、需要较强的技术团队支撑私有云平台的运行等问题。
在中医药信息化建设中,可以考虑采用“混合云”的模式,即公有云、私有云共存。科研单位可以自行构建私有云平台,对于高安全性、高可靠性要求的计算、存储任务,放在私有云中运行。对于突发的、安全要求不高、普通的中间过程计算任务,可以充分利用公有云按需服务、容量大的特点,采用公有云运行。
4.2 云平台的选择
对于私有云平台的搭建,则涉及到不同云平台的选择问题。目前主流的商用云平台有VMware的vSphere、微软的Hyper-V等,开源的平台有XEN、KVM等。商用平台应用广泛、应用适应性强,有较好的技术服务支撑,但收费亦较高。开源平台费用少,但需要较强的技术实力来保证云平台的运行和维护。
用户可综合投资经费、技术保障能力、应用的平台诉求、演进需求等多维度因素,综合评估后做出选择。
4.3 云安全
由于云计算改变了传统的计算模式,资源最大化的同时,也带来了潜在的安全风险。比如在公有云的使用中,账户的错误安全策略、服务器DDOS攻击、服务器端木马都可能造成对业务造成影响。
这需要在将应用部署到云平台时充分评估,制定合理的安全策略、安全突发事件的应急处理方案、定期安全审计等。必要时,需要和云服务提供商一起讨论、制定更为严格、有保证的云服务策略。
5 结语
云计算是新的计算和资源共享模式,具有极大的投资收益和便利性,已经成为海量计算和存储任务处理的主流技术方案。而中医药领域要得到长远发展,必须对海量数据进行保存、研究和规范化整理,通过充分利用云计算技术,中医药科研人员可进一步深化中医药诊疗信息化和科研信息化的建设工作。
[参考文献]
[1]Sanjay Ghemawat,Howard Gobioff,and Shun-Tak Leung.The Google File System.http://static.googleusercontent.com/media/research.google.com/en//archive/gfs-sosp2003.pdf.
[2]Jeffrey Dean and Sanjay Ghemawat.MapReduce:Simplified Data Processing on Large Clusters. http://static.googleusercontent.com/media/research.google.com/en//archive/mapreduce-osdi04.pdf.
[3]高漢松,肖凌,许德玮,桑梓勤.基于云计算的医疗大数据挖掘平台. 医学信息学杂志.2013,(5):7-12.
[4]张杰敏.云计算实现医学数据中心的模型分析.漳州师范学院学报(自然科学版).2011,(4):47-52.
[5]邬启明.Hadoop介绍及实战.http://wenku.baidu.com/view/53db8c19cc7931b765ce15af.htm1.[2013-04-18].
[6]赵修文,刘伍颖,王挺.基于本体的医疗信息搜索技.计算机工程与应用.2010,46 (20):251—256.
[7]张惠然,戴佳筑,李芝龙,沈小龙.基于云计算平台的医疗健康监视系统.上海大学学报(自然科学版)2013(2),35-38.
[8]李彭军,陈光杰,郭文明.基于HDFS的区域医学影像分布式存储架构设计[J].南方医科大学学报,2011,(3):495-498.